Általános tudnivalók

A kurzus (Neptun BMETE959308) célja a hallgatók megismertetése azoknak a nyelvészeti alkalmazásoknak a matematikai alapjaival, amelyek felhasználása nélkül nem készíthetô modern ember-komputer interakciós alkalmazás(emberi beszéddel, írással, szöveggel, nem pedig programnyelven való kommunikáció), és amelyek nélkül a modern multilingvális társadalom egyre kevésbé elképzelhetô. Jegyzet: Mathematical Linguistics A természetes nyelvfeldolgozás matematikai alapjai

A természetes nyelvfeldolgozás matematikai alapjai (Mathematical Foundations of Natural Language Processing)

Az előadások helye, ideje ?, szerda 12:15-14:00

Tantárgy kód BMETE959308 (NYELVMAT)

Kornai András fogadóórája Kedd 12-1:30, H/5/5

Kredit 3 -- év közben projekt vagy év végén szóbeli vizsga


Ajánlott/kötelező előtanulmányi rend

Kapcsolódó kurzusok

A 2-4 előadásokban matematikai nyelvészeti szemszögből tárgyalt anyag jóval részletesebb és gépközpontúbb kifejtését adja Naszódi Mátyás: Bevezetés a nyelvmérnökségbe c. kurzusa.

A 8. és 12 előadásokhoz hasonlóan illeszkedik Tikk Domonkos Szövegbányászat kurzusa illetve

Szakadát István Digitális archívumok és szemantikus technikák kurzusa.

Jegyzet, tankönyv, felhasználható irodalom

Kornai András: Mathematical Linguistics. Springer Verlag (2007) (Advanced Information and Knowledge Processing series -- series editors Jain and Wu) kézirat Az alábbiakban csak Név (évszám) formában hivatkozott könyvek és cikkek pontos bibliográfiai adatait ld. itt.

Tematika

Az előadások célja a hallgatók megismertetése azoknak a nyelvészeti elméleteknek a matematikai alapjaival, amelyek felhasználása nélkül nem készíthető modern ember-komputer interakciós alkalmazás (emberi beszéddel, írással, szöveggel, nem pedig programnyelven való kommunikáció) és amelyek nélkül a modern multiligvális társadalom egyre kevésbé elképzelhető.
  1. Nyelvészet, grammatika, axiomatikus módszer
  2. Véges automaták és Turing gépek közötti nyelvosztályok. Generálás
  3. Hangtan: fonémák, jegyek, hangsúly, intonáció, szupraszegmentális és autoszegmentális elemek, nyelvi ellenőrzés (spell checking)
  4. Alaktan: prozódia, szóképzés, optimalitás, Zipf-törvénye
  5. Mondattan: kombinatorikus grammatikai és szemantikai elméletek. Súlyozott nyelvek, súlyozott véges automaták, rejtett Markov modellek
  6. Jelentéstan: paradoxonok, Montague nyelvtan. Igazságértékek, változó kötés, típus algebra
  7. Bonyolultság: információ, Kolmogorov bonyolultság
  8. Nyelvi alakfelismerés: kvantizáció, magasszintű jelfeldolgozás, a jel információtartalma, dokumentum osztályozás
  9. Beszédfelismerés: alacsony szintő jelfeldolgozás. A fonémák mint rejtett elemek. Fonológiai és fonetikai kategóriák. Beszédszintézis
  10. Kézi és nyomtatott írás felismerése: lap dekompozíció, jegy számítás.
  11. Tanuló algoritmusok: neurális hálók, rejtett Markov modellek, szabály indukció.
  12. Egyéb alkalmazások: kereső motorok, gépi fordítás.

Vizsgatételek

Az előadások nem követik szigorúan a könyv fejezeteit. A szóbeli vizsgán csak az lesz kötelező tétel ami (A) a könyvben szerepel és az előadáson van is szó róla, illetve (B) az ilyenek megértéséhez szükséges előfeltételek. Az előbbiekhez a könyv alfejezeteire utalunk, az utóbbiakhoz (ahol lehet a weben elérhető) segédanyagokat jelölünk ki. Ezeken túlmenően (C) a hallgató önként választhat a fenti kritériumoknak nem megfelelő szorgalmi tételt is, ezeket a listában *-gal jelöljük.
  1. A generálás mint nem-determinisztikus algoritmus, a nyelvtan mint axiómarendszer, a nyelvtechnológia alapfeladatai (2.1, 2.2)
  2. Ábécé, láncok, formális nyelvek, Chomsky-hierarchia (2.3). A klasszikus bevezetés Salomaa (1973) Formal Languages (csak az első rész, pp 1-122). Magyar nyelven használható Alberti Gábor (2006) Matematika a természetes nyelvek leírásában (Tinta Kiadó), illetve Bach Iván formális nyelvek jegyzete.
  3. Determinisztikus, nem-determinisztikus véges (fél)automaták. Véges automaták, reguláris kifejezések, és félcsoportok kapcsolata (5.1.1) Alapszinten Salomaa, Alberti, Bach, középhaladó szinten Ginzburg (1968), haladóknak Eilenberg (1974). Jó mégJ. Horton Conway (1971) Regular algebra and finite machines (Chapman and Hill). Itt is és máshol is hasznos Jurafsky és Martin (1999) (új kiadás 2009), ehhez a tételhez a harmadik fejezet kapcsolódik. Kiraktam Kleene és Moore klasszikus cikkeit, érdekes olvasmány mindakettő, de nem vizsgatétel.
  4. *Kaszkád- és koszorú-szorzat, Krohn-Rhodes tétel. (5.6). Ginzburg, Eilenberg, Maler és Pnueli (1994)
  5. Fonológiai ábécé, természetes osztályok, környezetfüggő szabályrendszerek, szótagok (3.1, 3.2, 4.1.1)
  6. Szupraszegmentálisok, autoszegmensek (3.3)
  7. Transzducerek és fonológiai alkalmazásuk. (3.4). Normál esetben ez egy teljes kurzus -- a vizsgakérdés csak az, hogy hogyan csinálunk környezetfüggő szabályból véges transzducert. A klasszikus bevezető Kaplan és Kay (1994). Jó cikkek vannak a Roche és Schabes (1997), Kornai (1999), illetve az ezeket követő FSMNLP kötetekben.
  8. Szóképzés (4.2)
  9. Szógyakoriság. Zipf törvényei és Herdan törvénye, ezek kapcsolata (4.4)
  10. Súlyozott automaták és transzducerek (5.4, 5.5)
  11. Kombinatorikus szintaxis (5.1)
  12. Információ, entrópia, Shannon kódolási tétel, Hincsin-tétel (7.1)
  13. Kolmogorov-bonyolultság (7.2)
  14. *Tanuláselmélet (7.3)
  15. Markov láncok, HMM, Shannon állapottétel (8.2)
  16. Téma szerinti osztályozás (8.4) Reuters korpusz
  17. Jelfeldolgozás, LPC, mintavételi tétel (9.1)
  18. Írásfelismerés (9.3)

Szorgalmi feladatok

  1. Prímszámok környezetfüggő nyelvtannal. Megoldás
  2. Nyelvmodellezés. Adva van (természetes nyelvi) szavak egy w_1, w_2, ... w_n sorozata, beszéljük meg a P(w_{n+1}|w_1,...,w_n) feltételes eloszlást: ez a nyelvmodellezési probléma. Ennek a gyakorlatban kitüntetett jelentősége van, de a feladat nem ez, hanem az alábbi: ha Q_1 és Q_2 a nyelvmodellezési probléma két javasolt megoldása, és P az empirikus eloszlás, adjunk olyan jóságmértéket (figure of merit) ami megmondja Q_1 és Q_2 közül melyik közelíti P-t jobban.
  3. Gépi fordítás. Adott egy forrásnyelvi S szöveg, ennek kézi fordítása K és gépi fordításai G_1 és G_2. Adjunk olyan jóságmértéket ami G_1 és G_2 közti választást tesz lehetővé. Kell-e S-re támaszkodnunk, és ha igen miért nem?
  4. Milyen szabályos nyelvekhez tartozik csoportmentes szintaktikai monoid? Hogyan jellemezzük ezeket a nyelveket félautomatával ill. szabályos kifejezéssel?

Kötelező feladatok

  1. Adott tövek egy T_1, T_2, .... végtelen sorozata amely Zipf eloszlást követ P(T_i) ~ 1/i^B (B>1), és adott egy paradigma melyben a k paradigmatikus alak valószinűsége rögzített p_k (k=1,...,N). Milyen eloszlást követnek a w szavak amelyeket az összes T_i tőből az N-féle paradigmatikus alak bármelyikével nyerünk, feltéve hogy P(T_i.k) = P(T_i)p_k.
Last updated 2013. jan. 26.