Általános tudnivalók
A kurzus (Neptun BMETE959308) célja a hallgatók
megismertetése azoknak a nyelvészeti alkalmazásoknak a
matematikai alapjaival, amelyek felhasználása nélkül
nem készíthetô modern ember-komputer interakciós
alkalmazás(emberi beszéddel, írással,
szöveggel, nem pedig programnyelven való
kommunikáció), és amelyek nélkül a modern
multilingvális társadalom egyre kevésbé
elképzelhetô.
Jegyzet: Mathematical Linguistics
A természetes nyelvfeldolgozás matematikai
alapjai
A természetes nyelvfeldolgozás matematikai alapjai
(Mathematical Foundations of Natural Language Processing)
Az előadások helye, ideje ?, szerda 12:15-14:00
Tantárgy kód BMETE959308 (NYELVMAT)
Kornai András fogadóórája Kedd 12-1:30, H/5/5
Kredit 3 -- év közben projekt vagy év végén szóbeli vizsga
Ajánlott/kötelező előtanulmányi rend
- lineáris algebra, formális nyelvek, diszkrét matematika
- algebra, analízis
- valszám
Kapcsolódó kurzusok
A 2-4 előadásokban matematikai nyelvészeti szemszögből tárgyalt anyag
jóval részletesebb és gépközpontúbb kifejtését adja Naszódi Mátyás: Bevezetés a
nyelvmérnökségbe c. kurzusa.
A 8. és 12 előadásokhoz hasonlóan illeszkedik Tikk Domonkos Szövegbányászat
kurzusa illetve
Szakadát István Digitális archívumok
és szemantikus technikák kurzusa.
Jegyzet, tankönyv, felhasználható irodalom
Kornai András: Mathematical Linguistics. Springer Verlag (2007) (Advanced
Information and Knowledge Processing series -- series editors Jain and Wu) kézirat Az alábbiakban csak Név
(évszám) formában hivatkozott könyvek és cikkek pontos bibliográfiai adatait
ld. itt.
Tematika
Az előadások célja a hallgatók megismertetése azoknak a nyelvészeti
elméleteknek a matematikai alapjaival, amelyek felhasználása nélkül nem
készíthető modern ember-komputer interakciós alkalmazás (emberi
beszéddel, írással, szöveggel, nem pedig programnyelven való
kommunikáció) és amelyek nélkül a modern multiligvális társadalom egyre
kevésbé elképzelhető.
- Nyelvészet, grammatika, axiomatikus módszer
- Véges automaták és Turing gépek közötti nyelvosztályok. Generálás
- Hangtan: fonémák, jegyek, hangsúly, intonáció, szupraszegmentális
és autoszegmentális elemek, nyelvi ellenőrzés (spell checking)
- Alaktan: prozódia, szóképzés, optimalitás, Zipf-törvénye
- Mondattan: kombinatorikus grammatikai és szemantikai elméletek.
Súlyozott nyelvek, súlyozott véges automaták, rejtett Markov modellek
- Jelentéstan: paradoxonok, Montague nyelvtan. Igazságértékek,
változó kötés, típus algebra
- Bonyolultság: információ, Kolmogorov bonyolultság
- Nyelvi alakfelismerés: kvantizáció, magasszintű jelfeldolgozás, a jel
információtartalma, dokumentum osztályozás
- Beszédfelismerés: alacsony szintő jelfeldolgozás. A fonémák mint
rejtett elemek. Fonológiai és fonetikai kategóriák. Beszédszintézis
- Kézi és nyomtatott írás felismerése: lap dekompozíció, jegy
számítás.
- Tanuló algoritmusok: neurális hálók, rejtett Markov modellek, szabály indukció.
- Egyéb alkalmazások: kereső motorok, gépi fordítás.
Vizsgatételek
Az előadások nem követik szigorúan a könyv fejezeteit. A szóbeli
vizsgán csak az lesz kötelező tétel ami (A) a könyvben szerepel és az
előadáson van is szó róla, illetve (B) az ilyenek megértéséhez
szükséges előfeltételek. Az előbbiekhez a könyv alfejezeteire utalunk,
az utóbbiakhoz (ahol lehet a weben elérhető) segédanyagokat jelölünk
ki. Ezeken túlmenően (C) a hallgató önként választhat a fenti
kritériumoknak nem megfelelő szorgalmi tételt is, ezeket a listában
*-gal jelöljük.
- A generálás mint nem-determinisztikus algoritmus, a nyelvtan
mint axiómarendszer, a nyelvtechnológia alapfeladatai (2.1, 2.2)
- Ábécé, láncok, formális nyelvek, Chomsky-hierarchia (2.3). A
klasszikus bevezetés Salomaa (1973) Formal Languages (csak az első rész, pp
1-122). Magyar nyelven használható Alberti Gábor (2006) Matematika a
természetes nyelvek leírásában (Tinta Kiadó), illetve Bach Iván
formális nyelvek jegyzete.
- Determinisztikus, nem-determinisztikus véges (fél)automaták. Véges
automaták, reguláris kifejezések, és félcsoportok kapcsolata (5.1.1)
Alapszinten Salomaa, Alberti, Bach, középhaladó szinten Ginzburg (1968),
haladóknak Eilenberg (1974). Jó mégJ. Horton Conway (1971) Regular algebra and
finite machines (Chapman and Hill). Itt is és máshol is hasznos Jurafsky és
Martin (1999) (új kiadás 2009), ehhez a tételhez a harmadik
fejezet kapcsolódik. Kiraktam Kleene és Moore klasszikus cikkeit, érdekes olvasmány
mindakettő, de nem vizsgatétel.
- *Kaszkád- és koszorú-szorzat, Krohn-Rhodes tétel. (5.6). Ginzburg,
Eilenberg, Maler és Pnueli (1994)
- Fonológiai ábécé, természetes osztályok, környezetfüggő
szabályrendszerek, szótagok (3.1, 3.2, 4.1.1)
- Szupraszegmentálisok, autoszegmensek (3.3)
- Transzducerek és fonológiai alkalmazásuk. (3.4). Normál esetben ez egy teljes kurzus -- a vizsgakérdés csak
az, hogy hogyan csinálunk környezetfüggő szabályból véges transzducert. A
klasszikus bevezető Kaplan és Kay (1994). Jó
cikkek vannak a Roche és Schabes (1997), Kornai (1999), illetve az ezeket
követő FSMNLP
kötetekben.
- Szóképzés (4.2)
- Szógyakoriság. Zipf törvényei és Herdan törvénye, ezek kapcsolata
(4.4)
- Súlyozott automaták és transzducerek (5.4, 5.5)
- Kombinatorikus szintaxis (5.1)
- Információ, entrópia, Shannon kódolási tétel, Hincsin-tétel (7.1)
- Kolmogorov-bonyolultság (7.2)
- *Tanuláselmélet (7.3)
- Markov láncok, HMM, Shannon állapottétel (8.2)
- Téma szerinti osztályozás (8.4) Reuters korpusz
- Jelfeldolgozás, LPC, mintavételi tétel (9.1)
- Írásfelismerés (9.3)
Szorgalmi feladatok
- Prímszámok környezetfüggő nyelvtannal. Megoldás
- Nyelvmodellezés. Adva van (természetes nyelvi) szavak egy w_1, w_2, ...
w_n sorozata, beszéljük meg a P(w_{n+1}|w_1,...,w_n) feltételes eloszlást:
ez a nyelvmodellezési probléma. Ennek a gyakorlatban kitüntetett
jelentősége van, de a feladat nem ez, hanem az alábbi: ha Q_1 és Q_2
a nyelvmodellezési probléma két javasolt megoldása, és P az empirikus
eloszlás, adjunk olyan jóságmértéket (figure of merit) ami megmondja
Q_1 és Q_2 közül melyik közelíti P-t jobban.
- Gépi fordítás. Adott egy forrásnyelvi S szöveg, ennek kézi
fordítása K és gépi fordításai G_1 és G_2. Adjunk olyan
jóságmértéket ami G_1 és G_2 közti választást tesz lehetővé. Kell-e
S-re támaszkodnunk, és ha igen miért nem?
- Milyen szabályos nyelvekhez tartozik csoportmentes szintaktikai monoid?
Hogyan jellemezzük ezeket a nyelveket félautomatával ill. szabályos
kifejezéssel?
Kötelező feladatok
- Adott tövek egy T_1, T_2, .... végtelen sorozata amely Zipf
eloszlást követ P(T_i) ~ 1/i^B (B>1), és adott egy paradigma
melyben a k paradigmatikus alak valószinűsége rögzített p_k
(k=1,...,N). Milyen eloszlást követnek a w szavak amelyeket az
összes T_i tőből az N-féle paradigmatikus alak bármelyikével
nyerünk, feltéve hogy P(T_i.k) = P(T_i)p_k.
Last updated 2013. jan. 26.