Obi-ugor morfológiai elemzők és korpuszok  részletek

súgó  nyomtatás 
vissza »

 

Projekt adatai

 
azonosító
71707
típus NF
Vezető kutató Fejes László
magyar cím Obi-ugor morfológiai elemzők és korpuszok
Angol cím Ob-Ugric morphological analyzers and corpora
magyar kulcsszavak vogul/manysi, osztják/hanti, számítógépes nyelvészet, uráli nyelvek, veszélyeztetett nyelvek dokumentálása
angol kulcsszavak Vogul/Mansi, Ostyak/Khanty, computational linguistics, Uralic languages, documenting endangered languages
megadott besorolás
Nyelvtudomány (Bölcsészet- és Társadalomtudományok Kollégiuma)100 %
Ortelius tudományág: Számítógépes nyelvészet
zsűri Nyelvészet
Kutatóhely Nyelvtudományi Kutatóközpont
résztvevők Ruttkay Miklián Eszter
Sipos Mária
projekt kezdete 2008-04-01
projekt vége 2010-12-31
aktuális összeg (MFt) 9.374
FTE (kutatóév egyenérték) 2.04
állapot lezárult projekt
magyar összefoglaló
Ismeretes, hogy a kisebb uráli nyelvek veszélyeztetett nyelvek, ezért dokumentálásuk nemzetközi jelentőségű feladat. A nyelvek dokumentálásának egyik legfőbb eszköze a morfológiailag annotált korpuszok létrehozása: a jelen pályázatba foglaltak is ezt célozzák. A kutatás előzménye a NKFP-5/135/01-es pályázat, melynek során több kis uráli nyelv morfológiai elemzője készült el, a jelenleg is futó OTKA 048309-es pályázat keretében pedig a permi nyelvek elemzőinek fejlesztése folyik.

A projekt a két obi-ugor nyelv három nyelvjárását öleli fel, és négy fő modulra oszlik:

1. Vogul (manysi) északi nyelvjárás: Kálmán Béla gyűjtése
A Chrestomathia Vogulica korábban elemzett szövegeinek egyértelműsítése (kb. 3600 szó). A Wogulische Texte mit einem Glossar északi anyaga (kb. 19500 szó). Részben hangzóanyaggal (kb. 5-6 óra). A két gyűjtemény között átfedés van, de a transzkripcióban különbségek vannak.

2. Vogul (manysi) északi nyelvjárás: Munkácsi Bernát gyűjtése
A Vogul népköltési gyűjtemény északi anyaga (kb. 60000 szó).

3. Osztják (hanti) szinjai nyelvjárás: Ruttkay-Miklián Eszter gyűjtése
A korábban említett NKFP-pályázat keretében gyűjtött szövegek, ''értelmező szótár'', melyben az adatközlő Steinitz DEWOS-ában szereplő szavakat magyarázza (kb. 52 óra hangzóanyag).

4. Osztják (hanti) kazimi nyelvjárás: különböző gyűjtések
Szövegek Wolfgang Steinitz, Rédei Károly és Schmidt Éva gyűjtéséből (20000 szó).

A korpuszokat az interneten keresztül ingyenesen és szabadon elérhetővé szeretnénk tenni. A projekt keretében a korpuszok annotált, angolul glosszázott, részben egyértelműsített változatát szeretnénk elkészíteni.
angol összefoglaló
As minor Uralic languages are endangered, their documentation is of international importance. Morphologically annotated corpora are of primary importance among devices of language documentation: the aim of our project is to create such corpora. Previous projects related to the currently proposed are NKFP-5/135/01, in the course of which morphological analyzers for several minor Uralic languages were created, and OTKA 048309, in the course of which morphological analyzers for Permic languages are being created.

The project concentrates on three dialects of the two Ob-Ugric languages, and has four main modules.

1. The Northern dialect of Vogul (Mansi): texts collected by Béla Kálmán
Disambiguation of texts from Chrestomathia Vogulica that had been morphologically analyzed (approx. 3600 words). Northern texts published in Wogulische Texte mit einem Glossar (approx. 19500 words), partially with recordings (approx. 5-6 hours). There is an overlap between the two collections but there are significant transcription differences.

2. The Northern dialect of Vogul (Mansi): texts collected by Bernát Munkácsi
Northern texts from the Collection of Vogul Folk Poetry (approx 60000 words).

3. Ostyak (Khanty) Synya dialect: data collected by Eszter Ruttkay-Miklián
Texts collected during the above mentioned NKFP project: an “explanatory dictionary”, in which the informant explains the Synya entries of Steinitz’s DEWOS dictionary (approx. 52 hours of recorded speech).

4. Ostyak (Khanty) Kazym dialect: different text collections
Selected texts from collections of Wolfgang Steinitz, Károly Rédei and Éva Schmidt (approx. 20000 words).

We wish to publish all the annotated corpora on the internet with free access. The corpora will be morphologically annotated, partially disambiguated and glossed in English.

 

Zárójelentés

 
kutatási eredmények (magyarul)
A projekt obi-ugor szövegek rögzítéséből, a megelemzésükhöz szükséges morfológiai elemzők építéséből és azok részleges (mutatvány céljait szolgáló) morfológiai egyértelműsítését tűzte ki maga elé céljául. A projekt céljait lényegében elérte. - A ChrVog szövegeinek egyértelműsítése elkészült, az egyértelműsítés során felbukkant hibák javítva lettek. - A WT szövegeit rögzítettük, elemzője elkészült, az egyértelműsítés folyamatban van. - A VNGY szövegeit rögzítettük, elemzője elkészült, minor hibák javítása további fejlesztést igényel, a minta egyértelműsítése folyik. - A kazimi szövegeket rögzítettük, elemző elkészült, az egyértelműsítés elkészült, az egyértelműsítés során felbukkant hibák ki lettek javítva, az újraegyértelműsítés folyamatban van. - A szinjai elemző elkészült, az egyértelműsítés elkészült, az egyértelműsítés során felbukkant hibák ki lettek javítva, az újraegyértelműsítés elkészült. Egyes homályos alakok tisztázása terepen jelenleg folyik.
kutatási eredmények (angolul)
The main aim of the project was to digitize Ob-Ugric texts, to develop morphological analyzers able to analyze all the word forms occuring in them, to disambiguate sample texts for demonstration. In general, all these aims were achieved. - The texts of ChrVog were disambiguated, the errors found during diasambiguation were corrected. - The text of the WT were digitized, the morphological analyzer is ready, the disambiguation is in progress. - The text of the VNGY were digitized, the morphological analyzer is ready, some minor errors have to be corrected, the disambiguation is in progress. - The Kazym Khanty texts were digitized, the morphological analyzer is ready, the disambiguation has been done, mistakes found during disambiguation are corrected, a new disambiguation process is in progress. - The Synya Khanty morphological analyzer is ready, the disambiguation has been done, mistakes found during disambiguation are corrected, a new disambiguation was made. Some issues arose during the research are examined currently on the field.
a zárójelentés teljes szövege https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=71707
döntés eredménye
igen

 

Közleményjegyzék

 
Fejes László, Novák Attila: Obi ugor morfológiai elemzők és korpuszok, VII. Magyar Számítógépes Nyelvészeti Konferencia, 2010
Ruttkay-Miklián Eszter: Szinjai hanti mesék, Nyelvtudományi Közlemények 106., 2009
Bakró-Nagy Marianne, Endrédy István, Fejes László, Novák Attila, Oszkó Beatrix, Prószéky Gábor, Szeverényi Sándor, Várnai Zsuzsa, Wagner Nagy Beáta: Online morfológiai elemzők és szóalak-generátorok kisebb uráli nyelvekhez, VII. Magyar Számítógépes Nyelvészeti Konferencia, 2010
vissza »