Ismeretes, hogy a kisebb uráli nyelvek veszélyeztetett nyelvek, ezért dokumentálásuk nemzetközi jelentőségű feladat. A nyelvek dokumentálásának egyik legfőbb eszköze a morfológiailag annotált korpuszok létrehozása: a jelen pályázatba foglaltak is ezt célozzák. A kutatás előzménye a NKFP-5/135/01-es pályázat, melynek során több kis uráli nyelv morfológiai elemzője készült el, a jelenleg is futó OTKA 048309-es pályázat keretében pedig a permi nyelvek elemzőinek fejlesztése folyik.
A projekt a két obi-ugor nyelv három nyelvjárását öleli fel, és négy fő modulra oszlik:
1. Vogul (manysi) északi nyelvjárás: Kálmán Béla gyűjtése A Chrestomathia Vogulica korábban elemzett szövegeinek egyértelműsítése (kb. 3600 szó). A Wogulische Texte mit einem Glossar északi anyaga (kb. 19500 szó). Részben hangzóanyaggal (kb. 5-6 óra). A két gyűjtemény között átfedés van, de a transzkripcióban különbségek vannak.
2. Vogul (manysi) északi nyelvjárás: Munkácsi Bernát gyűjtése A Vogul népköltési gyűjtemény északi anyaga (kb. 60000 szó).
3. Osztják (hanti) szinjai nyelvjárás: Ruttkay-Miklián Eszter gyűjtése A korábban említett NKFP-pályázat keretében gyűjtött szövegek, ''értelmező szótár'', melyben az adatközlő Steinitz DEWOS-ában szereplő szavakat magyarázza (kb. 52 óra hangzóanyag).
4. Osztják (hanti) kazimi nyelvjárás: különböző gyűjtések Szövegek Wolfgang Steinitz, Rédei Károly és Schmidt Éva gyűjtéséből (20000 szó).
A korpuszokat az interneten keresztül ingyenesen és szabadon elérhetővé szeretnénk tenni. A projekt keretében a korpuszok annotált, angolul glosszázott, részben egyértelműsített változatát szeretnénk elkészíteni.
Summary
As minor Uralic languages are endangered, their documentation is of international importance. Morphologically annotated corpora are of primary importance among devices of language documentation: the aim of our project is to create such corpora. Previous projects related to the currently proposed are NKFP-5/135/01, in the course of which morphological analyzers for several minor Uralic languages were created, and OTKA 048309, in the course of which morphological analyzers for Permic languages are being created.
The project concentrates on three dialects of the two Ob-Ugric languages, and has four main modules.
1. The Northern dialect of Vogul (Mansi): texts collected by Béla Kálmán Disambiguation of texts from Chrestomathia Vogulica that had been morphologically analyzed (approx. 3600 words). Northern texts published in Wogulische Texte mit einem Glossar (approx. 19500 words), partially with recordings (approx. 5-6 hours). There is an overlap between the two collections but there are significant transcription differences.
2. The Northern dialect of Vogul (Mansi): texts collected by Bernát Munkácsi Northern texts from the Collection of Vogul Folk Poetry (approx 60000 words).
3. Ostyak (Khanty) Synya dialect: data collected by Eszter Ruttkay-Miklián Texts collected during the above mentioned NKFP project: an “explanatory dictionary”, in which the informant explains the Synya entries of Steinitz’s DEWOS dictionary (approx. 52 hours of recorded speech).
4. Ostyak (Khanty) Kazym dialect: different text collections Selected texts from collections of Wolfgang Steinitz, Károly Rédei and Éva Schmidt (approx. 20000 words).
We wish to publish all the annotated corpora on the internet with free access. The corpora will be morphologically annotated, partially disambiguated and glossed in English.
Final report
Results in Hungarian
A projekt obi-ugor szövegek rögzítéséből, a megelemzésükhöz szükséges morfológiai elemzők építéséből és azok részleges (mutatvány céljait szolgáló) morfológiai egyértelműsítését tűzte ki maga elé céljául. A projekt céljait lényegében elérte.
- A ChrVog szövegeinek egyértelműsítése elkészült, az egyértelműsítés során felbukkant hibák javítva lettek.
- A WT szövegeit rögzítettük, elemzője elkészült, az egyértelműsítés folyamatban van.
- A VNGY szövegeit rögzítettük, elemzője elkészült, minor hibák javítása további fejlesztést igényel, a minta egyértelműsítése folyik.
- A kazimi szövegeket rögzítettük, elemző elkészült, az egyértelműsítés elkészült, az egyértelműsítés során felbukkant hibák ki lettek javítva, az újraegyértelműsítés folyamatban van.
- A szinjai elemző elkészült, az egyértelműsítés elkészült, az egyértelműsítés során felbukkant hibák ki lettek javítva, az újraegyértelműsítés elkészült. Egyes homályos alakok tisztázása terepen jelenleg folyik.
Results in English
The main aim of the project was to digitize Ob-Ugric texts, to develop morphological analyzers able to analyze all the word forms occuring in them, to disambiguate sample texts for demonstration. In general, all these aims were achieved.
- The texts of ChrVog were disambiguated, the errors found during diasambiguation were corrected.
- The text of the WT were digitized, the morphological analyzer is ready, the disambiguation is in progress.
- The text of the VNGY were digitized, the morphological analyzer is ready, some minor errors have to be corrected, the disambiguation is in progress.
- The Kazym Khanty texts were digitized, the morphological analyzer is ready, the disambiguation has been done, mistakes found during disambiguation are corrected, a new disambiguation process is in progress.
- The Synya Khanty morphological analyzer is ready, the disambiguation has been done, mistakes found during disambiguation are corrected, a new disambiguation was made. Some issues arose during the research are examined currently on the field.