Morphologically analysed corpus of Old and Middle Hungarian texts, representative of informal language use  Page description

Help  Print 
Back »

 

Details of project

 
Identifier
81189
Type K
Principal investigator Dömötör, Adrienne
Title in Hungarian Morfológiailag elemzett nyelvtörténeti korpusz a magánéleti nyelvhasználat köréből
Title in English Morphologically analysed corpus of Old and Middle Hungarian texts, representative of informal language use
Keywords in Hungarian korpuszépítés, morfológiai elemzés, misszilis levelek, jogi iratok, XV-XVIII. század
Keywords in English corpus compiling, morphological analysis, letters, legal documents, 15-18th centuries
Discipline
Linguistics (Council of Humanities and Social Sciences)100 %
Ortelius classification: Historical linguistics
Panel Linguistics
Department or equivalent HUN-REN Hungarian Research Centre for Linguistics
Participants Bakró-Nagy, Marianne
Gugán, Katalin Orsolya
Haader, Lea
Horváth, László
Mus, Nikolett
Oszkó, Beatrix
Sipos, Mária
Várnai, Zsuzsa
Starting date 2010-09-01
Closing date 2014-08-31
Funding (in million HUF) 10.281
FTE (full time equivalent) 5.74
state closed project
Summary in Hungarian
A tervezett munkálat arra vállalkozik, hogy gazdag szociolingvisztikai szempontrendszert figyelembe vevő, terjedelmes korpuszt felölelő adatbázist építsen ki a magánéleti nyelvhasználathoz közel álló szövegtípusok köréből. A morfológiailag annotált adatbázis lehetővé teszi, hogy egyszerűen és hatékonyan jussanak nagy számú hiteles adathoz a hazai és külföldi nyelvészek, akik a (magyar) nyelvtörténet különböző területeit kutatják (például a történeti morfológiát, a történeti szociolingvisztikát, szociopragmatikát, a szókészlet és a jelentések változásait). Az időkör a 15. század vége és a 18. század utolsó harmada közötti mintegy három évszázad (azaz az ómagyar kortól a felvilágosodás kezdetéig tartó időszak); a korpusz anyagát magánlevelezések és bírósági jegyzőkönyvek adják. A munka úttörő jelentősége abban áll, hogy egyszerre nyelvtörténeti és szociolingvisztikai indíttatású, s mint ilyen elsőként célozza meg egy olyan nyelvtörténeti korpusz létrehozását, amely a beszélt nyelvhez közel álló régi szövegekből meríti anyagát.
Summary
The present project aims at building a morphologically annotated historical corpus that intends to represent the daily vernacular of speakers of Old and Middle Hungarian, covering a period of three centuries from the end of the 15th century till the end of the 18th century. In order to approximate natural speech as closely as possible, the corpus will comprise samples of private correspondence and other types of speech-based texts (e.g. depositions of witnesses in trials). During the procedure of compliation, the research team will select texts that can be localized and dated on the one hand, but also offer other types of extra-linguistic information on the other (concerning the status, gender, level of education, age etc. of the original writer / speaker). By incorporating social variables, the database emerging from the project will assist researchers of various fields (e.g. those of historical morphology, historical sociolinguistics, historical pragmatics etc.) to obtain ample and authentic data. Our project represents a pioneering combination of historical linguistics and sociolinguistics intended to lay the foundations of diverse future research on all related fields.





 

Final report

 
Results in Hungarian
A projekt négy éve során -- az előzetes terveknek megfelelően -- felépítettünk egy csaknem 4 millió 340 ezer karakter terjedelmű, morfológiailag elemzett elektronikus adatbázist, amely középmagyar kori (XVI–XVIII. századi), magánéleti jellegű szövegekből áll (magánlevelekből és peres eljárások jegyzőkönyveiből). A korábban csak könyv formában hozzáférhető anyagokat először gépre vittük, digitálisan olvashatóvá tettük, majd az egész korpusz összes mondatát a mai nyelvi sztenderdnek megfelelő alakúra dolgoztuk át, végül az adatbázis minden szavát szófaji és morfológiai elemzéssel láttuk el. A szakszerűen kereshetővé tett korpusz bízvást nagy hasznára válik mindazon szakmai és szakmán kívüli érdeklődőknek, akik különböző nyelvtörténeti, történeti szociolingvisztikai témák kapcsán morfológiailag feldolgozott nyelvi adatokat kívánnak gyűjteni. Ugyanakkor a szövegek eredeti és átdolgozott változata digitális szöveggyűjteményként is bárki rendelkezésére áll. Az adatbázis az MTA Nyelvtudományi Intézet honlapján ingyenesen hozzáférhető. A munkálatot számos hazai és nemzetközi publikációban és előadásban is bemutattuk.
Results in English
During the four years of the project, the participants built a morphologically analyzed database representing informal language use of Middle Hungarian (spoken between the 16th and the 18th centuries). The size of the database is approximately 4.340.000 characters. As the chosen texts, i.e. lawsuits and private letters were available only in printed editions, the inevitable first task was to digitalize them. After scanning, optical character recognition and proofreading, the digitalized texts had to be transcribed so that they could be parsed with the help of a program developed for Modern Hungarian. Finally, as a result of automatic parsing and manual disambiguation, each word of the database has a POS-tag and a morphological analysis. The query interface enables users to acquire morphologically analyzed data, assisting the research of historical linguistics, historical sociolinguistics and related fields. Besides, the original and the normalized versions of the texts are also available online as a digital text collection. In order to introduce the database to the widest possible audience, the participants gave presentations at various Hungarian and international conferences, and described its features and possible applications in numerous articles. The corpus is freely accessible at the homepage of RIL, HAS.
Full text https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=81189
Decision
Yes





 

List of publications

 
Dömötör Adrienne: Nyelvtörténet, nyelvváltozat, adatbázis, Hegedűs Orsolya–Psenáková Ildikó (szerk.): Tudomány az oktatásért – oktatás a tudományért. I. Univerzita Konstantína Filozofa v Nitre, 49-53., 2011
Dömötör Adrienne: A nyelvtörténeti adat: elvek, gyakorlat, lehetőségek, MNy. 108: 39–51., 2012
Sipos Mária: „Kerem Aszert Nagisagodat…” – Kérem azért nagyságodat… Normalizált középmagyar szövegek az oktatásban és a kutatásban, Hegedűs Orsolya–Psenáková Ildikó (szerk.): Tudomány az oktatásért – oktatás a tudományért. I. Univerzita Konstantína Filozofa v Nitre, 79-84, 2011
Novák Attila–Wenszky Nóra:: O & ko̗zèpmaǵar zoalactanÿ èlèmzo., Tanács Attila–Vincze Veronika (szerk.): A IX. Magyar Számítógépes Nyelvészeti Konferencia előadásai, SZTE, Szeged. 170–181., 2013
Novák, Attila–Orosz, György–Wenszky, Nóra:: Morphological annotation of Old and Middle Hungarian corpora., Proceedings of the 7th Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities. Association for Computational Linguistics, Sofia,, 2013
Wenszky Nóra–Novák Attila:: Itt az n, hol az n?, http://www.nyest.hu, 2012
Wenszky Nóra–Novák Attila:: The hypercorrect key witness., Szigetvári Péter (ed.): VLlxx: Papers presented to Varga László on his 70th birthday. Department of English Linguistics, Eötvös Loránd University., 2013
Mohay Zsuzsanna:: Múltidő-használat a 16. században., Édes Anyanyelvünk, 2013 / 3. 16., 2013
Dömötör Adrienne: Az alaktanig és tovább: korchmáros, kocsmáros, korchomáros és társai – morfológiailag elemzett történeti magánéleti adatbázis, Nyelvtudomány, V–VII. (2009–2011), 13–19., 2014
Dömötör Adrienne: Nyelvtani elemzésekkel ellátott online szöveggyűjtemény. Nádasdy-levelektől a boszorkányperekig, Élet és tudomány, 2013/43. 1363–1365., 2013
Dömötör Adrienne: Az ó- és középmagyar kori magánéleti nyelvhasználat morfológiailag elemzett adatbázisa, Tér, idő és kultúra metszéspNemzetközi Magyarságtudományi Társaság–ELTE Magyar Nyelvtörténeti, Szociolingvisztikai, Dialektológiai Tanszék, Budapest–Kolozsvár, 2014., 2014
Wenszky Nóra:: A külföldön tanuló diákok napja., http://www.nyest.hu, 2013
Dömötör, Adrienne-Gugán, Katalin-Novák, Attila: Historical Morphology and Annotation: possibilities, procedures, constraints., 16th Diachronic Generative Syntax Conference. Budapest, Research Institute for Linguistics, Hungarian Academy of Sciences., 2014
Novák, Attila–Orosz, György–Wenszky, Nóra: Morphological annotation of Old and Middle Hungarian corpora., Proceedings of the 7th Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities. Association for Computational Linguistics, Sofia,, 2013
Novák Attila–Wenszky Nóra: O & ko̗zèpmaǵar zoalactanÿ èlèmzo., Tanács Attila–Vincze Veronika (szerk.): A IX. Magyar Számítógépes Nyelvészeti Konferencia előadásai, SZTE, Szeged. 170–181., 2013
Wenszky Nóra–Novák Attila:: The hypercorrect key witness., Szigetvári Péter (ed.): VLlxx: Papers presented to Varga László on his 70th birthday. Department of English Linguistics, Eötvös Loránd University., 2013
Orosz, György–Novák, Attila: Purepos 2.0: a hybrid tool for morphological disambiguation, Proceedings of the International Conference Recent Advances in Natural Language Processing. Hissar, 2013. 539–545., 2013
Dömötör, Adrienne-Gugán, Katalin: Finding the way out of the morphological maze: Problems and perspectives of building an annotated corpus of Middle Hungarian, International Journal of Corpus Linguistics -- megjelenés alatt, 2014
Novák, Attila–Gugán, Katalin–Dömötör, Adrienne: Historical Morphology and Annotation: possibilities, procedures, constraints, Language Resources and Evaluation -- benyújtás alatt, 2014
Dömötör Adrienne–Varga Mónika: 50 jobbágylevél a XVI. századból, Magyar Nyelvtudományi Társaság, Budapest, 2014 -- megjelenés alatt, 2014
Dömötör Adrienne: A kihalt kötőszók történetének egyik fejezete: a hogyki típus létrejötte és használata, Nyr. 138. (2014.): 40–52., 2014
Dömötör Adrienne: Idéző szerkezetből keletkezett diskurzusjelölők – és követőik, A nyelvtörténeti kutatások újabb eredményei VII. SzTE. Magyar Nyelvészeti Tanszék, Szeged, 2013. 29–39., 2013
Dömötör Adrienne: Ugyan az, ugyanaz: kijelölő jelző és azonosító szerep, A nyelvtörténeti kutatások újabb eredményei VIII. 2014. SzTE, Magyar Nyelvészeti Tanszék, Szeged, megjelenés alatt., 2014
Dömötör Adrienne: A hogyki és társai: egy sajátos kötőszófajta az ómagyar korból, É. Kiss Katalin–Hegedűs Attila (szerk.): Nyelvelmélet és diakrónia. PPKE BTK Elméleti Nyelvészeti Tanszék–Magyar Nyelvészeti Tanszék, Piliscsaba, 2014. 42–62., 2014
Dömötör Adrienne: A mondván és az úgymond: diskurzusjelölő elemek keletkezése idéző szerkezetekből, MNy. -- megjelenés alatt., 2014
Varga Mónika: A határozói igenevek lehetséges állítmányi szerepéről boszorkányperek szövegeiben, Első Század Online, 11. évf. 3. sz. 2012. 1-26., 2012
Varga Mónika: Másnapra kelvén – tudniillik az idő, Magyar Nyelv 110. évf. (2014.) 73-85., 2014
Varga Mónika: A határozói igenevek állítmányi szerepéről boszorkányperek szövegeiben, Félúton 8. Budapest, 2013. 30–46., 2013
Varga Mónika: A szövegkoherencia tényezőiről boszorkányperekben, Nyelvelmélet és diakrónia 2. PPKE BTK Elméleti Nyelvészeti Tanszék–Magyar Nyelvészeti Tanszék, Piliscsaba, 2014. 168–189., 2014
Varga Mónika: "Várrá, mert megbánod" – A funkcióváltás útjairól boszorkányperekben, Forráskutatás, forráskiadás, tudománytörténet 2. -- megjelenés alatt, 2014
Varga Mónika: A határozói igenév és az igei állítmány viszonyáról boszorkányperekben, MNy. -- megjelenés alatt, 2014
Varga Mónika: A határozói igenévi állítmány – és ami körülötte van, Doktoranduszok a nyelvtudomány útjain – az ELTE BTK Nyelvtudományi Dokt. Isk. Konferenciájának kiadványa, ELTE BTK Nyelvtud. Dokt. Isk. Budapest, 2014. 29–48., 2014
Mohay Zsuzsanna: Múltidő-használat a 16. században, Édes Anyanyelvünk, 2013 / 3. 16., 2013
Mohay Zsuzsanna: Boszorkányperek múlt időben – középmagyar kori múlt idők és használatuk boszorkányperek szövegei alapján, A nyelvtörténeti kutatások újabb eredményei VIII. 2014. SzTE, Magyar Nyelvészeti Tanszék, Szeged, megjelenés alatt., 2014
Horváth László: Régi vonzat vénebb vonzat?, A nyelvtörténeti kutatások újabb eredményei VIII. 2014. SzTE, Magyar Nyelvészeti Tanszék, Szeged, megjelenés alatt., 2014
Gugán Katalin: Hol volt? Hol nem volt? A tagmondattörlő grammatikalizációs folyamatokról a lévén és a lehet grammatikalizációja kapcsán, MNy. -- sajtó alatt., 2014
Wenszky Nóra: A külföldön tanuló diákok napja., http://www.nyest.hu, 2013





 

Events of the project

 
2011-08-01 08:23:07
Résztvevők változása
2010-02-05 14:19:04
Résztvevők változása




Back »