word embedding models, semantics of constructions, semantic lexicon, lexicon induction, verbal argument structures
megadott besorolás
Nyelvtudomány (Bölcsészet- és Társadalomtudományok Kollégiuma)
100 %
Ortelius tudományág: Számítógépes nyelvészet
zsűri
Nyelvészet
Kutatóhely
Információs Technológiai és Bionikai Kar (Pázmány Péter Katolikus Egyetem)
projekt kezdete
2017-09-01
projekt vége
2021-08-31
aktuális összeg (MFt)
15.219
FTE (kutatóév egyenérték)
2.10
állapot
lezárult projekt
magyar összefoglaló
A kutatás összefoglalója, célkitűzései szakemberek számára Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára. Jelen kutatás célja olyan algoritmusok létrehozása, melyek segítségével magyar nyelvtani konstrukciók azonosíthatók, illetve azok jelentése is meghatározható. Ehhez disztribúciós modellekben reprezentált tudást használunk fel, azt vizsgálva, hogy a modellek létrehozásához használt korpuszhoz hozzáadott annotáció milyen formában járul hozzá a feladat megoldásához. A kutatás során a következő konstrukciók disztribúciós modelleken alapuló leírásával kapcsolatban végzünk kísérleteket: összetételek, koordinációk, igei vonzatkeretek és határozói szerkezetek. Olyan modelleket hozunk létre, amelyek alkalmasak arra, hogy az azonos alakú, de különböző jelentésű szerekezeteket megkülönböztesse. A megvalósítás során mesterséges neurális hálózat alapú szóbeágyazási modelleket alkalmazunk. Ez a módszer mára a természetes nyelvfeldolgozás egyik legmeghatározóbb eszközévé vált köszönhetően annak, hogy segítségével a különböző nyelvtani relációkat (szemantikai, szintaktikai, morfológiai) hatékonyan megragadó reprezentációk hozhatók létre.
Mi a kutatás alapkérdése? Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek. A kutatás alaphipotézise az, hogy ha a neurális hálózatokra alapuló disztribúciós modelleknek az alkalmazását specifikus módon kombináljuk a korpusz annotálásával amiből a modellt betanítjuk, illetve a disztribúciós szemantikai modellből kinyert tudást teszünk a korpuszban explicit módon láthatóvá, akkor a modell képes arra, hogy a hasonló formában megtestesülő, de különböző jelentésű grammatikai konstrukciókat megkülönböztesse és ez alapján ezekhez a konstrukciókhoz különböző szemantikai interpretációt rendeljen. Ennek eredményeként létrejön egy lexikon is arra vonatkozólag, hogy milyen lexikai elemekhez milyen konstrukciós jelentések kapcsolódnak.
Mi a kutatás jelentősége? Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának! A kutatás során létrejövő lexikai erőforrások és az ezek lekérdezésére szolgáló webes felület a magyar nyelv eddigi leggazdagabb és legsokoldalúbb szemantikai adatbázisát fogják alkotni. Ezek az erőforrások mind az elméleti nyelvész kutatók, mind a magyar nyelvű nyelvtechnológiai alkalmazások fejlesztői számára új lehetőségeket nyitnak. Emellett új az általunk alkalmazott módszer is. Nemzetközi téren nem prioritás a magyar nyelv kutatása és feldolgozása, ezért nemzetközi konkurenciára kevéssé számíthatunk. Ugyanakkor módszereink és eredményeink példaértékűek lehetnek más, piaci szempontból esetleg kevésbé vonzó, ugyanakkor viszonylag bonyolult szerkezetű nyelvek leírásával és feldolgozásával foglalkozó kutatók számára is.
A kutatás összefoglalója, célkitűzései laikusok számára Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára. Honnan tudjuk, hogy melyik esetben mit jelent az, hogy -ban abban a mondatban, hogy “Az utóbbi napokban magamban ülök a szobában egy hosszú szoknyában és az jár a fejemben, miért nem vagyok jóban azokkal, akik nem hisznek semmiben.” A magyar nyelv szavainak jelentését és azok kapcsolatait az emberi agy működését modellező mesterséges neurális hálózatok segítségével tárjuk fel a szókincs egészére nézve. Ehhez minden eddiginél nagyobb mennyiségű magyar nyelvű szöveget dolgozunk fel, és rendelünk hozzá nyelvi elemzést. Ez a kutatás olyan számítógépes modell létrehozására irányul, amely ezen modellek felhasználásával akár azt is meg tudja mondani, hogy melyik -ban milyen értelemben szerepel az előbbi mondatban.
angol összefoglaló
Summary of the research and its aims for experts Describe the major aims of the research for experts. The main objective of this research is to create algorithms to identify various Hungarian grammatical constructions and to determine their semantics from the knowledge represented in distributional models and to investigate how different types of annotation added to the corpus can facilitate this process. Our research plan includes the investigation and semantic characterization of the following constructions: compounds, coordinate structures, verb-argument relations, and different adjuncts (including clause-level and phrase-level adjunction). The task involves the disambiguation of structures that have nearly identical form but have different semantics, such as the distinction of oblique and locative/directional etc. arguments, the distinction of adjuncts and arguments, etc. Our methods are based on neural-network-based word embedding models. The use of these models has become ubiquitous in the field of natural language processing due to their efficient representational power capturing various types of grammatical relations including semantics, syntax, morphology.
What is the major research question? Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments. The main hypothesis of the research is that if we combine the application of neural-network-based distributional models in a specific way with the annotation of the corpus the models are built from, and we make the knowledge extracted from these distributional models explicitly visible in the corpus, then the model will be able to distinguish grammatical constructions realized in the same form but having different meanings. Thus the model is able to assign different semantic representations to these constructions. As a further result, a lexicon will also be created describing the constructions specific lexical elements typically participate in.
What is the significance of the research? Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field. The lexical resources and the web interface created in this project will provide the most exhaustive and most versatile semantic database for Hungarian. These resources open new perspectives both for theoretical linguists and developers of Hungarian language technology applications. The method to be applied is novel. Research and processing of Hungarian is not a priority for researchers outside Hungary, thus we do not expect any international competitor to do this research. Nevertheless, our methods and results might serve as a model for researchers focusing on the description and processing of other commercially less attractive but complex languages.
Summary and aims of the research for the public Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others. How do we know what “in” means in the following sentence: “In the last few days I’ve been sitting by myself in my room in a long skirt and what is in my head is why I am not in a good mood when I don’t believe in anything.” We plan to unfold the meanings and relations of Hungarian words with the help of artificial neural networks that model the functioning of the human brain. In order to achieve this goal, we will process Hungarian texts in such large quantities that has never been done before, assigning grammatical analysis to these texts. This research focuses on building computational models that are among many other things able to distinguish the meaning of each “in” in the sentence above.
Zárójelentés
kutatási eredmények (magyarul)
Jelen (és részben a kapcsolódó FK 125217) projekt eredményei a következők:
1. A következő határozói módosítók szemantikai besorolása:
- határozói igenevek
- módhatározók
- speciális helyhatározói konstrukciók,
több mint 20 szemantikai osztály azonosításával. A besorolás 13500 szót tartalmazott.
2. A leggyakoribb 2200 magyar ige összes releváns vonzatkerete, beleértve a 720 ige félig kompozicionális szerkezeteit (light verb constructions)
3. A teljes, 1,5 millió tokenes Szeged Dependencia Treebank (SZDT) átalakítása UD-kompatibilis formára (elsősorban a kapcsolódó FK 125217 projekt keretében készült, az átalakítás manuális ellenőrzése még folyamatban van).
4. Mellérendelő szerkezetek vizsgálata és az elérhető legjobb szintaktikai elemzők általi kezelésük értékelése magyar nyelvre. A függőségi elemzések és az elemzési hibák áttekintése azt mutatta, hogy a koordináció kezelése többnyire kielégítő, a kulcsfontosságú problématerületeket azonosítottam. Ugyanakkor az egyébként problémás konstrukciók legtöbb előfordulását a legjobb függőségi elemzők helyesen elemzik. A hasonló disztribúció kulcsfontosságú tényezőnek tűnik az mellérendelő konstrukciók fejeinek azonosításában.
5. Az összetett szavak szemantikájának vizsgálata, és a tévesen összetett szóként elemzett elemek azonosítása a morfológiai elemző kimenetében.
kutatási eredmények (angolul)
Results of this (and partially the related FK 125217) project include the following:
1. Semantic classification of the following adverbial adjunct constructions:
- adverbial participles
- negative participles
- adverbs of manner
- specific locative constructions,
identifying various more than 20 semantic classes. The classification covered 13500 words.
2. All relevant argument frames of the most frequent 2200 Hungarian verbs, including light verb constructions of 720 verbs.
3. Conversion of the whole 1.5-million-token Szeged Dependency Treebank (SZDT) to a UD-compatible form (mainly performed in the related FK 125217 project, manual checking of the conversion still in progress).
4. Investigation of coordinated structures, and evaluation of their handling by automatic parsers for Hungarian. The review of dependency parses and parse errors has shown that the handling of coordination is mostly satisfactory, key problem areas have been identified, nevertheless, most instances of the problematic constructions are also correctly annotated by the best dependency parsers. Similar distribution seems to be a key feature in identifying heads of coordinated constructs.
5. Investigation of the semantics of compound structures and identification of bogus compound analyses in morphological analyzer output.
Attila Novák, Borbála Novák: Identification of lemmatization errors using neural models, In: Alexander Gelbukh (ed.) Computational Linguistics and Intelligent Text Processing: 19th International Conference, CICLing 2018, Springer, Cham (in press), 2018
Novák Attila, Novák Borbála: Magyar szóbeágyazási modellek kézi kiértékelése, In: Vincze Veronika (szerk.) XIV. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2018). Szeged: SZTE, 2018. pp. 67-77. (ISBN:978-963-306-578-5), 2018
Novák Attila, Novák Borbála: Lemmi vagy nem lemmi, In: Vincze Veronika (szerk.) XIV. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2018). Szeged: SZTE, 2018. pp. 159-167. (ISBN:978-963-306-578-5), 2018
Novák Attila, Laki László János, Novák Borbála, Dömötör Andrea, Ligeti-Nagy Noémi, Kalivoda Ágnes: Egy magyar nyelvű kérdezőrendszer, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XV. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE, 2019. pp. 83-95., 2019
Novák Attila, Novák Borbála: Bu-Bor-éK: grafikus címkenormalizáló eszköz, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XVI. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE, 2020. pp. 303-312, 2020
Attila Novák, László Laki, Borbála Novák, Andrea Dömötör, Noémi Ligeti-Nagy, Ágnes Kalivoda: Creation of a corpus with semantic role labels for Hungarian, Proceedings of the 13th Linguistic Annotation Workshop. Firenze: Association for Computational Linguistics (ACL). pp: 220–229, 2019
Novák Attila, Novák Borbála: Egy nagyobb magyar UD korpusz felé, In: Berend Gábor, Gosztolya Gábor, Vincze Veronika (szerk.) XVII. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE. pp. 305-318, 2021
Attila Novák, Borbála Novák, Csilla Novák: Zero-shot cross-lingual Meaning Representation Transfer: Annotation of Hungarian using the Prague Functional Generative Description, Proceedings of the Joint 15th Linguistic Annotation Workshop (LAW) and 3rd Designing Meaning Representations (DMR) Workshop. ACL., 2021