Distributional models of lexical knowledge  Page description

Help  Print 
Back »

 

Details of project

 
Identifier
125217
Type FK
Principal investigator Novák, Borbála
Title in Hungarian Lexikai tudásábrázolás disztribúciós szemantikai módszerekkel
Title in English Distributional models of lexical knowledge
Keywords in Hungarian szóbeágyazási modellek, konstrukciók szemantikája, szemantikus lexikon, lexikonkinyerés, igei vonzatkeretek, automatikus korpuszannotáció
Keywords in English word embedding models, semantics of constructions, semantic lexicon, lexicon induction, verbal argument structures, automatic corpus annotation
Discipline
Linguistics (Council of Humanities and Social Sciences)100 %
Ortelius classification: Computational linguistics
Panel Linguistics
Department or equivalent Faculty of Information Technology and Bionics (Pázmány Péter Catholic University)
Participants Dömötör, Andrea
Kalivoda, Ágnes
Ligeti-Nagy, Noémi
Novák, Attila
Vadász, Noémi
Wenszky, Nóra
Starting date 2017-09-01
Closing date 2023-08-31
Funding (in million HUF) 37.588
FTE (full time equivalent) 8.97
state running project





 

Final report

 
Results in Hungarian
Eredeti célunk magyar nyelvű statikus szóbeágyazási modellek, és ezek segítségével lexikonok létrehozása, illetve a meglévő nyelvi elemzőeszközök fejlesztése volt. Elsősorban a (többértelmű) nyelvi szerkezetek adott szövegkörnyezetben való azonosítása érdekelt bennünket. A modelleket betanítottuk, és olyan lexikai erőforrások létrehozására használtuk fel őket, amelyek a gyakori névszói és határozói elemekhez, valamint az igei argumentumhelyekhez a szavak jelentésének kontextusban való azonosítása szempontjából fontos jellemzőket rendelnek. Azonosítottunk olyan lexikai elemeket, amelyek jellemzően meghatározott típusú határozóként fordulnak elő, és létrehoztunk egy a 2000 leggyakoribb magyar ige tematikus szerepekkel azonosított argumentumkereteit tartalmazó lexikont, megkülönböztetve a félig kompozicionális igei szerkezeteket is. Aztán áttértünk a kontextuális nyelvi modellek használatára, és új célokat tűztünk ki. Bizonyítottuk, hogy e modellek hatékony nyelvek közötti tudástranszfert valósítanak meg. Létrehoztunk többek között két gazdagon annotált magyar névelemkorpuszt (28 entitás-típussal, szemben a korábbi erőforrások 4 típusával), jelentésreprezentációkat generáltunk magyar szövegekhez más nyelveken betanított modellek segítségével, létrehoztunk egy érzékeny adatok elfedésére alkalmas pszeudonimizáló prototípust, valamint egy magyar kérdés-válasz referencia-adathalmazt, amelyet magyar nyelvű kérdések megválaszolására alkalmas alapmodellek betanítására használtunk.
Results in English
The original goal of the project was to create static word embedding models of Hungarian, to use them to create lexical resources, and to improve existing linguistic annotation tools. We were interested in identifying occurrences of specific (ambiguous) linguistic constructions in context. We created these models, and, applying them, we created lexical resources characterizing features of nominal and adverbial elements and of verbal argument slots relevant to the task of identifying the meaning of words in context. We identified lexical items that typically occur as specific types of adjuncts, explored uses of the instrumental case, and we created of a verbal argument frame lexicon of the most frequent 2000 Hungarian verbs with thematic roles identified, also distinguishing light verb constructions. Then due to progress in NLP, we moved on to use contextual language models instead of static embeddings, and we set new goals: we demonstrated the effectiveness of cross-lingual linguistic transfer using these models creating i.a. two richly annotated Hungarian named entity resources (with 28 entity types annotated vs. the 4 types in earlier resources), generating meaning representations for Hungarian text using models trained on other languages, creating a pseudonymization prototype, and creating a Hungarian question answering benchmark dataset and using it to train models to retrieve documents and identify the answers in them to questions submitted as queries.
Full text https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=125217
Decision
Yes





 

List of publications

 
Novák Attila, Novák Borbála: Cross-lingual transfer of knowledge in distributional language models: Experiments in Hungarian, ACTA LINGUISTICA ACADEMICA 69: (4) pp. 405-449., 2022
Novák Attila, Novák Borbála: POS, ANA and LEM: Word Embeddings Built from Annotated Corpora Perform Better (Best Paper Award, Second Place), In: Gelbukh, Alexander (szerk.) Computational Linguistics and Intelligent Text Processing, Springer-Verlag (2023) pp. 360-370., 2023
Novák Attila, Novák Borbála: Identification of Lemmatization Errors Using Neural Models, In: Gelbukh, Alexander (szerk.) Computational Linguistics and Intelligent Text Processing, Springer-Verlag (2023) pp. 399-407., 2023
Novák Attila, Novák Borbála: A Pseudonymization Prototype for Hungarian, In: Alberto, Simões; Mario, Marcelo Berón; Filipe, Portela (szerk.) 12th Symposium on Languages, Applications and Technologies (SLATE 2023), Schloss Dagstuhl- Leibniz-Zentrum fur Informatik GmbH, Dagstuhl Publishing (2023) pp. 3:1-3:10., 2023
Novák Attila, Siklósi Borbála, Prószéky Gábor: Segíthetnek-e a szóbeágyazási modellek a társadalomtudósoknak?, MAGYAR TUDOMÁNY 179: (7) pp. 945-954., 2018
Novák Attila, Novák Borbála: Egy nagyobb magyar UD korpusz felé, In: Berend Gábor, Gosztolya Gábor, Vincze Veronika (szerk.) XVII. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE. pp. 305-318, 2021
Attila Novák, Borbála Novák: Transfer-based Enrichment of a Hungarian Named Entity Dataset, In: Galia, Angelovaet al. Proceedings of Recent Advances in Natural Language Processing 2021. Sumen, Bulgária : Incoma. pp. 1064-1071, 2021
Attila Novák, Borbála Novák, Csilla Novák: Zero-shot cross-lingual Meaning Representation Transfer: Annotation of Hungarian using the Prague Functional Generative Description, Proceedings of the Joint 15th Linguistic Annotation Workshop (LAW) and 3rd Designing Meaning Representations (DMR) Workshop. ACL, 2021
Novák Attila, Novák Borbála: Egy nagyobb magyar UD korpusz felé, In: Berend Gábor, Gosztolya Gábor, Vincze Veronika (szerk.) XVII. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE. pp. 305-318, 2021
Attila Novák, Borbála Novák: Transfer-based Enrichment of a Hungarian Named Entity Dataset, In: Galia, Angelovaet al. Proceedings of Recent Advances in Natural Language Processing 2021. Sumen, Bulgária : Incoma. pp. 1064-1071, 2021
Attila Novák, Borbála Novák, Csilla Novák: Zero-shot cross-lingual Meaning Representation Transfer: Annotation of Hungarian using the Prague Functional Generative Description, Proceedings of the Joint 15th Linguistic Annotation Workshop (LAW) and 3rd Designing Meaning Representations (DMR) Workshop. ACL, 2021
Attila Novák, Borbála Novák: NerKor+Cars-OntoNotes++, Proceedings of the 13th Language Resources and Evaluation Conference (LREC 2022). ELRA, 2022. pp. 1907-1916., 2022
Novák Attila, Novák Borbála: NerKor 1.41e, XVIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2022). Szeged: SZTE, 2022. pp. 389-402., 2022
Novák Attila, Laki László János, Novák Borbála: Mit hozott édesapám? Döntést - Idiomatikus és félig kompozicionális magyar igei szerkezetek azonosítása párhuzamos korpuszból, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XV. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE, 2019. pp. 63-71., 2019
Novák Attila, Laki László János, Novák Borbála, Dömötör Andrea, Ligeti-Nagy Noémi, Kalivoda Ágnes: Egy magyar nyelvű kérdezőrendszer, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XV. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE, 2019. pp. 83-95., 2019
Attila Novák, László Laki, Borbála Novák: CBOW-tag: a Modified CBOW Algorithm for Generating Embedding Models from Annotated Corpora, Proceedings of The 12th Language Resources and Evaluation Conference, Marseille: ELRA, 2020. pp. 4798-4801, 2020
Novák Attila, Novák Borbála: Bu-Bor-éK: grafikus címkenormalizáló eszköz, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XVI. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE, 2020. pp. 303-312, 2020
Ligeti-Nagy Noémi, Novák Attila: Hol ugat a kutya? Örömében. Helyhatározói esetragos névszók pontosabb annotációja, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XV. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE, 2019. pp. pp. 225-234, 2019
Tálas Dalma, Novák Attila: Különböző függőségi elemzők teljesítményének vizsgálata magyar nyelven, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XV. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE, 2019., 2019
Yang Zijian Győző, Novák, Attila, Laki László János: Automatikus tematikuscímke-ajánló rendszer sajtószövegekhez, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XVI. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE, 2020. pp. 155-168, 2020
Attila Novák, László Laki, Borbála Novák, Andrea Dömötör, Noémi Ligeti-Nagy, Ágnes Kalivoda: Creation of a corpus with semantic role labels for Hungarian, In: Proceedings of the 13th Linguistic Annotation Workshop, Association for Computational Linguistics (ACL) (2019) pp. 220-229., 2019
Attila Novák, Borbála Novák: Cross-Lingual Generation and Evaluation of a Wide-Coverage Lexical Semantic Resource, In: Nicoletta, Calzolari; Khalid, Choukri; Christopher, Cieri; Thierry, Declerck; Sara, Goggi; Koiti, Hasida; Hitoshi, Isahara; Bente, Maegaard; Joseph, Mariani; Hélène, Mazo; Asuncion, Moreno; Jan, Odijk; Stelios, Piperidis; Takenobu, Tokunaga (szerk.) Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), European Language Resources Association (ELRA) (2018) pp. 45-51., 2018
Novák Attila, Novák Borbála: Magyar szóbeágyazási modellek kézi kiértékelése, In: Vincze, Veronika (szerk.) XIV. Magyar Számítógépes Nyelvészeti Konferencia : MSZNY 2018, Szegedi Tudományegyetem, Informatikai Intézet (2018) pp. 67-77., 2018
Attila Novák, Borbála Novák: Identification of lemmatization errors using neural models, In: Alexander Gelbukh (ed.) Computational Linguistics and Intelligent Text Processing: 19th International Conference, CICLing 2018, Springer, Cham (in press), 2018
Attila Novák, Borbála Siklósi: A Model for High-coverage Lexical Semantic Annotation Generation, In: Gordon Andrew S, Miller Rob, Turán György (szerk.) Proceedings of the Thirteenth International Symposium on Commonsense Reasoning, COMMONSENSE 2017. Paper 15. 7 p., 2018
Attila Novák, Borbála Novák: POS, ANA and LEM: Word Embeddings Built from Annotated Corpora Perform Better, In: Alexander Gelbukh (ed.) Computational Linguistics and Intelligent Text Processing: 19th International Conference, CICLing 2018, Springer, Cham (in press), 2018
Attila Novák, Borbála Novák: Cross-Lingual Generation and Evaluation of a Wide-Coverage Lexical Semantic Resource, Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). ELRA, 2018. pp. 45-51. (ISBN:979-10-95546-00-9), 2018
Novák Attila, Novák Borbála: Magyar szóbeágyazási modellek kézi kiértékelése, In: Vincze Veronika (szerk.) XIV. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2018). Szeged: SZTE, 2018. pp. 67-77. (ISBN:978-963-306-578-5), 2018
Novák Attila, Novák Borbála: Lemmi vagy nem lemmi, In: Vincze Veronika (szerk.) XIV. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2018). Szeged: SZTE, 2018. pp. 159-167. (ISBN:978-963-306-578-5), 2018
Novák Attila, Novák Borbála: MILQA kérdés-válasz benchmark adatbázis, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XIX. Magyar Számítógépes Nyelvészeti Konferencia, MSZNY-2023, Szegedi Tudományegyetem (SZTE) (2023) pp. 203-216., 2023
Novák Attila, Novák Borbála, Zombori Tamás, Szabó Gergő, Szántó Zsolt, Farkas Richárd: A Question Answering Benchmark Database for Hungarian, In: Proceedings of the 17th Linguistic Annotation Workshop (LAW-XVII), Association for Computational Linguistics (2023) pp. 188-198., 2023





 

Events of the project

 
2021-05-07 10:59:34
Résztvevők változása
2018-12-14 15:12:23
Résztvevők változása




Back »