Lexikai tudásábrázolás disztribúciós szemantikai módszerekkel  részletek

súgó  nyomtatás 
vissza »

 

Projekt adatai

 
azonosító
125217
típus FK
Vezető kutató Novák Borbála
magyar cím Lexikai tudásábrázolás disztribúciós szemantikai módszerekkel
Angol cím Distributional models of lexical knowledge
magyar kulcsszavak szóbeágyazási modellek, konstrukciók szemantikája, szemantikus lexikon, lexikonkinyerés, igei vonzatkeretek, automatikus korpuszannotáció
angol kulcsszavak word embedding models, semantics of constructions, semantic lexicon, lexicon induction, verbal argument structures, automatic corpus annotation
megadott besorolás
Nyelvtudomány (Bölcsészet- és Társadalomtudományok Kollégiuma)100 %
Ortelius tudományág: Számítógépes nyelvészet
zsűri Nyelvészet
Kutatóhely Információs Technológiai és Bionikai Kar (Pázmány Péter Katolikus Egyetem)
résztvevők Dömötör Andrea
Kalivoda Ágnes
Ligeti-Nagy Noémi
Novák Attila
Vadász Noémi
Wenszky Nóra
projekt kezdete 2017-09-01
projekt vége 2023-08-31
aktuális összeg (MFt) 37.588
FTE (kutatóév egyenérték) 8.97
állapot aktív projekt





 

Zárójelentés

 
kutatási eredmények (magyarul)
Eredeti célunk magyar nyelvű statikus szóbeágyazási modellek, és ezek segítségével lexikonok létrehozása, illetve a meglévő nyelvi elemzőeszközök fejlesztése volt. Elsősorban a (többértelmű) nyelvi szerkezetek adott szövegkörnyezetben való azonosítása érdekelt bennünket. A modelleket betanítottuk, és olyan lexikai erőforrások létrehozására használtuk fel őket, amelyek a gyakori névszói és határozói elemekhez, valamint az igei argumentumhelyekhez a szavak jelentésének kontextusban való azonosítása szempontjából fontos jellemzőket rendelnek. Azonosítottunk olyan lexikai elemeket, amelyek jellemzően meghatározott típusú határozóként fordulnak elő, és létrehoztunk egy a 2000 leggyakoribb magyar ige tematikus szerepekkel azonosított argumentumkereteit tartalmazó lexikont, megkülönböztetve a félig kompozicionális igei szerkezeteket is. Aztán áttértünk a kontextuális nyelvi modellek használatára, és új célokat tűztünk ki. Bizonyítottuk, hogy e modellek hatékony nyelvek közötti tudástranszfert valósítanak meg. Létrehoztunk többek között két gazdagon annotált magyar névelemkorpuszt (28 entitás-típussal, szemben a korábbi erőforrások 4 típusával), jelentésreprezentációkat generáltunk magyar szövegekhez más nyelveken betanított modellek segítségével, létrehoztunk egy érzékeny adatok elfedésére alkalmas pszeudonimizáló prototípust, valamint egy magyar kérdés-válasz referencia-adathalmazt, amelyet magyar nyelvű kérdések megválaszolására alkalmas alapmodellek betanítására használtunk.
kutatási eredmények (angolul)
The original goal of the project was to create static word embedding models of Hungarian, to use them to create lexical resources, and to improve existing linguistic annotation tools. We were interested in identifying occurrences of specific (ambiguous) linguistic constructions in context. We created these models, and, applying them, we created lexical resources characterizing features of nominal and adverbial elements and of verbal argument slots relevant to the task of identifying the meaning of words in context. We identified lexical items that typically occur as specific types of adjuncts, explored uses of the instrumental case, and we created of a verbal argument frame lexicon of the most frequent 2000 Hungarian verbs with thematic roles identified, also distinguishing light verb constructions. Then due to progress in NLP, we moved on to use contextual language models instead of static embeddings, and we set new goals: we demonstrated the effectiveness of cross-lingual linguistic transfer using these models creating i.a. two richly annotated Hungarian named entity resources (with 28 entity types annotated vs. the 4 types in earlier resources), generating meaning representations for Hungarian text using models trained on other languages, creating a pseudonymization prototype, and creating a Hungarian question answering benchmark dataset and using it to train models to retrieve documents and identify the answers in them to questions submitted as queries.
a zárójelentés teljes szövege https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=125217
döntés eredménye
igen





 

Közleményjegyzék

 
Novák Attila, Novák Borbála: Cross-lingual transfer of knowledge in distributional language models: Experiments in Hungarian, ACTA LINGUISTICA ACADEMICA 69: (4) pp. 405-449., 2022
Novák Attila, Novák Borbála: POS, ANA and LEM: Word Embeddings Built from Annotated Corpora Perform Better (Best Paper Award, Second Place), In: Gelbukh, Alexander (szerk.) Computational Linguistics and Intelligent Text Processing, Springer-Verlag (2023) pp. 360-370., 2023
Novák Attila, Novák Borbála: Identification of Lemmatization Errors Using Neural Models, In: Gelbukh, Alexander (szerk.) Computational Linguistics and Intelligent Text Processing, Springer-Verlag (2023) pp. 399-407., 2023
Novák Attila, Novák Borbála: A Pseudonymization Prototype for Hungarian, In: Alberto, Simões; Mario, Marcelo Berón; Filipe, Portela (szerk.) 12th Symposium on Languages, Applications and Technologies (SLATE 2023), Schloss Dagstuhl- Leibniz-Zentrum fur Informatik GmbH, Dagstuhl Publishing (2023) pp. 3:1-3:10., 2023
Novák Attila, Siklósi Borbála, Prószéky Gábor: Segíthetnek-e a szóbeágyazási modellek a társadalomtudósoknak?, MAGYAR TUDOMÁNY 179: (7) pp. 945-954., 2018
Novák Attila, Novák Borbála: Egy nagyobb magyar UD korpusz felé, In: Berend Gábor, Gosztolya Gábor, Vincze Veronika (szerk.) XVII. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE. pp. 305-318, 2021
Attila Novák, Borbála Novák: Transfer-based Enrichment of a Hungarian Named Entity Dataset, In: Galia, Angelovaet al. Proceedings of Recent Advances in Natural Language Processing 2021. Sumen, Bulgária : Incoma. pp. 1064-1071, 2021
Attila Novák, Borbála Novák, Csilla Novák: Zero-shot cross-lingual Meaning Representation Transfer: Annotation of Hungarian using the Prague Functional Generative Description, Proceedings of the Joint 15th Linguistic Annotation Workshop (LAW) and 3rd Designing Meaning Representations (DMR) Workshop. ACL, 2021
Novák Attila, Novák Borbála: Egy nagyobb magyar UD korpusz felé, In: Berend Gábor, Gosztolya Gábor, Vincze Veronika (szerk.) XVII. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE. pp. 305-318, 2021
Attila Novák, Borbála Novák: Transfer-based Enrichment of a Hungarian Named Entity Dataset, In: Galia, Angelovaet al. Proceedings of Recent Advances in Natural Language Processing 2021. Sumen, Bulgária : Incoma. pp. 1064-1071, 2021
Attila Novák, Borbála Novák, Csilla Novák: Zero-shot cross-lingual Meaning Representation Transfer: Annotation of Hungarian using the Prague Functional Generative Description, Proceedings of the Joint 15th Linguistic Annotation Workshop (LAW) and 3rd Designing Meaning Representations (DMR) Workshop. ACL, 2021
Attila Novák, Borbála Novák: NerKor+Cars-OntoNotes++, Proceedings of the 13th Language Resources and Evaluation Conference (LREC 2022). ELRA, 2022. pp. 1907-1916., 2022
Novák Attila, Novák Borbála: NerKor 1.41e, XVIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2022). Szeged: SZTE, 2022. pp. 389-402., 2022
Novák Attila, Laki László János, Novák Borbála: Mit hozott édesapám? Döntést - Idiomatikus és félig kompozicionális magyar igei szerkezetek azonosítása párhuzamos korpuszból, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XV. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE, 2019. pp. 63-71., 2019
Novák Attila, Laki László János, Novák Borbála, Dömötör Andrea, Ligeti-Nagy Noémi, Kalivoda Ágnes: Egy magyar nyelvű kérdezőrendszer, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XV. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE, 2019. pp. 83-95., 2019
Attila Novák, László Laki, Borbála Novák: CBOW-tag: a Modified CBOW Algorithm for Generating Embedding Models from Annotated Corpora, Proceedings of The 12th Language Resources and Evaluation Conference, Marseille: ELRA, 2020. pp. 4798-4801, 2020
Novák Attila, Novák Borbála: Bu-Bor-éK: grafikus címkenormalizáló eszköz, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XVI. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE, 2020. pp. 303-312, 2020
Ligeti-Nagy Noémi, Novák Attila: Hol ugat a kutya? Örömében. Helyhatározói esetragos névszók pontosabb annotációja, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XV. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE, 2019. pp. pp. 225-234, 2019
Tálas Dalma, Novák Attila: Különböző függőségi elemzők teljesítményének vizsgálata magyar nyelven, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XV. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE, 2019., 2019
Yang Zijian Győző, Novák, Attila, Laki László János: Automatikus tematikuscímke-ajánló rendszer sajtószövegekhez, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XVI. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: SZTE, 2020. pp. 155-168, 2020
Attila Novák, László Laki, Borbála Novák, Andrea Dömötör, Noémi Ligeti-Nagy, Ágnes Kalivoda: Creation of a corpus with semantic role labels for Hungarian, In: Proceedings of the 13th Linguistic Annotation Workshop, Association for Computational Linguistics (ACL) (2019) pp. 220-229., 2019
Attila Novák, Borbála Novák: Cross-Lingual Generation and Evaluation of a Wide-Coverage Lexical Semantic Resource, In: Nicoletta, Calzolari; Khalid, Choukri; Christopher, Cieri; Thierry, Declerck; Sara, Goggi; Koiti, Hasida; Hitoshi, Isahara; Bente, Maegaard; Joseph, Mariani; Hélène, Mazo; Asuncion, Moreno; Jan, Odijk; Stelios, Piperidis; Takenobu, Tokunaga (szerk.) Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), European Language Resources Association (ELRA) (2018) pp. 45-51., 2018
Novák Attila, Novák Borbála: Magyar szóbeágyazási modellek kézi kiértékelése, In: Vincze, Veronika (szerk.) XIV. Magyar Számítógépes Nyelvészeti Konferencia : MSZNY 2018, Szegedi Tudományegyetem, Informatikai Intézet (2018) pp. 67-77., 2018
Attila Novák, Borbála Novák: Identification of lemmatization errors using neural models, In: Alexander Gelbukh (ed.) Computational Linguistics and Intelligent Text Processing: 19th International Conference, CICLing 2018, Springer, Cham (in press), 2018
Attila Novák, Borbála Siklósi: A Model for High-coverage Lexical Semantic Annotation Generation, In: Gordon Andrew S, Miller Rob, Turán György (szerk.) Proceedings of the Thirteenth International Symposium on Commonsense Reasoning, COMMONSENSE 2017. Paper 15. 7 p., 2018
Attila Novák, Borbála Novák: POS, ANA and LEM: Word Embeddings Built from Annotated Corpora Perform Better, In: Alexander Gelbukh (ed.) Computational Linguistics and Intelligent Text Processing: 19th International Conference, CICLing 2018, Springer, Cham (in press), 2018
Attila Novák, Borbála Novák: Cross-Lingual Generation and Evaluation of a Wide-Coverage Lexical Semantic Resource, Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). ELRA, 2018. pp. 45-51. (ISBN:979-10-95546-00-9), 2018
Novák Attila, Novák Borbála: Magyar szóbeágyazási modellek kézi kiértékelése, In: Vincze Veronika (szerk.) XIV. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2018). Szeged: SZTE, 2018. pp. 67-77. (ISBN:978-963-306-578-5), 2018
Novák Attila, Novák Borbála: Lemmi vagy nem lemmi, In: Vincze Veronika (szerk.) XIV. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2018). Szeged: SZTE, 2018. pp. 159-167. (ISBN:978-963-306-578-5), 2018
Novák Attila, Novák Borbála: MILQA kérdés-válasz benchmark adatbázis, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XIX. Magyar Számítógépes Nyelvészeti Konferencia, MSZNY-2023, Szegedi Tudományegyetem (SZTE) (2023) pp. 203-216., 2023
Novák Attila, Novák Borbála, Zombori Tamás, Szabó Gergő, Szántó Zsolt, Farkas Richárd: A Question Answering Benchmark Database for Hungarian, In: Proceedings of the 17th Linguistic Annotation Workshop (LAW-XVII), Association for Computational Linguistics (2023) pp. 188-198., 2023





 

Projekt eseményei

 
2021-05-07 10:59:34
Résztvevők változása
2018-12-14 15:12:23
Résztvevők változása




vissza »