Szószerkezet felismerése mélytanulással  részletek

súgó  nyomtatás 
vissza »

 

Projekt adatai

 
azonosító
120145
típus K
Vezető kutató Kornai András
magyar cím Szószerkezet felismerése mélytanulással
Angol cím Deep Learning of Morphological Structure
magyar kulcsszavak szószerkezet, morfológia, mélytanulás, struktúratanulás
angol kulcsszavak morphology, deep learning, structure learning
megadott besorolás
Nyelvtudomány (Bölcsészet- és Társadalomtudományok Kollégiuma)100 %
Ortelius tudományág: Számítógépes nyelvészet
zsűri Nyelvészet
Kutatóhely HUN-REN Számítástechnikai és Automatizálási Kutatóintézet
résztvevők Nemeskey Dávid Márk
projekt kezdete 2016-10-01
projekt vége 2020-09-30
aktuális összeg (MFt) 44.400
FTE (kutatóév egyenérték) 4.00
állapot lezárult projekt
magyar összefoglaló
A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.

A mélytanulásos módszerek számos területen értek el áttöréseket az elmúlt években: beszéd-, kézírás- és alakfelismerés, és a természetes nyelvfeldolgozás különböző területein, mint a PP csatolás. Ugyanakkor a szavak belső szerkezetének elemzése (morfológiai elemzés) egy olyan probléma marad, amit a kézzel írt szabályalapú rendszerek még mindig uralnak. A témához kapcsolódó MorphoChallenge alapján egyértelmű, hogy az egyszerűnek tűnő szóalapú konstituenselemzés, vagy morfémákra bontás mint pl. szak.ember.ek.nek, és az összetartozó morfémák funkcionális osztályokba rendelése (pl. összetett szótövek mint szak és ember, többesszám jele ak/ek/ok/ők/k, az esetragok nak/nek, val/vel, ...), mtúég mindig nagyon nehéz feladat a gép számára. A probléma megoldásához egy kétszintű megközelítést javaslunk: az első lépésben egy kapuzott rekurrens egységekből álló mély neurális hálót tanítunk felügyelt módon, a szabályalapú morfológiai elemzők kimenetét gold adatnak tekintve. A megfelelő architektúra megtalálása után a második lépésben a felügyelés mértékét folyamatos csökkentjük, míg egy felügyeletlen (vagy gyengén felügyelt) rendszerig jutunk. A fő célnyelveink a komplex konkatenatív morfológiájú magyar és a komplex nem konkatenatív morfológiájú arab nyelvek, de hasonló strukturális felépítésű nyelvek (finn, török, héber) sem esnek kívül a vizsgálatainkon. Feltételezzük, hogy egy, a magyart és arabot, mint szélső eseteket kezelni képes rendszer minden egyéb morfológiára is alkalmazható mélytanulásos megoldást nyújt.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.

Három tényező teszi kiemelkedően nehézzé a morfológiai elemzést. Egyrészt a felszíni formák és az absztrakt morfémák közti megfeleltetés korántsem tökéletes: jelentős különbségek léphetnek fel a morfémahatárokon (sandhi), illetve a morfémákon belül (szótaghatárok megváltozása, templatikus hatások jellemzően az arab nyelvben) is. Másrészt a fonémák lineáris sorozata nemlineáris struktúrát (elemzési fa) kódol multilineáris mechanizmussal (autoszegmentálás), és az alapvető összerendelési szabályok megtanulása már önmagában nehéz feladat. Harmadrészt a természetes nyelvek morfológiája meglepően zajos, mivel a lexikalizált kivételek és alminták – erős igék az angolban vagy a gyökszerkezet a magyarban (Czuczor and Fogarasi, 1862) – bonyolulttá teszik az általános minták megtalálását.

Az első probléma kiemelkedően fontos a beszédfelismerésben, ahol a felszíni adat (hullámforma) és az absztrakt struktúra (fonéma) valószínűségi összerendelése kritikus. Gyakorlatilag minden gépi tanulási probléma zajjal terhelt és itt nehezítő körülmény az, hogy lehetetlen „tiszta” adatot gyűjteni: a valamilyen szempontból kivételnek tekinthető szavakat szűrve, gyakorlatilag minden adatot elveszítenénk. Ezeket figyelembe véve, a tervezett projektünk hozzáadott értéke a második probléma megoldásában keresendő: a háromféle absztrakt struktúra (lineáris, fa és autoszegmentális) egyidejű tanulása, valamint az ezeket egyesítő műveletek tanulása. Fák lineáris kódolása egy klasszikus eljárás a kombinatorikában (Prüfer, 1918); az autoszegmentális struktúra lineáris kódolása Kornaitól (1995) származik, és jelenleg is aktívan kutatott terület (Jardine and Heinz, 2015; Yli-Jyrä, 2015, 2016).

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!

A szimbolikus struktúrák modernkori vizsgálata Smolensky (1990)-vel kezdődött, aki tenzorszorzatot használt a változókötés és egyéb, szimbolikus struktúrákon végzett műveletek kódolására. A mélytanulás legfontosabb újításai azok, amiket Bengio, Courville, and Vincent (2013) „feladatok közti közös faktoroknak” nevez. Érdemes megjegyezni, hogy a morfológiai elemzés nem csupán a nyelvészeti kíváncsiság kielégítéséért hasznos, hanem maga is egy olyan struktúrát ad, amely számos, a gyakorlatban jelentős feladat között közös, beleértve az információkinyerést (szótövezés, lemmatizálás), a mondatgenerálást (morfológiai szintézis), a gépi fordítást, a nyelvmodellezést, a beszéd- és a kézírás-felismerést és szintézist, az automatikus szótár-, lexikon- és ontológiaépítést, a helyesírás-ellenőrzést stb. Mitöbb, az azonosított morfémák közvetlenül hozzájárulnak a mondatreprezentációhoz (pl. az esetragok kritikusak a szemantikai szerepek azonosításában, a személy- és számragok a névmásfeloldásban) és a szavak önálló jelentéséhez.

A morfológiai struktúrák a nyelvtechnológiai feladatokban elterjedt szerepét figyelembe véve, nem meglepő, hogy a mélytanulásos módszereket már alkalmazták angol nyelvre (Lazaridou et al., 2013; Luong, Socher, and Manning, 2013). A szerzők megjegyzik, hogy „az angol nyelv morfológiája limitált, és a modellünk potenciálisan több eredményt hozhat gazdagabb morfológiájú nyelvek elemzésében, mint a finn vagy a török”, de az általuk használt környezetfüggetlen technika a nemkonkatenatív morfológia kezelésére nem elegendő. Más kutatók (Rogati, McCarley, and Yang, 2003; Snyder and Barzilay, 2008) arabra, héberre és egyéb hasonló nyelvek esetében tudomásul veszik a környezetfüggetlen faszerkezetek elégtelen reprezentációs készségét, azonban mélytanulásos módszereket még nem használnak. Legfontosabb célunk, a string-, fa- és autoszegmentális technikák kombinálása egyetlen mélytanulásos architektúrán belül a következő logikus lépésnek tűnik a morfológiai struktúrák kinyerésében.

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára.

Manapság nehezen tudnánk elképzelni az életünket helyesírás-ellenőrzők vagy webes keresést lehetővé tévő keresőmotorok nélkül. Mindkét elterjedt technológia a felhasználó tudtán kívül a háttérben nagyban támaszkodik egy ún. morfológiai elemzőre, mely a szavakat részeikben tudja értelmezni. Az ember az anyanyelvének elsajátításával párhuzamosan tanulja meg a morfológiai elemzést és könnyedén felismeri például, hogy a szakértő szó a szak és az értő szavakból tevődik össze, utóbbi az ért igéből és az ő melléknévképzőből áll. Ráadásul egy gyermek tetszőleges nyelvi környezetben könnyedén megtanulja az adott nyelv morfológiáját.

A technológia jelenlegi eszközei nem képesek az emberi teljesítmény elérésére ebben a tekintetben, és egyértelmű, hogy ha a szavak belső szerkezetének megtanulása problémát jelent, akkor egy egész nyelv és a nyelv struktúrájának megtanulásától még messzebb állunk. A komplex nyelvtechnológiai feladatokkal foglalkozó algoritmusok mint a kérdésmegválaszolás vagy a gépi fordítás addig nem fognak mindennapi életünk részévé válni, amíg a morfológiai struktúrák tanulása nem válik automatizálhatóvá (szemben a jelenlegi eljárással, vagyis kézzel írt szabályok alkalmazásával). Ráadásul a nyelv elsajátításának képessége nem csupán a mesterséges intelligencia (ahol a Turing teszt eleve feltételezi a nyelvi képességeket) szempontjából kritikus, hanem a nyelvészeti kutatásokban is, hiszen már Chomsky (1965) kijelentette, hogy egy nyelvészeti elméletnek magyarázatot kell adnia a nyelvtanulás képességére.
angol összefoglaló
Summary of the research and its aims for experts
Describe the major aims of the research for experts.

In the past few years, methods of deep learning have yielded breakthrough results in speech (Yu, Deng, and Seide, 2013), handwriting and object recognition and on several natural language processing (NLP) tasks such as PP attachment. Yet there remains one problem area, the analysis of word-internal structure (morphological analysis) where the old paradigm of manually written rule systems still reigns supreme. As the results of MorphoChallenge make clear, the seemingly simple task of analyzing words into constituent morphemes as in szak.ért.ő.k.nek ‘to experts’, and grouping the relevant morphemes in functional classes (e.g. compound stems szak and ért.ő, markers of plurality ak/ek/ok/ök/k, and case nak/nek, val/vel, ...) is still very hard. We propose a two-stage approach, with supervised training of gated recurrent unit (GRU) deep nets using the output of rule-based morphological analyzers as gold data in the first stage to select the proper architecture, and gradually decreasing the amount of supervision until a fully unsupervised (or very weakly supervised) system is obtained. Our primary targets are Hungarian and Arabic, known for the complexity of their concatenative and non-concatenative morphologies respectively. Other languages with similar structural characteristics (Finnish, Turkish, Hebrew) are obviously in scope, but the larger assumption is that by building a system capable of handling the two extremes, all morphologies will be amenable to deep learning.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.

There are three factors that make morphological analysis very hard. First, the match between surface segments and abstract morphemes is imperfect: there are significant changes (sandhi) at the edge of morphemes and often (due to resyllabification and the templatic effects paramount in Arabic) inside as well. Second, the linear string of phonemes encodes a nonlinear structure (parse tree) using a multilinear (autosegmental) mechanism, and the elementary operations used in putting these together are already hard to learn. Finally, morphologies are remarkably noisy, because lexical exceptions and sub-patterns such as strong verbs in English or root structure (Czuczor and Fogarasi, 1862) in Hungarian make it difficult to find the general pattern.

The first problem is endemic in speech recognition, where probabilistic matching of the surface data (waveforms) to the abstract structure (phonemes) is key to success. The problem of noise is common to virtually all machine learning tasks, and here it is made worse by the fact that we have no means of setting up laboratory conditions to obtain pure data: filtering out every word form that is in some respect exceptional would filter practically everything out. That said, we see the unique contribution of our work in addressing the second issue, simultaneous learning of three kinds of abstract structure (linear, tree, and autosegmental) and the operations connecting them. Linear encoding of trees is a classical method of combinatorics (Prüfer, 1918), linear encoding of autosegmental structure begins with (Kornai, 1995), and is still an actively researched area (Jardine and Heinz, 2015; Yli-Jyrä, 2015; Yli-Jyrä, 2016).

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.

The modern study of symbolic structure learning begins with Smolensky (1990) who used tensor products to encode variable binding and other operations on symbolic structures. The key incremental change brought by deep learning is what Bengio, Courville, and Vincent (2013) calls shared factors across tasks. It should be understood from the outset that morphological analysis is not something we need just to satisfy the curiosity of grammarians, it is a structure shared across several tasks of great practical significance, including information retrieval (stemming, lemmatization), sentence generation (morphological synthesis), machine translation, language modeling, speech and handwriting recognition and synthesis, automated dictionary/lexicon/ontology building, spellchecking, parsing, and so on. Further, the morphemes uncovered by the analysis contribute directly to sentence representation (e.g. case endings are key to semantic role labeling, person/number suffixes to pronoun resolution, and so on) and to the meaning of the words themselves.

Given the ubiquitous use of morphological structure in NLP tasks, it is no surprise that deep learning methods have already been applied to English (Lazaridou et al., 2013; Luong, Socher, and Manning, 2013). These authors already note that “English is still considered limited in terms of morphology, our model could potentially yield even better performance when applied to other morphologically complex languages such as Finnish or Turkish”, but the context-free technique they rely on leaves the issue of non-concatenative structure entirely open. Other authors dealing with Arabic, Hebrew, and the like (Rogati, McCarley, and Yang, 2003; Snyder and Barzilay, 2008) are fully cognizant of the inadequacy of context-free tree structure for these languages, but have not applied deep learning techniques. Our central goal of combining string-, tree-, and autosegment-based techniques within a single deep learning architecture is the next logical step in the quest for automatic morphological structure acquisition.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others.

It is hard to imagine modern life without spellcheckers, which help people compose text, and search engines, which let us find information on the web. Unbeknownst to the naive end-user, both of these widespread technologies rely on a hidden component called the morphological analyzer which takes words and analyzes them in their component parts. Humans learn morphological analysis automatically as they they learn their native language, and can easily tell that e.g. szakértő is composed of szak ‘speciality’ and értő ‘one who understands’, with the latter composed of the verb ért ‘to understand’ and the participle-forming suffix ó/ő. Further, an infant placed in any language environment will learn the morphology of that language with the same ease.

The current generation of algorithms is not yet capable of replicating human performance in this regard, and it seems evident that if learning the words and their structure is a problem, learning the entire language and its structure is even farther away. Algorithms working on more complex natural language tasks such as Question Answering or Machine Translation will not become a part of our everyday lives until morphological structure can be automatically learned (as opposed to being manually spoon-fed, as is common today). In fact, the capability to acquire language is viewed as critical not just from the point of Artificial Intelligence (where the Turing test already presupposes linguistic abilities) but also from the perspective of linguistic research, where Chomsky (1965) already demanded that the theory be capable of explaining the ability to learn the language.





 

Zárójelentés

 
kutatási eredmények (magyarul)
A 2019-es átstruktúrálás előtt felügyelt rendszereket alkottunk e-Magyar szegmentációval. A Webkorpuszból így előállított gluten-free (GLF) szövegeken kimértük, hogy a neurális nyelvmodell teljesítménye nem romlik, szemben a hagyományos n-gram modellel, hogy GLF esetén a szótár mérete 1/3-a az eredetinek, és hogy GLF szóbeágyazások képesek kapcsolatot vonni névutók, határozószók és ragok között: pl. bele legközelebbi szomszédja -ba/-be. Igazoltuk, hogy tisztán geometriai eszközökkel is megragadhatóak a szóvektorok és a szófajok közti alapvető összefüggések (Lévai 2019), viszont a szóvektorok közt téma-szerinti kapcsolat nem nagyon látható, ezek tehát inkább a szintaktikai mint a szemantikai modellek (Nemeskey és Kornai 2018). Az átstruktúrtálás utáni szakasz eredményei közül kiemeljük, hogy mélytanulásos morfológiai rendszerünk ezüstérmes lett a CoNNL-SIGMORPHON osztott feladatsoron (Ács 2018); megalkottuk a Webkorpusz 2.0-t, ami az eddigi legnagyobb, nyilvánosan elérhető és dinamikusan bővülö magyar korpusz; elkészült és nyilvánossá vált (open source) az első monolinguális magyar BERT modell (HuBERT); az eredményeket integráltuk az e-Magyar eszközláncba (Nemeskey 2020); sikerült morféma-jellegű alakok felismerése (BlackBox AI) az un. SoPa modellekben (Ács 2019); a szószintűnél alacsonyabb tokenizáció hatásait vizsgálja dinamikus beágyazásokban Ács (bírálat alatt)
kutatási eredmények (angolul)
Before the 2019 restructuring we created supervised morphological learners using e-Magyar segmentation. Webcorpus yielded deagglutinated (gluten free, GLF) text which we used used to measure the effectiveness of neural net language models, whose performance does not degrade on GLF data, unlike traditional language models. We established that vocabulary sized decreases by 2/3 in the GLF case, and that static embeddings taught on GLF are capable of relating similarly functioning postpositions, inflectional endings, and adverbials (e.g. the nearest vector. to `bele' is `-ba/be'). We found that part of speech and geometrtical position in the embedding are strongly related (Levai 2019) while topically strongly related words are dispersed in static embeddings, so these are more syntactic than semantic models (Nemeskey and Kornai 2018). We highlight the following results since the restructuring: - our deep learning morphological system was second best at the CoNNL-SIGMORPHON shared task (Acs 2018) - we created Webcorpus 2.0, which is the single largest, dynamically growing, and fully open source Hungarian corpus - we trained, and made fully available at HuggingFace the first monolingual Hungarian BERT system, HuBert - we integrated the results in the e-Magyar toolchain (Nemeskey 2020) - we found morpheme-like units (BlackBox AI) in SoPa models (Acs 2019) -we investigated the effects of subword tokenization in dynamic embeddings (Acs, under review)
a zárójelentés teljes szövege https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=120145
döntés eredménye
igen





 

Közleményjegyzék

 
Nemeskey D, Kornai A: Emergency Vocabulary, INFORM SYST FRONT xx: (x) pp. 1-15., 2018
Judit Ács: BME-HAS system for CoNLL–SIGMORPHON 2018 shared task: Universal morphological reinflection., Proceedings of the CoNLL SIGMORPHON 2018 Shared Task, 2018
Judit Ács, Dávid Nemeskey, Gábor Recski: Building word embeddings from dictionary definitions, megjelenés alatt, 2019
Gábor Borbély: Language modeling with matrix embeddings, megjelenés alatt, 2019
Dániel Lévai: The impact of inflection on word vectors, BME, 2018
Dávid Márk Nemeskey: emLam – a Hungarian Language Modeling baseline, MSZNY 2017, 2017
Bálint Döbrössy, Márton Makrai, Balázs Tarján, György Szaszák: Investigating sub-word embedding strategies for the morphologically rich and free phrase-order Hungarian, Proceedings of the 4th Workshop on Representation Learning for NLP, 2019
Balázs Indig, Bálint Sass, Eszter Simon, Iván Mittelholcz, Noémi Vadász, Márton Makrai: One format to rule them all – The emtsv pipeline for Hungarian, he 13th Linguistic Annotation Workshop, 2019
Dániel Lévai, András Kornai: The impact of inflection on word vectors, MSZNY, 2019
Gábor Borbély, András Kornai: Sentence length, Proc ACL SIGMOL 2019, 2019
Ádám Kovács, Evelin Ács, Judit Ács, Andras Kornai, Gábor Recski: BME-UW at SR'19: Surface realization with Interpreted Regular Tree Grammars, Proc MSR-2019, 2019
Kinga Andrea Gémes, Ádám Kovács, Gábor Recski: Machine comprehension using semantic graphs, Proceedings of the Automation and Applied Computer Science Workshop 2019 : AACS'19, 2019
Gábor Borbély: Language modeling with matrix embeddings, megjelenés alatt, 2019
Ács Judit, Kornai András: The Role of Interpretable Patterns in Deep Learning for Morphology, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XVI. Magyar Számítógépes Nyelvészeti Konferencia, Szegedi Tudományegyetem, Informatikai Intézet (2020) pp. 171-179., 2020
Zalan Gyenis, Andras Kornai: Naive probability, , 2019
Kornai A: Semantics, Springer, 2020
Kovács Ádám, Ács Judit, Kornai András, Recski Gábor: Better Together: Modern methods plus traditional thinking in NP alignment, In: In Proceedings of 12th Edition of its Language Resources and Evaluation Conference, European Language Resources Association (ELRA) (2020), 2020





 

Projekt eseményei

 
2018-04-25 14:05:22
Résztvevők változása




vissza »