|
Ezen az oldalon az NKFI Elektronikus Pályázatkezelő Rendszerében nyilvánosságra hozott projektjeit tekintheti meg.
vissza »
|
|
Projekt adatai |
|
|
azonosító |
120145 |
típus |
K |
Vezető kutató |
Kornai András |
magyar cím |
Szószerkezet felismerése mélytanulással |
Angol cím |
Deep Learning of Morphological Structure |
magyar kulcsszavak |
szószerkezet, morfológia, mélytanulás, struktúratanulás |
angol kulcsszavak |
morphology, deep learning, structure learning |
megadott besorolás |
Nyelvtudomány (Bölcsészet- és Társadalomtudományok Kollégiuma) | 100 % | Ortelius tudományág: Számítógépes nyelvészet |
|
zsűri |
Nyelvészet |
Kutatóhely |
HUN-REN Számítástechnikai és Automatizálási Kutatóintézet |
résztvevők |
Nemeskey Dávid Márk
|
projekt kezdete |
2016-10-01 |
projekt vége |
2020-09-30 |
aktuális összeg (MFt) |
44.400 |
FTE (kutatóév egyenérték) |
4.00 |
állapot |
lezárult projekt |
magyar összefoglaló A kutatás összefoglalója, célkitűzései szakemberek számára Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára. A mélytanulásos módszerek számos területen értek el áttöréseket az elmúlt években: beszéd-, kézírás- és alakfelismerés, és a természetes nyelvfeldolgozás különböző területein, mint a PP csatolás. Ugyanakkor a szavak belső szerkezetének elemzése (morfológiai elemzés) egy olyan probléma marad, amit a kézzel írt szabályalapú rendszerek még mindig uralnak. A témához kapcsolódó MorphoChallenge alapján egyértelmű, hogy az egyszerűnek tűnő szóalapú konstituenselemzés, vagy morfémákra bontás mint pl. szak.ember.ek.nek, és az összetartozó morfémák funkcionális osztályokba rendelése (pl. összetett szótövek mint szak és ember, többesszám jele ak/ek/ok/ők/k, az esetragok nak/nek, val/vel, ...), mtúég mindig nagyon nehéz feladat a gép számára. A probléma megoldásához egy kétszintű megközelítést javaslunk: az első lépésben egy kapuzott rekurrens egységekből álló mély neurális hálót tanítunk felügyelt módon, a szabályalapú morfológiai elemzők kimenetét gold adatnak tekintve. A megfelelő architektúra megtalálása után a második lépésben a felügyelés mértékét folyamatos csökkentjük, míg egy felügyeletlen (vagy gyengén felügyelt) rendszerig jutunk. A fő célnyelveink a komplex konkatenatív morfológiájú magyar és a komplex nem konkatenatív morfológiájú arab nyelvek, de hasonló strukturális felépítésű nyelvek (finn, török, héber) sem esnek kívül a vizsgálatainkon. Feltételezzük, hogy egy, a magyart és arabot, mint szélső eseteket kezelni képes rendszer minden egyéb morfológiára is alkalmazható mélytanulásos megoldást nyújt.
Mi a kutatás alapkérdése? Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek. Három tényező teszi kiemelkedően nehézzé a morfológiai elemzést. Egyrészt a felszíni formák és az absztrakt morfémák közti megfeleltetés korántsem tökéletes: jelentős különbségek léphetnek fel a morfémahatárokon (sandhi), illetve a morfémákon belül (szótaghatárok megváltozása, templatikus hatások jellemzően az arab nyelvben) is. Másrészt a fonémák lineáris sorozata nemlineáris struktúrát (elemzési fa) kódol multilineáris mechanizmussal (autoszegmentálás), és az alapvető összerendelési szabályok megtanulása már önmagában nehéz feladat. Harmadrészt a természetes nyelvek morfológiája meglepően zajos, mivel a lexikalizált kivételek és alminták – erős igék az angolban vagy a gyökszerkezet a magyarban (Czuczor and Fogarasi, 1862) – bonyolulttá teszik az általános minták megtalálását.
Az első probléma kiemelkedően fontos a beszédfelismerésben, ahol a felszíni adat (hullámforma) és az absztrakt struktúra (fonéma) valószínűségi összerendelése kritikus. Gyakorlatilag minden gépi tanulási probléma zajjal terhelt és itt nehezítő körülmény az, hogy lehetetlen „tiszta” adatot gyűjteni: a valamilyen szempontból kivételnek tekinthető szavakat szűrve, gyakorlatilag minden adatot elveszítenénk. Ezeket figyelembe véve, a tervezett projektünk hozzáadott értéke a második probléma megoldásában keresendő: a háromféle absztrakt struktúra (lineáris, fa és autoszegmentális) egyidejű tanulása, valamint az ezeket egyesítő műveletek tanulása. Fák lineáris kódolása egy klasszikus eljárás a kombinatorikában (Prüfer, 1918); az autoszegmentális struktúra lineáris kódolása Kornaitól (1995) származik, és jelenleg is aktívan kutatott terület (Jardine and Heinz, 2015; Yli-Jyrä, 2015, 2016).
Mi a kutatás jelentősége? Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának! A szimbolikus struktúrák modernkori vizsgálata Smolensky (1990)-vel kezdődött, aki tenzorszorzatot használt a változókötés és egyéb, szimbolikus struktúrákon végzett műveletek kódolására. A mélytanulás legfontosabb újításai azok, amiket Bengio, Courville, and Vincent (2013) „feladatok közti közös faktoroknak” nevez. Érdemes megjegyezni, hogy a morfológiai elemzés nem csupán a nyelvészeti kíváncsiság kielégítéséért hasznos, hanem maga is egy olyan struktúrát ad, amely számos, a gyakorlatban jelentős feladat között közös, beleértve az információkinyerést (szótövezés, lemmatizálás), a mondatgenerálást (morfológiai szintézis), a gépi fordítást, a nyelvmodellezést, a beszéd- és a kézírás-felismerést és szintézist, az automatikus szótár-, lexikon- és ontológiaépítést, a helyesírás-ellenőrzést stb. Mitöbb, az azonosított morfémák közvetlenül hozzájárulnak a mondatreprezentációhoz (pl. az esetragok kritikusak a szemantikai szerepek azonosításában, a személy- és számragok a névmásfeloldásban) és a szavak önálló jelentéséhez.
A morfológiai struktúrák a nyelvtechnológiai feladatokban elterjedt szerepét figyelembe véve, nem meglepő, hogy a mélytanulásos módszereket már alkalmazták angol nyelvre (Lazaridou et al., 2013; Luong, Socher, and Manning, 2013). A szerzők megjegyzik, hogy „az angol nyelv morfológiája limitált, és a modellünk potenciálisan több eredményt hozhat gazdagabb morfológiájú nyelvek elemzésében, mint a finn vagy a török”, de az általuk használt környezetfüggetlen technika a nemkonkatenatív morfológia kezelésére nem elegendő. Más kutatók (Rogati, McCarley, and Yang, 2003; Snyder and Barzilay, 2008) arabra, héberre és egyéb hasonló nyelvek esetében tudomásul veszik a környezetfüggetlen faszerkezetek elégtelen reprezentációs készségét, azonban mélytanulásos módszereket még nem használnak. Legfontosabb célunk, a string-, fa- és autoszegmentális technikák kombinálása egyetlen mélytanulásos architektúrán belül a következő logikus lépésnek tűnik a morfológiai struktúrák kinyerésében.
A kutatás összefoglalója, célkitűzései laikusok számára Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára. Manapság nehezen tudnánk elképzelni az életünket helyesírás-ellenőrzők vagy webes keresést lehetővé tévő keresőmotorok nélkül. Mindkét elterjedt technológia a felhasználó tudtán kívül a háttérben nagyban támaszkodik egy ún. morfológiai elemzőre, mely a szavakat részeikben tudja értelmezni. Az ember az anyanyelvének elsajátításával párhuzamosan tanulja meg a morfológiai elemzést és könnyedén felismeri például, hogy a szakértő szó a szak és az értő szavakból tevődik össze, utóbbi az ért igéből és az ő melléknévképzőből áll. Ráadásul egy gyermek tetszőleges nyelvi környezetben könnyedén megtanulja az adott nyelv morfológiáját.
A technológia jelenlegi eszközei nem képesek az emberi teljesítmény elérésére ebben a tekintetben, és egyértelmű, hogy ha a szavak belső szerkezetének megtanulása problémát jelent, akkor egy egész nyelv és a nyelv struktúrájának megtanulásától még messzebb állunk. A komplex nyelvtechnológiai feladatokkal foglalkozó algoritmusok mint a kérdésmegválaszolás vagy a gépi fordítás addig nem fognak mindennapi életünk részévé válni, amíg a morfológiai struktúrák tanulása nem válik automatizálhatóvá (szemben a jelenlegi eljárással, vagyis kézzel írt szabályok alkalmazásával). Ráadásul a nyelv elsajátításának képessége nem csupán a mesterséges intelligencia (ahol a Turing teszt eleve feltételezi a nyelvi képességeket) szempontjából kritikus, hanem a nyelvészeti kutatásokban is, hiszen már Chomsky (1965) kijelentette, hogy egy nyelvészeti elméletnek magyarázatot kell adnia a nyelvtanulás képességére.
| angol összefoglaló Summary of the research and its aims for experts Describe the major aims of the research for experts. In the past few years, methods of deep learning have yielded breakthrough results in speech (Yu, Deng, and Seide, 2013), handwriting and object recognition and on several natural language processing (NLP) tasks such as PP attachment. Yet there remains one problem area, the analysis of word-internal structure (morphological analysis) where the old paradigm of manually written rule systems still reigns supreme. As the results of MorphoChallenge make clear, the seemingly simple task of analyzing words into constituent morphemes as in szak.ért.ő.k.nek ‘to experts’, and grouping the relevant morphemes in functional classes (e.g. compound stems szak and ért.ő, markers of plurality ak/ek/ok/ök/k, and case nak/nek, val/vel, ...) is still very hard. We propose a two-stage approach, with supervised training of gated recurrent unit (GRU) deep nets using the output of rule-based morphological analyzers as gold data in the first stage to select the proper architecture, and gradually decreasing the amount of supervision until a fully unsupervised (or very weakly supervised) system is obtained. Our primary targets are Hungarian and Arabic, known for the complexity of their concatenative and non-concatenative morphologies respectively. Other languages with similar structural characteristics (Finnish, Turkish, Hebrew) are obviously in scope, but the larger assumption is that by building a system capable of handling the two extremes, all morphologies will be amenable to deep learning.
What is the major research question? Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments. There are three factors that make morphological analysis very hard. First, the match between surface segments and abstract morphemes is imperfect: there are significant changes (sandhi) at the edge of morphemes and often (due to resyllabification and the templatic effects paramount in Arabic) inside as well. Second, the linear string of phonemes encodes a nonlinear structure (parse tree) using a multilinear (autosegmental) mechanism, and the elementary operations used in putting these together are already hard to learn. Finally, morphologies are remarkably noisy, because lexical exceptions and sub-patterns such as strong verbs in English or root structure (Czuczor and Fogarasi, 1862) in Hungarian make it difficult to find the general pattern.
The first problem is endemic in speech recognition, where probabilistic matching of the surface data (waveforms) to the abstract structure (phonemes) is key to success. The problem of noise is common to virtually all machine learning tasks, and here it is made worse by the fact that we have no means of setting up laboratory conditions to obtain pure data: filtering out every word form that is in some respect exceptional would filter practically everything out. That said, we see the unique contribution of our work in addressing the second issue, simultaneous learning of three kinds of abstract structure (linear, tree, and autosegmental) and the operations connecting them. Linear encoding of trees is a classical method of combinatorics (Prüfer, 1918), linear encoding of autosegmental structure begins with (Kornai, 1995), and is still an actively researched area (Jardine and Heinz, 2015; Yli-Jyrä, 2015; Yli-Jyrä, 2016).
What is the significance of the research? Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field. The modern study of symbolic structure learning begins with Smolensky (1990) who used tensor products to encode variable binding and other operations on symbolic structures. The key incremental change brought by deep learning is what Bengio, Courville, and Vincent (2013) calls shared factors across tasks. It should be understood from the outset that morphological analysis is not something we need just to satisfy the curiosity of grammarians, it is a structure shared across several tasks of great practical significance, including information retrieval (stemming, lemmatization), sentence generation (morphological synthesis), machine translation, language modeling, speech and handwriting recognition and synthesis, automated dictionary/lexicon/ontology building, spellchecking, parsing, and so on. Further, the morphemes uncovered by the analysis contribute directly to sentence representation (e.g. case endings are key to semantic role labeling, person/number suffixes to pronoun resolution, and so on) and to the meaning of the words themselves.
Given the ubiquitous use of morphological structure in NLP tasks, it is no surprise that deep learning methods have already been applied to English (Lazaridou et al., 2013; Luong, Socher, and Manning, 2013). These authors already note that “English is still considered limited in terms of morphology, our model could potentially yield even better performance when applied to other morphologically complex languages such as Finnish or Turkish”, but the context-free technique they rely on leaves the issue of non-concatenative structure entirely open. Other authors dealing with Arabic, Hebrew, and the like (Rogati, McCarley, and Yang, 2003; Snyder and Barzilay, 2008) are fully cognizant of the inadequacy of context-free tree structure for these languages, but have not applied deep learning techniques. Our central goal of combining string-, tree-, and autosegment-based techniques within a single deep learning architecture is the next logical step in the quest for automatic morphological structure acquisition.
Summary and aims of the research for the public Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others. It is hard to imagine modern life without spellcheckers, which help people compose text, and search engines, which let us find information on the web. Unbeknownst to the naive end-user, both of these widespread technologies rely on a hidden component called the morphological analyzer which takes words and analyzes them in their component parts. Humans learn morphological analysis automatically as they they learn their native language, and can easily tell that e.g. szakértő is composed of szak ‘speciality’ and értő ‘one who understands’, with the latter composed of the verb ért ‘to understand’ and the participle-forming suffix ó/ő. Further, an infant placed in any language environment will learn the morphology of that language with the same ease.
The current generation of algorithms is not yet capable of replicating human performance in this regard, and it seems evident that if learning the words and their structure is a problem, learning the entire language and its structure is even farther away. Algorithms working on more complex natural language tasks such as Question Answering or Machine Translation will not become a part of our everyday lives until morphological structure can be automatically learned (as opposed to being manually spoon-fed, as is common today). In fact, the capability to acquire language is viewed as critical not just from the point of Artificial Intelligence (where the Turing test already presupposes linguistic abilities) but also from the perspective of linguistic research, where Chomsky (1965) already demanded that the theory be capable of explaining the ability to learn the language.
|
|
|
|
|
|
|
vissza »
|
|
|