Analogical generalisation processes in language acquisition  Page description

Help  Print 
Back »

 

Details of project

 
Identifier
61735
Type F
Principal investigator Babarczy, Anna
Title in Hungarian Analógikus általánosítási folyamatok a gyereknyelvben
Title in English Analogical generalisation processes in language acquisition
Keywords in Hungarian nyelvelsajátítás, lexikon, szintaxis, statisztikai tanulás, túláltalánosítás
Keywords in English language acquisition, lexicon, syntax, statistical learning, overgeneralisation
Discipline
Linguistics (Council of Humanities and Social Sciences)60 %
Psychology (Council of Humanities and Social Sciences)30 %
Information Technology (Council of Physical Sciences)10 %
Panel Linguistics
Department or equivalent Department of Cognitive Science (Budapest University of Technology and Economics)
Starting date 2006-02-01
Closing date 2009-05-31
Funding (in million HUF) 3.276
FTE (full time equivalent) 0.70
state closed project
Summary in Hungarian
A generatív nyelvelmélet térhódításával előtérbe került a kérdés, hogy hogyan fejlődhet ki az ember elméjében az a mentális nyelvtan, ami pontosan az elsajátítandó anyanyelvnek megfelelő mondathalmazt generálja – se többet, se kevesebbet. Bár a probléma megfogalmazása olyan nyelvelméletre utal, ami szabályrendszerként írja le a mentális nyelvtant, a kérdés abban az esetben is fennáll, ha a nyelvet konstrukciók halmazaként jellemezzük: hogyan sajátítható el pontosan a célnyelvnek megfelelő konstrukció készlet? A kutatási terv témája ezen a kérdéskörön belül a “több” problémája: milyen túláltalánosításra utaló hibák jellemzőek a gyereknyelvre és pontosan miben áll az a mechanizmus, amely a kelleténél megengedőbb mentális nyelvtan leszűkítéséhez vezet? A kutatás kiindulópontja az a hipotézis, miszerint a nyelvelsajátításban alapvető szerepet játszik egy valószínűségeken alapuló, input-vezérelt statisztikai tanulási mechanizmus. A kutatás kettős eszközt vesz igénybe: Első célunk egy magyar gyereknyelvi korpusz részletes elemzése a nemzetközi gyereknyelvkutatásban kimutatott empirikus eredmények megerősítésére és kiegészítésére. A kutatás második szakasza a tanulási mechanizmus elméleti kidolgozása és számítógépes modellálása az empirikus eredmények ismeretében.
Summary
A central question of the generative paradigm of theoretical linguistics is how a mental grammar develops in the human mind that can generate precisely the set of acceptable sentences of the target language, neither more, nor less than that. The problem holds not only for a linguistic theory that characterises grammar as a system of rules but also for one that sees language as a set of construction templates: how does the child acquire precisely the target set of templates? Within this area, the research topic of the proposal is the problem of “more”: what sort of overgeneralization errors are characteristic of child language and what is the nature of the mechanism that allows the restriction of this overgeneral mental grammar? The proposed research builds on the hypothesis that at least some aspects of language acquisition are driven by a probabilistic, input-based statistical learning mechanism. Our aims are planned to be achieved using two methods of research. First, we intend to analyse a Hungarian corpus of child language in line with relevant international empirical studies. At the second stage of the project a theoretical model of the learning mechanism will be developed and implemented on the basis of our empirical results.





 

Final report

 
Results in Hungarian
A lexikai tudás, vagyis a felnőtt nyelvtan által megengedett predikátum-argumentum struktúrák elsajátítását vizsgáltuk. A kutatás módszere a gyereknyelvi adatok elemzéséből nyert statisztikák összevetése különböző számítógépes tanulási mechanizmusok eredményeivel. A CHILDES adatbázisból elérhető és a projekt keretében készített magyar gyereknyelvi korpuszokat a kutatás céljaira kialakított annotációs rendszerben elemeztük az előforduló predikátum-argumentum szerkezetek helyessége szerint. Az elemzés eredményeként sekély U-görbét kaptunk, ami arra utal, hogy a kezdeti konzervatív tanulási mechanizmust felváltja egy analogikus általánosító mechanizmus, amely átmenetileg hibákhoz vezet. A gyerek nyelvelsajátítási mechanizmusainak szimulálására automatikus vonzatkeret-kinyerő alkalmazást hoztunk létre. Elsőként Brent által kidolgozott statisztikai gépi tanulási módszert adaptáltuk a magyar nyelvre. A tanulás a vonzatok morfológiai jegyei alapján történik annotált korpuszból. Brent módszere szigorú konzervatív tanulási algoritmus, ahol a vonzatkeretek elsajátítása kizárólag megfelelő pozitív input alapján történik, így nem kaptunk a gyereknyelvi adatokhoz hasonlítható U-görbét. Második lépésben a tanulási algoritmust úgy módosítottuk, hogy ne zárjuk ki az általánosítás illetve túláltalánosítás lehetőségét. Ez a modell közelebb áll a gyereknyelvben megfigyelt mintákhoz, de lényegesen több inputra van szükség. A cél-nyelvtan leszűkítésével eredményjavulást értünk el.
Results in English
We looked into children’s acquisition of predicate-argument structures. Our method involved the comparison of the results of the statistical analysis of child language corpora with the output of various machine-learning algorithms. A Hungarian child language corpus was constructed of new data and the data available from the CHILDES databank. The corpus was annotated using a grammar developed for the project, and the argument frames produced by the children were analysed for accuracy. The results showed a shallow U-shaped curve suggesting that an initial conservative learning strategy was followed by an analogical generalization mechanism, which resulted in a dip in performance. The mechanisms of child learning were modelled by a series of computational models of argument frame acquisition. Model 1 used Brent’s statistical learning algorithm adapted to the Hungarian language. The learning mechanism relied on morphological cues extracted from a pre-annotated corpus. The model used a strictly conservative learning algorithm, where argument frames were added to the lexicon only if sufficient positive evidence was found. Model 1 failed to produce a U-shaped learning curve. Model 2 used a less conservative learning algorithm allowing for generalization and, thus, overgeneralisation. The output was closer to the patterns observed in child language, but the system required substantially more input. The model’s performance was improved by reducing the target grammar.
Full text https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=61735
Decision
Yes





 

List of publications

 
Babarczy Anna: Számítógépes nyelvészet, Kovács--Szamarasz, Látás, nyelv, emlékezet. Typotex., 2006
Babarczy Anna, Gábor Bálint, Hamp Gábor, Rung András: Argumentumstruktúrák gépi azonosítása, Alexin--Csendes, IV. Magyar Számítógépes Nyelvészeti Konferencia Kiadványa. Szeged, 2006
Serény András, Simon Eszter, Babarczy Anna: A model of learning verb argument frames in Hungarian, 1st Dubrovnik Conference on Cognitive Science: Language and the Brain, 2009
Fidler, Ashley, Babarczy Anna: Expanding Locative Case Marking beyond Spatial Contexts in Child Hungarian, Boston University Conference on Language Development, 2008
Serény András, Simon Eszter, Babarczy Anna: Automatic acquisition of Hungarian subcategorization frames, 9th International Symposium of Hungarian Researchers on Computational Intelligence and Informatics, 2008




Back »