Projekt adatai

típus K
Vezető kutató Váradi Tamás
magyar cím Konzorcium, társ p.: A multimodális kommunikáció időszerkezete
Angol cím Consortional assoc.: The Temporal Structure of Multimodal Communication
magyar kulcsszavak időszerkezet elemzés, multimodális kommunikáció, HUCOMTECH korpusz
angol kulcsszavak Time-pattern analysis, multimodal communication, HUCOMTECH corpus
megadott besorolás
Nyelvtudomány (Bölcsészet- és Társadalomtudományok Kollégiuma)100 %
Ortelius tudományág: Nyelvészet
zsűri Nyelvészet
Kutatóhely HUN-REN Nyelvtudományi Kutatóközpont
résztvevők Kovács György
Makrai Márton
Mittelholcz Iván
Oravecz Csaba
Takács Karolina
Vadász Noémi
projekt kezdete 2015-09-01
projekt vége 2019-02-28
aktuális összeg (MFt) 16.290
FTE (kutatóév egyenérték) 6.75
állapot lezárult projekt
magyar összefoglaló
A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.

A pályázat támaszkodik a 2009-2011 között innovatív kutatói teamek létrehozására irányuló TÁMOP-4.2.2.-08/1/2008-0009 sz. pályázat keretében végzett alapkutatásokra, a HuComTech multimodális kommunikációs korpuszra, az MTA Nyelvtudományi Intézete kiemelt kutatási infrastruktúrájára, tartalmában és céljaiban a kommunikációkutatás új dimenziói felé mutatva.

A fenti innovatív kutatói team, melyben képviselve volt a kommunikációtudomány, a számítógépes nyelvészet, a pszichológia, az információtechnológia és a robotika, számos eredményt publikált a kommunikáció multimodális markereinek együttes tanulmányozására vonatkozóan. A nemzetközi kutatási irányzatokat követve leírta számos verbális és nem verbális markerek időbeli együttállását és statikus módon jellemezni tudta a kommunikáció multimodalitását. A kommunikáció azonban időben dinamikus, azaz az emberi viselkedés megértéséhez a statikusan leírt együttállásokat fel kell fűzni egy folyamatosan változó és változásában virtuálisan soha meg nem ismétlődő jel-együttállások sorozatára, amelyeket percepciónk változó időablakokon keresztül mégis a kommunikációt jellemző struktúraként értelmez. A kommunikáció ilyen dinamikus időstruktúrájának a megismerése egyrészt komoly tudományos kihívás, másrészt elengedhetetlen a kommunikatív emberi viselkedés teljesebb megismeréséhez, és az eredmények gyakorlati alkalmazásokban való megvalósításához. Ezt a célt kívánjuk elérni a viselkedéstudományban egyre inkább tért nyerő T-minta elemzéssel, a Theme szoftver támogatásával. Kutatásunk eredményeként nemzetközi összehasonlításban is az eddigi legátfogóbb ismereteket szerezzük meg a multimodális kommunikáció dinamikus időstruktúrájáról.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.

A kutatás alapkérdése az, vajon miben és hogyan tudjuk megragadni a multimodális jegyeiben folyamatosan változó kommunikáció absztraktságában állandó, alapértelmezett struktúráját, azt, amit a felszínen mindig egyedi különböző helyzetek funkcionális kategorizálásaként értelmezünk. Hipotézisünk szerint ugyanis a kommunikáció rendelkezik ilyen alapstruktúrával. Tapasztalatunk szerint képesek vagyunk arra, hogy a végtelen felszíni változatosság mögött egyértelműen értelmezzünk olyan általános kommunikatív funkciókat, mint pl. egy társalgás elindítása, folytatása, befejezése, vagy egyetértés és nem egyetértés, beleértve ezek finomabb fokozatait is. Azaz a folyamatosan változó fizikai értékekkel bíró felszíni markerek egyszerű leírása (együttállása és egymásutánisága) nem elegendő ahhoz, hogy a mögöttes tartalmi, funkcionális értelmezést megragadjuk. Ehhez szükségünk van arra is, hogy egy formálisan kellően megragadható kapcsolatot tárjunk fel a változó felszín és az állandónak tekinthető absztrakt sturktúra között. Ezt szolgálja a T-minta elemzés, ami a kutatásunk középpontjában áll. A HuComTech korpusz teljes, 50 órás anyagán végzett kíséreleteink az alábbi kérdéseket vizsgálják:

1. Milyen lehetséges multimodális időbeli struktúrák tárhatók fel az egyes annotációs szinteken és több szint kombinációjában;

2. Milyen kommunikatív, pragmatikai, viselkedéses és nyelvi funkciók társulnak a feltárt időbeli struktúrákhoz;

3. Milyen általánosításokat tehetünk ezen időbeli struktúrák ismerete alapján beágyazott alkalmazások létrehozásához?

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!

A kutatás jelentőségét az alábbi három szinten fogalmazzuk meg: adatok, elméleti kutatások, alkalmazott kutatások

1. Adatok: korpuszépítés
A HuComTech korpusz már jelenlegi állapotában is kiemelkedik a magyar nyelvű korpuszok között azáltal, hogy 110 formális és 110 informális dialógus multimodális annotációját tartalmazza összesen több, mint 50 órás terjedelemben. Bár ez az első magyar nyelvű multimodális korpusz, nemzetközi szinten is kiemelkedik igen gazdag annotációs szintjeivel. Egyedülálló abban, hogy a pragmatika hagyományos, szöveg alapú multimodális annotációja mellett bevezeti annak unimodális annotációját is, azaz pragmatikailag és a percepcióban is értelmezhetőnek tekinti a nemverbális viselkedést a vizuális információ alapján is. Egy téren azonban fontos előrelépés szükséges: egyes nyelvészeti kérdések újszerű (az időt mint szervezési tényezőt figyelembe vevő) megválaszolásához szükséges minden egyes szövegszó kezdete és vége milliszekundumos pontosságú annotálása is. Ezen adatok előállítását vállalja a projekt annotációs modulja. A nyelvészeten túl ennek meglesz az a jelentősége is, hogy megoldja a hanganyag ilyen szempontú automatikus annotálását, ezzel hozzájárulva a magyar beszéd- és nyelvtechnológia továbbfejlesztéséhez is.

2. Elméleti kutatások: hozzájárulás a kommunikáció mélyebb funkcionális összefüggéseinek az elméleti kutatásához
A dinamikus időstruktúra vizsgálata olyan alapkutatás, ami túlmutat a kommunikatív helyzetek jellemzően deskriptív megközelítésén és azt ígéri, hogy feltárhatóvá teszi a kommunikatív kompetenciában meglévő, ugyanakkor a felszíni megfigyelés elől elzárt kommunikatív alapstruktúrát. Az eredményektől azt várjuk, hogy modellszerű megközelítését adják az ember-ember közötti interakciók bizonyos, pragmatikailag és funkcionálisan megragadható kognitív folyamatainak.

3. Alkalmazott kutatások: hozzájárulás új technológiai alkalmazások létrehozásához
A projektnek a korpuszépítésben és a kommunikációra vonatkozó elméleti kutatásokban várt fenti eredményei olyan általánosításokhoz vezethetnek, amelyek közvetve vagy közvetlenül alkalmazhatókká válnak olyan új multimodális technológiákban, amelyek mind közösségi, mind ipari felhasználásokban megjelenhetnek.

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára.

Bár anyanyelvünk birtokában biztos ismeretekkel rendelkezünk szavaink jelentéséről, mondataink, kifejezéseink értelméről, tapasztaljuk, hogy a kontextus gyakran relativizálja vagy módosítja ezeket a jelentéseket, értelmeket. Ebből tudhatjuk, hogy verbális kifejezéseink aktuális helyzetben való értelmezéséhez figyelembe kell venni a közöttük levő kapcsolatokat és a helyzetről, valamint a világról meglévő, sokszor másokkal közös ismereteket is. Azt is tapasztaljuk azonban, hogy az ”Igen!” szó nem mindig jelenti a beleegyezést, sőt, előfordulhat, hogy pontosan az ellenkezőjét jelenti. Így egy kommunikatív helyzetben figyelembe kell vennünk a verbális kifejezések mellett, alkalmanként az azok hiányában is fellépő nem verbális kifejezéseket is, mint gesztusokat és prozódiát. A kommunikáció ilyen értelmű multimodalitása alapvető jellemzője a kommunikációnak és ismerete éppen ezért elengedhetetlen mind ember-ember, mind ember-gép viszonylatában. Azt is tapasztaljuk ugyanakkor, hogy egy kommunikatív helyzet egyértelműsítéséhez nem elegendő több multimodális jegy egyidejű megjelenésének az ismerete, hiszen egy szó adott dinamikával való kiejtése adott gesztus mellett is több értelmű lehet. A kommunikáció résztvevői az ilyen többértelműséget úgy oldják fel, hogy a viselkedést annak időbeli folyamatában figyelik, tudat alatt feltárva az adott esemény multimodlális időbeli struktúráját. Mi arra vállalkozunk, hogy a T-minta elemzés viszonylag újnak számító formális eszközével feltárjuk a kommunikáció rejtett időszerkezetét a nagy méretű és nemzetközileg is kiemelkedően gazdagon annotált HuComTech korpusz alapján, lehetővé téve a kommunikáció alapszerkezetének a megismerését.
angol összefoglaló
Summary of the research and its aims for experts
Describe the major aims of the research for experts.

The proposal draws on the findings of the basic research project carried out between 2009-2011 (TÁMOP-4.2.2.-08/1/2008-0009) aimed at creating innovative research teams with its major outcome the HuComTech multimodal communication corpus, as well as on the unique research infrastructure of the Research Institute for Linguistics of HAS. It proposes to take communication studies to a new level both in terms of content and objectives.

This innovative research team representing communication studies, computational linguistics, psychology, info-communication technologies and robotics has produced a solid body of research results in the study of alignments of multimodal markers in human communication. In line with groundbreaking research trends they described the temporal alignments of a number of verbal and non-verbal markers and the multimodality of communication in a static manner. Communication is, however, inherently dynamic in time: for a genuine grasp of human behaviour one must organise static alignments as a series of virtually never repeating patterns, perceived nevertheless as communicative structures. To uncover this dynamic temporal structure is not only a major scientific challenge but an indispensable first step to more fully understand human communicative behaviour as well as translate the theoretical insights into practical applications.
We want to pursue these overall objectives with T-pattern analysis (implemented in the Theme software package) that is increasingly wide-spread in behavioural sciences. We expect the research to lead to a broader understanding of temporal structure in multimodal communication, a goal unique even by international comparison.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.

The fundamental question the proposed research sets out to explore is what are the essential traits of the underlying basic structure of communication that shows a constancy at an abstract level despite continual change in its multimodal characteristics, what is this core structure that leads us to interpret in functional terms the ever so fleeting and varied surface phenomena. Our research program starts from the premise that there exists such an underlying basic structure of communication. Experience shows that despite the unlimited surface variation we are able to recognise without fail such general human communicaton functions such as launching a conversation, maintaining and ending it, agreeing or disagreeing, including finer shades of variations. This leads us to assume that a simple description of surface physical markers of ever changing value (their sequence and co-occurrence) is inadequte for an underlying functional interpretation. The latter requires a formally defined link between the fleeting surface phenomena and the underlying abract structure. This is what T-pattern analysis aims to uncover, which is the central instrument used in our research. The analysis carried out on the entire HuComTech corpus amounting to 50 hours will pose the following questions in particular:

1) What possible multimodal temporal structures can be uncovered within and across various individual levels?

2) What communicative, pragmatic, behavioural and linguistic functions are associated with the temporal structures discovered?

3) What generalisations can be made using the knowledge gained of these temporal structures with a view to creating embedded applications?

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.

The significance of the anticipated research can be described in the following three aspects:
Data annotation, theoretical research, applied research

1. Data material: Corpus Building

The HuComTech corpus, even in its current state is an outstanding resource already containing the multimodal annotation of 110 formal and 110 informal dialogues (the existing material in summary is over 50 hours long). Notwithstanding the fact that this is the first multimodal corpus in Hungarian, it stands above the average among international corpora with its rich annotating level system. In a unique way, beside the pragmatics’ traditional, text-based, multimodal annotation it also contains unimodal annotation. As such it interprets the non-verbal behavior meaningful both pragmatically and perceptually even if based on visual information alone. However, one area needs to be improved: in order to adequately answer some linguistic questions (where time is an organizational factor) each word’s start and end need to be annotated with millisecond precision. The annotation module of the project undertakes to set up these data. This improvement also has significance in the solution of automatic speech annotation thereby contributing to the further development of Hungarian speech- and language technology.

2. Theoretical research:

Contributing to the theoretical research for the deeper functional relationships of the communication. Exploration of the dynamic time structure is a basic research task which goes beyond the traditional descriptive view and promises to render the underlying structure of communication (which is in the competence but it is isolated and cannot be studied directly) amenable to research. We expect that the results will yield a model-like approach to the pragmatical and functional processes involved in human-human interactions.

3. Applied research: contributing to the creation of new technology applications.
The envisioned results in corpus building and theoretical research into communication are expected to lead to general insights that may be used directly or in an indirect way in new multimodal technologies which may be embodied in applications in the corporate and social domain.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others.

Although as native speakers we have confident knowledge of the meaning of words and sentences, yet in our experience these meanings are often modified or relativized by the context. We can conclude from this that the interpretation of our verbal expressions in the given situation always depends on the connections between them as well as our existing knowledge about the world which is often a common knowledge. For example we also know that the word “Yes!” does not always have the meaning of approval, in fact in certain cases it means the opposite. Thus, in a communicative situation it is necessary to consider not only the verbal expressions but also the non-verbal expressions like gestures and prosody which can appear in some cases without verbal expressions.Since multi-modality is a basic feature of the communication its understanding is also essential in human-human and human-computer communication. We also find that in order to disambiguate some communicative situation it is not sufficient to know the multimodal features that co-occur on the surface, as the pronunciation of a word in a given dynamic way and with a given gesture can also have several meanings. The participants of a communication act resolve such ambiguities by perceiving the behavior in time and subconsciously using the multimodal time structure of the situation as a clue. We propose to uncover the hidden time structure of human communication by applying the recently developed T-pattern analysis on the large HuComTech corpus which has a particularly rich annotation scheme. The above mentioned rich annotation system allows understanding of the basic structure of communication.


