Consortional main: The temporal structure of multimodal communication  Page description

Help  Print 
Back »

 

Details of project

 
Identifier
116402
Type K
Principal investigator Hunyadi, László
Title in Hungarian Konzorcium, fő p.: A multimodális kommunikáció időszerkezete
Title in English Consortional main: The temporal structure of multimodal communication
Keywords in Hungarian kommunikáció, multimodalitás, verbális és nemverbális interakció, időszerkezet
Keywords in English communication, multimodality, verbal and nonverbal interaction, temporal structure
Discipline
Linguistics (Council of Humanities and Social Sciences)100 %
Ortelius classification: Computational linguistics
Panel Linguistics
Department or equivalent Department of Universal- and Applied Linguistics (University of Debrecen)
Participants Abuczki, Ágnes
Lós Gáborné Kiss, Hermina
Márton, Sándor
Szekrényes, István
Starting date 2015-09-01
Closing date 2019-02-28
Funding (in million HUF) 16.281
FTE (full time equivalent) 7.20
state closed project
Summary in Hungarian
A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.

A pályázat támaszkodik a 2009-2011 között innovatív kutatói teamek létrehozására irányuló TÁMOP-4.2.2.-08/1/2008-0009 sz. pályázat keretében végzett alapkutatásokra, a HuComTech multimodális kommunikációs korpuszra, az MTA Nyelvtudományi Intézete kiemelt kutatási infrastruktúrájára, tartalmában és céljaiban a kommunikációkutatás új dimenziói felé mutatva.

A fenti innovatív kutatói team, melyben képviselve volt a kommunikációtudomány, a számítógépes nyelvészet, a pszichológia, az információtechnológia és a robotika, számos eredményt publikált a kommunikáció multimodális markereinek együttes tanulmányozására vonatkozóan. A nemzetközi kutatási irányzatokat követve leírta számos verbális és nem verbális markerek időbeli együttállását és statikus módon jellemezni tudta a kommunikáció multimodalitását. A kommunikáció azonban időben dinamikus, azaz az emberi viselkedés megértéséhez a statikusan leírt együttállásokat fel kell fűzni egy folyamatosan változó és változásában virtuálisan soha meg nem ismétlődő jel-együttállások sorozatára, amelyeket percepciónk változó időablakokon keresztül mégis a kommunikációt jellemző struktúraként értelmez. A kommunikáció ilyen dinamikus időstruktúrájának a megismerése egyrészt komoly tudományos kihívás, másrészt elengedhetetlen a kommunikatív emberi viselkedés teljesebb megismeréséhez, és az eredmények gyakorlati alkalmazásokban való megvalósításához. Ezt a célt kívánjuk elérni a viselkedéstudományban egyre inkább tért nyerő T-minta elemzéssel, a Theme szoftver támogatásával. Kutatásunk eredményeként nemzetközi összehasonlításban is az eddigi legátfogóbb ismereteket szerezzük meg a multimodális kommunikáció dinamikus időstruktúrájáról.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.

A kutatás alapkérdése az, vajon miben és hogyan tudjuk megragadni a multimodális jegyeiben folyamatosan változó kommunikáció absztraktságában állandó, alapértelmezett struktúráját, azt, amit a felszínen mindig egyedi különböző helyzetek funkcionális kategorizálásaként értelmezünk. Hipotézisünk szerint ugyanis a kommunikáció rendelkezik ilyen alapstruktúrával. Tapasztalatunk szerint képesek vagyunk arra, hogy a végtelen felszíni változatosság mögött egyértelműen értelmezzünk olyan általános kommunikatív funkciókat, mint pl. egy társalgás elindítása, folytatása, befejezése, vagy egyetértés és nem egyetértés, beleértve ezek finomabb fokozatait is. Azaz a folyamatosan változó fizikai értékekkel bíró felszíni markerek egyszerű leírása (együttállása és egymásutánisága) nem elegendő ahhoz, hogy a mögöttes tartalmi, funkcionális értelmezést megragadjuk. Ehhez szükségünk van arra is, hogy egy formálisan kellően megragadható kapcsolatot tárjunk fel a változó felszín és az állandónak tekinthető absztrakt sturktúra között. Ezt szolgálja a T-minta elemzés, ami a kutatásunk középpontjában áll. A HuComTech korpusz teljes, 50 órás anyagán végzett kíséreleteink az alábbi kérdéseket vizsgálják:

1. Milyen lehetséges multimodális időbeli struktúrák tárhatók fel az egyes annotációs szinteken és több szint kombinációjában;

2. Milyen kommunikatív, pragmatikai, viselkedéses és nyelvi funkciók társulnak a feltárt időbeli struktúrákhoz;

3. Milyen általánosításokat tehetünk ezen időbeli struktúrák ismerete alapján beágyazott alkalmazások létrehozásához?

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!

A kutatás jelentőségét az alábbi három szinten fogalmazzuk meg: adatok, elméleti kutatások, alkalmazott kutatások

1. Adatok: korpuszépítés
A HuComTech korpusz már jelenlegi állapotában is kiemelkedik a magyar nyelvű korpuszok között azáltal, hogy 110 formális és 110 informális dialógus multimodális annotációját tartalmazza összesen több, mint 50 órás terjedelemben. Bár ez az első magyar nyelvű multimodális korpusz, nemzetközi szinten is kiemelkedik igen gazdag annotációs szintjeivel. Egyedülálló abban, hogy a pragmatika hagyományos, szöveg alapú multimodális annotációja mellett bevezeti annak unimodális annotációját is, azaz pragmatikailag és a percepcióban is értelmezhetőnek tekinti a nemverbális viselkedést a vizuális információ alapján is. Egy téren azonban fontos előrelépés szükséges: egyes nyelvészeti kérdések újszerű (az időt mint szervezési tényezőt figyelembe vevő) megválaszolásához szükséges minden egyes szövegszó kezdete és vége milliszekundumos pontosságú annotálása is. Ezen adatok előállítását vállalja a projekt annotációs modulja. A nyelvészeten túl ennek meglesz az a jelentősége is, hogy megoldja a hanganyag ilyen szempontú automatikus annotálását, ezzel hozzájárulva a magyar beszéd- és nyelvtechnológia továbbfejlesztéséhez is.

2. Elméleti kutatások: hozzájárulás a kommunikáció mélyebb funkcionális összefüggéseinek az elméleti kutatásához
A dinamikus időstruktúra vizsgálata olyan alapkutatás, ami túlmutat a kommunikatív helyzetek jellemzően deskriptív megközelítésén és azt ígéri, hogy feltárhatóvá teszi a kommunikatív kompetenciában meglévő, ugyanakkor a felszíni megfigyelés elől elzárt kommunikatív alapstruktúrát. Az eredményektől azt várjuk, hogy modellszerű megközelítését adják az ember-ember közötti interakciók bizonyos, pragmatikailag és funkcionálisan megragadható kognitív folyamatainak.

3. Alkalmazott kutatások: hozzájárulás új technológiai alkalmazások létrehozásához
A projektnek a korpuszépítésben és a kommunikációra vonatkozó elméleti kutatásokban várt fenti eredményei olyan általánosításokhoz vezethetnek, amelyek közvetve vagy közvetlenül alkalmazhatókká válnak olyan új multimodális technológiákban, amelyek mind közösségi, mind ipari felhasználásokban megjelenhetnek.

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média illetve az adófizetők tájékoztatása szempontjából különösen fontos az NKFI számára.

Bár anyanyelvünk birtokában biztos ismeretekkel rendelkezünk szavaink jelentéséről, mondataink, kifejezéseink értelméről, tapasztaljuk, hogy a kontextus gyakran relativizálja vagy módosítja ezeket a jelentéseket, értelmeket. Ebből tudhatjuk, hogy verbális kifejezéseink aktuális helyzetben való értelmezéséhez figyelembe kell venni a közöttük levő kapcsolatokat és a helyzetről, valamint a világról meglévő, sokszor másokkal közös ismereteket is. Azt is tapasztaljuk azonban, hogy az ”Igen!” szó nem mindig jelenti a beleegyezést, sőt, előfordulhat, hogy pontosan az ellenkezőjét jelenti. Így egy kommunikatív helyzetben figyelembe kell vennünk a verbális kifejezések mellett, alkalmanként az azok hiányában is fellépő nem verbális kifejezéseket is, mint gesztusokat és prozódiát. A kommunikáció ilyen értelmű multimodalitása alapvető jellemzője a kommunikációnak és ismerete éppen ezért elengedhetetlen mind ember-ember, mind ember-gép viszonylatában. Azt is tapasztaljuk ugyanakkor, hogy egy kommunikatív helyzet egyértelműsítéséhez nem elegendő több multimodális jegy egyidejű megjelenésének az ismerete, hiszen egy szó adott dinamikával való kiejtése adott gesztus mellett is több értelmű lehet. A kommunikáció résztvevői az ilyen többértelműséget úgy oldják fel, hogy a viselkedést annak időbeli folyamatában figyelik, tudat alatt feltárva az adott esemény multimodlális időbeli struktúráját. Mi arra vállalkozunk, hogy a T-minta elemzés viszonylag újnak számító formális eszközével feltárjuk a kommunikáció rejtett időszerkezetét a nagy méretű és nemzetközileg is kiemelkedően gazdagon annotált HuComTech korpusz alapján, lehetővé téve a kommunikáció alapszerkezetének a megismerését.
Summary
Summary of the research and its aims for experts
Describe the major aims of the research for experts.

The proposal draws on the findings of the basic research project carried out between 2009-2011 (TÁMOP-4.2.2.-08/1/2008-0009) aimed at creating innovative research teams with its major outcome the HuComTech multimodal communication corpus, as well as on the unique research infrastructure of the Research Institute for Linguistics of HAS. It proposes to take communication studies to a new level both in terms of content and objectives.

This innovative research team representing communication studies, computational linguistics, psychology, info-communication technologies and robotics has produced a solid body of research results in the study of alignments of multimodal markers in human communication. In line with groundbreaking research trends they described the temporal alignments of a number of verbal and non-verbal markers and the multimodality of communication in a static manner. Communication is, however, inherently dynamic in time: for a genuine grasp of human behaviour one must organise static alignments as a series of virtually never repeating patterns, perceived nevertheless as communicative structures. To uncover this dynamic temporal structure is not only a major scientific challenge but an indispensable first step to more fully understand human communicative behaviour as well as translate the theoretical insights into practical applications.
We want to pursue these overall objectives with T-pattern analysis (implemented in the Theme software package) that is increasingly wide-spread in behavioural sciences. We expect the research to lead to a broader understanding of temporal structure in multimodal communication, a goal unique even by international comparison.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.

The fundamental question the proposed research sets out to explore is what are the essential traits of the underlying basic structure of communication that shows a constancy at an abstract level despite continual change in its multimodal characteristics, what is this core structure that leads us to interpret in functional terms the ever so fleeting and varied surface phenomena. Our research program starts from the premise that there exists such an underlying basic structure of communication. Experience shows that despite the unlimited surface variation we are able to recognise without fail such general human communicaton functions such as launching a conversation, maintaining and ending it, agreeing or disagreeing, including finer shades of variations. This leads us to assume that a simple description of surface physical markers of ever changing value (their sequence and co-occurrence) is inadequte for an underlying functional interpretation. The latter requires a formally defined link between the fleeting surface phenomena and the underlying abract structure. This is what T-pattern analysis aims to uncover, which is the central instrument used in our research. The analysis carried out on the entire HuComTech corpus amounting to 50 hours will pose the following questions in particular:

1) What possible multimodal temporal structures can be uncovered within and across various individual levels?

2) What communicative, pragmatic, behavioural and linguistic functions are associated with the temporal structures discovered?

3) What generalisations can be made using the knowledge gained of these temporal structures with a view to creating embedded applications?

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.

The significance of the anticipated research can be described in the following three aspects:
Data annotation, theoretical research, applied research

1. Data material: Corpus Building

The HuComTech corpus, even in its current state is an outstanding resource already containing the multimodal annotation of 110 formal and 110 informal dialogues (the existing material in summary is over 50 hours long). Notwithstanding the fact that this is the first multimodal corpus in Hungarian, it stands above the average among international corpora with its rich annotating level system. In a unique way, beside the pragmatics’ traditional, text-based, multimodal annotation it also contains unimodal annotation. As such it interprets the non-verbal behavior meaningful both pragmatically and perceptually even if based on visual information alone. However, one area needs to be improved: in order to adequately answer some linguistic questions (where time is an organizational factor) each word’s start and end need to be annotated with millisecond precision. The annotation module of the project undertakes to set up these data. This improvement also has significance in the solution of automatic speech annotation thereby contributing to the further development of Hungarian speech- and language technology.



2. Theoretical research:

Contributing to the theoretical research for the deeper functional relationships of the communication. Exploration of the dynamic time structure is a basic research task which goes beyond the traditional descriptive view and promises to render the underlying structure of communication (which is in the competence but it is isolated and cannot be studied directly) amenable to research. We expect that the results will yield a model-like approach to the pragmatical and functional processes involved in human-human interactions.


3. Applied research: contributing to the creation of new technology applications.
The envisioned results in corpus building and theoretical research into communication are expected to lead to general insights that may be used directly or in an indirect way in new multimodal technologies which may be embodied in applications in the corporate and social domain.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NKFI in order to inform decision-makers, media, and the taxpayers.

Although as native speakers we have confident knowledge of the meaning of words and sentences, yet in our experience these meanings are often modified or relativized by the context. We can conclude from this that the interpretation of our verbal expressions in the given situation always depends on the connections between them as well as our existing knowledge about the world which is often a common knowledge. For example we also know that the word “Yes!” does not always have the meaning of approval, in fact in certain cases it means the opposite. Thus, in a communicative situation it is necessary to consider not only the verbal expressions but also the non-verbal expressions like gestures and prosody which can appear in some cases without verbal expressions.Since multi-modality is a basic feature of the communication its understanding is also essential in human-human and human-computer communication. We also find that in order to disambiguate some communicative situation it is not sufficient to know the multimodal features that co-occur on the surface, as the pronunciation of a word in a given dynamic way and with a given gesture can also have several meanings. The participants of a communication act resolve such ambiguities by perceiving the behavior in time and subconsciously using the multimodal time structure of the situation as a clue. We propose to uncover the hidden time structure of human communication by applying the recently developed T-pattern analysis on the large HuComTech corpus which has a particularly rich annotation scheme. The above mentioned rich annotation system allows understanding of the basic structure of communication.





 

Final report

 
Results in Hungarian
A multimodális kommunikáció időszerkezetét az eddigi megközelítésektől eltérően interdiszciplináris környezetben, többféle módszer alkalmazásával vizsgálva első ízben sikerült statisztikailag szignifikáns módon megragadnunk az akár opcionális verbális és nemverbális események alkotta mintázatokat. Főbb eredményeink: 1. A HuComTech korpusz annotációit kiterjesztettük a szövegek szószintű időannotációjával. Így első ízben vált lehetővé a multimodális mintázatok kutatása a szöveg tetszőleges szavai alapján. 2. Webes adatbáziskezelő felületet hoztunk létre akár nagy méretű adathalmazok részletesebb kutatására. 3. Többféle megközelítésben mesterséges intelligenciát alkalmazva kimutattuk: a kommunikáció nonverbális időszerkezetét leíró stilizált események diszkrét szekvenciái nem csak a mintakeresésben, de jellemzőként a gépi tanulásban is hatékonyan felhasználhatók osztályzási és predikciós feladatokra. 4. A Theme szoftver segítségével, amelynek a nemzetközi keretekben történő továbbfejlesztéséhez mi is hozzájárultunk, kimutattuk különböző pragmatikai helyzetek, pl. bizonytalanság, egyetértés statisztikailag szignifikáns mintázatait. 5. Eredményeink disszeminációja: 33 előadás (11 külföldi, 22 hazai konferencia, workshop). Roadshow formájában az ország több kutatóhelyén ismertettük a HuComTech korpuszt és vizsgálataink eredményeit. 6. Megjelent puplikációink: 5 nemzetközi, 4 hazai folyóiratcikk. Megjelenés alatt egy kötet (Springer). Benyújtva 2 külföldi dolgozat.
Results in English
In contrast to previous approaches we studied the temporal structure of multimodal communication in an interdisciplinary environment, using a number of methodologies. For the first time we managed to capture patterns of sometimes even optional verbal and nonverbal events in a statistically significant way. Our main results are: 1. The extension of the annotation of the HuComTech corpus to word level time alignment thus making it possible to study multimodal patterns associated with single words. 2. We created a web-based database query system enabling detailed research on large datasets. 3. Applying several approaches to AI we showed: going beyond pattern matching searches, discrete sequences of stylized temporal events of communication can effectively be used for classification and prediction as features in machine learning. 4. Based on the Theme software, whose international team of development we were also part of, we discovered statistically significant patterns of behaviour in various pragmatic situations, such as uncertainty and agreement. 5. Dissemination of results: 33 talks at conferences and workshops (11 abroad, 22 in Hungary). Roadshow in Hungarian research institutes and universities presenting our research of the HuComTech corpus. 6. Publications in journals: 5 international, 4 Hungarian. To be published: an edited volume (Springer). Submitted: 2 papers abroad.
Full text https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=116402
Decision
Yes





 

List of publications

 
Hunyadi László: A multimodális kommunikáció grammatikája felé. Szekvenciális események rekurzív hiearchikus struktúrája, In: Kenesei, István; Bánréti, Zoltán (szerk.) Általános nyelvészeti tanulmányok 29 (Kísérletes nyelvészet), Budapest: Akadémia, pp 155-182., 2017
György Kovács: Classification of Formal and Informal Dialogues Based on Emotion Recognition Features, In: Sojka et al (szerk.) Text, Speech, and Dialogue : 21st International Conference (TSD 2018), Cham: Springer Nature, pp 518-5 26, 2018
Laszlo Hunyadi: Prosody enhances cognitive infocommunication. Materials from the HuComTech corpus, Cognitive Infocommunications (CogInfoCom), 2014 5th IEEE Conference. pp.561-565., 2015
György Kovács, István Szekrényes: Using deep rectifier neural nets and probabilistic sampling for topical unit classification, Cognitive Infocommunications, Theory and Applications (Topics in Intelligent Engineering and Informatics). Editors: R. Klempous, J. Nikodem, P. Z. Baranyi, 2019
Kiss Hermina: Az érzelmek beszédre gyakorolt hatása, azaz a spontán beszéd szintaxisának érzelmekkel való kapcsolata a HuComTech Korpuszban, In: Tanács et al (szerk.) XII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2016), Szeged: Szegedi Tudományegyetem, pp 183-192, 2016
László Hunyadi, Tamás, Váradi, István, Szekrényes: Language technology tools and resources for the analysis of multimodal communication, In: Hinrich et al (szerk.) Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities (LT4DH 2016), pp. 117-124, 2016
László Hunyadi, Hermina Kiss, István Szekrényes:: Incompleteness and Fragmentation: Possible Formal Cues to Cognitive Processes Behind Spoken Utterances, In: Tweedale et al (szerk.) Intelligent Decision Technology Support in Practice Cham: Springer International Publishing pp. 231-257, 2016
Laszlo Hunyadi, István Szekrényes, Hermina Kiss: Prosody Enhances Cognitive Infocommunication: Materials from the HuComTech Corpus, In: Esposito et al (szerk.) Toward Robotic Socially Believable Behaving Systems - Volume I : Modeling Emotions, Cham: Springer International Publishing, pp. 231-257, 2016
István Szekrényes, György Kovács: Classification of Formal and Informal Dialogues Based on Turn-Taking and Intonation Using Deep Neural Networks, In: Karpov et al (szerk.): Speech and Computer: 19th International Conference (SPECOM 2017) Cham: Springer International Publishing, pp. 233-243, 2017
Kovács György, Váradi Tamás: A különböző modalitások hozzájárulásának vizsgálata a témairányítás eseteinek osztályozásához a HuComTech korpuszon, In: Vincze Veronika (szerk.) XIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY2017). Szeged: Szegedi Tudományegyetem Informatikai Tanszékcsoport, 2017. pp. 193-204, 2017
Kovács György, Grósz Tamás, Váradi Tamás: Topical unit classification using deep neural nets and probabilistic sampling, In: Baranyi, Péter (szerk.) Proceedings of 7th IEEE Conference on Cognitive Infocommunications, Budapest: IEEE Hungary Section, (2017) pp. 199-204, 2017




Back »