Adattípusok integrációja a diskurzusjelölők kutatásában  részletek

súgó  nyomtatás 
vissza »

 

Projekt adatai

 
azonosító
121009
típus PD
Vezető kutató Abuczki Ágnes
magyar cím Adattípusok integrációja a diskurzusjelölők kutatásában
Angol cím The Integration of Data Types in the Analysis of Discourse Markers
magyar kulcsszavak pragmatika, társalgáselemzés, korpusznyelvészet, lexikológia, történeti nyelvészet, metaelmélet
angol kulcsszavak Pragmatics, Conversation Analysis, Corpus Linguistics, Lexicology, Historical Linguistics, Metatheory
megadott besorolás
Nyelvtudomány (Bölcsészet- és Társadalomtudományok Kollégiuma)90 %
Ortelius tudományág: Nyelvészet
Történettudomány (Bölcsészet- és Társadalomtudományok Kollégiuma)5 %
Ortelius tudományág: Tudománytörténet
Közgazdaságtudomány (Bölcsészet- és Társadalomtudományok Kollégiuma)5 %
Ortelius tudományág: Statisztika
zsűri Nyelvészet
Kutatóhely MTA-DE Elméleti Nyelvészeti Kutatócsoport (Debreceni Egyetem)
projekt kezdete 2016-10-01
projekt vége 2018-08-31
aktuális összeg (MFt) 10.060
FTE (kutatóév egyenérték) 1.34
állapot lezárult projekt
magyar összefoglaló
A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.

A tervezett kutatás tárgytudományos és metaelméleti megfontolásokat ötvöz. A kutatás elsődleges tárgya a magyar diskurzusjelölők (továbbiakban: DJ-k) státuszának további tisztázása és bizonyos magyar diskurzusjelölők (amúgy, akkor, így) szinkrón funkcionális spektrumának, valamint az egyes funkciók diakrón kifejlődésének a felfedése. Emellett a pályázat a DJ-kutatás módszertani kérdéseivel, a felhasználható adatokkal, azok kezelésének problémáival és a DJ-k kialakulásáról és használatáról szóló komplex elméletalkotás mikéntjével foglalkozik.
Adatvezérelt, többlépcsős módszert követve a kutatás alkalmazott célja a különböző diskurzus-pragmatikai funkciókat betöltő multifunkciós DJ tokenek leginkább jellemző, funkcióikat leginkább megkülönböztethető verbális, szekvenciális és géppel detektálható nonverbális jegyeinek azonosítása a HuComTech multimodális korpusz annotációja alapján (például a DJ pozíciója, ejtési időtartama, F0 és intenzitás értékek, szimultán gesztikuláció vagy annak hiánya, valamint a beszélő tekintetének iránya alapján). A nemzetközi multimodális kutatási irányzatokat követve a különböző funkciók géppel detektálható jegyeire vonatkozó parametrizált megfigyeléseket döntési fák formájában modellezem, amelyek nagy valószínűséggel képesek megkülönböztetni egy adott diskurzusjelölő két különböző, legjellemzőbb funkcióbeli használatát.
A kutatás célkitűzései az adatforrások széles spektrumát igénylik. Annak céljából, hogy a különböző forrásokat megfelelő módon tudjam integrálni, kutatásomra metaelméleti szempontból is fogok reflektálni. Ehhez Kertész és Rákosi plauzibilis argumentációs modelljét, a p-modellt használom (Kertész–Rákosi 2012, 2014).

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.

Metaelméleti kérdések:
1. Milyen adattípusok fogadhatók el bizonyos hipotézist támogató vagy cáfoló evidencia alapjául a társalgáselemzésben és diskurzusjelölő-kutatásban?
2. Milyen eljárásokkal célszerű a különböző adattípusokat integrálni társalgáselemzésben és diskurzusjelölő-kutatásban?
3. Hogyan oldható meg az a helyzet, amikor az elméletalkotás során több, egymásnak ellentmondó állítás is plauzibilis egyidejűleg? Mely problémamegoldó eljárásokat szerencsés alkalmazni különböző adatforrásokból származó ellentmondások esetén?

Tárgytudományos kérdések:
1. Van-e statisztikailag szignifikáns kapcsolat a DJ-k társalgásbeli funkciói és (a) a velük szimultán fellépő tekintetirány között, (b) a velük szimultán fellépő arckifejezés között, és (c) a beszélőnek a DJ-ket kísérő kézmozdulatai között?
2. Szupraszegmentálisan is kifejeződnek-e a DJ-k eltérő funkciói? Van-e szignifikáns kapcsolat a DJ funkciója és (a) a megnyilatkozásban őt megelőző szünet (megléte/hiánya, hossza) között, (b) az adott funkciójú DJ-k megvalósulásainak min, max és medián alapfrekvenciái között, és (c) a DJ-k ejtésének időtartama között?

Alkalmazott problémák:
1. Mi alapján különböztetjük meg a multifunkcionális diskurzusjelölők aktuális megnyilatkozásbeli szándékolt funkcióját (hezitáció, időhúzás, attitűdkifejezés, újrafogalmazás, stb.)? Milyen kontextuális és egyéb (pl. nem verbális) kulcsok vannak segítségünkre?
2. Melyek a gépileg (szoftverek segítségével) detektálható jegyek (beszéddallam, intenzitás, beszédtempó, tekintetirány, kézi gesztusok) együttjárási mintázatai? Mindezek jellemzők (és küszöbértékeik) mennyire típusosak, megbízhatóak, és milyen mértékben algoritmizálhatóak?

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!

Kutatásom elméleti jelentősége a magyar nyelv diskurzusszerkezetére, és bizonyos diskurzusjelölők jelentésének változására és használatára vonatkozó szisztematikus ismeretek gyarapítása. Mindezzel a nyelvészeti gondolkodásban és a nyelvészeti kutatások között a komputációs pragmatikai és funkcionális szemléletű irányzatokat erősíthetem, hiszen kutatásom várható eredménye a pragmatika egyik fő következtetéses problémájának, a diskurzusszerkezet értelmezésének megoldásához és a kommunikatív viselkedés mögöttes (szekvenciális és vertikális) szerkezetének felfedéséhez járulhat hozzá az egyes diskurzusjelölők funkcionális és szekvenciális vizsgálatán keresztül. A dialógusok szerkezetére, verbális és nem verbális szabályozására vonatkozó eredményeim előrelépést nyújthatnak a magyar nyelvű diskurzusmodellezésben. A diskurzusjelölők természetére vonatkozó modell nagyrészt nyelvfüggetlen, könnyen adaptálható egyéb nyelvekre is.
A kutatás újszerűsége abban rejlik, hogy Magyarországon egyedülálló módon, nagy méretű, nemzetközi kitekintésben is részletgazdagon annotált spontán interakció korpuszára alapozza a diskurzusjelölők multimodális jellemzőiről tett megállapításait.
A kutatás interdiszciplináris (elméleti és alkalmazott nyelvészeti, történeti pragmatikai, kommunikációelméleti és diskurzusmodellezési) jellege miatt pedig eredményei más diszciplínák számára is felhasználhatóak lehetnek. Az explicit és szisztematikus módon kódolt kommunikációs viselkedés és a diskurzusszerkezetet leíró elméletalkotás algoritmizálásra alkalmas adalékokat biztosíthat programozási és betanítási feladatok számára is.
A kontrasztív esettanulmányok eredményei az összehasonlító fordítástudományhoz is hozzájárulnak, és a diskurzusjelölők fordításának tanításához és gyakorlati fordításához (magyarról angolra és angolról magyarra) egyaránt segítséget nyújthat.
Továbbá a diskurzusjelölők funkciókörének explicit meghatározása nyelvtanításban (angol mint idegen nyelv, magyar mint idegen nyelv, magyar mint anyanyelv) is felhasználható.

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára.

A kutatás egyik célja, hogy a többértelmű kommunikációs jelek (nem verbális, vizuális jelek közül például a többértelmű bólintás, szemöldökfelhúzás vagy szemkontaktus; a verbális/szóbeli kommunikációs jelek közül pedig többek között a diskurzusjelölők, mint például a hát, mondjuk, ugye, amúgy, így, akkor elemek) aktuális, kontextusfüggő jelentését egyértelműsítse és dekódolja (akár szótári szócikkekben oldja fel kódolt jelentésüket, vagy nem verbális jelek alapján fél-automatikusan ismerje fel a beszédszándékot).
A pályázat elsősorban a nyelvészeti elméletalkotás területéhez járul hozzá, amely elengedhetetlen például a gyakorlati alkalmazások területe, a nyelvtechnológia számára is. A nyelvtechnológia az emberi nyelvhasználat valamelyik elemének számítógépes modellezése. Mivel az emberi nyelvhasználat elsődleges területe a beszéd, így a nyelvtechnológia elsődleges fejlesztési területei közé tartozik a beszédfelismerés és a beszédszintézis. A nyelvtechnológia olyan rejtett feladatokból áll, mint a szöveg/beszéd egységekre és elemekre bontása, mindenekelőtt automatizált módon. A jelen pályázatban kitűzött diskurzusjelölő jelentésegyértelműsítés hozzájárulhat tagmondatok, mondatok, diskurzusszegmensek, illetve tematikai egységek határainak, valamint a szövegbeli előre- és hátrautalások feloldásához és felismeréséhez. A felhasználók a gyakorlatban nem találkoznak ezekkel a feladatokkal, de lényegében minden nyelvtechnológiai alkalmazás efféle modellekre épül. Lényeges azonban, hogy a modellek milyen adatforrásból származó adatokon alapulnak, és milyen érvelés mentén történ az elméletalkotás. Mindezekhez a célokhoz kíván adalékokat szolgáltatni a jelen projekt
angol összefoglaló
Summary of the research and its aims for experts
Describe the major aims of the research for experts.

The project aims to contribute to the research of discourse markers (henceforth DMs) and conversation analysis with the addition of metatheoretical considerations. There are a great number of theoretical issues that are still unresolved in the literature such as uncertainty regarding the defining features of DMs, the lack of a widely accepted terminology, diachronic development, functional taxonomy, annotation scheme and methodological guidelines for their systematic description. We will tackle the issue of the approval of certain data types in discourse analysis as well as the problems of handling them. A functional DM annotation scheme as well as methodological guidelines will be developed in the project as the result of a predominantly data-driven multi-step method. The proposed model will be prismatically developed taking (1) literature-based, (2) questionnaire-based, and (3) corpus-based approaches. The applied goal of the project is to identify those verbal, sequential as well as machine-detectable nonverbal features of DMs that typically characterize and best distinguish their actual function in the context, and can be parametrized in decision trees which can distinguish between two salient functions of a DM, and may later be implemented as an algorithm.
The purposes of the present research require a wide spectrum of sources, thus, we will rely on a great variety of data types. In order to integrate the various data sources in a conscious way and to provide support for our hypotheses, we will offer metatheoretical reflections on our case studies using Kertész and Rákosi’s (2012, 2014) p-model of plausible argumentation.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.

Metatheoretical questions – The problem of empiricalness:
1. What kinds of data are allowed in discourse marker and discourse analysis theories and what subtypes of data can work as evidence for or against particular hypotheses?
2. In what ways is it the most efficient and reliable to combine various types of data in conversation analysis and the research of DM use?
3. How can one resolve inconsistencies during theorising, that is, cases when several contradictory statements are simultaneously plausible? What problem-solving strategies can be offered to resolve these inconsistencies?

Object-scientific questions:
1. Is there is a statistically significant relation between certain discourse functions of a DM and the (a) simultaneous gaze direction, (b) simultaneous facial expression, and (c) simultaneous manual gesticulation of the speaker?
2. Are the different versions of a DM expressing different functions suprasegmentally marked? In particular, is there a statistically significant relation between the discourse function of a DM and (a) the presence of preceding silence in the utterance, (b) the mean F0 of the realization of a DM independent of each other, and (c) the duration of the realization of a DM?

Application problems:
What are the most commonly co-occurring feature multimodal feature sets (duration of silences and certain DMs, variations in pitch, intensity, gaze direction, presence or lack of gestures and facial expressions) that can be modelled in decision trees and may contribute to the semi-automatic disambiguation of discourse functions?

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.

The project aims contribute to the knowledge about the various ways of signalling discourse relations in Hungarian as well as the use of DMs. The findings of the research will hopefully assist in solving one of the major inferential challenges in pragmatics, that is, the interpretation of discourse structure, via the sequential, prosodic and functional analysis of DMs. By doing so, we wish to foster the computational pragmatic and functional approaches in linguistics. The novelty of the research is that it is based on a multimodal corpus which is extremely richly annotated. Since discourse-annotated corpora and systematic knowledge about discourse markers enhances language technology, our results concerning the verbal and nonverbal management of discourse may be applied in discourse and dialog modelling in Hungarian.
Concerning metatheoretical issues, we hope to increase the efficiency of linguistic theorizing and argumentation with respect to the research and modelling of discourse marker use in discourse studies. We will develop a functional DM annotation scheme and model which can be used to annotate DMs in any language.
The findings of the contrastive case studies on DMs (using Linguee) contribute to translation studies and machine translation, since DMs make explicit the relation between discourse segments; therefore, their correct translation helps the machine translation of larger chunks of coherent texts. The identification of the functional spectra of the analysed DMs (in Hungarian and their equivalents in English) can be incorporated in communicative language teaching and learning as well in order to help learners produce effective and cohesive discourse.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others.

One of the goals of the project is to disambiguate and code the current, context-dependent function of polysemous/multifunctional communication signals (such as head nods, eyebrow raises, eye contact among the nonverbal signs, and discourse markers such as ‘well’ or ‘then’ among the verbal signals). This decoding can be achieved either in the form of dictionary entries or in such models and algorithms that semi-automatically recognize communicative intentions.
The project contributes to linguistic theorising, which is indispensable for practical applications in language technology. Language technology means the modelling of a component of language use. Since the dominant domain of language use is speech, the primary field of research in language technology is speech processing and speech synthesis. Language technology comprises of such hidden tasks as text segmentation into units and elements, preferably automatically. One of the goals of this research, the meaning disambiguation of discourse markers contributes to the recognition of these discourse boundaries. Users do not come across these tasks in practice; however, many language applications are based on such algorithms. Nevertheless, it is important what types of data serve as the basis for theorizing and training material. The project attempts to contribute to all the above tasks.





 

Zárójelentés

 
kutatási eredmények (magyarul)
Kutatásom a diskurzusszerkezet szabályozásának és értelmezésének megoldásához és a kommunikatív viselkedés (szekvenciális és vertikális) szerkezetének felfedéséhez járul hozzá az egyes diskurzusjelölők (DJ-k) multimodális (verbális és nem verbális), funkcionális és kontrasztív vizsgálatán keresztül, illetve ezen terület kutatási módszertanának továbbfejlesztésén keresztül. A kutatás metaelméleti jelentősége abban rejlik, hogy változatos adattípusok (írott és beszélt korpuszok, előadások, mediatizált diskurzusok) felhasználásával, különböző adatfeldolgozási módszereket (automatikus szemantikai annotációt, kettős manuális annotációt, kérdőíveket) alkalmazva kísérli meg a nyelvészeti elméletalkotás és érvelés validitását növelni a DJ-k és a diskurzusszerkezet kutatásának tekintetében (Abuczki monográfia, Furkó, Kertész & Abuczki 2019). A DJ-k szerepkörének felfedésére kifejlesztett annotációs modell (Abuczki 2017, 2018, Abuczki monográfia) nyelvfüggetlen, adaptálható egyéb nyelvekre is. Az explicit és szisztematikus módon kódolt kommunikációs viselkedés algoritmizálásra alkalmas adalékokat biztosít betanítási feladatok számára is (Abuczki monográfia). A kontrasztív esettanulmányok (Crible, Abuczki et al. 2019) eredményei az összehasonlító fordítástudományhoz is hozzájárulnak, és a DJ-k gyakorlati fordításához és tanításához egyaránt segítséget nyújthat. A DJ-k szerepének bemutatása nyelvtanításban is fel lett használva és tesztelésre került. (Abuczki, Parmaxi & Nicolau 2018).
kutatási eredmények (angolul)
The project uncovers various ways of signalling discourse relations and uses of discourse markers (DMs) in Hungarian and English. The findings of the research assist in solving one of the major inferential challenges in pragmatics, the interpretation of discourse structure, via the sequential, prosodic and functional analysis of DMs (Abuczki 2017, Abuczki in press). As discourse-annotated corpora and systematic knowledge about DMs enhances language technology, our results concerning the verbal and nonverbal management of discourse can be applied in dialog modelling. Concerning metatheoretical issues, we improve the efficiency and validity of linguistic theorizing and argumentation with respect to the research and modelling of DM use in discourse studies (Furkó, Kertész & Abuczki 2019, Abuczki in press). We have developed a functional DM annotation scheme and model (Abuczki 2017, 2018, in press) which can be used to annotate DMs in any language. The findings of the contrastive case studies using TED Talks contribute to translation studies: DMs make explicit the relation between discourse segments, thus, their correct translation improves the machine translation of larger chunks of texts (Crible, Abuczki et al. in press). The identification of the roles of the analysed DMs (in Hungarian and English) was used in communicative language teaching as well to help learners produce natural, native-like and coherent discourse (Abuczki, Parmaxi & Nicolau 2018, Abuczki in press).
a zárójelentés teljes szövege https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=121009
döntés eredménye
igen





 

Közleményjegyzék

 
Abuczki Ágnes: Discourse Markers in Hungarian: Corpus-Driven Perspectives, Multimodal Findings, John Benjamins (vagy esetleg L'Harmattan) (JB LEKTORÁLÁS UTÁN SZERKESZTÉS ALATT), 2019
Furkó Péter-Kertész András-Abuczki Ágnes: Discourse Markers in Different Types of Reporting, In: Alessandro Capone , Manuel García-Carpintero , Alessandra Falzone (szerk.) Indirect Reports and Pragmatics in the World Languages. Heidelberg: Springer Verlag 243-276, 2019
Ludivine Crible, Agnes Abuczki, Giedre Valunaite Oleskevicienė, NIjole Burksaitiene, Sarka Zikanova: Functions and translations of discourse markers in TED Talks: a parallel corpus study of underspecification in five languages, Journal of Pragmatics (?) LEKTORÁLÁS UTÁN SZERKESZTÉS ALATT, 2019
Ágnes Abuczki: An Evaluation of the Methods of Teaching Discourse Markers to BA Students of English, 16th International Pragmatics Conference., 2019
Agnes Abuczki, Nijolė Burkšaitienė, Ludivine Crible et al.: The underspecified connective and in a parallel TedTalk corpus: functions, translation and implicitation, DiscourseNet 20 – Exploring Fuzzy Boundaries in Discourse Studies Handbook. Károli Gáspár University of the Reformed Church in Hungary Budapest, 17–19 May, 2018, Debreceni Egyetemi Kiadó, 16-17.16-17., 2018
Šarka Zikanova, Agnes Abuczki, Nijolė Burkšaitienė et al.: A pilot study on underspecified discourse connectives in the TED Talk parallel corpus, DiscourseNet 20 – Exploring Fuzzy Boundaries in Discourse Studies Handbook. Károli Gáspár University of the Reformed Church in Hungary, Budapest, 17–19 May, 2018. Debreceni Egyetemi Kiadó, 77-78., 2018
Ágnes Abuczki, Antigoni Parmaxi, Anna Nicolaou: Teaching Discourse Markers in a Technologically-Enhanced Language Classroom, P. Zaphiris and A. Ioannou (Eds.): LCT 2018, LNCS 10924, pp. 323–336, Springer International Publishing AG, 2018
Abuczki Ágnes: On the notion of grammaticality, ARGUMENTUM 12: 303-316, 2016
Abuczki Ágnes: Annotation procedure, feature extraction and query options, In: Csűry István, Hunyadi László, Abuczki Ágnes, Esfandiari Ghazaleh, Földesi András, Szekrényes István Csűry István (szerk.) (szerk.) Elements of Electronic Information and Document Processing: An introduction to informatics (not only) for the humanities. Debrecen: Debreceni Egyetemi Kiadó, 2016. pp. 81-91., 2016
Csűry István, Hunyadi László, Abuczki Ágnes, Esfandiari Ghazaleh, Földesi András, Szekrényes István: Elements of Electronic Information and Document Processing, Debrecen: Debreceni Egyetemi Kiadó, 139 p., 2016
Šárka Zikánová, Liesbeth Degand, Péter Furkó, Sandrine Zufferey, Ágnes Abuczki: Semantic weakening of discourse structuring devices, In: Furkó Péter, Dér Csilla, Liesbeth Degand, Bonnie Webber (szerk.) (szerk.) TextLink – Structuring Discourse in Multilingual Europe, Second Action Conference: Conference Handbook. Budapest, Magyarország, 2016.04.11-2016.04.14. Kiadvány: Debrecen: Debreceni Egyetemi Kiadó, 2016. pp. 141-145., 2016
Furkó Péter-Kertész András-Abuczki Ágnes: Discourse Markers in Different Types of Reporting (LEKTORÁLÁS ALATT), Indirect Reports in the World Languages. Springer, 2018
Abuczki Ágnes: Pragmatic Functions and Nonverbal Features, International Scientific Interdisciplinary Conference Discourse, Technology and Translation. Vilnius: Mykolo Romerio Universitetas, pp. 28-29, 2017
Abuczki Ágnes: A Discourse-Pragmatic Analysis of amúgy (~’otherwise’) (LEKTORÁLÁS ALATT), Sprachtheorie und germanistische Linguistik (?), 2018
Abuczki Ágnes: Pragmatic Functions and Nonverbal Features, International Scientific Interdisciplinary Conference Discourse, Technology and Translation. Vilnius: Mykolo Romerio Universitetas, pp. 28-29, 2017
Abuczki Ágnes: A Discourse-Pragmatic Analysis of amúgy (~’otherwise’) (LEKTORÁLÁS UTÁN ÁTDOLGOZÁS ALATT), Sprachtheorie und germanistische Linguistik, 2018
Abuczki Ágnes, Ludivine Crible, Furkó Péter, et al.: Translation of ”and” in a parallel TED Talk corpus of English, Czech, Hungarian, Lithuanian and French: functions and omissions, In: Philippe Muller, Lydia-Mai Ho-Dac (szerk.) Cross-Linguistic Discourse Annotation: applications and perspectives. Toulouse: Université Toulouse, 2018. pp. 4-12., 2018
Furkó Péter, Kertész András, Abuczki Ágnes: Discourse Markers in Different Types of Reporting, In: Alessandro Capone  , Manuel García-Carpintero  , Alessandra Falzone (szerk.) (szerk.) Indirect Reports and Pragmatics in the World Languages. Heidelberg: Springer Verlag, 2019. pp. 243-276. (Perspectives in Pragmatics, Philosophy & Psychology)
19, 2019




vissza »