Automatic phonologial phrase and prosodic event detection for the extraction of syntactic and semantic/pragmatic information from speech  Page description

Help  Print 
Back »

 

Details of project

 
Identifier
112598
Type PD
Principal investigator Szaszák, György
Title in Hungarian Automatikus fonológiai frázis és prozódiai eseménydetektálás szintaktikai, szemantikai és pragmatikai információk közvetlen kinyerésére a beszédből
Title in English Automatic phonologial phrase and prosodic event detection for the extraction of syntactic and semantic/pragmatic information from speech
Keywords in Hungarian prozódia, automatikus beszédértés, automatikus eseménydetektálás
Keywords in English prosody, automatic speech understanding, automatic event detection, information retrieval
Discipline
Information Technology (Council of Physical Sciences)80 %
Ortelius classification: Applied informatics
Linguistics (Council of Humanities and Social Sciences)20 %
Ortelius classification: Computational linguistics
Panel Informatics and Electrical Engineering
Department or equivalent Department of Telecommunications and Media Informatics (Budapest University of Technology and Economics)
Starting date 2014-09-01
Closing date 2017-11-30
Funding (in million HUF) 8.976
FTE (full time equivalent) 2.45
state closed project
Summary in Hungarian
A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.

A tervezett kutatás az automatikus beszédfeldolgozás, beszédből történő információkinyerés és tartalomelemzés, a prozódiai eseménydetektálás lehetőségeinek megismerésének előmozdítását célozza. A magyar nyelvre korábban végzett kísérletek bíztató előzetes eredményeket szolgáltattak fonológiai frázisok detektálásában, és ehhez kapcsolt szintaktikai elemzésben. Ebben a kutatásban ennek a munkának a továbbvitele, más akusztikai jellemzőkre és más nyelvekre való kiterjesztése kerül a fókuszba a detektálási teljesítmény javítása, és a detektálási eljárás univerzálisabbá tétele érdekében. Ez utóbbi célból fakadóan a magyar nyelvre kidolgozott eljárást francia,angol és német nyelvekre is adaptáljuk, miközben minden nyelvre vizsgáljuk a detektáláshoz optimális akusztikai jellemzőket. Minthogy a fonológiai frázisok a szintaktikai egységekkel szoros kapcsolatban állnak, a kutatás a szintaktikai szerkezet beszéd alapján történő feltárására is irányul, melynek során olyan mérőszám kidolgozása a cél, amely jól használható a prozódia alapján történő szintaktikai egységhatárok detektálására. Továbblépve kísérletet tervezünk a prozódia és a szemantikai, pragmatikai információ kapcsolatának feltárására, a szintaktikailag indokolt és nem indokolt prozódiai események automatikus szétválasztására, ez utóbbiak ugyanis a szemantikai és pragmatikai funkcióval állhatnak összefüggésben. A szintaktikailag indokolt és nem indokolt események szétválasztását átiraton, illetve beszédfelismerővel előállított szöveges kimenet, valamint a prozódiai eseménysor összevetésével kívánjuk megvalósítani.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.

A kutatás célja a prozódia alapján történő automatikus eseménydetektálás kidolgozása, megvalósítása és értéklése négy nyelven. A vizsgálni tervezett hipotézisek részletesen a kutatási tervben kerülnek ismertetésre, e helyütt az alapkérdések összefoglalását adjuk meg: hogyan használhatók ún. valószínűségi akusztikai jellemzők az eseménydetrektálásban, pontosabb-e a detektálás ilyen jellemzők használatával; hogyan lehetséges automatikusan az időtartamokból képzett szupraszegmentális jellemzők kinyerése beszédhang-osztályozók vagy beszédfelismerő kimenet alapján; hogyan adaptálható a magyar nyelvre kidolgozott fonológiai frázisdeetktáló eljárás más nyelvekre (francia, angol, német), és mi az egyes nyelvekben az egyes akusztikai jelelmzők szerepe a detekcióban; hogyan tehető pontosabbá és jól felhasználhatóvá a prozódia alapú szintaktikai egységekre vonatkozó predikció; hogyan és milyen mértékben választható szét a szintaktikailag indololt, illetve nem indokolt, és ezért feltételezhetően szemantikai vagy pragmatikai funkciót megvalósító prozódiai események.

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!

A kutatástól várt új eredmények a prozódia szerepének feltárásában és kiaknázásában adnak segítséget. A kutatást nem csak elméleti síkon, hanem kísérletileg megerősített úton kívánjuk végrehajtani, ami jól előkészíti az eredmények későbbi alkalmazását. A munka során létrehozott elemző- és feldolgozóeszközök a további kutatásban, beszédelemzésben és -feldolgozásban olyan hasznos segédeszközök lehetnek, amelyek univerzálisan használhatók, és támogatják a beszéd szintaktikai, és részben szemantikai és pragmatikai elemzését is, különösen szöveg alapú elemzőkkel együttesen használva. A várt eredmények fő társadalmi hasznosítási területe a beszédből történő információkinyerés, fókusz, hangsúlyos szavak, kulcsszavak, új információ detektálása, és bizonyos fokban a szemantikai és pragmatikai információ kinyerése, illetve olyan jellemzők, információ kinyerése, amelyek általánosan a gépi beszédértésben, ember-gép kommunikációban használhatók fel.

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára.

A kutatás célja az automatikus beszédfeldolgozás és információkinyerés előmozdítása a prozódia (hangsúly, hanglejtés, ritmus, stb) vizsgálatával, a prozódiai események automatikus követésével. Ezen események a beszédben hordozott információt is tükrözik, detektálásukkal végső soron a jelentés gépi értelmezését segíthetjük elő. Ilyen alkalmazások a hanganyagban történő kulcsszavas keresés, dokumentum-elemzés és értelmezés, stb. A kuatatás eredményei révén a kutatók maguk is olyan, a későbbi munkájukat segítő eszközhöz jutnak, amely jól használható a prozódia elemzéséhez, felhasználásához. A kutatás magyar nyelvre indul, majd más nyelvekre is kiterjed, ennek során nyelvspecifikus sajátságok is vizsgálhatók és modellezhetők. A hanganyagból kinyert ún. akusztikai jellemzőket (amelyek alapján a prozódiai detektálást végezzük) is megvizsgáljuk, hogy a legeredményesebbeket tarthassuk meg. Az eredmények végső soron az ember és az intelligens gép közötti kommunikáció mindennapi, emberi nyelven történő megvalósítását szolgálják.
Summary
Summary of the research and its aims for experts
Describe the major aims of the research for experts.

The focus of the planned research is to advance speech processing, information extraction and content analysis from speech by exploring the capabilities of prosodic event detection, taking phonological phrases as basic units. Previous research for Hungarian has already yielded some encouraging results in phonological phrase detection and associated syntactic analysis from speech. In this research, the approach is extended to cover new features in order to improve detection accuracy. In order to investigate the universality of the proposed algorithms, initial work in Hungarian is extended for French, English and German, in parallel with investigation of the optimal feature set for each language. As phonological phrasing can reveal part of the syntactic structure, this forms another research direction. A probabilistic score will be evaluated to predict the likelihood of syntactic boundaries based on pure speech prosody in Hungarian and French. Going further and investigating relations of prosody with semantics and pragmatics, a distinction will be made between syntactically motivated and not motivated accents, supposing these latter reveal semantic or pragmatic information. The control of syntactical motivation will be based on the combined evaluation of textual analysis of an ASR (Automatic Speech Recognizer) output and the detected salient points in speech prosody.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.

This research aims to explore the capabilities of prosodic event detection in several languages. The main investigated hypotheses will be related to the following: how can probabilistic features contribute to better detection accuracy; how can the automatic extraction of duration-related supra-segmental features be made reliably using ASR transcript or broad phone classifiers; how can the phonological phrase detection approach (elaborated for Hungarian) be powerfully adapted for other languages (French, English, German), and what are the contributions of different acoustic features in these languages; how can the prosody based syntactic analysis of speech be made more accurate and easier to use; how and to what extent can we automatically separate syntactically motivated prosodic events from non syntactically motivated and hence semantic or pragmatic related ones.

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.

The expected new results of this research will contribute to the exploration of the role of prosody in speech, not only based on theoretical considerations, but in experimentally confirmed way, a gaurantee for later applicability in practice or even in industrial products. The framework elaborated will, on the other hand, help future researchers too, providing analysis approaches and tools, applicable more universally for prosodic analysis of speech, supporting syntactic, semantic and pragmatic analysis from pure speech or combined with textual analysers. The main application areas of results for the wider society are information extraction from speech, including detection of focussed or highlighted points or keywords, new or important information, and to some extent, semantic and pragmatic related information, including cues for speaker attitude or emotions, to be exploited in automatic speech understanding and human-machine communication.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others.

The goal of this research is to advance automatic speech processing by the examination of prosody (stress, intonation, rhythm, etc) and automatic detection of meaningful prosodic events, closely related to the organization and structure of the information transmitted by speech. By detecting these, the interpretation of the meaning can be supported, which can be useful in retrieving or searching in spoken documents, spoken documents anaylsis, etc. Based on the achievements of this research, researchers will also have a tool to do further experiments related to the prosody of speech, its analysis, investigation or exploitation. Research starting from the Hungarian language is then extended to cover other languages too, as the approach might need some language specific modifications when transferred from one language to the other. Acoustic features extracted from the speech will be also analysed in order to identify those which contribute to the best performance. The expected results can also contribute to the development of communication between humans and machines using natural, human language.





 

Final report

 
Results in Hungarian
A kutatási projekt fő célkitűzése egy olyan beszélt nyelvi – prozódiai modellezést megvalósító – eszköztár kidolgozása volt, amellyel hatékonyan támogathatók olyan beszédtechnológiai feladatok, melyek a mindennapi életben az információs társadalomban is hasznos segítséget jelentenek. Magyar mellett angol, francia és német nyelvekre is sikerrel adaptáltuk a rendszert, amelyet prozódiai jelfeldolgozás szempontjából is optimizáltunk, majd az elérhető alternatívákhoz való összehasonlításban kiértékeltünk. A kiértékelés lényegi előrelépést igazolt napjaink alaptechnológiájához viszonyítva. Javaslatot tettünk a szintaktikai és a szemantikai/pragmatikai funkciók szétválasztására audió és szöveg elemzése alapján. A leendő felhasználási területek tekintetében is végeztünk kutatást, és sikerrel alkalmaztuk a fonológiai frázisdetektáláson alapuló megközelítést korpuszok magas minőségi követelményeknek megfelelő gépi címkézésére, beszéd tartalmi kivonatolásának segítésére, írásjelezetlen beszédátirat automatikus írásjelezésére, illetve általánosan a beszéd kvalitatív és kvantitatív elemzésére a prozódia és információs szerveződés tekintetében: hangsúly, szóhatár, szintaktikai határok, valamint szemantikai és pragmatikai funkciók detektálására és feltérképezésére.
Results in English
The ambition of the project was to create a prosody modelling framework suitable for supra-segmental analysis of spoken language, in order to support applications in speech technology, which help everyday life in our information-based society. The framework was elaborated for Hungarian, English, French and German. Optimization in terms of signal processing and evaluation by comparison to known systems was performed, showing significant new achievements w.r.t. the state-of-the-art. We proposed an approach to separate syntactically and semantically/pragmatically motivated prominence based on audio and text analysis. Regarding future exploitation of the results, we successfully adopted the proposed framework for high quality automatic labelling of TTS speech corpora, speech summarization, automatic punctuation of speech transcripts, and, in general, for a quantitative and qualitative analysis of prosody and supra-segmental structure involving prosodic stress, word and syntactic boundary detection, semantic and pragmatic analysis.
Full text https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=112598
Decision
Yes





 

List of publications

 
Beke A, Szaszák G: Automatic summarization of highly spontaneous speech, LECT NOTES COMPUT SCI 9811: 140-147, 2016
György Szaszák and András Beke: An Empirical Approach for Comparing Syntax and Prosody Driven Prominence Marking, The Phonetician, 2017
Szaszák G, Tündik MÁ, Gerazov B, Gjoreski A: Combining atom decomposition of the F0 track and HMM-based phonological phrase modelling for robust stress detection in speech, LECT NOTES COMPUT SCI 9811: 165-173, 2016
Szaszák György, Beke András: Toward Exploring the Role of Disfluencies from an Acoustic Point of View, LECT NOTES COMPUT SCI 9302: 369-377, 2015
Tündik Máté Ákos, Tarján Balázs, Szaszák György: Low Latency MaxEnt- and RNN-Based Word Sequence Models for Punctuation Restoration of Closed Caption Data, Statistical Language and Speech Processing. Cham: Springer, 2017. pp. 155-166. (Lecture Notes in Computer Science; 10583.), 2017
Moró Anna, Szaszák György: A Phonological Phrase Sequence Modelling Approach for Resource Efficient and Robust Real-Time Punctuation Recovery, Proceedings of Interspeech: Situated interaction. Stockholm, Svédország, 2017.08.19-2017.08.24. Kiadvány: Causal Productions, 2017. pp. 558-562., 2017
Máté Ákos Tündik, Gábor Kiss, Dávid Sztahó and GyörgySzaszák: Assessment of pathological speech prosody based on automatic stress detection and phrasing approaches, CogInfoCom 2017, 2017
Máté Ákos Tündik, Balázs Tarján and György Szaszák: A Bilingual Comparison of MaxEnt and RNN based PunctuationRestoration in Speech Transcripts, CogInfoCom 2017, 2017
Anna Moró and György Szaszák: A prosody inspired RNN approach for punctuation of machine produced speech transcripts to improve human readability, CogInfoCom 2017, 2017
György Szaszák and András Beke: An Empirical Approach for Comparing Syntax and Prosody Driven Prominence Marking, The Phonetician, 2017
Moró Anna, Szaszák György: A Phonological Phrase Sequence Modelling Approach for Resource Efficient and Robust Real-Time Punctuation Recovery, In: Francisco Lacerda, David House, Matthias Heldner, Joakim Gustafsson, Sofia Strömbergsson, Marcin Wlodarczak (szerk.) (szerk.) Proceedings of Interspeech: Situated interaction. Stockholm, Svédország, 2017.08.19-2017.08.24. Kiadvány: Causal Productions, 2017. pp. 558-562., 2017
Tündik Máté Ákos, Kiss Gábor, Sztahó Dávid, Szaszák György: Automatikus frázisdetektáló módszereken alapuló patológiás beszédelemzés magyar nyelven, In: Vincze Veronika (szerk.) (szerk.) XIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY2017). Szeged: Szegedi Tudományegyetem Informatikai Tanszékcsoport, 2017. pp. 113-124., 2017
Beke A, Szaszák G: Automatic summarization of highly spontaneous speech, LECT NOTES COMPUT SCI 9811: 140-147, 2016
Máté Ákos Tündik, Branislav Gerazov, Aleksandar Gjoreski, György Szaszák: Atom Decomposition Based Stress Detection and Automatic Phrasing of Speech, In: Baranyi Péter (szerk.) (szerk.) Proceedings of 7th IEEE Conference on Cognitive Infocommunications. Budapest: IEEE Hungary Section, 2016. pp. 25-29., 2016
Szaszák G, Tündik MÁ, Gerazov B, Gjoreski A: Combining atom decomposition of the F0 track and HMM-based phonological phrase modelling for robust stress detection in speech, LECT NOTES COMPUT SCI 9811: 165-173, 2016
Tündik Máté Ákos, Dr. Szaszák György: Szöveg alapú nyelvi elemző kiértékelése gépi beszédfelismerő hibákkal terhelt kimenetén, In: Tanács Attila, Varga Viktor, Vincze Veronika (szerk.) (szerk.) XII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2016). Szeged: Szegedi Tudományegyetem, 2016. pp. 111-121., 2016
Máté Ákos Tündik, Gábor Kiss, Dávid Sztahó and GyörgySzaszák: Assessment of pathological speech prosody based on automatic stress detection and phrasing approaches, CogInfoCom 2017, 2017
Moró Anna, Szaszák György: A Phonological Phrase Sequence Modelling Approach for Resource Efficient and Robust Real-Time Punctuation Recovery, Proceedings of Interspeech, 2017
Máté Ákos Tündik, Branislav Gerazov, Aleksandar Gjoreski, György Szaszák: Atom Decomposition Based Stress Detection and Automatic Phrasing of Speech, Proceedings of CogInfoCom 2016, 2016
Szaszák György, Tündik Máté Ákos, Beke András: Summarization of Spontaneous Speech using Automatic Speech Recognition and a Speech Prosody based Tokenizer, Proceedings of the 8th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management, 2016
Tündik Máté Ákos, Kiss Gábor, Sztahó Dávid, Szaszák György: Automatikus frázisdetektáló módszereken alapuló patológiás beszédelemzés magyar nyelven, XIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY2017), 2017
György Szaszák, András Beke, Gábor Olaszy, Bálint Pál Tóth: Using Automatic Stress Extraction from Audio for Improved Prosody Modelling in Speech Synthesis, Interspeech 2015, 2015
György Szaszák, Máté Ákos Tündik, Branislav Gerazov and Aleksandar Gjoreski: Combining Atom Decomposition of the F0 Track and HMM-based Phonological Phrase Modelling for Robust Stress Detection in Speech, Speech and Computer: 18th International Conference, SPECOM 2016, pp. 165-173., 2016
Szaszák György, Tulics Miklós Gábriel, Tündik Máté Ákos: Analyzing F0 Discontinuity for Speech Prosody Enhancement, ACTA UNIVERSITATIS SAPIENTIAE ELECTRICAL AND MECHANICAL ENGINEERING 6: pp. 59-67. (2014), 2014
Beke András, Szaszák György: Combining NLP techniques and acoustic analysis for semantic focus detection in speech, http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=7020506, 2014
Beke András, Markó Alexandra, Szaszák György, Váradi Viola: Kétszintű algoritmus spontán beszéd prozódiaalapú szegmentálására, XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2015, Szeged, 2015.01.15-2015.01.16., 2015
György Szaszák, András Beke, Gábor Olaszy, Bálint Pál Tóth: Using Automatic Stress Extraction from Audio for Improved Prosody Modelling in Speech Synthesis, Interspeech 2015, 2015
György Szaszák, András Beke: Toward Exploring the Role of Disfluencies from an Acoustic Point of View: a New Aspect of (Dis)continuous Speech Prosody Modelling, TSD 2015, 2015
Beke András, Szaszák György: Automatic Summarization of Highly Spontaneous Speech, Speech and Computer: 18th International Conference, SPECOM 2016, pp 140-147, 2016
György Szaszák, Máté Ákos Tündik, Branislav Gerazov and Aleksandar Gjoreski: Combining Atom Decomposition of the F0 Track and HMM-based Phonological Phrase Modelling for Robust Stress Detection in Speech, Speech and Computer: 18th International Conference, SPECOM 2016, pp. 165-173., 2016
Szaszák György, Beke András, Olaszy Gábor, Tóth Bálint Pál: Gépi beszéd természetességének növelése automatikus, beszédjel alapú hangsúlycímkéző algoritmussal, XII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2016), pp. 144-153, 2016
Szaszák György, Tulics Miklós Gábriel, Tündik Máté Ákos: Analyzing F0 Discontinuity for Speech Prosody Enhancement, ACTA UNIVERSITATIS SAPIENTIAE ELECTRICAL AND MECHANICAL ENGINEERING 6: pp. 59-67. (2014), 2014
Tündik Máté Ákos, Dr. Szaszák György: Szöveg alapú nyelvi elemző kiértékelése gépi beszédfelismerő hibákkal terhelt kimenetén, XII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2016). Szeged: Szegedi Tudományegyetem, 2016. pp. 111-121., 2016




Back »