Automatic phonologial phrase and prosodic event detection for the extraction of syntactic and semantic/pragmatic information from speech  Page description

Help  Print 
Back »

 

Details of project

 
Identifier
112598
Type PD
Principal investigator Szaszák, György
Title in Hungarian Automatikus fonológiai frázis és prozódiai eseménydetektálás szintaktikai, szemantikai és pragmatikai információk közvetlen kinyerésére a beszédből
Title in English Automatic phonologial phrase and prosodic event detection for the extraction of syntactic and semantic/pragmatic information from speech
Keywords in Hungarian prozódia, automatikus beszédértés, automatikus eseménydetektálás
Keywords in English prosody, automatic speech understanding, automatic event detection, information retrieval
Discipline
Information Technology (Council of Physical Sciences)80 %
Ortelius classification: Applied informatics
Linguistics (Council of Humanities and Social Sciences)20 %
Ortelius classification: Computational linguistics
Panel Informatics and Electrical Engineering
Department or equivalent Department of Telecommunications and Media Informatics (Budapest University of Technology and Economics)
Starting date 2014-09-01
Closing date 2017-11-30
Funding (in million HUF) 8.976
FTE (full time equivalent) 2.60
state running project





 

Final report

 
Results in Hungarian
A kutatási projekt fő célkitűzése egy olyan beszélt nyelvi – prozódiai modellezést megvalósító – eszköztár kidolgozása volt, amellyel hatékonyan támogathatók olyan beszédtechnológiai feladatok, melyek a mindennapi életben az információs társadalomban is hasznos segítséget jelentenek. Magyar mellett angol, francia és német nyelvekre is sikerrel adaptáltuk a rendszert, amelyet prozódiai jelfeldolgozás szempontjából is optimizáltunk, majd az elérhető alternatívákhoz való összehasonlításban kiértékeltünk. A kiértékelés lényegi előrelépést igazolt napjaink alaptechnológiájához viszonyítva. Javaslatot tettünk a szintaktikai és a szemantikai/pragmatikai funkciók szétválasztására audió és szöveg elemzése alapján. A leendő felhasználási területek tekintetében is végeztünk kutatást, és sikerrel alkalmaztuk a fonológiai frázisdetektáláson alapuló megközelítést korpuszok magas minőségi követelményeknek megfelelő gépi címkézésére, beszéd tartalmi kivonatolásának segítésére, írásjelezetlen beszédátirat automatikus írásjelezésére, illetve általánosan a beszéd kvalitatív és kvantitatív elemzésére a prozódia és információs szerveződés tekintetében: hangsúly, szóhatár, szintaktikai határok, valamint szemantikai és pragmatikai funkciók detektálására és feltérképezésére.
Results in English
The ambition of the project was to create a prosody modelling framework suitable for supra-segmental analysis of spoken language, in order to support applications in speech technology, which help everyday life in our information-based society. The framework was elaborated for Hungarian, English, French and German. Optimization in terms of signal processing and evaluation by comparison to known systems was performed, showing significant new achievements w.r.t. the state-of-the-art. We proposed an approach to separate syntactically and semantically/pragmatically motivated prominence based on audio and text analysis. Regarding future exploitation of the results, we successfully adopted the proposed framework for high quality automatic labelling of TTS speech corpora, speech summarization, automatic punctuation of speech transcripts, and, in general, for a quantitative and qualitative analysis of prosody and supra-segmental structure involving prosodic stress, word and syntactic boundary detection, semantic and pragmatic analysis.
Full text https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=112598
Decision
Yes





 

List of publications

 
Beke A, Szaszák G: Automatic summarization of highly spontaneous speech, LECT NOTES COMPUT SCI 9811: 140-147, 2016
György Szaszák and András Beke: An Empirical Approach for Comparing Syntax and Prosody Driven Prominence Marking, The Phonetician, 2017
Szaszák G, Tündik MÁ, Gerazov B, Gjoreski A: Combining atom decomposition of the F0 track and HMM-based phonological phrase modelling for robust stress detection in speech, LECT NOTES COMPUT SCI 9811: 165-173, 2016
Szaszák György, Beke András: Toward Exploring the Role of Disfluencies from an Acoustic Point of View, LECT NOTES COMPUT SCI 9302: 369-377, 2015
Tündik Máté Ákos, Tarján Balázs, Szaszák György: Low Latency MaxEnt- and RNN-Based Word Sequence Models for Punctuation Restoration of Closed Caption Data, Statistical Language and Speech Processing. Cham: Springer, 2017. pp. 155-166. (Lecture Notes in Computer Science; 10583.), 2017
Moró Anna, Szaszák György: A Phonological Phrase Sequence Modelling Approach for Resource Efficient and Robust Real-Time Punctuation Recovery, Proceedings of Interspeech: Situated interaction. Stockholm, Svédország, 2017.08.19-2017.08.24. Kiadvány: Causal Productions, 2017. pp. 558-562., 2017
Máté Ákos Tündik, Gábor Kiss, Dávid Sztahó and GyörgySzaszák: Assessment of pathological speech prosody based on automatic stress detection and phrasing approaches, CogInfoCom 2017, 2017
Máté Ákos Tündik, Balázs Tarján and György Szaszák: A Bilingual Comparison of MaxEnt and RNN based PunctuationRestoration in Speech Transcripts, CogInfoCom 2017, 2017
Anna Moró and György Szaszák: A prosody inspired RNN approach for punctuation of machine produced speech transcripts to improve human readability, CogInfoCom 2017, 2017
György Szaszák and András Beke: An Empirical Approach for Comparing Syntax and Prosody Driven Prominence Marking, The Phonetician, 2017
Moró Anna, Szaszák György: A Phonological Phrase Sequence Modelling Approach for Resource Efficient and Robust Real-Time Punctuation Recovery, In: Francisco Lacerda, David House, Matthias Heldner, Joakim Gustafsson, Sofia Strömbergsson, Marcin Wlodarczak (szerk.) (szerk.) Proceedings of Interspeech: Situated interaction. Stockholm, Svédország, 2017.08.19-2017.08.24. Kiadvány: Causal Productions, 2017. pp. 558-562., 2017
Tündik Máté Ákos, Kiss Gábor, Sztahó Dávid, Szaszák György: Automatikus frázisdetektáló módszereken alapuló patológiás beszédelemzés magyar nyelven, In: Vincze Veronika (szerk.) (szerk.) XIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY2017). Szeged: Szegedi Tudományegyetem Informatikai Tanszékcsoport, 2017. pp. 113-124., 2017
Beke A, Szaszák G: Automatic summarization of highly spontaneous speech, LECT NOTES COMPUT SCI 9811: 140-147, 2016
Máté Ákos Tündik, Branislav Gerazov, Aleksandar Gjoreski, György Szaszák: Atom Decomposition Based Stress Detection and Automatic Phrasing of Speech, In: Baranyi Péter (szerk.) (szerk.) Proceedings of 7th IEEE Conference on Cognitive Infocommunications. Budapest: IEEE Hungary Section, 2016. pp. 25-29., 2016
Szaszák G, Tündik MÁ, Gerazov B, Gjoreski A: Combining atom decomposition of the F0 track and HMM-based phonological phrase modelling for robust stress detection in speech, LECT NOTES COMPUT SCI 9811: 165-173, 2016
Tündik Máté Ákos, Dr. Szaszák György: Szöveg alapú nyelvi elemző kiértékelése gépi beszédfelismerő hibákkal terhelt kimenetén, In: Tanács Attila, Varga Viktor, Vincze Veronika (szerk.) (szerk.) XII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2016). Szeged: Szegedi Tudományegyetem, 2016. pp. 111-121., 2016
Máté Ákos Tündik, Gábor Kiss, Dávid Sztahó and GyörgySzaszák: Assessment of pathological speech prosody based on automatic stress detection and phrasing approaches, CogInfoCom 2017, 2017
Moró Anna, Szaszák György: A Phonological Phrase Sequence Modelling Approach for Resource Efficient and Robust Real-Time Punctuation Recovery, Proceedings of Interspeech, 2017
Máté Ákos Tündik, Branislav Gerazov, Aleksandar Gjoreski, György Szaszák: Atom Decomposition Based Stress Detection and Automatic Phrasing of Speech, Proceedings of CogInfoCom 2016, 2016
Szaszák György, Tündik Máté Ákos, Beke András: Summarization of Spontaneous Speech using Automatic Speech Recognition and a Speech Prosody based Tokenizer, Proceedings of the 8th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management, 2016
Tündik Máté Ákos, Kiss Gábor, Sztahó Dávid, Szaszák György: Automatikus frázisdetektáló módszereken alapuló patológiás beszédelemzés magyar nyelven, XIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY2017), 2017
György Szaszák, András Beke, Gábor Olaszy, Bálint Pál Tóth: Using Automatic Stress Extraction from Audio for Improved Prosody Modelling in Speech Synthesis, Interspeech 2015, 2015
György Szaszák, Máté Ákos Tündik, Branislav Gerazov and Aleksandar Gjoreski: Combining Atom Decomposition of the F0 Track and HMM-based Phonological Phrase Modelling for Robust Stress Detection in Speech, Speech and Computer: 18th International Conference, SPECOM 2016, pp. 165-173., 2016
Szaszák György, Tulics Miklós Gábriel, Tündik Máté Ákos: Analyzing F0 Discontinuity for Speech Prosody Enhancement, ACTA UNIVERSITATIS SAPIENTIAE ELECTRICAL AND MECHANICAL ENGINEERING 6: pp. 59-67. (2014), 2014
Beke András, Szaszák György: Combining NLP techniques and acoustic analysis for semantic focus detection in speech, http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=7020506, 2014
Beke András, Markó Alexandra, Szaszák György, Váradi Viola: Kétszintű algoritmus spontán beszéd prozódiaalapú szegmentálására, XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2015, Szeged, 2015.01.15-2015.01.16., 2015
György Szaszák, András Beke, Gábor Olaszy, Bálint Pál Tóth: Using Automatic Stress Extraction from Audio for Improved Prosody Modelling in Speech Synthesis, Interspeech 2015, 2015
György Szaszák, András Beke: Toward Exploring the Role of Disfluencies from an Acoustic Point of View: a New Aspect of (Dis)continuous Speech Prosody Modelling, TSD 2015, 2015
Beke András, Szaszák György: Automatic Summarization of Highly Spontaneous Speech, Speech and Computer: 18th International Conference, SPECOM 2016, pp 140-147, 2016
György Szaszák, Máté Ákos Tündik, Branislav Gerazov and Aleksandar Gjoreski: Combining Atom Decomposition of the F0 Track and HMM-based Phonological Phrase Modelling for Robust Stress Detection in Speech, Speech and Computer: 18th International Conference, SPECOM 2016, pp. 165-173., 2016
Szaszák György, Beke András, Olaszy Gábor, Tóth Bálint Pál: Gépi beszéd természetességének növelése automatikus, beszédjel alapú hangsúlycímkéző algoritmussal, XII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2016), pp. 144-153, 2016
Szaszák György, Tulics Miklós Gábriel, Tündik Máté Ákos: Analyzing F0 Discontinuity for Speech Prosody Enhancement, ACTA UNIVERSITATIS SAPIENTIAE ELECTRICAL AND MECHANICAL ENGINEERING 6: pp. 59-67. (2014), 2014
Tündik Máté Ákos, Dr. Szaszák György: Szöveg alapú nyelvi elemző kiértékelése gépi beszédfelismerő hibákkal terhelt kimenetén, XII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2016). Szeged: Szegedi Tudományegyetem, 2016. pp. 111-121., 2016




Back »