Enhancement of deep learning based semantic representations with acoustic-prosodic features for automatic spoken document summarization and retrieval  Page description

Help  Print 
Back »

 

Details of project

 
Identifier
124413
Type FK
Principal investigator Szaszák, György
Title in Hungarian Mély tanulás alapú szemantikus reprezentációk kiterjesztése prozódiai-akusztikai jellemzőkkel beszéd automatikus tartalmi kivonatolásában és összefoglalásában
Title in English Enhancement of deep learning based semantic representations with acoustic-prosodic features for automatic spoken document summarization and retrieval
Keywords in Hungarian mély tanulás, beágyazás, szemantikus térbeli reprezentáció, prozódia, tartalmi kivonatolás
Keywords in English deep learning, embedding, semantic space representation, speech prosody, speech summarization
Discipline
Information Technology (Council of Physical Sciences)60 %
Ortelius classification: Applied informatics
Linguistics (Council of Humanities and Social Sciences)40 %
Ortelius classification: Computational linguistics
Panel Informatics and Electrical Engineering
Department or equivalent Department of Telecommunications and Media Informatics (Budapest University of Technology and Economics)
Participants Beke, András
Gosztolya, Gábor
Kiss, Gábor
Makrai, Márton
Sztahó, Dávid
Vicsi, Klára
Starting date 2017-12-01
Closing date 2023-05-31
Funding (in million HUF) 34.873
FTE (full time equivalent) 10.11
state running project





 

Final report

 
Results in Hungarian
Kutatásunkban tartalmi összefoglalás és kivonatolás kontextusában szerteágazóan vizsgáltuk az emberi nyelv szöveges és beszélt változatainak feldolgozására irányuló algoritmusok, implementációk képességeit, illetve fejlesztettük tovább ezeket. A hagyományosan külön kezelt szöveges és beszélt nyelvi interfészek integrációja irányába is jelentős lépéseket tettünk. Extraktív és absztraktív tartalmi összefoglalással is foglalkoztunk, elsősorban magyar nyelvre, a zömében az angol nyelvre fókuszáló eljárások adaptációjával, majd jelentős továbbfejlesztésével. A beszélt nyelvi oldalon a prozódia felhasználása tekintetében nemzetközi viszonylatban is egyedülálló eredményeket kaptunk. Fontosnak tartottuk a technológiai szűk keresztmetszetek analízisét és felszámolását, az eredmények objektív és szubjektív tesztekkel történő alapos alátámasztását. A beszélt nyelvi dokumentumok tartalmi összefoglalásában elért előrelépés mellett a gépi beszédfelismerésben közvetlenül hasznosítható központozót és készítettünk, amely az ipari hasznosíthatóság szintjét is eléri. Eredményeink a hang alapú diagnosztikában és analízisben, illetve elsősorban ezek kutatásában is nagyon hasznosnak bizonyultak.
Results in English
In our research, in the context of spopken document summarization and retrieval, we extensively investigated the capabilities of algorithms and implementations for processing textual and spoken versions of human language, and developed them further. We have also taken significant steps towards the integration of text and spoken language interfaces, which are traditionally handled separately. We also dealt with extractive and abstractive summarization, adapting and further developing the procedures focusing initially on English, to obtain optimal performance when used for Hungarian. In terms of the use of prosody on the spoken language side, we obtained unique results on the international scene. We considered it important to analyze and eliminate technological bottlenecks, and to thoroughly validate the results with objective and subjective tests. In addition to the progress made in summarizing the content of spoken language documents, we also created a punctuation recovery algorithm that can be used directly in automatic speech recognition, reaching the level of industrial applicability. Our results have proven to be very useful in audio-based diagnostics and analysis, and especially in their research.
Full text https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=124413
Decision
Yes





 

List of publications

 
Máté Ákos Tündik, Balázs Tarján, György Szaszák: A low latency sequential model and its user -focused evaluation for automatic punctuation of ASR closed captions, Computer Speech & Language 63 (2020): 101076., 2020
Balázs Tarján, György Szaszák, Tibor Fegyó, Péter Mihajlik: On the Effectiveness of Neural Text Generation Based Data Augmentation for Recognition of Morphologically Rich Speech, TSD 2020, 2020
Balázs Tarján, György Szaszák, Tibr Fegyó, Péter Mihajlik: N-gram Approximation of LSTM RecurrentLanguage Models for Single-pass Recognition ofHungarian Call Center Conversations, CoginfoCom 2019, 2019
Gábor Gosztolya: Using the Fisher Vector Representation for Audio-based Emotion Recognition, Acta Polytechnica Hungarica, Vol. 17, No. 6, pp. 7-23, 2020
Mercedes Vertráb, Gábor Gosztolya: Investigating the Corpus Independence of the Bag-of-Audio-Words Approach, International Conference on Text, Speech, and Dialogue. Springer, Cham, 2020. p. 285-293., 2020
Gábor Gosztolya: Very Short-term Conflict Intensity Estimation Using Fisher Vectors, Interspeech 2020, 2020
Tündik Máté Ákos, Szaszák György: ASR-hibaterjedés vizsgálata a gépi beszédértés szemszögéből, MSZNY, 2020
Vertráb Mercédesz, Gosztolya Gábor: Az akusztikus szózsák eljárás korpuszfüggetlenségének vizsgálata, MSZNY 2020, 2020
Pintér Ádám, Tóth László, Gosztolya Gábor: Mély neuronhálós akusztikus modellek súlyinicializálásának vizsgálata, MSZNY 2020, 2020
Gosztolya, G., Grósz, T., Tóth, L.: Social Signal Detection by Probabilistic Sampling DNN Training, IEEE Transactions on Affective Computing, Vol. 10, No. 1, pp. 164-178, 2020., 2020
Gosztolya, G., Balogh, R., Imre, N., Egas-López, J.V., Hoffmann, I., Vincze, V., Tóth, L., Devanand, D.P., Pákáski, M., Kálmán, J.: Cross-Lingual Detection of Mild Cognitive Impairment Based On Temporal Parameters of Spontaneous Speech, Computer, Speech & Language, Vol. 69, article no. 101215, 2021, 2021
Gosztolya, G., Busa-Fekete, R.: Ensemble Bag-of-Audio-Words Representation Improves Paralinguistic Classification Accuracy, IEEE/ACM Transactions on Audio Speech and Language Processing, Vol. 29, pp. 477-488, 2021, 2021
José Vicente Egas-López, Gábor Gosztolya: Using the Fisher Vector Approach for Cold Identification, Acta Cybernetica, vol.25, no. 2., pp. 223-232, 2021, 2021
Egas-López, J.V., Vetráb, M., Tóth, L., Gosztolya, G.: Identifying Conflict Escalation and Primates by Using Ensemble X-Vectors and Fisher Vector Features, Proceedings of Interspeech, pp. 476-480, Brno, Czech Republic, 2021., 2021
Egas-López, J.V., Balogh, R., Imre, N., Tóth, L., Vincze, V., Pákáski, M., Kálmán, J., Hoffmann, I., Gosztolya, G.: Enyhe kognitív zavar detektálása beszédhangból x-vektor reprezentáció használatával, Proceedings of the 2021 Hungarian Computational Linguistics Conference (MSZNY), pp. 147-156, Szeged, Hungary, 2021., 2021
Egas-López, J.V., Balogh, R., Imre, N., Hoffmann, I., Szabó, M.K., Tóth, L., Pákáski, M., Kálmán, J., Gosztolya, G.: Automatic Screening of Mild Cognitive Impairment and and Alzheimer's Disease by Means of Posterior-Thresholding Hesitation Representation, Computer, Speech & Language, Vol. 75, article no. 101377, 2022
Gosztolya, G.: Optimizing Class Priors to Improve the Detection of Social Signals, Audio Data, Engineering Applications of Artificial Intelligence, Vol. 107, article no. 104541, 2022
Gosztolya, G.: Estimating the Degree of Conflict in Speech by Employing Bag-of-Audio-Words and Fisher Vectors, Expert Systems with Applications, Vol. 205, article no. 117613, 2022
Imre, N., Balogh, R., Gosztolya, G., Tóth, L., Hoffmann, I., Várkonyi, T., Lengyel, Cs., Pákáski, M., Kálmán, J.: Temporal Speech Parameters Indicate Early Cognitive Decline in Elderly Patients With Type 2 Diabetes Mellitus, Alzheimer Disease & Associated Disorders, Vol. 36, No. 2, pp. 148-155, 2022, 2022
Vincze, N., Szabó, M.K., Hoffmann, I., Tóth, L., Pákáski, M., Kálmán, J., Gosztolya, G.: Linguistic Parameters of Spontaneous Speech for Identifying Mild Cognitive Impairment and Alzheimer Disease, Computational Linguistics, Vol. 48, No. 1, pp. 119-153, 2022, 2022
Vetráb, M., Gosztolya, G.: Using the Bag-of-Audio-Words Approach for Emotion Recognition, Acta Universitatis Sapientiae Informatica, Vol. 14, No. 1, pp. 1-21, 2022, 2022
Egas-López, J.V., Kiss, G., Sztahó, D., Gosztolya, G.: Automatic Assessment of the Degree of Clinical Depression from Speech Using X-Vectors, Proceedings of ICASSP, pp. 8502-8506, Singapore, 2022, 2022
Vetráb, M., Egas-López, J.V., Balogh, R., Imre, N., Hoffmann, I., Tóth, L., Pákáski, M., Kálmán, J., Gosztolya, G.: Using Spectral Sequence-to-Sequence Autoencoders to Assess Mild Cognitive Impairment, Proceedings of ICASSP, pp. 6467-6471, Singapore, 2022., 2022
Egas-López, J.V., Gosztolya, G.: Identification of Subjects Wearing a Surgical Mask from Their Speech by Means of X-vectors and Fisher Vectors, Proceedings of MDAI, pp. 108-118, Barcelona, Catalonia, Spain, 2022., 2022
Márton Makrai, Ákos Máté Tündik, Balázs Indig, György Szaszák: Towards abstractive summarization in Hungarian, Berend Gábor. XVIII. Magyar Számítógépes Nyelvészeti Konferencia : MSZNY 2022. (2022) ISBN:9789633068489 pp. 505-519, 2022
György, Szaszák ; Máté, Ákos Tündik ; Branislav, Gerazov: Prosodic stress detection for fixed stress languages using formal atom decomposition and a statistical hidden Markov hybrid, SPEECH COMMUNICATION 102 pp. 14-26., 2018
Máté, Ákos Tündik ; György, Szaszák: Joint Word- and Character-level Embedding CNN-RNN Models for Punctuation Restoration, In: Sallai, Gyula (szerk.) 9th IEEE International Conference on CogInfoCom, pp. 135-140., 2018
Valér, Kaszás ; Máté, Ákos Tündik ; György, Szaszák: A semantic space approach for automatic summarization of documents, In: Sallai, Gyula (szerk.) 9th IEEE International Conference on Cognitive Infocommunications, pp. 153-158., 2018
Máté, Ákos Tündik ; György, Szaszák ; Gábor, Gosztolya ; András, Beke: User-centric Evaluation of Automatic Punctuation in ASR Closed Captioning, Proc. Interspeech, pp. 2628-2632., 2018
Tündik, Máté Ákos ; Tarján, Balázs ; Szaszák, György: Televíziós feliratok írásjeleinek visszaállítása rekurrens neurális hálózatokkal, In: Vincze, Veronika (szerk.) XIV. Magyar Számítógépes Nyelvészeti Konferencia, pp. 183-195., 2018
Döbrössy Bálint, Makrai Márton, Tarján Balázs, Szaszák György: Investigating Sub-Word Embedding Strategies for the Morphologically Rich and Free Phrase-Order Hungarian, In: Isabelle, Augenstein; Spandana, Gella; Sebastian, Ruder; Katharina, Kann; Burcu, Can; Johannes, Welbl; Alexis, Conneau; Xiang, Ren; Marek, Rei (szerk.) Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019), Association for Computational Linguistics (2019) pp. 187-193., 2019
Szaszák György, Tündik Máté Ákos: Leveraging a Character, Word and Prosody Triplet for an ASR Error Robust and Agglutination Friendly Punctuation Approach, In: Gernot, Kubin; Zdravko, Kačič The 20th Annual Conference of the International Speech Communication Association COMMUNICATION ASSOC (2019) pp. 2988-2992., 2019
Tündik Máté Ákos, Kaszás Valér, Szaszák György: On the Effects of Automatic Transcription and Segmentation Errors in Hungarian Spoken Language Processing, PERIODICA POLYTECHNICA-ELECTRICAL ENGINEERING AND COMPUTER SCIENCE x: pp. 1-9., 2019
Tündik Máté Ákos, Kaszás Valér, Szaszák György: Assessing the Semantic Space Bias Caused by ASR Error Propagation and its Effect on Spoken Document Summarization, In: Gernot, Kubin; Zdravko, Kačič (szerk.) The 20th Annual Conference of the International Speech Communication Association (2019) pp. 1333-1337., 2019
Tündik Máté Ákos, Szaszák György: Kombinált központozási megoldások magyar nyelvre pehelysúlyú neurális hálózatokkal, In: Berend, G; Gosztolya, G; Vincze, V (szerk.) XV. Magyar Számítógépes Nyelvészeti Konferencia, Szegedi Tudományegyetem, Informatikai Intézet (2019) pp. 275-286., 2019
Szaszák György: An Audio-based Sequential Punctuation Model for ASR and its Effect on Human Readability, Acta Polytechnica Hungarica, 2019





 

Events of the project

 
2022-03-03 11:45:54
Résztvevők változása




Back »