Némabeszéd-interfészek kidolgozása és a beszélőfüggőség vizsgálata nyelvultrahang és elektromágneses artikulográf eszközökkel  részletek

súgó  nyomtatás 
vissza »

 

Projekt adatai

 
azonosító
127915
típus PD
Vezető kutató Csapó Tamás Gábor
magyar cím Némabeszéd-interfészek kidolgozása és a beszélőfüggőség vizsgálata nyelvultrahang és elektromágneses artikulográf eszközökkel
Angol cím Development of silent speech interfaces and investigation of speaker dependency using ultrasound tongue imaging and electromagnetic articulography
magyar kulcsszavak beszédtechnológia, deep learning, gépi tanulás, multimodális artikuláció, ultrahang
angol kulcsszavak speech technology, deep learning, machine learning, multimodal articulation, ultrasound
megadott besorolás
Informatika (Műszaki és Természettudományok Kollégiuma)45 %
Ortelius tudományág: Alkalmazott informatika
Távközlés (Műszaki és Természettudományok Kollégiuma)30 %
Ortelius tudományág: Távközlés
Nyelvtudomány (Bölcsészet- és Társadalomtudományok Kollégiuma)25 %
Ortelius tudományág: Fonetika
zsűri Informatikai–Villamosmérnöki
Kutatóhely Távközlési és Mesterséges Intelligencia Tanszék (Budapesti Műszaki és Gazdaságtudományi Egyetem)
projekt kezdete 2018-12-01
projekt vége 2021-11-30
aktuális összeg (MFt) 15.807
FTE (kutatóév egyenérték) 2.10
állapot lezárult projekt
magyar összefoglaló
A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.

A beszéd a legbonyolultabb emberi biológiai jel, de még nem értjük a beszédprodukció és –artikuláció minden jellemzőjét. A beszédtechnológiát használó alkalmazások jelentősen segíthetik mindennapi életünket.
A némabeszéd-interfész (Silent Speech Interface, SSI) rendszerek a beszédtechnológia egyik forradalmi irányát képviselik, melynek során a hangtalan artikulációs mozgást valamilyen eszközzel felvesszük, majd ebből automatikusan beszédet generálunk, miközben az eredeti beszélő nem ad ki hangot. Ez a kutatási téma számos területen nagy jelentőséggel bír, ilyen többek között a beszédsérülteket segítő kommunikációs eszközök és a katonai alkalmazások. A jelen projektben új módszereket javaslunk a beszéd közbeni artikuláció (elsősorban nyelv és ajkak) elemzésére és feldolgozására. A fő céljaink a következők: 1. a beszédkódolásban a spektrális szűrés javítása artikulációs adatok alapján; 2. a “direkt szintézis” módszer tesztelése és javítása SSI témakörben 3. az artikulációt követő módszerek helyzet- és beszélőfüggőségének vizsgálata és normalizálási módszerek kidolgozása. A fentiek során a beszélőszervek mozgásának leképezésére 2D ultrahangot (ultrasound tongue imaging, UTI), ajakvideót és elektromágneses artikulográfot (EMA) alkalmazunk. Különös hangsúlyt fektetünk a helyzet- és beszélőfüggőség vizsgálatára, amely a jelenlegi SSI szakirodalomban alulreprezentált. A fenti célok eléréséhez elemezzük az artikulációs mozgást több magyar beszélő anyagán, különböző módokon modellezzük az artikuláció-akusztikum kapcsolatát, és végül objektív tesztekben és szubjektív kísérletekben valós felhasználókkal kiértékeljük a módszereket.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.

A beszédtechnológiában létfontosságú a beszélőfüggőség vizsgálata – azaz hogy az egyik beszélőre kidolgozott módszerek adaptálhatóak-e másik beszélőre vagy sem. Ennek ellenére a némabeszéd-interfész (Silent Speech Interface, SSI) témakörben a legtöbb korábbi kutatásban csak kevés beszélőt vizsgáltak. Bár ezen tanulmányok eredményei bátorítóak, további kutatás szükséges a helyzet- és beszélőfüggetlen SSI rendszerek kifejlesztéséhez. Egy korábbi FK_17 pályázatban végzett előzetes megvalósíthatósági tanulmányunk eredménye biztató: sikerült érthető beszédet generálnunk nyers nyelvultrahang-adatot bemenetként felhasználva. Ahhoz azonban, hogy használható prototípus alkalmazást készítsünk a beszédsérültek számára, bonyolultabb kísérletek és még jobban kidolgozott eljárások szükségesek. A jelen pályázat az előbbi, némabeszéd-interfész területen felmerült kihívásokat kívánja megoldani 1) 2D ultrahang, 2) ajakvideó és 3) elektromágneses artikulográf (EMA) segítségével. A fenti artikulációkövető technikák és gépi tanulási módszerek kombinációja biztosítja, hogy a várható célokat elérjük, és használható SSI prototípusrendszert tudjunk készíteni. Mély tanulási módszereket tervezünk alkalmazni az artikuláció-beszéd predikció során (előrecsatolt, konvolúciós és rekurrens neurális hálózatok). Az artikulációs információ hozzáadása növelheti a gépi szövegfelolvasás természetességét. A projekt keretében a fenti kérdéseket kívánjuk megoldani, és az artikulációs kutatás beszélőfüggőségét vizsgáljuk, amely hiánypótló lesz a tudományos közösség és a beszédsérültek számára.

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!

A legkorszerűbb nemzetközi trendeken is túlmutat a kutatásban alkalmazott multimodális (beszéd- és artikulációs) analízis és szintézis. Úttörő módon komplex helyzet- és beszélőadaptációs módszereket fogunk használni a némabeszéd-interfész rendszerek kiegészítésére és javítására.
A várható fő eredmény az, hogy egy teljes egészében mélytanulás-alapú SSI rendszer kivitelezhető (azaz az egyik beszélő anyagán betanítunk, és egy másik beszélővel tesztelünk), ami jelenleg alulreprezentált a tudományos környezetben. Azt várjuk, hogy ehhez az optimális megoldást az artikulációt követő eszközök (ultrahang, elektromágneses artikulográf és ajakvideó), valamint különböző deep learning módszerek (teljesen csatolt, konvolúciós hálózat stb.) kombinálásával tudjuk elérni. A kutatás eredményei a szélesebb közösség számára főleg a természetesebb ember-gép interakció területén (pl. kommunikációs segéd beszédsérültek számára) jelentkezhetnek, valamint a projekt növelheti hazánk tudományos versenyképességét Közép-Európa régiójában. Mivel a világon évente több tízezer ember veszti el a beszédképességét gégeműtét miatt, az ilyen kommunikációs eszközök hosszú távon nagy jelentőséggel bírnak.
A jelen projekt egyedi erőssége a nemzetközi versenytársakhoz képest az, hogy komoly tudással rendelkezünk a 1) beszédszintézis, 2) artikulációs technikák és 3) mély tanulás területein is. A többi kutatócsoport tipikusan ezeknek csak egy részére fókuszál. Hueber (GIPSA-lab, Franciao.) / Denby (Tianjin U., KÍna) nyelv-ultrahangot és EMA-t alkalmaznak a beszéd generálásához, de nincs tapasztalatuk a beszédkódolásban. Gonzalez és társai (U. Sheffield, Egyesült Királyság) világszínvonalú kutatást végeznek új artikulácós felvevő technikák kidolgozásában, de kevésbé tapasztaltak beszédszintézisben. Schulz (Karlsruhe, Németo.) valamint Freitas (U. Aveiro, Portugália) erősek a nem invazív artikulációs technikák használatában, de nincs nagy tapasztalatuk a deep learning területén. Wang és társai (UT Dallas, USA) nagy tudással rendelkeznek az EMA alapú beszédfelismerésben, de gyengébbek a direkt szintézis módszerekben. A fenti csoportok egyike sem foglalkozott a helyzet- és beszélőfüggőség vizsgálatával.
A témában hazai versenytársakról nem tudunk.

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára.

A világon évente több tízezer ember veszti el a beszédképességét gégeműtét miatt. A beszédtechnológiát használó digitális alkalmazások jelentősen segíthetik az ő mindennapi kommunikációjukat.
A projekt során az a célunk, hogy a fentiekhez új automatikus beszédgeneráló eljárások kidolgozásával járuljunk hozzá. A nyelv és az ajkak mozgását felvesszük normál és tátogó beszéd közben (ultrahanggal és bonyolultabb megoldásokkal), és a nyelvmozgás valamint a beszéd interakcióját fogjuk vizsgálni. A beszélők közti vizsgálatok az egyes emberek különbségeire is rá fog világítani (pl. hogy az egy beszélőre kidolgozott beszédgeneráló rendszerek működnek-e mással).
A projekt multidiszciplináris jellegű (azaz több tudományterülethez kapcsolódik). A téma érinti az informatika (beszéd- és képfeldolgozás, mély tanulás) és a bölcsészet (artikulációs fonetika) tudományterületeit. A kutatás kulcselemei közé tartoznak a beszéd artikulációs vizsgálatához (elsősorban a nyelvmozgás) kapcsolódó elméleti módszerek, és ennek prototípus alkalmazása az audiovizuális beszédfeldolgozásban. Az utóbbi egy olyan kísérleti rendszert jelent, melynek segítségével a hangtalan artikulációs mozgást egy speciális eszközzel felvesszük, majd ebből automatikusan beszédet generálunk, miközben az eredeti beszélő nem ad ki hangot.
A pályázatban bemutatott analízis- és szintéziseredmények a legújabb gépi tanulási eredményekkel együtt illeszkednek a legkorszerűbb nemzetközi trendekhez, és túl is mutatnak azokon.
angol összefoglaló
Summary of the research and its aims for experts
Describe the major aims of the research for experts.

Speech is the most important human biosignal, but not all of the characteristics of speech production and articulation are fully understood. Digital applications using speech technology could significantly help our everyday communication. Silent Speech Interfaces (SSI) are a revolutional field of speech technologies, having the main idea of recording the soundless articulatory movement, and automatically generating speech from the movement information, while the original subject is not producing any sound. This research area has a large potential impact in a number of domains, including communication aid for the impaired people and military applications. During this project, novel methods will be proposed for analyzing and processing the articulation (especially the tongue and the lips) during human speech production. Our key goals are to 1) enhance spectral filtering of vocoding using articulatory data 2) test and improve direct synthesis in the field of silent speech interfaces 3) analyze session and speaker dependency of the various articulatory tracking equipment and develop alignment methods. For these, ultrasound tongue imaging (UTI), lip video and electromagnetic articulography (EMA) will be used to image the motion of the speaking organs. A special emphasis will be given on cross-session and cross-speaker experiments, which are underrepresented in the SSI scientific literature. In order to achieve the above goals, we will perform articulatory analysis on the data from several Hungarian speakers, model the articulatory-acoustic mapping in various ways, and finally evaluate them in objective tests and subjective experiments with real users.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.

In speech technology, the analysis of cross-speaker adaptation methods is essential – i.e. whether the systems developed with one speaker work with others or not. Despite this, in the field of Silent Speech Interfaces, most studies were done with only few speakers. Although the results of these previous studies are encouraging, further research is necessary for developing cross-session and cross-speaker SSI systems. Together with the experts involved in a previous grant, we have conducted a preliminary feasibility study with promising results - we were able to generate intelligible speech from raw tongue-ultrasound data as input. However, to achieve a useful prototype application for the speaking impaired, more complex experiments and fully developed studies are required. The current grant has the aim to solve the above challenges in the field of Silent Speech Interfaces with 1) 2D ultrasound tongue imaging (UTI), 2) lip video, and 3) electromagnetic articulography (EMA). The combination of the above articulatory acquisition techniques and machine learning methods will ensure the reach of the expected results and the development of a final SSI prototype. We plan to apply deep learning methods (feedforward, convolutional and recurrent neural networks) for the articulatory-to-acoustic prediction. Text-to-speech systems extended with articulatory information can result in more natural synthesized speech. During this project, we aim to solve these issues and contribute to cross-speaker articulatory research, which will be highly beneficial for the scientific community and for the speaking impaired people.

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.

We go beyond the state-of-the-art international trends through the multi-modal (speech and articulography) analysis and synthesis outlined in the proposal. We will use complex cross-session and cross-speaker adaptation methods to extend and improve Silent Speech Interface systems in a groundbreaking way.
The expected main result is that a fully deep learning based SSI can be feasible (i.e. trained on one speaker and evaluated/used on another speaker), which is currently under-represented in the scientific field. We expect to find the optimal solution for this with the combination of devices that can track the articulators (ultrasound, electromagnetic articulography and lip video) and various deep learning methods (fully connected neural networks, convolutional neural networks, etc.).
The main application areas of our results for the wider society include the contribution to more natural human-computer interactions (e.g. communication aid for the speaking impaired) and increase our scientific competitiveness in Central Europe. As every year tens of thousands of people in the world lose the power of speech after a laryngectomy, such communication aids can have a great significance in the long term.
The unique strength of the current project compared to international competitors is that we have strong knowledge in all aspects of 1) speech synthesis, 2) articulatory acquisition and 3) deep learning. Other groups typically focus only on one or two of these fields. Hueber et al. (GIPSA-lab, France) and Denby et al. (Tianjin Univ. China) uses tongue-ultrasound / EMA for speech generation, but they do not have experience in vocoding. Gonzalez et al. (U. Sheffield, UK) are world class in developing new articulatory acquisition techniques but are less experienced in speech synthesis. Schulz et al. (Karlsruhe Inst. of Techn., Germany) and Freitas et al. (U. of Aveiro, Portugal) are strong in non-invasive articulography techniques, but do not have long track record in deep learning. Wang et al. (UT Dallas, USA) have strong knowledge in EMA-based recognition, but are weaker in direct synthesis. None of the above groups have dealt with cross-session and cross-speaker SSI methods.
There are no known domestic competitors.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others.

Every year tens of thousands of people in the world lose the power of speech after a laryngectomy. Digital applications using speech technology could significantly help their everyday communication.
With this project our goals are to contribute to the above by designing novel automatic speech generation techniques. The movement of the tongue and the lips during speech and during silent articulation will be recorded (with an ultrasound device and more complex solutions), and the interaction of tongue movement and speech will be analyzed. Cross-speaker studies will shed light on differences between the individuals (i.e. whether speech generation systems developed for one speaker work for others or not).
In this project we follow a multidisciplinary approach (i.e. it is connected to several fields of science) touching fields of computer science (speech and image processing, deep learning) and humanities (articulatory phonetics). The key elements of the project include the theoretical methods to describe articulation of speech (mainly the movement of the tongue), and prototype applications in audiovisual speech processing. The latter will contain an experimental application for a Silent Speech Interface, having the main idea of recording the soundless articulatory movement, and automatically generating speech from the movement information, while the original subject is not producing any sound. Through the analysis and synthesis outlined in the proposal, the project fits into international trends and even goes beyond the state-of-the-art by using latest results in machine learning.





 

Zárójelentés

 
kutatási eredmények (magyarul)
Az artikuláció-akusztikum konverzió (melyet gyakran némabeszéd-interfésznek is neveznek) célja, hogy a néma artikulációt rögzítsük, majd abból automatikusan beszédet generáljunk, miközben az eredeti alany nem ad ki hangot. Egy ilyen rendszer rendkívül hasznos lehet beszédsérültek számára (pl. gégeeltávolítás után), valamint olyan esetekben, amikor a hangos beszéd nem kimondható, de információt szeretnénk továbbítani a beszélőtől (pl. rendkívül zajos környezet; katonai alkalmazások). A kutatásban először beszélőfüggő neurális hálózatokat használtunk a nyelvultrahang kép bemenetből mel-spektrogram kimenet megbecsülésére (a nyers és szétterített ultrahang reprezentációkat összehasonlítva). A szintetizált beszédet egyrészt folytonos vokóderrel, másrészt neurális vokóderrel hoztuk létre. Később megvizsgáltuk a nyelvultrahang képek felvétel közben történő elmozdulásának okait, és megállapítottuk, hogy ez negatív hatással lehet az artikuláció-akusztkus leképezésre. Ezért olyan megoldásokat javasoltunk, melyek környezetfüggetlen és beszélőfüggetlen nyelvultrahang-beszéd szintézist eredményezhetnek. A fő hangsúly az ultrahang modalitáson volt, de vizsgáltuk az ajakvideót és az artikulációs csatorna MRI-t is. Összesen 14 konferenciacikket, 6 nemzetközi folyóiratcikket (összesített IF: 9,457) publikáltunk. Három BSc, 10 MSc és 5 PhD hallgató vett részt a kutatásokban. Már a projekt három éve alatt számos idézetünk van kulcsfontosságú folyóiratokban.
kutatási eredmények (angolul)
Articulatory-to-acoustic conversion, which is often referred as “Silent Speech Interfaces” (SSI), has the main idea of recording the soundless articulatory movement, and automatically generating speech from the movement information, while the original subject is not producing any sound. Such an SSI system can be highly useful for the speaking impaired (e.g. after laryngectomy), and for scenarios where regular speech is not feasible but information should be transmitted from the speaker (e.g. extremely noisy environments; military applications). We first used speaker-dependent neural networks to predict mel-spectrogram parameters from ultrasound tongue image input (in raw scanline representation or wedge orientation). The synthesized speech was either achieved with a continuous vocoder or using a neural vocoder. Later, we investigated solutions for analyzing the misalignment in ultrasound tongue recordings and found that it can have a negative effect on articulatory-to-acoustic mapping results. Therefore, solutions were proposed for cross-session and cross-speaker ultrasound-to-speech synthesis. The main focus was on the ultrasound modality, but we also investigated video of the lip movement and MRI of the vocal tract. Altogether, we published 14 conference papers, 6 international journal papers (sum IF: 9.457). Three BSc, 10 MSc and 5 PhD students were involved. Already during the three years of the project, we have numerous citations in key journals.
a zárójelentés teljes szövege https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=127915
döntés eredménye
igen





 

Közleményjegyzék

 
Csapó Tamás Gábor, Tóth László, Gosztolya Gábor, Markó Alexandra: Speech Synthesis from Text and Ultrasound Tongue Image-based Articulatory Input, In: 11th ISCA Speech Synthesis Workshop (SSW 11), (2021) pp. 31-36., 2021
Gosztolya Gábor, Grósz Tamás, Tóth László, Markó Alexandra, Csapó Tamás Gábor: Applying DNN Adaptation to Reduce the Session Dependency of Ultrasound Tongue Imaging-based Silent Speech Interfaces, ACTA POLYTECHNICA HUNGARICA 17: (7) pp. 109-128., 2020
AL-RADHI Mohammed Salah, CSAPÓ Tamás Gábor, NÉMETH Géza: Continuous Noise Masking Based Vocoder for Statistical Parametric Speech Synthesis, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E103.D: (5) pp. 1099-1107., 2020
Al-Radhi Mohammed Salah, Csapó Tamás Gábor, Németh Géza: Continuous vocoder applied in deep neural network based voice conversion, MULTIMEDIA TOOLS AND APPLICATIONS: AN INTERNATIONAL JOURNAL 78: (23) pp. 33549-33572., 2019
Csapó Tamás Gábor, Xu Kele, Deme Andrea, Gráczi Tekla Etelka, Markó Alexandra: Transducer Misalignment in Ultrasound Tongue Imaging, In: M., Tiede; D. H., Whalen; V., Gracco (szerk.) Proceedings of the 12th International Seminar on Speech Production, Haskins Press (2021) pp. 166-169., 2021
Csapó Tamás Gábor: Extending Text-to-Speech Synthesis with Articulatory Movement Prediction using Ultrasound Tongue Imaging, In: 11th ISCA Speech Synthesis Workshop (SSW 11), (2021) pp. 7-12., 2021
Tamás Gábor Csapó, Gábor Gosztolya, László Tóth, Amin Honarmandi Shandiz, Alexandra Markó: Optimizing the Ultrasound Tongue Image Representation for Residual Network-based Articulatory-to-Acoustic Mapping, journal manuscript, 2021
Al-Radhi Mohammed Salah, Csapó Tamás Gábor, Németh Géza: Noise and acoustic modeling with waveform generator in text-to-speech and neutral speech conversion, MULTIMEDIA TOOLS AND APPLICATIONS: AN INTERNATIONAL JOURNAL 80: pp. 1969-1994., 2021
Al-Radhi Mohammed Salah, Csapó Tamás Gábor, Zainkó Csaba, Németh Géza: Continuous Wavelet Vocoder-Based Decomposition of Parametric Speech Waveform Synthesis, In: Hynek, Heřmanský; Honza, Černocký (szerk.) Interspeech 2021, (2021) pp. 2212-2216., 2021
Arthur Frigyes Viktor, Csapó Tamás Gábor: Towards a Practical Lip-to-Speech Conversion System Using Deep Neural Networks and Mobile Application Frontend, In: Bouzidi, Driss; Sabir, Essaid; Azar, Ahmad Taher; Goundar, Sam; Bellatreche, Ladjel; Tonellato, Peter J.; Haqiq, Abdelkrim; Hassanien, Aboul Ella (szerk.) Proceedings of the International Conference on Artificial Intelligence and Computer Vision (AICV2021), Springer International Publishing (2021) pp. 441-450., 2021
Mohammed Salah Al-Radhi, Tamás Gábor Csapó, Géza Németh: conTTS: Text-to-Speech Application using a Continuous Vocoder, In: M., Tiede; D. H., Whalen; V., Gracco (szerk.) Proceedings of the 12th International Seminar on Speech Production, Haskins Press (2021) pp. 170-173., 2021
Mohammed Salah Al-Radhi, Tamás Gábor Csapó, Géza Németh: Advances is Speech Vocoding for Text-to-Speech with Continuous Parameters, In: Amita, Dev; Arun, Sharma; S.S., Agrawal (szerk.) Artificial Intelligence and Speech Technology, CRC PRESS-TAYLOR & FRANCIS GROUP (2021) pp. 203-209., 2021
Mohammed Salah Al-Radhi, Tamás Gábor Csapó, Géza Németh: Effects of Sinusoidal Model on Non-Parallel Voice Conversion with Adversarial Learning, APPLIED SCIENCES-BASEL 11: (16) 7489, 2021
Zainkó Csaba, Tóth László, Shandiz Amin Honarmandi, Gosztolya Gábor, Markó Alexandra, Németh Géza, Csapó Tamás Gábor: Adaptation of Tacotron2-based Text-To-Speech for Articulatory-to-Acoustic Mapping using Ultrasound Tongue Imaging, In: 11th ISCA Speech Synthesis Workshop (SSW 11), (2021) pp. 54-59., 2021
Rácz Bianka, Csapó Tamás Gábor: Ajakvideó alapú beszédszintézis konvolúciós és rekurrens mély neurális hálózatokkal, BESZÉDTUDOMÁNY-SPEECH SCIENCE 1: pp. 56-71., 2020
AL-RADHI Mohammed Salah, CSAPÓ Tamás Gábor, NÉMETH Géza: Continuous Noise Masking Based Vocoder for Statistical Parametric Speech Synthesis, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E103.D: (5) pp. 1099-1107., 2020
T.G. Csapó and A. Sepúlveda: Ultrasound Tongue Image Generation for Acoustic-to-Articulatory Inversion using Convolutional and Recurrent Deep Neural Networks, journal manuscript, 2021
Csapó Tamás Gábor, Zainkó Csaba, Tóth László, Gosztolya Gábor, Markó Alexandra: Ultrasound-Based Articulatory-to-Acoustic Mapping with WaveGlow Speech Synthesis, In: Helen, Meng; Bo, Xu; Thomas, Zheng (szerk.) Interspeech 2020, ISCA-INT SPEECH COMMUNICATION ASSOC (2020) pp. 2727-2731., 2020
Csapó Tamás Gábor: Speaker Dependent Articulatory-to-Acoustic Mapping Using Real-Time MRI of the Vocal Tract, In: Helen, Meng; Bo, Xu; Thomas, Zheng (szerk.) Interspeech 2020, ISCA-INT SPEECH COMMUNICATION ASSOC (2020) pp. 2722-2726., 2020
Csapó Tamás Gábor: Speaker Dependent Acoustic-to-Articulatory Inversion Using Real-Time MRI of the Vocal Tract, In: Helen, Meng; Bo, Xu; Thomas, Zheng (szerk.) Interspeech 2020, ISCA-INT SPEECH COMMUNICATION ASSOC (2020) pp. 3720-3724., 2020
Csapó Tamás Gábor, Xu Kele: Quantification of Transducer Misalignment in Ultrasound Tongue Imaging, In: Helen, Meng; Bo, Xu; Thomas, Zheng (szerk.) Interspeech 2020, ISCA-INT SPEECH COMMUNICATION ASSOC (2020) pp. 3735-3739., 2020
Al-Radhi Mohammed Salah, Csapó Tamás Gábor, Németh Géza: Continuous vocoder applied in deep neural network based voice conversion, MULTIMEDIA TOOLS AND APPLICATIONS: AN INTERNATIONAL JOURNAL 78: (23) pp. 33549-33572., 2019
Csapó Tamás Gábor, Al-Radhi Mohammed Salah, Németh Géza, Gosztolya Gábor, Grósz Tamás, Tóth László, Markó Alexandra: Ultrasound-Based Silent Speech Interface Built on a Continuous Vocoder, In: Gernot, Kubin; Zdravko, Kačič (szerk.) The 20th Annual Conference of the International Speech Communication Association, ISCA-INT SPEECH COMMUNICATION ASSOC (2019) pp. 894-898., 2019
Porras Dagoberto, Sepulveda-Sepulveda Alexander, Csapó Tamás Gábor: DNN-based Acoustic-to-Articulatory Inversion using Ultrasound Tongue Imaging, In: Institute, of Electrical Electronics Engineers (szerk.) 2019 International Joint Conference on Neural Networks (IJCNN), IEEE (2019) pp. 1-8., 2019
Gábor Gosztolya, Tamás Grósz, László Tóth, Alexandra Markó, Tamás Gábor Csapó: Applying DNN Adaptation to Reduce the Session Dependency of Ultrasound Tongue Imaging-Based Silent Speech Interfaces, submitted to Acta Polytechnica Hungarica, 2019
Nadia Hajjej, Tamás Gábor Csapó: Realistic Ultrasound Tongue Image Synthesis using Generative Adversarial Networks, resubmitted to Acta Acustica, 2020
Csapó Tamás Gábor, Gosztolya Gábor, Grósz Tamás, Tóth László, Markó Alexandra: Nyelvultrahang-alapú némabeszéd-interfész, MFFLT 2019 (Magyar Fonetikai, Foniátriai és Logopédiai Társaság Kongresszusa), 2019
Csapó Tamás Gábor: A Deep Learning alkalmazása a beszédszintézisben - Generatív versengő hálózatok, HWSW mobile 2019 konferencia, 2019
Csapó Tamás Gábor: A mesterséges intelligencia és alkalmazása a beszédtechnológiában, Nyugdíjas Egyetem, Mosonmagyaróvár, 2019
Gosztolya Gábor, Grósz Tamás, Tóth László, Markó Alexandra, Csapó Tamás Gábor: Applying DNN Adaptation to Reduce the Session Dependency of Ultrasound Tongue Imaging-based Silent Speech Interfaces, ACTA POLYTECHNICA HUNGARICA 17: (7) pp. 109-128., 2020
Nadia Hajjej, Tamás Gábor Csapó: Realistic Ultrasound Tongue Image Synthesis using Generative Adversarial Networks, BESZÉDTUDOMÁNY-SPEECH SCIENCE 1: pp. 6-20., 2020
Arthur Frigyes Viktor, Csapó Tamás Gábor: Szájról olvasás automatizálása mély neurális hálózatok és mobilalkalmazás-kezelőfelület alkalmazásával, Beszédtudomány -- Speech Research; elfogadva, 2021




vissza »