Artikulációs mozgás alapú beszédgenerálás  részletek

súgó  nyomtatás 
vissza »

 

Projekt adatai

 
azonosító
124584
típus FK
Vezető kutató Csapó Tamás Gábor
magyar cím Artikulációs mozgás alapú beszédgenerálás
Angol cím Silent Speech Interface based on articulatory movements
magyar kulcsszavak beszédtechnológia, deep learning, multimodális artikuláció, ultrahang, neurális hálózatok
angol kulcsszavak speech technology, deep learning, multimodal articulation, ultrasound, neural networks
megadott besorolás
Informatika (Élettelen Természettudományok Kollégiuma)45 %
Ortelius tudományág: Alkalmazott informatika
Távközlés (Élettelen Természettudományok Kollégiuma)30 %
Ortelius tudományág: Távközlés
Nyelvtudomány (Bölcsészet- és Társadalomtudományok Kollégiuma)25 %
Ortelius tudományág: Fonetika
zsűri Informatikai–Villamosmérnöki
Kutatóhely Távközlési és Médiainformatikai Tanszék (Budapesti Műszaki és Gazdaságtudományi Egyetem)
résztvevők Al-Radhi Mohammed
Arthur Frigyes Viktor
Bartalis István Mátyás
Gosztolya Gábor
Gosztolya-Gabrics Noémi
Grósz Tamás
Honarmandi Shandiz Amin
José Vicente Egas López
Makrai Márton
Markó Alexandra
Németh Géza
Tóth László
Zainkó Csaba
projekt kezdete 2017-09-01
projekt vége 2022-02-28
aktuális összeg (MFt) 30.088
FTE (kutatóév egyenérték) 8.97
állapot lezárult projekt
magyar összefoglaló
A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.

A “Silent Speech Interface” (SSI) rendszerek a beszédtechnológia egyik forradalmi irányát képviselik, melynek során a hangtalan artikulációs mozgást valamilyen eszközzel felvesszük, majd ebből automatikusan beszédet generálunk, miközben az eredeti beszélő nem ad ki hangot. Ez a kutatási téma számos területen nagy jelentőséggel bír, ilyen többek között a beszédsérülteket segítő kommunikációs eszközök és a katonai alkalmazások. A tervezett projektben új módszereket javaslunk a beszéd közbeni artikuláció (elsősorban nyelv és ajkak) elemzésére és feldolgozására. A fő céljaink a következők: 1. az artikulációalapú fonémafelismerés teljesítményének alapos elemzése többféle artikulációt felvevő technológia kombinációjával; 2. a beszédkódolásban a spektrális szűrés javítása artikulációs adatok alapján; 3. a “felismerés-majd-szintézis” és a “direkt szintézis” módszerek tesztelése és javítása SSI témakörben. A fentiek során a beszélőszervek mozgásának leképezésére 2D ultrahangot, ajakvideót és elektromágneses artikulográfot (EMA) alkalmazunk. A kísérletek során nagy jelentőséggel bíró korszerű gépi tanulási módszereket használunk (különböző deep learning architektúrák). A fenti célok eléréséhez több magyar beszélőtől párhuzamos beszéd- és nyelvultrahang/artikulográf-adatot veszünk fel, elemezzük az artikulációs mozgást, különböző módokon modellezzük az artikuláció-akusztikum becslést, és végül objektív tesztekben és szubjektív kísérletekben valós felhasználókkal kiértékeljük a módszereket. A kutatáshoz multidiszciplináris csapatra van szükség, mely a pályázatunkban a beszédszintézis, a beszédfelismerés, a mély tanulás és az artikulációs technikák szakértőiből áll össze.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.

A mély neurális hálózatok napjainkban az emberit megközelítő vagy akár még jobb teljesítményt értek el számos felismerési feladatban. Ennek ellenére a Silent Speech Interface témakörben csak nagyon kevés kutatás alkalmazott deep learning eszközöket. Bár ezen tanulmányok eredményei bátorítóak, további kutatás szükséges a jó minőségű és valós idejű SSI rendszerek kifejlesztéséhez. A jelen pályázatban részt vevő szakértőkkel végzett előzetes megvalósíthatósági tanulmányunk eredménye biztató: sikerült néhány érthető beszédszakaszt generálnunk nyers nyelvultrahang-adatot bemenetként felhasználva. Ahhoz azonban, hogy teljesen érthető és közel természetes folyamatos beszédet generáljunk, bonyolultabb kísérletek és még jobban kidolgozott eljárások szükségesek. A jelen pályázat a fenti, Silent Speech Interface területen felmerült kihívásokat kívánja megoldani 1. 2D ultrahang, 2. ajakvideó és 3. elektromágneses artikulográf (EMA) segítségével. A deep learning vizsgálatok többek között a) előrecsatolt teljesen kapcsolt neurális hálókat, b) mély konvolúciós hálózatokat, és c) AutoEncoder struktúrákat fognak tartalmazni, illetve a hálózatok hiperparamétereinek optimalizálását is elvégezzük. A fenti artikulációkövető technikák és gépi tanulási módszerek kombinációja biztosítja, hogy a várható célokat elérjük, és használható SSI prototípusrendszert tudjunk készíteni.

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!

A kutatásban alkalmazott multimodális (beszéd- és artikulációs) analízis és szintézis túlmutat a legkorszerűbb nemzetközi trendeken is. Úttörő módon komplex deep learning módszereket fogunk használni a Silent Speech Interface rendszerek kiegészítésére és javítására.
A várható fő eredmény az, hogy egy teljes egészében mélytanulás-alapú SSI rendszer kivitelezhető, ami jelenleg alulreprezentált a tudományos környezetben. Azt várjuk, hogy ehhez az optimális megoldást az artikulációt követő eszközök (ultrahang, elektromágneses artikulográf és ajakvideó), valamint különböző deep learning módszerek (teljesen csatolt hálózat, konvolúciós neurális hálózat stb.) kombinálásával tudjuk elérni. A kutatás eredményei a szélesebb közösség számára főleg a természetesebb ember-gép interakció területén (pl. kommunikációs segéd beszédsérültek számára) jelentkezhetnek, valamint a projekt növelni tudja hazánk tudományos versenyképességét Közép-Európa régiójában. Mivel az EU-ban kb. 2-5 millió beszédsérült ember él (akik közül kb. tizenegyezer magyar), az ilyen kommunikációs eszközök hosszú távon nagy jelentőséggel bírnak.
A jelen projekt egyedi erőssége a nemzetközi beszédtechnológiai versenytársakhoz képest az, hogy csapatunk komoly tudással rendelkezik a 1. beszédszintézis és -felismerés, 2. deep learning, 3. artikulációs felvevő technikák területein is. A többi kutatócsoport tipikusan ezeknek csak egy részére fókuszál. Thomas Hueber és társai (GIPSA-lab, Franciao.) nyelv-ultrahangot és EMA-t alkalmaznak a beszéd generálásához, de nincs tapasztalatuk a beszédkódolásban. João Freitas és társai (U. of Aveiro, Portugália) erősek a multimodális adatgyűjtésben, de kevésbé erősek a mély tanulásban. Jose Gonzalez és társai (U. Sheffield, Egyesült Királyság) világszínvonalú kutatást végeznek új artikulácós felvevő technikák kidolgozásában, de kevésbé tapasztaltak beszédszintézisben. Schulz és társai (Karlsruhe Inst. of Techn., Németo.) erősek a nem invazív artikulációs technikák használatában, de nincs nagy tapasztalatuk a deep learning területén.
A témában hazai versenytársakról nem tudunk.

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára.

Az EU-ban kb. 2-5 millió beszédsérült ember él, akik közül kb. tizenegyezer magyar. A beszédtechnológiát használó digitális alkalmazások jelentősen segíthetik az ő mindennapi kommunikációjukat.
A projekt során az a célunk, hogy a fentiekhez új automatikus beszédgeneráló eljárások kidolgozásával járuljunk hozzá. A nyelv mozgását felvesszük beszéd közben (ultrahanggal és bonyolultabb megoldásokkal), és a nyelvmozgás, valamint a beszéd interakcióját fogjuk vizsgálni. Emellett mély tanuló eljárásokat (deep learning) alkalmazunk a nyelvultrahang és a beszédjel tulajdonságainak és kapcsolatának vizsgálatára.
A projekt multidiszciplináris jellegű (azaz több tudományterülethez kapcsolódik), melyet négy szakértő kutató fog együttműködésben kivitelezni. A téma érinti az informatika (beszéd- és képfeldolgozás, deep learning) és a bölcsészet (artikulációs fonetika) tudományterületeit. A kutatás kulcselemei közé tartoznak a beszéd artikulációs vizsgálatához kapcsolódó elméleti módszerek, és ennek alkalmazása az audiovizuális beszédfeldolgozásban. Az utóbbi egy olyan prototípusrendszert jelent, melynek segítségével a hangtalan artikulációs mozgást egy speciális eszközzel felvesszük, majd ebből automatikusan beszédet generálunk, miközben az eredeti beszélő nem ad ki hangot.
A pályázatban bemutatott analízis- és szintéziseredményekkel a projekt illeszkedik a legkorszerűbb nemzetközi trendekhez, és túl is mutat azokon.
angol összefoglaló
Summary of the research and its aims for experts
Describe the major aims of the research for experts.

Silent Speech Interfaces (SSI) are a revolutional field of speech technologies, having the main idea of recording the soundless articulatory movement, and automatically generating speech from the movement information, while the original subject is not producing any sound. This research area has a large potential impact in a number of domains, including communication aid for the impaired people and military applications. During the proposed project, novel methods will be proposed for analyzing and processing the articulation (especially the tongue and the lips) during human speech production. Our goals are to 1) thoroughly analyze the articulatory phone recognition performance using the optimal combination of different articulatory tracking methods 2) enhance spectral filtering of vocoding using articulatory data 3) test and improve recognition-followed-by-synthesis and direct synthesis in the field of silent speech interfaces. For these, 2D ultrasound, lip video and electromagnetic articulography will be used to image the motion of the speaking organs. For the experiments, we will use high-potential machine learning methods (various deep neural network architectures). In order to achieve the above goals, we will record parallel speech and tongue-ultrasound/articulography data with multiple Hungarian speakers, perform articulatory analysis on that, model the articulatory-acoustic mapping in various ways, and finally evaluate them in objective tests and subjective experiments with real users. To fulfill the above goals, a multidisciplinary team is formulated with expert senior researchers in speech synthesis, recognition, deep learning, and articulatory data acquisition.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.

Recently, deep neural networks have demonstrated accuracy better than or equivalent to human performance in several different recognition tasks. Despite this, in the field of Silent Speech Interfaces, only few solutions have investigated deep learning. Although the results of these previous studies are encouraging, further research is necessary for developing high-quality and real-time SSI systems. Together with the experts involved in this grant, we have conducted a preliminary feasibility study with promising results - we were able to generate a few intelligible speech sections from raw tongue-ultrasound data as input. However, to achieve fully intelligible and natural-like continuous speech generation, more complex experiments and fully developed studies are required. The current grant has the aim to solve the above challenges in the field of Silent Speech Interfaces with 1) 2D ultrasound, 2) lip video, and 3) electromagnetic articulography (EMA). The deep learning investigations will include a) feedforward fully connected neural networks, b) deep convolutional networks, c) AutoEncoder structures and the hyperparameter optimization of these networks. The combination of the above articulatory acquisition techniques and machine learning methods will ensure the reach of the expected results and the development of a final SSI prototype.

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.

Through the multi-modal (speech and articulography) analysis and synthesis outlined in the proposal, the project goes beyond state-of-the-art international trends. We will use complex deep learning methods to extend and improve Silent Speech Interface systems in a groundbreaking way.
The expected main result is that a fully deep learning based SSI can be feasible, which is currently under-represented in the scientific field. We expect to find the optimal solution for this with the combination of devices that can track the articulators (ultrasound, electromagnetic articulography and lip video) and various deep learning methods (fully connected neural networks, convolutional neural networks, etc.).
The main application areas of our results for the wider society include the contribution to more natural human-computer interactions (e.g. communication aid for the speaking impaired) and increase our scientific competitiveness in Central Europe. As there are 2-5 million speech impaired people in the EU (of which around eleven thousand are Hungarian), such communication aids can have a great significance in the long term.

The unique strength of the current project compared to international speech technology competitors is that we have strong knowledge in all aspects of 1) speech synthesis and recognition, 2) deep learning, and 3) articulatory acquisition. Other groups typically focus only on one or two of these fields. Thomas Hueber et al. (GIPSA-lab, France) uses tongue-ultrasound / EMA for speech generation, but they do not have experience in vocoding. João Freitas et al. (U. of Aveiro, Portugal) are strong in multimodal acquisition but less strong in deep learning. Jose Gonzalez et al. (U. Sheffield, UK) are world class in developing new articulatory acquisition techniques but are less experienced in speech synthesis. Schulz et al. (Karlsruhe Inst. of Techn., Germany) are strong in non-invasive articulography techniques, but do not have long track record in deep learning.
There are no known domestic competitors in this field.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others.

2-5 million speech impaired people live in the EU, of which around eleven thousand are Hungarian. Digital applications using speech technology could significantly help their everyday communication.
With this project our goals are to contribute to the above by designing novel automatic speech generation techniques. The movement of the tongue during speech will be recorded (with an ultrasound device and more complex solutions), and the interaction of tongue movement and speech will be analyzed. Besides, deep learning approaches will be used to analyze the relation between tongue movement and properties of the speech signal.
In this project we follow a multidisciplinary approach (i.e. it is connected to several fields of science) with a group of four expert researchers, touching fields of computer science (speech and image processing, deep learning) and humanities (articulatory phonetics). The key elements of the project include the theoretical methods to describe articulation of speech, and experimental applications in audiovisual speech processing. The latter will contain a prototype application for a Silent Speech Interface, having the main idea of recording the soundless articulatory movement, and automatically generating speech from the movement information, while the original subject is not producing any sound. Through the analysis and synthesis outlined in the proposal, the project fits into international trends and even goes beyond the state-of-the-art.





 

Zárójelentés

 
kutatási eredmények (magyarul)
Az artikuláció-akusztikum konverzió (némabeszéd-interfész, SSI) célja, hogy az artikulációt rögzítsük, majd abból automatikusan beszédet generáljunk, miközben az eredeti alany nem ad ki hangot. Ez rendkívül hasznos lehet beszédsérültek számára, valamint olyan esetekben, amikor a hangos beszéd nem kimondható, de információt szeretnénk továbbítani a beszélőtől. A projekt keretein belül 1) új módszereket javasoltunk a kombinált felismerés-szintézisre és közvetlen szintézisre az SSI területén, 2) több artikulációs rögzítési módszert elemeztünk és hasonlítottunk össze (nyelvultrahang, ajakvideó és artikulációs csatorna MRI), 3) hozzájárultunk az akusztikum-artikuláció inverzióhoz. Számos kísérletet végeztünk: ultrahangból beszéd, ultrahangból szöveg, ultrahangból F0, MRI-beszéd átalakítás; különböző mély tanulási architektúrákkal (előre csatolt, 2D és 3D konvolúciós, rekurrens neurális hálózatok, multi-taszk tanítás, autoenkóder, generatív versengő hálózat); és összehasonlítottuk a folytonos és a legmodernebb neurális vokódereket. Először beszélőfüggő neurális hálózatokat tanítottunk, majd később új megoldásokat javasoltunk a környezetfüggetlen és beszélőfüggetlen artikuláció-beszéd szintézisre, végső célként egy gyakorlati prototípus felé haladva. Összesen 27 konferenciacikket, 7 nemzetközi folyóiratcikket (összesített IF: 14.919) publikáltunk, és 60+ hivatkozást kaptunk. 9 BSc, 13 MSc és 6 PhD hallgató vett részt a kutatásokban.
kutatási eredmények (angolul)
Articulatory-to-acoustic conversion, often referred to as “Silent Speech Interfaces” (SSI), has the main idea of recording the articulatory movement, and automatically generating speech from the movement information, while the original subject is not producing any sound. Such an SSI system can be highly useful for the speaking impaired, and for scenarios where regular speech is not feasible but information should be transmitted from the speaker. Within this project, we 1) proposed novel methods for recognition-and-synthesis and direct synthesis in the field of SSI, 2) analyzed and compared several articulatory tracking methods (ultrasound tongue imaging, lip video, and vocal tract MRI), 3) contributed to acoustic-to-articulatory inversion. We conducted numerous experiments, including ultrasound-to-speech, ultrasound-to-text, ultrasound-to-F0, lip-to-speech, MRI-to-speech, employed various deep learning architectures (feedforward, 2D and 3D convolutional, recurrent neural networks, multi-task learning, autoencoders, generative adversarial networks), and compared continuous and most modern neural vocoders. We first trained speaker-dependent neural networks, and later we proposed solutions for cross-session and cross-speaker articulation-to-speech synthesis, proceeding towards a practical prototype. We published 27 conference papers, 7 international journal papers (sum IF: 14.919) and received 60+ citations. 9 BSc, 13 MSc, and 6 PhD students were involved.
a zárójelentés teljes szövege https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=124584
döntés eredménye
igen





 

Közleményjegyzék

 
Arthur Frigyes Viktor, Csapó Tamás Gábor: Deep learning alapú agyi jel feldolgozás és beszédszintézis előkészítő munkálatai, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XVIII. Magyar Számítógépes Nyelvészeti Konferencia, Szegedi Tudományegyetem, Informatikai Intézet (2022) pp. 185-198., 2022
Mandeel Ali Raheem, Al-Radhi Mohammed Salah, Csapó Tamás Gábor: Speaker Adaptation with Continuous Vocoder-Based DNN-TTS, In: Alexey, Karpov; Rodmonga, Potapova (szerk.) Speech and Computer, Springer Nature Switzerland AG (2021) pp. 407-416., 2021
Pengyu Dai, Mohammed Salah Al-Radhi, Tamás Gábor Csapó: Effects of F0 Estimation Algorithms on Ultrasound-based Silent Speech Interfaces, The 11th Conference on Speech Technology and Human-Computer Dialogue (SpeD 2021), pp. 47-51, 2021
Ali Raheem Mandeel, Mohammed Salah Al-Radhi, Tamás Gábor Csapó: Investigations on Speaker Adaptation using a Continuous Vocoder within Recurrent Neural Network based Text-to-Speech Synthesis, journal manuscript under review, 2021
Csapó Tamás Gábor: A nyelvmozgás ultrahangos vizsgálata és az automatikus elemzés alkalmazási lehetőségei a beszédtechnológiában, Nyelvészeti alkalmazások kötet - bírálat alatt, 2022
Arthur Frigyes Viktor, Csapó Tamás Gábor: Szájról olvasás automatizálása mély neurális hálózatok és mobilalkalmazás-kezelőfelületet alkalmazásával, BESZÉDTUDOMÁNY-SPEECH SCIENCE 2: (1) pp. 7-23., 2021
Arthur Frigyes Viktor, Csapó Tamás Gábor: Szájról olvasás automatizálása mély neurális hálózatok és mobilalkalmazás-kezelőfelület alkalmazásával, Beszédtudomány -- Speech Research; elfogadva, 2021
Amin Honarmandi Shandiz and László Tóth: Voice Activity Detection for Ultrasound-based Silent Speech Interfaces using Convolutional Neural Networks, TSD 2021: Text, Speech, and Dialogue pp 499-510, 2021
Yide Yu, Amin Honarmandi Shandiz, László Tóth: Reconstructing Speech from Real-Time Articulatory MRI Using Neural Vocoders, EUSIPCO 2021, 2021
Tamás Gábor Csapó, Gábor Gosztolya, László Tóth, Amin Honarmandi Shandiz, Alexandra Markó: Optimizing the Ultrasound Tongue Image Representation for Residual Network-based Articulatory-to-Acoustic Mapping, journal manuscript under review, 2021
Grósz Tamás, Tóth László, Gosztolya Gábor, Csapó Tamás Gábor, Markó Alexandra: Kísérletek az alapfrekvencia becslésére mély neuronhálós, ultrahang-alapú némabeszéd-interfészekben, In: Vincze Veronika (szerk.) (szerk.) XIV. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2018). Szeged: Szegedi Tudományegyetem Informatikai Tanszékcsoport, 2018. pp. 196-205., 2018
Al-Radhi Mohammed Salah, Csapó Tamás Gábor, Németh Géza: Noise and acoustic modeling with waveform generator in text-to-speech and neutral speech conversion, MULTIMEDIA TOOLS AND APPLICATIONS: AN INTERNATIONAL JOURNAL 80: pp. 1969-1994., 2021
Al-Radhi Mohammed Salah, Csapó Tamás Gábor, Zainkó Csaba, Németh Géza: Continuous Wavelet Vocoder-Based Decomposition of Parametric Speech Waveform Synthesis, In: Hynek, Heřmanský; Honza, Černocký (szerk.) Interspeech 2021, (2021) pp. 2212-2216., 2021
Arthur Frigyes Viktor, Csapó Tamás Gábor: Towards a Practical Lip-to-Speech Conversion System Using Deep Neural Networks and Mobile Application Frontend, In: Bouzidi, Driss; Sabir, Essaid; Azar, Ahmad Taher; Goundar, Sam; Bellatreche, Ladjel; Tonellato, Peter J.; Haqiq, Abdelkrim; Hassanien, Aboul Ella (szerk.) Proceedings of the International Conference on Artificial Intelligence and Computer Vision (AICV2021), Springer International Publishing (2021) pp. 441-450., 2021
Csapó Tamás Gábor: Extending Text-to-Speech Synthesis with Articulatory Movement Prediction using Ultrasound Tongue Imaging, In: 11th ISCA Speech Synthesis Workshop (SSW 11), (2021) pp. 7-12., 2021
Csapó Tamás Gábor, Tóth László, Gosztolya Gábor, Markó Alexandra: Speech Synthesis from Text and Ultrasound Tongue Image-based Articulatory Input, In: 11th ISCA Speech Synthesis Workshop (SSW 11), (2021) pp. 31-36., 2021
Csapó Tamás Gábor, Xu Kele, Deme Andrea, Gráczi Tekla Etelka, Markó Alexandra: Transducer Misalignment in Ultrasound Tongue Imaging, In: M., Tiede; D. H., Whalen; V., Gracco (szerk.) Proceedings of the 12th International Seminar on Speech Production, Haskins Press (2021) pp. 166-169., 2021
Mohammed Salah Al-Radhi, Tamás Gábor Csapó, Géza Németh: conTTS: Text-to-Speech Application using a Continuous Vocoder, In: M., Tiede; D. H., Whalen; V., Gracco (szerk.) Proceedings of the 12th International Seminar on Speech Production, Haskins Press (2021) pp. 170-173., 2021
Mohammed Salah Al-Radhi, Tamás Gábor Csapó, Géza Németh: Advances is Speech Vocoding for Text-to-Speech with Continuous Parameters, In: Amita, Dev; Arun, Sharma; S.S., Agrawal (szerk.) Artificial Intelligence and Speech Technology, CRC PRESS-TAYLOR & FRANCIS GROUP (2021) pp. 203-209., 2021
Mohammed Salah Al-Radhi, Tamás Gábor Csapó, Géza Németh: Effects of Sinusoidal Model on Non-Parallel Voice Conversion with Adversarial Learning, APPLIED SCIENCES-BASEL 11: (16) 7489, 2021
Shandiz Amin Honarmandi, Tóth László, Gosztolya Gábor, Markó Alexandra, Csapó Tamás Gábor: Improving Neural Silent Speech Interface Models by Adversarial Training, In: Bouzidi, Driss; Sabir, Essaid; Azar, Ahmad Taher; Goundar, Sam; Bellatreche, Ladjel; Tonellato, Peter J.; Haqiq, Abdelkrim; Hassanien, Aboul Ella (szerk.) Proceedings of the International Conference on Artificial Intelligence and Computer Vision (AICV2021), Springer International Publishing (2021) pp. 430-440., 2021
Shandiz Amin Honarmandi, Tóth László, Gosztolya Gábor, Markó Alexandra, Csapó Tamás Gábor: Neural Speaker Embeddings for Ultrasound-Based Silent Speech Interfaces, In: Interspeech 2021, (2021) pp. 1932-1936., 2021
Tóth László, Amin Honarmandi Shandiz, Gosztolya Gábor, Zainkó Csaba, Markó Alexandra, Csapó Tamás Gábor: 3D konvolúciós neuronhálón és neurális vokóderen alapuló némabeszéd-interfész, In: Berend, Gábor ✉; Gosztolya, Gábor ✉; Vincze, Veronika ✉ (szerk.) XVII. Magyar Számítógépes Nyelvészeti Konferencia, Szegedi Tudományegyetem, Informatikai Intézet (2021) pp. 123-137., 2021
Zainkó Csaba, Tóth László, Shandiz Amin Honarmandi, Gosztolya Gábor, Markó Alexandra, Németh Géza, Csapó Tamás Gábor: Adaptation of Tacotron2-based Text-To-Speech for Articulatory-to-Acoustic Mapping using Ultrasound Tongue Imaging, In: 11th ISCA Speech Synthesis Workshop (SSW 11), (2021) pp. 54-59., 2021
Csapó Tamás Gábor: Speaker Dependent Acoustic-to-Articulatory Inversion Using Real-Time MRI of the Vocal Tract, In: Helen, Meng; Bo, Xu; Thomas, Zheng (szerk.) Interspeech 2020, ISCA-INT SPEECH COMMUNICATION ASSOC (2020) pp. 3720-3724., 2020
Csapó Tamás Gábor: Speaker Dependent Articulatory-to-Acoustic Mapping Using Real-Time MRI of the Vocal Tract, In: Helen, Meng; Bo, Xu; Thomas, Zheng (szerk.) Interspeech 2020, International Speech Communication Association (ISCA) (2020) pp. 2722-2726., 2020
Csapó Tamás Gábor, Xu Kele: Quantification of Transducer Misalignment in Ultrasound Tongue Imaging, In: Helen, Meng; Bo, Xu; Thomas, Zheng (szerk.) Interspeech 2020, International Speech Communication Association (ISCA) (2020) pp. 3735-3739., 2020
Csapó Tamás Gábor, Zainkó Csaba, Tóth László, Gosztolya Gábor, Markó Alexandra: Ultrasound-Based Articulatory-to-Acoustic Mapping with WaveGlow Speech Synthesis, In: Helen, Meng; Bo, Xu; Thomas, Zheng (szerk.) Interspeech 2020, International Speech Communication Association (ISCA) (2020) pp. 2727-2731., 2020
Rácz Bianka, Csapó Tamás Gábor: Ajakvideó alapú beszédszintézis konvolúciós és rekurrens mély neurális hálózatokkal, BESZÉDTUDOMÁNY-SPEECH SCIENCE 1: pp. 56-71., 2020
L. Toth, Gy. Kovacs, D. Van Compernolle: A Perceptually Inspired Data Augmentation Method for Noise Robust CNN Acoustic Models, Proc. SPECOM 2018, pp. 697-706., 2018
Tamás Gábor Csapó, Dagoberto Porras Plata, Alexander Sepulveda-Sepulveda: Acoustic-to-articulatory inversion using ultrasound tongue imaging – comparison of Gaussian Mixture Models and Deep Neural Networks, Speech Research 2018 conference, 2018
Nadia Hajjej, Tamás Gábor Csapó: Realistic ultrasound tongue image synthesis using Generative Adversarial Networks, Speech Research 2018 conference, 2018
Eloi Moliner, Tamás Gábor Csapó: Ultrasound-based Silent Speech Interface using Convolutional and Recurrent Neural Networks, Speech Research 2018 conference, 2018
Gábor Gosztolya, Ádám Pintér, László Tóth, Tamás Grósz, Alexandra Markó, Tamás Gábor Csapó: Autoencoder-Based Articulatory-to-Acoustic Mapping for Ultrasound Silent Speech Interfaces, IJCNN 2019, (International Joint Conference on Neural Networks), Budapest, Hungary, 2019
Mohammed Salah Al-Radhi, Tamás Gábor Csapó, Géza Németh: RNN-based speech synthesis using a continuous sinusoidal model, IJCNN 2019, (International Joint Conference on Neural Networks), Budapest, Hungary, 2019
Dagoberto Porras, Alexander Sepúlveda-Sepúlveda, Tamás Gábor Csapó: DNN-based Acoustic-to-Articulatory Inversion using Ultrasound Tongue Imaging, IJCNN 2019, (International Joint Conference on Neural Networks), Budapest, Hungary, 2019
Tamás Gábor Csapó, Mohammed Salah Al-Radhi, Géza Németh, Gábor Gosztolya, Tamás Grósz, László Tóth, Alexandra Markó: Ultrasound-based Silent Speech Interface Built on a Continuous Vocoder, Proc. Interspeech 2019 - accepted, 2019
Nadia Hajjej, Tamás Gábor Csapó: Realistic Ultrasound Tongue Image Synthesis using Generative Adversarial Networks, submitted to Acta Acustica united with Acustica - Fast Track, 2019
Gábor Gosztolya, Tamás Grósz, László Tóth, Alexandra Markó, Tamás Gábor Csapó: Applying DNN Adaptation to Reduce the Session Dependency of Ultrasound Tongue Imaging-Based Silent Speech Interfaces, submitted to Acta Polytechnica Hungarica, 2019
Mohammed Salah Al-Radhi, Tamás Gábor Csapó, Géza Németh: Improving continuous F0 estimator with adaptive time-warping for high-quality speech synthesis, Speech Research 2018 conference, 2018
Tamás Gábor Csapó, Mohammed Salah Al-Radhi, Géza Németh, Gábor Gosztolya, Tamás Grósz, László Tóth, Alexandra Markó: Ultrasound-based Silent Speech Interface Built on a Continuous Vocoder, Proc. Interspeech 2019, pp. 894-898, 2019
Nadia Hajjej, Tamás Gábor Csapó: Realistic Ultrasound Tongue Image Synthesis using Generative Adversarial Networks, Beszédtudomány -- Speech Science, accepted, 2020
Gábor Gosztolya, Tamás Grósz, László Tóth, Alexandra Markó, Tamás Gábor Csapó: Applying DNN Adaptation to Reduce the Session Dependency of Ultrasound Tongue Imaging-Based Silent Speech Interfaces, Acta Polytechnica Hungarica, Vol. 17, No. 7, pp. 109-124, 2020
Al-Radhi Mohammed Salah, Abdo Omnia, Csapó Tamás Gábor, Abdou Sherif, Németh Géza, Fashal Mervat: A continuous vocoder for statistical parametric speech synthesis and its evaluation using an audio-visual phonetically annotated Arabic corpus, COMPUTER SPEECH AND LANGUAGE 60: 101025, 2020
AL-RADHI Mohammed Salah, CSAPÓ Tamás Gábor, NÉMETH Géza: Continuous Noise Masking Based Vocoder for Statistical Parametric Speech Synthesis, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E103.D: (5) pp. 1099-1107., 2020
Al-Radhi Mohammed Salah, Csapó Tamás Gábor, Németh Géza: Parallel Voice Conversion Based on a Continuous Sinusoidal Model, In: 2019 International Conference on Speech Technology and Human-Computer Dialogue (SpeD), IEEE (2019) 8906565, 2019
László Tóth and Amin Honarmandi Shandiz: 3D Convolutional Neural Networks for Ultrasound-Based Silent Speech Interfaces, ICAISC 2020, accepted, 2020
Tamás Gábor Csapó, Csaba Zainkó, László Tóth, Gábor Gosztolya, and Alexandra Markó: Ultrasound-based Articulatory-to-Acoustic Mapping with WaveGlow Speech Synthesis, Interspeech 2020, accepted, 2020
Rácz Bianka, Csapó Tamás Gábor: Ajakvideó alapú beszédszintézis konvolúciós és rekurrens mély neurális hálózatokkal, Beszédtudomány -- Speech Science, 2020, accepted., 2020
Tamás Gábor Csapó: Speaker dependent articulatory-to-acoustic mapping using real-time MRI of the vocal tract, Interspeech 2020, accepted, 2020
Tamás Gábor Csapó, Alexander Sepulveda: Ultrasound Tongue Image Generation for Acoustic-to-Articulatory Inversion using Convolutional and Recurrent Deep Neural Networks, journal manuscript, 2020
Tamás Gábor Csapó: Speaker dependent acoustic-to-articulatory inversion using real-time MRI of the vocal tract, Interspeech 2020, accepted, 2020
Al-Radhi Mohammed Salah, Csapó Tamás Gábor, Németh Géza: Continuous vocoder applied in deep neural network based voice conversion, MULTIMEDIA TOOLS AND APPLICATIONS: AN INTERNATIONAL JOURNAL 78: (23) pp. 33549-33572., 2019
Tamás Gábor Csapó, Alexander Sepulveda: Ultrasound Tongue Image Generation for Acoustic-to-Articulatory Inversion using Convolutional and Recurrent Deep Neural Networks, journal manuscript, 2021
Nadia Hajjej, Tamás Gábor Csapó: Realistic Ultrasound Tongue Image Synthesis using Generative Adversarial Networks, BESZÉDTUDOMÁNY-SPEECH SCIENCE 1: pp. 6-20., 2020
Al-Radhi Mohammed Salah, Csapó Tamás Gábor, Németh Géza: Adaptive Refinements of Pitch Tracking and HNR Estimation within a Vocoder for Statistical Parametric Speech Synthesis, APPLIED SCIENCES-BASEL 9: (12) p. 2460., 2019
Moliner Juanpere Eloi, Csapó Tamás Gábor: Ultrasound-based silent speech interface using convolutional and recurrent neural networks, ACTA ACUSTICA UNITED WITH ACUSTICA - Fast Track 105: pp. 587-590., 2019
Pintér Ádám, Gosztolya Gábor, Tóth László, Grósz Tamás, Csapó Tamás Gábor, Markó Alexandra: Autoenkóderen alapuló jellemzőreprezentáció mély neuronhálós, ultrahang-alapú némabeszéd-interfészekben, In: Berend, Gábor; Gosztolya, Gábor; Vincze, Veronika (szerk.) XV. Magyar Számítógépes Nyelvészeti Konferencia, Szegedi Tudományegyetem, Informatikai Intézet (2019) pp. 13-22., 2019
László Tóth, Gábor Gosztolya, Tamás Grósz, Alexandra Markó, Tamás Gábor Csapó: Multi-Task Learning of Speech Recognition and Speech Synthesis Parameters for Ultrasound-based Silent Speech Interfaces, In: B, Yegnanarayana; C, Chandra Sekhar; Shrikanth, Narayanan; S, Umesh; S R, M Prasanna; Hema, A Murthy; Preeti, Rao; Paavo, Alku; Prasanta, Kumar Ghosh (szerk.) Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2018, International Speech Communication Association (ISCA) (2018) pp. 3172-3176., 2018
Grósz Tamás, Tóth László, Gosztolya Gábor, Csapó Tamás Gábor, Markó Alexandra: Kísérletek az alapfrekvencia becslésére mély neuronhálós, ultrahang-alapú némabeszéd-interfészekben, In: Vincze Veronika (szerk.) (szerk.) XIV. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2018). Szeged: Szegedi Tudományegyetem Informatikai Tanszékcsoport, 2018. pp. 196-205., 2018
T. Grósz, G. Gosztolya, L. Tóth, T. G. Csapó, and A. Markó: F0 Estimation for DNN-Based Ultrasound Silent Speech Interfaces, ICASSP 2018, 2018
L. Tóth, G. Gosztolya, T. Grósz, A. Markó, and T. G. Csapó: Multi-Task Learning of Phonetic Labels and Speech Synthesis Parameters for Ultrasound-Based Silent Speech Interfaces, Interspeech 2018, 2018
E. Moliner and T. G. Csapó: Ultrasound-based Silent Speech Interface using Convolutional and Recurrent Neural Networks, Journal of the Acoustical Society of America - Express Letters, 2018
Csapó T. G., Gosztolya G., Grósz T., Tóth L., Markó A.: Némabeszéd-interfész nyelvultrahanggal (Beszédgenerálás artikulációs mozgás alapján), Beszédkutatás 2018 konferencia absztrakt, 2018





 

Projekt eseményei

 
2021-09-07 13:22:03
Résztvevők változása
2021-05-07 11:14:10
Résztvevők változása
2021-03-05 15:43:07
Résztvevők változása
2020-10-02 12:33:19
Résztvevők változása
2020-02-12 16:43:57
Résztvevők változása
2019-08-29 10:46:19
Résztvevők változása
2019-08-13 15:42:34
Résztvevők változása
2017-12-14 15:59:02
Résztvevők változása




vissza »