Type FK
Principal investigator Csapó, Tamás Gábor
Title in Hungarian Artikulációs mozgás alapú beszédgenerálás
Title in English Silent Speech Interface based on articulatory movements
Keywords in Hungarian beszédtechnológia, deep learning, multimodális artikuláció, ultrahang, neurális hálózatok
Keywords in English speech technology, deep learning, multimodal articulation, ultrasound, neural networks
Information Technology (Council of Physical Sciences)45 %
Ortelius classification: Applied informatics
Telecommunication (Council of Physical Sciences)30 %
Ortelius classification: Telecommunications engineering
Linguistics (Council of Humanities and Social Sciences)25 %
Ortelius classification: Phonetics
Panel Informatics and Electrical Engineering
Department or equivalent Department of Telecommunications and Media Informatics (Budapest University of Technology and Economics)
Participants Al-Radhi, Mohammed
Arthur, Frigyes Viktor
Bartalis, István Mátyás
Gosztolya, Gábor
Gosztolya-Gabrics, Noémi
Grósz, Tamás
Honarmandi Shandiz, Amin
José Vicente, Egas López
Makrai, Márton
Markó, Alexandra
Németh, Géza
Tóth, László
Zainkó, Csaba
Starting date 2017-09-01
Closing date 2022-02-28
Funding (in million HUF) 30.088
FTE (full time equivalent) 8.99
state closed project
Summary in Hungarian
A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.

A “Silent Speech Interface” (SSI) rendszerek a beszédtechnológia egyik forradalmi irányát képviselik, melynek során a hangtalan artikulációs mozgást valamilyen eszközzel felvesszük, majd ebből automatikusan beszédet generálunk, miközben az eredeti beszélő nem ad ki hangot. Ez a kutatási téma számos területen nagy jelentőséggel bír, ilyen többek között a beszédsérülteket segítő kommunikációs eszközök és a katonai alkalmazások. A tervezett projektben új módszereket javaslunk a beszéd közbeni artikuláció (elsősorban nyelv és ajkak) elemzésére és feldolgozására. A fő céljaink a következők: 1. az artikulációalapú fonémafelismerés teljesítményének alapos elemzése többféle artikulációt felvevő technológia kombinációjával; 2. a beszédkódolásban a spektrális szűrés javítása artikulációs adatok alapján; 3. a “felismerés-majd-szintézis” és a “direkt szintézis” módszerek tesztelése és javítása SSI témakörben. A fentiek során a beszélőszervek mozgásának leképezésére 2D ultrahangot, ajakvideót és elektromágneses artikulográfot (EMA) alkalmazunk. A kísérletek során nagy jelentőséggel bíró korszerű gépi tanulási módszereket használunk (különböző deep learning architektúrák). A fenti célok eléréséhez több magyar beszélőtől párhuzamos beszéd- és nyelvultrahang/artikulográf-adatot veszünk fel, elemezzük az artikulációs mozgást, különböző módokon modellezzük az artikuláció-akusztikum becslést, és végül objektív tesztekben és szubjektív kísérletekben valós felhasználókkal kiértékeljük a módszereket. A kutatáshoz multidiszciplináris csapatra van szükség, mely a pályázatunkban a beszédszintézis, a beszédfelismerés, a mély tanulás és az artikulációs technikák szakértőiből áll össze.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.

A mély neurális hálózatok napjainkban az emberit megközelítő vagy akár még jobb teljesítményt értek el számos felismerési feladatban. Ennek ellenére a Silent Speech Interface témakörben csak nagyon kevés kutatás alkalmazott deep learning eszközöket. Bár ezen tanulmányok eredményei bátorítóak, további kutatás szükséges a jó minőségű és valós idejű SSI rendszerek kifejlesztéséhez. A jelen pályázatban részt vevő szakértőkkel végzett előzetes megvalósíthatósági tanulmányunk eredménye biztató: sikerült néhány érthető beszédszakaszt generálnunk nyers nyelvultrahang-adatot bemenetként felhasználva. Ahhoz azonban, hogy teljesen érthető és közel természetes folyamatos beszédet generáljunk, bonyolultabb kísérletek és még jobban kidolgozott eljárások szükségesek. A jelen pályázat a fenti, Silent Speech Interface területen felmerült kihívásokat kívánja megoldani 1. 2D ultrahang, 2. ajakvideó és 3. elektromágneses artikulográf (EMA) segítségével. A deep learning vizsgálatok többek között a) előrecsatolt teljesen kapcsolt neurális hálókat, b) mély konvolúciós hálózatokat, és c) AutoEncoder struktúrákat fognak tartalmazni, illetve a hálózatok hiperparamétereinek optimalizálását is elvégezzük. A fenti artikulációkövető technikák és gépi tanulási módszerek kombinációja biztosítja, hogy a várható célokat elérjük, és használható SSI prototípusrendszert tudjunk készíteni.

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!

A kutatásban alkalmazott multimodális (beszéd- és artikulációs) analízis és szintézis túlmutat a legkorszerűbb nemzetközi trendeken is. Úttörő módon komplex deep learning módszereket fogunk használni a Silent Speech Interface rendszerek kiegészítésére és javítására.
A várható fő eredmény az, hogy egy teljes egészében mélytanulás-alapú SSI rendszer kivitelezhető, ami jelenleg alulreprezentált a tudományos környezetben. Azt várjuk, hogy ehhez az optimális megoldást az artikulációt követő eszközök (ultrahang, elektromágneses artikulográf és ajakvideó), valamint különböző deep learning módszerek (teljesen csatolt hálózat, konvolúciós neurális hálózat stb.) kombinálásával tudjuk elérni. A kutatás eredményei a szélesebb közösség számára főleg a természetesebb ember-gép interakció területén (pl. kommunikációs segéd beszédsérültek számára) jelentkezhetnek, valamint a projekt növelni tudja hazánk tudományos versenyképességét Közép-Európa régiójában. Mivel az EU-ban kb. 2-5 millió beszédsérült ember él (akik közül kb. tizenegyezer magyar), az ilyen kommunikációs eszközök hosszú távon nagy jelentőséggel bírnak.
A jelen projekt egyedi erőssége a nemzetközi beszédtechnológiai versenytársakhoz képest az, hogy csapatunk komoly tudással rendelkezik a 1. beszédszintézis és -felismerés, 2. deep learning, 3. artikulációs felvevő technikák területein is. A többi kutatócsoport tipikusan ezeknek csak egy részére fókuszál. Thomas Hueber és társai (GIPSA-lab, Franciao.) nyelv-ultrahangot és EMA-t alkalmaznak a beszéd generálásához, de nincs tapasztalatuk a beszédkódolásban. João Freitas és társai (U. of Aveiro, Portugália) erősek a multimodális adatgyűjtésben, de kevésbé erősek a mély tanulásban. Jose Gonzalez és társai (U. Sheffield, Egyesült Királyság) világszínvonalú kutatást végeznek új artikulácós felvevő technikák kidolgozásában, de kevésbé tapasztaltak beszédszintézisben. Schulz és társai (Karlsruhe Inst. of Techn., Németo.) erősek a nem invazív artikulációs technikák használatában, de nincs nagy tapasztalatuk a deep learning területén.
A témában hazai versenytársakról nem tudunk.

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára.

Az EU-ban kb. 2-5 millió beszédsérült ember él, akik közül kb. tizenegyezer magyar. A beszédtechnológiát használó digitális alkalmazások jelentősen segíthetik az ő mindennapi kommunikációjukat.
A projekt során az a célunk, hogy a fentiekhez új automatikus beszédgeneráló eljárások kidolgozásával járuljunk hozzá. A nyelv mozgását felvesszük beszéd közben (ultrahanggal és bonyolultabb megoldásokkal), és a nyelvmozgás, valamint a beszéd interakcióját fogjuk vizsgálni. Emellett mély tanuló eljárásokat (deep learning) alkalmazunk a nyelvultrahang és a beszédjel tulajdonságainak és kapcsolatának vizsgálatára.
A projekt multidiszciplináris jellegű (azaz több tudományterülethez kapcsolódik), melyet négy szakértő kutató fog együttműködésben kivitelezni. A téma érinti az informatika (beszéd- és képfeldolgozás, deep learning) és a bölcsészet (artikulációs fonetika) tudományterületeit. A kutatás kulcselemei közé tartoznak a beszéd artikulációs vizsgálatához kapcsolódó elméleti módszerek, és ennek alkalmazása az audiovizuális beszédfeldolgozásban. Az utóbbi egy olyan prototípusrendszert jelent, melynek segítségével a hangtalan artikulációs mozgást egy speciális eszközzel felvesszük, majd ebből automatikusan beszédet generálunk, miközben az eredeti beszélő nem ad ki hangot.
A pályázatban bemutatott analízis- és szintéziseredményekkel a projekt illeszkedik a legkorszerűbb nemzetközi trendekhez, és túl is mutat azokon.
Summary of the research and its aims for experts
Describe the major aims of the research for experts.

Silent Speech Interfaces (SSI) are a revolutional field of speech technologies, having the main idea of recording the soundless articulatory movement, and automatically generating speech from the movement information, while the original subject is not producing any sound. This research area has a large potential impact in a number of domains, including communication aid for the impaired people and military applications. During the proposed project, novel methods will be proposed for analyzing and processing the articulation (especially the tongue and the lips) during human speech production. Our goals are to 1) thoroughly analyze the articulatory phone recognition performance using the optimal combination of different articulatory tracking methods 2) enhance spectral filtering of vocoding using articulatory data 3) test and improve recognition-followed-by-synthesis and direct synthesis in the field of silent speech interfaces. For these, 2D ultrasound, lip video and electromagnetic articulography will be used to image the motion of the speaking organs. For the experiments, we will use high-potential machine learning methods (various deep neural network architectures). In order to achieve the above goals, we will record parallel speech and tongue-ultrasound/articulography data with multiple Hungarian speakers, perform articulatory analysis on that, model the articulatory-acoustic mapping in various ways, and finally evaluate them in objective tests and subjective experiments with real users. To fulfill the above goals, a multidisciplinary team is formulated with expert senior researchers in speech synthesis, recognition, deep learning, and articulatory data acquisition.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.

Recently, deep neural networks have demonstrated accuracy better than or equivalent to human performance in several different recognition tasks. Despite this, in the field of Silent Speech Interfaces, only few solutions have investigated deep learning. Although the results of these previous studies are encouraging, further research is necessary for developing high-quality and real-time SSI systems. Together with the experts involved in this grant, we have conducted a preliminary feasibility study with promising results - we were able to generate a few intelligible speech sections from raw tongue-ultrasound data as input. However, to achieve fully intelligible and natural-like continuous speech generation, more complex experiments and fully developed studies are required. The current grant has the aim to solve the above challenges in the field of Silent Speech Interfaces with 1) 2D ultrasound, 2) lip video, and 3) electromagnetic articulography (EMA). The deep learning investigations will include a) feedforward fully connected neural networks, b) deep convolutional networks, c) AutoEncoder structures and the hyperparameter optimization of these networks. The combination of the above articulatory acquisition techniques and machine learning methods will ensure the reach of the expected results and the development of a final SSI prototype.

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.

Through the multi-modal (speech and articulography) analysis and synthesis outlined in the proposal, the project goes beyond state-of-the-art international trends. We will use complex deep learning methods to extend and improve Silent Speech Interface systems in a groundbreaking way.
The expected main result is that a fully deep learning based SSI can be feasible, which is currently under-represented in the scientific field. We expect to find the optimal solution for this with the combination of devices that can track the articulators (ultrasound, electromagnetic articulography and lip video) and various deep learning methods (fully connected neural networks, convolutional neural networks, etc.).
The main application areas of our results for the wider society include the contribution to more natural human-computer interactions (e.g. communication aid for the speaking impaired) and increase our scientific competitiveness in Central Europe. As there are 2-5 million speech impaired people in the EU (of which around eleven thousand are Hungarian), such communication aids can have a great significance in the long term.

The unique strength of the current project compared to international speech technology competitors is that we have strong knowledge in all aspects of 1) speech synthesis and recognition, 2) deep learning, and 3) articulatory acquisition. Other groups typically focus only on one or two of these fields. Thomas Hueber et al. (GIPSA-lab, France) uses tongue-ultrasound / EMA for speech generation, but they do not have experience in vocoding. João Freitas et al. (U. of Aveiro, Portugal) are strong in multimodal acquisition but less strong in deep learning. Jose Gonzalez et al. (U. Sheffield, UK) are world class in developing new articulatory acquisition techniques but are less experienced in speech synthesis. Schulz et al. (Karlsruhe Inst. of Techn., Germany) are strong in non-invasive articulography techniques, but do not have long track record in deep learning.
There are no known domestic competitors in this field.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others.

2-5 million speech impaired people live in the EU, of which around eleven thousand are Hungarian. Digital applications using speech technology could significantly help their everyday communication.
With this project our goals are to contribute to the above by designing novel automatic speech generation techniques. The movement of the tongue during speech will be recorded (with an ultrasound device and more complex solutions), and the interaction of tongue movement and speech will be analyzed. Besides, deep learning approaches will be used to analyze the relation between tongue movement and properties of the speech signal.
In this project we follow a multidisciplinary approach (i.e. it is connected to several fields of science) with a group of four expert researchers, touching fields of computer science (speech and image processing, deep learning) and humanities (articulatory phonetics). The key elements of the project include the theoretical methods to describe articulation of speech, and experimental applications in audiovisual speech processing. The latter will contain a prototype application for a Silent Speech Interface, having the main idea of recording the soundless articulatory movement, and automatically generating speech from the movement information, while the original subject is not producing any sound. Through the analysis and synthesis outlined in the proposal, the project fits into international trends and even goes beyond the state-of-the-art.


Final report

Results in Hungarian
Az artikuláció-akusztikum konverzió (némabeszéd-interfész, SSI) célja, hogy az artikulációt rögzítsük, majd abból automatikusan beszédet generáljunk, miközben az eredeti alany nem ad ki hangot. Ez rendkívül hasznos lehet beszédsérültek számára, valamint olyan esetekben, amikor a hangos beszéd nem kimondható, de információt szeretnénk továbbítani a beszélőtől. A projekt keretein belül 1) új módszereket javasoltunk a kombinált felismerés-szintézisre és közvetlen szintézisre az SSI területén, 2) több artikulációs rögzítési módszert elemeztünk és hasonlítottunk össze (nyelvultrahang, ajakvideó és artikulációs csatorna MRI), 3) hozzájárultunk az akusztikum-artikuláció inverzióhoz. Számos kísérletet végeztünk: ultrahangból beszéd, ultrahangból szöveg, ultrahangból F0, MRI-beszéd átalakítás; különböző mély tanulási architektúrákkal (előre csatolt, 2D és 3D konvolúciós, rekurrens neurális hálózatok, multi-taszk tanítás, autoenkóder, generatív versengő hálózat); és összehasonlítottuk a folytonos és a legmodernebb neurális vokódereket. Először beszélőfüggő neurális hálózatokat tanítottunk, majd később új megoldásokat javasoltunk a környezetfüggetlen és beszélőfüggetlen artikuláció-beszéd szintézisre, végső célként egy gyakorlati prototípus felé haladva. Összesen 27 konferenciacikket, 7 nemzetközi folyóiratcikket (összesített IF: 14.919) publikáltunk, és 60+ hivatkozást kaptunk. 9 BSc, 13 MSc és 6 PhD hallgató vett részt a kutatásokban.
Results in English
Articulatory-to-acoustic conversion, often referred to as “Silent Speech Interfaces” (SSI), has the main idea of recording the articulatory movement, and automatically generating speech from the movement information, while the original subject is not producing any sound. Such an SSI system can be highly useful for the speaking impaired, and for scenarios where regular speech is not feasible but information should be transmitted from the speaker. Within this project, we 1) proposed novel methods for recognition-and-synthesis and direct synthesis in the field of SSI, 2) analyzed and compared several articulatory tracking methods (ultrasound tongue imaging, lip video, and vocal tract MRI), 3) contributed to acoustic-to-articulatory inversion. We conducted numerous experiments, including ultrasound-to-speech, ultrasound-to-text, ultrasound-to-F0, lip-to-speech, MRI-to-speech, employed various deep learning architectures (feedforward, 2D and 3D convolutional, recurrent neural networks, multi-task learning, autoencoders, generative adversarial networks), and compared continuous and most modern neural vocoders. We first trained speaker-dependent neural networks, and later we proposed solutions for cross-session and cross-speaker articulation-to-speech synthesis, proceeding towards a practical prototype. We published 27 conference papers, 7 international journal papers (sum IF: 14.919) and received 60+ citations. 9 BSc, 13 MSc, and 6 PhD students were involved.
Full text


