Research on the construction of continuons speech recognizer for a Hungarian middle sized vocabulary

Help

Back »

Details of project

Identifier

46487

Type

Principal investigator

Vicsi, Klára

Title in Hungarian

Magyar nyelvű kötött, közép szótáras, folyamatos beszédfelismerő rendszer megvalósítási megoldásainak kutatása

Title in English

Research on the construction of continuons speech recognizer for a Hungarian middle sized vocabulary

Panel

Informatics and Electrical Engineering

Department or equivalent

Department of Telecommunications and Media Informatics (Budapest University of Technology and Economics)

Participants

Gordos, Géza
Naszódi, Mátyás
Tatai, Péter

Starting date

2004-01-01

Closing date

2007-12-31

Funding (in million HUF)

8.291

FTE (full time equivalent)

0.00

state

closed project

Final report

Results in Hungarian

A 3 év alatt a tervnek megfelelően az alábbi feladatokat végeztük el: 1. Létrehoztunk egy általános, olvasott szövegű, magyar nyelvű beszédadatbázist, amely irodai környezetben használható beszédfelismerők akusztikai-fonetikai modelljeinek személyfüggetlen betanítására alkalmas. 2. Kifejlesztettünk egy középszótáras, statisztikai alapokra épülő folyamatos beszédfelismerő fejlesztői rendszert, amely lehetőséget ad különböző, kötött témájú, folyamatos beszédfelismerési feladat végrehajtására. 3. Kísérleteket végeztünk a beszédfelismerő fejlesztői rendszerrel az akusztikai-fonetikai modellek optimalizálására, továbbá a nyelvi modellépítés valamint az akusztikai, nyelvi adaptáció területén. Új megoldásokat vezettünk be az akusztikai-fonetikai modellépítésben, és bevezettük a bigram morphéma modelleket amelyeket összehasonlítottunk a hagyományos szóalak bigram modellekkel. 4. Létrehoztunk egy kórházi leletezésre alkalmas folyamatos, személyfüggetlen, 1000-20000 szavas beszédfelismerő rendszert, konkrétan a gasztroszkópia és a hasi ultrahang vizsgálat területén. 5. A létrehozott renszert valós körülmények között teszteltük, a SOTE 2. számú Belklinikáján. Az orvosok tapasztalatait mind a két tématerületen a részletes leírásban adjuk meg.

Results in English

1. A Hungarian read speech database was constructed in office circumstances. This database gives possibility for training and testing acoustic-phonetic models of speaker independent continuous speech recognizers. 2. A development tool for constructing continuous speech recognizers has been created under Windows XP. The tool is able to construct middle-sized continuous speech recognizer with a vocabulary of 1000-20000 words. New solutions have been developed for the acoustical preprocessing, for the statistical model building of phonemes and in syntactic level. 3. Research was done with the speech recognition development tool, for the optimalization of the acoustic phonetic models and for the linguistic models too. Hungarian is a strongly agglutinative language, in which the number of the word forms is very high. This is the reason, why two forms of bigram language model were constructed: One is the traditional word-form based, and the other is the morpheme-based model in which the vocabulary is much smaller. 4. We have developed a continuous speech recognizer for preparing medical reports, actually gastroscopy and abdominal ultrasonography records. 5. The speech recognizer was tested at the Medical Semmelweis University of Budapest. Opinion of doctors at the Endoscopy and Radiology Laboratories are attached to the detailed description of the project.

Full text

http://real.mtak.hu/1452/

Decision

Yes

List of publications

Vicsi Klára, Kocsor András, Teleki Csaba, Tóth László: Beszédadatbázis irodai számítógépfelhasználói környezetben, II Magyar Számítógépes Nyelvészeti Konferencia 315. o., 2004

Vicsi Klára , Szaszák György, Borostyán Gábor: Folyamatos beszéd szó- és frázisszintű automatikus szegmentálása szupraszegmentális jegyek alapján, II Magyar Számítógépes Nyelvészeti Konferencia, 319. o., 2004

Zgank A., Kacic Z., Diehl F., Vicsi K., Szaszak Gy., Juhar J.: The COST 278 MASPER iniative-crosslingual speach recognition with large telephone database, Proceedings of the LREC 2004 Lisbon, Portugal, 2004

Vicsi, K., Szaszák Gy.: Folyamatos beszéd szószintű automatikus szegmentálása szupraszegmentális jegyek alapján, MSZNY 2005, pp. 360., 2005

Vicsi, K., Kocsor, A., Tóth, L. Sz., Velkei, Sz., Szaszak, G., Teleki, Cs., Bánhalmi, A., Paczolay, D.: A magyar referencia adatbázis és alkalmazása orvosi diktáló rendszerek kifejlesztéséhez, MSZNY 2005, pp. 435., 2005

Velkei, Sz., Vicsi, K.,: Beszédfelismerő modellépítési kísérletek akusztikai fonetikai szinten, kórházi leletező beszédfelismerő kifejlesztése céljából, MSZNY 2004, 307. o., 2004

Zgank, A., Kacic, Z., Vicsi, K., Szaszak, G., Diehl, F., Juhar, J., Lihan, S.: Crosslingual transfer of source acoustic models to two different target languages., Robustness Issues in Conversational Interaction, Workshop, Norwich 2004, 2004

Vicsi, K., Szaszak, G.: Automatic segmentation of continuous speech on word and phrase level based on supra-segmental features, Forum Acousticum 2005, Budapest pp. 2669-2673, 2005

J. Zibert, F. Mihelic, J.P. Martens, H. Meinedo, J. Neto, L. Docio, C. Garcia-Mateo, P. David, J. Nouza, M. Pleva, A. Cizmar, A., Zgank, Z. Kacic, Cs. Teleki, K. Vicsi: The COST 278 Broadcaast News Segmentation and Speaker Clustering Evaluation, Overview, Methodology, Systems, Results, Interspeech, Liszabon, 2005

Cs. Teleki, Sz., Velkei, Sz.L., Tóth, K. Vicsi: Developement and evalution of a Hungarian Broadcast News Database, Forum Acousticum 2005, Budapest, pp. 2659-2662, 2005

Vicsi, K., Velkei, Sz., Szaszák, Gy., Borostyán, G.: Folyamatos, középszótáras, beszédfelismerő rendszer, Híradástechnika 2006/3. 2006 pp. 14-20, 2006

Vicsi K., Velkei Sz., Szaszák Gy., Borostyán, G.: Speech recognizer for preparing medical reports, Híradástechnika, 2006/7 2006 pp. 22-27., 2006

Teleki, Cs., Vicsi, K.:: Többnyelvű európai híranyag -adatbázis gyűjtése és. feldolgozási módszereinek kutatása multimédiás műsorok automatikus feldolgozásához., Híradástechnika,2006/8 2006 pp. 3-10., 2006

Vicsi, K., Szaszák, Gy.: Automatic Segmentation for Continuous Speech on Word Level Based on Supra-segmental Features, International Journal of Speech Technology, Volume 8, Number 4/ December 2005 363-370, 2005

Vicsi, K., Szaszák, Gy.: Prosodic Cues for Automatic Phrase Boundary Detection in ASR, proceeding of TSD 2006, Brno, pp. 547.-554., 2006

Szaszák Gy., Németh Zs.: Word Boundary Deteciton Based on Phoneme Sequence Constraints, Proc. of CsCs Conference, 2006. Szeged, 2006

Vicsi, K., Velkei Sz., Szaszák Gy., Borostyán G., Teleki Cs., Tóth Sz. L., Gorodos G.: Középszótáras folymatos beszédfelismerőrendszer fejlesztési tapasztalatai, MSZNY 2005, pp. 348, 2005

Back »