Research on the construction of continuons speech recognizer for a Hungarian middle sized vocabulary  Page description

Help  Print 
Back »

 

Details of project

 
Identifier
46487
Type K
Principal investigator Vicsi, Klára
Title in Hungarian Magyar nyelvű kötött, közép szótáras, folyamatos beszédfelismerő rendszer megvalósítási megoldásainak kutatása
Title in English Research on the construction of continuons speech recognizer for a Hungarian middle sized vocabulary
Panel Informatics and Electrical Engineering
Department or equivalent Department of Telecommunications and Media Informatics (Budapest University of Technology and Economics)
Participants Gordos, Géza
Naszódi, Mátyás
Tatai, Péter
Starting date 2004-01-01
Closing date 2007-12-31
Funding (in million HUF) 8.291
FTE (full time equivalent) 0.00
state closed project

 

Final report

 
Results in Hungarian
A 3 év alatt a tervnek megfelelően az alábbi feladatokat végeztük el: 1. Létrehoztunk egy általános, olvasott szövegű, magyar nyelvű beszédadatbázist, amely irodai környezetben használható beszédfelismerők akusztikai-fonetikai modelljeinek személyfüggetlen betanítására alkalmas. 2. Kifejlesztettünk egy középszótáras, statisztikai alapokra épülő folyamatos beszédfelismerő fejlesztői rendszert, amely lehetőséget ad különböző, kötött témájú, folyamatos beszédfelismerési feladat végrehajtására. 3. Kísérleteket végeztünk a beszédfelismerő fejlesztői rendszerrel az akusztikai-fonetikai modellek optimalizálására, továbbá a nyelvi modellépítés valamint az akusztikai, nyelvi adaptáció területén. Új megoldásokat vezettünk be az akusztikai-fonetikai modellépítésben, és bevezettük a bigram morphéma modelleket amelyeket összehasonlítottunk a hagyományos szóalak bigram modellekkel. 4. Létrehoztunk egy kórházi leletezésre alkalmas folyamatos, személyfüggetlen, 1000-20000 szavas beszédfelismerő rendszert, konkrétan a gasztroszkópia és a hasi ultrahang vizsgálat területén. 5. A létrehozott renszert valós körülmények között teszteltük, a SOTE 2. számú Belklinikáján. Az orvosok tapasztalatait mind a két tématerületen a részletes leírásban adjuk meg.
Results in English
1. A Hungarian read speech database was constructed in office circumstances. This database gives possibility for training and testing acoustic-phonetic models of speaker independent continuous speech recognizers. 2. A development tool for constructing continuous speech recognizers has been created under Windows XP. The tool is able to construct middle-sized continuous speech recognizer with a vocabulary of 1000-20000 words. New solutions have been developed for the acoustical preprocessing, for the statistical model building of phonemes and in syntactic level. 3. Research was done with the speech recognition development tool, for the optimalization of the acoustic phonetic models and for the linguistic models too. Hungarian is a strongly agglutinative language, in which the number of the word forms is very high. This is the reason, why two forms of bigram language model were constructed: One is the traditional word-form based, and the other is the morpheme-based model in which the vocabulary is much smaller. 4. We have developed a continuous speech recognizer for preparing medical reports, actually gastroscopy and abdominal ultrasonography records. 5. The speech recognizer was tested at the Medical Semmelweis University of Budapest. Opinion of doctors at the Endoscopy and Radiology Laboratories are attached to the detailed description of the project.
Full text http://real.mtak.hu/1452/
Decision
Yes

 

List of publications

 
Vicsi Klára, Kocsor András, Teleki Csaba, Tóth László: Beszédadatbázis irodai számítógépfelhasználói környezetben, II Magyar Számítógépes Nyelvészeti Konferencia 315. o., 2004
Vicsi Klára , Szaszák György, Borostyán Gábor: Folyamatos beszéd szó- és frázisszintű automatikus szegmentálása szupraszegmentális jegyek alapján, II Magyar Számítógépes Nyelvészeti Konferencia, 319. o., 2004
Zgank A., Kacic Z., Diehl F., Vicsi K., Szaszak Gy., Juhar J.: The COST 278 MASPER iniative-crosslingual speach recognition with large telephone database, Proceedings of the LREC 2004 Lisbon, Portugal, 2004
Vicsi, K., Szaszák Gy.: Folyamatos beszéd szószintű automatikus szegmentálása szupraszegmentális jegyek alapján, MSZNY 2005, pp. 360., 2005
Vicsi, K., Kocsor, A., Tóth, L. Sz., Velkei, Sz., Szaszak, G., Teleki, Cs., Bánhalmi, A., Paczolay, D.: A magyar referencia adatbázis és alkalmazása orvosi diktáló rendszerek kifejlesztéséhez, MSZNY 2005, pp. 435., 2005
Velkei, Sz., Vicsi, K.,: Beszédfelismerő modellépítési kísérletek akusztikai fonetikai szinten, kórházi leletező beszédfelismerő kifejlesztése céljából, MSZNY 2004, 307. o., 2004
Zgank, A., Kacic, Z., Vicsi, K., Szaszak, G., Diehl, F., Juhar, J., Lihan, S.: Crosslingual transfer of source acoustic models to two different target languages., Robustness Issues in Conversational Interaction, Workshop, Norwich 2004, 2004
Vicsi, K., Szaszak, G.: Automatic segmentation of continuous speech on word and phrase level based on supra-segmental features, Forum Acousticum 2005, Budapest pp. 2669-2673, 2005
J. Zibert, F. Mihelic, J.P. Martens, H. Meinedo, J. Neto, L. Docio, C. Garcia-Mateo, P. David, J. Nouza, M. Pleva, A. Cizmar, A., Zgank, Z. Kacic, Cs. Teleki, K. Vicsi: The COST 278 Broadcaast News Segmentation and Speaker Clustering Evaluation, Overview, Methodology, Systems, Results, Interspeech, Liszabon, 2005
Cs. Teleki, Sz., Velkei, Sz.L., Tóth, K. Vicsi: Developement and evalution of a Hungarian Broadcast News Database, Forum Acousticum 2005, Budapest, pp. 2659-2662, 2005
Vicsi, K., Velkei, Sz., Szaszák, Gy., Borostyán, G.: Folyamatos, középszótáras, beszédfelismerő rendszer, Híradástechnika 2006/3. 2006 pp. 14-20, 2006
Vicsi K., Velkei Sz., Szaszák Gy., Borostyán, G.: Speech recognizer for preparing medical reports, Híradástechnika, 2006/7 2006 pp. 22-27., 2006
Teleki, Cs., Vicsi, K.:: Többnyelvű európai híranyag -adatbázis gyűjtése és. feldolgozási módszereinek kutatása multimédiás műsorok automatikus feldolgozásához., Híradástechnika,2006/8 2006 pp. 3-10., 2006
Vicsi, K., Szaszák, Gy.: Automatic Segmentation for Continuous Speech on Word Level Based on Supra-segmental Features, International Journal of Speech Technology, Volume 8, Number 4/ December 2005 363-370, 2005
Vicsi, K., Szaszák, Gy.: Prosodic Cues for Automatic Phrase Boundary Detection in ASR, proceeding of TSD 2006, Brno, pp. 547.-554., 2006
Szaszák Gy., Németh Zs.: Word Boundary Deteciton Based on Phoneme Sequence Constraints, Proc. of CsCs Conference, 2006. Szeged, 2006
Vicsi, K., Velkei Sz., Szaszák Gy., Borostyán G., Teleki Cs., Tóth Sz. L., Gorodos G.: Középszótáras folymatos beszédfelismerőrendszer fejlesztési tapasztalatai, MSZNY 2005, pp. 348, 2005
Back »