Automatikus fonológiai frázis és prozódiai eseménydetektálás szintaktikai, szemantikai és pragmatikai információk közvetlen kinyerésére a beszédből
Projekt adatai
azonosító
112598 |
típus
PD |
Vezető kutató
Szaszák György |
magyar cím
Automatikus fonológiai frázis és prozódiai eseménydetektálás szintaktikai, szemantikai és pragmatikai információk közvetlen kinyerésére a beszédből |
Angol cím
Automatic phonologial phrase and prosodic event detection for the extraction of syntactic and semantic/pragmatic information from speech |
magyar kulcsszavak
prozódia, automatikus beszédértés, automatikus eseménydetektálás |
angol kulcsszavak
prosody, automatic speech understanding, automatic event detection, information retrieval |
megadott besorolás
Informatika (Műszaki és Természettudományok Kollégiuma) | 80 % | Ortelius tudományág: Alkalmazott informatika | Nyelvtudomány (Bölcsészet- és Társadalomtudományok Kollégiuma) | 20 % | Ortelius tudományág: Számítógépes nyelvészet |
zsűri
Informatikai–Villamosmérnöki |
Kutatóhely
Távközlési és Mesterséges Intelligencia Tanszék (Budapesti Műszaki és Gazdaságtudományi Egyetem) |
projekt kezdete
2014-09-01 |
projekt vége
2017-11-30 |
aktuális összeg (MFt)
8.976 |
FTE (kutatóév egyenérték)
2.45 |
állapot
lezárult projekt |
magyar összefoglaló A kutatás összefoglalója, célkitűzései szakemberek számára Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára. A tervezett kutatás az automatikus beszédfeldolgozás, beszédből történő információkinyerés és tartalomelemzés, a prozódiai eseménydetektálás lehetőségeinek megismerésének előmozdítását célozza. A magyar nyelvre korábban végzett kísérletek bíztató előzetes eredményeket szolgáltattak fonológiai frázisok detektálásában, és ehhez kapcsolt szintaktikai elemzésben. Ebben a kutatásban ennek a munkának a továbbvitele, más akusztikai jellemzőkre és más nyelvekre való kiterjesztése kerül a fókuszba a detektálási teljesítmény javítása, és a detektálási eljárás univerzálisabbá tétele érdekében. Ez utóbbi célból fakadóan a magyar nyelvre kidolgozott eljárást francia,angol és német nyelvekre is adaptáljuk, miközben minden nyelvre vizsgáljuk a detektáláshoz optimális akusztikai jellemzőket. Minthogy a fonológiai frázisok a szintaktikai egységekkel szoros kapcsolatban állnak, a kutatás a szintaktikai szerkezet beszéd alapján történő feltárására is irányul, melynek során olyan mérőszám kidolgozása a cél, amely jól használható a prozódia alapján történő szintaktikai egységhatárok detektálására. Továbblépve kísérletet tervezünk a prozódia és a szemantikai, pragmatikai információ kapcsolatának feltárására, a szintaktikailag indokolt és nem indokolt prozódiai események automatikus szétválasztására, ez utóbbiak ugyanis a szemantikai és pragmatikai funkcióval állhatnak összefüggésben. A szintaktikailag indokolt és nem indokolt események szétválasztását átiraton, illetve beszédfelismerővel előállított szöveges kimenet, valamint a prozódiai eseménysor összevetésével kívánjuk megvalósítani.
Mi a kutatás alapkérdése? Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek. A kutatás célja a prozódia alapján történő automatikus eseménydetektálás kidolgozása, megvalósítása és értéklése négy nyelven. A vizsgálni tervezett hipotézisek részletesen a kutatási tervben kerülnek ismertetésre, e helyütt az alapkérdések összefoglalását adjuk meg: hogyan használhatók ún. valószínűségi akusztikai jellemzők az eseménydetrektálásban, pontosabb-e a detektálás ilyen jellemzők használatával; hogyan lehetséges automatikusan az időtartamokból képzett szupraszegmentális jellemzők kinyerése beszédhang-osztályozók vagy beszédfelismerő kimenet alapján; hogyan adaptálható a magyar nyelvre kidolgozott fonológiai frázisdeetktáló eljárás más nyelvekre (francia, angol, német), és mi az egyes nyelvekben az egyes akusztikai jelelmzők szerepe a detekcióban; hogyan tehető pontosabbá és jól felhasználhatóvá a prozódia alapú szintaktikai egységekre vonatkozó predikció; hogyan és milyen mértékben választható szét a szintaktikailag indololt, illetve nem indokolt, és ezért feltételezhetően szemantikai vagy pragmatikai funkciót megvalósító prozódiai események.
Mi a kutatás jelentősége? Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának! A kutatástól várt új eredmények a prozódia szerepének feltárásában és kiaknázásában adnak segítséget. A kutatást nem csak elméleti síkon, hanem kísérletileg megerősített úton kívánjuk végrehajtani, ami jól előkészíti az eredmények későbbi alkalmazását. A munka során létrehozott elemző- és feldolgozóeszközök a további kutatásban, beszédelemzésben és -feldolgozásban olyan hasznos segédeszközök lehetnek, amelyek univerzálisan használhatók, és támogatják a beszéd szintaktikai, és részben szemantikai és pragmatikai elemzését is, különösen szöveg alapú elemzőkkel együttesen használva. A várt eredmények fő társadalmi hasznosítási területe a beszédből történő információkinyerés, fókusz, hangsúlyos szavak, kulcsszavak, új információ detektálása, és bizonyos fokban a szemantikai és pragmatikai információ kinyerése, illetve olyan jellemzők, információ kinyerése, amelyek általánosan a gépi beszédértésben, ember-gép kommunikációban használhatók fel.
A kutatás összefoglalója, célkitűzései laikusok számára Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára. A kutatás célja az automatikus beszédfeldolgozás és információkinyerés előmozdítása a prozódia (hangsúly, hanglejtés, ritmus, stb) vizsgálatával, a prozódiai események automatikus követésével. Ezen események a beszédben hordozott információt is tükrözik, detektálásukkal végső soron a jelentés gépi értelmezését segíthetjük elő. Ilyen alkalmazások a hanganyagban történő kulcsszavas keresés, dokumentum-elemzés és értelmezés, stb. A kuatatás eredményei révén a kutatók maguk is olyan, a későbbi munkájukat segítő eszközhöz jutnak, amely jól használható a prozódia elemzéséhez, felhasználásához. A kutatás magyar nyelvre indul, majd más nyelvekre is kiterjed, ennek során nyelvspecifikus sajátságok is vizsgálhatók és modellezhetők. A hanganyagból kinyert ún. akusztikai jellemzőket (amelyek alapján a prozódiai detektálást végezzük) is megvizsgáljuk, hogy a legeredményesebbeket tarthassuk meg. Az eredmények végső soron az ember és az intelligens gép közötti kommunikáció mindennapi, emberi nyelven történő megvalósítását szolgálják.
| angol összefoglaló Summary of the research and its aims for experts Describe the major aims of the research for experts. The focus of the planned research is to advance speech processing, information extraction and content analysis from speech by exploring the capabilities of prosodic event detection, taking phonological phrases as basic units. Previous research for Hungarian has already yielded some encouraging results in phonological phrase detection and associated syntactic analysis from speech. In this research, the approach is extended to cover new features in order to improve detection accuracy. In order to investigate the universality of the proposed algorithms, initial work in Hungarian is extended for French, English and German, in parallel with investigation of the optimal feature set for each language. As phonological phrasing can reveal part of the syntactic structure, this forms another research direction. A probabilistic score will be evaluated to predict the likelihood of syntactic boundaries based on pure speech prosody in Hungarian and French. Going further and investigating relations of prosody with semantics and pragmatics, a distinction will be made between syntactically motivated and not motivated accents, supposing these latter reveal semantic or pragmatic information. The control of syntactical motivation will be based on the combined evaluation of textual analysis of an ASR (Automatic Speech Recognizer) output and the detected salient points in speech prosody.
What is the major research question? Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments. This research aims to explore the capabilities of prosodic event detection in several languages. The main investigated hypotheses will be related to the following: how can probabilistic features contribute to better detection accuracy; how can the automatic extraction of duration-related supra-segmental features be made reliably using ASR transcript or broad phone classifiers; how can the phonological phrase detection approach (elaborated for Hungarian) be powerfully adapted for other languages (French, English, German), and what are the contributions of different acoustic features in these languages; how can the prosody based syntactic analysis of speech be made more accurate and easier to use; how and to what extent can we automatically separate syntactically motivated prosodic events from non syntactically motivated and hence semantic or pragmatic related ones.
What is the significance of the research? Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field. The expected new results of this research will contribute to the exploration of the role of prosody in speech, not only based on theoretical considerations, but in experimentally confirmed way, a gaurantee for later applicability in practice or even in industrial products. The framework elaborated will, on the other hand, help future researchers too, providing analysis approaches and tools, applicable more universally for prosodic analysis of speech, supporting syntactic, semantic and pragmatic analysis from pure speech or combined with textual analysers. The main application areas of results for the wider society are information extraction from speech, including detection of focussed or highlighted points or keywords, new or important information, and to some extent, semantic and pragmatic related information, including cues for speaker attitude or emotions, to be exploited in automatic speech understanding and human-machine communication.
Summary and aims of the research for the public Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others. The goal of this research is to advance automatic speech processing by the examination of prosody (stress, intonation, rhythm, etc) and automatic detection of meaningful prosodic events, closely related to the organization and structure of the information transmitted by speech. By detecting these, the interpretation of the meaning can be supported, which can be useful in retrieving or searching in spoken documents, spoken documents anaylsis, etc. Based on the achievements of this research, researchers will also have a tool to do further experiments related to the prosody of speech, its analysis, investigation or exploitation. Research starting from the Hungarian language is then extended to cover other languages too, as the approach might need some language specific modifications when transferred from one language to the other. Acoustic features extracted from the speech will be also analysed in order to identify those which contribute to the best performance. The expected results can also contribute to the development of communication between humans and machines using natural, human language.
