Automatic speaker diarization in Hungarian spontaneous discourse

Help

Back »

Details of project

Identifier

114596

Type

PUB-K

Principal investigator

Beke, András

Title in Hungarian

Gépi beszélődetektálás magyar nyelvű spontán társalgásokban

Title in English

Automatic speaker diarization in Hungarian spontaneous discourse

Keywords in Hungarian

beszélődetektálás, spontán társalgás, gépi tanulás

Keywords in English

speaker diarization, spontaneous discourse, machine learning

Discipline

Linguistics (Council of Humanities and Social Sciences)	50 %
Ortelius classification: Computational linguistics
Physics (Council of Physical Sciences)	50 %
Ortelius classification: Acoustics

Panel

Publications Panel

Department or equivalent

ELTE Eötvös Kiadó Kft.

Starting date

2015-01-01

Closing date

2015-12-31

Funding (in million HUF)

0.410

FTE (full time equivalent)

0.20

state

closed project

Summary in Hungarian

A kutatás összefoglalója, célkitűzései szakemberek számára
Itt írja le a kutatás fő célkitűzéseit a témában jártas szakember számára.
A disszertáció fő célja, hogy elsőként nagy mennyiségű magyar nyelvű spontán társalgás felhasználásával hozzon létre alapvetően nem-felügyelt tanuláson alapuló beszélődetektáló algoritmust, vagyis megoldást adjon arra a kérdésre, hogy „Mikor ki beszél?”. A dolgozat célja az volt, (i) hogy az automatikus gépi beszélődetektálóhoz szükséges algoritmusokat elkészítsük (beszélőszegmentáló és beszélőklaszterező algoritmus, egyszerrebeszélés-detektáló), illetve a már rendelkezésre állókat implementáljuk a rendszerbe (beszéddetektáló, beszélőfelismerő algoritmus). Az általunk megvalósított beszélődetektáló alap módszere a BIC-algoritmust, amelyet mind a beszélőszegmentáláshoz, mind a beszélőklaszterezéshez használtunk.
Külön kiemelendő részfeladat az egyszerrebeszélés-detektáló megvalósítása, mivel a beszélődetektáló során keletkező hibák jelentős részét azon részek okozzák a beszédben, ahol azonos időben több beszélő nyilatkozik meg. Az egyszerrebeszélés-detektálóban a mély neurális hálózatot használtunk az akusztikai jellemzők jobb reprezentálásához, és GMM-UBM i-vektor eljárást az osztályozáshoz. A dolgozat célja továbbá az volt, (ii) hogy vizsgáljuk, milyen sikerrel lehet implementálni a beszélődetektálóba a VAD és az egyszerre beszélést detektáló algoritmusokat. További célunk volt az is, (iii) hogy a beszélődetektálóban milyen akusztikai paraméterekkel lehet a legjobb eredményt elérni. A rendszer tanításához és teszteléséhez 100 spontán társalgást használunk a BEA spontánbeszéd-adatbázisból. Mindezen algoritmusokat a MATLAB 2011a szoftverben írtuk, és futtattuk.

Mi a kutatás alapkérdése?
Ebben a részben írja le röviden, hogy mi a kutatás segítségével megválaszolni kívánt probléma, mi a kutatás kiinduló hipotézise, milyen kérdéseket válaszolnak meg a kísérletek.
A mindennapi életben a beszélt nyelvi kommunikáció a legtöbb esetben társas interakcióban jelenik meg, mint amilyen a társalgás. A társalgások alapegységének a beszédforduló tekinthető, így a társalgások feldolgozásának alapvető lépése ezen egységek kijelölése a beszédfelvételben. A kutatás fő kérdése az, hogy milyen eredménnyel tudjuk megvalósítani a beszélődetektálót magyar nyelvű spontán társalgásokra. Hogyan valósíthatók meg a beszélődetektálás egyes előfeldolgozó rendszerei, mint a beszéddetektálás, egyszerrebeszélés-detektálás, illetve hogy ezek milyen eredménnyel implementálhatók a beszélődetektáló rendszerbe. Arra is kerestük a választ, hogy melyek azok az akusztikai jellemzők, amelyek az egyénre jellemző akusztikai lenyomatokat tartalmazhatják. Vizsgáltuk, hogy milyen eredménnyel lehet a képi feldolgozásban használt mély neuronhálókat alkalmazni az egyszerrebeszélés-detektáló jellemzőkinyeréseként.

Hipotéziseink a következők:
1. A fő tárgy a kutatásnak, hogy robusztus beszélődetektálót hozzon létre, amely nem-felügyelt módszereken alapul, és amely magyar nyelvű spontán társalgások felé mutat.
2. A beszédfelismerésben a spektrumban célzott részsávjára történő akusztikai jellemzőkinyerés jobb eredményeket adhat, mint a teljes spektrumot feldolgozó eljárások.
3. A beszélőfelismerésben kikísérletezett akusztikai jellemzők jól alkalmazhatók a beszélőszegmentálásban, illetve a beszélőklaszterezésben.
4. Az egyszerre beszélések detektálásában jól lehet alkalmazni a mély neurális hálózatokat (DNN) mint az akusztikai jellemezők reprezentációját.
5. Az egyszerre beszélések és a beszéddetektálás implementációjával a beszélődetektálás eredményei növelhetők.

Mi a kutatás jelentősége?
Röviden írja le, milyen új perspektívát nyitnak az alapkutatásban az elért eredmények, milyen társadalmi hasznosíthatóságnak teremtik meg a tudományos alapját. Mutassa be, hogy a megpályázott kutatási területen lévő hazai és a nemzetközi versenytársaihoz képest melyek az egyediségei és erősségei a pályázatának!
A beszédtudomány alapvető kutatási célja a beszédkommunikáció komplex körfolyamatának leírása. A beszédtechnológiában a beszédkommunikáció egyes moduljainak a mesterséges eszközökkel történő helyettesítése a cél: a beszédprodukcióra a beszédszintézis, a beszédészlelésre a beszédfelismerés (beszédmegértésről gépi oldalról még nincs szó). Az ember-gép kommunikáció megteremtésében nyilvánvaló a dialogikus forma, ahol az ember és gép váltakozva nyilatkoznak meg. Ezt a dinamikus váltakozást modellező modul a beszélődetektálás.
A napjainkban egyre nagyobb figyelmet kapó beszélődetektálás megvalósítására számos lehetőség létezik. Több nyelven, de főként angol korpuszokra történtek kísérletek. Magyar nyelvű spontán társalgásokra azonban ez idáig még nem történt ilyen jellegű munka. A meglehetősen szerteágazó megoldások mellett még igen sok lehetőség van a beszélődetektálók fejlesztésére, eredményeik javítására. Ehhez szükség van az olyan szorosan kapcsolódó tudományterületek eredményeire, gyakorlati tapasztalataira, mint a fonetika, a pszicholingvisztika, a diskurzuselemezés stb. Az értékezés ezt a sokszínűséget kívánta bemutatni, rendezni és felhasználni a beszélődetektálás megvalósításában.
A beszélődetektálás igen fontos a kereskedelmi és igazságügyi alkalmazásokban is, hiszen jelentős mennyiségű tartalom a beszélőváltások szerint strukturálható, amelyek nyelvészeti és metanyelvészeti információkat is tartalmazhatnak (domináns beszélő, szerepek a társalgásban, az interakció szintjei, érzelmek).
A disszertáció eredményei közelebb vihetik a kutatót az ember-ember kommunikáció megértéséhez, modellezéséhez, amely tovább mutat a mesterséges intelligencia, az ember-gép kommunikációja felé.

A kutatás összefoglalója, célkitűzései laikusok számára
Ebben a fejezetben írja le a kutatás fő célkitűzéseit alapműveltséggel rendelkező laikusok számára. Ez az összefoglaló a döntéshozók, a média, illetve az érdeklődők tájékoztatása szempontjából különösen fontos az NKFI Hivatal számára.
A mindennapi életben a beszélt nyelvi kommunikáció a legtöbb esetben társas interakcióban jelenik meg, mint amilyen a társalgás. Az utóbbi évtizedben egyre nagyobb figyelem összpontosul a spontán beszéd vizsgálatára, azon belül a társalgás elemzésére. Számos tudományág (diskurzuselemzés, pszicholingvisztika, fonetika stb.) foglalkozik a társalgás felépítésével, szabályaival, modellezésével. A konverzációelemzés eredményeiből tudjuk, hogy a társalgás alapvetően nem rendezetlen struktúra, hanem szabályok mentén rendeződik, dinamikusan alakul a beszédpartnerek mentén. A konverzációelemzés által feltárt szabályosságokra támaszkodva a beszédtechnológiában is megindultak a vizsgálatok a társalgások gépi modellezésére. A beszédtechnológián belül az erre irányuló kutatási terület a gépi beszélődetektálás (speaker diarization). A beszélődetektálás alapvető feladata, hogy a társalgásokban automatikusan jelölje, hogy mikor ki beszél. Ennek során a folyamatos társalgások automatikusan lejegyzett szövegeit újrastrukturáljuk (az elhangzott közléseket személyekhez rendeljük), így a szöveg sokkal könnyebben feldolgozható más, például tartalomkinyerő algoritmusok számára. A jelen kutatás során egy olyan komplex rendszert hozunk létre, amely képes a spontán társalgásokat automatikusan beszédfordulókra osztani, és az egyes beszédfordulókat személyekhez rendelni.
A vizsgálat eredménye további kutatások alapja, kiinduló módszere lehet, mint a beszéd- és beszélőfelismerés, diskurzuselemzés, fonetikai és pszicholingvisztikai kutatások, illetve információkinyerés.

Summary

Summary of the research and its aims for experts
Describe the major aims of the research for experts.
The main focus of my thesis is to develop an automatic speaker diarization based on unsupervised learning method using large Hungarian language spontaneous discourse database. The speaker diarization is used to answer the question "who spoke when?”.
The aim of the present research is i) to create algorithms for speaker diarization (speaker segmentation, speaker clustering, overlapping speech detection) and to implement and enhance some already existing algorithms in speaker diarization (voice activity detection, speaker recognition), focusing on Hungarian conversation. Special mention of the sub-tasks is the development of overlapped speech detection for improve speaker diarization: the most of diarization error rate was caused by overlapped speech segments. The thesis was also designed to ii) examine how can the voice activity detection and overlapped speech detection be implemented into the speaker diarization. iii) The speaker-specific acoustic features were analyzed for the speaker diarization. 100 spontaneous conversations were selected from the BEA database and were used to train and test the speaker diarization. The algorithms were implemented into MATLAB 2011 software platform.

What is the major research question?
Describe here briefly the problem to be solved by the research, the starting hypothesis, and the questions addressed by the experiments.
In everyday life, spoken language communication generally appears in social interaction, such as in conversation. The basic unit of conversation is the speaker’s turn. Therefore, the first step of the processing of conversation is to detect the boundaries of the speakers’ turns in the speech recordings based on acoustic features. The main question of this thesis is how the speaker diarization can be adopted to the Hungarian spontaneous conversation. How can the pre-processing steps of speaker diarization be created like voice activity detection and overlapped speech detection. We examined how speaker diarization can be improved using these pre-processing algorithms. We examined which acoustic parameters contain speaker-specific features and how can it be represented for the speaker diarization. We analyzed the role of deep neural network for feature extraction in overlapped speech detection as well.
Hypotheses:
1) Unsupervised learning method provides a good method for solving the problem of speaker diarization particularly in spontaneous discourse for Hungarian language.
2) In speaker recognition the performance can be improved using MFC for spectral sub-band between 2.5 and 3.5 kHz in contrast to MFC for spectral full-band.
3) The speaker-specific acoustic features which are developed for speaker recognition task can be used for speaker segmentation and speaker clustering as well.
4) The deep neural network (DNN) can give a better representation of acoustic feature of overlapped speech segments than the MFCC processing.
5) The performance of speaker diarization can be improved using voice activity detection and overlapped speech detection as pre-processing steps.

What is the significance of the research?
Describe the new perspectives opened by the results achieved, including the scientific basics of potential societal applications. Please describe the unique strengths of your proposal in comparison to your domestic and international competitors in the given field.
The aim of speech science is to model the complex speech communication processing. In human-machine communication several processes have been modeled by applying speech technology, such as speech decoding (speech recognition), speech production (speech synthesis) or speaker identification based on voice (speaker recognition). These processes are linked together in conversation where the operation of speech decoding and speech production is circularly interleaved. This circulation is caused by speaker changes. Automatic detection of the speaker change is speaker diarization.
In the literature, extensive research is described for speaker diarization, but principally for English. However, for the Hungarian language, no work is known which addresses the field of speaker diarization. In addition to the fairly wide range of solutions, there is still a lot of possibility for develop the speaker diarization and for improve its results. In order to improve the performance of speaker diarization, theoretical and practical knowledge is necessary in linked science areas as phonetics, psycholinguistic, discourse analysis etc. This thesis would like to present this diversity and apply this diversity for improving speaker diarization.
Speaker diarization is increasingly becoming an important component of speech and speaker recognition technologies. These technologies are particularly utilized by commercial and forensic applications. The importance of speaker diarization is also manifested in information extraction, because a lot of information (TV news, broadcasting etc.) can be structured by speakers’ turns, which contain many linguistic and meta-linguistic information (dominant speaker, role in conversation, level of interaction, emotions etc.).
The results of the thesis can drive the researcher closer to the understanding and modelling of human-human communication, which is a further step to the artificial intelligence, such as human-machine communication.

Summary and aims of the research for the public
Describe here the major aims of the research for an audience with average background information. This summary is especially important for NRDI Office in order to inform decision-makers, media, and others.
In everyday life, spoken language communication generally appears in social interaction, such as in conversation. In the last decade, more and more attention is focused on the examination of spontaneous speech, mainly on discourse analysis. There are many science areas (discourse analysis, psycholinguistic, phonetic etc.) which pay attention to the discourse structure, rules and modelling. In the Conversation Analysis framework, the conversation is made up in a structural way. Based on this theory, if the conversation is systematic, it could be automatically modeled using speech technology tools.
Speaker diarization is the process of partitioning an input audio stream into homogeneous segments according to the speaker's identity. It can enhance the readability of an automatic speech transcription by structuring the audio stream into speakers’ turns and, when used together with speaker recognition systems, by providing the speaker’s true identity. It is used to answer the question "Who spoke when?".
The aim of this thesis is to build a speaker diarization system which can automatically mark speaker changes based on acoustic information in Hungarian spontaneous conversation.
The automatic conversation analysis plays a major role in automatic data processing, re-organizing of nowadays increasing amount of information. Results of this research may form the basis of many applications, for instance speech and speaker recognition systems, discourse analysis, information extraction.

Final report

Results in Hungarian

A Gépi beszélődetektálás magyar nyelvű spontán társalgásokban című vállalt publikáció könyv formájában megjelent az ELTE Eötvös Kiadó gondozásában. A tervezett 50 példány helyett 150 példányban jelent meg a könyv. A kutatás fő célja az volt, hogy spontán társalgásokra valósítsunk meg beszélődetektálót, mivel az eddigi beszélődetektálók híradós adásokra vagy telefonhívásokra készültek. A beszélődetektálás megvalósítása igen nehéz feladat mind a híradós felvételekre, mind a telefonos hívásokra. A legnagyobb kihívást azonban a spontán társalgások beszélőkre való bontása jelenti. A beszélődetektáló megvalósításához és teszteléséhez a BEA adatbázis 100 beszélőjének társalgását használtuk fel (közel 55 óra hanganyag). Az általunk javasolt módosított, illetve paraméterezett rendszer, amely akusztikai elő-feldolgozásként MFCC (2.5–3.5) jellemzőt használ, a BIC büntető faktora 1, illetve tartalmaz még beszéddetektáló és egyszerre beszélést detektálót is, a rendszer teljesítmény 28,71%-os beszélődetektálási hiba arány. A kötelespéldány szolgáltatást teljesítve (az NKFI Hivatalhoz egy példány eljuttattunk) a következő intézetekhez és tanszékekhez juttattunk könyvet: MTA Könyvtára ELTE BTK Fonetikai Tanszék ELTE BTK Magyar Nyelvtudományi és Finnugor Intézet Könyvtára MTA NYTI Fonetikai Osztály MTA NYTI könyvtár BME TMIT SZTE Mesterséges Intelligencia Kutatócsoport, SZTE JGYPK Alkalmazott nyelvészet tanszék

Results in English

The book (title: Automatic speaker diarization in Hungarian spontaneous conversations) has been published in edition of ELTE Eötvös Kiadó. The number of book is 150 copies instead of planned 50 copies. The aim of this thesis is to develop a speaker diarization for spontaneous conversations, because the most of speaker diarization systems were created for broadcast shows or telephone call speech material. Spontaneous conversation is the most challenging task for speaker diarization, as it presents many overlapping speech segments and very short speaker turns. For this research, 100 spontaneous conversations (total duration is of 55 hours) were selected from the BEA database (Gósy 2012), recorded in a laboratory environment. The result showed that when the BIC-base segmentation included MFCC (2.5–3.5) feature, the penalty factor λ was 1, used VAD and applied overlap detection system based on a deep neural network, the diarization error rate of proposed method was 28,71%. The legal deposit service accomplished (a copy was forwarded to NKFI Office) the following institutes and departments to benefit from our book: MTA Könyvtára ELTE BTK Fonetikai Tanszék ELTE BTK Magyar Nyelvtudományi és Finnugor Intézet Könyvtára MTA NYTI Fonetikai Osztály MTA NYTI könyvtár BME TMIT SZTE Mesterséges Intelligencia Kutatócsoport SZTE JGYPK Alkalmazott nyelvészet tanszék

Full text

https://www.otka-palyazat.hu/download.php?type=zarobeszamolo&projektid=114596

Decision

Yes

List of publications

Beke András: Gépi beszélődetektálás magyar nyelvű spontán társalgásokban, ELTE Eötvös Kiadó, 2015

Back »