Audiovisual fusion for speaker diarization

A. Noulas

Audiovisual fusion for speaker diarization

Authors	A. Noulas
Supervisors	F.C.A. Groen
Cosupervisors	B.J.A. Krose
Award date	19-05-2010
ISBN	9075691068 9789075691061
Number of pages	167
Organisations	Faculty of Science (FNWI) - Informatics Institute (IVI)
Abstract	Spraaksynthese en spraakherkenning zijn goed genoeg voor alledaagse applicaties. Toch is een scenario waarbij we een natuurlijke discussie met een machine aangaan nog steeds futuristisch. Dit komt doordat computers niet kunnen bepalen wie wanneer spreekt, en wie aangesproken wordt. Athanasios Noulas onderzocht hoe we machines dergelijke capaciteiten, die in de literatuur bekend staan als speaker diarization, kunnen geven. Hij ontwikkelde daarvoor een probabilistisch model dat computers in staat stelt om informatie uit camera's en microfoons, en vooral uit de synchronie tussen de twee, te combineren. Dit model kan speaker diarization toepassen op een breed scala aan opnames, van vergaderzalen tot films, en kan gebruikt worden om een hoogwaardige transcriptie te maken, waarbij een associatie wordt gemaakt tussen een gezicht en de bijhorende stem, en tussen verschillende opnames van dezelfde persoon. Daarnaast bedacht Noulas een model dat automatisch leert hoe het gezicht en de stem van een persoon in synchronie zijn tijdens het spreken. Het model leert dit uit video-opnames van personen die de camera toespreken. Met dit model kan een machine bepalen wie in een discussie aan het spreken is, en of er überhaupt iemand aan het spreken is.
Document type	PhD thesis
Note	ASCI dissertation series no. 197 Research conducted at: Universiteit van Amsterdam
Language	English
Downloads	Thesis Title pages Contents Acknowledgements List of abbreviations List of publications Symbols & notation 1: Introduction 2: A review of speaker diarization 3: Multimodal speaker diarization 4: Deep Belief Networks for synchrony detection in speech 5: Speaker detection based on synchrony 6: Conclusions Appendices Bibliography
Permalink to this page

Back

UvA-DARE

Digital Academic Repository

Audiovisual fusion for speaker diarization