Audiovisual fusion for speaker diarization
| Authors | |
|---|---|
| Supervisors | |
| Cosupervisors | |
| Award date | 19-05-2010 |
| ISBN |
|
| Number of pages | 167 |
| Organisations |
|
| Abstract |
Spraaksynthese en spraakherkenning zijn goed genoeg voor alledaagse applicaties. Toch is een scenario waarbij we een natuurlijke discussie met een machine aangaan nog steeds futuristisch. Dit komt doordat computers niet kunnen bepalen wie wanneer spreekt, en wie aangesproken wordt. Athanasios Noulas onderzocht hoe we machines dergelijke capaciteiten, die in de literatuur bekend staan als speaker diarization, kunnen geven. Hij ontwikkelde daarvoor een probabilistisch model dat computers in staat stelt om informatie uit camera's en microfoons, en vooral uit de synchronie tussen de twee, te combineren. Dit model kan speaker diarization toepassen op een breed scala aan opnames, van vergaderzalen tot films, en kan gebruikt worden om een hoogwaardige transcriptie te maken, waarbij een associatie wordt gemaakt tussen een gezicht en de bijhorende stem, en tussen verschillende opnames van dezelfde persoon. Daarnaast bedacht Noulas een model dat automatisch leert hoe het gezicht en de stem van een persoon in synchronie zijn tijdens het spreken. Het model leert dit uit video-opnames van personen die de camera toespreken. Met dit model kan een machine bepalen wie in een discussie aan het spreken is, en of er überhaupt iemand aan het spreken is.
|
| Document type | PhD thesis |
| Note | ASCI dissertation series no. 197 Research conducted at: Universiteit van Amsterdam |
| Language | English |
| Downloads | |
| Permalink to this page | |