INTERSPEECH2025 多語言會話語音語言模型研討會
大語言模型(LLMs)在多種下游任務中展示了卓越的能力,成為語言理解和生成的強大基礎模型。此外,越來越多的研究關注將大語言模型應用于語音和音頻處理任務,如自動語音識別(ASR)、音頻描述和語音對話模型等新興領域。
然而,現(xiàn)實世界的對話語音數(shù)據(jù)對于開發(fā)基于LLM的語音對話模型至關重要,因為這些數(shù)據(jù)能夠體現(xiàn)人類交流的復雜性,包括自然的停頓、打斷、說話者重疊以及多樣的對話風格。此類數(shù)據(jù)的稀缺性,尤其是在多語言環(huán)境下,成為推動該領域發(fā)展的重大挑戰(zhàn)。
現(xiàn)實世界對話語音的重要性不僅限于技術進步——它對于構建能夠在多語言、動態(tài)和豐富語境的環(huán)境中自然理解和響應的人工智能系統(tǒng)至關重要。對于下一代人機交互系統(tǒng)尤為重要,因為在這些系統(tǒng)中,口語對話是主要的交流方式。
因此,本次研討會旨在通過舉辦構建多語言對話語音語言模型的挑戰(zhàn),并發(fā)布一個真實世界的多語言對話語音數(shù)據(jù)集,來彌合這一差距。
正在報名