电院计算机系钱彦旻与学生合作论文被评为IEEE#ASRU2019最佳论文

    期次:第1665期   

本报讯 IEEE自动语音识别与理解会议(ASRU)是语音研究领域的重要旗舰会议。ASRU.2019于12.月 14.日在新加坡的圣淘沙岛举行。在ASRU.的299篇论文中,共有7篇被提名为最佳论文。最终来自上海交大计算机系智能语音实验室的1篇论文获得了唯一的Best.Paper.Award。

论文的第一作者是钱彦旻副教授指导的硕士研究生常烜恺,钱彦旻是本文的通讯作者。(常烜恺本科和硕士就读于上海交大,于今年9月起在美国约翰霍普金斯大学语音和语言处理中心JHU-CSLP攻读博士学位)

“鸡尾酒会问题”是语音研究领域比较典型也最具挑战的任务之一,指的是在类似鸡尾酒会的存在多人同时说话并伴随着大量背景噪声的复杂声学场景中,尝试进行人声分离、跟踪和识别特定目标说话人言语的一系列问题。近年来,随着深度学习的飞速发展,单说话人的语音识别效果已经得到了显著提升,无论是基于DNN-HMM的混合模型,还是端到端语音识别模型,都在很多任务上达到甚至超过了人类水平。然而,在鸡尾酒会场景下,这些系统的性能往往会严重下降,直接进行多人语音识别仍然十分困难。

在这篇论文中,他们提出了一种新颖的多通道多说话人语音识别系统架构———MIMO-Speech,该架构拓展了已有的单通道单人语音识别模型以处理多通道输入和多通道输出,从而可以完全建模多通道多说话人语音分离和识别。

(计算机系)