随着语音助手的普及,使用Siri等人工智能助理将慢慢成为人们的习惯。然而,很多人会遇到这样的问题,如果是在人多声杂的场合,Siri其实并不能听到指令,必须特别近地靠着麦克风喊才行。这样无疑是很不方便的。

像Siri、亚马逊的Echo和Google Home这样的设备,通常可以处理来自某一个人的请求,但是当我们在一些嘈杂的鸡尾酒派对上,有可能几个人同时发出声音,就会出现上面所说的这种窘境。现在,科学家研发出了能够实时分离多个扬声器声音的AI技术,可以大大提升自动语音识别能力,很快就帮你找到附近的电梯。该技术由马萨诸塞州剑桥三菱电机研究实验室的人员开发,在本月东京的先进技术综合展览会上首次公开展示。

据NewScientist报道,Meinke的团队使用称为“深度集中”的机器学习技术来识别多个扬声器“声纹”中的独特部分,然后将每个演讲者声音的不同特征组合在一起,分解多个声音并重建每个人所说的话。 Mitsubishi Electric的发言人Niels Meinke表示:“100名英语人士对该设备进行培训,但即使讲的是日语,也可以分离声音。”

Meinke表示,该系统将两个人的演讲分离并重建成单个麦克风的精确度达到90%。如果有三位演讲者的话准确性则会下降,但仍高达80%。

为了克服几十年来AI研究的“鸡尾酒会效应”,新技术一直致力于帮助家庭和汽车助理更好地工作。在初步测试中,该系统能够一次分离多达五人的声音。 Meinke说:“该系统可以用于一系列产品的语音分离,包括电梯,空调机组和家用产品。

事实上,三菱目前正在将语音识别技术发展到升降机和空调等产品。

如果你对这一技术感兴趣,可以查看该技术的相关论文:arxiv.org/abs/1508.04306

编译组出品。编辑:郝鹏程

再吵也能喊“嘿 Siri”!新 AI 技术可从嘈杂环境中识别单一声音

发表评论

电子邮件地址不会被公开。 必填项已用*标注