11月21日,搜狗推出了语音实时翻译功能——四天前的乌镇互联网大会,搜狗CEO王小川用它辅助了自己的演讲,随着他说话,屏幕上既出现了机器识别的中文,也有实时英文翻译。整个翻译的过程,只需要两秒。

这是一项叠加了语音识别和机器翻译的技术。之所以搜狗的语音团队涉足翻译,是因为这两个领域在技术上近水楼台,“随着技术慢慢交叠融合,我们发现语音识别和机器翻译都是序列到序列的过程。可以结合着做。” 搜狗语音交互中心技术负责人陈伟说。

搜狗实时语音翻译工具的运作流程

机器翻译并不是新生产品。传统的机器翻译,需要把整个建模流程分成对齐模型、分层模型等多个模型,每个模型完成特定的很小的功能,最终串起来完成复杂的翻译系统。而每个模型的错误,也会延续到下一个环节的模型中。

搜狗的实时语音翻译,在技术路径上不同于传统的机器翻译,采用端到端的神经网络翻译技术。具体而言,是把多个模型融合成一个统一的模型,直接把影射文本变成输出文本。相对于传统的模式,准确率可以提升30%-40%。

据搜狗方面的测算,目前搜狗语音识别的准确率在97%,这与科大讯飞公布的数据相当,搜狗语音翻译的准确率可以达到90%。

不过包括搜狗在内,目前谷歌、微软、科大讯飞等科技公司推出的语音识别产品,准确率均收到环境、话筒距离、口语标准程度等外部因素影响。例如,当出现一个以上的讲话者,机器识别就会遇到困难。

真正能让这些AI公司在准确性上决出胜负的,还是数据。“深度学习的技术对各家而言没有特别的隐私而言,各家的技术发布只是体现在时间差上,并不代表其他人没有能力做出来。真正的壁垒还是在数据上,决定了最后的效果。”陈伟表示。

搜狗的两款主要产品是搜索引擎和输入法,具有天然的数据池的属性。然而目前谷歌、微软、百度均有自己的搜索引擎,10月份锤子的发布会后科大讯飞的输入法也借势走热,搜狗处在一个强敌林立的市场里,仍需尽力扩大数据来源。

现阶段,搜狗的语音输入日频次达到1.9亿次,每日搜集的用户语音语料从三个月前发布语音交互引擎知音时的12万小时,增加到16万小时。

不过谈变现还为时尚早。由于单纯比拼技术难以构建门槛,AI产品的当务之急是在产业链上下游找到合适的落地场景,积累用户量,这也考验厂商整合资源的能力。

目前搜狗的AI场景目前锁定了三大方向:车载、智能家居和户外可穿戴设备,除了已发布的车载产品,搜狗目前同魅族盒子、微信手表、大白遥控器等企业达成了合作。搜狗语音交互中心负责人王砚峰透露,明年上半年会发布几家与电视厂商的合作。与入口级硬件企业合作,是AI公司获取数据的主流途径之一。

人工智能电影《Her》中的人机交互场景,已经越来越近,不过现在还远不到同传们需要焦虑的时候。

搜狗发布实时语音翻译 不过想干掉同声传译还没那么简单

发表评论

电子邮件地址不会被公开。 必填项已用*标注