36氪近日获悉,人工智能大数据公司新译科技获得了5000万人民币 Pre-A 轮融资。本轮融资中厦门市美亚梧桐投资管理有限公司,凯泰资本与博将资本合作投资,原天使轮投资机构清华力合继续跟进。新译科技天使轮融资于2016年10月完成,截至目前 Pre-A 轮融资资金已全部到位。本轮融资引入的投资机构主要进行公司日后的资源整合和布局,资金主要用于市场拓展、高端人才引进、硬件资源的投入和研究院建设。

数据显示,2014年全球翻译行业市场规模大达到371.9亿美元,同比增长6.23%,预计2020年将达到530亿美元左右。2014年到2016年发生的大事,是以神经网络作为基础的神经网络机器翻译(NMT),开始在全面超越此前以统计模型为基础的统计机器翻译(SMT),并快速成为在线翻译系统的主流标配。

NMT 的基本思想,是以每一个句子作为独立的神经元,从而打破传统基于短语的翻译障碍。此外,NMT 跳过传统基于短语的机器翻译中间各种子 NLP 步骤(分词、词性标注、句法分析等),用深层的网络结构去直接学习拟合源语言到目标语言的概率,可以实现监督训练,不必完全依赖固定数据,这可以在专业领域等资料稀少的环节,获得更好的翻译结果 。

新译科技从事人工智能文本领域,侧重在机器翻译的研发和衍生品的开发。当前国际上主要有谷歌翻译、微软翻译,国内主要有有道和百度,最近也加入了阿里,腾讯等企业。做机翻的当前这些机构都是大品牌,具有大的流量,新译侧重 B 端和 G 端的落地和应用,产品定位不同,所以与这些大企业在产品定位和服务目标不同。

人工智能主要看三个方面,大数据、算力和算法。数据方面,新译科技投入资金完善数据量,另一方面协助 B 端用户构建内部数据,在部分客户允许的前提下,获取专有数据。算法上,新译采用 GPU/FPGA 等硬件,加之神经网络芯片和云计算。目前 GPU 训练速度接近1.5-2倍的速度快于开源框架 Theano、Tensorflow、Torch 的训练时间。在分布式集群训练环境下,3-5天的时间就可以训练一个千万句对的双语数据,翻译速度在836词/秒(GPU)。算法上则采用了深度学习等机器学习方式。

现在新译科技涵盖了包括爱沙尼亚语、保加利亚语、匈牙利语、土耳其语、意大利语、阿拉伯语、荷兰语、法语、越南语、日语、韩语、捷克语、葡语、德语、西班牙语、英文、俄语、中文等主流的37种语言,当前正在根据用户的需求不断更新上线。

据36氪了解到,新译科技自2015年起至今,从最初的规则统计混合模型,到现在的神经网络模型,主要更新了三版系统。为了检验公开线上的翻译效果(mt.newtranx.com),新译科技使用公开的联合国领域内数据(United Nations Parallel Corpus v1.0)(http://www.lrec-conf.org/proceedings/lrec2016/pdf/1195_Paper.pdf )以及 UM-Corpus(http://nlp2ct.cis.umac.mo/um-corpus/ )做了评测。其中公开的 United Nations Parallel Corpus v1.0 为1990年到2014年的数据,新译科技选择了所有的外语到中文的双语数据(英中、法中、西班牙中、阿拉伯语中、俄语中文),另外补充了2015-2016年的联合国双语数据每个语言对大约30万句以及 UM-Corpus 的210万句英中双语数据。测试集合选择 United Nations Parallel Corpus v1.0 中的公开测试集合开发集。下图给出了以 BELU 值(国际上常用的一个机器翻译评测标准)作为评测指标的对比图。从图中可看出最新版系统翻译质量较上一版本基本都达到了2个BLEU值的提升,最高提升9个百分点。

图:新译科技新老版本NMT引擎对比

当前有一个共识就是,在一定数量的双语数据中,垂直领域的机器翻译要比通用的效果好。新译科技现有37个语种共计103亿句对,对公司现存的5.7亿句中英双语数据进行归类整理,划分出了25个领域。最终选择了新闻媒体、IT通讯、专利产权、金融财经、生物医学、法律合同,工程制造、机械工程、石油化工、旅游口语作为上线的主要领域。

之所以优先选择这几类领域,是因为机器翻译擅长是叙述性文本的表述和传达,对于创作性内容(诗歌,散文)并不完美。而这几个领域正好符合表述相对固定,容易被机器“理解”。

当前新译侧重 B 和 G 端业务,解决的是公安,国安,部队,政府和互联网企业的内部需求,采取的是长期合作的模式,定制化的数据和专业化的引擎和系统是当前盈利的主要来源。

在合作过程中,将逐渐完善内部语言服务生态圈,利用自然语言处理解决各种实际中遇到的文本问题。长远来看,新译科技在引入资本投资的时候,也会侧重资源的整合,如清华力合具有很好的学院资源,美亚梧桐具有很好的公安和大数据资源,凯泰资本拥有的医学资源,博将资本拥有很多旅游和海内外金融资源等。

形态上,新译科技有机器翻译定制化、翻译浏览器、辅助翻译系统、翻译机器人,C 端当前主要是机器翻译的衍生品,如浏览器插件、文档翻译、office插件、智译APP等。

新译科技的核心优势之一就是技术资源,公司现有100多人的队伍中,2/3左右为技术人员,新译科技创始人团队来自清华大学、澳门大学、卡耐基梅陇和爱丁堡等国内和国际上从事自然语言处理的顶级实验室的硕士和博士研究人员。清华投资后,又引入海内外清华从事这方面的专业人员。

36氪首发 | 人工智能大数据公司「新译科技」完成5000万元 Pre-A 轮融资,侧重人工智能文本领域 B 端、G 端业务

发表评论

电子邮件地址不会被公开。 必填项已用*标注