微软同声传译软件的准确率

日期:2009-10-15 10:20:35    阅读:2454

  雷斯特演示微软同声传译软件短短的10分钟左右中,他一直中速讲英文,他背后有两个大屏幕。现场观众可以看到其中一个屏幕把他讲的话以英文文本的形式展示出来,速度大概只比他的声音慢小半秒。

  在另一个屏幕上,上半部把英文文本中的单词提取出来,并对应中文单词,而下半部按照中文语序已经排列成中文句子。

  随后,翻译完的中文句子居然以普通话的形式“说”了出来,声音听起来与雷斯特本人很像,速度基本上是他一说完英语,机器就“说”出仿真声音的中文翻译,听起来就像雷斯特在给自己做同声传译。

  他表示,微软的同声传译不仅能英译汉,还能翻译西班牙语等26种语言。虽然目前还没有走出实验室,未来却可能做成同声传译器,以至有人惊呼学同声传译的人岂不是要失业么?

  这个吸引眼球的演示第一步就是用计算机识别雷斯特的英文发言,但是这可能也是最难的一步。

  雷斯特介绍,最开始的语言识别采用简单的模式匹配,计算机检查语音产生的波形,并尽量与已知相关的特定单词相匹配。不过这一方法失效率太高了。

  “两年前,我们和多伦多大学的研究人员使用一项名为深度神经网络的技术,仿照人脑行为,语音的错误率比之前的方法降低30%。这意味着之前四五个单词中就会出现一个错误,而现在七八个单词中才会出现一个错误。”

  虽然微软同声传译的技术细节仍未透露,不过声学专家解释,这一技术还是建立在HMM的框架上,改为用神经网络模拟语音特征分布,从八九十年代就有应用。只是现在计算能力提高,能把模型做得更细,也就更“深度”。

  这种方法的准确率与数据积累有很大关系。计算机越来越多地学习、掌握更多数据,就会更聪明,这就是“机器学习”,不过机器学习依然有限度。如果是针对专人的优化“学习”,语言识别的性能会提高得多一些。

  说话人的语言被识别了,如何英译汉也是个大问题。数据显示,近几十年来,因机器翻译质量存在问题,一直无法成为翻译的主流。我们经常会使用软件翻译页面,所得文本之凌乱不言而喻。

  雷斯特表示,他的演示中英译汉需要两个步骤:“第一步是提取我说的单词,然后找到相应的中文,虽然这并不简单,但确实是比较简单的一步。第二步是重新调整单词的顺序,使之符合中文习惯,这是语音正确翻译的重要一步。”

  雷斯特所说的步骤与目前机器翻译的方法是一致的。难点就在于译文选择和调序,不同语言语序不同,一个词翻译成另一种语言也可能有多个候选译文,所以机器翻译结果有时漏洞百出。现有提高正确率的方法需要依靠统计学。

  雷斯特也承认,微软的同声传译在文本方面还有很多错误,而且翻译结果可能很搞笑。不过,统计技术和大数据的引入将使文本翻译有翻天覆地的变化。

  然而,经专家指出,机器翻译只能在特定的领域内达到准确高效,如在法律或经济领域,因为在这些领域里明确界定过。通用领域的话,机译准确率不会很高,还是需要人工翻译来完成。

推荐阅读内容