微软开发突破性语音翻译软件

日期:2009-10-15 10:20:35    阅读:2414

  近日,微软首席研究官里克·拉希德在天津演示了一项新技术:他对着新研发的语音识别、翻译和生成系统说了8句英语,系统随即模仿他的语调翻成普通话,博得满堂喝彩。

  拉希德透露,通过计算机实现原声同传,是微软在计算机语音识别技术上的重大进展。他希望再过几年,“能够打破人与人之间的语言障碍”。业内人士分析,计算机原声同传可能成为划时代的产品,随着技术日臻完善,一场“翻译革命”或已在酝酿之中。

  26种语言,几秒钟传译

  微软方面介绍说,这一技术突破的工作流程大体是:系统通过接收语音,识别说话者的声调和语言,建立模型;将这些语言翻译转换;一次性用另一种语言输出,再由同样的人声表达。

  翻译之前,有1小时左右的建模过程。拉希德对系统讲了1小时左右的英语,以便系统辨识他的语音语调,建立专属拉希德的模型。模型建立后,系统就能以拉希德的声调说出包括普通话在内的26种语言。

  系统开发者宋歌平表示,在建模技术应用之前,微软做了大量数据采集与挖掘工作,以便建立庞大的语音数据库,增加系统辨识语音的速度。而在翻译输出方面,能在26种语言之间转换自如,主要得益于覆盖全球主要语言的“微软对话平台”支持。

  虽然技术细节尚未披露,但拉希德透露了计算机同传得以实现的关键。“大约在两年前,微软研究院和多伦多大学的研究人员取得了一项突破,利用模拟人脑行为的‘深度神经网络’技术,提升语音识别器的辨识能力。”拉希德说,通过这种人脑仿生技术,微软的语音识别错词率较以往降低了30%,以前每4到5个单词中便有1个错词,如今7到8个词中才错1个。错词率的降低被视作计算机同传技术中决定性的改变。

  在世界范围内,不少知名公司都在研发同声传译软件。如AT&T、谷歌等公司,都拥有自己的同声传译软件。而日本电话电报公司下辖的手机公司NTT DoCoMo此前展示过一个智能手机应用系统,便于日语使用者能利用母语无障碍地与外国人交谈。

  微软此次的突破,除了平抑错误率,还体现在实时的原音输出。如果能在翻译中保留讲话者的语调,表意就会更为明确,交流也就更为顺畅。

  数据显示,近几十年来,因机器翻译的译文质量存在问题,机器翻译一直未能成为主流。但欧盟每年花在20多种文件上的翻译支出,就站到整个欧盟行政支出的半数以上。在中国,会务、教育涉及的翻译工作每年能创造数百亿元的收入,且仍供不应求。

  为此,专家认为,如果微软的机器同声传译系统能在技术上进一步完善,并平衡成本核算,进行市场推广,将给翻译市场的格局带来革命性的变化。

  乐观背后,也有其他声音。复旦大学外文学院口译教研室主任、上海市口译协会副理事长管玉华指出,同传是一项由人脑解码、转码再编码的过程,其复杂性并不亚于计算机算法。无论技术如何进步,机器翻译始终是断片式的解读,不像人脑能进行综合判断。

  “大家其实很欢迎技术的不断进步给同传行业带来冲击,但技术毕竟只在不断接近翻译的顶峰,跟人脑比起来依然存在缺陷。”管玉华说,“在博物馆、展览馆及旅游景点,同传软件的技术进步能给民众带来直观的便利。但在国际会议、论坛等需要思维碰撞、观点交锋等庄严的场合,还是需要借助人脑。”

推荐阅读内容