句子大全

句子大全 > 句子大全

AI做实时翻译 搜狗谷歌全面对比 你看好哪一个?

句子大全 2014-06-02 00:59:53
相关推荐

深度学习能够自动学习抽象特征表示、建立源语言与目标语言之间复杂的映射关系,给统计机器翻译的实现提供新途径,目前已经在词对齐、语言模型训练、解码等模块的优化应用方面取得较多成果。

例如,2006年谷歌发布基于短语的机器学习(PBMT)系统,该系统将句子分解成词和短句,进行逐个翻译。它的弱点在于忽略了上下文,因此译文质量不佳。2016年谷歌发布的神经机器翻译GNMT,将句子视为基本单元,不再对词和短句逐个翻译,明显改善了译文质量。

作为智能翻译的“制高点”,AI口语翻译难在哪?

与普通文字翻译相比,AI口语翻译难度更大,原因有二:

一、想要“译的准”,首先要能“听得清”。AI要准确判断出指令发出者的语音、停顿,并在极短时间内进行“语音断句”,在涉及一些模糊音时能够根据“上下文”进行及时调整,这需要有深度学习的模型自动更换为一个语义通顺、更符合作者指令的句子,然后才能进行文字翻译处理。

二、想要“译的准”,还要包容口语的“4个任性”

基于神经网络技术的智能翻译系统越来越多,翻译质量确有较大提高,但是能不能很好地包容口语的各种任性,我们来做几项测试,检验一下人工智能翻译的水平。为便于说明,选取了具有代表性的谷歌翻译和搜狗手机浏览器自带的智能翻译进行比对。

1、日常口语具有不连贯的特性。在口语交谈中,经常会出现一些不连贯的成分,如:重复、次序颠倒、冗余和语句残缺。下文是一个典型的兼有语句残缺和发音重复的句子。

原文:那六楼呢?咱们……咱们,下午谈一谈吧?

谷歌翻译:The sixth floor?Let s talk about us in the afternoon?

搜狗手机浏览器智能翻译:What about the sixth floor?Let’s…Let’s talk this afternoon.

谷歌翻译在重复的处理上未真实体现原文,搜狗手机浏览器智能翻译如实还原。但是,两个翻译结果在表达上都不同程度地存在错误。

2、语法约束相对较弱。口语中很少会有严格符合语法约束的结构完整、正确的句子,而大量存在的是语法规则难以处理的现象。一方面是由于系统的语法知识对语言现象的覆盖程度不足;而更主要的则是口语本身的特性所决定的,例如口语中存在大量的代词,人类口语比较容易理解,但是AI不能结合上下文,缺乏背景知识,难以区分指代对象,导致翻译结果偏离原意。

原文:Look,man,you don’t got to do anything.This one means a lot to me.

谷歌翻译:看,男人,你什么都不做。这对我来说意义重大。

搜狗手机浏览器智能翻译:听着,伙计,你什么都不用做,这对我意义重大。

翻译的关键在于两个词:look和man。谷歌的翻译也对,而看起来,搜狗手机浏览器的翻译结果更符合生活实际。

3、没有明确的句子边界。口语中没有标点符号来标志句子,也基本没有传统意义上的句子,缺少了必要的声调和停顿,很容易造成句子的歧义。

例如:“这苹果不大好吃”。那么该句有两种不同的理解结果:这苹果不大/好吃(苹果不大,但是味道好),这苹果/不大好吃(苹果味道不好)。两家AI都未能分清句子结构发音上的差别,都默认翻译为“苹果味道不好”。

4、非正式语体材料多。中英口语中都存在较多随意性的口语或网络用语,生活化气息浓厚,多为非正式的语体材料,智能翻译需要庞大的基础词汇库支撑。

原文:近期我们注意到国际上有一种看法,认为中国已经成为世界上最大的经济体,一方面挑战了美国的领导地位,另一方面在很多国际事务上中国仍在搭便车。请问您怎么看待这样的看法?(总理记者会上中国日报记者的现场提问)

谷歌翻译:We have recently noticed that there is a view that China has become the world s largest economy,on the one hand challenges the leadership of the United States,on the other hand in many international affairs,China is still free.What do you think of this view?

搜狗手机浏览器智能翻译:Recently we have noticed an international view that China has become the world s largest economy.On the one hand,it challenges the leadership of the United States. On the other hand, the Chinese are hitchhiking in many international affairs.I would like to ask what you think of this view.

专家译文:Recently we have noticed that there is a view in the international community that China has become the world’s largest economy,on the one hand challenges the leadership of the United States,on the other hand in many international affairs in China is still a free ride,how do you think of this view?

可以说,两家AI对这段话的翻译,虽然都有些许瑕疵,但是总体都还是比较到位的。

中国古诗英译一直是文化翻译的一个难题,甚至被认为是可译性最小的文学形式。我们来试验一下两家AI对王维《九月九日忆山东兄弟》的理解和翻译能力。

独在异乡为异客,每逢佳节倍思亲。遥知兄弟登高处,遍插茱萸少一人。

谷歌翻译:Alone in a foreign land for the stranger,every festive times.

Distinguished brother ascended the throne,who was full of cornelia.

搜狗手机浏览器智能翻译:Alone in a foreign land,I miss my relatives more than anything else during the holidays. I know my brother has climbed up to the top and planted dogwood everywhere,but one person is missing.

参考译文:Alone,a lonely stranger in a foreign land,I doubly pine for my kinsfolk on holiday.I know my brothers would,with dogwood spray in hand,Climbing up the mountain and miss me so far away.

翻译古诗词,确实非常难为两家AI。不过,翻译的结果很有趣,搜狗手机浏览器后两句翻译成了我的兄弟在高处到处种植茱萸,谷歌对最后两句完全是进行了想象性的拓展。

要跨越语言不通的鸿沟,智能翻译还需往哪加油

智能翻译确实取得了令人惊喜的进展,拿着手机和老外进行日常交流已经基本没有问题。但是智能翻译还存在“短板”,会有“词不达意”的时候,AI要想更进一步发展,和有着数十年积累的高水平翻译员进行竞争,可能还需要从以下几个方面进行努力。

1、大量补充口语化语料

智能翻译对于口语化文本处理能力还不强,一是由于翻译语料库口语化语料不足,二是针对口语词汇与口语表达多采取直译方式,因此出现较多误译。该问题的解决应该从扩大对应部分语料库入手,增加口语类文本语料库,包括常见口语化词汇、表达与生活用语。

2、提高语境理解能力

智能翻译对于中文复杂含义句式中的时态辨别能力还不够,往往需要充分理解整句话的意思才能准确把握时态。智能翻译并非基于理解,而是基于统计学与语料库,只能做到将这句话意思大致翻译准确,在识别感情色彩方面,还有欠缺。

将神经网络学习的抽象表示和传统符号语义方法结合,建立新的基于语义的机器翻译系统,或许可以大幅提高AI对组合语义、复杂的递归语言结构的处理能力。

但,我们依然满怀期待AI让我们摆脱语言鸿沟的那一天。(文:草原骑士)

本文经授权发布,版权归原作者所有;内容为作者独立观点,不代表亿欧立场。如需转载请联系原作者。

阅读剩余内容
网友评论
相关内容
拓展阅读
最近更新