今日头条李航：自然语言对话的现状与未来

句子大全 2015-06-20 15:56:00

相关推荐

首先铺垫一个概念

这本经典教课书很好，它主要讲智能机器有四种可能的定义:像人一样思考、像人一样行动、像人一样合理思考、像人一样合理行动。

这四种相关但不同，代表不同领域和认识。我们更需要的是合理思考和行动的机器，这两者密切相关，但现在目前很多人工智能系统只是合理行动，比如阿尔法狗、机器翻译、自动驾驶等。

合理行动的智能机器五个特点

就比如阿尔法狗

1、智能系统 2、明确目标 3、评价标准（评价完成目标的好坏） 4、环境互动 5、功能（输入和输出到达完成的目的）

绝大多数人工智能都是沿着这个思路去做，现在超过人的工具很多，但也未必是超过人类。只是在某些任务上面，比人更强或至少和人做的差不多。

合理行动的智能机器在现在发展的状况

合理行动的智能机器现在发展是主流。像人一样合理思考的机器还是很困难的，很难构建，只是一个智能系统放在环境上超过人，只是从任务上相对来说比较容易去做。

Turing Test

像人一样去测试

概念有争议：怎么定义像人一样，标准很难定义，最近有新的定义，一般基于任务完成的好坏，现在把问题转化成合理行动。

脑科学先驱人物 ——马尔

计算分三个层次：功能（输入输出）、算法（不同计算机有不同的算法）、实现和物理层面。

人脑就是一种计算机，人工智能的前提是人脑是计算机，人工智能模拟人脑。

今天我们人工智能更多是从功能的角度去思考。

自然语言理解

定义分为两种

1、表示：系统把人的语言转化成内部的表示

2、行为：比如给机器人说拿杯茶，机器人就去拿了

前者和后者的侧重点不同

从人脑去看自然语言的处理

原则而上是自下而上，其实也有自上而下的预测。

词汇：语言是一个很复杂的现象、词汇量很大，一般人掌握五万到十万的词汇量。

句法：是成千上万人慢慢发展而来，像维基百科一样，自下而上发展。

语义：语义处理就是在内部大脑的理解映射，是多对多的映射，很复杂、有多义性和多样性。

段落：语言内内部语言外部还有行动内外包含的意思。比如说这个房间很热，我可能是表示我很热但也可能包含想要让你把窗户打开的意思。

语言为什么复杂从人的大脑角度来看：

人脑在处理自然语言的时候，其实整个大脑都在参与理解。现在有几个重要的的区域和人脑理解是密切相关。从失语症的病人诊断发现。

从失语症的病人身上发现 Broca’s区负责句法（如果其受损则会造成说话崩词

Wernicke’s负责词汇（如果其受损，那么则不能形成完全的语义）最近十年有研究成果，语义的理解其实在做大脑的cimulation

比如：flying pig 现实没有，大家会想像的画面可能是猪长两个翅膀或者阿童木——语义的理解和每人的经历有关是personal，但也有共性，因为是为了交流

多义性多样性——语义处理很重要的挑战

所以大脑处理是很复杂的、重要的挑战是多义性和多样性（比如近义词很有挑战，所以语言理解是要做复杂的映射，不同的语义是有不同的）

I saw a girl with a telescope 典型歧义，是用望远镜看那个女孩还是那个带望远镜的女孩，要有上下文去理解

对话

刚才是语言理解，看一句话的理解都是很复杂的。其实对话也很复杂、对话是完成一个任务都是有目的，我们带着功能的角度来说。

动机层面（聊天为了交流、人都是害怕孤独的）闲聊的特点是目标可以随时变化，有新的目标就会换下一个话题，都是动态的，但每一个话题都是为了完成一定的目的，而且另一个特点就是闲聊可以随时被打断。

举例：女孩要去party，妈妈没说同意只是说要穿什么衣服，然后话题转向计划去买鞋，很典型的对话 ——局部有目标但是在动态变化，所以计算机做的比较难。

复杂 Complexity

前面我们说很复杂，其实计算机做的就是模型化去完成一个任务，对话是两个人在交流的一个状态下所有的谈话内容，这个历史记录是非常庞大的。

对话面对的三大挑战：多义性、多样性、复杂性。

问题和解决方法

所以我们看现在计算机深度学习发展是什么样，有什么问题和解决方法。

单人对话有三种解决方法，多人对话也有自己的特点。

具体来说单人对话分成三种形式：分析、检索、生成。基于分析就是分类问题，检索当成匹配问题，生成当做是翻译问题。

这三种不同的方法区别在于有没有显示的语义表达，三种方法各有特点和不同应用领域。

云助手一般是第一种，问答系统一般是第二种，聊天机器人一般应用第三种。

我们来细看一下单人对话这三种方法。

基于分析，系统有分析器和执行器，语义理解有映射，把说的话分类。

第二种：检索、搜索。结果反馈给用户，日常都在用，聊天机器人比较多，问答很多。问答也是对话的一种，这样直接就将结果反馈出来。

第三种：生成。这是比较新的系统，目前还不太好做。把问句转化成内部表示，然后再转化为答句。

我们接着分析多轮对话的技术

主要分为以下几块：自然语言理解、自然语言生成、对话管理。

Current status of research on diaglue

从15年深度学习开始进入自然语言处理，并且也带来了很大的变化，机器翻译就是一类。

最近的几个例子

neural symbolic machies

特点是结合符号处理和神经处理，大概框架是和分析是一样的

还有诺亚方舟也提出 Neural Enquirer and symbolic enquirer也是基于分析做的这样的一个系统。

微软也提出Deep reinforcement learning处理方法。

我们都知道，对话是有一个目标的，可以把它分成层次，主要附属目标等等，学习也可以层次化。

未来

最近还没有很大很新的突破，但以后还有很多研究是可以去做的，以下是我觉得有很大突破点的研究课题。

比如第一个还不知道怎么定义，“语义落地？”，这一块还是需要深入研究的，比如多义性多样性的挑战。

很多知识是可以相结合的，比如我们把符号处理和深度学习相结合。

我们看到的语言对话系统还是分层次分模块的

最后我们回顾一下总结

构建像人一样的对话系统为什么那么难，目前有什么样的结论呢？

场景限定、任务驱动这一块我们会做的越来愈好

核心挑战（从功能的角度来看：语言理解很难要去做映射，本质原因是不知道人是怎么理解语言、实际人脑机制并不了解、所以只能从功能上越来越逼近、但还是有很多挑战。

同时我们也说语言理解多义性多样性还有其复杂度。真正像人一样的聊天是很难的，因为人聊天的时候话题和目标是动态的，所以会更难。

总结：从几个角度看对话

功能角度：人工智能在短期是要从合理行动的这个角度去看。

人脑也是一种计算机我们在功能上看如何不断逼近，应对多义性多样性复杂度这样的挑战。

现在技术还是比较简单的，但还没有达到人的水平，未来在我们生活中会有更多的对话系统去使用。

Q：感谢李总在对话这个角度，从现在的问题还有语言学的角度去分析，并且也列举现在的挑战还有未来的发展方向，这是很全面的。我们的第一个问题就是深度学习现在是一个新的窗口，和传统的学习方法来比，未来深度学习会不会成为一个主要的方法，在自然语言这方面。

A：自然语言最大的特点是符号和深度学习的结合。深度学习的威力是很大的，相当于复杂函数的近似学习，比传统的简单模型更强大，和人脑更相似。深度学习强调表征学习，用向量来表示各种概念。

局限：用的数据量还有学习时间远超过人的能力，所以和人还是有差距的。现在的深度神经网络，在历史上是受猫的神经的启发。我们现在期待新的模型算法或者在此基础上有新的技术能够高效的模拟人脑或者超过人脑做得更好。但是个人认为现在是有挑战性的，也是未来突破点。因为自然语言处理还是有难度的，对人脑的研究很关注，类脑计算是很重要的一个方向。

Q：现在来看深度学习从自然语言的角度来看还是一个很难的问题，相对图像处理还是很辛苦的。后来一定程度借鉴神经网络，但自然语言是更困难的，还需要一点时间。比如聊天的时候全脑都在参与。另外我们探讨一下传统的方法和现在深度学习有什么有机的结合点，还是各走各的路？

A：现在有很多东西在做这种事，有一定挑战，但还没有看到好的结果，很难提升的一个空间。这是短期一个重要的研究课题。

Q：现在探讨应用，机器学习在翻译上是很好的，几乎可以认为达到人水平的已经可以了，那动态翻译、实时翻译下一步还会有什么进展、挑战？比如迟延

A：这一块我没有直接做但是还是可以突破的，主要是数据，比如迟延，同声翻译。人说完了再去启动翻译计算机可以做同样的事情，挑战主要在数据上。符号序列的转换，现实还不是那么理想，但如何解决也是一个重要的研究课题

Q：很多人有一个理想，不想学外语

A：哈哈这个以后可能可以实现。以后可以做的更好，翻译语音识别以后会越做越好。

Q：时间差压缩多少，讲一遍、翻译一遍、这个时间差能不能实现短时翻译？

A：还挺难的，因为不同语言的语序表达就是不一样的。

Q：现在有一个很大的趋势，智能家居，整体来讲，都是一个终端，比如国内的音箱大战。你个人对将来的战事是怎么感觉的，从从用户体验还有商业来看会往哪发展？

A：商业来看：智能家居，很多人愿意参与并且很重要，商业角度还是很重要的。技术上来说，只要有数据还有资金人才的投入还是会发展很快的，循环起来。

Q：自然领域，经常说人工智能是有多少智能就是有多少人工，另一个探讨的就是人类在信息的接受上眼镜占得比重很大，但是在输出上语言是百分之70 。所以从交互上人对外的输出键盘鼠标到现在触屏，未来的交互方式可能是语言，你对这个怎么看？

A：语音识别越来越好，但是噪音大，原场的一定困难还是很难解决，但是会解决的。短期十年到二十年，人和计算机的交互不能只用语音，有天然不利的因素，比如场合不合适、人多的时候可能吵到别人还有隐私保密、噪音等等问题。未来还是多形式的！

Q：还需要时间，习惯是很重要的，比如我们现在习惯输入。比如siri最大的用户就是小孩还有老人。语音习惯转化还是需要时间。但是未来也是多形式的，只是语音的比重可能会越来越上升。

再说对抗生成技术做到很多技术是很好的，摩登原始人做动画，虽然不是很精美但是还是很好的。图像在往动画去尝试，那么自然语言上有没有新的尝试，比如生成上是什么水平，理想主义离我们还有多远，大体现在是什么情况。

A：生成，序列对序列，有条件的生成目前还是不错的。没有条件的还是有挑战的，比如今日头条有小明机器人写文章还是基于模板。小明现在已经写了三万多篇——小明看世界。这是机器人写的，有了很高的阅读量和人写的水平是持平。但他的技术还没运用深度学习，这方面还是有点困难的，也在研究。文学创造还是很难的，人创作的能力又是另外一个层次能力。我们刚才说的只是简单的概念。深度学习在创作这方面还是远远达不到人的

Q：自然语言领域很多，用最新的深度学习比如人机翻译还是不错的,但真正的自然语言理解比如背后的问答它背后还是有很多传统的方法。一定程度还是有挑战，看pr要看有多少水分也要投资了解技术的进展. 从创业角度来看，你觉得未来自然语言还有哪儿些可以突袭的机会？

A：如果人工智能系统单打独斗只靠自己去完成一个系统还是很困难的。已有的产品服务，加上人工智能会变得更智能化，成功的一般也都是在这一块。专门靠人工智能技术，比如人脸识别还有自然语言处理识别，其他的东西还是比较困难的。怎么样跟已有的技术结合，能够给用户更好的产品和服务，主流在短期还是不会有太大变化。这个发展还是有周期的，短期结合已有的技术，体验还是会要不断提高。

Q：有些东西像比如遥控器就不好用，以后可能会进一步改善。很多时候一个技术本身单独创业是不容易，但比如说视觉和安防的结合，因为视觉对安防是很重要的，这样去创业是比较合理的。但如果说一个领域是比较新的比如自然语言去做一个人机交互的空调，如何更smart这是以后要考虑的一些问题。(同学的问题:我们都学你的统计学习方法，如何看待它和深度学习的关系？

A：这是一脉相承，相关联的。深度也超过了传统统计的学习范畴，比如符号处理、神经学习，有很多新的模型。很多最基本的思想就是计算机有控制、内存。这些就是用神经网络去控制，这些都超过了传统学习的范围，和人的机理模型结合。

Q：怎么学统计学习方法，才能学得更好

A：我也很注意书评。我写书的主要是把基本的概念推导写出来，方便自己记忆也方便大家理解，像一个读书笔记。这不像是一个入门书，只是方法是基本的，读这本书主要是了解有些概念，但是原理可能会不太了解。学这些之前也一定要一些基本概念的基础。

Q：很多时候需要很多的训练，所以同学问有哪些引料？是开放使用的？方便大家学习。

A：数据也是一门学问，大数据绝大多数都是无标注的数据。是无监督学习，一般常用的还是监督学习。标注数据，分类、回归等，有很多标注数据学习。所以这个标注数据怎么去标，采样有代表性的数据等。这都是一个系统的模型，现实中有很多人做这个研究，这也是一个趋势。目前有很多研究，数据集公开让大家研究应用，这也是一个很好的方法。目前也没有绝招，数据采集不是很简单的可以拿到，因为任务还是不一样的，但是用小数据构建智能系统减少人的工作量。

Q：这跟人的需求，找数据多用搜索引擎查查。最后一个小问题自然语言是我们生活中的一个状态，那计算机程序语言先把它解决了，以后码农会不会下岗？

A：自动生成代码，一定范围内是可以做的。但个人观点也不是那么容易的。人工语言的语法是严谨的，语义是很复杂的，代码表达的语义是复杂的。怎么样用自然语言去描述你要实现的功能，不排除在特定场景下有类似的代码，有大量这样的数据，这种可能是有的。

Q：我觉得从高层设计填代码还好，但是design还是很难的。生成上错一个字或者，代码还是要求很高的，还是有一些挑战的。

A：所以做计算机的还不用担心失业。

阅读剩余内容

未来的句子

今日头条李航：自然语言对话的现状与未来

对话今日头条马维英：我们有责任用技术为人类带来福祉

对话“今日头条”张一鸣：反思这场不被祝福的融资

对话今日头条CEO 抖音总裁：多闪到底是怎样的社交产品

对话今日头条CEO 抖音总裁：多闪到底是怎样的社交产品

对话王俊煜：做一款站在今日头条对立面上的阅读产品是必要的吗？

苏世民对话沈南鹏：哪些行业有前景？如何穿越周期？丨今日头条直播实录