TensorFlow 自动句子语义编码 谷歌开源机器学习模型 Skip
- 相关推荐
一个训练好的 Skip-Thoughts 模型会在嵌入的向量空间中对相互临近的相似句子进行编码。以下示例展示了对电影评论数据集中的一些句子的余弦相似性的最近邻域。
Skip-Thought 模型是 NIPS 2015论文 Skip-Thought Vectors中描述的模型的一个 TensorFlow 实现,学习对句子的语义属性进行编码。
引用:Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler. Skip-Thought Vectors.In NIPS, 2015.
论文下载地址:https://papers.nips.cc/paper/5950-skip-thought-vectors.pdf
摘要:
我们描述了一种通用、分布式句子编码器的无监督学习方法。使用从书籍中提取的连续文本,我们训练了一个编码器-解码器模型,试图重建编码段落周围的句子。语义和语法属性一致的句子因此被映射到相似的向量表示。我们接着引入一个简单的词汇扩展方法来编码不再训练预料内的单词,令词汇量扩展到一百万词。在训练模型后,我们用线性模型在8个任务上提取和评估我们的向量,包括:语义相关性,释义检测,图像句子排序,问题类型归类,以及4个基准情绪和主观性数据集。最终的结果是一个非专门设计的编码器,能够生成高度通用性的句子表示,在实践中表现良好。
编码句子示例
该示例的句子来自电影评论数据集(Movie Review Data)。
输出:
Github 开源内容:
入门
安装所需软件包
下载预训练模型(可选)
训练模型
准备训练数据
运行训练脚本
跟踪训练进度
扩展词汇
概述
准备
运行词汇扩展脚本
评估模型
概述
准备
运行评估任务
编码句子
开源地址:https://github.com/tensorflow/models/tree/master/skip_thoughts
新智元“3·27”AI 技术峰会购票二维码: