猎豹CEO傅盛抖音晒新技术：10段话合成人声

句子大全 2009-06-10 15:25:04

相关推荐

猎豹CEO傅盛抖音晒新技术：10段话合成人声2018-11-05 17:49

凤凰网科技讯（作者/刘正伟）11月5日消息，猎豹移动董事长兼CEO傅盛在自己的抖音号上发布了一条视频，内容是和世界上的另一个“自己”进行了一场隔空对话。短短几十秒里，这个机器人“傅盛”的对答、绕口令样样精通，让人很难确认出哪一个才是真正的傅盛。

据了解，这是猎豹移动旗下人工智能公司猎户星空研发的TTS语音合成技术：只要听十段你的话，就可以克隆你的声音。

传统的TTS系统通常包括前端、后端两个模块。前端模块主要负责对输入文本进行分析，提取语言学信息，如果是中文还涉及文本正则化、分词、词性预测、多音字消歧、韵律预测等，后端模块根据前端的分析结果，通过一定的方法生成语音波形。

后端系统的主流技术有两种，一种是基于统计参数建模的语音合成，或者叫做参数合成、参数法，优点是所需语料库少，几千句即可，训练与合成过程也都可以由程序自动完成，但缺点是语音质量不高，情感韵律平淡。

另一种是基于单元挑选和波形拼接的语音合成，或者叫做拼接合成、拼接法，与参数法相反，优点是合成语音自然度很好，缺点就是数据要求太大，至少万句语料才能满足商用需求，一些厂商会请声优为其智能产品录制语料库，前后时间长达数月，花费动辄几百万。

随着人工智能、深度学习的应用，TTS也迎来了新的变革。2017年3月，Google 提出了一种新的端到端的语音合成系统：Tacotron。它可将接收的输入字符，输出成相应的原始频谱图，然后提供给Griffin-Lim重建算法生成语音。2017年底，Tacotron 2结合了WaveNet和Tacotron的优势，不需要任何语法知识即可直接输出文本对应的语音。

在已有的技术创新铺垫下，猎户星空TTS团队在Tactron的基础上，训练了大语料库的语音库作为基础模型，目标发音人只需要录制10段话，通过Adapt自适应模型，提取出目标发音人的特征，再通过World声码器，即可合成出目标发音人音色相同的语音。

所以，这项技术真正落地商用后，将为明星语音、个性化语音的合成带来重大突破，尤其是很大程度上减少明星音合成的成本、缩短应用研发的周期。

除此之外，猎户星空已掌握麦克风阵列、语音唤醒、语音识别、语义理解和语音合成等全套远场语音技术，语音交互更快更准，垂直领域深度语义理解正确率96％，还首创了唤醒后人声回应。

截至目前，搭载猎户语音合成技术的智能音箱产品在国内份额已超30％，每天都超过2000万次语音服务请求，比如小米AI助理小爱同学月活跃设备超过3000万台，累计唤醒超50亿次。

责任编辑：王宁 PT031热点新闻

阅读剩余内容

关于猎豹的句子

猎豹CEO傅盛抖音晒新技术：10段话合成人声

新技术将脑信号合成语音有望帮助失语者重获“说话”能力

艾诚对话猎豹傅盛：一个差点成为“Tik

经纬张颖对话猎豹傅盛：与今日头条联手海外内容输出便于猎豹移动 all in AI

猎豹移动傅盛GMIC对话：人生志向是做传世之作

猎豹傅盛财报电话会实录：发挥AI优势搭建内容平台

傅盛分析师电话会议发言：猎豹工具业务有信心持续增长和盈利