句子大全

句子大全 > 句子大全

猎豹CEO傅盛抖音晒新技术:10段话合成人声

句子大全 2009-06-10 15:25:04
相关推荐

猎豹CEO傅盛抖音晒新技术:10段话合成人声2018-11-05 17:49

凤凰网科技讯(作者/刘正伟)11月5日消息,猎豹移动董事长兼CEO傅盛在自己的抖音号上发布了一条视频,内容是和世界上的另一个“自己”进行了一场隔空对话。短短几十秒里,这个机器人“傅盛”的对答、绕口令样样精通,让人很难确认出哪一个才是真正的傅盛。

据了解,这是猎豹移动旗下人工智能公司猎户星空研发的TTS语音合成技术:只要听十段你的话,就可以克隆你的声音。

传统的TTS系统通常包括前端、后端两个模块。前端模块主要负责对输入文本进行分析,提取语言学信息,如果是中文还涉及文本正则化、分词、词性预测、多音字消歧、韵律预测等,后端模块根据前端的分析结果,通过一定的方法生成语音波形。

后端系统的主流技术有两种,一种是基于统计参数建模的语音合成,或者叫做参数合成、参数法,优点是所需语料库少,几千句即可,训练与合成过程也都可以由程序自动完成,但缺点是语音质量不高,情感韵律平淡。

另一种是基于单元挑选和波形拼接的语音合成,或者叫做拼接合成、拼接法,与参数法相反,优点是合成语音自然度很好,缺点就是数据要求太大,至少万句语料才能满足商用需求,一些厂商会请声优为其智能产品录制语料库,前后时间长达数月,花费动辄几百万。

随着人工智能、深度学习的应用,TTS也迎来了新的变革。2017年3月,Google 提出了一种新的端到端的语音合成系统:Tacotron。它可将接收的输入字符,输出成相应的原始频谱图,然后提供给Griffin-Lim重建算法生成语音。2017年底,Tacotron 2结合了WaveNet和Tacotron的优势,不需要任何语法知识即可直接输出文本对应的语音。

在已有的技术创新铺垫下,猎户星空TTS团队在Tactron的基础上,训练了大语料库的语音库作为基础模型,目标发音人只需要录制10段话,通过Adapt自适应模型,提取出目标发音人的特征,再通过World声码器,即可合成出目标发音人音色相同的语音。

所以,这项技术真正落地商用后,将为明星语音、个性化语音的合成带来重大突破,尤其是很大程度上减少明星音合成的成本、缩短应用研发的周期。

除此之外,猎户星空已掌握麦克风阵列、语音唤醒、语音识别、语义理解和语音合成等全套远场语音技术,语音交互更快更准,垂直领域深度语义理解正确率96%,还首创了唤醒后人声回应。

截至目前,搭载猎户语音合成技术的智能音箱产品在国内份额已超30%,每天都超过2000万次语音服务请求,比如小米AI助理小爱同学月活跃设备超过3000万台,累计唤醒超50亿次。

责任编辑:王宁 PT031热点新闻

阅读剩余内容
网友评论
相关内容
拓展阅读
最近更新