毕业论文
您现在的位置: 电子琴 >> 电子琴资源 >> 正文 >> 正文

思必驰DUI平台上线单人千音功能

来源:电子琴 时间:2023/6/6

人类的语言五花八门,不同的国家有不同的语言,同一国家不同地区用同一种语言也有不同的发音,如想要表达“您好”,粤语发音为“雷吼哇!”,四川话则为“拟好!”

那么,如何让一款具有语音交互功能的AI产品既会说普通话又会说方言甚至外语呢?思必驰DUI平台“单人千音”功能通过深度神经网络对发音人音色进行建模,实现单个音色就能生成同时覆盖多种语言、多种风格的语音合成声音,极大丰富了合成语音的表现力。

同一AI产品,不同语言

方言受地理条件、历史经济等方面因素影响,在语音、词汇、语法等各个方面具有很大的差异性,突出的要数语音的差异性。在人机语音交互中,兼备普通话、方言、外语多般“武艺”的智能语音更能满足用户多样化的需求。

思必驰DUI平台“单人千音”功能推出臻品女声楚楚、臻品男声小军两款音色,每种音色可合成普通话、四川话、粤语等方言以及英语等外语,实现一个音色多语言的功能,满足智能车载、AI客服、视频配音、智能家居等场景下的使用。

思必驰DUI平台“单人千音”功能合成的粤语,可应用于车载语音场景中的内置导航,满足粤语方言用户的日常使用,增添人文情感色彩。

“稀客稀客”、“一路行前,转左就系了”,在银行、车站、机场等大厅中,一个在普通话、四川话、粤语、英语等各种语言自如切换的智能客服无疑会为来自天南地北的客人带来便利与亲切感。

短视频、动漫IP兴起,配音需求量随之增加,人们需要不同情感的合成语音来表达人物的喜怒哀乐。思必驰单人千音中的臻品女声楚楚,可支持中性、高兴、抱歉、撒娇四种情绪。

用户还可根据自身需求,对语速、音量进行调整,合成更符合产品的智能语音。

迁移学习技术,快速合成方言、外语

快速合成各种方言和不同语言的语音,思必驰是如何做到的?

迁移学习技术。

迁移学习(TransferLearning)是一种机器学习方法,就是从以前的任务当中去学习知识或经验,并应用于新的任务当中。目前,迁移学习方法大致可以分为三类:基于样本的迁移学习方法;基于特征的迁移学习方法;基于模型的迁移学习方法。

迁移学习对人类来说很常见,人类可以将以前学到的知识应用于解决新的问题,从而提高解决问题的效率或取得更好的效果。例如,我们学会开手动档汽车,有助于学习开自动档汽车。在学习电子琴的时候有助于将来学习钢琴。

在语音合成中,开发者往往面临大数据与少标注,大数据与弱计算的矛盾:虽然有大量的数据,但往往都是没有标注过的,人工进行数据标注太耗时,无法训练机器学习模型;没有庞大的数据量与计算资源,因此需要借助于模型的迁移。

迁移学习可以很好的解决以上矛盾,具有以下优点:

迁移学习对训练数据需求少,可更有效地利用现有数据;通过迁移学习的模型泛化能力更好;

迁移学习训练过程更稳定,更容易调试,可增加模型的鲁棒性;迁移学习可以实现定制化。

总之,迁移学习减少了构建深度学习模型所需的训练数据、计算能力和工程人才的数量。正是利用迁移技术,思必驰可以在短时间内快速将单个发音人的音色,合成为四川话、粤语等方言以及英语等外语。

下一步,思必驰单人千音功能将逐渐覆盖河南话、山东话、东北话等各地方言,并向日语、法语等跨国语言方向延伸,助力更多客户打造多语言的AI产品。

参考文献:

1《NLP迁移学习——迁移学习的概念与方法》J_Xiong,博客。

转载请注明:http://www.0431gb208.com/sjslczl/4948.html