Iflytek语音综合技术升级以使AI的声音“上下文情

- 编辑:皇冠APP官方下载 -

Iflytek语音综合技术升级以使AI的声音“上下文情

北京新闻贝克金融(记者lu Yidan)于6月26日新近升级Iflytek合成,并且繁殖声音和超拟人化合成的两个基本能力已经取得了出色的成就。此时IFLYTEK技术成功的关键是Spark Voice语音底座的基础和连续复发的补充,还建立了三阶段的层次级别的声音模型。首先,发音模式和节奏属性是通过火花基本模型准确获得的。其次,在音调恢复音调期间,腐烂和重建声学特征。最后,高精度波形由高精度的Vocoder恢复。该语音建模大纲因语义表示而下降,并使用了MEL VQ-AE模型,并伴随着类别的自我监督预训练的编码器。该结构实现了发音内容和音调特性的控制分离,并显着改善了SEMA的建模NTIC LLM稳定性。只需录制句子,AI就可以完全捕获用户的喉部共鸣,口音特性,呼吸流和其他发音属性,准确地恢复用户暂停习惯,情感上的起义和下降和呼吸节奏,并实现复制效应。在需要深入沟通的情况下,类似的音调还不够。超级拟人化合成的重点目前是Iflytek技术,是为了使AI的声音“上下文情感智力”。面对Diyalogo的许多周期的复杂性,Iflytek开发了一种意识到上下文的语音产生系统。该系统结合了音频的历史文本和相应的特征,并通过跨模式编码器分析上下文,使AI的声音能够对情感变化和主题变化(例如真实的人)进行努力响应。在测试真实人们的对话和人工智能的声音中,随着主题和情感的变化,T的语气他的合成声音是实时固定的,提供了适当的情感反应,并且一般的自然性接近真实的人层面。 Iflytek研究所主任Liu Cong说:“我们希望声音不仅是工具,而且会成为一种新的规模,它带来了情感和个性,赋予许多情况并创造更多的可能性。”萨里(Sari -ai)的情感时期声音加速了真相。校对Mu Xiangtong