<汇港通讯> 百度(09888)应用模型研发部负责人贾磊今日表示,文心应用模型旨在实现从行业到专精的突破,赋能千行百业。在文心基础大模型之下,构建了矩阵模型与专精模型两大体系,同时也在各个行业持续推进专精模型的研发。
他主要介绍语音合成大模型技术及实时交互数字人技术这两项核心技术及应用。其中,语音合成大模型基於声音Token打造端到端合成系统,通过离散化处理满帧语音Token,构建MOE大语言模型描述声音韵律与情感,搭配Flow後处理模型及UNet自重构技术,实现文字直接生成Waveform音频点。
针对数字人实时交互的成本高、反应慢等痛点,贾磊指出,文心创新打通语音、图像、视频的Token互通,实现三者共享Token、级联运行。最终整合数字人动作库与面部表情库,生成低延迟、低成本、高表现力的实时数字人视频流。
贾磊强调,文心应用模型的核心价值在於落地应用,通过技术优化让大模型在真实场景中「跑得稳、答得对、用得起」,真正赋能千行百业。
#百度 #文心 #人工智能
(CW)
新闻来源 (不包括新闻图片): 汇港资讯