摘要
本申请涉及数字人技术领域,其具体地公开了一种基于端到端语音大模型的3D数字人流式音频交互系统,其采用流式音频输入接口来实现实时接收用户的语音指令和交互内容,使用了先进的特征提取框架来进行语音特征提取和语义分析,从而有助于更为及时准确地理解用户的语音交互内容语义,基于端到端语音大模型直接生成精准的语音回复,并基于该语音回复来实现对3D数字人的流式驱动。这样,不仅提升了交互的真实感和沉浸感,而且增强了3D数字人系统的智能化水平,为各种应用场景下的高效沟通开辟了新的可能性。
技术关键词
交互内容
音频交互系统
编码向量
序列
音频解码器
语义向量
音频适配器
音频输入接口
信号生成单元
编码特征
词特征
大语言模型
Sigmoid函数
信号编码
语音特征提取
上采样
生成驱动信号
系统为您推荐了相关专利信息
序列遥感影像
数据处理方法
感兴趣
遥感影像数据
指标