基于大模型原生流式音频交互的3D数字人系统

AITNT
正文
推荐专利
基于大模型原生流式音频交互的3D数字人系统
申请号:CN202510079485
申请日期:2025-01-18
公开号:CN119943044A
公开日期:2025-05-06
类型:发明专利
摘要
本申请涉及数字人技术领域,其具体地公开了一种基于端到端语音大模型的3D数字人流式音频交互系统,其采用流式音频输入接口来实现实时接收用户的语音指令和交互内容,使用了先进的特征提取框架来进行语音特征提取和语义分析,从而有助于更为及时准确地理解用户的语音交互内容语义,基于端到端语音大模型直接生成精准的语音回复,并基于该语音回复来实现对3D数字人的流式驱动。这样,不仅提升了交互的真实感和沉浸感,而且增强了3D数字人系统的智能化水平,为各种应用场景下的高效沟通开辟了新的可能性。
技术关键词
交互内容 音频交互系统 编码向量 序列 音频解码器 语义向量 音频适配器 音频输入接口 信号生成单元 编码特征 词特征 大语言模型 Sigmoid函数 信号编码 语音特征提取 上采样 生成驱动信号
系统为您推荐了相关专利信息
1
基于同源搜索的微生物小蛋白注释方法
注释方法 蛋白 序列 栖息地 开放阅读框
2
一种视频监控图像的处理方法及系统
视频监控图像 切片 人脸 机器人 图像识别技术
3
一种基于协议解析的工控私有网络协议漏洞挖掘方法及系统
漏洞挖掘系统 心跳报文 协议状态机 格式 指纹
4
长时间序列遥感影像数据处理方法、系统、设备、介质及产品
序列遥感影像 数据处理方法 感兴趣 遥感影像数据 指标
5
基于预报径流校正的梯级水电站发电风险效益均衡调度方法
均衡调度方法 预报误差 发电量 风险 校正
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号