基于大模型原生流式音频交互的3D数字人系统

正文

推荐专利

申请号：CN202510079485

申请日期：2025-01-18

公开号：CN119943044A

公开日期：2025-05-06

类型：发明专利

摘要

本申请涉及数字人技术领域，其具体地公开了一种基于端到端语音大模型的3D数字人流式音频交互系统，其采用流式音频输入接口来实现实时接收用户的语音指令和交互内容，使用了先进的特征提取框架来进行语音特征提取和语义分析，从而有助于更为及时准确地理解用户的语音交互内容语义，基于端到端语音大模型直接生成精准的语音回复，并基于该语音回复来实现对3D数字人的流式驱动。这样，不仅提升了交互的真实感和沉浸感，而且增强了3D数字人系统的智能化水平，为各种应用场景下的高效沟通开辟了新的可能性。

技术关键词

交互内容音频交互系统编码向量序列音频解码器语义向量音频适配器音频输入接口信号生成单元编码特征词特征大语言模型 Sigmoid函数信号编码语音特征提取上采样生成驱动信号

系统为您推荐了相关专利信息

基于同源搜索的微生物小蛋白注释方法

注释方法蛋白序列栖息地开放阅读框

一种视频监控图像的处理方法及系统

视频监控图像切片人脸机器人图像识别技术

一种基于协议解析的工控私有网络协议漏洞挖掘方法及系统

漏洞挖掘系统心跳报文协议状态机格式指纹

长时间序列遥感影像数据处理方法、系统、设备、介质及产品

序列遥感影像数据处理方法感兴趣遥感影像数据指标

基于预报径流校正的梯级水电站发电风险效益均衡调度方法

均衡调度方法预报误差发电量风险校正

基于大模型原生流式音频交互的3D数字人系统

站点导航

APP 下载