基于级联的多模态数字人实时对话系统及方法

正文

推荐专利

申请号：CN202510689252

申请日期：2025-05-27

公开号：CN120510848A

公开日期：2025-08-19

类型：发明专利

摘要

本发明公开了基于级联的多模态数字人实时对话系统及方法，属于人工智能技术领域，要解决的技术问题为：如何实现高效、多模态且可定制的数字人实时对话。包括：语音识别模块，用于通过工业级语音识别工具包将用户语音转换为文本信息；大语音模型模块，用于根据语音识别模块输出的文本生成对话回复信息；文本转语音模块，用于将大语音模型模块输出的回复信息转换为语音信息；说话人生成模块，用于基于语音信息、通过精确唇形同步技术生成数字人说话视频；前后端交互模块，用于实现视频的流式传输以及用户交互。

技术关键词

对话系统语音识别模块对话方法生成数字人工具包文本级联语音识别服务交叉注意力机制并行流水线生成提示词视频帧音频编码多模态大语言模型人工智能技术单轮

系统为您推荐了相关专利信息

数字人生成方法、装置、设备及介质

姿态特征情感特征音频特征融合特征训练特征

基于分布式生成模式物联网数据告警阈值管理方法及系统

分布式物联网管理方法关键词语音识别模块文本

一种个性化认知疲劳模型的建立方法

生理特征数据深度学习分类模型模型建立方法正确率深度学习模型

查验方法、查验系统、和AR设备

查验设备查验方法车辆查验系统扫描设备

多标识网络体系中扩展运营商手机号码标识的方法及系统

手机号码标识 SDK工具包标识管理系统服务端客户端

基于级联的多模态数字人实时对话系统及方法

站点导航

APP 下载