基于级联的多模态数字人实时对话系统及方法

AITNT
正文
推荐专利
基于级联的多模态数字人实时对话系统及方法
申请号:CN202510689252
申请日期:2025-05-27
公开号:CN120510848A
公开日期:2025-08-19
类型:发明专利
摘要
本发明公开了基于级联的多模态数字人实时对话系统及方法,属于人工智能技术领域,要解决的技术问题为:如何实现高效、多模态且可定制的数字人实时对话。包括:语音识别模块,用于通过工业级语音识别工具包将用户语音转换为文本信息;大语音模型模块,用于根据语音识别模块输出的文本生成对话回复信息;文本转语音模块,用于将大语音模型模块输出的回复信息转换为语音信息;说话人生成模块,用于基于语音信息、通过精确唇形同步技术生成数字人说话视频;前后端交互模块,用于实现视频的流式传输以及用户交互。
技术关键词
对话系统 语音识别模块 对话方法 生成数字人 工具包 文本 级联 语音识别服务 交叉注意力机制 并行流水线 生成提示词 视频帧 音频编码 多模态 大语言模型 人工智能技术 单轮
系统为您推荐了相关专利信息
1
数字人名片生成方法、装置、智能设备和存储介质
名片生成方法 生成数字人 多模态 策略 模板
2
一种保险场景下的智能对话系统、方法及终端
智能对话方法 智能对话系统 客户 意图识别模型 情绪识别模型
3
一种基于段落相关性判别的迭代检索优化方法
预训练语言模型 向量检索方法 检索系统 对话系统 问答系统
4
动态规划的智能对话方法、装置、电子设备及存储介质
智能对话方法 多轮对话 画像数据库 序列 语义规则
5
一种基于面部动作疼痛状态的方法
人脸图片 面部动作单元 频繁项集挖掘 深度卷积神经网络 线性分类器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号