可交互的多模态人工智能数字人自动讲解方法及系统

AITNT
正文
推荐专利
可交互的多模态人工智能数字人自动讲解方法及系统
申请号:CN202511094278
申请日期:2025-08-06
公开号:CN120596655B
公开日期:2025-10-14
类型:发明专利
摘要
本发明提供可交互的多模态人工智能数字人自动讲解方法及系统,涉及人工智能体数字人技术领域,包括通过将文档转换为结构化文件,利用多模态人工智能模型解析图片序列得到文本内容,采用大语言模型及人工智能体构建讲解文本,并通过人工智能体将音频与数字人及讲解内容合成,并在播放过程中实现交互功能。本发明能够实现传统展示文档通过数字人与用户的实时交互,提高讲解内容理解效率,增强用户体验,适用于教育、展示、展览、文旅等多种场景。
技术关键词
文字转语音模块 人工智能体 音频 语音激活检测 三次样条函数 大语言模型 关节 图片 人声 骨骼运动轨迹 文本段落 人工智能模型 逆运动学 表情模型 位姿误差 语音活动检测 骨骼模型 依存句法树 生成语音
系统为您推荐了相关专利信息
1
多模态对话处理方法、装置、电子设备及存储介质
多模态对话 大语言模型 文本生成模型 图片 机器可读指令
2
一种对话系统的数据挖掘方法及系统
数据挖掘方法 对话系统 预训练语言模型 学习识别系统 可执行程序代码
3
一种多尺度语音情感识别方法、设备、介质及产品
语音情感识别方法 语音情感识别模型 空间多尺度 高效多尺度 语音情感识别设备
4
一种基于知识图谱与反事实注意力机制的音乐流派分类方法
音乐流派分类方法 注意力机制 音频特征提取 知识图谱构建 分支
5
一种用于麦克风阵列会议设备的语音识别方法及装置
语音识别方法 麦克风阵列 会议设备 音频 语音唤醒模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号