摘要
本发明提供可交互的多模态人工智能数字人自动讲解方法及系统,涉及人工智能体数字人技术领域,包括通过将文档转换为结构化文件,利用多模态人工智能模型解析图片序列得到文本内容,采用大语言模型及人工智能体构建讲解文本,并通过人工智能体将音频与数字人及讲解内容合成,并在播放过程中实现交互功能。本发明能够实现传统展示文档通过数字人与用户的实时交互,提高讲解内容理解效率,增强用户体验,适用于教育、展示、展览、文旅等多种场景。
技术关键词
文字转语音模块
人工智能体
音频
语音激活检测
三次样条函数
大语言模型
关节
图片
人声
骨骼运动轨迹
文本段落
人工智能模型
逆运动学
表情模型
位姿误差
语音活动检测
骨骼模型
依存句法树
生成语音
系统为您推荐了相关专利信息
多模态对话
大语言模型
文本生成模型
图片
机器可读指令
数据挖掘方法
对话系统
预训练语言模型
学习识别系统
可执行程序代码
语音情感识别方法
语音情感识别模型
空间多尺度
高效多尺度
语音情感识别设备
音乐流派分类方法
注意力机制
音频特征提取
知识图谱构建
分支
语音识别方法
麦克风阵列
会议设备
音频
语音唤醒模型