可交互的多模态人工智能数字人自动讲解方法及系统

正文

推荐专利

申请号：CN202511094278

申请日期：2025-08-06

公开号：CN120596655B

公开日期：2025-10-14

类型：发明专利

摘要

本发明提供可交互的多模态人工智能数字人自动讲解方法及系统，涉及人工智能体数字人技术领域，包括通过将文档转换为结构化文件，利用多模态人工智能模型解析图片序列得到文本内容，采用大语言模型及人工智能体构建讲解文本，并通过人工智能体将音频与数字人及讲解内容合成，并在播放过程中实现交互功能。本发明能够实现传统展示文档通过数字人与用户的实时交互，提高讲解内容理解效率，增强用户体验，适用于教育、展示、展览、文旅等多种场景。

技术关键词

文字转语音模块人工智能体音频语音激活检测三次样条函数大语言模型关节图片人声骨骼运动轨迹文本段落人工智能模型逆运动学表情模型位姿误差语音活动检测骨骼模型依存句法树生成语音

系统为您推荐了相关专利信息

多模态对话处理方法、装置、电子设备及存储介质

多模态对话大语言模型文本生成模型图片机器可读指令

一种对话系统的数据挖掘方法及系统

数据挖掘方法对话系统预训练语言模型学习识别系统可执行程序代码

一种多尺度语音情感识别方法、设备、介质及产品

语音情感识别方法语音情感识别模型空间多尺度高效多尺度语音情感识别设备

一种基于知识图谱与反事实注意力机制的音乐流派分类方法

音乐流派分类方法注意力机制音频特征提取知识图谱构建分支

一种用于麦克风阵列会议设备的语音识别方法及装置

语音识别方法麦克风阵列会议设备音频语音唤醒模型

可交互的多模态人工智能数字人自动讲解方法及系统

站点导航

APP 下载