一种基于多模态融合的AI数字人播报方法及应用平台

正文

推荐专利

申请号：CN202411530386

申请日期：2024-10-30

公开号：CN119520933A

公开日期：2025-02-25

类型：发明专利

摘要

本发明提供一种基于多模态融合的AI数字人播报方法及应用平台，所述方法包括：步骤1：采集多模态原始数据并进行预处理，所述多模态数据包括语音、文本、图像组成的多种模态的原始数据；步骤2：将预处理后的多模态数据进行多模态特征提取与融合；步骤3：基于融合后的表征向量，生成AI数字人的语音播报内容，同步生成与语音播报内容相匹配的动态图像和文本提示，确保信息多维度展示；步骤4：对生成的语音、文本和图像播报内容进行优化与输出。本发明通过优化AI数字人的语速、语调、表情、动作细节，以及提供多感官刺激如视觉、听觉，显著提升了用户的观看体验和互动意愿，有助于增强品牌形象和记忆点，提升AI数字人播报平台的转化率和应用价值。

技术关键词

多模态播报方法语音 RNN模型融合算法计算机图形学技术深度学习模型融合方法文本特征向量图像特征向量数据采集单元数据处理单元平台自然语言处理器真实感动态

系统为您推荐了相关专利信息

基于自组网麦克风阵列的几何感知语音分离方法

多任务损失函数自组网卷积循环神经网络协方差矩阵短时傅里叶变换

一种船用智能开关恒电位控制系统及控制方法

恒电位仪工业计算机智能开关远程控制中心 PID控制器

一种多模态数据驱动的智能广告投放系统及方法

智能广告投放方法多模态智能广告投放系统因子深度神经网络模型

一种基于智能传感技术的建筑结构抗震健康监测系统

智能传感技术建筑结构抗震健康监测系统数据处理中心预警模块

基于多模态大模型认知智能驱动的小模型自动化训练方法

多模态标注策略训练图像数据自动化训练系统训练样本集

一种基于多模态融合的AI数字人播报方法及应用平台

站点导航

APP 下载