摘要
本申请属于人工智能技术领域,涉及一种基于人工智能的内容数据生成方法、装置、计算机设备及存储介质,包括:接收与目标视频对应的视觉输入、音频输入及文本输入;调用包括输入层、分层复合注意力模块及决策模块的融合处理模型;基于输入层对视觉输入、音频输入及文本输入进行特征提取,得到视觉特征、音频特征及文本特征;基于分层复合注意力模块对视觉特征、音频特征及文本特征进行特征融合得到融合特征;基于决策模块对融合特征进行处理,生成目标视频的内容描述;对内容描述进行输出。此外,本申请的内容描述可存储于区块链中。本申请可应用于金融领域和医疗领域中的内容数据生成场景,通过本申请有效地提高了视频内容描述的生成效率。
技术关键词
内容数据生成方法
注意力
音频特征
视觉特征
跨模态
文本
融合特征
计算机可读指令
多任务损失函数
分层
模块
决策
视频
数据生成装置
计算机设备
可读存储介质
分支
人工智能技术