摘要
本发明提供了一种基于视频数据的事件描述文本生成方法、装置和设备,可以应用于计算机视觉领域。该方法包括:基于待处理视频数据构建视频场景图数据,视频场景图数据包括对象节点和边关系,对象节点表征待处理视频数据中的人物对象和与人物对象相关的物体对象;基于训练后的情感分类器对待处理视频数据进行处理,得到目标情感属性节点,目标情感属性节点表征人物对象的情感属性;基于目标情感属性节点更新视频场景图数据,得到视频知识图谱,视频知识图谱包括对象节点与目标情感属性节点之间的边关系;利用训练后的解码器处理视频知识图谱,得到用于描述人物对象行为的目标事件描述文本。
技术关键词
情感分类器
视频
对象
文本生成方法
上下文特征
节点特征
数据
图谱
情感类别
解码器
节点更新
多模态
情感特征
训练特征
加权特征
场景
音频特征
文本生成装置