摘要
本发明属于视频图像处理技术领域,具体涉及一种基于视觉证据的视频描述物体幻觉修正方法;包括:获取待视频描述的视频并对其进行特征提取,得到最终视频特征;采用GPT‑2模型对最终视频特征进行处理,得到视频的候选描述词;根据候选描述词得到候选视频描述文本;采用幻觉诊断模块对待描述的视频和视频描述文本进行处理,得到幻觉分类结果;采用场景图生成模型从待视频描述的视频中提取视觉关键信息,根据视觉关键信息得到结构化视觉证据;根据视频候选描述词和结构化视觉证据对幻觉分类结果中被判断为物体幻觉的词进行修正,得到高质量的视频描述文本;本发明能更好描述视觉内容中的真实物体,生成高质量的视频描述文本。
技术关键词
视频帧
修正方法
视觉
文本
物体
动作特征
诊断模块
注意力机制
多模态特征
视频图像处理技术
解码器
序列
冗余
场景
时序
网络
系统为您推荐了相关专利信息
无人机检测方法
文本
标签
深度学习算法
图像特征组合
多意图识别方法
意图识别模型
文本
邻居
意图类别
全景图像数据
物体检测模型
图像语义分割
预测运动轨迹
异常信息
图像对象特征
图像识别模型
图像识别方法
概念
视觉特征