一种基于视觉证据的视频描述物体幻觉修正方法

正文

推荐专利

申请号：CN202410920987

申请日期：2024-07-10

公开号：CN118887582A

公开日期：2024-11-01

类型：发明专利

摘要

本发明属于视频图像处理技术领域，具体涉及一种基于视觉证据的视频描述物体幻觉修正方法；包括：获取待视频描述的视频并对其进行特征提取，得到最终视频特征；采用GPT‑2模型对最终视频特征进行处理，得到视频的候选描述词；根据候选描述词得到候选视频描述文本；采用幻觉诊断模块对待描述的视频和视频描述文本进行处理，得到幻觉分类结果；采用场景图生成模型从待视频描述的视频中提取视觉关键信息，根据视觉关键信息得到结构化视觉证据；根据视频候选描述词和结构化视觉证据对幻觉分类结果中被判断为物体幻觉的词进行修正，得到高质量的视频描述文本；本发明能更好描述视觉内容中的真实物体，生成高质量的视频描述文本。

技术关键词

视频帧修正方法视觉文本物体动作特征诊断模块注意力机制多模态特征视频图像处理技术解码器序列冗余场景时序网络

系统为您推荐了相关专利信息

基于视觉语言模型的无人机检测方法

无人机检测方法文本标签深度学习算法图像特征组合

一种基于AI的文本多意图识别方法、系统及介质

多意图识别方法意图识别模型文本邻居意图类别

道路异常预测预警方法、装置、设备及计算机可读存储介质

全景图像数据物体检测模型图像语义分割预测运动轨迹异常信息

一种基于预训练大模型的网络数据自适应采集方法和系统

网页结构化数据预训练模型爬虫列表网页元素

基于双向概念感知的组合零样本学习的图像识别方法及设备

图像对象特征图像识别模型图像识别方法概念视觉特征

一种基于视觉证据的视频描述物体幻觉修正方法

站点导航

APP 下载