一种基于视觉证据的视频描述物体幻觉修正方法

AITNT
正文
推荐专利
一种基于视觉证据的视频描述物体幻觉修正方法
申请号:CN202410920987
申请日期:2024-07-10
公开号:CN118887582A
公开日期:2024-11-01
类型:发明专利
摘要
本发明属于视频图像处理技术领域,具体涉及一种基于视觉证据的视频描述物体幻觉修正方法;包括:获取待视频描述的视频并对其进行特征提取,得到最终视频特征;采用GPT‑2模型对最终视频特征进行处理,得到视频的候选描述词;根据候选描述词得到候选视频描述文本;采用幻觉诊断模块对待描述的视频和视频描述文本进行处理,得到幻觉分类结果;采用场景图生成模型从待视频描述的视频中提取视觉关键信息,根据视觉关键信息得到结构化视觉证据;根据视频候选描述词和结构化视觉证据对幻觉分类结果中被判断为物体幻觉的词进行修正,得到高质量的视频描述文本;本发明能更好描述视觉内容中的真实物体,生成高质量的视频描述文本。
技术关键词
视频帧 修正方法 视觉 文本 物体 动作特征 诊断模块 注意力机制 多模态特征 视频图像处理技术 解码器 序列 冗余 场景 时序 网络
系统为您推荐了相关专利信息
1
基于视觉语言模型的无人机检测方法
无人机检测方法 文本 标签 深度学习算法 图像特征组合
2
一种基于AI的文本多意图识别方法、系统及介质
多意图识别方法 意图识别模型 文本 邻居 意图类别
3
道路异常预测预警方法、装置、设备及计算机可读存储介质
全景图像数据 物体检测模型 图像语义分割 预测运动轨迹 异常信息
4
一种基于预训练大模型的网络数据自适应采集方法和系统
网页结构化数据 预训练模型 爬虫 列表 网页元素
5
基于双向概念感知的组合零样本学习的图像识别方法及设备
图像对象特征 图像识别模型 图像识别方法 概念 视觉特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号