基于主动视觉搜索的图像问答方法、装置、设备及介质

AITNT
正文
推荐专利
基于主动视觉搜索的图像问答方法、装置、设备及介质
申请号:CN202511130233
申请日期:2025-08-12
公开号:CN121030040A
公开日期:2025-11-28
类型:发明专利
摘要
本发明实施例公开了一种基于主动视觉搜索的图像问答方法、装置、设备及介质,涉及金融、医疗、保险及银行等领域中的图像问答技术领域。方法包括:获取输入图像以及对应的文本问题,将输入图像压缩为压缩图像,并将压缩图像以及文本问题输入到预训练的视觉问答模型中,以由视觉问答模型判断是否能够基于压缩图像回答文本问题;将目标对象以及输入图像输入到预训练的视觉搜索模型中,基于视觉搜索模型的识别结果从输入图像中确定目标对象的图像信息;将图像信息、压缩图像以及文本问题输入到视觉问答模型中,并接收视觉问答模型输出的文本问题的答案信息。本发明能够提高图像问答的准确性。
技术关键词
视觉问答模型 图像问答方法 文本 图像压缩 图像块 大语言模型 对象 答案 计算机设备 问答技术 坐标 问答装置 投影模块 分辨率 处理器 可读存储介质 存储器 样本
系统为您推荐了相关专利信息
1
语言模型训练方法、设备、存储介质及计算机程序产品
语言模型训练方法 大语言模型 度量 标签文本 问答模型
2
基于大规模预训练模型Whisper的深度伪造音频检测防护方法
检测防护方法 音频 预训练模型 文本 解码器
3
基于Transformer神经网络架构的虚拟化代码还原方法、设备及介质
神经网络架构 还原方法 分词 标识符 文本
4
基于潜在融合LoRA的增强检索生成方法
动态门控 生成方法 评分方法 大语言模型 文本
5
一种集装箱铅封号识别方法及相关设备
铅封 相机 识别方法 识别置信度 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号