基于主动视觉搜索的图像问答方法、装置、设备及介质

正文

推荐专利

申请号：CN202511130233

申请日期：2025-08-12

公开号：CN121030040A

公开日期：2025-11-28

类型：发明专利

摘要

本发明实施例公开了一种基于主动视觉搜索的图像问答方法、装置、设备及介质，涉及金融、医疗、保险及银行等领域中的图像问答技术领域。方法包括：获取输入图像以及对应的文本问题，将输入图像压缩为压缩图像，并将压缩图像以及文本问题输入到预训练的视觉问答模型中，以由视觉问答模型判断是否能够基于压缩图像回答文本问题；将目标对象以及输入图像输入到预训练的视觉搜索模型中，基于视觉搜索模型的识别结果从输入图像中确定目标对象的图像信息；将图像信息、压缩图像以及文本问题输入到视觉问答模型中，并接收视觉问答模型输出的文本问题的答案信息。本发明能够提高图像问答的准确性。

技术关键词

视觉问答模型图像问答方法文本图像压缩图像块大语言模型对象答案计算机设备问答技术坐标问答装置投影模块分辨率处理器可读存储介质存储器样本

系统为您推荐了相关专利信息

语言模型训练方法、设备、存储介质及计算机程序产品

语言模型训练方法大语言模型度量标签文本问答模型

基于大规模预训练模型Whisper的深度伪造音频检测防护方法

检测防护方法音频预训练模型文本解码器

基于Transformer神经网络架构的虚拟化代码还原方法、设备及介质

神经网络架构还原方法分词标识符文本

基于潜在融合LoRA的增强检索生成方法

动态门控生成方法评分方法大语言模型文本

一种集装箱铅封号识别方法及相关设备

铅封相机识别方法识别置信度文本

基于主动视觉搜索的图像问答方法、装置、设备及介质

站点导航

APP 下载