一种基于迭代式修正的细粒度文本图像描述生成方法

正文

推荐专利

申请号：CN202510194351

申请日期：2025-02-21

公开号：CN120088799A

公开日期：2025-06-03

类型：发明专利

摘要

本发明公开了一种基于迭代式修正的细粒度文本图像描述生成方法，其步骤包括：1基于维基百科构建多语种知识库，并进行向量化；2检索用于多语种文本图像深度理解的外部知识并进行精炼；3使用指令微调的方式构建面向多语种文本图像的信息抽取模块，在外部知识的辅助下实现多语种图文信息的结构化知识抽取；4基于结构化知识推理，构建多语种文本图像描述内容的细粒度幻觉检测模块；5在每个迭代步骤将幻觉检测的结果反馈给多模态大模型，进行多轮的修正，得到最终的多语种文本图像描述生成结果。本发明可以缓解多模态大模型在生成多语种文本图像描述时面临的幻觉问题，提升多模态大模型针对多语种文本图像的描述生成效果。

技术关键词

图像多模态生成方法样本视觉文本段落维基百科参数信息抽取模型模块适配器指令图文可读存储介质语义向量处理器存储器基座计算机

系统为您推荐了相关专利信息

基于AI图片识别功能的器械打包台监控机器人及监控方法

器械打包台 AI图片识别监控机器人分区视觉传感器

城市回流人口规模与结构识别方法、系统及存储介质

结构识别方法样本动态面板插值方法规模

一种触控显示部件的高精度检测用图像识别方法

触控显示部件图像识别方法故障检测模型特征点图像深度估计算法

一种空间目标轨道精确确定方法

光学观测设备轨道三角测量原理双平台系统空间观测技术

一种应用于变压器的变压油加注装置

注油机械机械臂加注装置变压器油箱注油口

一种基于迭代式修正的细粒度文本图像描述生成方法

站点导航

APP 下载