一种基于迭代式修正的细粒度文本图像描述生成方法

AITNT
正文
推荐专利
一种基于迭代式修正的细粒度文本图像描述生成方法
申请号:CN202510194351
申请日期:2025-02-21
公开号:CN120088799A
公开日期:2025-06-03
类型:发明专利
摘要
本发明公开了一种基于迭代式修正的细粒度文本图像描述生成方法,其步骤包括:1基于维基百科构建多语种知识库,并进行向量化;2检索用于多语种文本图像深度理解的外部知识并进行精炼;3使用指令微调的方式构建面向多语种文本图像的信息抽取模块,在外部知识的辅助下实现多语种图文信息的结构化知识抽取;4基于结构化知识推理,构建多语种文本图像描述内容的细粒度幻觉检测模块;5在每个迭代步骤将幻觉检测的结果反馈给多模态大模型,进行多轮的修正,得到最终的多语种文本图像描述生成结果。本发明可以缓解多模态大模型在生成多语种文本图像描述时面临的幻觉问题,提升多模态大模型针对多语种文本图像的描述生成效果。
技术关键词
图像 多模态 生成方法 样本 视觉 文本段落 维基百科 参数 信息抽取模型 模块 适配器 指令 图文 可读存储介质 语义向量 处理器 存储器 基座 计算机
系统为您推荐了相关专利信息
1
基于AI图片识别功能的器械打包台监控机器人及监控方法
器械打包台 AI图片识别 监控机器人 分区 视觉传感器
2
城市回流人口规模与结构识别方法、系统及存储介质
结构识别方法 样本 动态面板 插值方法 规模
3
一种触控显示部件的高精度检测用图像识别方法
触控显示部件 图像识别方法 故障检测模型 特征点 图像深度估计算法
4
一种空间目标轨道精确确定方法
光学观测设备 轨道 三角测量原理 双平台系统 空间观测技术
5
一种应用于变压器的变压油加注装置
注油机械 机械臂 加注装置 变压器 油箱注油口
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号