摘要
本发明公开了一种基于迭代式修正的细粒度文本图像描述生成方法,其步骤包括:1基于维基百科构建多语种知识库,并进行向量化;2检索用于多语种文本图像深度理解的外部知识并进行精炼;3使用指令微调的方式构建面向多语种文本图像的信息抽取模块,在外部知识的辅助下实现多语种图文信息的结构化知识抽取;4基于结构化知识推理,构建多语种文本图像描述内容的细粒度幻觉检测模块;5在每个迭代步骤将幻觉检测的结果反馈给多模态大模型,进行多轮的修正,得到最终的多语种文本图像描述生成结果。本发明可以缓解多模态大模型在生成多语种文本图像描述时面临的幻觉问题,提升多模态大模型针对多语种文本图像的描述生成效果。
技术关键词
图像
多模态
生成方法
样本
视觉
文本段落
维基百科
参数
信息抽取模型
模块
适配器
指令
图文
可读存储介质
语义向量
处理器
存储器
基座
计算机
系统为您推荐了相关专利信息
器械打包台
AI图片识别
监控机器人
分区
视觉传感器
触控显示部件
图像识别方法
故障检测模型
特征点
图像深度估计算法
光学观测设备
轨道
三角测量原理
双平台系统
空间观测技术