摘要
本发明公开一种基于相对注意力裁剪和判断增强的多模态大语言模型生成方法及系统,属于人工智能技术领域,包括:S1、将输入图像转换后的文本特征和文本问题共同输入大语言模型,生成初始答案,并采用外部指导模型将初始答案与标准答案进行对比,得到初始判断信号;S2、对输入图像、文本问题和通用问题进行计算和裁剪,得到相对注意力图;S3、基于输入图像、文本问题、标准答案、初始判断信号和相对注意力图,对初始答案进行修正,直至大语言模型收敛。本发明显著提升了细粒度视觉理解能力,抑制了幻觉预测问题,提升了复杂视觉场景下的稳定性与鲁棒性。
技术关键词
大语言模型
注意力
生成方法
文本
答案
图像
视觉特征
多层感知器
人工智能技术
信号
生成系统
处理器
矩阵
比率
可读存储介质
存储器
鲁棒性
指标
表达式
系统为您推荐了相关专利信息
资源匹配方法
情感识别模型
人工神经网络训练
资源匹配系统
数据
网络模体
意图识别方法
节点
随机网络构建方法
模式识别
地质灾害智能
深度卷积神经网络模型
长短期记忆网络
地质灾害监测设备
多模态