摘要
本发明涉及数字教育资源审核领域,提供一种基于图像对比增强的数字教育资源审核模型物体幻觉缓解方法。该方法利用多模态大语言模型,实现图像与文本的联合审核,通过对输入图像进行预处理和视觉增强,提取关键区域并生成增强图像,然后将原始图像和增强图像分别与文本输入共同送入模型进行推理。通过对比解码生成更准确的审核结果。该方法无需对底层大模型进行额外训练,有效缓解了模型在审核过程中因物体幻觉导致的误判问题,显著提高了数字教育资源审核的准确性和稳定性。
技术关键词
数字教育资源
审核模型
物体
双分支网络
校准
多模态
图像分割算法
文本
融合视觉
大语言模型
解码器
视觉特征
投影机
对比度
注意力
编码器