摘要
本发明公开了证照抽取场景的多模态大模型幻觉抑制方法及系统。方法包括:获取证件图像并区分清晰图片和模糊图片;对清晰图片及模糊图片进行标注,以得到微调数据集;选择基础模型,并采用微调数据集进行自适应微调,以得到微调后的多模态大模型;利用微调后的多模态大模型对清晰图片和模糊图片结合双模态标签体系和分域DPO数据集生成训练数据集;采用混合偏好训练机制结合训练数据集对微调后的多模态大模型训练,以得到训练后的多模态大模型;将训练后的多模态大模型运用于证件图像的抽取中。通过实施本发明的方法可实现在保持预训练模型参数高效性的前提下,显著降低证件信息抽取过程中的幻觉发生概率,同时提升复杂场景下的字段识别鲁棒性。
技术关键词
证件图像
图片
生成训练数据
标签体系
双模态
场景
视觉注意力机制
卡面信息
多模态
微调单元
预训练模型
标记
处理单元
解码器
视觉特征
字段
系统为您推荐了相关专利信息
人脸活体检测方法
人脸图片
人脸活体检测系统
电子设备
多层感知机
深度学习识别模型
培养液
计数系统
图像识别算法
图片