证照抽取场景的多模态大模型幻觉抑制方法及系统

正文

推荐专利

申请号：CN202510633472

申请日期：2025-05-16

公开号：CN120580706A

公开日期：2025-09-02

类型：发明专利

摘要

本发明公开了证照抽取场景的多模态大模型幻觉抑制方法及系统。方法包括：获取证件图像并区分清晰图片和模糊图片；对清晰图片及模糊图片进行标注，以得到微调数据集；选择基础模型，并采用微调数据集进行自适应微调，以得到微调后的多模态大模型；利用微调后的多模态大模型对清晰图片和模糊图片结合双模态标签体系和分域DPO数据集生成训练数据集；采用混合偏好训练机制结合训练数据集对微调后的多模态大模型训练，以得到训练后的多模态大模型；将训练后的多模态大模型运用于证件图像的抽取中。通过实施本发明的方法可实现在保持预训练模型参数高效性的前提下，显著降低证件信息抽取过程中的幻觉发生概率，同时提升复杂场景下的字段识别鲁棒性。

技术关键词

证件图像图片生成训练数据标签体系双模态场景视觉注意力机制卡面信息多模态微调单元预训练模型标记处理单元解码器视觉特征字段

系统为您推荐了相关专利信息

人脸活体检测方法、系统、存储介质及电子设备

人脸活体检测方法人脸图片人脸活体检测系统电子设备多层感知机

一种基于连续帧的眨眼检测方法、装置及电子设备

曲线眼睛极值队列预留手机号码

基于图像识别和深度学习结合的细菌个数识别方法和系统

深度学习识别模型培养液计数系统图像识别算法图片

跨模态铁路数据的检索方法、装置、设备和存储介质

铁路检索方法文本特征向量跨模态上下文特征

以知识为驱动的多思维链跨模态几何问题求解方法及系统

知识点大语言模型多模态答案小规模

证照抽取场景的多模态大模型幻觉抑制方法及系统

站点导航

APP 下载