证照抽取场景的多模态大模型幻觉抑制方法及系统

AITNT
正文
推荐专利
证照抽取场景的多模态大模型幻觉抑制方法及系统
申请号:CN202510633472
申请日期:2025-05-16
公开号:CN120580706A
公开日期:2025-09-02
类型:发明专利
摘要
本发明公开了证照抽取场景的多模态大模型幻觉抑制方法及系统。方法包括:获取证件图像并区分清晰图片和模糊图片;对清晰图片及模糊图片进行标注,以得到微调数据集;选择基础模型,并采用微调数据集进行自适应微调,以得到微调后的多模态大模型;利用微调后的多模态大模型对清晰图片和模糊图片结合双模态标签体系和分域DPO数据集生成训练数据集;采用混合偏好训练机制结合训练数据集对微调后的多模态大模型训练,以得到训练后的多模态大模型;将训练后的多模态大模型运用于证件图像的抽取中。通过实施本发明的方法可实现在保持预训练模型参数高效性的前提下,显著降低证件信息抽取过程中的幻觉发生概率,同时提升复杂场景下的字段识别鲁棒性。
技术关键词
证件图像 图片 生成训练数据 标签体系 双模态 场景 视觉注意力机制 卡面信息 多模态 微调单元 预训练模型 标记 处理单元 解码器 视觉特征 字段
系统为您推荐了相关专利信息
1
人脸活体检测方法、系统、存储介质及电子设备
人脸活体检测方法 人脸图片 人脸活体检测系统 电子设备 多层感知机
2
一种基于连续帧的眨眼检测方法、装置及电子设备
曲线 眼睛 极值 队列 预留手机号码
3
基于图像识别和深度学习结合的细菌个数识别方法和系统
深度学习识别模型 培养液 计数系统 图像识别算法 图片
4
跨模态铁路数据的检索方法、装置、设备和存储介质
铁路 检索方法 文本特征向量 跨模态 上下文特征
5
以知识为驱动的多思维链跨模态几何问题求解方法及系统
知识点 大语言模型 多模态 答案 小规模
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号