一种用于证件OCR任务的多模态大模型训练方法

AITNT
正文
推荐专利
一种用于证件OCR任务的多模态大模型训练方法
申请号:CN202510851319
申请日期:2025-06-24
公开号:CN120808376A
公开日期:2025-10-17
类型:发明专利
摘要
本发明公开一种用于证件OCR任务的多模态大模型训练方法,该方法包括:通过少量已标注样本对多模态大模型进行微调;通过剩余已标注样本对多模态大模型进行强化学习训练,直至多模态大模型在验证集上的识别精度达到设定标准,完成多模态大模型的训练;样本标注的标签为证件图像中关键字段的结构化输出。通过将长文本任务拆解为字段级别的反馈与优化,结合组内比较生成相对优势,从而实现稀疏环境下的有效学习,这种方法在保证输出格式规范性的同时,大幅提升了模型对复杂证件内容的识别准确率,并展现出良好的泛化能力和推理水平,且能够在减少人工标注工作量的情况下,训练出性能卓越的用于证件OCR任务的多模态大模型,具有广阔的应用前景。
技术关键词
模型训练方法 证件图像 多模态 关键字 文本 样本 字段 编辑 格式化 标签 工作量 精度
系统为您推荐了相关专利信息
1
语音交互方法、装置、电子设备及计算机可读存储介质
声学特征 语音交互方法 语音特征信息 融合特征 个性化语音
2
一种基于句法引导Transformer的方面级情感分析方法
情感分析方法 矩阵 条件随机场 注意力机制 交互注意力
3
一种积雪条件下基于双模态特征引导融合的输电线路检测方法及系统
输电线路检测方法 输电线路检测系统 融合特征 双模态 超分辨率
4
基于语言模型对抗数据增强的表格数据生成方法及装置
数据生成模型 表格 数据生成方法 数据生成装置 损失函数优化
5
基于相似匹配和分类的生成对抗网络缺失数据填补方法
缺失数据填补方法 特征向量值 生成对抗网络模型 连续型数据 匹配计算方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号