摘要
本发明公开一种用于证件OCR任务的多模态大模型训练方法,该方法包括:通过少量已标注样本对多模态大模型进行微调;通过剩余已标注样本对多模态大模型进行强化学习训练,直至多模态大模型在验证集上的识别精度达到设定标准,完成多模态大模型的训练;样本标注的标签为证件图像中关键字段的结构化输出。通过将长文本任务拆解为字段级别的反馈与优化,结合组内比较生成相对优势,从而实现稀疏环境下的有效学习,这种方法在保证输出格式规范性的同时,大幅提升了模型对复杂证件内容的识别准确率,并展现出良好的泛化能力和推理水平,且能够在减少人工标注工作量的情况下,训练出性能卓越的用于证件OCR任务的多模态大模型,具有广阔的应用前景。
技术关键词
模型训练方法
证件图像
多模态
关键字
文本
样本
字段
编辑
格式化
标签
工作量
精度
系统为您推荐了相关专利信息
声学特征
语音交互方法
语音特征信息
融合特征
个性化语音
情感分析方法
矩阵
条件随机场
注意力机制
交互注意力
输电线路检测方法
输电线路检测系统
融合特征
双模态
超分辨率
数据生成模型
表格
数据生成方法
数据生成装置
损失函数优化
缺失数据填补方法
特征向量值
生成对抗网络模型
连续型数据
匹配计算方法