一种用于证件OCR任务的多模态大模型训练方法

正文

推荐专利

申请号：CN202510851319

申请日期：2025-06-24

公开号：CN120808376A

公开日期：2025-10-17

类型：发明专利

摘要

本发明公开一种用于证件OCR任务的多模态大模型训练方法，该方法包括：通过少量已标注样本对多模态大模型进行微调；通过剩余已标注样本对多模态大模型进行强化学习训练，直至多模态大模型在验证集上的识别精度达到设定标准，完成多模态大模型的训练；样本标注的标签为证件图像中关键字段的结构化输出。通过将长文本任务拆解为字段级别的反馈与优化，结合组内比较生成相对优势，从而实现稀疏环境下的有效学习，这种方法在保证输出格式规范性的同时，大幅提升了模型对复杂证件内容的识别准确率，并展现出良好的泛化能力和推理水平，且能够在减少人工标注工作量的情况下，训练出性能卓越的用于证件OCR任务的多模态大模型，具有广阔的应用前景。

技术关键词

模型训练方法证件图像多模态关键字文本样本字段编辑格式化标签工作量精度

系统为您推荐了相关专利信息

语音交互方法、装置、电子设备及计算机可读存储介质

声学特征语音交互方法语音特征信息融合特征个性化语音

一种基于句法引导Transformer的方面级情感分析方法

情感分析方法矩阵条件随机场注意力机制交互注意力

一种积雪条件下基于双模态特征引导融合的输电线路检测方法及系统

输电线路检测方法输电线路检测系统融合特征双模态超分辨率

基于语言模型对抗数据增强的表格数据生成方法及装置

数据生成模型表格数据生成方法数据生成装置损失函数优化

基于相似匹配和分类的生成对抗网络缺失数据填补方法

缺失数据填补方法特征向量值生成对抗网络模型连续型数据匹配计算方法

一种用于证件OCR任务的多模态大模型训练方法

站点导航

APP 下载