摘要
本发明公开了档案文件智能识别大模型的训练方法、装置、设备及介质,涉及文档识别技术领域。训练方法包括:搭建第一阶段训练的自监督扩散模型:将图像样本进行随机掩码处理生成掩码图像样本,分别输入到图像编码器中提取高维信息,利用tokens选择模块进一步增强注意力图的判别性,并通过注意力重聚焦机制动态调整任务相关参数的权重,提升模型对任务目标的感知能力,结合空文本嵌入的文字编码器作为扩散模型的条件输入,使用扩散模型的生成反馈优化编码器;搭建第二阶段微调的Qwen‑vl大模型:冻结第一阶段训练的图像编码器,采用少量样本微调Qwen‑vl大模型。本发明实现了档案识别大模型在复杂场景的视觉推理和细粒度感知能力,提高了档案识别泛化性和精度。
技术关键词
图像编码器
文字编码器
适配器
融合特征
拼接模块
文本
文档识别技术
参数
注意力机制
随机噪声
分支
视觉推理
矩阵
处理器
训练装置
输出特征
系统为您推荐了相关专利信息
变化检测方法
多尺度特征
频率
特征提取模块
多级特征融合
声纹特征
特征提取模型
克隆方法
音频放大器
意图
多模态
拼接系统
智能控制模块
影像采集模块
拼接算法