档案文件智能识别大模型的训练方法、装置、设备及介质

AITNT
正文
推荐专利
档案文件智能识别大模型的训练方法、装置、设备及介质
申请号:CN202511454591
申请日期:2025-10-13
公开号:CN120913226B
公开日期:2025-12-23
类型:发明专利
摘要
本发明公开了档案文件智能识别大模型的训练方法、装置、设备及介质,涉及文档识别技术领域。训练方法包括:搭建第一阶段训练的自监督扩散模型:将图像样本进行随机掩码处理生成掩码图像样本,分别输入到图像编码器中提取高维信息,利用tokens选择模块进一步增强注意力图的判别性,并通过注意力重聚焦机制动态调整任务相关参数的权重,提升模型对任务目标的感知能力,结合空文本嵌入的文字编码器作为扩散模型的条件输入,使用扩散模型的生成反馈优化编码器;搭建第二阶段微调的Qwen‑vl大模型:冻结第一阶段训练的图像编码器,采用少量样本微调Qwen‑vl大模型。本发明实现了档案识别大模型在复杂场景的视觉推理和细粒度感知能力,提高了档案识别泛化性和精度。
技术关键词
图像编码器 文字编码器 适配器 融合特征 拼接模块 文本 文档识别技术 参数 注意力机制 随机噪声 分支 视觉推理 矩阵 处理器 训练装置 输出特征
系统为您推荐了相关专利信息
1
一种基于混合优化与多模态特征融合的心电信号重构方法
电信号 频域特征 时域特征 融合特征 重构方法
2
由粗到细频率细化的遥感变化检测方法和系统
变化检测方法 多尺度特征 频率 特征提取模块 多级特征融合
3
实时交互的语音克隆方法、装置、设备和介质
声纹特征 特征提取模型 克隆方法 音频放大器 意图
4
复杂表格数据错误检测方法及装置、电子设备
数据错误检测方法 表格 分类器 矩阵 采样模块
5
多模态影像融合的智能全景摄影拼接系统及方法
多模态 拼接系统 智能控制模块 影像采集模块 拼接算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号