一种基于视觉-语言模型的满文档案单词识别方法

正文

推荐专利

申请号：CN202511060347

申请日期：2025-07-30

公开号：CN120913224A

公开日期：2025-11-07

类型：发明专利

摘要

本发明公开了一种基于视觉‑语言模型的满文档案单词识别方法，包括：构建初始特征模块、笔画提取模块、视觉模块、语言模块、模态对齐模块和融合模块；将满文单词图片输入到初始特征提取模块，得到初始图像特征，将特征输入至笔画提取模块、视觉模块中，得到笔画特征和视觉特征，再将视觉特征输入到语言模型中，输出语言特征；将笔画特征、视觉特征和语言特征通过多模态Transformer方法进行融合，通过门控机制控制输出最终的结果；本方法可以有效提高对带有遮盖、污损的满文字符，以及背景干扰大的满文单词的识别精度。

技术关键词

单词识别方法笔画特征视觉特征语言模块视觉推理满文单词多模态特征提取模块字符注意力对齐模块图像序列化特征节点特征网络语义特征融合多尺度信息

系统为您推荐了相关专利信息

一种针对浑浊水下场景去浑浊的增强可视方法

可视方法水下场景因子图像视觉特征纹理结构

一种基于跨模态技术的肺部X光片诊断报告自动生成平台

生成平台视觉特征生成报告跨模态图像

一种结合单目视觉位移估计与偏差映射的航天器定轨方法

定轨方法航天器动力学偏差单目相机估计算法

一种基于大语言模型的开放世界目标检测的增量学习方法

大语言模型视觉特征提取增量学习方法上下文特征文本

面向肝细胞癌的联邦多任务学习的方法及系统、电子设备

交叉注意力机制多任务参数客户端特征文本

一种基于视觉-语言模型的满文档案单词识别方法

站点导航

APP 下载