摘要
本发明公开了一种基于视觉‑语言模型的满文档案单词识别方法,包括:构建初始特征模块、笔画提取模块、视觉模块、语言模块、模态对齐模块和融合模块;将满文单词图片输入到初始特征提取模块,得到初始图像特征,将特征输入至笔画提取模块、视觉模块中,得到笔画特征和视觉特征,再将视觉特征输入到语言模型中,输出语言特征;将笔画特征、视觉特征和语言特征通过多模态Transformer方法进行融合,通过门控机制控制输出最终的结果;本方法可以有效提高对带有遮盖、污损的满文字符,以及背景干扰大的满文单词的识别精度。
技术关键词
单词识别方法
笔画特征
视觉特征
语言模块
视觉推理
满文单词
多模态
特征提取模块
字符
注意力
对齐模块
图像
序列化特征
节点特征
网络
语义特征
融合多尺度信息
系统为您推荐了相关专利信息
大语言模型
视觉特征提取
增量学习方法
上下文特征
文本