一种基于视觉-语言模型的满文档案单词识别方法

AITNT
正文
推荐专利
一种基于视觉-语言模型的满文档案单词识别方法
申请号:CN202511060347
申请日期:2025-07-30
公开号:CN120913224A
公开日期:2025-11-07
类型:发明专利
摘要
本发明公开了一种基于视觉‑语言模型的满文档案单词识别方法,包括:构建初始特征模块、笔画提取模块、视觉模块、语言模块、模态对齐模块和融合模块;将满文单词图片输入到初始特征提取模块,得到初始图像特征,将特征输入至笔画提取模块、视觉模块中,得到笔画特征和视觉特征,再将视觉特征输入到语言模型中,输出语言特征;将笔画特征、视觉特征和语言特征通过多模态Transformer方法进行融合,通过门控机制控制输出最终的结果;本方法可以有效提高对带有遮盖、污损的满文字符,以及背景干扰大的满文单词的识别精度。
技术关键词
单词识别方法 笔画特征 视觉特征 语言模块 视觉推理 满文单词 多模态 特征提取模块 字符 注意力 对齐模块 图像 序列化特征 节点特征 网络 语义特征 融合多尺度信息
系统为您推荐了相关专利信息
1
一种针对浑浊水下场景去浑浊的增强可视方法
可视方法 水下场景 因子 图像视觉特征 纹理结构
2
一种基于跨模态技术的肺部X光片诊断报告自动生成平台
生成平台 视觉特征 生成报告 跨模态 图像
3
一种结合单目视觉位移估计与偏差映射的航天器定轨方法
定轨方法 航天器动力学 偏差 单目相机 估计算法
4
一种基于大语言模型的开放世界目标检测的增量学习方法
大语言模型 视觉特征提取 增量学习方法 上下文特征 文本
5
面向肝细胞癌的联邦多任务学习的方法及系统、电子设备
交叉注意力机制 多任务 参数 客户端特征 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号