一种面向多语种文本图像的跨语种描述生成方法

正文

推荐专利

申请号：CN202411631533

申请日期：2024-11-15

公开号：CN119516548B

公开日期：2025-10-28

类型：发明专利

摘要

本发明公开了一种面向多语种文本图像的跨语种描述生成方法，其步骤包括：1获取多语种的文本图像并进行描述语句的标注；2构建面向多语种文本图像的跨语种描述生成网络；3构造多模态文本纠错任务的数据集，对描述生成网络中的部分模块进行预训练；4基于多语种文本图像描述生成数据集对网络的所有模块进行训练；5利用训练好的跨语种描述生成网络对任意输入的多语种文本图像生成指定语种的描述语句。本发明可以在多语种的场景下，对输入的多语种自然场景文本图像进行深度理解，输出多语种文本图像指定语种的描述语句。

技术关键词

信息编码文本生成方法多模态图像视觉特征序列解码模块识别标签语句字符分类器更新网络参数识别模块语义纠错可读存储介质

系统为您推荐了相关专利信息

一种面阵相机自动视觉定位的DTG打印方法及系统

自动视觉定位打印控制指令面阵相机打印方法打印系统

基于语义分割的权值调整局部线性细节注入的全色锐化方法、系统、设备及介质

全色锐化方法语义标签像素模糊滤波器

一种物品属性问答方法和系统

问答知识库问答方法数据生成知识问答系统

全景影像处理方法、装置、相关设备及车辆

深度图网格影像拍摄装置生成全景

一种圆柱电池极组自动对中装配装置及其工作方法

双向驱动机构机械夹持机构磁悬浮机构装配装置圆柱电池

一种面向多语种文本图像的跨语种描述生成方法

站点导航

APP 下载