摘要
本说明书公开了一文本信息的提取方法、系统、设备以及存储介质,获取待处理的目标图像和针对该目标图像的目标问题文本,该目标图像携带文本信息,该目标问题文本用于指示从该目标图像中提取目标文本信息。对该目标图像进行文本识别,得到该目标图像对应的图像文本,该图像文本包括该目标图像中所携带的文本信息。将该目标图像、该图像文本以及该目标问题文本输入多模态处理模型,通过该多模态处理模型对该目标图像、该图像文本以及该目标问题文本进行处理,得到该目标文本信息,实现了对目标图像进行智能化的文本信息提取,在上述过程中,利用多模态处理模型的多模态理解能力,也即是利用不同模态的信息来进行文本信息提取,泛化能力较强。
技术关键词
嵌入特征
多模态
编码
文本信息提取
图像块特征
文本识别
注意力机制
计算机设备
输入模块
识别模块
可读存储介质
分词
处理器
存储器
分块
系统为您推荐了相关专利信息
采集风力涡轮机
深度学习预测模型
故障类别
Kalman滤波
多模态深度学习
三维环境模型
双臂机器人
动态障碍物
自主导航方法
注意力