摘要
本申请实施例提供了一种文本提取方法、装置、计算机设备及存储介质,属于人工智能技术领域。包括:获取多语言的原始文本,并通过多语言通用的预设编码规则对原始文本进行编码,得到编码文本;对编码文本进行划分处理,得到多个子编码文本;对每个子编码文本进行特征编码,生成每个子编码文本对应的文本特征;将每个文本特征输入到训练后的多语言文本识别模型中进行文本识别,输出多个识别文本,训练后的多语言文本识别模型基于预设编码规则下的多语言训练文本训练得到;确定每个识别文本对应的文本类别,并根据文本类别在每个识别文本中提取出目标文本。本申请中采用预设编码规则来统一多语言,提高了对多语言文本内容提取的效率和准确性。
技术关键词
文本提取方法
文本识别模型
解码模型
编码规则
多语言
注意力
文本提取装置
计算机设备
可读存储介质
人工智能技术
字符
处理器
编码模块
识别模块
存储器