文本提取方法、装置、计算机设备及存储介质

正文

推荐专利

申请号：CN202411551641

申请日期：2024-10-31

公开号：CN119398041A

公开日期：2025-02-07

类型：发明专利

摘要

本申请实施例提供了一种文本提取方法、装置、计算机设备及存储介质，属于人工智能技术领域。包括：获取多语言的原始文本，并通过多语言通用的预设编码规则对原始文本进行编码，得到编码文本；对编码文本进行划分处理，得到多个子编码文本；对每个子编码文本进行特征编码，生成每个子编码文本对应的文本特征；将每个文本特征输入到训练后的多语言文本识别模型中进行文本识别，输出多个识别文本，训练后的多语言文本识别模型基于预设编码规则下的多语言训练文本训练得到；确定每个识别文本对应的文本类别，并根据文本类别在每个识别文本中提取出目标文本。本申请中采用预设编码规则来统一多语言，提高了对多语言文本内容提取的效率和准确性。

技术关键词

文本提取方法文本识别模型解码模型编码规则多语言注意力文本提取装置计算机设备可读存储介质人工智能技术字符处理器编码模块识别模块存储器

文本提取方法、装置、计算机设备及存储介质

站点导航

APP 下载