摘要
本发明涉及文本处理技术领域,具体公开了一种非规范文档的切片处理方法,包括以下步骤:S1:确定第一关键词和第二关键词;S2:获取第一词向量和第二词向量,基于第一词向量和第二词向量确定子段落和章节名称之间的关联程度;S3:根据关联程度确定待定段落,对待定段落进行排序得到段落排序;确定目标段落对应的章节名称,根据新的章节名称再次确定待定段落;当不存在待定段落时判定文档完成规范化,对规范化后的文档进行切片。本发明通过对非规范文档进行规范化和切片,提高召回的准确性。
技术关键词
关键词
切片
摘要
深度学习模型
文本处理技术
分词
中子
列表
算法
系统为您推荐了相关专利信息
深度学习模型
调制解调方法
低信噪比环境
接收机
中频信号
多模态深度学习
交互方法
融合特征
多模态数据融合
深度学习模型
故障诊断模型
设备故障诊断方法
设备状态参数
解码参数
字符