一种非规范文档的切片处理方法

AITNT
正文
推荐专利
一种非规范文档的切片处理方法
申请号:CN202510101066
申请日期:2025-01-22
公开号:CN119538921B
公开日期:2025-04-11
类型:发明专利
摘要
本发明涉及文本处理技术领域,具体公开了一种非规范文档的切片处理方法,包括以下步骤:S1:确定第一关键词和第二关键词;S2:获取第一词向量和第二词向量,基于第一词向量和第二词向量确定子段落和章节名称之间的关联程度;S3:根据关联程度确定待定段落,对待定段落进行排序得到段落排序;确定目标段落对应的章节名称,根据新的章节名称再次确定待定段落;当不存在待定段落时判定文档完成规范化,对规范化后的文档进行切片。本发明通过对非规范文档进行规范化和切片,提高召回的准确性。
技术关键词
关键词 切片 摘要 深度学习模型 文本处理技术 分词 中子 列表 算法
系统为您推荐了相关专利信息
1
低信噪比环境下宽带无线传输的时域分散调制解调方法
深度学习模型 调制解调方法 低信噪比环境 接收机 中频信号
2
群体成员识别方法、装置、计算机设备和存储介质
兴趣 文本 主题关键词 分词 识别方法
3
一种基于深度学习的多模态混合数据库储存和交互方法
多模态深度学习 交互方法 融合特征 多模态数据融合 深度学习模型
4
智能化风电场站的设备故障诊断方法、系统以及设备
故障诊断模型 设备故障诊断方法 设备状态参数 解码参数 字符
5
数据处理方法、装置、智能体、电子设备和存储介质
标签 数据处理方法 标识 数据处理装置 电子设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号