摘要
本发明涉及文本处理技术领域,公开了一种人工智能文本解析提炼与要点来源定位方法,包括:收集PDF文档数据,进行人工标注和预处理,得到训练集、验证集和测试集;对深度学习模型进行初始化,设置深度学习模型训练的参数;基于训练集、验证集和测试集对深度学习模型进行训练、验证和测试,得到PDF文档版面识别模型;利用PDF文档版面识别模型对待识别PDF文档进行识别,将识别结果转化为文本格式或图表/表格格式;对转化为文本格式或图表/表格格式的文本进行深度向量化处理;基于先进的向量空间模型和相似性度量算法,实现语义检索。本发明能够显著提升文本解析提炼的准确性和效率,同时快速定位要点来源。
技术关键词
定位方法
向量空间模型
深度学习模型训练
表格
图表
多尺度特征金字塔
数据收集策略
格式
融合局部特征
语义理解技术
高维向量空间
文本处理技术
深度学习训练
训练集
优化器
联动规则
标签体系
系统为您推荐了相关专利信息
资产定位方法
三维全息影像
多模态数据采集
多模块
风险评估模型
查询化学品
深度学习模型训练
深度学习方法
节点特征
分子