摘要
本申请提供一种基于语义密度的文本处理方法及系统,应用于文本处理技术领域,获取目标文本,并对目标文本进行特征提取,得到目标文本的每个段落的多个文本特征;根据每个段落的文本特征,计算每个段落的语义密度评分;根据各个段落的语义密度评分,对每个段落进行分类,得到每个段落的段落类别;若段落的段落类别为高密度,根据目标文本的文本类型和段落的语义密度评分,对段落进行分块处理,得到段落对应的多个文本分块;若段落的段落类别为低密度,根据目标文本的文本类型、段落及其语义密度评分和各个其他段落及其语义密度评分对段落进行处理,能够避免出现信息割裂与上下文丢失、减少冗余计算与资源浪费和提高领域自适应性。
技术关键词
语义
低密度
断点
文本处理方法
特征值
高密度
命名实体识别
分块阈值
信息熵
核心
覆盖率
特征提取模块
文本处理系统
逻辑
蒸馏
文本处理技术
系统为您推荐了相关专利信息
需求预测模型
策略
心理
生理
XGBoost算法