摘要
本申请公开了一种文本语义分块方法、装置、设备、介质及产品,通过对滑动窗口内的各个子句的嵌入向量进行加权求和,能反映窗口内子句的整体语义特征,减少噪声影响,计算相邻滑动窗口的加权平均嵌入向量之间的相似度,能更准确地识别文档中语义连续的部分,基于目标变异系数对相似度数组进行调整,使得不同文档的分段的效果保持相对稳定,根据目标变异系数和分段信息动态调整相似度阈值,使得分段过程能够适应不同文档的结构和内容,分段信息指示分段中包含子句的数量范围,使分段结果更加符合实际需求,避免了过长或过短的分段。根据动态相似度阈值划分目标相似度数组,将对应的子句确定为待处理文档的分段,提升文本分块的准确性和合理性。
技术关键词
分块方法
滑动窗口
分段
文本
数值
动态
可读存储介质
存储计算机程序
计算机程序产品
语义特征
处理器
分析模块
矩阵
电子设备
存储器
系统为您推荐了相关专利信息
线形型材
组合式板材
板架结构
船舶线型
应变传感器
信息提取模型
信息提取方法
文本
计算机可执行指令
图像
力矩传感器
智能检测方法
接近传感器
主动轴
非金属辊棒