摘要
本发明公开了一种基于信息熵和Transformer的分片方法、系统及装置,方法包括:计算待分片文本序列中每个词位置的基础惊异度指标及相应的注意力分布熵值;通过注意力分布熵值对基础惊异度指标进行动态调整,得到修正惊异度,得到候选边界位置集合;计算每个候选边界位置的KL散度及通过信息熵变化量得到局部熵增特征;基于自适应加权方式将修正惊异度、局部熵增特征和KL散度进行特征融合处理得到每个候选边界位置的边界得分;构建初始边界位置集合,通过对候选边界位置集合进行约束及优化调整,得到优化后边界位置集合;对待分片文本序列进行分割处理,得到符合语义逻辑的文本片段。本发明提出的分片方法在不同领域语料上均表现出良好的适应性。
技术关键词
分片方法
信息熵
拉格朗日乘数因子
文本
滑动窗口
序列
注意力
参数
动态
指标
分片系统
语义
可读存储介质
基础
滤除噪声
逻辑
处理器
算法
计算机设备
系统为您推荐了相关专利信息
地质灾害评估方法
地震动参数
危险性
三维有限元模型
权重模型