摘要
本公开提供了一种文本数据处理方法及装置、存储介质及电子设备,涉及计算机技术领域。该方法包括:获取待处理文本;若所述待处理文本超过长度阈值,则基于语义单元的边界对所述待处理文本进行分块处理,生成多个语义连续且长度不超过所述长度阈值的文本块;其中,所述长度阈值根据文本处理模型的词元处理长度确定;将所述文本块输入所述文本处理模型进行处理,获得所述待处理文本的信息提取结果。该方法可以基于语义单元边界对待处理文本进行分块处理,确保生成的文本块语义连续且长度符合模型处理要求,避免因文本过长导致模型处理困难,同时保证语义完整性,在实现对长文本有效处理的同时,有利于提高模型信息提取的准确性。
技术关键词
文本处理模型
文本数据处理方法
样本
语义
分块
加权损失函数
文本数据处理装置
复杂度
自然语言
电子设备
处理器
动态
存储装置
参数
可读存储介质
程序
实体
标签
机制
系统为您推荐了相关专利信息
时序预测模型
长短期记忆网络
数字孪生
离子
样本
局部视觉语义
重识别方法
姿态特征
行人重识别模型
语义特征
异常流量
深度神经网络
双向长短期记忆
焦点损失函数
识别方法