文本分块方法、系统、检索增强生成装置、电子设备、存储介质及计算机程序产品

AITNT
正文
推荐专利
文本分块方法、系统、检索增强生成装置、电子设备、存储介质及计算机程序产品
申请号:CN202510007607
申请日期:2025-01-03
公开号:CN119917643A
公开日期:2025-05-02
类型:发明专利
摘要
本发明提供了一种文本分块方法、系统、检索增强生成装置、电子设备、存储介质及计算机程序产品,该方法包括:获取待处理文本;基于预设的目标文本块的长度阈值区间,将长度小于长度阈值区间的上限值的待处理文本添加进文本块集合中;将长度不小于长度阈值区间的上限值的待处理文本进行切分得到分段自然段,并将分段自然段依次添加进段落列表中;遍历段落列表,将长度在长度阈值区间内的分段自然段添加进文本块集合中;将长度小于长度阈值区间的下限值的分段自然段进行字符串拼接融合;将长度不小于长度阈值区间的上限值的分段自然段进行语义层级边界切分。本发明能产生长度均衡且能更好保留语义完整性的文本块结果集合。
技术关键词
分段 文本分块方法 列表 计算机程序产品 生成装置 语义 层级 分子 电子设备 处理器 存储器 模块 重构
系统为您推荐了相关专利信息
1
基于在线离线双阶段联合匹配自适应任务卸载方法及系统
卸载方法 服务器 离线 阶段 在线
2
算子流的并行运行方法、计算机设备和可读存储介质
人工智能芯片 阶段 数据并行策略 矩阵 并行运行方法
3
数据流的动态处理设备、方法、电子设备、介质和产品
单板 计算机程序指令 旁路 动态 模块
4
一种固定预算排序择优方法、系统及存储介质
处理器 网络架构技术 样本 可视化模块 算法
5
面向新型电力系统的输电线路图增量图生成方法及系统
生成方法 电源设备 新型电力系统 坐标 电力系统设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号