摘要
本公开的实施例提供了一种基于递归算法和大语言模型的长文本语义分块方法,应用于互联网人工智能文档解析技术领域。所述方法包括根据第一待分块文本的token数,确定第二待分块文本;对第二待分块文本进行分句,得到对应的文本列表和分块位置列表;根据文本列表,遍历计算分块位置列表中分块位置的余弦相似度并排序,得到新的分块位置列表;将排序第一的分块位置,以及对应的第二待分块文本输入预先构建的文本分块语义检验大模型,输出切分是否符合语义的结果;根据输出的结果对第二待分块文本进行切分,切分后对产生的两个文本作为第一待分块文本按上述方法递归切分。每个分块文本足够保留上下文信息,保证分块粒度与检索和生成模型处理能力相匹配。
技术关键词
文本
列表
时间卷积网络
递归算法
语义向量
分块方法
互联网人工智能
文档解析技术
词语
数据获取模块
处理器通信
分词
语句
存储器
电子设备
系统为您推荐了相关专利信息
意图识别模型
信息抽取模型
大语言模型
问答方法
数据
图像文本检测方法
预训练模型
票据
多尺度特征融合
后处理模块
多语言系统
文件管理方法
存储服务器
文件管理系统
列表
生成对抗网络模型
掩码矩阵
词向量嵌入方法
Softmax函数
腹部超声检查