一种基于递归算法和大语言模型的长文本语义分块方法

正文

推荐专利

申请号：CN202411971713

申请日期：2024-12-30

公开号：CN120068863A

公开日期：2025-05-30

类型：发明专利

摘要

本公开的实施例提供了一种基于递归算法和大语言模型的长文本语义分块方法，应用于互联网人工智能文档解析技术领域。所述方法包括根据第一待分块文本的token数，确定第二待分块文本；对第二待分块文本进行分句，得到对应的文本列表和分块位置列表；根据文本列表，遍历计算分块位置列表中分块位置的余弦相似度并排序，得到新的分块位置列表；将排序第一的分块位置，以及对应的第二待分块文本输入预先构建的文本分块语义检验大模型，输出切分是否符合语义的结果；根据输出的结果对第二待分块文本进行切分，切分后对产生的两个文本作为第一待分块文本按上述方法递归切分。每个分块文本足够保留上下文信息，保证分块粒度与检索和生成模型处理能力相匹配。

技术关键词

文本列表时间卷积网络递归算法语义向量分块方法互联网人工智能文档解析技术词语数据获取模块处理器通信分词语句存储器电子设备

系统为您推荐了相关专利信息

基于大语言模型的企业问答方法、系统、设备及存储介质

意图识别模型信息抽取模型大语言模型问答方法数据

一种基于特征增强和多尺度特征融合的医疗票据图像文本检测方法

图像文本检测方法预训练模型票据多尺度特征融合后处理模块

推荐问题的获取方法、装置、设备、介质、以及程序产品

关键字数据知识库搜索工具字段大语言模型

一种用于多语言系统的动态翻译文件管理方法及系统

多语言系统文件管理方法存储服务器文件管理系统列表

一种皮肤黑色素瘤规范数据集的建立方法

生成对抗网络模型掩码矩阵词向量嵌入方法 Softmax函数腹部超声检查

一种基于递归算法和大语言模型的长文本语义分块方法

站点导航

APP 下载