一种基于递归算法和大语言模型的长文本语义分块方法

AITNT
正文
推荐专利
一种基于递归算法和大语言模型的长文本语义分块方法
申请号:CN202411971713
申请日期:2024-12-30
公开号:CN120068863A
公开日期:2025-05-30
类型:发明专利
摘要
本公开的实施例提供了一种基于递归算法和大语言模型的长文本语义分块方法,应用于互联网人工智能文档解析技术领域。所述方法包括根据第一待分块文本的token数,确定第二待分块文本;对第二待分块文本进行分句,得到对应的文本列表和分块位置列表;根据文本列表,遍历计算分块位置列表中分块位置的余弦相似度并排序,得到新的分块位置列表;将排序第一的分块位置,以及对应的第二待分块文本输入预先构建的文本分块语义检验大模型,输出切分是否符合语义的结果;根据输出的结果对第二待分块文本进行切分,切分后对产生的两个文本作为第一待分块文本按上述方法递归切分。每个分块文本足够保留上下文信息,保证分块粒度与检索和生成模型处理能力相匹配。
技术关键词
文本 列表 时间卷积网络 递归算法 语义向量 分块方法 互联网人工智能 文档解析技术 词语 数据获取模块 处理器通信 分词 语句 存储器 电子设备
系统为您推荐了相关专利信息
1
基于大语言模型的企业问答方法、系统、设备及存储介质
意图识别模型 信息抽取模型 大语言模型 问答方法 数据
2
一种基于特征增强和多尺度特征融合的医疗票据图像文本检测方法
图像文本检测方法 预训练模型 票据 多尺度特征融合 后处理模块
3
推荐问题的获取方法、装置、设备、介质、以及程序产品
关键字 数据知识库 搜索工具 字段 大语言模型
4
一种用于多语言系统的动态翻译文件管理方法及系统
多语言系统 文件管理方法 存储服务器 文件管理系统 列表
5
一种皮肤黑色素瘤规范数据集的建立方法
生成对抗网络模型 掩码矩阵 词向量嵌入方法 Softmax函数 腹部超声检查
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号