摘要
本申请提供一种大语言模型的文档检索增强方法、装置及设备。该方法包括:对于每一原始文本,将原始文本的起始位置作为起点,按照文本的文字顺序查找文本切分符号,根据起点和文本切分符号,基于预设启发式规则与滑动窗口进行文本分割,得到满足文本长度范围的多个文本块;获取原始文本中的所有字号,生成原始文本对应的文档目录结构;将原始文本对应的文档目录结构和对应的各个文本块的向量化文本片段存储到向量数据库中;召回与用户输入最相关的topK个召回文本片段;针对每一召回文本片段,根据对应的文档目录结构,获取召回文本片段的同一级别或更高级别对应的向量化文本片段,得到满足召回文本长度范围的召回长文本。
技术关键词
文本
目录
启发式规则
大语言模型
滑动窗口
符号
单层
通信接口
标签
可读存储介质
关系
存储器
计算机程序产品
处理器
指令
计算机设备
存储模块
终端
系统为您推荐了相关专利信息
区域匹配方法
图像
区域匹配装置
计算机可执行指令
神经网络模型
页面
大语言模型
计算机可执行指令
处理单元
元素
多通道脑电信号
便携式多通道
脑电信号处理
睡眠监测方法
时间滑动窗口
邮件传输协议
指令
格式
超文本传输协议
状态机模型