摘要
本申请涉及自然语言处理技术领域,具体涉及一种基于微调嵌入模型的RAG检索流程优化方法及系统,该方法包括:确定各长文本文档内每种主题的主题表达分布度;采用滑动窗口算法基于每种文本分割主题的主题强度序列,获取每种文本分割主题的所有窗口序列,并基于各窗口序列中前一半元素与后一半元素之间平均分布情况的差异,确定每种文本分割主题的各窗口序列的主题突变度,以得到所有种文本分割主题下的短文本;确定每个短文本的文本主题集中度,并结合大语言模型对RAG检索流程进行优化。本申请通过分析不同主题在长文本文档的主题表达分布情况,提高文本分割的质量。
技术关键词
自然语言
集中度
文本
序列
滑动窗口算法
元素
强度
大语言模型
摘要
微调方法
主题模型
表达式
处理器
适配器
存储器
数值
数据