摘要
本发明公开了基于生成式压缩与两阶段检索的长文本处理方法及系统,包括以下具体步骤:S1,生成式压缩阶段;S101,将原始长文本语料输入生成式压缩模块;S102,进行压缩质量评估,若未通过则返回生成式压缩模块进行压缩,若通过则输入元数据索引库;S2,两阶段检索与生成;S201,首轮检索筛选Top‑K候选集;S202,对原始文本层进行次轮增强,采用思维链提示生成。本发明通过生成式压缩提炼语义密集元数据,降低噪声干扰,并且采用首轮元数据快速筛选候选集,次轮关联原始文本补充细节,可以支持多跳推理与专业领域需求。
技术关键词
文本处理方法
大语言模型
文本处理系统
语义
模块
建立映射关系
分块
支持多跳
两阶段
数据
索引
动态
论文
科研
实体
专业
噪声
系统为您推荐了相关专利信息
服务器网络安全
测评方法
BERT模型
自动化测试脚本
依存句法分析
点云配准方法
嵌入特征
特征提取模块
匹配模块
分辨率
大语言模型
语句
自然语言
数据库管理系统
后续数据分析