摘要
本发明公开了一种基于大模型和RAG技术的全局知识抽取方法及系统,属于大模型数据处理技术领域,本发明采用局部敏感哈希去重和动态阈值合并相似文本,减少冗余数据干扰;基于分隔符置信度的文本分割策略,确保分割后的文本块既保持语义完整,又适配大模型输入长度限制,融合相似性检索和全文检索,结合RRF算法对结果重排序,兼顾语义相关性和精准性,满足多场景知识构建需求,通过互信息筛选高相关性的实体对,结合RAG系统从向量数据库中检索上下文知识,利用大语言模型进行语义推理,生成实体间隐含的逻辑关系,实现从数据关联到知识生成的跃升。
技术关键词
文本
混合搜索策略
谱聚类算法
数据
实体
局部敏感哈希算法
矩阵
建立倒排索引
语义
拉普拉斯
非线性
关系
可读存储介质
抽取系统
生成向量
大语言模型
系统为您推荐了相关专利信息
虚拟机管理程序
管理虚拟机实例
指令
智能卡
数据迁移
光伏设备
设备健康监测
分流方法
性能预测模型
DNN模型
分布特征
水质检测方法
待测水体
参数
反射率数据
孔隙水压力
早期预警方法
地下水动力学
记忆单元
水位预测值