摘要
本发明公开了一种数据集确定方法、装置、介质以及产品,涉及数据处理技术领域。通过文档长度和不同的内容组件采用自适应处理流水线策略进行的分片处理,实现对文档结构的深度挖掘的层次化分割。融合多种节点关系使得图谱语义更为丰富,以生成包含节点和关系的动态维护的知识图谱。融合用户角色和多样化的节点查询策略生成,提高跨文本信息整合、分析比较以及复杂推理的能力。将标准答案进行分解处理得到事实颗粒,使得标准答案在后续数据集评测过程中从模糊转变为清晰的事实覆盖。根据数据集评测维度进行评测处理,形成多代理协同验证机制的闭环质量控制方式评测,提高数据集质量的同时,也提高RAG系统的评测效果和可靠性。
技术关键词
预训练模型
节点
图谱
分块
数据
并行特征提取
关系
查询策略
非易失性存储介质
语义
答案
主题
分片
时效性
命名实体识别
存储计算机程序
生成机制
系统为您推荐了相关专利信息
地表温度基线
火灾报警方法
数字地形模型
假彩色图像
分辨率
机器人空间定位
重建系统
扩展卡尔曼滤波器
地图
数据处理单元