摘要
本发明公开了一种基于对比学习的大语言数据集构建方法,可以实现大语言模型预测的精准,提高提取结果的准确性,对于文字中的实体和关系进行同步解码,增加实体主客体间联系性;通过设置强特征和弱特征,可以解决当前语言模型生成的句嵌入具有各向同性、不同文本之间语义相似度高的问题,通过设置注释模块进行独立批注的方式,在之后进行差异化对比时,可以形成差值和等值,从而分别归类形成过滤训练集和验证集。
技术关键词
数据集构建方法
识别模块
语种识别
实体
语义特征
识别器
关系分类器
大语言模型
关键词
训练集
矩阵
三元组
文本
编码器
解码
校正
系统为您推荐了相关专利信息
层级
生成结构化数据
实体识别模型
样本
自然语言
精准饲喂方法
酸性洗涤纤维
中性洗涤纤维
知识图谱推理
阶段