一种基于对比学习的大语言数据集构建方法

正文

推荐专利

一种基于对比学习的大语言数据集构建方法

申请号：CN202410773687

申请日期：2024-06-14

公开号：CN118734069B

公开日期：2025-09-09

类型：发明专利

摘要

本发明公开了一种基于对比学习的大语言数据集构建方法，可以实现大语言模型预测的精准，提高提取结果的准确性，对于文字中的实体和关系进行同步解码，增加实体主客体间联系性；通过设置强特征和弱特征，可以解决当前语言模型生成的句嵌入具有各向同性、不同文本之间语义相似度高的问题，通过设置注释模块进行独立批注的方式，在之后进行差异化对比时，可以形成差值和等值，从而分别归类形成过滤训练集和验证集。

技术关键词

数据集构建方法识别模块语种识别实体语义特征识别器关系分类器大语言模型关键词训练集矩阵三元组文本编码器解码校正

系统为您推荐了相关专利信息

一种基于扩散模型的任意倍率超分辨率增强系统和方法

超分辨率语义特征图像编码器双三次插值文本

一种利用LLM构建合规风控AI知识库领域的方法

大语言模型知识库系统元素关系物联网设备

数据结构化方法、装置、电子设备及存储介质

层级生成结构化数据实体识别模型样本自然语言

图像描述文本的生成方法、装置、电子设备和存储介质

实体图像生成方法文本识别电子设备

一种数据与知识双驱动的湖羊精准饲喂方法

精准饲喂方法酸性洗涤纤维中性洗涤纤维知识图谱推理阶段

一种基于对比学习的大语言数据集构建方法

站点导航

APP 下载