法律大模型微调数据筛选方法、设备和介质

正文

推荐专利

法律大模型微调数据筛选方法、设备和介质

申请号：CN202510475633

申请日期：2025-04-16

公开号：CN120408192A

公开日期：2025-08-01

类型：发明专利

摘要

本发明涉及一种法律大模型微调数据筛选方法、设备和介质，属于人工智能技术领域。生成形成偏好数据集，利用偏好数据集训练法律质量评分模型，利用平衡焦点损失函数动态调节简单合规样本和复杂争议样本的权重；对候选法律微调数据集进行质量评分，计算候选法律微调数据集的复杂性分数，生成候选法律微调数据集的质量‑复杂性评分数据集；构建语法依赖关系的依存树，对向量化后的依存树特征进行聚类分析，通过对候选法律微调数据集进行簇划分和排序，从而合并成最终微调子数据集，完成筛选。其有效解决了传统筛选方法导致的语义失真和训练偏差问题，为法律垂直领域大模型的高效训练提供了系统性解决方案。

技术关键词

数据筛选方法焦点损失函数样本节点高维向量空间依存句法分析邻居裁判文书可读存储介质句法结构人工智能技术处理器代表存储器计算机设备关系三元组

系统为您推荐了相关专利信息

基于选项和答题元路径的认知诊断方法、系统及存储介质

认知诊断方法知识点答题学生节点

工业防呆场景中图片类别检测方法、装置、设备及介质

训练检测模型噪声样本检测点图片类别数据输入模块

一种基于大数据的矿产监测方法、设备及云平台

区块链数据处理报告因子节点账户

一种正文和水印的识别方法、装置及应用方法

文本行水印光学字符识别校正识别文档图像

基于GAN的电力协议蜜罐诱捕与异常识别方法

异常识别方法生成攻击样本协议生成器网络日志关联分析

法律大模型微调数据筛选方法、设备和介质

站点导航

APP 下载