摘要
本发明实施例中提供了一种基于三段式GRPO强化学习的裁判文书摘要生成方法,属于数据处理技术领域,具体包括:步骤1,建模三段式思维链;步骤2,根据三段式思维链对原始裁判文书数据集进行数据蒸馏与分层,得到不同类型的数据集,其中,所述类型包括高相关性、中相关性和低相关性;步骤3,使用高相关性数据集对大语言模型进行SFT监督微调训练;步骤4,利用全部数据集对训练后的大语言模型进行多阶段GRPO强化学习训练,得到目标模型;步骤5,将目标裁判文书输入目标模型,生成目标摘要。通过本发明的方案,提高了摘要生成效率、精准度和适应性。
技术关键词
裁判文书
摘要生成方法
多阶段
实体
大语言模型
bert模型
预训练语言模型
格式
模板
三段式结构
数据处理技术
生成标签
表达式
分层
策略
蒸馏
系统为您推荐了相关专利信息
大语言模型
线性规划算法
检索方法
可读存储介质
检索装置
智能体交互
医疗知识图谱
信息问答方法
语义向量
医学
视觉特征
实体
知识图谱融合方法
多模态特征
文本