对话摘要生成模型微调训练用样本数据选择方法及系统

正文

推荐专利

申请号：CN202510578682

申请日期：2025-05-07

公开号：CN120492925A

公开日期：2025-08-15

类型：发明专利

摘要

本发明涉及自然语言处理技术领域，特别涉及一种对话摘要生成模型微调训练用样本数据选择方法及系统，利用第一模型生成训练样本数据集中各会话数据的候选摘要，计算候选摘要与对应的参考摘要的ROUGE得分并对得分进行排序，选取得分小于第一阈值的候选摘要和参考摘要，并依据选取的候选摘要和参考摘要得到候选样本数据集；利用第二模型生成候选样本数据集中会话数据语义向量，计算候选样本数据集中会话数据语义向量的相似度，并基于相似度并通过多样性采样来获取对话摘要生成模型微调训练用样本数据。本发明通过数据选择策略从训练数据中筛选高质量的训练样本，以在模型微调训练时保证模型性能的同时，能够减少计算成本、提高效率。

技术关键词

摘要训练样本数据语义向量生成训练样本采样方法生成会话数据获取模块可读存储介质自然语言处理器超参数存储器计算机电子设备策略

系统为您推荐了相关专利信息

一种SaaS平台开发方法、计算机设备、计算机可读存储介质

文件夹平台开发方法脚本 web开发框架插件管理

一种盲用音乐创作方法和电子设备

音乐创作方法音乐创作系统音频设备集成模块处理单元

一种两阶段改进的人像姿态迁移生成方法

生成方法高精度姿态特征提取网络人体骨骼关键点两阶段

闪烁脉冲的处理方法、装置、设备及存储介质

关系脉冲集算法校正模块规划

一种基于联邦学习的电力大数据隐私保护方法及系统

电力服务系统数据隐私保护历史会话语句时序特征

对话摘要生成模型微调训练用样本数据选择方法及系统

站点导航

APP 下载