摘要
本发明涉及自然语言处理技术领域,特别涉及一种对话摘要生成模型微调训练用样本数据选择方法及系统,利用第一模型生成训练样本数据集中各会话数据的候选摘要,计算候选摘要与对应的参考摘要的ROUGE得分并对得分进行排序,选取得分小于第一阈值的候选摘要和参考摘要,并依据选取的候选摘要和参考摘要得到候选样本数据集;利用第二模型生成候选样本数据集中会话数据语义向量,计算候选样本数据集中会话数据语义向量的相似度,并基于相似度并通过多样性采样来获取对话摘要生成模型微调训练用样本数据。本发明通过数据选择策略从训练数据中筛选高质量的训练样本,以在模型微调训练时保证模型性能的同时,能够减少计算成本、提高效率。
技术关键词
摘要
训练样本数据
语义向量
生成训练样本
采样方法
生成会话
数据获取模块
可读存储介质
自然语言
处理器
超参数
存储器
计算机
电子设备
策略
系统为您推荐了相关专利信息
文件夹
平台开发方法
脚本
web开发框架
插件管理
音乐创作方法
音乐创作系统
音频设备
集成模块
处理单元
生成方法
高精度姿态
特征提取网络
人体骨骼关键点
两阶段
电力服务系统
数据隐私保护
历史会话
语句
时序特征