摘要
本公开提供了一种数据处理方法、装置、电子设备、介质及产品。该方法包括:确定第一训练对话数据集中多个第一训练对话数据的质量分值;将多个所述第一训练对话数据进行聚类分析,获得多个数据簇,每个数据簇中的第一训练对话数据的语义相似度符合相似度条件;根据多个所述数据簇,对多个所述第一训练对话数据进行多样性分析,确定多个所述第一训练对话数据的多样性分值;根据所述质量分值以及所述多样性分值,从所述第一训练对话数据集中筛选出符合预设条件的第二训练对话数据集,所述第二训练对话数据集用于模型训练,这样可以自动化筛选出更高质量和更高多样性的训练对话数据。
技术关键词
计算机可读代码
数据处理方法
电子设备
语义
可读存储介质
数据处理装置
计算机程序产品
处理器通信
模块
存储器
聚类
编码
系统为您推荐了相关专利信息
POGO连接器
接口控制系统
信号控制模块
监测模块
电源控制模块
生态系统
卷积神经网络模型
掩码矩阵
气象环境参数
变量
异常流量检测
CAN总线数据
路侧单元
车载网络
孤立森林算法