摘要
本申请公开了基于分布的预训练数据自动筛选方法及电子设备,属于大模型技术领域;该方法包括:利用数据输入模块接收原始数据集,其中,所述原始数据集中的数据有多种格式;利用第一算法将所述原始数据集中的数据转化为原始特征分布;其中,所述第一算法包括哈希算法和n‑gram算法;获取目标任务对应的参考数据集,构建与所述参考数据集对应的目标任务分布;基于所述目标任务分布和所述原始特征分布,计算所述原始特征分布中每条数据的余弦相似度;基于所述余弦相似度确定目标数据集。本申请能自动完成原始数据集的筛选,降低了成本,实现了高效准确筛选数据且适应能力强的技术效果。
技术关键词
自动筛选方法
数据输入模块
哈希算法
电子设备
可读存储介质
处理器
格式
存储器
计算机
程序
文本
策略
动态
网络
参数
系统为您推荐了相关专利信息
敏感数据识别方法
卷积神经网络模型
敏感数据识别系统
节点特征
注意力机制算法
数据获取请求
数据安全防护方法
历史设备
密钥
性能预测模型
停车缴费方法
实时图像
停车场缴费
二维码
计算机执行指令
语音情绪识别
模型训练方法
梅尔频率倒谱系数
频域分析技术
时域特征