摘要
本申请公开了一种领域数据收集方法、装置、电子设备及存储介质,涉及数据处理技术领域,包括:获取开源语料库中的开源数据集,并对开源数据集中各数据进行领域相关性标注,得到标注数据集;根据标注的领域相关性对标注数据集进行筛选,得到与目标领域相关的标注数据子集;对标注数据子集中各数据进行合规性注释,得到注释数据子集;根据注释的合规性对注释数据子集进行筛选,得到目标领域数据。本申请实现了从大量开源语料库中高效提取出既具有金融领域相关性又符合合规要求的专业语料数据,确保了目标领域数据的数量和质量,为金融领域大模型的预训练提供了可靠的数据基础,从而提升了模型在金融领域的理解能力和表达准确性。
技术关键词
数据分类模型
数据收集方法
预训练语言模型
合规性
数据收集装置
大语言模型
样本
参数
电子设备
数据处理技术
金融
训练集
处理器
可读存储介质
模块
存储器
专业
计算机
基础
系统为您推荐了相关专利信息
大语言模型
语义图谱
一体机系统
案件
一体化终端设备
语义特征
帖子
实时检测方法
预训练语言模型
融合特征
数据访问控制方法
差分隐私
加密数据
数据访问权限
频率