领域数据收集方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
领域数据收集方法、装置、电子设备及存储介质
申请号:CN202411519964
申请日期:2024-10-29
公开号:CN119691157A
公开日期:2025-03-25
类型:发明专利
摘要
本申请公开了一种领域数据收集方法、装置、电子设备及存储介质,涉及数据处理技术领域,包括:获取开源语料库中的开源数据集,并对开源数据集中各数据进行领域相关性标注,得到标注数据集;根据标注的领域相关性对标注数据集进行筛选,得到与目标领域相关的标注数据子集;对标注数据子集中各数据进行合规性注释,得到注释数据子集;根据注释的合规性对注释数据子集进行筛选,得到目标领域数据。本申请实现了从大量开源语料库中高效提取出既具有金融领域相关性又符合合规要求的专业语料数据,确保了目标领域数据的数量和质量,为金融领域大模型的预训练提供了可靠的数据基础,从而提升了模型在金融领域的理解能力和表达准确性。
技术关键词
数据分类模型 数据收集方法 预训练语言模型 合规性 数据收集装置 大语言模型 样本 参数 电子设备 数据处理技术 金融 训练集 处理器 可读存储介质 模块 存储器 专业 计算机 基础
系统为您推荐了相关专利信息
1
婴儿癫痫性痉挛综合征的辅助检测系统、装置和方法
辅助检测系统 婴儿 痉挛 多模态信息融合 生理
2
一种基于大语言模型的法盾AI智能办案一体机系统
大语言模型 语义图谱 一体机系统 案件 一体化终端设备
3
融合背景知识与用户特征的虚假新闻实时检测方法与系统
语义特征 帖子 实时检测方法 预训练语言模型 融合特征
4
基于差分隐私的可信数据访问控制方法及系统
数据访问控制方法 差分隐私 加密数据 数据访问权限 频率
5
一种基于大语言模型的长文本问答协同推理方法
大语言模型 推理方法 文本 答案 解码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号