摘要
本公开实施例公开了一种基于论文‑专利对的分类法映射数据集构建方法及装置,涉及数据挖掘领域,该方法包括:确定目标领域的论文数据集和专利数据集;基于专利数据集和论文数据集,确定论文‑专利对数据集;基于科学分类法和技术分类法,补充每个论文‑专利对中论文对应的科学分类法标签和专利对应的技术分类法标签;对于每个论文‑专利对,确定论文‑专利对中学术论文对应的科学分类法标签和专利对应的技术分类法标签之间的映射关系;基于所有论文‑专利对关联的映射关系,得到分类法映射数据集。本公开实施例提高了分类法映射数据集的数据客观性和可扩展性,为大语言模型预训练、跨领域知识发现等人工智能应用场景提供高质量的基础数据支撑。
技术关键词
论文
数据集构建方法
标签
层级
数据字
关系
模型预训练
处理器
可读存储介质
模块
存储器
电子设备
文本
计算机
科技
场景
基础
系统为您推荐了相关专利信息
样本工艺流程
文字识别工具
组态界面
计算机程序指令
神经网络模型
故障诊断模型
标签
数据
测试轴承
轴承故障诊断方法
气象风险预警
预警系统
地质灾害风险评价
标签管理
项目