摘要
本发明公开了一种数据出版物可复用性的综合测度方法,该方法包括以下步骤:获取用于构建样本集的数据出版物的施引文献全文;通过数据清洗,识别样本集中数据出版物在全部施引文献全文中所处的章节位置,并提取引用位置所在的段落文本,作为后续模型输入的总样本;定义引用功能及引用极性分类标准,依托语义增强训练具备泛化能力的分类模型;通过不断迭代,获取模型调优参数集,基于总样本形成引用功能及引用极性自动分类的结果样本集;构建并计算数据出版物可复用性影响因子指标,所述影响因子指标包括:引用强度指数、引用热度指数和引用广度指数;构建并计算数据出版物可复用性综合指数。本发明可以实现引用功能和极性的自动分类,形成由引用功能和极性校正后的引用强度,在此基础上,构建由引用强度、引用热度、引用广度组成的计量框架,以客观、完整地揭示数据出版物及其关联数据集可复用性的真实情况与发展潜力。
技术关键词
样本
综合测度方法
指数
数据
文本
人工标记
预训练语言模型
训练分类模型
矩阵
半监督训练
转译方法
更新模型参数
因子
指标
强度
校正
语义
元素
系统为您推荐了相关专利信息
建模系统
资产
自动建模技术
三维建模数据
倾斜摄影数据
数据融合算法
检测重金属含量
盾构机液压设备
强化学习算法
物联网传输协议
拓扑网络
运维数据处理技术
图谱
服务调用关系
注意力