摘要
本发明公开了一种基于专利数据的风险技术识别方法。本发明基于对关键核心技术以及风险技术的定义,利用目标产业领域的待挖掘专利数据构建IPC技术共现网络,通过K‑core分析算法以及节点中心度的统计,识别关键核心小组,根据风险技术的特性预先构建好衡量专利质量的指标,通过质量得分统计识别风险技术小组;并借助信息抽取模型对风险技术小组内的专利进行细粒度技术短语抽取,文本聚类后通过判断得出最终风险技术小组的代表性技术短语。本发明的方法充分利用了专利著录项目的各个字段设计指标,对专利的标题和摘要文本进行抽取得到了细粒度的风险技术短语,在风险技术识别任务中取得了较好的筛选效果,显著降低解决此任务的成本。
技术关键词
分类号
信息抽取模型
核心
节点
识别方法
文本
指标
数据
网络
关键词
识别风险
列表
风险挖掘
著录项目
聚类
摘要
代表
度量
实体