摘要
本发明涉及一种非结构化专利数据分类方法、装置及存储介质。其中的方法包括,获取包括非结构化专利数据的全部样本集;基于全部样本集,利用误差平方和最小化与轮廓系数法相结合获取最优K值;基于最优K值,利用基于方差最大化的决策树获取最优质心;基于最优K值和最优质心,利用K‑Means聚类算法获取最终的专利簇。与现有技术相比,本发明具有提升收敛速度和改善聚类效果,进而从专利文本非结构化数据中高效、准确地获取专利实质内容等优点。
技术关键词
数据分类方法
轮廓系数
样本
误差
结点
数据分类装置
构建决策树
特征数
程序
聚类
存储器
策略
处理器
算法
定义
文本
数值
速度
系统为您推荐了相关专利信息
序列
语义向量
日志异常检测方法
样本
神经网络训练方法
软件缺陷倾向预测方法
空间变换模型
项目
异构
多层感知机
安装误差
敏感性分析方法
错位
齿轮
计算机程序指令
生物标志物
肿瘤突变负荷
效能数据
肿瘤微环境
节点特征