摘要
本发明涉及一种用于识别材料化学式的文本挖掘方法及系统。本发明首先获取文本集合并预处理得到目标文本集合;再标记化学元素位置并纠错得标记向量,经指数偏移、差分处理得差分向量;接着计算离群点序列最大上升子序列长度,以此设聚类簇数,并对偏移向量进行k均值聚类,最后根据k均值聚类的结果对文本进行标记。与现有技术相比,本发明具有提取文本化学式的准确性高、效率高等优点。
技术关键词
文本挖掘方法
令牌
标记
化学式
列表
字符
离群点
序列
文本挖掘系统
纠错模块
指数
副本
元素
符号
索引
聚类
离子
系统为您推荐了相关专利信息
三维轮廓测量方法
点云特征
分类方法
轨道
二叉树结构
生成动态二维码
压缩时序数据
数据传输方法
无损压缩算法
车辆