摘要
本发明涉及文本特征提取技术领域,且公开了一种基于关键词频率的文本特征提取方法,包括以下步骤:SP01:构建包含多个类别关键词训练集合,生成集合中的各个特征,获取特征之间相似度;SP02:对于集合中的各个特征,计算其在整个关键词的集合中出现的次数,相似度高的特征关键词频率汇总得到实际关键词频率,相似度低的特征关键词频率无需汇总得到实际关键词频率;SP03:根据实际关键词频率由高至低排序,分选出关键词频率高的特征组成新的特征集合;SP04:分选出关键词频率低的特征作为稀有词条特征,本发明使得稀有词条的剔除过程得到优化,能够防止稀有词条因低于某个设定的阈值直接滤除掉,有利于改善文本特征提取精度。
技术关键词
文本特征提取方法
关键词
频率
判定特征
特征关联分析
特征提取技术
语义
精度
系统为您推荐了相关专利信息
化工管道法兰
分布式光纤传感器
预警方法
螺旋缠绕方式
多模态
起重机起升机构
振动监测数据
XGBoost模型
振动加速度传感器
轴承滚动体
智能识别系统
数据采集频率
接口
交互性
路径跳数
视角
模糊隶属度
摘要生成方法
模糊推理系统
情感关键词