一种基于关键词频率的文本特征提取方法

AITNT
正文
推荐专利
一种基于关键词频率的文本特征提取方法
申请号:CN202411136995
申请日期:2024-08-19
公开号:CN118916787A
公开日期:2024-11-08
类型:发明专利
摘要
本发明涉及文本特征提取技术领域,且公开了一种基于关键词频率的文本特征提取方法,包括以下步骤:SP01:构建包含多个类别关键词训练集合,生成集合中的各个特征,获取特征之间相似度;SP02:对于集合中的各个特征,计算其在整个关键词的集合中出现的次数,相似度高的特征关键词频率汇总得到实际关键词频率,相似度低的特征关键词频率无需汇总得到实际关键词频率;SP03:根据实际关键词频率由高至低排序,分选出关键词频率高的特征组成新的特征集合;SP04:分选出关键词频率低的特征作为稀有词条特征,本发明使得稀有词条的剔除过程得到优化,能够防止稀有词条因低于某个设定的阈值直接滤除掉,有利于改善文本特征提取精度。
技术关键词
文本特征提取方法 关键词 频率 判定特征 特征关联分析 特征提取技术 语义 精度
系统为您推荐了相关专利信息
1
基于分布式光纤传感的化工管道法兰松动泄漏预警方法及系统
化工管道法兰 分布式光纤传感器 预警方法 螺旋缠绕方式 多模态
2
一种起重机起升机构运行状态监测方法和系统
起重机起升机构 振动监测数据 XGBoost模型 振动加速度传感器 轴承滚动体
3
一种用于信息技术咨询的智能识别系统
智能识别系统 数据采集频率 接口 交互性 路径跳数
4
基于LLM的多视角融合驱动的摘要生成方法
视角 模糊隶属度 摘要生成方法 模糊推理系统 情感关键词
5
标书文件解析模型训练方法、训练装置、标书文件解读方法及设备
文本 模型训练方法 答案 解读方法 网络结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号