摘要
本发明公开了网络词语采集方法及系统,属于自然语言处理技术领域,要解决的技术问题为:在无需大量标注的前提下、如何快速及时的从海量额网络文本中识别和提取具有代表性和独特性的网络词语。包括如下步骤:通过爬虫技术从多个网络平台中获取网络文本数据;通过自然语言处理工具对网络文本数据集进行预处理;以预处理后的网络文本数据为输入、通过当前的词语学习模型预测输出词语特征,并对当前的词语学习模型进行模型训练;对输出的词语特征进行筛选和验证,将通过筛选和验证的网络词语存储至网络词语库中;定期执行数据采集、数据预处理、特征提取及模型训练、以及词语筛选操作,以更新网络词语库。
技术关键词
词语
文本
自然语言
采集系统
统计特征
爬虫技术
网络平台
深度学习算法
模型训练模块
数据采集模块
冗余
数据存储
分词
关系
标签
系统为您推荐了相关专利信息
对话生成方法
心理健康
大语言模型
文本
语义向量空间
Excel模板
语义理解技术
回填方法
自然语言
自定义函数
综合能源管理系统
调度优化算法
能耗
数据采集单元
设备状态数据
供需匹配方法
自然语言
文本分类模型
标签
词嵌入模型