网络词语采集方法及系统

正文

推荐专利

网络词语采集方法及系统

申请号：CN202410742497

申请日期：2024-06-11

公开号：CN118734835A

公开日期：2024-10-01

类型：发明专利

摘要

本发明公开了网络词语采集方法及系统，属于自然语言处理技术领域，要解决的技术问题为：在无需大量标注的前提下、如何快速及时的从海量额网络文本中识别和提取具有代表性和独特性的网络词语。包括如下步骤：通过爬虫技术从多个网络平台中获取网络文本数据；通过自然语言处理工具对网络文本数据集进行预处理；以预处理后的网络文本数据为输入、通过当前的词语学习模型预测输出词语特征，并对当前的词语学习模型进行模型训练；对输出的词语特征进行筛选和验证，将通过筛选和验证的网络词语存储至网络词语库中；定期执行数据采集、数据预处理、特征提取及模型训练、以及词语筛选操作，以更新网络词语库。

技术关键词

词语文本自然语言采集系统统计特征爬虫技术网络平台深度学习算法模型训练模块数据采集模块冗余数据存储分词关系标签

系统为您推荐了相关专利信息

一种基于多模态输入的心理健康支持对话生成方法

对话生成方法心理健康大语言模型文本语义向量空间

一种基于深度学习的网约车语音助手系统的方法和装置

语音助手系统网约车订单特征工程文本训练集

基于LLM语义理解技术的Excel模版数据自动回填方法

Excel模板语义理解技术回填方法自然语言自定义函数

一种综合能源管理系统

综合能源管理系统调度优化算法能耗数据采集单元设备状态数据

一种用于数字科技个性化服务的供需匹配方法

供需匹配方法自然语言文本分类模型标签词嵌入模型

网络词语采集方法及系统

站点导航

APP 下载