摘要
本发明涉及人工智能技术领域,公开了网页信息的采集方法、装置、设备、介质及程序产品。该方法包括:获取目标网页的统一资源定位符,并根据统一资源定位符,获取目标网页对应的网页内容数据;根据网页内容数据,获取多个初始网页主题词,并计算得到各初始网页主题词与各已存情感词之间的初始相似度;根据各初始网页主题词与各已存情感词之间的初始相似度,以及各预设情感词库对应的权重值,获取各初始网页主题词与各已存情感词之间的目标相似度;根据各初始网页主题词与各已存情感词之间的目标相似度,获取目标网页主题词。本实施例的方案,可以实现对获取网页内容数据的自动筛选,可以提升网页信息采集的效率和精准度,可以提升用户体验。
技术关键词
统一资源定位符
情感词库
数据中心
数据压缩策略
超文本标记语言
双向变换器
动态页面
静态页面
可读存储介质
人工智能技术
数据获取模块
计算机程序产品
电子设备
处理器通信
存储器
系统为您推荐了相关专利信息
预训练模型
数据中心
电能表
识别模型训练
检测模型训练
马尔科夫模型
数据中心
关联规则挖掘技术
会话
转移概率矩阵
扩散预测方法
粒子群优化算法
进化算法
土壤污染防治技术
代表