摘要
本申请公开了一种网页聚类方法及装置和电子设备,涉及网页处理技术领域。该方法包括:获取多个目标网页,并提取每个目标网页中的目标文本,得到多个目标文本;将每个目标文本输入至目标语义提取模型进行处理,得到每个目标文本的语义信息;将每个目标文本的语义信息输入至目标聚类模型进行处理,得到对多个目标网页进行聚类的目标聚类结果。通过本申请,解决了相关技术中对网页进行聚类的准确性较低的问题。
技术关键词
网页聚类方法
文本
预训练语言模型
模糊聚类算法
节点
样本
文档对象模型
标签
电子设备
处理单元
树状结构
语义特征
处理器
可读存储介质
程序
存储器
数据
关系