摘要
本发明公开了一种基于改进HDBSCAN聚类算法的热点话题监测方法及系统,通过增量式爬虫技术抓取社交媒体平台的新闻及评论数据,记录页面更新状态并动态维护数据时效性;对文本进行分词、停用词过滤及实体识别预处理,构建三元组数据集;基于三元组损失函数微调SBERT模型,优化语义向量表示的聚类中心监督能力;对高维语义向量降维,保留文本全局与局部语义结构;结合余弦相似度和时间衰减因子改进HDBSCAN距离度量,动态调整文本相似度权重实现新旧话题分离;基于用户交互行为与时间窗口构建热度分析模型,实时追踪话题传播趋势与影响力演化。该方法通过语义增强与动态聚类机制,有效提升热点话题识别的准确性和实时性。
技术关键词
三元组损失函数
文本
语义结构
监测方法
先进先出队列
广度优先遍历
域名规则
语义向量
热点话题识别
样本
队列管理单元
计算机终端设备
条件随机场模型
流形学习方法
算法
数据采集模块
社交媒体平台