一种基于改进HDBSCAN聚类算法的热点话题监测方法及系统

AITNT
正文
推荐专利
一种基于改进HDBSCAN聚类算法的热点话题监测方法及系统
申请号:CN202510934977
申请日期:2025-07-08
公开号:CN120429486A
公开日期:2025-08-05
类型:发明专利
摘要
本发明公开了一种基于改进HDBSCAN聚类算法的热点话题监测方法及系统,通过增量式爬虫技术抓取社交媒体平台的新闻及评论数据,记录页面更新状态并动态维护数据时效性;对文本进行分词、停用词过滤及实体识别预处理,构建三元组数据集;基于三元组损失函数微调SBERT模型,优化语义向量表示的聚类中心监督能力;对高维语义向量降维,保留文本全局与局部语义结构;结合余弦相似度和时间衰减因子改进HDBSCAN距离度量,动态调整文本相似度权重实现新旧话题分离;基于用户交互行为与时间窗口构建热度分析模型,实时追踪话题传播趋势与影响力演化。该方法通过语义增强与动态聚类机制,有效提升热点话题识别的准确性和实时性。
技术关键词
三元组损失函数 文本 语义结构 监测方法 先进先出队列 广度优先遍历 域名规则 语义向量 热点话题识别 样本 队列管理单元 计算机终端设备 条件随机场模型 流形学习方法 算法 数据采集模块 社交媒体平台
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号