摘要
本发明公开了基于无监督特征聚类的突发热点事件检测方法,所述方法包括:下载互联网内容平台的文本,进行数据预处理,得到分词列表和文章列表;使用预训练语言模型编码分词列表和文章列表,得到分词特征列表和文章特征列表;对分词特征列表和文章特征列表进行无监督特征聚类,得到所有分词簇和所有文章簇;根据所有分词簇和所有文章簇计算出包含突发热点事件的文章;对包含突发热点事件的文章进行总结,得到突发热点事件集合。本发明下载互联网上的海量内容,利用预训练语言模型具有判别性的特征空间,通过无监督的特征聚类实现突发热点事件的有效检测,并利用大语言模型对其归纳总结,不需要训练模型,在较低的计算成本下实现了有效的事件检测。
技术关键词
分词
文章特征
热点事件检测方法
无监督特征
预训练语言模型
列表
表达式
大语言模型
聚类算法
平台网页
海量网页
文本
编码
互联网
数据
系统为您推荐了相关专利信息
对话生成方法
多模态交互
智能客服
意图类别
节点
自动生成方法
模版
大语言模型
自然语言分词
项目
图像生成模型
内容生成方法
图像全局特征
会话
语义特征