摘要
本发明公开了一种基于双层嵌套聚类的故事脉络生成方法,属于社交媒体数据挖掘与分析技术领域。本发明首先基于生成的多主题故事集合实现代表性事件的子话题挖掘和关联分析,生成具有骨干及分支脉络的多层次故事树;在对于不同等级的脉络构建了骨干脉络标题摘要和联合语义主题及地理实体概念的GeoTextRank分支脉络摘要算法,实现了对故事主题及情节的提炼。本发明利用双层嵌套聚类的故事脉络生成方法,分别聚类生成故事脉络骨干和故事脉络的分支事件,从宏观上简明直观的展示热点事件,从微观精细化跟踪热点事件,从而实现多层次的主题抽取手段和关联策略,为事件的发展演化分析奠定基础。
技术关键词
故事脉络生成方法
社交媒体数据挖掘
分支
嵌套
地理实体
摘要算法
分析奠定基础
文本
多层次
社交媒体平台
聚类算法
主题关键词
词嵌入模型
语义主题
无监督