摘要
本发明涉及语义处理技术领域,具体涉及一种基于大数据的政务服务热线平台数据治理与分析方法。本发明首先获取历史通话数据的沟通词组,从中筛选出强调词组和可能诉求词组;进一步在任意两个历史通话数据中,基于强调词组之间的相似性对不同通话的强调词组进行匹配;进一步根据所有匹配的强调词组之间的使用差异的一致性,获取主旨一致系数并对所有历史通话数据进行分类;最后在任一类历史通话数据中,根据可能诉求词组之间的相似性,结合可能诉求词组的分布,筛选出诉求词组并记为需求标签,有效解决现有技术中用户需求标签分类不准确、数据挖掘偏差大的技术问题。
技术关键词
分析方法
政务
大数据
平台
标签
代表
词典
频率
分词
关系
聚类
语义
文本
偏差