摘要
本发明公开了一种大规模文本数据的主题识别方法、系统和可读介质,涉及大数据人工智能技术领域,一种大规模文本数据的主题识别方法包括:对所有大规模文本数据进行格式统一处理,基于每篇预处理好的文本数据,获取每篇文本数据的摘要,然后对每篇文本数据的摘要进行向量化处理,再对每篇摘要对应的语义向量查找出语义相近的其他前k个语义向量,并计算与其他前k个语义向量的语义相似度M,基于每个语义向量与其他前k个语义向量的语义相似度进行聚类,得到文本数据的主题识别结果,显著提升大规模文本主题识别的泛化能力、准确率和计算效率,减少了计算资源消耗。
技术关键词
大规模文本数据
语义向量
主题识别方法
摘要
生成树
层次聚类方法
大数据人工智能技术
矩阵
关键词提取模型
格式
搜索算法
识别系统
存储器
处理器
节点
系统为您推荐了相关专利信息
会议摘要
摘要生成方法
视频
语音识别模块
接收设备
智能考试
信息安全保护方法
关键词提取算法
椭圆曲线加密算法
摘要