一种大规模文本数据的主题识别方法、系统和可读介质

正文

推荐专利

申请号：CN202511233192

申请日期：2025-09-01

公开号：CN120745647B

公开日期：2025-11-18

类型：发明专利

摘要

本发明公开了一种大规模文本数据的主题识别方法、系统和可读介质，涉及大数据人工智能技术领域，一种大规模文本数据的主题识别方法包括：对所有大规模文本数据进行格式统一处理，基于每篇预处理好的文本数据，获取每篇文本数据的摘要，然后对每篇文本数据的摘要进行向量化处理，再对每篇摘要对应的语义向量查找出语义相近的其他前k个语义向量，并计算与其他前k个语义向量的语义相似度M，基于每个语义向量与其他前k个语义向量的语义相似度进行聚类，得到文本数据的主题识别结果，显著提升大规模文本主题识别的泛化能力、准确率和计算效率，减少了计算资源消耗。

技术关键词

大规模文本数据语义向量主题识别方法摘要生成树层次聚类方法大数据人工智能技术矩阵关键词提取模型格式搜索算法识别系统存储器处理器节点

系统为您推荐了相关专利信息

基于检索增强的条例关联问答方法、系统、电子设备及存储介质

金融文本节点问答方法三元组

一种会议记录与摘要生成方法、装置、电子设备及介质

会议摘要摘要生成方法视频语音识别模块接收设备

信息引导方法和装置、电子设备以及计算机可读存储介质

阶段资源信息引导方法对象主题

一种数据信息安全保护方法及系统

智能考试信息安全保护方法关键词提取算法椭圆曲线加密算法摘要

支持大模型识别的同义词识别方法、装置及相关设备

同义词识别方法语义向量编码标签哈希算法

一种大规模文本数据的主题识别方法、系统和可读介质

站点导航

APP 下载