一种大规模文本数据的主题识别方法、系统和可读介质

AITNT
正文
推荐专利
一种大规模文本数据的主题识别方法、系统和可读介质
申请号:CN202511233192
申请日期:2025-09-01
公开号:CN120745647B
公开日期:2025-11-18
类型:发明专利
摘要
本发明公开了一种大规模文本数据的主题识别方法、系统和可读介质,涉及大数据人工智能技术领域,一种大规模文本数据的主题识别方法包括:对所有大规模文本数据进行格式统一处理,基于每篇预处理好的文本数据,获取每篇文本数据的摘要,然后对每篇文本数据的摘要进行向量化处理,再对每篇摘要对应的语义向量查找出语义相近的其他前k个语义向量,并计算与其他前k个语义向量的语义相似度M,基于每个语义向量与其他前k个语义向量的语义相似度进行聚类,得到文本数据的主题识别结果,显著提升大规模文本主题识别的泛化能力、准确率和计算效率,减少了计算资源消耗。
技术关键词
大规模文本数据 语义向量 主题识别方法 摘要 生成树 层次聚类方法 大数据人工智能技术 矩阵 关键词提取模型 格式 搜索算法 识别系统 存储器 处理器 节点
系统为您推荐了相关专利信息
1
基于检索增强的条例关联问答方法、系统、电子设备及存储介质
金融 文本 节点 问答方法 三元组
2
一种会议记录与摘要生成方法、装置、电子设备及介质
会议摘要 摘要生成方法 视频 语音识别模块 接收设备
3
信息引导方法和装置、电子设备以及计算机可读存储介质
阶段 资源 信息引导方法 对象 主题
4
一种数据信息安全保护方法及系统
智能考试 信息安全保护方法 关键词提取算法 椭圆曲线加密算法 摘要
5
支持大模型识别的同义词识别方法、装置及相关设备
同义词识别方法 语义向量 编码 标签 哈希算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号