一种面向在线论坛的低资源话题关键主题抽取方法

正文

推荐专利

申请号：CN202510615488

申请日期：2025-05-14

公开号：CN120146046B

公开日期：2025-07-15

类型：发明专利

摘要

本申请属于自然语言处理与文本挖掘技术领域，公开了一种面向在线论坛的低资源话题关键主题抽取方法，包括：通过大型语言模型对原始文本进行语义保持的数据增强，生成增强文档集合；利用预训练语言模型提取文档的上下文感知语义表示；构建可学习的主题嵌入矩阵，计算生成主题分布；设计语义感知对比学习框架，采用动态负样本筛选策略优化主题多样性；同时使用先验对齐损失来确保主题一致性。本发明创新性地融合LLM增强的数据扩充机制与轻量化主题编码架构，通过对比学习正则化和先验分布匹配的双重优化，有效解决了低资源场景下数据稀疏、模型过拟合和噪声敏感三大技术难题，为社交媒体舆情分析提供了高效可靠的主题建模解决方案。

技术关键词

主题抽取方法预训练语言模型资源大语言模型论坛语义话题样本在线文本挖掘技术矩阵框架参数生成主题自然语言动态数据

系统为您推荐了相关专利信息

一种功能蛋白质挖掘和筛选方法及装置

功能蛋白蛋白质功能域筛选方法大语言模型矩阵

一种基于大语言模型的代码驱动具身智能体的后门攻击链方法

后门大语言模型视觉触发器生成对抗网络有效性

一种基于知识图谱的作战筹划方案模板生成系统及方法

深度学习神经网络模型装备 Hopfield神经网络动态知识图谱实体

一种基于最大池化提取片段边界和相邻片段间隙特征的命名实体识别方法

间隙特征字符命名实体识别方法预训练语言模型关系

一种算网多要素资源抽象和建模方法

建模方法资源特征 Sigmoid函数 Softmax函数场景

一种面向在线论坛的低资源话题关键主题抽取方法

站点导航

APP 下载