摘要
本申请属于自然语言处理与文本挖掘技术领域,公开了一种面向在线论坛的低资源话题关键主题抽取方法,包括:通过大型语言模型对原始文本进行语义保持的数据增强,生成增强文档集合;利用预训练语言模型提取文档的上下文感知语义表示;构建可学习的主题嵌入矩阵,计算生成主题分布;设计语义感知对比学习框架,采用动态负样本筛选策略优化主题多样性;同时使用先验对齐损失来确保主题一致性。本发明创新性地融合LLM增强的数据扩充机制与轻量化主题编码架构,通过对比学习正则化和先验分布匹配的双重优化,有效解决了低资源场景下数据稀疏、模型过拟合和噪声敏感三大技术难题,为社交媒体舆情分析提供了高效可靠的主题建模解决方案。
技术关键词
主题抽取方法
预训练语言模型
资源
大语言模型
论坛
语义
话题
样本
在线
文本挖掘技术
矩阵
框架
参数
生成主题
自然语言
动态
数据
系统为您推荐了相关专利信息
功能蛋白
蛋白质功能域
筛选方法
大语言模型
矩阵
后门
大语言模型
视觉触发器
生成对抗网络
有效性
深度学习神经网络模型
装备
Hopfield神经网络
动态知识图谱
实体
间隙特征
字符
命名实体识别方法
预训练语言模型
关系
建模方法
资源特征
Sigmoid函数
Softmax函数
场景