一种主题挖掘模型训练方法、设备及存储介质

正文

推荐专利

申请号：CN202511101163

申请日期：2025-08-07

公开号：CN121029993A

公开日期：2025-11-28

类型：发明专利

摘要

本申请实施例提供了一种主题挖掘模型训练方法、设备及存储介质，可应用于自然语言处理技术领域，在该方法中，对获得的多个分词类别中的任一分词类别，通过大语言模型确定分词类别是否满足语义一致性；确定多个样本文档在语义一致性的分词类别下对应的主题与词计数矩阵，并确定多个主题的全局权重；每个分词类别对应一个主题，同一分词在多个样本文档中出现的次数作为分词在对应主题下的词计数；将主题与词计数矩阵作为主题挖掘模型中主题与词分布的初始值；通过多个样本文档和全局权重对主题挖掘模型进行训练，直至获得具有目标值的主题与词分布的主题挖掘模型，这样通过语义一致性判断，提高了主题挖掘的准确性，并降低了模型的训练时间。

技术关键词

主题分词大语言模型计算机设备模型训练方法语义样本计算机程序产品矩阵存储程序指令可读存储介质覆盖率标签自然语言聚类存储器处理器

系统为您推荐了相关专利信息

用于加权预测的预测模型训练方法、装置、设备及介质

特征选择机器学习模型序列梯度提升模型预测模型训练方法

图像处理方法、模型训练方法以及电子设备

图像生成模型物品特征特征提取模型图像处理方法样本

一种基于等价语义转换的大模型生成代码水印方法、程序、设备及存储介质

生成代码水印方法语义序列大语言模型

测量目标物运动状态的方法、装置、计算机设备及介质

实时视频加速度图像特征点数据

一种基于联邦学习的高效微调大语言模型的隐私保护方法

隐私保护方法大语言模型命名实体识别方法通信效率参数

一种主题挖掘模型训练方法、设备及存储介质

站点导航

APP 下载