摘要
本申请实施例提供了一种主题挖掘模型训练方法、设备及存储介质,可应用于自然语言处理技术领域,在该方法中,对获得的多个分词类别中的任一分词类别,通过大语言模型确定分词类别是否满足语义一致性;确定多个样本文档在语义一致性的分词类别下对应的主题与词计数矩阵,并确定多个主题的全局权重;每个分词类别对应一个主题,同一分词在多个样本文档中出现的次数作为分词在对应主题下的词计数;将主题与词计数矩阵作为主题挖掘模型中主题与词分布的初始值;通过多个样本文档和全局权重对主题挖掘模型进行训练,直至获得具有目标值的主题与词分布的主题挖掘模型,这样通过语义一致性判断,提高了主题挖掘的准确性,并降低了模型的训练时间。
技术关键词
主题
分词
大语言模型
计算机设备
模型训练方法
语义
样本
计算机程序产品
矩阵
存储程序指令
可读存储介质
覆盖率
标签
自然语言
聚类
存储器
处理器
系统为您推荐了相关专利信息
特征选择
机器学习模型
序列
梯度提升模型
预测模型训练方法
图像生成模型
物品特征
特征提取模型
图像处理方法
样本
隐私保护方法
大语言模型
命名实体识别方法
通信效率
参数