一种主题挖掘模型训练方法、设备及存储介质

AITNT
正文
推荐专利
一种主题挖掘模型训练方法、设备及存储介质
申请号:CN202511101163
申请日期:2025-08-07
公开号:CN121029993A
公开日期:2025-11-28
类型:发明专利
摘要
本申请实施例提供了一种主题挖掘模型训练方法、设备及存储介质,可应用于自然语言处理技术领域,在该方法中,对获得的多个分词类别中的任一分词类别,通过大语言模型确定分词类别是否满足语义一致性;确定多个样本文档在语义一致性的分词类别下对应的主题与词计数矩阵,并确定多个主题的全局权重;每个分词类别对应一个主题,同一分词在多个样本文档中出现的次数作为分词在对应主题下的词计数;将主题与词计数矩阵作为主题挖掘模型中主题与词分布的初始值;通过多个样本文档和全局权重对主题挖掘模型进行训练,直至获得具有目标值的主题与词分布的主题挖掘模型,这样通过语义一致性判断,提高了主题挖掘的准确性,并降低了模型的训练时间。
技术关键词
主题 分词 大语言模型 计算机设备 模型训练方法 语义 样本 计算机程序产品 矩阵 存储程序指令 可读存储介质 覆盖率 标签 自然语言 聚类 存储器 处理器
系统为您推荐了相关专利信息
1
用于加权预测的预测模型训练方法、装置、设备及介质
特征选择 机器学习模型 序列 梯度提升模型 预测模型训练方法
2
图像处理方法、模型训练方法以及电子设备
图像生成模型 物品特征 特征提取模型 图像处理方法 样本
3
一种基于等价语义转换的大模型生成代码水印方法、程序、设备及存储介质
生成代码 水印方法 语义 序列 大语言模型
4
测量目标物运动状态的方法、装置、计算机设备及介质
实时视频 加速度 图像 特征点 数据
5
一种基于联邦学习的高效微调大语言模型的隐私保护方法
隐私保护方法 大语言模型 命名实体识别方法 通信效率 参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号