摘要
本申请公开了一种大语言模型训练方法、训练数据获取方法和意图识别方法,涉及人工智能技术领域,包括:电子设备获取原始数据集。原始数据集包括多个对话数据。电子设备基于预设的数据维度,对原始数据集中的对话数据进行组别划分,得到多个分组。电子设备分别从多个分组中进行数据采样,将采样后的对话数据的合集作为训练数据集。电子设备将训练数据集作为大语言模型的输入进行模型训练,获取训练后的大语言模型。基于不同的数据维度对原始数据集进行分组和采样等数据处理,得到的各个训练数据集在各个数据维度分布比较均衡,基于该训练数据集训练得到的大语言模型具有较高的准确率。
技术关键词
大语言模型
电子设备
人机对话场景
训练数据获取方法
复杂度
意图识别方法
语句
单轮
多轮对话
人工智能技术
计算机程序产品
处理器
指令
可读存储介质
存储器
系统为您推荐了相关专利信息
图像自动识别系统
特征金字塔网络
数据采集模块
光照
识别模型训练
声学特征
声纹识别装置
声纹识别方法
模型构建方法
声纹识别系统
文本段落
信息抽取方法
项目
索引
机器阅读理解技术
知识抽取方法
自然语言
大语言模型
多智能体动态
摘要