摘要
本申请提供一种基于数据增强的多语言监督数据集的生成方法及装置,涉及数据处理技术领域。基于数据增强的多语言监督数据集的生成方法包括:获取对话生成需求和预设的多语言知识库,并根据对话生成需求,从多语言知识库中确定预期语言数据;按照对话生成需求对预期语言数据进行拆分,以确定分段语言文本;基于预设的大语言模型、对话生成需求和分段语言文本,生成多组问答数据;根据预设的调整方式和多组问答数据,对预设的精简模型进行调整,以从多组问答数据中确定目标问答数据,并将目标问答数据确定为多语言监督数据集。通过生成多组问答数据,结合调整方式对精简模型进行微调,过滤低质量或不相关的数据,提升数据集的整体质量。
技术关键词
语言知识库
文本
翻译语言
多语言
大语言模型
分段
非瞬时性计算机可读存储介质
生成方法
主题
多轮对话
节点
计算机可读指令
处理器
数据处理技术
数据获取模块
字体
生成装置
电子设备
系统为您推荐了相关专利信息
控制中心
智能机器人
活体检测模块
音视频
声纹检测模块
图像特征信息
大语言模型
融合特征
图像生成方法
文本
商品匹配方法
跨境电商平台
局部敏感哈希
指针
搜索算法