基于数据增强的多语言监督数据集的生成方法及装置

正文

推荐专利

申请号：CN202510401313

申请日期：2025-04-01

公开号：CN120336502A

公开日期：2025-07-18

类型：发明专利

摘要

本申请提供一种基于数据增强的多语言监督数据集的生成方法及装置，涉及数据处理技术领域。基于数据增强的多语言监督数据集的生成方法包括：获取对话生成需求和预设的多语言知识库，并根据对话生成需求，从多语言知识库中确定预期语言数据；按照对话生成需求对预期语言数据进行拆分，以确定分段语言文本；基于预设的大语言模型、对话生成需求和分段语言文本，生成多组问答数据；根据预设的调整方式和多组问答数据，对预设的精简模型进行调整，以从多组问答数据中确定目标问答数据，并将目标问答数据确定为多语言监督数据集。通过生成多组问答数据，结合调整方式对精简模型进行微调，过滤低质量或不相关的数据，提升数据集的整体质量。

技术关键词

语言知识库文本翻译语言多语言大语言模型分段非瞬时性计算机可读存储介质生成方法主题多轮对话节点计算机可读指令处理器数据处理技术数据获取模块字体生成装置电子设备

系统为您推荐了相关专利信息

基于数字人技术的贷款审核系统

控制中心智能机器人活体检测模块音视频声纹检测模块

一种获取机车上微机屏显示数据的方法及装置

像素块屏显示数据特征点信息图像关键点

多图层图像生成方法、装置以及存储介质

图像特征信息大语言模型融合特征图像生成方法文本

一种多维度的跨境商品匹配方法及系统

商品匹配方法跨境电商平台局部敏感哈希指针搜索算法

轻量化自然语言处理大模型训练方法

模型训练方法数据上下文特征融合特征语义

基于数据增强的多语言监督数据集的生成方法及装置

站点导航

APP 下载