基于数据增强的多语言监督数据集的生成方法及装置

AITNT
正文
推荐专利
基于数据增强的多语言监督数据集的生成方法及装置
申请号:CN202510401313
申请日期:2025-04-01
公开号:CN120336502A
公开日期:2025-07-18
类型:发明专利
摘要
本申请提供一种基于数据增强的多语言监督数据集的生成方法及装置,涉及数据处理技术领域。基于数据增强的多语言监督数据集的生成方法包括:获取对话生成需求和预设的多语言知识库,并根据对话生成需求,从多语言知识库中确定预期语言数据;按照对话生成需求对预期语言数据进行拆分,以确定分段语言文本;基于预设的大语言模型、对话生成需求和分段语言文本,生成多组问答数据;根据预设的调整方式和多组问答数据,对预设的精简模型进行调整,以从多组问答数据中确定目标问答数据,并将目标问答数据确定为多语言监督数据集。通过生成多组问答数据,结合调整方式对精简模型进行微调,过滤低质量或不相关的数据,提升数据集的整体质量。
技术关键词
语言知识库 文本 翻译语言 多语言 大语言模型 分段 非瞬时性计算机可读存储介质 生成方法 主题 多轮对话 节点 计算机可读指令 处理器 数据处理技术 数据获取模块 字体 生成装置 电子设备
系统为您推荐了相关专利信息
1
基于数字人技术的贷款审核系统
控制中心 智能机器人 活体检测模块 音视频 声纹检测模块
2
一种获取机车上微机屏显示数据的方法及装置
像素块 屏显示数据 特征点信息 图像 关键点
3
多图层图像生成方法、装置以及存储介质
图像特征信息 大语言模型 融合特征 图像生成方法 文本
4
一种多维度的跨境商品匹配方法及系统
商品匹配方法 跨境电商平台 局部敏感哈希 指针 搜索算法
5
轻量化自然语言处理大模型训练方法
模型训练方法 数据 上下文特征 融合特征 语义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号