摘要
本申请提供一种培训数据生成方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:对培训原始教学数据进行解析识别处理,得到多种文件版式类型的待处理文件;生成用于对知识进行分块的稠密向量表示和知识关键词的稀疏表示并存入预设知识库;得到用户描述数据;得到目标意图数据,并将目标意图数据输入预存大模型工具,提取目标提示模板;从预设知识库中通过多路召回重排策略检索出培训数据所需知识;将培训数据所需知识和目标提示模板输入预存大模型工具,得到待调整数据;得到调整后的用户描述数据,对待调整数据进行调整,输出目标培训数据。本申请能用于解决人工构建培训数据时效率低,且生成的培训数据的质量差的问题。
技术关键词
数据生成方法
意图识别模型
关键词
计算机执行指令
模板
格式
教学
数据生成设备
数据生成装置
分块策略
可读存储介质
人工智能技术
处理器
模块
存储器
服务器
系统为您推荐了相关专利信息
数据展示系统
指数
指标
风险预测模型
业务数据构建
智能语音助手
语音关键词
指数
语音信号处理
识别方法
岩石薄片
识别方法
注意力
计算机执行指令
识别岩石
大规模文本数据
非结构化文本
爬虫
页面结构
脚本
系统芯片
计算机执行指令
音效
音频播放方法
微控制器