摘要
本发明公开了一种面向行业大模型的微调数据生成方法、计算机程序及终端,属于人工智能领域,包括:提取专业数据源图片中的文本数据;对文本数据进行预处理;对文本数据的语法进行识别、纠正;计算文本数据的困惑度,以剔除评分低的句子;将文本数据进行分割后输入大语言模型,结合提示生成微调数据。采用文本识别模型识别专业数据源图片中的文本数据,避免产生大模型幻觉的问题;利用通过强化学习增强的大语言模型对文本数据的语法和拼写错误进行检查和纠正,能够进一步提升数据生成质量;将文本数据分割后输入大语言模型,更加适合大规模文本数据处理,在保持高效率同时能够有效识别文本中的语义边界,生成高质量指令微调数据。
技术关键词
数据生成方法
大语言模型
文本识别模型
局部敏感哈希
统计特征
公式编辑器
聚类分析算法
强化学习算法
图片
专业
随机梯度下降
生成文字
生成哈希
识别标签
计算机程序产品
处理器
哈希算法
符号
系统为您推荐了相关专利信息
大语言模型
分布式拒绝服务攻击
计算机执行指令
防御设备
攻击检测模块
反向设计方法
固态电解质材料
化学式
性能预测模型
蒙特卡洛树搜索
知识图谱推理方法
大语言模型
关系
文本
生成上下文感知
骨骼特征
心率
关节
长短期记忆网络
技能训练技术