一种面向行业大模型的微调数据生成方法、计算机程序及终端

正文

推荐专利

申请号：CN202411023180

申请日期：2024-07-29

公开号：CN119004100A

公开日期：2024-11-22

类型：发明专利

摘要

本发明公开了一种面向行业大模型的微调数据生成方法、计算机程序及终端，属于人工智能领域，包括：提取专业数据源图片中的文本数据；对文本数据进行预处理；对文本数据的语法进行识别、纠正；计算文本数据的困惑度，以剔除评分低的句子；将文本数据进行分割后输入大语言模型，结合提示生成微调数据。采用文本识别模型识别专业数据源图片中的文本数据，避免产生大模型幻觉的问题；利用通过强化学习增强的大语言模型对文本数据的语法和拼写错误进行检查和纠正，能够进一步提升数据生成质量；将文本数据分割后输入大语言模型，更加适合大规模文本数据处理，在保持高效率同时能够有效识别文本中的语义边界，生成高质量指令微调数据。

技术关键词

数据生成方法大语言模型文本识别模型局部敏感哈希统计特征公式编辑器聚类分析算法强化学习算法图片专业随机梯度下降生成文字生成哈希识别标签计算机程序产品处理器哈希算法符号

系统为您推荐了相关专利信息

一种基于大语言模型的分布式拒绝服务攻击防御系统

大语言模型分布式拒绝服务攻击计算机执行指令防御设备攻击检测模块

一种应用于固态电解质材料的反向设计方法

反向设计方法固态电解质材料化学式性能预测模型蒙特卡洛树搜索

一种多模态特征融合方法、系统、设备、介质及程序产品

语义特征嵌入特征矩阵净化特征融合特征

用于虚假新闻检测的大模型结合知识图谱推理方法

知识图谱推理方法大语言模型关系文本生成上下文感知

一种移动技能训练质量评估方法及系统

骨骼特征心率关节长短期记忆网络技能训练技术

一种面向行业大模型的微调数据生成方法、计算机程序及终端

站点导航

APP 下载