一种面向行业大模型的微调数据生成方法、计算机程序及终端

AITNT
正文
推荐专利
一种面向行业大模型的微调数据生成方法、计算机程序及终端
申请号:CN202411023180
申请日期:2024-07-29
公开号:CN119004100A
公开日期:2024-11-22
类型:发明专利
摘要
本发明公开了一种面向行业大模型的微调数据生成方法、计算机程序及终端,属于人工智能领域,包括:提取专业数据源图片中的文本数据;对文本数据进行预处理;对文本数据的语法进行识别、纠正;计算文本数据的困惑度,以剔除评分低的句子;将文本数据进行分割后输入大语言模型,结合提示生成微调数据。采用文本识别模型识别专业数据源图片中的文本数据,避免产生大模型幻觉的问题;利用通过强化学习增强的大语言模型对文本数据的语法和拼写错误进行检查和纠正,能够进一步提升数据生成质量;将文本数据分割后输入大语言模型,更加适合大规模文本数据处理,在保持高效率同时能够有效识别文本中的语义边界,生成高质量指令微调数据。
技术关键词
数据生成方法 大语言模型 文本识别模型 局部敏感哈希 统计特征 公式编辑器 聚类分析算法 强化学习算法 图片 专业 随机梯度下降 生成文字 生成哈希 识别标签 计算机程序产品 处理器 哈希算法 符号
系统为您推荐了相关专利信息
1
一种基于大语言模型的分布式拒绝服务攻击防御系统
大语言模型 分布式拒绝服务攻击 计算机执行指令 防御设备 攻击检测模块
2
一种应用于固态电解质材料的反向设计方法
反向设计方法 固态电解质材料 化学式 性能预测模型 蒙特卡洛树搜索
3
一种多模态特征融合方法、系统、设备、介质及程序产品
语义特征 嵌入特征 矩阵 净化特征 融合特征
4
用于虚假新闻检测的大模型结合知识图谱推理方法
知识图谱推理方法 大语言模型 关系 文本 生成上下文感知
5
一种移动技能训练质量评估方法及系统
骨骼特征 心率 关节 长短期记忆网络 技能训练技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号