摘要
本发明公开了一种基于大模型的港口知识摘要生成方法。首先,通针对不同的港口场景,搜集的对应港口知识数据,将大量的港口相关知识输入GPT‑4大模型进行知识蒸馏,构建对应的知识文本‑摘要知识的数据对,然后对数据对进行基础的数据清洗后,使用基于困惑度的指标对数据进行进一步的清洗,生成高质量的训练数据;利用高质量训练数据对模型进行继续预训练,最后对预训练后的模型进行进一步指令微调训练;对指令微调训练后的模型进行测试迭代,分析badcase产生的原因,对模型进行针对性的优化,本发明对港口知识进行了垂直领域的优化,可以对港口相关的新闻、年报、文章进行快速总结,提炼出相关的知识,提高工作人员的阅读和工作效率。
技术关键词
知识摘要生成方法
数据
关键词
大语言模型
指令
模型预训练
蒸馏
场景
指标
文章
基础
主题
冗余
文本
逻辑
基座
参数
系统为您推荐了相关专利信息
特征轮廓
视点规划方法
零件特征
可读存储介质
聚类
文档分析方法
实体
自然语言
二维平面坐标系
关系
医疗数据采集装置
监护方法
特征提取模块
风险识别模型
时序