摘要
本发明公开了一种基于大语言模型的古籍文本校勘方法和系统,涉及文本处理技术领域,方法包括:获取带有掩码标记的待勘校古籍文本;对待勘校古籍文本按照标题进行向量转换,确定各标题的多个向量文本句;通过预训练大语言模型基于中文通用词表对带有掩码标记的向量文本句进行掩码预测,输出各掩码标记的掩码预测词概率分布;采用各掩码预测词概率分布对关联的带有掩码标记的向量文本句进行校勘,输出对应的第一已校勘向量文本句;若任一第一已校勘向量文本句的校勘正确率均大于或等于预设正确率阈值,则根据各第一已校勘向量文本句生成已勘校古籍文本。利用大语言模型强大的上下文理解与文本预测能力对待校勘文本进行智能化校正,提高校勘效率。
技术关键词
大语言模型
正确率
标记
文本处理技术
处理器
计算机程序产品
指令
计算机设备
模块
可读存储介质
存储器
分词
字符
校正
系统为您推荐了相关专利信息
大语言模型
交叉注意力机制
画像模型
构建用户画像
多视角
车载摄像装置
动画
单车
车辆碰撞事故
车辆管理技术
识别异常数据
动态规则引擎
机器学习算法
可视化工具
告警机制