摘要
公开一种代码语义预训练方法及系统。该方法包括:对于初始样本,先将其解析为令牌序列和抽象语法树,然后以第一掩码遮挡令牌序列中的第一令牌、以高频词替换令牌序列中的第二令牌、以第二掩码遮挡抽象语法树的节点的三种操作中的至少一种进行操作,以构建任务样本;对于任务样本,采用第一编码方式和第二编码方式编码为第一特征向量和第二特征向量,并得到两者之间的对齐信息;将第一特征向量、第二特征向量和对齐信息输入给代码语义预训练网络,以执行三种任务;监测三种任务的任务损失及任务总损失,并据此优化网络中的参数和三种任务损失各自的权重。本申请实施例增强了预训练模型在理解代码语法结构和抽取语义信息方面的能力。
技术关键词
预训练方法
预训练网络
抽象语法树
令牌
语义
样本
注意力
编码器
序列
预训练系统
自然语言
语法结构
编码模块
参数
处理器
节点
可读存储介质
存储器
系统为您推荐了相关专利信息
文本
大语言模型
视频搜索方法
摘要
语音识别系统
水务行业
问答模型
知识问答方法
计算机存储介质
知识问答系统