摘要
本发明涉及大模型降维技术领域。本发明涉及一种基于同态合并的源代码安全检测大模型降维方法。其包括以下步骤:S1、从开发环境中收集源代码数据,同时获取计算机的性能数据;S2、对源代码数据进行数据特征提取分析,并根据分析结果以数据特征对源代码数据进行token系列转换,同时对每个token进行位置编码分配;本发明通过同态合并技术,源代码中的相似或重复的token被合并成一个统一表示,这一过程有效地减少了源代码中的冗余信息,显著降低了数据的维度,这对于大规模源代码安全检测模型来说至关重要,因为代码库通常包含成千上万的token,合并后的数据集更加紧凑。
技术关键词
降维方法
对源代码
数据特征提取
数值
序列
动态
静态特征
语义特征
监测计算机
系列
编码
降维技术
合并技术
冗余
生成代表
列表
训练集
特征选择