摘要
本发明提供一种基于聚类搜索和大模型的多粒度代码克隆检测方法,属于代码克隆检测技术领域。包括:MGCD解析代码库以生成一个向量数据库,其中每个向量代表一个函数级代码片段;待检测的代码被解析,MGCD利用搜索算法在数据库中识别函数克隆候选项;用自动启发式方法作为过滤器获得高度相关和准确的函数级结果;MGCD实现多粒度克隆检测。本发明显著增强了对语义克隆的识别能力,有效检测复杂语义相似的代码片段。聚类算法提升了在大规模代码库中的检索效率,减少了计算成本。支持多粒度的代码克隆检测,涵盖函数级、模块级及项目级等多个层次,为用户提供了更全面、多维度的代码相似性分析结果,提升了检测效率,增强了系统的灵活性和扩展性。
技术关键词
代码克隆检测方法
语句
集群
代码克隆检测技术
语义
启发式方法
搜索算法
抽象语法树
代表
过滤器
生成向量
嵌入方法
定义
复杂度
代码库
分段
聚类算法
节点
系统为您推荐了相关专利信息
智能监控方法
电商
统一社会信用代码
语义分析方法
直播平台
图像掩蔽
面料检索方法
相似性度量方法
图像检索数据库
高层语义特征