摘要
本发明适用于计算机技术领域,提供了一种基于结合代表性和不确定性查询策略的SATD识别方法,包括以下步骤:数据预处理与表示;构建初始训练集;基于查询策略的数据选择;停止训练;结果分析。本发明以BERT模型为基础训练出的SATD识别模型在F1分数指标上优于原有方法;采用结合代表性和不确定性的查询策略以及主动学习的方法,仅需部分信息量丰富的数据训练,就能获得性能优秀的模型,极大减少了人力标注成本;通过所有已标记的SATD注释数量与所有训练集中SATD数量的比值作为停止阈值,为不同应用场景提供灵活策略以获取不同的SATD识别模型。本发明能够在使用较少数据和标签成本下,精准高效识别代码注释中的SATD。
技术关键词
查询策略
识别方法
BERT模型
标记器
编码器
训练集数据
分词
关键词
令牌
标签
有效性
定义
密度
索引
文本
矩阵
系统为您推荐了相关专利信息
语义信息提取方法
社会
线性解码器
数据
大语言模型
演化特征
故障智能分析方法
故障智能分析系统
智能分析模型
故障特征
低空无人机
马赛克拼图
自动识别方法
通道注意力机制
图像增强