摘要
本发明公开了一种面向DSP平台的大尺寸二维卷积算子加速方法,属于数字信号处理领域。该方法根据卷积类型选择im2col或col2im算法重排数据;采用三段矩阵分块策略适配L3缓存容量;利用EDMA缓冲乒乓架构,实现数据传输与计算的流水线并行;SIMD指令级优化,基于DMPYSP和DADDSP指令配合流水优化实现单周期4个FP32乘法运算和加法运算;多核并行调度,通过OpenMP实现任务级和数据级并行。该方法在TI TMS320C6678平台实测可实现SAR目标检测网络的高效推理,为在DSP平台上CNN网络的实时推理提供可行方案。
技术关键词
矩阵
面向DSP平台
多核并行
分块策略
动态负载均衡技术
SIMD指令
单周期
缓存管理策略
算法
数字信号处理
指令优化
图像
流水线
数据
元素
内核