neon算子

四倍加速,并行计算
需要arm架构(j5芯片)