numpy中矩阵乘法基于mkl,那mkl中矩阵乘法的实现是用的什么算法?
我自己试着用C#在unsafe模式下按原定义实现了矩阵乘法,1000*1000的大小下性能和numpy有大约250倍的差距,除开没有实现并行,仍有80倍左右的性能差距。
我查了查资料,目前有工程应用价值似乎只有Strassen算法,但在我测试的规模下最多也就提升4倍性能。
有谁知道怎么实现更快的矩阵乘法嘛?
展开
评论