dnn: fixed GEMM1T AVX2 implementation (#1231)

mshabunin · vpisarev · commit b18e35793a7e · 2017-06-16T14:52:54.000+03:00
diff --git a/modules/dnn/src/layers/fully_connected_layer.cpp b/modules/dnn/src/layers/fully_connected_layer.cpp
@@ -169,7 +169,7 @@ class FullyConnectedLayerImpl : public InnerProductLayer
 
                         for( k = 0; k < vecsize; k += 4 )
                         {
-                            vfloat32x4 v = v_load_aligned(sptr + k);
+                            vfloat32x4 v = v_load(sptr + k);
                             vs0 += v*v_load_aligned(wptr + k);
                             vs1 += v*v_load_aligned(wptr + wstep + k);
                             vs2 += v*v_load_aligned(wptr + wstep*2 + k);
diff --git a/modules/dnn/src/layers/layers_common.avx2.cpp b/modules/dnn/src/layers/layers_common.avx2.cpp
@@ -204,7 +204,7 @@ void fastGEMM1T_avx2( const float* vec, const float* weights,
 
         for( int k = 0; k < vecsize; k += 8, wptr += 8 )
         {
-            __m256 v = _mm256_load_ps(vec + k);
+            __m256 v = _mm256_loadu_ps(vec + k);
 
             vs0 = _mm256_fmadd_ps(_mm256_load_ps(wptr), v, vs0);
             vs1 = _mm256_fmadd_ps(_mm256_load_ps(wptr + wstep), v, vs1);
@@ -237,7 +237,7 @@ void fastGEMM1T_avx2( const float* vec, const float* weights,
 
         for( int k = 0; k < vecsize; k += 8, wptr += 8 )
         {
-            __m256 v = _mm256_load_ps(vec + k);
+            __m256 v = _mm256_loadu_ps(vec + k);
             vs0 = _mm256_fmadd_ps(_mm256_load_ps(wptr), v, vs0);
         }
 

Original file line number	Diff line number	Diff line change
`@@ -169,7 +169,7 @@ class FullyConnectedLayerImpl : public InnerProductLayer`
`169`	`169`
`170`	`170`	`for( k = 0; k < vecsize; k += 4 )`
`171`	`171`	`{`
`172`		`- vfloat32x4 v = v_load_aligned(sptr + k);`
	`172`	`+ vfloat32x4 v = v_load(sptr + k);`
`173`	`173`	`vs0 += v*v_load_aligned(wptr + k);`
`174`	`174`	`vs1 += v*v_load_aligned(wptr + wstep + k);`
`175`	`175`	`vs2 += vv_load_aligned(wptr + wstep2 + k);`
Original file line number	Diff line number	Diff line change
`@@ -204,7 +204,7 @@ void fastGEMM1T_avx2( const float* vec, const float* weights,`
`204`	`204`
`205`	`205`	`for( int k = 0; k < vecsize; k += 8, wptr += 8 )`
`206`	`206`	`{`
`207`		`- __m256 v = _mm256_load_ps(vec + k);`
	`207`	`+ __m256 v = _mm256_loadu_ps(vec + k);`
`208`	`208`
`209`	`209`	`vs0 = _mm256_fmadd_ps(_mm256_load_ps(wptr), v, vs0);`
`210`	`210`	`vs1 = _mm256_fmadd_ps(_mm256_load_ps(wptr + wstep), v, vs1);`
`@@ -237,7 +237,7 @@ void fastGEMM1T_avx2( const float* vec, const float* weights,`
`237`	`237`
`238`	`238`	`for( int k = 0; k < vecsize; k += 8, wptr += 8 )`
`239`	`239`	`{`
`240`		`- __m256 v = _mm256_load_ps(vec + k);`
	`240`	`+ __m256 v = _mm256_loadu_ps(vec + k);`
`241`	`241`	`vs0 = _mm256_fmadd_ps(_mm256_load_ps(wptr), v, vs0);`
`242`	`242`	`}`
`243`	`243`