cborinternal_p.h: Fix AVX2 build with MSVC

thiagomacieira · thiagomacieira · commit 5d62d789c311 · 2020-12-25T20:06:24.000-03:00
MSVC (and I think ICC too) are lacking the simpler, scalar instructions to convert from single-precision to half-precision and back. Instead, we need to use the packed data intrinsics. Fixes #192. Signed-off-by: Thiago Macieira <thiago.macieira@intel.com>
diff --git a/.appveyor.yml b/.appveyor.yml
@@ -13,12 +13,12 @@ install:
 
     if /i "%APPVEYOR_BUILD_WORKER_IMAGE%"=="Visual Studio 2017" (call "C:\Program Files (x86)\Microsoft Visual Studio\2017\Community\VC\Auxiliary\Build\vcvarsall.bat" x64) & (set QTDIR=C:\Qt\5.12\msvc2017_64)
 
-    if /i "%APPVEYOR_BUILD_WORKER_IMAGE%"=="Visual Studio 2019" (call "C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Auxiliary\Build\vcvarsall.bat" x64) & (set QTDIR=C:\Qt\5.15\msvc2019_64)
+    if /i "%APPVEYOR_BUILD_WORKER_IMAGE%"=="Visual Studio 2019" (call "C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Auxiliary\Build\vcvarsall.bat" x64) & (set QTDIR=C:\Qt\5.15\msvc2019_64) & set CFLAGS=/arch:AVX2
 
     set path=%PATH%;%QTDIR%\bin
 build_script:
 - cmd: >-
-    nmake -f Makefile.nmake -nologo CFLAGS="-W3 -Os -MDd"
+    nmake -f Makefile.nmake -nologo CFLAGS="%CFLAGS% -W3 -Os -MDd"
 
     cd tests
 
diff --git a/src/cborinternal_p.h b/src/cborinternal_p.h
@@ -37,15 +37,17 @@
 #endif
 
 #ifndef CBOR_NO_HALF_FLOAT_TYPE
-#  ifdef __F16C__
+#  if defined(__F16C__) || defined(__AVX2__)
 #    include <immintrin.h>
-static inline unsigned short encode_half(double val)
+static inline unsigned short encode_half(float val)
 {
-    return _cvtss_sh((float)val, 3);
+    __m128i m = _mm_cvtps_ph(_mm_set_ss(val), _MM_FROUND_CUR_DIRECTION);
+    return _mm_extract_epi16(m, 0);
 }
-static inline double decode_half(unsigned short half)
+static inline float decode_half(unsigned short half)
 {
-    return _cvtsh_ss(half);
+    __m128i m = _mm_cvtsi32_si128(half);
+    return _mm_cvtss_f32(_mm_cvtph_ps(m));
 }
 #  else
 /* software implementation of float-to-fp16 conversions */

Original file line number	Diff line number	Diff line change
`@@ -37,15 +37,17 @@`
`37`	`37`	`#endif`
`38`	`38`
`39`	`39`	`#ifndef CBOR_NO_HALF_FLOAT_TYPE`
`40`		`-# ifdef __F16C__`
	`40`	`+# if defined(__F16C__) \|\| defined(__AVX2__)`
`41`	`41`	`# include <immintrin.h>`
`42`		`-static inline unsigned short encode_half(double val)`
	`42`	`+static inline unsigned short encode_half(float val)`
`43`	`43`	`{`
`44`		`- return _cvtss_sh((float)val, 3);`
	`44`	`+ __m128i m = _mm_cvtps_ph(_mm_set_ss(val), _MM_FROUND_CUR_DIRECTION);`
	`45`	`+ return _mm_extract_epi16(m, 0);`
`45`	`46`	`}`
`46`		`-static inline double decode_half(unsigned short half)`
	`47`	`+static inline float decode_half(unsigned short half)`
`47`	`48`	`{`
`48`		`- return _cvtsh_ss(half);`
	`49`	`+ __m128i m = _mm_cvtsi32_si128(half);`
	`50`	`+ return _mm_cvtss_f32(_mm_cvtph_ps(m));`
`49`	`51`	`}`
`50`	`52`	`# else`
`51`	`53`	`/* software implementation of float-to-fp16 conversions */`