zone117x
diff --git a/‎src/scryptjane/scrypt-jane-mix_chacha-avx.h
Lines changed: 50 additions & 22 deletions b/‎src/scryptjane/scrypt-jane-mix_chacha-avx.h
Lines changed: 50 additions & 22 deletions
diff --git a/‎src/scryptjane/scrypt-jane-mix_chacha-sse2.h
Lines changed: 22 additions & 30 deletions b/‎src/scryptjane/scrypt-jane-mix_chacha-sse2.h
Lines changed: 22 additions & 30 deletions
@@ -1,5 +1,5 @@
 /* x86 */
-#if defined(X86ASM_AVX) && (!defined(SCRYPT_CHOOSE_COMPILETIME) || !defined(SCRYPT_CHACHA_INCLUDED))
+#if defined(X86ASM_AVX) && (!defined(SCRYPT_CHOOSE_COMPILETIME) || !defined(SCRYPT_CHACHA_INCLUDED)) && !defined(CPU_X86_FORCE_INTRINSICS)
 
 #define SCRYPT_CHACHA_AVX
 
@@ -20,13 +20,33 @@ asm_naked_fn(scrypt_ChunkMix_avx)
 	a2(shl edx,6)
 	a2(lea ecx,[edx-64])
 	a2(and eax, eax)
-	a2(vmovdqa xmm4,[ssse3_rotl16_32bit])
-	a2(vmovdqa xmm5,[ssse3_rotl8_32bit])
+	a2(mov ebx, 0x01000302)
+	a2(vmovd xmm4, ebx)
+	a2(mov ebx, 0x05040706)
+	a2(vmovd xmm0, ebx)
+	a2(mov ebx, 0x09080b0a)
+	a2(vmovd xmm1, ebx)
+	a2(mov ebx, 0x0d0c0f0e)
+	a2(vmovd xmm2, ebx)
+	a2(mov ebx, 0x02010003)
+	a2(vmovd xmm5, ebx)
+	a2(mov ebx, 0x06050407)
+	a2(vmovd xmm3, ebx)
+	a2(mov ebx, 0x0a09080b)
+	a2(vmovd xmm6, ebx)
+	a2(mov ebx, 0x0e0d0c0f)
+	a2(vmovd xmm7, ebx)
+	a3(vpunpckldq xmm4, xmm4, xmm0)
+	a3(vpunpckldq xmm5, xmm5, xmm3)
+	a3(vpunpckldq xmm1, xmm1, xmm2)
+	a3(vpunpckldq xmm6, xmm6, xmm7)
+	a3(vpunpcklqdq xmm4, xmm4, xmm1)
+	a3(vpunpcklqdq xmm5, xmm5, xmm6)
 	a2(vmovdqa xmm0,[ecx+esi+0])
 	a2(vmovdqa xmm1,[ecx+esi+16])
 	a2(vmovdqa xmm2,[ecx+esi+32])
 	a2(vmovdqa xmm3,[ecx+esi+48])
-	a1(jz scrypt_ChunkMix_avx_no_xor1)
+	aj(jz scrypt_ChunkMix_avx_no_xor1)
 	a3(vpxor xmm0,xmm0,[ecx+eax+0])
 	a3(vpxor xmm1,xmm1,[ecx+eax+16])
 	a3(vpxor xmm2,xmm2,[ecx+eax+32])
@@ -40,7 +60,7 @@ asm_naked_fn(scrypt_ChunkMix_avx)
 		a3(vpxor xmm1,xmm1,[esi+ecx+16])
 		a3(vpxor xmm2,xmm2,[esi+ecx+32])
 		a3(vpxor xmm3,xmm3,[esi+ecx+48])
-		a1(jz scrypt_ChunkMix_avx_no_xor2)
+		aj(jz scrypt_ChunkMix_avx_no_xor2)
 		a3(vpxor xmm0,xmm0,[eax+ecx+0])
 		a3(vpxor xmm1,xmm1,[eax+ecx+16])
 		a3(vpxor xmm2,xmm2,[eax+ecx+32])
@@ -71,7 +91,6 @@ asm_naked_fn(scrypt_ChunkMix_avx)
 			a3(vpsrld xmm6,xmm1,25)
 			a3(vpslld xmm1,xmm1,7)
 			a3(vpxor xmm1,xmm1,xmm6)
-			a2(sub eax,2)
 			a3(vpaddd xmm0,xmm0,xmm1)
 			a3(vpxor  xmm3,xmm3,xmm0)
 			a3(vpshufb xmm3,xmm3,xmm4)
@@ -85,13 +104,14 @@ asm_naked_fn(scrypt_ChunkMix_avx)
 			a3(vpshufb xmm3,xmm3,xmm5)
 			a3(vpshufd xmm0,xmm0,0x39)
 			a3(vpaddd xmm2,xmm2,xmm3)
-			a3(pshufd xmm3,xmm3,0x4e)
+			a3(vpshufd xmm3,xmm3,0x4e)
 			a3(vpxor  xmm1,xmm1,xmm2)
-			a3(pshufd xmm2,xmm2,0x93)
+			a3(vpshufd xmm2,xmm2,0x93)
 			a3(vpsrld xmm6,xmm1,25)
 			a3(vpslld xmm1,xmm1,7)
 			a3(vpxor  xmm1,xmm1,xmm6)
-			a1(ja scrypt_chacha_avx_loop)
+			a2(sub eax,2)
+			aj(ja scrypt_chacha_avx_loop)
 		a3(vpaddd xmm0,xmm0,[esp+0])
 		a3(vpaddd xmm1,xmm1,[esp+16])
 		a3(vpaddd xmm2,xmm2,[esp+32])
@@ -108,21 +128,21 @@ asm_naked_fn(scrypt_ChunkMix_avx)
 		a2(vmovdqa [eax+32],xmm2)
 		a2(vmovdqa [eax+48],xmm3)
 		a2(mov eax,[ebp+28])
-		a1(jne scrypt_ChunkMix_avx_loop)
+		aj(jne scrypt_ChunkMix_avx_loop)
 	a2(mov esp,ebp)
 	a1(pop ebp)
 	a1(pop esi)
 	a1(pop edi)
 	a1(pop ebx)
-	a1(ret 16)
+	aret(16)
 asm_naked_fn_end(scrypt_ChunkMix_avx)
 
 #endif
 
 
 
 /* x64 */
-#if defined(X86_64ASM_AVX) && (!defined(SCRYPT_CHOOSE_COMPILETIME) || !defined(SCRYPT_CHACHA_INCLUDED))
+#if defined(X86_64ASM_AVX) && (!defined(SCRYPT_CHOOSE_COMPILETIME) || !defined(SCRYPT_CHACHA_INCLUDED)) && !defined(CPU_X86_FORCE_INTRINSICS)
 
 #define SCRYPT_CHACHA_AVX
 
@@ -134,13 +154,21 @@ asm_naked_fn(scrypt_ChunkMix_avx)
 	a2(lea rax,[rsi+r9])
 	a2(lea r9,[rdx+r9])
 	a2(and rdx, rdx)
-	a2(vmovdqa xmm4,[ssse3_rotl16_32bit])
-	a2(vmovdqa xmm5,[ssse3_rotl8_32bit])
 	a2(vmovdqa xmm0,[rax+0])
 	a2(vmovdqa xmm1,[rax+16])
 	a2(vmovdqa xmm2,[rax+32])
 	a2(vmovdqa xmm3,[rax+48])
-	a1(jz scrypt_ChunkMix_avx_no_xor1)
+	a2(mov r8, 0x0504070601000302)
+	a2(mov rax, 0x0d0c0f0e09080b0a)
+	a2(movd xmm4, r8)
+	a2(movd xmm6, rax)
+	a2(mov r8, 0x0605040702010003)
+	a2(mov rax, 0x0e0d0c0f0a09080b)
+	a2(movd xmm5, r8)
+	a2(movd xmm7, rax)
+	a3(vpunpcklqdq xmm4, xmm4, xmm6)
+	a3(vpunpcklqdq xmm5, xmm5, xmm7)
+	aj(jz scrypt_ChunkMix_avx_no_xor1)
 	a3(vpxor xmm0,xmm0,[r9+0])
 	a3(vpxor xmm1,xmm1,[r9+16])
 	a3(vpxor xmm2,xmm2,[r9+32])
@@ -154,7 +182,7 @@ asm_naked_fn(scrypt_ChunkMix_avx)
 		a3(vpxor xmm1,xmm1,[rsi+r9+16])
 		a3(vpxor xmm2,xmm2,[rsi+r9+32])
 		a3(vpxor xmm3,xmm3,[rsi+r9+48])
-		a1(jz scrypt_ChunkMix_avx_no_xor2)
+		aj(jz scrypt_ChunkMix_avx_no_xor2)
 		a3(vpxor xmm0,xmm0,[rdx+r9+0])
 		a3(vpxor xmm1,xmm1,[rdx+r9+16])
 		a3(vpxor xmm2,xmm2,[rdx+r9+32])
@@ -185,7 +213,6 @@ asm_naked_fn(scrypt_ChunkMix_avx)
 			a3(vpsrld xmm12,xmm1,25)
 			a3(vpslld xmm1,xmm1,7)
 			a3(vpxor xmm1,xmm1,xmm12)
-			a2(sub rax,2)
 			a3(vpaddd xmm0,xmm0,xmm1)
 			a3(vpxor  xmm3,xmm3,xmm0)
 			a3(vpshufb xmm3,xmm3,xmm4)
@@ -199,13 +226,14 @@ asm_naked_fn(scrypt_ChunkMix_avx)
 			a3(vpshufb xmm3,xmm3,xmm5)
 			a3(vpshufd xmm0,xmm0,0x39)
 			a3(vpaddd xmm2,xmm2,xmm3)
-			a3(pshufd xmm3,xmm3,0x4e)
+			a3(vpshufd xmm3,xmm3,0x4e)
 			a3(vpxor  xmm1,xmm1,xmm2)
-			a3(pshufd xmm2,xmm2,0x93)
+			a3(vpshufd xmm2,xmm2,0x93)
 			a3(vpsrld xmm12,xmm1,25)
 			a3(vpslld xmm1,xmm1,7)
 			a3(vpxor  xmm1,xmm1,xmm12)
-			a1(ja scrypt_chacha_avx_loop)
+			a2(sub rax,2)
+			aj(ja scrypt_chacha_avx_loop)
 		a3(vpaddd xmm0,xmm0,xmm8)
 		a3(vpaddd xmm1,xmm1,xmm9)
 		a3(vpaddd xmm2,xmm2,xmm10)
@@ -221,7 +249,7 @@ asm_naked_fn(scrypt_ChunkMix_avx)
 		a2(vmovdqa [rax+16],xmm1)
 		a2(vmovdqa [rax+32],xmm2)
 		a2(vmovdqa [rax+48],xmm3)
-		a1(jne scrypt_ChunkMix_avx_loop)
+		aj(jne scrypt_ChunkMix_avx_loop)
 	a1(ret)
 asm_naked_fn_end(scrypt_ChunkMix_avx)
 
@@ -233,7 +261,7 @@ asm_naked_fn_end(scrypt_ChunkMix_avx)
 
 #define SCRYPT_CHACHA_AVX
 
-static void NOINLINE
+static void asm_calling_convention NOINLINE
 scrypt_ChunkMix_avx(uint32_t *Bout/*[chunkBytes]*/, uint32_t *Bin/*[chunkBytes]*/, uint32_t *Bxor/*[chunkBytes]*/, uint32_t r) {
 	uint32_t i, blocksPerChunk = r * 2, half = 0;
 	xmmi *xmmp,x0,x1,x2,x3,x6,t0,t1,t2,t3;
 
@@ -1,5 +1,5 @@
 /* x86 */
-#if defined(X86ASM_SSE2) && (!defined(SCRYPT_CHOOSE_COMPILETIME) || !defined(SCRYPT_CHACHA_INCLUDED))
+#if defined(X86ASM_SSE2) && (!defined(SCRYPT_CHOOSE_COMPILETIME) || !defined(SCRYPT_CHACHA_INCLUDED)) && !defined(CPU_X86_FORCE_INTRINSICS)
 
 #define SCRYPT_CHACHA_SSE2
 
@@ -24,7 +24,7 @@ asm_naked_fn(scrypt_ChunkMix_sse2)
 	a2(movdqa xmm1,[ecx+esi+16])
 	a2(movdqa xmm2,[ecx+esi+32])
 	a2(movdqa xmm3,[ecx+esi+48])
-	a1(jz scrypt_ChunkMix_sse2_no_xor1)
+	aj(jz scrypt_ChunkMix_sse2_no_xor1)
 	a2(pxor xmm0,[ecx+eax+0])
 	a2(pxor xmm1,[ecx+eax+16])
 	a2(pxor xmm2,[ecx+eax+32])
@@ -38,7 +38,7 @@ asm_naked_fn(scrypt_ChunkMix_sse2)
 		a2(pxor xmm1,[esi+ecx+16])
 		a2(pxor xmm2,[esi+ecx+32])
 		a2(pxor xmm3,[esi+ecx+48])
-		a1(jz scrypt_ChunkMix_sse2_no_xor2)
+		aj(jz scrypt_ChunkMix_sse2_no_xor2)
 		a2(pxor xmm0,[eax+ecx+0])
 		a2(pxor xmm1,[eax+ecx+16])
 		a2(pxor xmm2,[eax+ecx+32])
@@ -52,10 +52,8 @@ asm_naked_fn(scrypt_ChunkMix_sse2)
 		a1(scrypt_chacha_sse2_loop: )
 			a2(paddd xmm0,xmm1)
 			a2(pxor  xmm3,xmm0)
-			a2(movdqa xmm6,xmm3)
-			a2(pslld xmm3,16)
-			a2(psrld xmm6,16)
-			a2(pxor  xmm3,xmm6)
+			a3(pshuflw xmm3,xmm3,0xb1)
+			a3(pshufhw xmm3,xmm3,0xb1)
 			a2(paddd xmm2,xmm3)
 			a2(pxor  xmm1,xmm2)
 			a2(movdqa xmm6,xmm1)
@@ -80,10 +78,8 @@ asm_naked_fn(scrypt_ChunkMix_sse2)
 			a2(sub eax,2)
 			a2(paddd xmm0,xmm1)
 			a2(pxor  xmm3,xmm0)
-			a2(movdqa xmm6,xmm3)
-			a2(pslld xmm3,16)
-			a2(psrld xmm6,16)
-			a2(pxor  xmm3,xmm6)
+			a3(pshuflw xmm3,xmm3,0xb1)
+			a3(pshufhw xmm3,xmm3,0xb1)
 			a2(paddd xmm2,xmm3)
 			a2(pxor  xmm1,xmm2)
 			a2(movdqa xmm6,xmm1)
@@ -105,7 +101,7 @@ asm_naked_fn(scrypt_ChunkMix_sse2)
 			a2(pslld xmm1,7)
 			a2(psrld xmm6,25)
 			a2(pxor  xmm1,xmm6)
-			a1(ja scrypt_chacha_sse2_loop)
+			aj(ja scrypt_chacha_sse2_loop)
 		a2(paddd xmm0,[esp+0])
 		a2(paddd xmm1,xmm4)
 		a2(paddd xmm2,xmm5)
@@ -122,21 +118,21 @@ asm_naked_fn(scrypt_ChunkMix_sse2)
 		a2(movdqa [eax+32],xmm2)
 		a2(movdqa [eax+48],xmm3)
 		a2(mov eax,[ebp+28])
-		a1(jne scrypt_ChunkMix_sse2_loop)
+		aj(jne scrypt_ChunkMix_sse2_loop)
 	a2(mov esp,ebp)
 	a1(pop ebp)
 	a1(pop esi)
 	a1(pop edi)
 	a1(pop ebx)
-	a1(ret 16)
+	aret(16)
 asm_naked_fn_end(scrypt_ChunkMix_sse2)
 
 #endif
 
 
 
 /* x64 */
-#if defined(X86_64ASM_SSE2) && (!defined(SCRYPT_CHOOSE_COMPILETIME) || !defined(SCRYPT_CHACHA_INCLUDED))
+#if defined(X86_64ASM_SSE2) && (!defined(SCRYPT_CHOOSE_COMPILETIME) || !defined(SCRYPT_CHACHA_INCLUDED)) && !defined(CPU_X86_FORCE_INTRINSICS)
 
 #define SCRYPT_CHACHA_SSE2
 
@@ -152,7 +148,7 @@ asm_naked_fn(scrypt_ChunkMix_sse2)
 	a2(movdqa xmm1,[rax+16])
 	a2(movdqa xmm2,[rax+32])
 	a2(movdqa xmm3,[rax+48])
-	a1(jz scrypt_ChunkMix_sse2_no_xor1)
+	aj(jz scrypt_ChunkMix_sse2_no_xor1)
 	a2(pxor xmm0,[r9+0])
 	a2(pxor xmm1,[r9+16])
 	a2(pxor xmm2,[r9+32])
@@ -166,7 +162,7 @@ asm_naked_fn(scrypt_ChunkMix_sse2)
 		a2(pxor xmm1,[rsi+r9+16])
 		a2(pxor xmm2,[rsi+r9+32])
 		a2(pxor xmm3,[rsi+r9+48])
-		a1(jz scrypt_ChunkMix_sse2_no_xor2)
+		aj(jz scrypt_ChunkMix_sse2_no_xor2)
 		a2(pxor xmm0,[rdx+r9+0])
 		a2(pxor xmm1,[rdx+r9+16])
 		a2(pxor xmm2,[rdx+r9+32])
@@ -180,10 +176,8 @@ asm_naked_fn(scrypt_ChunkMix_sse2)
 		a1(scrypt_chacha_sse2_loop: )
 			a2(paddd xmm0,xmm1)
 			a2(pxor  xmm3,xmm0)
-			a2(movdqa xmm6,xmm3)
-			a2(pslld xmm3,16)
-			a2(psrld xmm6,16)
-			a2(pxor  xmm3,xmm6)
+			a3(pshuflw xmm3,xmm3,0xb1)
+			a3(pshufhw xmm3,xmm3,0xb1)
 			a2(paddd xmm2,xmm3)
 			a2(pxor  xmm1,xmm2)
 			a2(movdqa xmm6,xmm1)
@@ -208,10 +202,8 @@ asm_naked_fn(scrypt_ChunkMix_sse2)
 			a2(sub rax,2)
 			a2(paddd xmm0,xmm1)
 			a2(pxor  xmm3,xmm0)
-			a2(movdqa xmm6,xmm3)
-			a2(pslld xmm3,16)
-			a2(psrld xmm6,16)
-			a2(pxor  xmm3,xmm6)
+			a3(pshuflw xmm3,xmm3,0xb1)
+			a3(pshufhw xmm3,xmm3,0xb1)
 			a2(paddd xmm2,xmm3)
 			a2(pxor  xmm1,xmm2)
 			a2(movdqa xmm6,xmm1)
@@ -233,7 +225,7 @@ asm_naked_fn(scrypt_ChunkMix_sse2)
 			a2(pslld xmm1,7)
 			a2(psrld xmm6,25)
 			a2(pxor  xmm1,xmm6)
-			a1(ja scrypt_chacha_sse2_loop)
+			aj(ja scrypt_chacha_sse2_loop)
 		a2(paddd xmm0,xmm8)
 		a2(paddd xmm1,xmm9)
 		a2(paddd xmm2,xmm10)
@@ -249,7 +241,7 @@ asm_naked_fn(scrypt_ChunkMix_sse2)
 		a2(movdqa [rax+16],xmm1)
 		a2(movdqa [rax+32],xmm2)
 		a2(movdqa [rax+48],xmm3)
-		a1(jne scrypt_ChunkMix_sse2_loop)
+		aj(jne scrypt_ChunkMix_sse2_loop)
 	a1(ret)
 asm_naked_fn_end(scrypt_ChunkMix_sse2)
 
@@ -261,7 +253,7 @@ asm_naked_fn_end(scrypt_ChunkMix_sse2)
 
 #define SCRYPT_CHACHA_SSE2
 
-static void NOINLINE
+static void NOINLINE asm_calling_convention
 scrypt_ChunkMix_sse2(uint32_t *Bout/*[chunkBytes]*/, uint32_t *Bin/*[chunkBytes]*/, uint32_t *Bxor/*[chunkBytes]*/, uint32_t r) {
 	uint32_t i, blocksPerChunk = r * 2, half = 0;
 	xmmi *xmmp,x0,x1,x2,x3,x4,t0,t1,t2,t3;
@@ -308,7 +300,7 @@ scrypt_ChunkMix_sse2(uint32_t *Bout/*[chunkBytes]*/, uint32_t *Bin/*[chunkBytes]
 			x0 = _mm_add_epi32(x0, x1);
 			x3 = _mm_xor_si128(x3, x0);
 			x4 = x3;
-			x3 = _mm_or_si128(_mm_slli_epi32(x3, 16), _mm_srli_epi32(x4, 16));
+			x3 = _mm_shufflehi_epi16(_mm_shufflelo_epi16(x3, 0xb1), 0xb1);
 			x2 = _mm_add_epi32(x2, x3);
 			x1 = _mm_xor_si128(x1, x2);
 			x4 = x1;
@@ -327,7 +319,7 @@ scrypt_ChunkMix_sse2(uint32_t *Bout/*[chunkBytes]*/, uint32_t *Bin/*[chunkBytes]
 			x0 = _mm_add_epi32(x0, x1);
 			x3 = _mm_xor_si128(x3, x0);
 			x4 = x3;
-			x3 = _mm_or_si128(_mm_slli_epi32(x3, 16), _mm_srli_epi32(x4, 16));
+			x3 = _mm_shufflehi_epi16(_mm_shufflelo_epi16(x3, 0xb1), 0xb1);
 			x2 = _mm_add_epi32(x2, x3);
 			x1 = _mm_xor_si128(x1, x2);
 			x4 = x1;