intel
diff --git a/‎crc/crc16_t10dif_01.asm‎
Lines changed: 11 additions & 5 deletions b/‎crc/crc16_t10dif_01.asm‎
Lines changed: 11 additions & 5 deletions
diff --git a/‎crc/crc16_t10dif_02.asm‎
Lines changed: 12 additions & 5 deletions b/‎crc/crc16_t10dif_02.asm‎
Lines changed: 12 additions & 5 deletions
diff --git a/‎crc/crc16_t10dif_by4.asm‎
Lines changed: 9 additions & 3 deletions b/‎crc/crc16_t10dif_by4.asm‎
Lines changed: 9 additions & 3 deletions
diff --git a/‎crc/crc16_t10dif_copy_by4.asm‎
Lines changed: 9 additions & 3 deletions b/‎crc/crc16_t10dif_copy_by4.asm‎
Lines changed: 9 additions & 3 deletions
diff --git a/‎crc/crc16_t10dif_copy_by4_02.asm‎
Lines changed: 9 additions & 3 deletions b/‎crc/crc16_t10dif_copy_by4_02.asm‎
Lines changed: 9 additions & 3 deletions
diff --git a/‎crc/crc32_gzip_refl_by8.asm‎
Lines changed: 12 additions & 5 deletions b/‎crc/crc32_gzip_refl_by8.asm‎
Lines changed: 12 additions & 5 deletions
diff --git a/‎crc/crc32_gzip_refl_by8_02.asm‎
Lines changed: 11 additions & 5 deletions b/‎crc/crc32_gzip_refl_by8_02.asm‎
Lines changed: 11 additions & 5 deletions
diff --git a/‎crc/crc32_ieee_01.asm‎
Lines changed: 12 additions & 5 deletions b/‎crc/crc32_ieee_01.asm‎
Lines changed: 12 additions & 5 deletions
@@ -44,7 +44,13 @@
 
 %include "reg_sizes.asm"
 
-%define	fetch_dist	1024
+%ifndef fetch_dist
+%define	fetch_dist	4096
+%endif
+
+%ifndef PREFETCH
+%define PREFETCH        prefetcht1
+%endif
 
 [bits 64]
 default rel
@@ -148,7 +154,7 @@ _fold_128_B_loop:
 	; update the buffer pointer
 	add	arg2, 128		;    buf += 128;
 
-	prefetchnta [arg2+fetch_dist+0]
+	PREFETCH [arg2+fetch_dist+0]
 	movdqu	xmm9, [arg2+16*0]
 	movdqu	xmm12, [arg2+16*1]
 	pshufb	xmm9, xmm11
@@ -164,7 +170,7 @@ _fold_128_B_loop:
 	pxor	xmm1, xmm12
 	xorps	xmm1, xmm13
 
-	prefetchnta [arg2+fetch_dist+32]
+	PREFETCH [arg2+fetch_dist+32]
 	movdqu	xmm9, [arg2+16*2]
 	movdqu	xmm12, [arg2+16*3]
 	pshufb	xmm9, xmm11
@@ -180,7 +186,7 @@ _fold_128_B_loop:
 	pxor	xmm3, xmm12
 	xorps	xmm3, xmm13
 
-	prefetchnta [arg2+fetch_dist+64]
+	PREFETCH [arg2+fetch_dist+64]
 	movdqu	xmm9, [arg2+16*4]
 	movdqu	xmm12, [arg2+16*5]
 	pshufb	xmm9, xmm11
@@ -196,7 +202,7 @@ _fold_128_B_loop:
 	pxor	xmm5, xmm12
 	xorps	xmm5, xmm13
 
-	prefetchnta [arg2+fetch_dist+96]
+	PREFETCH [arg2+fetch_dist+96]
 	movdqu	xmm9, [arg2+16*6]
 	movdqu	xmm12, [arg2+16*7]
 	pshufb	xmm9, xmm11
 
@@ -44,7 +44,14 @@
 
 %include "reg_sizes.asm"
 
-%define	fetch_dist	1024
+%ifndef fetch_dist
+%define	fetch_dist	4096
+%endif
+
+%ifndef PREFETCH
+%define PREFETCH        prefetcht1
+%endif
+
 
 [bits 64]
 default rel
@@ -148,7 +155,7 @@ _fold_128_B_loop:
 	; update the buffer pointer
 	add	arg2, 128		;    buf += 128;
 
-	prefetchnta [arg2+fetch_dist+0]
+	PREFETCH [arg2+fetch_dist+0]
 	vmovdqu	xmm9, [arg2+16*0]
 	vmovdqu	xmm12, [arg2+16*1]
 	vpshufb	xmm9, xmm11
@@ -164,7 +171,7 @@ _fold_128_B_loop:
 	vpxor	xmm1, xmm12
 	vxorps	xmm1, xmm13
 
-	prefetchnta [arg2+fetch_dist+32]
+	PREFETCH [arg2+fetch_dist+32]
 	vmovdqu	xmm9, [arg2+16*2]
 	vmovdqu	xmm12, [arg2+16*3]
 	vpshufb	xmm9, xmm11
@@ -180,7 +187,7 @@ _fold_128_B_loop:
 	vpxor	xmm3, xmm12
 	vxorps	xmm3, xmm13
 
-	prefetchnta [arg2+fetch_dist+64]
+	PREFETCH [arg2+fetch_dist+64]
 	vmovdqu	xmm9, [arg2+16*4]
 	vmovdqu	xmm12, [arg2+16*5]
 	vpshufb	xmm9, xmm11
@@ -196,7 +203,7 @@ _fold_128_B_loop:
 	vpxor	xmm5, xmm12
 	vxorps	xmm5, xmm13
 
-	prefetchnta [arg2+fetch_dist+96]
+	PREFETCH [arg2+fetch_dist+96]
 	vmovdqu	xmm9, [arg2+16*6]
 	vmovdqu	xmm12, [arg2+16*7]
 	vpshufb	xmm9, xmm11
 
@@ -45,7 +45,13 @@
 
 %include "reg_sizes.asm"
 
-%define	fetch_dist	1024
+%ifndef fetch_dist
+%define	fetch_dist	4096
+%endif
+
+%ifndef PREFETCH
+%define PREFETCH        prefetcht1
+%endif
 
 [bits 64]
 default rel
@@ -132,7 +138,7 @@ _fold_64_B_loop:
 	; update the buffer pointer
 	add	arg2, 64		;    buf += 64;
 
-	prefetchnta [arg2+fetch_dist+0]
+	PREFETCH [arg2+fetch_dist+0]
 	movdqu	xmm4, xmm0
 	movdqu	xmm5, xmm1
 
@@ -145,7 +151,7 @@ _fold_64_B_loop:
 	pxor	xmm0, xmm4
    	pxor	xmm1, xmm5
 
-	prefetchnta [arg2+fetch_dist+32]
+	PREFETCH [arg2+fetch_dist+32]
 	movdqu	xmm4, xmm2
 	movdqu	xmm5, xmm3
 
 
@@ -46,7 +46,13 @@
 
 %include "reg_sizes.asm"
 
-%define	fetch_dist	1024
+%ifndef fetch_dist
+%define	fetch_dist	4096
+%endif
+
+%ifndef PREFETCH
+%define PREFETCH        prefetcht1
+%endif
 
 [bits 64]
 default rel
@@ -142,7 +148,7 @@ _fold_64_B_loop:
 	add	arg3, 64		;    buf += 64;
 	add	arg2, 64
 
-	prefetchnta [arg3+fetch_dist+0]
+	PREFETCH [arg3+fetch_dist+0]
 	movdqu	xmm4, xmm0
 	movdqu	xmm5, xmm1
 
@@ -155,7 +161,7 @@ _fold_64_B_loop:
 	pxor	xmm0, xmm4
 	pxor	xmm1, xmm5
 
-	prefetchnta [arg3+fetch_dist+32]
+	PREFETCH [arg3+fetch_dist+32]
 	movdqu	xmm4, xmm2
 	movdqu	xmm5, xmm3
 
 
@@ -46,7 +46,13 @@
 
 %include "reg_sizes.asm"
 
-%define	fetch_dist	1024
+%ifndef fetch_dist
+%define	fetch_dist	4096
+%endif
+
+%ifndef PREFETCH
+%define PREFETCH        prefetcht1
+%endif
 
 [bits 64]
 default rel
@@ -142,7 +148,7 @@ _fold_64_B_loop:
 	add	arg3, 64		;    buf += 64;
 	add	arg2, 64
 
-	prefetchnta [arg3+fetch_dist+0]
+	PREFETCH [arg3+fetch_dist+0]
 	vmovdqu	xmm4, xmm0
 	vmovdqu	xmm5, xmm1
 
@@ -155,7 +161,7 @@ _fold_64_B_loop:
 	vpxor	xmm0, xmm4
 	vpxor	xmm1, xmm5
 
-	prefetchnta [arg3+fetch_dist+32]
+	PREFETCH [arg3+fetch_dist+32]
 	vmovdqu	xmm4, xmm2
 	vmovdqu	xmm5, xmm3
 
 
@@ -55,7 +55,14 @@
 
 %include "reg_sizes.asm"
 
-%define	fetch_dist	1024
+%ifndef fetch_dist
+%define	fetch_dist	4096
+%endif
+
+%ifndef PREFETCH
+%define PREFETCH        prefetcht1
+%endif
+
 
 [bits 64]
 default rel
@@ -145,7 +152,7 @@ _fold_128_B_loop:
         ; update the buffer pointer
         add     arg2, 128
 
-	prefetchnta [arg2+fetch_dist+0]
+	PREFETCH [arg2+fetch_dist+0]
         movdqu  xmm9, [arg2+16*0]
         movdqu  xmm12, [arg2+16*1]
         movdqa  xmm8, xmm0
@@ -159,7 +166,7 @@ _fold_128_B_loop:
         pxor    xmm1, xmm12
         xorps   xmm1, xmm13
 
-	prefetchnta [arg2+fetch_dist+32]
+	PREFETCH [arg2+fetch_dist+32]
         movdqu  xmm9, [arg2+16*2]
         movdqu  xmm12, [arg2+16*3]
         movdqa  xmm8, xmm2
@@ -173,7 +180,7 @@ _fold_128_B_loop:
         pxor    xmm3, xmm12
         xorps   xmm3, xmm13
 
-	prefetchnta [arg2+fetch_dist+64]
+	PREFETCH [arg2+fetch_dist+64]
         movdqu  xmm9, [arg2+16*4]
         movdqu  xmm12, [arg2+16*5]
         movdqa  xmm8, xmm4
@@ -187,7 +194,7 @@ _fold_128_B_loop:
         pxor    xmm5, xmm12
         xorps   xmm5, xmm13
 
-	prefetchnta [arg2+fetch_dist+96]
+	PREFETCH [arg2+fetch_dist+96]
         movdqu  xmm9, [arg2+16*6]
         movdqu  xmm12, [arg2+16*7]
         movdqa  xmm8, xmm6
 
@@ -55,7 +55,13 @@
 
 %include "reg_sizes.asm"
 
-%define	fetch_dist	1024
+%ifndef fetch_dist
+%define	fetch_dist	4096
+%endif
+
+%ifndef PREFETCH
+%define PREFETCH        prefetcht1
+%endif
 
 [bits 64]
 default rel
@@ -135,7 +141,7 @@ crc32_gzip_refl_by8_02:
 	; fold 128B at a time. This section of the code folds 8 xmm registers in parallel
 .fold_128_B_loop:
 	add		arg2, 128
-	prefetchnta	[arg2+fetch_dist+0]
+	PREFETCH	[arg2+fetch_dist+0]
 	vmovdqu		xmm9, [arg2+16*0]
 	vmovdqu		xmm12, [arg2+16*1]
 	vpclmulqdq	xmm8, xmm0, xmm10, 0x10
@@ -147,7 +153,7 @@ crc32_gzip_refl_by8_02:
 	vpxor		xmm1, xmm12
 	vxorps		xmm1, xmm13
 
-	prefetchnta	[arg2+fetch_dist+32]
+	PREFETCH	[arg2+fetch_dist+32]
 	vmovdqu		xmm9, [arg2+16*2]
 	vmovdqu		xmm12, [arg2+16*3]
 	vpclmulqdq	xmm8, xmm2, xmm10, 0x10
@@ -159,7 +165,7 @@ crc32_gzip_refl_by8_02:
 	vpxor		xmm3, xmm12
 	vxorps		xmm3, xmm13
 
-	prefetchnta	[arg2+fetch_dist+64]
+	PREFETCH	[arg2+fetch_dist+64]
 	vmovdqu		xmm9, [arg2+16*4]
 	vmovdqu		xmm12, [arg2+16*5]
 	vpclmulqdq	xmm8, xmm4, xmm10, 0x10
@@ -171,7 +177,7 @@ crc32_gzip_refl_by8_02:
 	vpxor		xmm5, xmm12
 	vxorps		xmm5, xmm13
 
-	prefetchnta	[arg2+fetch_dist+96]
+	PREFETCH	[arg2+fetch_dist+96]
 	vmovdqu		xmm9, [arg2+16*6]
 	vmovdqu		xmm12, [arg2+16*7]
 	vpclmulqdq	xmm8, xmm6, xmm10, 0x10
 
@@ -44,7 +44,14 @@
 
 %include "reg_sizes.asm"
 
-%define	fetch_dist	1024
+%ifndef fetch_dist
+%define	fetch_dist	4096
+%endif
+
+%ifndef PREFETCH
+%define PREFETCH        prefetcht1
+%endif
+
 [bits 64]
 default rel
 
@@ -145,7 +152,7 @@ _fold_128_B_loop:
 	; update the buffer pointer
 	add	arg2, 128		;    buf += 128;
 
-	prefetchnta [arg2+fetch_dist+0]
+	PREFETCH [arg2+fetch_dist+0]
 	movdqu	xmm9, [arg2+16*0]
 	movdqu	xmm12, [arg2+16*1]
 	pshufb	xmm9, xmm11
@@ -161,7 +168,7 @@ _fold_128_B_loop:
 	pxor	xmm1, xmm12
 	xorps	xmm1, xmm13
 
-	prefetchnta [arg2+fetch_dist+32]
+	PREFETCH [arg2+fetch_dist+32]
 	movdqu	xmm9, [arg2+16*2]
 	movdqu	xmm12, [arg2+16*3]
 	pshufb	xmm9, xmm11
@@ -177,7 +184,7 @@ _fold_128_B_loop:
 	pxor	xmm3, xmm12
 	xorps	xmm3, xmm13
 
-	prefetchnta [arg2+fetch_dist+64]
+	PREFETCH [arg2+fetch_dist+64]
 	movdqu	xmm9, [arg2+16*4]
 	movdqu	xmm12, [arg2+16*5]
 	pshufb	xmm9, xmm11
@@ -193,7 +200,7 @@ _fold_128_B_loop:
 	pxor	xmm5, xmm12
 	xorps	xmm5, xmm13
 
-	prefetchnta [arg2+fetch_dist+96]
+	PREFETCH [arg2+fetch_dist+96]
 	movdqu	xmm9, [arg2+16*6]
 	movdqu	xmm12, [arg2+16*7]
 	pshufb	xmm9, xmm11