adjustments

Dogancan Ozturk · Dogancan Ozturk · commit 255eef5b42a1 · 2025-03-11T17:00:40.000+01:00
diff --git a/H264Sharp/NativeBindings.cs b/H264Sharp/NativeBindings.cs
@@ -46,11 +46,9 @@ public class NativeBindings
         private delegate void SetConverterConfigd(ConverterConfig config);
         private delegate void GetConverterConfigd(ref ConverterConfig p);
 
-
         private delegate IntPtr AllocAllignedNatived(int size);
         private delegate void FreeAllignedNatived(IntPtr p);
 
-
         //---------------------------------------Decleration-----------------------------------------------
         // Encoder
         private EnableDebugLogsd encoderEnableDebugLogs;
@@ -111,8 +109,6 @@ public NativeBindings()
             }
             else if (RuntimeInformation.IsOSPlatform(OSPlatform.Linux))
             {
-               
-
                 switch (RuntimeInformation.ProcessArchitecture)
                 {
                     case Architecture.X86:
@@ -129,9 +125,7 @@ public NativeBindings()
                         break;
                     default:
                         throw new PlatformNotSupportedException("Unsupported architecture.");
-                }
-                
-                
+                } 
             }
             else if (Defines.IsRunningOnAndroid())
             {
@@ -570,7 +564,6 @@ internal void SetTargetFps(IntPtr encoder, float target)
                    => setTargetFps(encoder, target);
         internal void FreeEncoder(IntPtr encoder)
                    => freeEncoder(encoder);
-       
         internal int GetOptionEncoder(IntPtr encoder, ENCODER_OPTION option, IntPtr value)
                   => getOptionEncoder(encoder, option, value);
         internal int SetOptionEncoder(IntPtr encoder, ENCODER_OPTION option, IntPtr value)
@@ -585,44 +578,35 @@ internal int InitializeDecoderDefault(IntPtr dec)
                   => initializeDecoderDefault(dec);
         internal int InitializeDecoder(IntPtr dec, TagSVCDecodingParam param)
                   => initializeDecoder(dec, param);
-       
         internal int DecodeAsYUV(IntPtr decoder, ref byte frame, int lenght, bool noDelay, ref int state, ref YUVImagePointer decoded)
                    => decodeAsYUV(decoder, ref frame, lenght, noDelay, ref state, ref decoded);
-
         internal int DecodeAsYUVExt(IntPtr decoder, ref byte frame, int lenght, bool noDelay, ref int state, ref YUVImagePointer decoded)
                   => decodeAsYUVext(decoder, ref frame, lenght, noDelay, ref state, ref decoded);
         internal unsafe bool DecodeRgbInto(IntPtr decoder, ref byte frame, int lenght, bool noDelay, ref int state, IntPtr buffer)
                           => decodeRgbInto(decoder, ref frame, lenght, noDelay, ref state, buffer);
         internal void FreeDecoder(IntPtr decoder)
                    => freeDecoder(decoder);
-       
         internal int GetOptionDecoder(IntPtr decoder, DECODER_OPTION option, IntPtr value)
                   => getOptionDecoder(decoder, option, value);
         internal int SetOptionDecoder(IntPtr decoder, DECODER_OPTION option, IntPtr value)
                   => setOptionDecoder(decoder, option, value);
         internal void DecoderEnableDebugLogs(int val)
                   => decoderEnableDebugLogs(val);
-
         // Converter
-
         internal void RGBXtoYUV(ref UnsafeGenericRgbImage rgb, ref YUVImagePointer yuv)
                    => rGBXtoYUV(ref rgb, ref yuv);
         internal void YUV2RGB(ref YUVImagePointer yuv, ref UnsafeGenericRgbImage rgb)
                    => yUV2RGB(ref yuv, ref rgb);
-
         internal void YUVNV12ToRGB(ref YUVNV12ImagePointer nv12, ref UnsafeGenericRgbImage yv12)
                  => YuvNV12ToRGB(ref nv12, ref yv12);
         internal void YUVNV12ToYV12(ref YUVNV12ImagePointer nv12, ref YUVImagePointer yv12)
                   => YuvNV12ToYV12(ref nv12, ref yv12);
-        
         internal void DownscaleImg(ref UnsafeGenericRgbImage from, ref UnsafeGenericRgbImage to, int mul)
                    => downscaleImg(ref from, ref to, mul);
-
         internal void ConverterGetConfig(ref ConverterConfig c)
                   => getConfig(ref c);
         internal void ConverterSetConfig(ConverterConfig val)
                   => setConfig(val);
-
         internal IntPtr AllocAllignedNative( int size)
                    => allocAllognedNative(size);
         internal void FreeAllignedNative(IntPtr p)
diff --git a/H264SharpNative/AVX2Common.h b/H264SharpNative/AVX2Common.h
@@ -30,18 +30,24 @@ constexpr bool hasFlag(AlignmentFlags allFlags, AlignmentFlags flag) {
 }
 
 __attribute__((target("avx2")))
-inline bool isAligned32(void* ptr) {
+inline bool isAligned32(void* ptr) 
+{
 	return (reinterpret_cast<std::uintptr_t>(ptr) & 31) == 0;
 }
+
 __attribute__((target("avx2")))
-inline __m256i loadAligned(const void* ptr) {
+inline __m256i loadAligned(const void* ptr)
+{
 	const __m256i* aligned_ptr = (const __m256i*)__builtin_assume_aligned(ptr, 32);
 	return _mm256_load_si256(aligned_ptr);
 }
+
 __attribute__((target("avx2")))
-inline __m256i loadUnaligned(const void* ptr) {
+inline __m256i loadUnaligned(const void* ptr) 
+{
 	return _mm256_loadu_si256((const __m256i*)ptr);
 }
+
 template <bool alligned>
 __attribute__((target("avx2")))
 inline __m256i Load(const void* ptr)
@@ -59,15 +65,19 @@ inline void GetChannels3_16x16_2(uint8_t* ptr, __m256i& rl, __m256i& gl, __m256i
 	const __m256i blendMask0 = _mm256_setr_epi8(
 		0, 0, -1, 0, 0, -1, 0, 0, -1, 0, 0, -1, 0, 0, -1, 0,
 		0, -1, 0, 0, -1, 0, 0, -1, 0, 0, -1, 0, 0, -1, 0, 0);
+
 	const __m256i blendMask1 = _mm256_setr_epi8(
 		0, -1, 0, 0, -1, 0, 0, -1, 0, 0, -1, 0, 0, -1, 0, 0,
 		-1, 0, 0, -1, 0, 0, -1, 0, 0, -1, 0, 0, -1, 0, 0, -1);
+
 	const __m256i shuffleMaskR = _mm256_setr_epi8(
 		0, 3, 6, 9, 12, 15, 2, 5, 8, 11, 14, 1, 4, 7, 10, 13,
 		0, 3, 6, 9, 12, 15, 2, 5, 8, 11, 14, 1, 4, 7, 10, 13);
+
 	const __m256i shuffleMaskG = _mm256_setr_epi8(
 		1, 4, 7, 10, 13, 0, 3, 6, 9, 12, 15, 2, 5, 8, 11, 14,
 		1, 4, 7, 10, 13, 0, 3, 6, 9, 12, 15, 2, 5, 8, 11, 14);
+
 	const __m256i shuffleMaskB = _mm256_setr_epi8(
 		2, 5, 8, 11, 14, 1, 4, 7, 10, 13, 0, 3, 6, 9, 12, 15,
 		2, 5, 8, 11, 14, 1, 4, 7, 10, 13, 0, 3, 6, 9, 12, 15);
@@ -103,8 +113,10 @@ inline void GetChannels3_16x16_2(uint8_t* ptr, __m256i& rl, __m256i& gl, __m256i
 __attribute__((target("avx2")))
 inline void GetChannels4_16x16_2(const uint8_t* ptr, __m256i& rl, __m256i& gl, __m256i& bl, __m256i& rh, __m256i& gh, __m256i& bh)
 {
-	const __m256i rgbaShuffleMask = _mm256_setr_epi8(0, 4, 8, 12, 1, 5, 9, 13, 2, 6, 10, 14, 3, 7, 11, 15,
+	const __m256i rgbaShuffleMask = _mm256_setr_epi8(
+		0, 4, 8, 12, 1, 5, 9, 13, 2, 6, 10, 14, 3, 7, 11, 15,
 		0, 4, 8, 12, 1, 5, 9, 13, 2, 6, 10, 14, 3, 7, 11, 15);
+
 	__m256i rgb1 = _mm256_loadu_si256((const __m256i*)ptr);
 	__m256i rgb2 = _mm256_loadu_si256((const __m256i*)(ptr + 32));
 	__m256i rgb3 = _mm256_loadu_si256((const __m256i*)(ptr + 64));
@@ -295,7 +307,6 @@ inline void GetChannels3_16x16(uint8_t* RESTRICT input, __m256i& rl, __m256i& gl
 		8, 11, 14, 1, 4, 7, 10, 13
 	);
 
-	// Define blend mask directly in AVX registers
 	const __m256i blendMask = _mm256_setr_epi8(
 		-1, -1, -1, -1, -1, -1, -1, -1,
 		-1, -1, -1, 0, 0, 0, 0, 0,
@@ -358,12 +369,15 @@ inline void GetChannels4_16x16(uint8_t* RESTRICT src, __m256i& rl, __m256i& gl,
 	 const __m256i rmask = _mm256_setr_epi8(
 		0, -1, -1, -1, 4, -1, -1, -1, 8, -1, -1, -1, 12, -1, -1, -1, 16,
 		-1, -1, -1, 20, -1, -1, -1, 24, -1, -1, -1, 28, -1, -1, -1);
+
 	 const __m256i gmask = _mm256_setr_epi8(
 		1, -1, -1, -1, 5, -1, -1, -1, 9, -1, -1, -1, 13, -1, -1, -1, 17,
 		-1, -1, -1, 21, -1, -1, -1, 25, -1, -1, -1, 29, -1, -1, -1);
+
 	 const __m256i bmask = _mm256_setr_epi8(
 		2, -1, -1, -1, 6, -1, -1, -1, 10, -1, -1, -1, 14, -1, -1, -1, 18,
 		-1, -1, -1, 22, -1, -1, -1, 26, -1, -1, -1, 30, -1, -1, -1);
+
 	__m256i rgb1 = _mm256_loadu_si256((__m256i*)src);
 	__m256i rgb2 = _mm256_loadu_si256((__m256i*)(src + 32));
 	__m256i rgb3 = _mm256_loadu_si256((__m256i*)(src + 64));
diff --git a/H264SharpNative/Converter.h b/H264SharpNative/Converter.h
@@ -75,9 +75,9 @@ namespace H264Sharp
             if (config.EnableDebugPrints > 0) 
             {
                 logger << (hasSSE41() ? "SSE4 is supported!" : "SSE4 is NOT supported!") << "\n";
-                std::cout << (hasAVX2() ? "AVX2 is supported!" : "AVX2 is NOT supported!") << "\n";
-                std::cout << (hasAVX512() ? "AVX-512 is supported!" : "AVX-512 is NOT supported!") << "\n";
-                std::cout << (hasNEON() ? "NEON is supported!" : "NEON is NOT supported!") << "\n";
+                logger << (hasAVX2() ? "AVX2 is supported!" : "AVX2 is NOT supported!") << "\n";
+                logger << (hasAVX512() ? "AVX-512 is supported!" : "AVX-512 is NOT supported!") << "\n";
+                logger << (hasNEON() ? "NEON is supported!" : "NEON is NOT supported!") << "\n";
 
             }
 
diff --git a/H264SharpNative/Decoder.h b/H264SharpNative/Decoder.h
@@ -64,6 +64,7 @@ namespace H264Sharp
 
 		
 	private:
+
 		unsigned char* innerBuffer = nullptr;
 		int innerBufLen=0;
 		ISVCDecoder* decoder= nullptr;
diff --git a/H264SharpNative/Encoder.h b/H264SharpNative/Encoder.h
@@ -13,7 +13,8 @@
 
 namespace H264Sharp {
 
-	enum class ConfigType { CameraBasic, ScreenCaptureBasic, CameraCaptureAdvanced, ScreenCaptureAdvanced, CameraCaptureAdvancedHP, ScreenCaptureAdvancedHP};
+	enum class ConfigType { CameraBasic, ScreenCaptureBasic, CameraCaptureAdvanced, ScreenCaptureAdvanced,
+		CameraCaptureAdvancedHP, ScreenCaptureAdvancedHP};
 
 	class Encoder
 	{
diff --git a/H264SharpNative/Logger.h b/H264SharpNative/Logger.h
@@ -5,19 +5,22 @@
 #define PLATFORM_DESKTOP
 #endif
 
-class Logger {
+class Logger
+{
 public:
     Logger(const char* = nullptr) {} // Tag is ignored
 
     template<typename T>
-    Logger& operator<<(const T& value) {
+    Logger& operator<<(const T& value) 
+    {
 #ifdef PLATFORM_DESKTOP
         std::cout << value; 
 #endif
         return *this; 
     }
 
-    Logger& operator<<(std::ostream& (*manip)(std::ostream&)) {
+    Logger& operator<<(std::ostream& (*manip)(std::ostream&)) 
+    {
 #ifdef PLATFORM_DESKTOP
         std::cout << manip; 
 #endif
diff --git a/H264SharpNative/Rgb2YuvNEON.cpp b/H264SharpNative/Rgb2YuvNEON.cpp
@@ -7,28 +7,7 @@
 
 namespace H264Sharp
 {
-    const uint16x8_t kB_Y = vdupq_n_u16(25);
-    const uint16x8_t kG_Y = vdupq_n_u16(129);
-    const uint16x8_t kR_Y = vdupq_n_u16(66);
-
-    const uint8x8_t kB_Y8 = vdup_n_u8(25);
-    const uint8x8_t kG_Y8 = vdup_n_u8(129);
-    const uint8x8_t kR_Y8 = vdup_n_u8(66);
-
-    const uint8x16_t offset_Y = vdupq_n_u8(16);
-
-    const int16x8_t kR_U = vdupq_n_s16(112 / 2);
-    const int16x8_t kG_U = vdupq_n_s16(-94 / 2);
-    const int16x8_t kB_U = vdupq_n_s16(-18 / 2);
-
-    const int16x8_t kR_V = vdupq_n_s16(-38 / 2);
-    const int16x8_t kG_V = vdupq_n_s16(-74 / 2);
-    const int16x8_t kB_V = vdupq_n_s16(112 / 2);
-
-    const int16x8_t offset_UV = vdupq_n_s16(128);
-
-    const uint8x16_t dropMask = { 0xFF, 0x00, 0xFF, 0x00, 0xFF, 0x00, 0xFF, 0x00,
-                        0xFF, 0x00, 0xFF, 0x00, 0xFF, 0x00, 0xFF, 0x00 };//keep drop keep drop
+   
 
     // Look how simple NEON is compared to FUCKING AVX and their sadistic shuffle permutes for data allignment
     template <int NUM_CH, bool RGB>
@@ -42,6 +21,30 @@ namespace H264Sharp
         const int32_t end
     ) {
 
+        const uint16x8_t kB_Y = vdupq_n_u16(25);
+        const uint16x8_t kG_Y = vdupq_n_u16(129);
+        const uint16x8_t kR_Y = vdupq_n_u16(66);
+
+        const uint8x8_t kB_Y8 = vdup_n_u8(25);
+        const uint8x8_t kG_Y8 = vdup_n_u8(129);
+        const uint8x8_t kR_Y8 = vdup_n_u8(66);
+
+        const uint8x16_t offset_Y = vdupq_n_u8(16);
+
+        const int16x8_t kR_U = vdupq_n_s16(112 / 2);
+        const int16x8_t kG_U = vdupq_n_s16(-94 / 2);
+        const int16x8_t kB_U = vdupq_n_s16(-18 / 2);
+
+        const int16x8_t kR_V = vdupq_n_s16(-38 / 2);
+        const int16x8_t kG_V = vdupq_n_s16(-74 / 2);
+        const int16x8_t kB_V = vdupq_n_s16(112 / 2);
+
+        const int16x8_t offset_UV = vdupq_n_s16(128);
+
+        const uint8x16_t dropMask = { 0xFF, 0x00, 0xFF, 0x00, 0xFF, 0x00, 0xFF, 0x00,
+                            0xFF, 0x00, 0xFF, 0x00, 0xFF, 0x00, 0xFF, 0x00 };//keep drop keep drop
+
+
         int R_INDEX, G_INDEX, B_INDEX;
         if constexpr (RGB) {
             R_INDEX = 0; G_INDEX = 1; B_INDEX = 2;
diff --git a/H264SharpNative/Yuv2RgbNEON.cpp b/H264SharpNative/Yuv2RgbNEON.cpp
@@ -15,17 +15,7 @@ namespace H264Sharp
       B = CLAMP((Y-16)*1.164 + 2.018*U          )
     */
     // BT.601-7 studio range constants
-    const int8x8_t alpha = vdup_n_u8(255);
-    const int16x8_t const_16 = vdupq_n_s16(16);
-    const uint8x16_t const_16_8 = vdupq_n_u8(16);
-    const int16x8_t const_128 = vdupq_n_s16(128);
   
-    const auto y_factor = vdupq_n_u16(149);      // 1.164 * 64
-    const auto v_to_r_coeff = vdupq_n_s16(102);  // 1.596 * 64
-    const auto u_to_g_coeff = vdupq_n_s16(25);   // 0.391 * 64
-    const auto v_to_g_coeff = vdupq_n_s16(52);  // 0.813 * 64
-    const auto u_to_b_coeff = vdupq_n_s16(129);  // 2.018 * 64
-
     inline void  Convert(uint8x16_t y_vals1, uint8x16_t y_vals2, int16x8_t u_valsl, int16x8_t u_valsh, int16x8_t v_valsl, int16x8_t v_valsh,
         uint8x16_t& r1l, uint8x16_t& g1l, uint8x16_t& b1l, uint8x16_t& r1h, uint8x16_t& g1h, uint8x16_t& b1h);
         
@@ -41,6 +31,9 @@ namespace H264Sharp
         int32_t begin,
         int32_t end)
     {
+        const uint8x16_t const_16_8 = vdupq_n_u8(16);
+        const int16x8_t const_128 = vdupq_n_s16(128);
+
         int ridx, gidx, bidx;
         if constexpr (RGB)
         {
@@ -130,6 +123,9 @@ namespace H264Sharp
         int32_t begin,
         int32_t end)
     {
+        const uint8x16_t const_16_8 = vdupq_n_u8(16);
+        const int16x8_t const_128 = vdupq_n_s16(128);
+
         int ridx, gidx, bidx;
         if constexpr (RGB)
         {
@@ -211,6 +207,12 @@ namespace H264Sharp
     inline void Convert(uint8x16_t y_vals1, uint8x16_t y_vals2, int16x8_t u_valsl, int16x8_t u_valsh, int16x8_t v_valsl, int16x8_t v_valsh,
         uint8x16_t& r1l, uint8x16_t& g1l, uint8x16_t& b1l, uint8x16_t& r1h, uint8x16_t& g1h, uint8x16_t& b1h)
     {
+        const auto y_factor = vdupq_n_u16(149);      // 1.164 * 64
+        const auto v_to_r_coeff = vdupq_n_s16(102);  // 1.596 * 64
+        const auto u_to_g_coeff = vdupq_n_s16(25);   // 0.391 * 64
+        const auto v_to_g_coeff = vdupq_n_s16(52);  // 0.813 * 64
+        const auto u_to_b_coeff = vdupq_n_s16(129);  // 2.018 * 64
+
         // multiply UV with the scaling
         int16x8_t u_vals_ugl = vshrq_n_s16(vmulq_s16(u_valsl, u_to_g_coeff), 6);
         int16x8_t u_vals_ubl = vshrq_n_s16(vmulq_s16(u_valsl, u_to_b_coeff), 6);
diff --git a/H264SharpNative/dllmain.cpp b/H264SharpNative/dllmain.cpp
@@ -26,14 +26,10 @@ extern "C" void __attribute__((destructor)) dll_unload(void);
 
 void dll_load()
 {
-   // std::cout << "Library loaded.\n";
-    // Perform initialization tasks here
 }
 
 void dll_unload()
 {
-    //std::cout << "Library unloaded.\n";
-    // Perform cleanup tasks here
 }
 
 #endif // _WIN32

Original file line number	Diff line number	Diff line change
`@@ -75,9 +75,9 @@ namespace H264Sharp`
`75`	`75`	`if (config.EnableDebugPrints > 0)`
`76`	`76`	`{`
`77`	`77`	`logger << (hasSSE41() ? "SSE4 is supported!" : "SSE4 is NOT supported!") << "\n";`
`78`		`- std::cout << (hasAVX2() ? "AVX2 is supported!" : "AVX2 is NOT supported!") << "\n";`
`79`		`- std::cout << (hasAVX512() ? "AVX-512 is supported!" : "AVX-512 is NOT supported!") << "\n";`
`80`		`- std::cout << (hasNEON() ? "NEON is supported!" : "NEON is NOT supported!") << "\n";`
	`78`	`+ logger << (hasAVX2() ? "AVX2 is supported!" : "AVX2 is NOT supported!") << "\n";`
	`79`	`+ logger << (hasAVX512() ? "AVX-512 is supported!" : "AVX-512 is NOT supported!") << "\n";`
	`80`	`+ logger << (hasNEON() ? "NEON is supported!" : "NEON is NOT supported!") << "\n";`
`81`	`81`
`82`	`82`	`}`
`83`	`83`
Original file line number	Diff line number	Diff line change
`@@ -13,7 +13,8 @@`
`13`	`13`
`14`	`14`	`namespace H264Sharp {`
`15`	`15`
`16`		`- enum class ConfigType { CameraBasic, ScreenCaptureBasic, CameraCaptureAdvanced, ScreenCaptureAdvanced, CameraCaptureAdvancedHP, ScreenCaptureAdvancedHP};`
	`16`	`+ enum class ConfigType { CameraBasic, ScreenCaptureBasic, CameraCaptureAdvanced, ScreenCaptureAdvanced,`
	`17`	`+ CameraCaptureAdvancedHP, ScreenCaptureAdvancedHP};`
`17`	`18`
`18`	`19`	`class Encoder`
`19`	`20`	`{`
Original file line number	Diff line number	Diff line change
`@@ -26,14 +26,10 @@ extern "C" void __attribute__((destructor)) dll_unload(void);`
`26`	`26`
`27`	`27`	`void dll_load()`
`28`	`28`	`{`
`29`		`- // std::cout << "Library loaded.\n";`
`30`		`- // Perform initialization tasks here`
`31`	`29`	`}`
`32`	`30`
`33`	`31`	`void dll_unload()`
`34`	`32`	`{`
`35`		`- //std::cout << "Library unloaded.\n";`
`36`		`- // Perform cleanup tasks here`
`37`	`33`	`}`
`38`	`34`
`39`	`35`	`#endif // _WIN32`