nothing broken yet, despite radical changes

devshgraphicsprogramming · devshgraphicsprogramming · commit 708da4eb75e2 · 2021-04-08T18:04:27.000+02:00
diff --git a/examples_tests/39.DenoiserTonemapper/CommonPushConstants.h b/examples_tests/39.DenoiserTonemapper/CommonPushConstants.h
@@ -11,17 +11,14 @@ struct CommonPushConstants
 {
 	uint inImageTexelPitch[3];
 	uint imageWidth;
-
-
-	// 1 if before denoise
-	uint beforeDenoise;
+	uint imageHeight;
 	
 	// luma meter and tonemapping var but also for denoiser
 	uint percentileRange[2];
 	uint intensityBufferDWORDOffset;
 	float denoiserExposureBias;
 
-	uint autoexposureOff;
+	uint flags;
 	// for the tonemapper
 	uint tonemappingOperator;
 	float tonemapperParams[2];
diff --git a/examples_tests/39.DenoiserTonemapper/ShaderCommon.glsl b/examples_tests/39.DenoiserTonemapper/ShaderCommon.glsl
@@ -16,6 +16,8 @@ layout(push_constant, row_major) uniform PushConstants{
 	CommonPushConstants data;
 } pc;
 #define _NBL_GLSL_EXT_LUMA_METER_PUSH_CONSTANTS_DEFINED_
+#define _NBL_GLSL_EXT_FFT_PUSH_CONSTANTS_DEFINED_
+#define _NBL_GLSL_EXT_FFT_GET_PARAMETERS_DEFINED_
 
 
 #define SHARED_CHANNELS 3
@@ -29,7 +31,7 @@ struct f16vec3_packed
 
 // luma metering stuff
 // those don't really influence anything but need to let the header know that we're using the same number of invocations as bins
-#define _NBL_GLSL_EXT_LUMA_METER_DISPATCH_SIZE_X_DEFINED_ 256
+#define _NBL_GLSL_EXT_LUMA_METER_DISPATCH_SIZE_X_DEFINED_ COMPUTE_WG_SIZE
 #define _NBL_GLSL_EXT_LUMA_METER_DISPATCH_SIZE_Y_DEFINED_ 1
 
 #define _NBL_GLSL_EXT_LUMA_METER_MIN_LUMA_DEFINED_ 0x39800000
@@ -57,19 +59,20 @@ struct f16vec3_packed
 #define _NBL_GLSL_EXT_LUMA_METER_INVOCATION_COUNT (_NBL_GLSL_EXT_LUMA_METER_DISPATCH_SIZE_X_DEFINED_*_NBL_GLSL_EXT_LUMA_METER_DISPATCH_SIZE_Y_DEFINED_)
 #define _NBL_GLSL_EXT_LUMA_METER_BIN_COUNT _NBL_GLSL_EXT_LUMA_METER_INVOCATION_COUNT
 #define _NBL_GLSL_WORKGROUP_SIZE_ _NBL_GLSL_EXT_LUMA_METER_BIN_COUNT
+#define _NBL_GLSL_WORKGROUP_SIZE_LOG2_ 8
 #define _NBL_GLSL_EXT_LUMA_METER_BIN_GLOBAL_REPLICATION 4
 #ifdef _NBL_GLSL_EXT_LUMA_METER_FIRST_PASS_DEFINED_
 	#include "nbl/builtin/glsl/ext/LumaMeter/impl.glsl"
 
 	// need to override the offset and color provision functions
 	int nbl_glsl_ext_LumaMeter_getNextLumaOutputOffset()
 	{
-		return pc.data.beforeDenoise!=0u ? 1:0;
+		return int(pc.data.flags&0x1u);
 	}
 
 	int nbl_glsl_ext_LumaMeter_getCurrentLumaOutputOffset()
 	{
-		return pc.data.beforeDenoise!=0u ? 0:1;
+		return int((~pc.data.flags)&0x1u);
 	}
 
 	vec3 globalPixelData;
diff --git a/examples_tests/39.DenoiserTonemapper/main.cpp b/examples_tests/39.DenoiserTonemapper/main.cpp
@@ -241,7 +241,7 @@ layout(binding = 3, std430) restrict writeonly buffer IntensityBuffer
 
 int nbl_glsl_ext_LumaMeter_getCurrentLumaOutputOffset()
 {
-	return pc.data.beforeDenoise!=0u ? 0:1;
+	return int((~pc.data.flags)&0x1u);
 }
 nbl_glsl_ext_LumaMeter_output_SPIRV_CROSS_is_dumb_t nbl_glsl_ext_ToneMapper_getLumaMeterOutput()
 {
@@ -254,18 +254,17 @@ nbl_glsl_ext_LumaMeter_output_SPIRV_CROSS_is_dumb_t nbl_glsl_ext_ToneMapper_getL
 void main()
 {
 	const bool firstInvocation = all(equal(uvec3(0,0,0),gl_GlobalInvocationID));
-	const bool beforeDenoise = pc.data.beforeDenoise!=0u;
-	const bool autoexposureOn = pc.data.autoexposureOff==0u;
 
 	float optixIntensity = 1.0;
-	if (beforeDenoise||autoexposureOn)
+	if (bool(pc.data.flags&0x2u))
 	{
 		nbl_glsl_ext_LumaMeter_PassInfo_t lumaPassInfo;
 		lumaPassInfo.percentileRange[0] = pc.data.percentileRange[0];
 		lumaPassInfo.percentileRange[1] = pc.data.percentileRange[1];
 		float measuredLumaLog2 = nbl_glsl_ext_LumaMeter_getMeasuredLumaLog2(nbl_glsl_ext_ToneMapper_getLumaMeterOutput(),lumaPassInfo);
 		if (firstInvocation)
 		{
+			const bool beforeDenoise = bool(pc.data.flags&0x1u);
 			measuredLumaLog2 += beforeDenoise ? pc.data.denoiserExposureBias:0.0;
 			optixIntensity = nbl_glsl_ext_LumaMeter_getOptiXIntensity(measuredLumaLog2);
 		}
@@ -284,10 +283,56 @@ layout(binding = 0, std430) restrict readonly buffer ImageInputBuffer
 {
 	f16vec3_packed inBuffer[];
 };
+#define _NBL_GLSL_EXT_FFT_INPUT_DESCRIPTOR_DEFINED_
 layout(binding = 1, std430) restrict writeonly buffer ImageOutputBuffer
 {
-	float16_t data[];
-} outBuffers[EII_COUNT]; // TODO: do FFT
+	f16vec2 outBuffer[];
+};
+#define _NBL_GLSL_EXT_FFT_OUTPUT_DESCRIPTOR_DEFINED_
+
+
+
+#include <nbl/builtin/glsl/math/complex.glsl>
+nbl_glsl_complex nbl_glsl_ext_FFT_getPaddedData(ivec3 coordinate, in uint channel);
+#define _NBL_GLSL_EXT_FFT_GET_PADDED_DATA_DEFINED_
+
+
+uvec3 nbl_glsl_ext_FFT_Parameters_t_getDimensions()
+{
+	return uvec3(pc.data.imageWidth,pc.data.imageHeight,1u);
+}
+bool nbl_glsl_ext_FFT_Parameters_t_getIsInverse()
+{
+	return false;
+}
+uint nbl_glsl_ext_FFT_Parameters_t_getDirection()
+{
+	return 0u;
+}
+uint nbl_glsl_ext_FFT_Parameters_t_getMaxChannel()
+{
+    return 2u;
+}
+uint nbl_glsl_ext_FFT_Parameters_t_getLog2FFTSize()
+{
+    return max(findMSB(pc.data.imageWidth-1u),_NBL_GLSL_WORKGROUP_SIZE_LOG2_)+1u;
+}
+uint nbl_glsl_ext_FFT_Parameters_t_getPaddingType()
+{
+    return 3u; // _NBL_GLSL_EXT_FFT_PAD_MIRROR_;
+}
+#define _NBL_GLSL_EXT_FFT_PARAMETERS_METHODS_DECLARED_
+
+
+void nbl_glsl_ext_FFT_setData(in uvec3 coordinate, in uint channel, in nbl_glsl_complex complex_value)
+{
+	const uint index = ((pc.data.imageHeight*channel+coordinate.x)<<nbl_glsl_ext_FFT_Parameters_t_getLog2FFTSize())+coordinate.y;
+	outBuffer[index] = f16vec2(complex_value);
+}
+#define _NBL_GLSL_EXT_FFT_SET_DATA_DEFINED_
+
+
+
 void main()
 {
 	const uint dataOffset = gl_GlobalInvocationID.y*pc.data.imageWidth+gl_GlobalInvocationID.x;
@@ -296,6 +341,29 @@ void main()
 	nbl_glsl_ext_LumaMeter(gl_GlobalInvocationID.x<pc.data.imageWidth);
 	barrier();
 }
+
+nbl_glsl_complex nbl_glsl_ext_FFT_getPaddedData(ivec3 coordinate, in uint channel) 
+{
+#if 0
+	if (!nbl_glsl_ext_FFT_wrap_coord(coordinate))
+		return nbl_glsl_complex(0.f,0.f);
+#endif
+	const uint index = coordinate.y*pc.data.imageWidth+coordinate.x;
+	float data;
+	switch (channel)
+	{
+		case 2u:
+			data = float(inBuffer[index].z);
+			break;
+		case 1u:
+			data = float(inBuffer[index].y);
+			break;
+		default:
+			data = float(inBuffer[index].x);
+			break;
+	}
+	return nbl_glsl_complex(data,0.f);
+}
 		)==="));
 		auto interleaveAndLastFFTShader = driver->createGPUShader(core::make_smart_refctd_ptr<ICPUShader>(R"===(
 #version 450 core
@@ -306,14 +374,48 @@ layout(binding = 0, std430) restrict readonly buffer ImageInputBuffer
 {
 	f16vec3_packed inBuffer[];
 };
+#define _NBL_GLSL_EXT_FFT_INPUT_DESCRIPTOR_DEFINED_
 layout(binding = 1, std430) restrict writeonly buffer ImageOutputBuffer
 {
 	f16vec4 outBuffer[];
 };
+#define _NBL_GLSL_EXT_FFT_OUTPUT_DESCRIPTOR_DEFINED_
 layout(binding = 3, std430) restrict readonly buffer IntensityBuffer
 {
 	float intensity[];
 };
+
+
+#include <nbl/builtin/glsl/math/complex.glsl>
+nbl_glsl_complex nbl_glsl_ext_FFT_getPaddedData(ivec3 coordinate, in uint channel);
+#define _NBL_GLSL_EXT_FFT_GET_PADDED_DATA_DEFINED_
+
+uvec3 nbl_glsl_ext_FFT_Parameters_t_getDimensions()
+{
+	return uvec3(pc.data.imageWidth,pc.data.imageHeight,1u);
+}
+bool nbl_glsl_ext_FFT_Parameters_t_getIsInverse()
+{
+	return true;
+}
+uint nbl_glsl_ext_FFT_Parameters_t_getDirection()
+{
+	return 0u;
+}
+uint nbl_glsl_ext_FFT_Parameters_t_getMaxChannel()
+{
+    return 2u;
+}
+uint nbl_glsl_ext_FFT_Parameters_t_getLog2FFTSize()
+{
+    return 10u;
+}
+uint nbl_glsl_ext_FFT_Parameters_t_getPaddingType()
+{
+    return 3u; // _NBL_GLSL_EXT_FFT_PAD_MIRROR_;
+}
+#define _NBL_GLSL_EXT_FFT_PARAMETERS_METHODS_DECLARED_
+
 void main()
 {
 	// TODO: compute iFFT of the image
@@ -352,6 +454,15 @@ void main()
 	if (alive)
 		outBuffer[dataOffset] = f16vec4(vec4(color,1.0));
 }
+
+nbl_glsl_complex nbl_glsl_ext_FFT_getPaddedData(ivec3 coordinate, in uint channel) 
+{
+#if 0
+	if (!nbl_glsl_ext_FFT_wrap_coord(coordinate))
+		return nbl_glsl_complex(0.f,0.f);
+#endif
+		return nbl_glsl_complex(0.f,0.f);
+}
 		)==="));
 		struct SpecializationConstants
 		{
@@ -586,7 +697,7 @@ void main()
 					auto* fftPushConstants = outParam.fftPushConstants;
 					auto* fftDispatchInfo = outParam.fftDispatchInfo;
 					const ISampler::E_TEXTURE_CLAMP fftPadding[2] = {ISampler::ETC_MIRROR,ISampler::ETC_MIRROR};
-					const auto passes = FFTClass::buildParameters(false,colorChannelsFFT,extent,fftPushConstants,fftDispatchInfo,fftPadding,marginSrcDim);
+					const auto passes = FFTClass::buildParameters<false>(false,colorChannelsFFT,extent,fftPushConstants,fftDispatchInfo,fftPadding,marginSrcDim);
 					{
 						// override for less work and storage (dont need to store the extra padding of the last axis after iFFT)
 						fftPushConstants[1].output_strides.x = fftPushConstants[0].input_strides.x;
@@ -697,7 +808,6 @@ void main()
 		temporaryPixelBuffer = driver->createDeviceLocalGPUBufferOnDedMem(tempBufferSize);
 		if (check_error(!cuda::CCUDAHandler::defaultHandleResult(cuda::CCUDAHandler::registerBuffer(&temporaryPixelBuffer)),"Could not register buffer for Denoiser scratch memory!"))
 			return error_code;
-		// TODO: allocate scratch with Nabla again
 		scratch = driver->createDeviceLocalGPUBufferOnDedMem(scratchBufferSize);
 		if (check_error(!cuda::CCUDAHandler::defaultHandleResult(cuda::CCUDAHandler::registerBuffer(&scratch)), "Could not register buffer for Denoiser temporary memory with CUDA natively!"))
 			return error_code;
@@ -717,13 +827,13 @@ void main()
 		CommonPushConstants shaderConstants;
 		{
 			shaderConstants.imageWidth = param.width;
+			shaderConstants.imageHeight = param.height;
 			assert(intensityBufferOffset%IntensityValuesSize==0u);
-			shaderConstants.beforeDenoise = 1u;
 
 			shaderConstants.intensityBufferDWORDOffset = intensityBufferOffset/IntensityValuesSize;
 			shaderConstants.denoiserExposureBias = denoiserExposureBiasBundle[i].value();
 
-			shaderConstants.autoexposureOff = 0u;
+			shaderConstants.flags = 0b11u; // (autoexposureOn<<1)|beforeDenoise
 			switch (tonemapperBundle[i].first)
 			{
 				case DTEA_TONEMAPPER_REINHARD:
@@ -764,7 +874,7 @@ void main()
 					if (core::isnan(key))
 					{
 						shaderConstants.tonemapperParams[0] = 0.18;
-						shaderConstants.autoexposureOff = 1u;
+						shaderConstants.flags &= 0b01u; // ~(autoexposureOn<<1)
 					}
 					else
 						shaderConstants.tonemapperParams[0] = key;
@@ -961,8 +1071,8 @@ void main()
 			// compute post-processing
 			{
 				// let the shaders know we're in the second phase now
-				shaderConstants.beforeDenoise = 0u;
-				driver->pushConstants(sharedPipelineLayout.get(), video::IGPUSpecializedShader::ESS_COMPUTE, offsetof(CommonPushConstants,beforeDenoise), sizeof(uint32_t), &shaderConstants.beforeDenoise);
+				shaderConstants.flags &= 0b10u;
+				driver->pushConstants(sharedPipelineLayout.get(), video::IGPUSpecializedShader::ESS_COMPUTE, offsetof(CommonPushConstants,flags), sizeof(uint32_t), &shaderConstants.flags);
 				// Bloom
 				uint32_t workgroupCounts[2] = { (param.width + kComputeWGSize - 1u) / kComputeWGSize,param.height }; // TODO: change
 				{
@@ -989,7 +1099,6 @@ void main()
 					}
 
 					driver->bindComputePipeline(secondLumaMeterAndFirstFFTPipeline.get());
-					//FFTClass::dispatchHelper(driver, imageFirstFFTPipelineLayout.get(), fftPushConstants[0], fftDispatchInfo[0]);
 					// dispatch
 					driver->dispatch(workgroupCounts[0],workgroupCounts[1],1u);
 					COpenGLExtensionHandler::extGlMemoryBarrier(GL_SHADER_STORAGE_BARRIER_BIT);
diff --git a/include/nbl/ext/FFT/FFT.h b/include/nbl/ext/FFT/FFT.h
@@ -47,6 +47,7 @@ class FFT final : public core::IReferenceCounted
 		FFT(video::IDriver* driver, uint32_t maxDimensionSize, bool useHalfStorage = false);
 
 		// returns how many dispatches necessary for computing the FFT and fills the uniform data
+		template<bool unconstrainedAxisOrder=true>
 		static inline uint32_t buildParameters(
 			bool isInverse, uint32_t numChannels, const asset::VkExtent3D& inputDimensions, 
 			Parameters_t* outParams, DispatchInfo_t* outInfos, const asset::ISampler::E_TEXTURE_CLAMP* paddingType,
@@ -68,7 +69,8 @@ class FFT final : public core::IReferenceCounted
 						continue;
 					passes[passesRequired++] = {float(dim)/float((&inputDimensions.width)[i]),i,paddingType[i]};
 				}
-				std::sort(passes.begin(),passes.begin()+passesRequired);
+				if (unconstrainedAxisOrder)
+					std::sort(passes.begin(),passes.begin()+passesRequired);
 			}
 
 			auto computeOutputStride = [](const uvec3& output_dimensions, const auto axis, const auto nextAxis) -> uvec4