Update Tiled Conv

root · root · commit 8626a8d04205 · 2025-02-01T10:16:51.000Z
diff --git a/.github/workflows/ci-auto-format-and-commit.yml b/.github/workflows/ci-auto-format-and-commit.yml
@@ -29,7 +29,8 @@ jobs:
       - name: Install formatter
         shell: bash
         run: |
-          wget https://apt.llvm.org/llvm.sh && sudo bash ./llvm.sh 20 && rm ./llvm.sh
+          wget https://apt.llvm.org/llvm.sh && chmod +x ./llvm.sh && ./llvm.sh 20
+          sudo apt-get update
           sudo apt-get install clang-format-20
           sudo ln -sf $(which clang-format-20) /usr/bin/clang-format
           python -m pip install black
diff --git a/configs/ctests.yml b/configs/ctests.yml
@@ -1,8 +1,8 @@
 OpTest:
   Conv2D:
-    - inputHeight: 32
-      inputWidth: 32
+    - inputHeight: 30
+      inputWidth: 30
       kernelSize: 3
-    - inputHeight: 320
-      inputWidth: 320
+    - inputHeight: 300
+      inputWidth: 300
       kernelSize: 3
diff --git a/csrc/lib/ops/conv2d/op.cpp b/csrc/lib/ops/conv2d/op.cpp
@@ -17,12 +17,14 @@ void launchConv2D<fp32_t>(const fp32_t* input, const fp32_t* kernel,
                                  ? inputHeight - 1
                                  : i + kernelSize / 2;
             int32_t endCol = j + kernelSize / 2 >= inputWidth
-                                    ? inputWidth - 1
-                                    : j + kernelSize / 2;
-            
+                                 ? inputWidth - 1
+                                 : j + kernelSize / 2;
+
             for (int32_t k = startRow; k <= endRow; ++k) {
                 for (int32_t l = startCol; l <= endCol; ++l) {
-                    tmp += input[k * inputWidth + l] * kernel[(k - i + kernelSize / 2) * kernelSize + (l - j + kernelSize / 2)];
+                    tmp += input[k * inputWidth + l] *
+                           kernel[(k - i + kernelSize / 2) * kernelSize +
+                                  (l - j + kernelSize / 2)];
                 }
             }
             output[i * inputWidth + j] = tmp;
diff --git a/csrc/lib/ops/conv2d/op.cu b/csrc/lib/ops/conv2d/op.cu
@@ -8,42 +8,68 @@
 namespace pmpp::ops::cuda
 {
 
-template <typename ScalarT>
+constexpr int32_t MAX_CONV2D_KERNEL_SIZE = 9;
+__constant__ fp32_t
+    CONV2D_KERNEL[MAX_CONV2D_KERNEL_SIZE * MAX_CONV2D_KERNEL_SIZE];
+
+template <typename ScalarT, uint32_t IN_TILE_SIZE = 32>
 __global__ void conv2DKernel(const ScalarT* input, const ScalarT* kernel,
-                             ScalarT* output, int32_t input_height,
-                             int32_t input_width, int32_t kernel_size)
+                             ScalarT* output, int32_t inHeight,
+                             int32_t inWidth, int32_t kernelSize)
 {
-    int32_t outRow = blockIdx.x * blockDim.x + threadIdx.x;
-    int32_t outCol = blockIdx.y * blockDim.y + threadIdx.y;
-
-    ScalarT tmp = 0;
-    for (int32_t kRow = 0; kRow < kernel_size; ++kRow) {
-        for (int32_t kCol = 0; kCol < kernel_size; ++kCol) {
-            int32_t inRow = outRow + kRow - kernel_size / 2;
-            int32_t inCol = outCol + kCol - kernel_size / 2;
-            if (inRow >= 0 && inRow < input_height && inCol >= 0 &&
-                inCol < input_width) {
-                tmp += input[computeOffset<int32_t>(inRow, inCol, input_width,
-                                                    input_width)] *
-                       kernel[computeOffset<int32_t>(kRow, kCol, kernel_size,
-                                                     kernel_size)];
+    uint32_t OUT_TILE_SIZE = IN_TILE_SIZE - kernelSize / 2 * 2;
+
+    int32_t outRow = blockIdx.x * OUT_TILE_SIZE + threadIdx.x - kernelSize / 2;
+    int32_t outCol = blockIdx.y * OUT_TILE_SIZE + threadIdx.y - kernelSize / 2;
+
+    // [NOTE] IN_TILE_SIZE must equal to blockDim.x and blockDim.y
+    __shared__ ScalarT inTile[IN_TILE_SIZE][IN_TILE_SIZE];
+
+    if (outRow >= 0 && outRow < inHeight && outCol >= 0 && outCol < inWidth) {
+        inTile[threadIdx.x][threadIdx.y] =
+            input[computeOffset<uint32_t>(outRow, outCol, inWidth, inHeight)];
+    } else {
+        inTile[threadIdx.x][threadIdx.y] = 0.0;
+    }
+    __syncthreads();
+
+    int32_t outTileRow = threadIdx.x - kernelSize / 2;
+    int32_t outTileCol = threadIdx.y - kernelSize / 2;
+
+    if (outRow >= 0 && outRow < inHeight && outCol >= 0 && outCol < inWidth) {
+        if (outTileRow >= 0 && outTileRow < OUT_TILE_SIZE && outTileCol >= 0 &&
+            outTileCol < OUT_TILE_SIZE) {
+            ScalarT tmp = 0;
+            for (int32_t kRow = 0; kRow < kernelSize; ++kRow) {
+                for (int32_t kCol = 0; kCol < kernelSize; ++kCol) {
+                    tmp += CONV2D_KERNEL[computeOffset<uint32_t>(
+                               kRow, kCol, kernelSize, kernelSize)] *
+                           inTile[kRow + outTileRow][kCol + outTileCol];
+                }
             }
+            output[computeOffset<uint32_t>(outRow, outCol, inWidth, inWidth)] =
+                tmp;
         }
     }
-    output[computeOffset<int32_t>(outRow, outCol, input_width, input_width)] =
-        tmp;
 }
 
 template <>
 void launchConv2D<fp32_t>(const fp32_t* d_input, const fp32_t* d_kernel,
                           fp32_t* d_output, int32_t inputHeight,
                           int32_t inputWidth, int32_t kernelSize)
 {
-    dim3 blockSize = {32, 32, 1};
-    dim3 gridSize = {uint32_t(ceilDiv(inputWidth, blockSize.x)),
-                     uint32_t(ceilDiv(inputHeight, blockSize.y))};
-    conv2DKernel<<<gridSize, blockSize>>>(d_input, d_kernel, d_output,
-                                          inputHeight, inputWidth, kernelSize);
+    if (kernelSize > MAX_CONV2D_KERNEL_SIZE) {
+        throw std::runtime_error("Kernel size is too large");
+    }
+
+    cudaMemcpyToSymbol(CONV2D_KERNEL, d_kernel,
+                       kernelSize * kernelSize * sizeof(fp32_t));
+
+    dim3 blockDim = {32, 32, 1};
+    dim3 gridDim = {uint32_t(ceilDiv(inputWidth, blockDim.x)),
+                    uint32_t(ceilDiv(inputHeight, blockDim.y))};
+    conv2DKernel<fp32_t, 32><<<gridDim, blockDim>>>(
+        d_input, d_kernel, d_output, inputHeight, inputWidth, kernelSize);
 
     PMPP_DEBUG_CUDA_ERR_CHECK(cudaGetLastError());
 }
diff --git a/scripts/build.sh b/scripts/build.sh
@@ -47,4 +47,5 @@ cmake -S $SOURCE_DIR -B $BUILD_DIR -G Ninja \
     -DVCPKG_TARGET_TRIPLET="x64-linux" \
     -DVCPKG_OVERLAY_TRIPLETS="csrc/cmake/vcpkg-triplets"
 
+GTEST_COLOR=yes \
 cmake --build $BUILD_DIR -j $(nproc) --target all check
diff --git a/test/test.py b/test/test.py
@@ -20,3 +20,4 @@
 print(pic_out_cuda.cpu())
 
 print(torch.ops.pmpp.matmul(torch.ones((32, 32)).cuda(), torch.ones((32, 32)).cuda()))
+

Original file line number	Diff line number	Diff line change
`@@ -20,3 +20,4 @@`
`20`	`20`	`print(pic_out_cuda.cpu())`
`21`	`21`
`22`	`22`	`print(torch.ops.pmpp.matmul(torch.ones((32, 32)).cuda(), torch.ones((32, 32)).cuda()))`
	`23`	`+`