Update Conv2D

root · root · commit 268364dad23c · 2025-02-02T15:15:57.000Z
diff --git a/configs/ctests.yml b/configs/ctests.yml
diff --git a/configs/lib-tests.yml b/configs/lib-tests.yml
@@ -0,0 +1,5 @@
+OpTest:
+  Conv2D:
+    - inputHeight: 32
+      inputWidth: 32
+      kernelSize: 3
diff --git a/csrc/cmake/config.cmake.in/PmppTorchOps-config.cmake.in b/csrc/cmake/config.cmake.in/PmppTorchOps-config.cmake.in
diff --git a/csrc/include/pmpp/utils/address.hpp b/csrc/include/pmpp/utils/address.hpp
@@ -15,14 +15,19 @@ namespace pmpp
 /**
  * @brief Compute the offset of a multi-dimensional array.
  *
- * @param args First half is the indexes, second half is the size of each
+ * @param args First half is the indices, second half is the size of each
  *             dimension.
  * @return std::uint32_t The offset of the multi-dimensional array.
  *
- * @example computeOffset(1, 2, 3, 4, 5, 6) -> 3*1 + 2*6 + 1*6*5 = 45
+ * @example 
+ *   1. To calculate the offset of idx (2, 1) in a 2D array of dim (4, 3):
+ *      > offset(2, 1, 4, 3) -> 1*1 + 2*3 = 7
+ *   2. To calculate the offset of idx (1, 2, 3) in a 3D array of dim 
+ *      (4, 5, 6):
+ *      > offset(1, 2, 3, 4, 5, 6) -> 3*1 + 2*6 + 1*6*5 = 45
  */
 template <typename OffsetT, typename... ArgsT>
-[[nodiscard]] constexpr auto computeOffset(ArgsT... args) -> OffsetT
+[[nodiscard]] constexpr auto offset(ArgsT... args) -> OffsetT
 {
     constexpr std::size_t nArgs = sizeof...(ArgsT);
     constexpr std::size_t nDims = nArgs / 2;
diff --git a/csrc/lib/CMakeLists.txt b/csrc/lib/CMakeLists.txt
@@ -1,4 +1,4 @@
-set(LIB_NAME "pmpp-torch-ops")
+set(LIB_NAME "PmppTorchOps")
 
 file(GLOB_RECURSE CXX_SOURCES ${CMAKE_CURRENT_SOURCE_DIR}/*.cpp)
 file(GLOB_RECURSE CUDA_SOURCES ${CMAKE_CURRENT_SOURCE_DIR}/*.cu)
diff --git a/csrc/lib/ops/conv2d/op.cpp b/csrc/lib/ops/conv2d/op.cpp
@@ -5,29 +5,29 @@ namespace pmpp::ops::cpu
 
 template <>
 void launchConv2d<fp32_t>(const fp32_t* input, const fp32_t* kernel,
-                          fp32_t* output, int32_t inputHeight,
-                          int32_t inputWidth, int32_t kernelSize)
+                          fp32_t* output, int32_t inHeight, int32_t inWidth,
+                          int32_t kernelSize)
 {
-    for (int32_t i = 0; i < inputHeight; ++i) {
-        for (int32_t j = 0; j < inputWidth; ++j) {
+    for (int32_t i = 0; i < inHeight; ++i) {
+        for (int32_t j = 0; j < inWidth; ++j) {
             fp32_t tmp = 0;
             int32_t startRow = i - kernelSize / 2 < 0 ? 0 : i - kernelSize / 2;
             int32_t startCol = j - kernelSize / 2 < 0 ? 0 : j - kernelSize / 2;
-            int32_t endRow = i + kernelSize / 2 >= inputHeight
-                                 ? inputHeight - 1
+            int32_t endRow = i + kernelSize / 2 >= inHeight
+                                 ? inHeight - 1
                                  : i + kernelSize / 2;
-            int32_t endCol = j + kernelSize / 2 >= inputWidth
-                                 ? inputWidth - 1
+            int32_t endCol = j + kernelSize / 2 >= inWidth
+                                 ? inWidth - 1
                                  : j + kernelSize / 2;
 
             for (int32_t k = startRow; k <= endRow; ++k) {
                 for (int32_t l = startCol; l <= endCol; ++l) {
-                    tmp += input[k * inputWidth + l] *
+                    tmp += input[k * inWidth + l] *
                            kernel[(k - i + kernelSize / 2) * kernelSize +
                                   (l - j + kernelSize / 2)];
                 }
             }
-            output[i * inputWidth + j] = tmp;
+            output[i * inWidth + j] = tmp;
         }
     }
 }
diff --git a/csrc/lib/ops/conv2d/op.cu b/csrc/lib/ops/conv2d/op.cu
@@ -9,47 +9,60 @@ namespace pmpp::ops::cuda
 {
 
 constexpr int32_t MAX_CONV2D_KERNEL_SIZE = 9;
-__constant__ fp32_t
-    CONV2D_KERNEL[MAX_CONV2D_KERNEL_SIZE * MAX_CONV2D_KERNEL_SIZE];
+__constant__ fp32_t KERNEL[MAX_CONV2D_KERNEL_SIZE * MAX_CONV2D_KERNEL_SIZE];
 
-template <typename ScalarT, uint32_t IN_TILE_SIZE = 32>
+template <typename ScalarT, uint32_t TILE_SIZE = 32>
 __global__ void conv2DKernel(const ScalarT* input, const ScalarT* kernel,
-                             ScalarT* output, int32_t inHeight,
-                             int32_t inWidth, int32_t kernelSize)
+                             ScalarT* output, int32_t nRows, int32_t nCols,
+                             int32_t kernelSize)
 {
-    uint32_t OUT_TILE_SIZE = IN_TILE_SIZE - kernelSize / 2 * 2;
+    // Each block computes (TILE_SIZE, TILE_SIZE) output elements
+    // Each block contains (TILE_SIZE, TILE_SIZE) threads
+    // TILE_SIZE must equal to blockDim.x and blockDim.y
 
-    int32_t outRow = blockIdx.x * OUT_TILE_SIZE + threadIdx.x - kernelSize / 2;
-    int32_t outCol = blockIdx.y * OUT_TILE_SIZE + threadIdx.y - kernelSize / 2;
+    // Current thread computes element at output[outRow, outCol]
+    int32_t outRow = blockIdx.x * TILE_SIZE + threadIdx.x;
+    int32_t outCol = blockIdx.y * TILE_SIZE + threadIdx.y;
 
-    // [NOTE] IN_TILE_SIZE must equal to blockDim.x and blockDim.y
-    __shared__ ScalarT inTile[IN_TILE_SIZE][IN_TILE_SIZE];
-
-    if (outRow >= 0 && outRow < inHeight && outCol >= 0 && outCol < inWidth) {
+    __shared__ ScalarT inTile[TILE_SIZE][TILE_SIZE];
+    // Load input tile into shared memory
+    if (outRow < nRows && outCol < nCols) {
         inTile[threadIdx.x][threadIdx.y] =
-            input[computeOffset<uint32_t>(outRow, outCol, inWidth, inHeight)];
+            input[offset<uint32_t>(outRow, outCol, nRows, nCols)];
     } else {
         inTile[threadIdx.x][threadIdx.y] = 0.0;
     }
     __syncthreads();
 
-    int32_t outTileRow = threadIdx.x - kernelSize / 2;
-    int32_t outTileCol = threadIdx.y - kernelSize / 2;
-
-    if (outRow >= 0 && outRow < inHeight && outCol >= 0 && outCol < inWidth) {
-        if (outTileRow >= 0 && outTileRow < OUT_TILE_SIZE && outTileCol >= 0 &&
-            outTileCol < OUT_TILE_SIZE) {
-            ScalarT tmp = 0;
-            for (int32_t kRow = 0; kRow < kernelSize; ++kRow) {
-                for (int32_t kCol = 0; kCol < kernelSize; ++kCol) {
-                    tmp += CONV2D_KERNEL[computeOffset<uint32_t>(
-                               kRow, kCol, kernelSize, kernelSize)] *
-                           inTile[kRow + outTileRow][kCol + outTileCol];
+    if (outRow < nRows && outCol < nCols) {
+        ScalarT tmp = 0;
+        // To compute one output element, each thread needs to loop over the
+        // kernel:
+        for (int32_t kRow = 0; kRow < kernelSize; ++kRow) {
+            for (int32_t kCol = 0; kCol < kernelSize; ++kCol) {
+                // Realative kernel index in the input tile
+                int32_t rkInRow = threadIdx.x - kernelSize / 2 + kRow;
+                int32_t rkInCol = threadIdx.y - kernelSize / 2 + kCol;
+                if (rkInRow >= 0 && rkInRow < TILE_SIZE && rkInCol >= 0 &&
+                    rkInCol < TILE_SIZE) {
+                    tmp += inTile[rkInRow][rkInCol] *
+                           KERNEL[offset<uint32_t>(kRow, kCol, kernelSize,
+                                                   kernelSize)];
+                } else {
+                    // Boundary
+                    int32_t inRow = outRow - kernelSize / 2 + kRow;
+                    int32_t inCol = outCol - kernelSize / 2 + kCol;
+                    if (inRow >= 0 && inRow < nRows && inCol >= 0 &&
+                        inCol < nCols) {
+                        tmp += input[offset<uint32_t>(inRow, inCol, nRows,
+                                                      nCols)] *
+                               KERNEL[offset<uint32_t>(kRow, kCol, kernelSize,
+                                                       kernelSize)];
+                    }
                 }
             }
-            output[computeOffset<uint32_t>(outRow, outCol, inWidth, inWidth)] =
-                tmp;
         }
+        output[offset<uint32_t>(outRow, outCol, nRows, nCols)] = tmp;
     }
 }
 
@@ -62,7 +75,7 @@ void launchConv2d<fp32_t>(const fp32_t* d_input, const fp32_t* d_kernel,
         throw std::runtime_error("Kernel size is too large");
     }
 
-    cudaMemcpyToSymbol(CONV2D_KERNEL, d_kernel,
+    cudaMemcpyToSymbol(KERNEL, d_kernel,
                        kernelSize * kernelSize * sizeof(fp32_t));
 
     dim3 blockDim = {32, 32, 1};
diff --git a/csrc/lib/ops/conv2d/torch_impl.cpp b/csrc/lib/ops/conv2d/torch_impl.cpp
@@ -5,7 +5,7 @@
 
 namespace pmpp::ops::cpu::torch_impl
 {
-auto conv2D(const torch::Tensor& input, const torch::Tensor& kernel)
+auto conv2d(const torch::Tensor& input, const torch::Tensor& kernel)
     -> torch::Tensor
 {
     TORCH_CHECK(input.scalar_type() == kernel.scalar_type(),
@@ -39,7 +39,7 @@ auto conv2D(const torch::Tensor& input, const torch::Tensor& kernel)
 
 namespace pmpp::ops::cuda::torch_impl
 {
-auto conv2D(const torch::Tensor& input, const torch::Tensor& kernel)
+auto conv2d(const torch::Tensor& input, const torch::Tensor& kernel)
     -> torch::Tensor
 {
     TORCH_CHECK(input.scalar_type() == kernel.scalar_type(),
diff --git a/csrc/lib/ops/cvtRGBtoGray/op.cu b/csrc/lib/ops/cvtRGBtoGray/op.cu
@@ -21,7 +21,7 @@ __global__ void cvtRGBtoGrayKernel(uint8_t* outImg, const uint8_t* inImg,
         return;
     }
 
-    auto grayOffset = computeOffset<uint32_t>(row, col, height, width);
+    auto grayOffset = offset<uint32_t>(row, col, height, width);
     uint32_t rgbOffset = grayOffset * N_CHANNELS;
 
     uint8_t r = inImg[rgbOffset];
diff --git a/csrc/lib/ops/torch_bind.cpp b/csrc/lib/ops/torch_bind.cpp
@@ -10,7 +10,7 @@ TORCH_LIBRARY(pmpp, m)
     m.def("vector_add(Tensor a, Tensor b) -> Tensor");
     m.def("cvt_rgb_to_gray(Tensor img) -> Tensor");
     m.def("matmul(Tensor A, Tensor B) -> Tensor");
-    m.def("conv2D(Tensor input, Tensor kernel) -> Tensor");
+    m.def("conv2d(Tensor input, Tensor kernel) -> Tensor");
 }
 
 // Register the implementations.
@@ -21,13 +21,13 @@ TORCH_LIBRARY_IMPL(pmpp, CPU, m)
     m.impl("vector_add", &pmpp::ops::cpu::torch_impl::vectorAdd);
     m.impl("cvt_rgb_to_gray", &pmpp::ops::cpu::torch_impl::cvtRGBtoGray);
     m.impl("matmul", &pmpp::ops::cpu::torch_impl::matmul);
-    m.impl("conv2D", &pmpp::ops::cpu::torch_impl::conv2D);
+    m.impl("conv2d", &pmpp::ops::cpu::torch_impl::conv2d);
 }
 
 TORCH_LIBRARY_IMPL(pmpp, CUDA, m)
 {
     m.impl("vector_add", &pmpp::ops::cuda::torch_impl::vectorAdd);
     m.impl("cvt_rgb_to_gray", &pmpp::ops::cuda::torch_impl::cvtRGBtoGray);
     m.impl("matmul", &pmpp::ops::cuda::torch_impl::matmul);
-    m.impl("conv2D", &pmpp::ops::cuda::torch_impl::conv2D);
+    m.impl("conv2d", &pmpp::ops::cuda::torch_impl::conv2d);
 }
diff --git a/csrc/lib/ops/torch_impl.hpp b/csrc/lib/ops/torch_impl.hpp
@@ -12,7 +12,7 @@ auto cvtRGBtoGray(const torch::Tensor& img) -> torch::Tensor;
 
 auto matmul(const torch::Tensor& A, const torch::Tensor& B) -> torch::Tensor;
 
-auto conv2D(const torch::Tensor& input, const torch::Tensor& kernel)
+auto conv2d(const torch::Tensor& input, const torch::Tensor& kernel)
     -> torch::Tensor;
 
 }  // namespace pmpp::ops::cpu::torch_impl
@@ -27,7 +27,7 @@ auto cvtRGBtoGray(const torch::Tensor& img) -> torch::Tensor;
 
 auto matmul(const torch::Tensor& A, const torch::Tensor& B) -> torch::Tensor;
 
-auto conv2D(const torch::Tensor& input, const torch::Tensor& kernel)
+auto conv2d(const torch::Tensor& input, const torch::Tensor& kernel)
     -> torch::Tensor;
 
 }  // namespace pmpp::ops::cuda::torch_impl
diff --git a/csrc/test/CMakeLists.txt b/csrc/test/CMakeLists.txt
@@ -7,7 +7,7 @@ add_executable(${TARGET_NAME} ${CXX_SOURCES} ${CUDA_SOURCES})
 
 target_link_libraries(
     ${TARGET_NAME} PRIVATE
-    -Wl,--no-as-needed ${PROJECT_NAMESPACE}pmpp-torch-ops
+    -Wl,--no-as-needed ${PROJECT_NAMESPACE}PmppTorchOps
     spdlog::spdlog
     GTest::gtest GTest::gtest_main GTest::gmock GTest::gmock_main
     yaml-cpp::yaml-cpp
diff --git a/csrc/test/OpTest/Conv2D.cpp b/csrc/test/OpTest/Conv2D.cpp
@@ -13,7 +13,7 @@ TEST_F(OpTest, Conv2D)
     const YAML::Node& configs = getConfigs()["OpTest"]["Conv2D"];
 
     static auto custom_op = torch::Dispatcher::singleton()
-                                .findSchemaOrThrow("pmpp::conv2D", "")
+                                .findSchemaOrThrow("pmpp::conv2d", "")
                                 .typed<Tensor(const Tensor&, const Tensor&)>();
 
     for (auto testConfig : configs) {
diff --git a/csrc/test/main.cpp b/csrc/test/main.cpp
@@ -15,7 +15,7 @@ auto main(int argc, char** argv) -> int
 
     options.add_options()(
         "c,config", "Path to the configuration file",
-        cxxopts::value<std::string>()->default_value("configs/ctests.yml"));
+        cxxopts::value<std::string>()->default_value("configs/lib-tests.yml"));
     auto optResult = options.parse(argc, argv);
 
     pmpp::test::ops::OpTest::setConfigs(optResult["config"].as<std::string>());
diff --git a/scripts/lib-test.sh b/scripts/lib-test.sh
@@ -0,0 +1 @@
+build/test/pmpp_test $@

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-set(LIB_NAME "pmpp-torch-ops")`
	`1`	`+set(LIB_NAME "PmppTorchOps")`
`2`	`2`
`3`	`3`	`file(GLOB_RECURSE CXX_SOURCES ${CMAKE_CURRENT_SOURCE_DIR}/*.cpp)`
`4`	`4`	`file(GLOB_RECURSE CUDA_SOURCES ${CMAKE_CURRENT_SOURCE_DIR}/*.cu)`
Original file line number	Diff line number	Diff line change
`@@ -5,7 +5,7 @@`
`5`	`5`
`6`	`6`	`namespace pmpp::ops::cpu::torch_impl`
`7`	`7`	`{`
`8`		`-auto conv2D(const torch::Tensor& input, const torch::Tensor& kernel)`
	`8`	`+auto conv2d(const torch::Tensor& input, const torch::Tensor& kernel)`
`9`	`9`	`-> torch::Tensor`
`10`	`10`	`{`
`11`	`11`	`TORCH_CHECK(input.scalar_type() == kernel.scalar_type(),`
`@@ -39,7 +39,7 @@ auto conv2D(const torch::Tensor& input, const torch::Tensor& kernel)`
`39`	`39`
`40`	`40`	`namespace pmpp::ops::cuda::torch_impl`
`41`	`41`	`{`
`42`		`-auto conv2D(const torch::Tensor& input, const torch::Tensor& kernel)`
	`42`	`+auto conv2d(const torch::Tensor& input, const torch::Tensor& kernel)`
`43`	`43`	`-> torch::Tensor`
`44`	`44`	`{`
`45`	`45`	`TORCH_CHECK(input.scalar_type() == kernel.scalar_type(),`
Original file line number	Diff line number	Diff line change
`@@ -21,7 +21,7 @@ __global__ void cvtRGBtoGrayKernel(uint8_t* outImg, const uint8_t* inImg,`
`21`	`21`	`return;`
`22`	`22`	`}`
`23`	`23`
`24`		`- auto grayOffset = computeOffset<uint32_t>(row, col, height, width);`
	`24`	`+ auto grayOffset = offset<uint32_t>(row, col, height, width);`
`25`	`25`	`uint32_t rgbOffset = grayOffset * N_CHANNELS;`
`26`	`26`
`27`	`27`	`uint8_t r = inImg[rgbOffset];`
Original file line number	Diff line number	Diff line change
`@@ -10,7 +10,7 @@ TORCH_LIBRARY(pmpp, m)`
`10`	`10`	`m.def("vector_add(Tensor a, Tensor b) -> Tensor");`
`11`	`11`	`m.def("cvt_rgb_to_gray(Tensor img) -> Tensor");`
`12`	`12`	`m.def("matmul(Tensor A, Tensor B) -> Tensor");`
`13`		`- m.def("conv2D(Tensor input, Tensor kernel) -> Tensor");`
	`13`	`+ m.def("conv2d(Tensor input, Tensor kernel) -> Tensor");`
`14`	`14`	`}`
`15`	`15`
`16`	`16`	`// Register the implementations.`
`@@ -21,13 +21,13 @@ TORCH_LIBRARY_IMPL(pmpp, CPU, m)`
`21`	`21`	`m.impl("vector_add", &pmpp::ops::cpu::torch_impl::vectorAdd);`
`22`	`22`	`m.impl("cvt_rgb_to_gray", &pmpp::ops::cpu::torch_impl::cvtRGBtoGray);`
`23`	`23`	`m.impl("matmul", &pmpp::ops::cpu::torch_impl::matmul);`
`24`		`- m.impl("conv2D", &pmpp::ops::cpu::torch_impl::conv2D);`
	`24`	`+ m.impl("conv2d", &pmpp::ops::cpu::torch_impl::conv2d);`
`25`	`25`	`}`
`26`	`26`
`27`	`27`	`TORCH_LIBRARY_IMPL(pmpp, CUDA, m)`
`28`	`28`	`{`
`29`	`29`	`m.impl("vector_add", &pmpp::ops::cuda::torch_impl::vectorAdd);`
`30`	`30`	`m.impl("cvt_rgb_to_gray", &pmpp::ops::cuda::torch_impl::cvtRGBtoGray);`
`31`	`31`	`m.impl("matmul", &pmpp::ops::cuda::torch_impl::matmul);`
`32`		`- m.impl("conv2D", &pmpp::ops::cuda::torch_impl::conv2D);`
	`32`	`+ m.impl("conv2d", &pmpp::ops::cuda::torch_impl::conv2d);`
`33`	`33`	`}`