intel
diff --git a/‎cmake/Modules/FindoneMKL.cmake‎
Lines changed: 4 additions & 0 deletions b/‎cmake/Modules/FindoneMKL.cmake‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎cmake/cpu/Options.cmake‎
Lines changed: 7 additions & 0 deletions b/‎cmake/cpu/Options.cmake‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎csrc/cpu/CMakeLists.txt‎
Lines changed: 52 additions & 22 deletions b/‎csrc/cpu/CMakeLists.txt‎
Lines changed: 52 additions & 22 deletions
diff --git a/‎csrc/cpu/aten/MoE.cpp‎
Lines changed: 5 additions & 3 deletions b/‎csrc/cpu/aten/MoE.cpp‎
Lines changed: 5 additions & 3 deletions
diff --git a/‎csrc/cpu/aten/MoE.h‎
Lines changed: 4 additions & 2 deletions b/‎csrc/cpu/aten/MoE.h‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎csrc/cpu/aten/kernels/MoEKrnl.cpp‎
Lines changed: 112 additions & 6 deletions b/‎csrc/cpu/aten/kernels/MoEKrnl.cpp‎
Lines changed: 112 additions & 6 deletions
diff --git a/‎csrc/cpu/aten/utils/woq.h‎
Lines changed: 12 additions & 2 deletions b/‎csrc/cpu/aten/utils/woq.h‎
Lines changed: 12 additions & 2 deletions
@@ -72,6 +72,10 @@ endfunction()
 # IPEX CPU lib always download and install mkl-static lib and use static linker for mkl-static lib.
 # IPEX CPU lib can manual config to use the dynamic link for oneMKL lib.
 if(BUILD_MODULE_TYPE STREQUAL "GPU")
+  set(USE_SYSTEM_MKL ON)
+endif()
+
+if(USE_SYSTEM_MKL)
   get_mkl_from_env_var()
 else()
   if(BUILD_WITH_XPU)
 
@@ -7,6 +7,13 @@ set(Options_CPU_cmake_included true)
 # The options to build cpu
 include(CMakeDependentOption)
 
+option(USE_SYSTEM_LIBXSMM "Use system LIBXSMM library" OFF)
+option(USE_SYSTEM_ONEDNN "Use system oneDNN library" OFF)
+option(USE_SYSTEM_SLEEF "Use system SLEEF library" OFF)
+option(USE_SYSTEM_MKL "Use system MKL library" OFF)
+option(USE_SYSTEM_IDEEP "Use system ideep library" OFF)
+option(USE_SYSTEM_GTEST "Use system GoogleTest library" OFF)
+
 option(BUILD_LIBXSMM_VIA_CMAKE "Build LIBXSMM via CMake" ON)
 option(USE_LIBXSMM "Enable LIBXSMM" ON)
 option(USE_DNNL_GRAPH_COMPILER  "Build with DNNL Graph Compiler" ON)
 
@@ -37,8 +37,20 @@ if((DEFINED ENV{DNNL_GRAPH_BUILD_COMPILER_BACKEND}) AND USE_DNNL_GRAPH_COMPILER)
 endif()
 
 set(THIRD_PARTY_BUILD_PATH_NAME "cpu_third_party")
-add_subdirectory(${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/ideep/mkl-dnn ${THIRD_PARTY_BUILD_PATH_NAME}/ideep/mkl-dnn EXCLUDE_FROM_ALL)
-# add_subdirectory(${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/mkl-dnn cpu_third_party/mkl-dnn)
+if(USE_SYSTEM_ONEDNN)
+  find_package(dnnl 3.4.1 CONFIG REQUIRED)
+  get_target_property(ONEDNN_INCLUDE_DIR DNNL::dnnl INTERFACE_INCLUDE_DIRECTORIES)
+  set(ONEDNN_LIBRARY DNNL::dnnl)
+  set(ONEDNN_GENERATED_INCLUDE ${ONEDNN_INCLUDE_DIR})
+else()
+  add_subdirectory(${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/ideep/mkl-dnn ${THIRD_PARTY_BUILD_PATH_NAME}/ideep/mkl-dnn EXCLUDE_FROM_ALL)
+  set(ONEDNN_INCLUDE_DIR ${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/ideep/mkl-dnn/include)
+  set(ONEDNN_LIBRARY dnnl)
+
+  # path of oneDNN .h.in generated file
+  file(RELATIVE_PATH CUR_DIR_REL_PATH "${IPEX_ROOT_DIR}" "${CMAKE_CURRENT_SOURCE_DIR}")
+  set(ONEDNN_GENERATED_INCLUDE "${CMAKE_BINARY_DIR}/${CUR_DIR_REL_PATH}/${THIRD_PARTY_BUILD_PATH_NAME}/ideep/mkl-dnn/include")
+endif()
 
 IF(IPEX_DISP_OP)
   set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -DIPEX_DISP_OP")
@@ -120,7 +132,7 @@ add_library(${PLUGIN_NAME_CPU} SHARED ${IPEX_CPU_CPP_SRCS})
 # For IPEX_API macro
 target_compile_definitions(${PLUGIN_NAME_CPU} PUBLIC "BUILD_IPEX_MAIN_LIB")
 
-set_target_properties(${PLUGIN_NAME_CPU} PROPERTIES ONEDNN_INCLUDE_DIR "${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/ideep/mkl-dnn/include")
+set_target_properties(${PLUGIN_NAME_CPU} PROPERTIES ONEDNN_INCLUDE_DIR ${ONEDNN_INCLUDE_DIR})
 
 # includes
 target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${IPEX_ROOT_DIR})
@@ -133,19 +145,21 @@ target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${IPEX_CPU_ROOT_DIR}/jit)
 target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${IPEX_JIT_CPP_ROOT})
 target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${IPEX_UTLIS_CPP_ROOT})
 
-target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/ideep/mkl-dnn/include)
+target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${ONEDNN_INCLUDE_DIR})
 
 if(USE_LIBXSMM)
   target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${IPEX_CPU_ROOT_DIR}/tpp)
-  target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/libxsmm/include)
+  target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${LIBXSMM_INCLUDE_DIRS})
 endif(USE_LIBXSMM)
 
-# path of oneDNN .h.in generated file
-file(RELATIVE_PATH CUR_DIR_REL_PATH "${IPEX_ROOT_DIR}" "${CMAKE_CURRENT_SOURCE_DIR}")
-set(ONEDNN_GENERATED_INCLUDE "${CMAKE_BINARY_DIR}/${CUR_DIR_REL_PATH}/${THIRD_PARTY_BUILD_PATH_NAME}/ideep/mkl-dnn/include")
 target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${ONEDNN_GENERATED_INCLUDE})
 
-target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/ideep/include)
+if(USE_SYSTEM_IDEEP)
+  find_path(IDEEP_INCLUDE_DIR ideep.hpp REQUIRED)
+else()
+  set(IDEEP_INCLUDE_DIR ${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/ideep/include)
+endif()
+target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${IDEEP_INCLUDE_DIR})
 target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${PYTHON_INCLUDE_DIR})
 
 if(BUILD_CPU_WITH_ONECCL)
@@ -165,12 +179,17 @@ if(CLANG_FORMAT)
 endif()
 
 if(USE_LIBXSMM)
-  if(BUILD_LIBXSMM_VIA_CMAKE)
+  if(USE_SYSTEM_LIBXSMM)
+    find_package(PkgConfig REQUIRED)
+    pkg_check_modules(LIBXSMM REQUIRED libxsmm)
+    target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${LIBXSMM_INCLUDE_DIRS})
+    target_link_libraries(${PLUGIN_NAME_CPU} PRIVATE ${LIBXSMM_LIBRARIES})
+  elseif(BUILD_LIBXSMM_VIA_CMAKE)
     add_subdirectory(${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/libxsmm cpu_third_party/libxsmm EXCLUDE_FROM_ALL)
     add_definitions(-DLIBXSMM_DEFAULT_CONFIG)
-    target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/libxsmm/include)
+    set(LIBXSMM_INCLUDE_DIRS ${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/libxsmm/include)
     target_link_libraries(${PLUGIN_NAME_CPU} PRIVATE xsmm)
-  else(BUILD_LIBXSMM_VIA_CMAKE)
+  else()
     include(${CMAKE_ROOT}/Modules/ExternalProject.cmake)
     set(args
     CC=${CMAKE_C_COMPILER}
@@ -188,20 +207,31 @@ if(USE_LIBXSMM)
         ${args}
       INSTALL_COMMAND ""
       )
+    set(LIBXSMM_INCLUDE_DIRS ${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/libxsmm/include)
     target_link_libraries(${PLUGIN_NAME_CPU} PRIVATE ${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/libxsmm/lib/libxsmm.a)
   endif(BUILD_LIBXSMM_VIA_CMAKE)
 endif(USE_LIBXSMM)
 
-# setup sleef options:
-set(SLEEF_BUILD_SHARED_LIBS OFF CACHE BOOL "Build sleef as static library" FORCE)
-set(SLEEF_BUILD_DFT OFF CACHE BOOL "Don't build sleef DFT lib" FORCE)
-set(SLEEF_BUILD_GNUABI_LIBS OFF CACHE BOOL "Don't build sleef gnuabi libs" FORCE)
-set(SLEEF_BUILD_TESTS OFF CACHE BOOL "Don't build sleef tests" FORCE)
-set(SLEEF_BUILD_SCALAR_LIB OFF CACHE BOOL "libsleefscalar will be built." FORCE)
-add_subdirectory(${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/sleef ${THIRD_PARTY_BUILD_PATH_NAME}/sleef EXCLUDE_FROM_ALL)
-target_link_libraries(${PLUGIN_NAME_CPU} PRIVATE sleef)
+if(USE_SYSTEM_SLEEF)
+  find_package(PkgConfig REQUIRED)
+  pkg_check_modules(SLEEF REQUIRED sleef)
+  target_include_directories(${PLUGIN_NAME_CPU} PUBLIC ${SLEEF_INCLUDE_DIRS})
+  target_link_libraries(${PLUGIN_NAME_CPU} PRIVATE ${SLEEF_LIBRARIES})
+else()
+  # setup sleef options:
+  set(SLEEF_BUILD_SHARED_LIBS OFF CACHE BOOL "Build sleef as static library" FORCE)
+  set(SLEEF_BUILD_DFT OFF CACHE BOOL "Don't build sleef DFT lib" FORCE)
+  set(SLEEF_BUILD_GNUABI_LIBS OFF CACHE BOOL "Don't build sleef gnuabi libs" FORCE)
+  set(SLEEF_BUILD_TESTS OFF CACHE BOOL "Don't build sleef tests" FORCE)
+  set(SLEEF_BUILD_SCALAR_LIB OFF CACHE BOOL "libsleefscalar will be built." FORCE)
+  add_subdirectory(${IPEX_CPU_CPP_THIRD_PARTY_ROOT}/sleef ${THIRD_PARTY_BUILD_PATH_NAME}/sleef EXCLUDE_FROM_ALL)
+  target_link_libraries(${PLUGIN_NAME_CPU} PRIVATE sleef)
+endif()
+
+if(NOT USE_SYSTEM_ONEDNN)
+  add_dependencies(${PLUGIN_NAME_CPU} dnnl)
+endif()
 
-add_dependencies(${PLUGIN_NAME_CPU} dnnl)
 # If Graph Compiler is built, then it should link to its LLVM dependencies,
 # and not the LLVM symbols exposed by PyTorch.
 if ((DEFINED ENV{DNNL_GRAPH_BUILD_COMPILER_BACKEND}) AND USE_DNNL_GRAPH_COMPILER)
@@ -213,7 +243,7 @@ if ((DEFINED ENV{DNNL_GRAPH_BUILD_COMPILER_BACKEND}) AND USE_DNNL_GRAPH_COMPILER
     set(CMAKE_SHARED_LINKER_FLAGS "${CMAKE_SHARED_LINKER_FLAGS} -Wl,--exclude-libs=${DNNL_GRAPHCOMPILER_LLVM_LIB_EXCLUDE}")
   endif()
 else()
-  target_link_libraries(${PLUGIN_NAME_CPU} PUBLIC dnnl)
+  target_link_libraries(${PLUGIN_NAME_CPU} PUBLIC ${ONEDNN_LIBRARY})
 endif()
 find_package(oneMKL QUIET)
 if (ONEMKL_FOUND)
 
@@ -298,7 +298,8 @@ std::tuple<at::Tensor, at::Tensor> deepseek_moegate(
     const int64_t n_group,
     const int64_t topk_group,
     const int64_t n_routed_experts,
-    const int64_t top_k) {
+    const int64_t top_k,
+    c10::optional<at::Tensor> e_score_cbias) {
   RECORD_FUNCTION("ipex::deepseek_moegate", c10::ArrayRef<c10::IValue>({}));
 
   return deepseek_moegate_kernel_stub(
@@ -309,7 +310,8 @@ std::tuple<at::Tensor, at::Tensor> deepseek_moegate(
       n_group,
       topk_group,
       n_routed_experts,
-      top_k);
+      top_k,
+      e_score_cbias);
 }
 } // namespace cpu
 } // namespace torch_ipex
@@ -374,7 +376,7 @@ TORCH_LIBRARY_FRAGMENT(torch_ipex, m) {
       c10::DispatchKey::CPU,
       torch_ipex::cpu::deepseek_moe_woq);
   m.def(
-      "deepseek_moegate(Tensor hidden_states, Tensor scores, Tensor routed_scaling_factor, int n_group, int topk_group, int n_routed_experts, int top_k) -> (Tensor, Tensor)");
+      "deepseek_moegate(Tensor hidden_states, Tensor scores, Tensor routed_scaling_factor, int n_group, int topk_group, int n_routed_experts, int top_k, Tensor? e_score_cbias=None) -> (Tensor, Tensor)");
   m.impl(
       "deepseek_moegate",
       c10::DispatchKey::CPU,
 
@@ -97,7 +97,8 @@ std::tuple<at::Tensor, at::Tensor> deepseek_moegate(
     const int64_t n_group,
     const int64_t topk_group,
     const int64_t n_routed_experts,
-    const int64_t top_k);
+    const int64_t top_k,
+    c10::optional<at::Tensor> e_score_cbias);
 using mixtral_moe_tpp_kernel_fn = at::Tensor (*)(
     const at::Tensor& hidden_states,
     const at::Tensor& top_x,
@@ -179,7 +180,8 @@ using deepseek_moegate_kernel_fn = std::tuple<at::Tensor, at::Tensor> (*)(
     const int64_t n_group,
     const int64_t topk_group,
     const int64_t n_routed_experts,
-    const int64_t top_k);
+    const int64_t top_k,
+    c10::optional<at::Tensor> e_score_cbias);
 IPEX_DECLARE_DISPATCH(mixtral_moe_tpp_kernel_fn, mixtral_moe_tpp_kernel_stub);
 IPEX_DECLARE_DISPATCH(deepseek_moe_tpp_kernel_fn, deepseek_moe_tpp_kernel_stub);
 IPEX_DECLARE_DISPATCH(mixtral_moe_woq_kernel_fn, mixtral_moe_woq_kernel_stub);
 
@@ -292,7 +292,6 @@ at::Tensor mixtral_moe_woq_kernl_impl(
 
 template <typename T>
 std::tuple<at::Tensor, at::Tensor> deepseek_moegate_kernel(
-    const at::Tensor& hidden_states,
     const at::Tensor& scores,
     const at::Tensor& routed_scaling_factor,
     const int64_t n_group,
@@ -302,7 +301,7 @@ std::tuple<at::Tensor, at::Tensor> deepseek_moegate_kernel(
   auto group_size = n_routed_experts / n_group;
   auto n = scores.size(0);
   auto h = scores.size(1);
-  auto group_scores = at::empty({n, n_group}, hidden_states.options());
+  auto group_scores = at::empty({n, n_group}, scores.options());
   auto group_scores_ptr = group_scores.data_ptr<T>();
   auto scores_ptr = scores.data_ptr<T>();
 #pragma omp parallel for collapse(2)
@@ -319,7 +318,7 @@ std::tuple<at::Tensor, at::Tensor> deepseek_moegate_kernel(
   }
 
   auto group_idx = std::get<1>(group_scores.topk(topk_group, -1, true, false));
-  auto tmp_scores = at::zeros_like(scores, hidden_states.options());
+  auto tmp_scores = at::zeros_like(scores, scores.options());
   auto group_idx_ptr = group_idx.data_ptr<int64_t>();
   auto tmp_scores_ptr = tmp_scores.data_ptr<T>();
   T scale = routed_scaling_factor.item<T>();
@@ -339,17 +338,117 @@ std::tuple<at::Tensor, at::Tensor> deepseek_moegate_kernel(
   return std::make_tuple(topk, topk_weight);
 }
 
+template <typename T>
+std::tuple<at::Tensor, at::Tensor> deepseekv3_moegate_kernel(
+    const at::Tensor& scores,
+    const at::Tensor& routed_scaling_factor,
+    const int64_t n_group,
+    const int64_t topk_group,
+    const int64_t n_routed_experts,
+    const int64_t top_k,
+    const at::Tensor& e_score_cbias) {
+  auto group_size = n_routed_experts / n_group;
+  auto n = scores.size(0);
+  auto h = scores.size(1);
+  auto scores_for_choice = at::empty({n, n_group, group_size}, at::kFloat);
+  auto scores_ptr = scores.data_ptr<T>();
+  auto scores_for_choice_ptr = scores_for_choice.data_ptr<float>();
+  auto scores_for_choice_stride0 = scores_for_choice.stride(0);
+  auto e_score_cbias_ptr = e_score_cbias.data_ptr<float>();
+#pragma omp parallel for collapse(2)
+  for (auto i = 0; i < n; i++) {
+    for (auto j = 0; j < n_group; j++) {
+      auto k_start = j * group_size;
+      auto k_end = k_start + group_size;
+      for (auto k = k_start; k < k_end; k++) {
+        scores_for_choice_ptr[i * scores_for_choice_stride0 + k] =
+            scores_ptr[i * h + k] + e_score_cbias_ptr[k];
+      }
+    }
+  }
+  auto group_scores =
+      std::get<0>(scores_for_choice.topk(2, -1, true, false)).sum(-1);
+  auto group_idx = std::get<1>(group_scores.topk(topk_group, -1, true, false));
+  auto tmp_scores = at::zeros_like(scores, at::kFloat);
+  auto group_idx_ptr = group_idx.data_ptr<int64_t>();
+  auto tmp_scores_ptr = tmp_scores.data_ptr<float>();
+#pragma omp parallel for collapse(2)
+  for (auto i = 0; i < n; i++) {
+    for (auto j = 0; j < topk_group; j++) {
+      auto selected_idx = group_idx_ptr[i * topk_group + j];
+      auto k_start = selected_idx * group_size;
+      auto k_end = k_start + group_size;
+      for (auto k = k_start; k < k_end; k++) {
+        tmp_scores_ptr[i * h + k] =
+            scores_for_choice_ptr[i * scores_for_choice_stride0 + k];
+      }
+    }
+  }
+  auto topk = std::get<1>(tmp_scores.topk(top_k, -1, true, false));
+  auto topk_weight = scores.gather(1, topk);
+  return std::make_tuple(topk, topk_weight);
+}
+
 std::tuple<at::Tensor, at::Tensor> deepseek_moegate_kernel_impl(
     const at::Tensor& hidden_states,
     const at::Tensor& scores,
     const at::Tensor& routed_scaling_factor,
     const int64_t n_group,
     const int64_t topk_group,
     const int64_t n_routed_experts,
-    const int64_t top_k) {
+    const int64_t top_k,
+    c10::optional<at::Tensor> e_score_cbias) {
+  if (e_score_cbias.has_value()) { // deepseekv3
+    if (hidden_states.scalar_type() == at::ScalarType::Float) {
+      return deepseekv3_moegate_kernel<float>(
+          scores,
+          routed_scaling_factor,
+          n_group,
+          topk_group,
+          n_routed_experts,
+          top_k,
+          e_score_cbias.value());
+    } else if (hidden_states.scalar_type() == at::ScalarType::BFloat16) {
+      return deepseekv3_moegate_kernel<at::BFloat16>(
+          scores,
+          routed_scaling_factor,
+          n_group,
+          topk_group,
+          n_routed_experts,
+          top_k,
+          e_score_cbias.value());
+    } else if (hidden_states.scalar_type() == at::ScalarType::Half) {
+      return deepseekv3_moegate_kernel<at::Half>(
+          scores,
+          routed_scaling_factor,
+          n_group,
+          topk_group,
+          n_routed_experts,
+          top_k,
+          e_score_cbias.value());
+    }
+    auto n = hidden_states.size(0);
+    auto group_size = n_routed_experts / n_group;
+    auto scores_for_choice =
+        scores.view({n, -1}) + e_score_cbias.value().unsqueeze(0);
+    auto group_scores = std::get<0>(
+        scores_for_choice.view({n, n_group, -1}).topk(2, -1, true, false));
+    group_scores = group_scores.sum(-1);
+    auto group_idx =
+        std::get<1>(group_scores.topk(topk_group, -1, true, false));
+    auto group_mask = at::zeros_like(group_scores);
+    group_mask.scatter_(1, group_idx, 1);
+    auto score_mask = group_mask.unsqueeze(-1)
+                          .expand({n, n_group, group_size})
+                          .reshape({n, -1});
+    auto tmp_scores =
+        scores_for_choice.masked_fill(~score_mask.to(at::kBool), 0.0);
+    auto topk = std::get<1>(tmp_scores.topk(top_k, -1, true, false));
+    auto topk_weight = scores.gather(1, topk);
+    return std::make_tuple(topk, topk_weight.to(hidden_states.scalar_type()));
+  }
   if (hidden_states.scalar_type() == at::ScalarType::Float) {
     return deepseek_moegate_kernel<float>(
-        hidden_states,
         scores,
         routed_scaling_factor,
         n_group,
@@ -358,7 +457,14 @@ std::tuple<at::Tensor, at::Tensor> deepseek_moegate_kernel_impl(
         top_k);
   } else if (hidden_states.scalar_type() == at::ScalarType::BFloat16) {
     return deepseek_moegate_kernel<at::BFloat16>(
-        hidden_states,
+        scores,
+        routed_scaling_factor,
+        n_group,
+        topk_group,
+        n_routed_experts,
+        top_k);
+  } else if (hidden_states.scalar_type() == at::ScalarType::Half) {
+    return deepseek_moegate_kernel<at::Half>(
         scores,
         routed_scaling_factor,
         n_group,
 
@@ -3454,11 +3454,21 @@ static at::Tensor woq_gemm_ref_impl(
     at::silu_(y);
   } else if (fusion_type == WOQ_FUSE_ADD || fusion_type == WOQ_FUSE_ADD_ADD) {
     for (auto& tin : others_list) {
-      y = at::add(y, tin.view(y.sizes()));
+      auto tin_view = tin.view({-1, y.size(-1)});
+      if (tin_view.size(0) < y.size(0)) {
+        tin_view = at::pad(
+            tin_view, {0, 0, 0, y.size(0) - tin_view.size(0)}, "constant", 0);
+      }
+      y = at::add(y, tin_view);
     }
   } else if (fusion_type == WOQ_FUSE_MUL) {
     for (auto& tin : others_list) {
-      y = at::mul(y, tin.view(y.sizes()));
+      auto tin_view = tin.view({-1, y.size(-1)});
+      if (tin_view.size(0) < y.size(0)) {
+        tin_view = at::pad(
+            tin_view, {0, 0, 0, y.size(0) - tin_view.size(0)}, "constant", 0);
+      }
+      y = at::mul(y, tin_view);
     }
   } else {
     TORCH_CHECK(