From 31fe7704cad9eb1feb0c3fe4ebe2653d5ad2e373 Mon Sep 17 00:00:00 2001
From: Si Yudong <yudong.si@intel.com>
Date: Thu, 28 Nov 2024 11:07:02 +0800
Subject: [PATCH] Improve performance of shape 1024x1024x1024 out of box
 (#2839)

Close https://github.com/intel/intel-xpu-backend-for-triton/issues/2822

After:
90% -> 103%
---
 benchmarks/triton_kernels_benchmark/gemm_benchmark.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/benchmarks/triton_kernels_benchmark/gemm_benchmark.py b/benchmarks/triton_kernels_benchmark/gemm_benchmark.py
index 9941b0c5f0..2ad8636414 100644
--- a/benchmarks/triton_kernels_benchmark/gemm_benchmark.py
+++ b/benchmarks/triton_kernels_benchmark/gemm_benchmark.py
@@ -32,7 +32,7 @@
     ] + [
         triton.Config(
             {'BLOCK_SIZE_M': 256, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 4, 'grf_mode': 'large'},
-            num_stages=s, num_warps=32) for s in [2, 3]
+            num_stages=s, num_warps=32) for s in [2, 3, 4]
     ] + [
         triton.Config(
             {'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 4, 'grf_mode': 'large'},