[TritonGEN] Use OCL builtins for subgroup block read/write #2178

whitneywhtsang · 2024-09-10T02:42:28Z

Use intel_sub_group_block_[read|write] defined in https://registry.khronos.org/OpenCL/extensions/intel/cl_intel_subgroups.html, https://registry.khronos.org/OpenCL/extensions/intel/cl_intel_subgroups_char.html, https://registry.khronos.org/OpenCL/extensions/intel/cl_intel_subgroups_short.html, https://registry.khronos.org/OpenCL/extensions/intel/cl_intel_subgroups_long.html, and https://github.com/KhronosGroup/OpenCL-Docs/blob/main/extensions/cl_intel_subgroup_local_block_io.asciidoc.

Signed-off-by: Whitney Tsang <[email protected]>

victor-eds

We can emulate wider vectors with several calls and avoid relying on GenISA intrinsics:

%res = triton_gen.simdblockread %ptr : (!llvm.ptr) -> vector<32xi32>

is equivalent to:

%0 = triton_gen.simdblockread %ptr : (!llvm.ptr) -> vector<8xi32>
%ptr1 = llvm.getelementptr inbounds %ptr[16] : (!llvm.ptr) -> !llvm.ptr, vector<8xi32>
%1 = triton_gen.simdblockread %ptr1 : (!llvm.ptr) -> vector<8xi32>
%ptr2 = llvm.getelementptr inbounds %ptr1[16] : (!llvm.ptr) -> !llvm.ptr, vector<8xi32>
%2 = triton_gen.simdblockread %ptr2 : (!llvm.ptr) -> vector<8xi32>
%ptr3 = llvm.getelementptr inbounds %ptr2[16] : (!llvm.ptr) -> !llvm.ptr, vector<8xi32>
%3 = triton_gen.simdblockread %ptr3 : (!llvm.ptr) -> vector<8xi32>
%res = // Vector concatenation %0 %1 %2 %3

third_party/intel/lib/Utils/Mangling.cpp

third_party/intel/include/Dialect/TritonGEN/IR/TritonGENOps.td

third_party/intel/lib/TritonGENToLLVM/TritonGENToLLVMPass.cpp

whitneywhtsang · 2024-09-10T15:02:34Z

We can emulate wider vectors with several calls and avoid relying on GenISA intrinsics:

%res = triton_gen.simdblockread %ptr : (!llvm.ptr) -> vector<32xi32>

is equivalent to:

%0 = triton_gen.simdblockread %ptr : (!llvm.ptr) -> vector<8xi32>
%ptr1 = llvm.getelementptr inbounds %ptr[16] : (!llvm.ptr) -> !llvm.ptr, vector<8xi32>
%1 = triton_gen.simdblockread %ptr1 : (!llvm.ptr) -> vector<8xi32>
%ptr2 = llvm.getelementptr inbounds %ptr1[16] : (!llvm.ptr) -> !llvm.ptr, vector<8xi32>
%2 = triton_gen.simdblockread %ptr2 : (!llvm.ptr) -> vector<8xi32>
%ptr3 = llvm.getelementptr inbounds %ptr2[16] : (!llvm.ptr) -> !llvm.ptr, vector<8xi32>
%3 = triton_gen.simdblockread %ptr3 : (!llvm.ptr) -> vector<8xi32>
%res = // Vector concatenation %0 %1 %2 %3

Right, I have a local change for that, would like to do that in a separate PR.

Signed-off-by: Whitney Tsang <[email protected]>

…/simdblock

quintinwang5 · 2024-09-11T01:09:37Z

We can emulate wider vectors with several calls and avoid relying on GenISA intrinsics:

%res = triton_gen.simdblockread %ptr : (!llvm.ptr) -> vector<32xi32>

is equivalent to:

%0 = triton_gen.simdblockread %ptr : (!llvm.ptr) -> vector<8xi32>
%ptr1 = llvm.getelementptr inbounds %ptr[16] : (!llvm.ptr) -> !llvm.ptr, vector<8xi32>
%1 = triton_gen.simdblockread %ptr1 : (!llvm.ptr) -> vector<8xi32>
%ptr2 = llvm.getelementptr inbounds %ptr1[16] : (!llvm.ptr) -> !llvm.ptr, vector<8xi32>
%2 = triton_gen.simdblockread %ptr2 : (!llvm.ptr) -> vector<8xi32>
%ptr3 = llvm.getelementptr inbounds %ptr2[16] : (!llvm.ptr) -> !llvm.ptr, vector<8xi32>
%3 = triton_gen.simdblockread %ptr3 : (!llvm.ptr) -> vector<8xi32>
%res = // Vector concatenation %0 %1 %2 %3

Right, I have a local change for that, would like to do that in a separate PR.

How about its performance?

whitneywhtsang · 2024-09-11T01:13:17Z

We can emulate wider vectors with several calls and avoid relying on GenISA intrinsics:

%res = triton_gen.simdblockread %ptr : (!llvm.ptr) -> vector<32xi32>

is equivalent to:

%0 = triton_gen.simdblockread %ptr : (!llvm.ptr) -> vector<8xi32>
%ptr1 = llvm.getelementptr inbounds %ptr[16] : (!llvm.ptr) -> !llvm.ptr, vector<8xi32>
%1 = triton_gen.simdblockread %ptr1 : (!llvm.ptr) -> vector<8xi32>
%ptr2 = llvm.getelementptr inbounds %ptr1[16] : (!llvm.ptr) -> !llvm.ptr, vector<8xi32>
%2 = triton_gen.simdblockread %ptr2 : (!llvm.ptr) -> vector<8xi32>
%ptr3 = llvm.getelementptr inbounds %ptr2[16] : (!llvm.ptr) -> !llvm.ptr, vector<8xi32>
%3 = triton_gen.simdblockread %ptr3 : (!llvm.ptr) -> vector<8xi32>
%res = // Vector concatenation %0 %1 %2 %3

Right, I have a local change for that, would like to do that in a separate PR.

How about its performance?

I would like to test its performance, but the SLM path is not working at the moment, so I cannot get a baseline.

Signed-off-by: Whitney Tsang <[email protected]>

Dewei-Wang-sh · 2024-09-11T06:27:18Z

anywhere to document what the current ocl built-ins we can use in triton?

victor-eds

Small NIT. LGTM.

third_party/intel/lib/TritonGENToLLVM/TritonGENToLLVMPass.cpp

whitneywhtsang · 2024-09-11T13:45:17Z

anywhere to document what the current ocl built-ins we can use in triton?

We can use any ocl built-ins documented in any OpenCL C extensions, if we want to use an OpenCL C builtin that is not available in any OpenCL C extensions, then we need to send a request to IGC team.

Signed-off-by: Whitney Tsang <[email protected]>

third_party/intel/lib/TritonGENToLLVM/TritonGENToLLVMPass.cpp

whitneywhtsang requested review from etiotto, quintinwang5 and a team September 10, 2024 02:42

whitneywhtsang self-assigned this Sep 10, 2024

whitneywhtsang force-pushed the whitneywhtsang/simdblock branch from 4dd8442 to 46ff791 Compare September 10, 2024 04:25

[TritonGEN] Use OCL builtins for subgroup block read/write

412d102

Signed-off-by: Whitney Tsang <[email protected]>

whitneywhtsang force-pushed the whitneywhtsang/simdblock branch from 46ff791 to 412d102 Compare September 10, 2024 04:53

whitneywhtsang mentioned this pull request Sep 10, 2024

Fix FlashAttension SLM path failure #2182

Merged

victor-eds reviewed Sep 10, 2024

View reviewed changes

etiotto reviewed Sep 10, 2024

View reviewed changes

third_party/intel/lib/TritonGENToLLVM/TritonGENToLLVMPass.cpp Outdated Show resolved Hide resolved

third_party/intel/lib/TritonGENToLLVM/TritonGENToLLVMPass.cpp Outdated Show resolved Hide resolved

whitneywhtsang added 2 commits September 11, 2024 00:22

address review comments

65a4b43

Signed-off-by: Whitney Tsang <[email protected]>

Merge remote-tracking branch 'origin/llvm-target' into whitneywhtsang…

2494e1c

…/simdblock

whitneywhtsang requested review from victor-eds and etiotto September 11, 2024 00:25

whitneywhtsang added 2 commits September 10, 2024 23:42

Merge branch 'llvm-target' into whitneywhtsang/simdblock

85f3601

Disallow 16xi16 for now

e49287c

Signed-off-by: Whitney Tsang <[email protected]>

whitneywhtsang marked this pull request as ready for review September 11, 2024 05:05

victor-eds approved these changes Sep 11, 2024

View reviewed changes

third_party/intel/lib/TritonGENToLLVM/TritonGENToLLVMPass.cpp Outdated Show resolved Hide resolved

third_party/intel/lib/TritonGENToLLVM/TritonGENToLLVMPass.cpp Outdated Show resolved Hide resolved

third_party/intel/lib/TritonGENToLLVM/TritonGENToLLVMPass.cpp Outdated Show resolved Hide resolved

vlad-penkin linked an issue Sep 11, 2024 that may be closed by this pull request

[TritonGEN] Use OCL builtins for subgroup block read/write #2202

Closed

Use constexpr

142feba

Signed-off-by: Whitney Tsang <[email protected]>

etiotto approved these changes Sep 11, 2024

View reviewed changes

whitneywhtsang enabled auto-merge (squash) September 11, 2024 15:54

victor-eds approved these changes Sep 11, 2024

View reviewed changes

third_party/intel/lib/TritonGENToLLVM/TritonGENToLLVMPass.cpp Show resolved Hide resolved

whitneywhtsang merged commit 5481995 into llvm-target Sep 11, 2024
4 checks passed

whitneywhtsang deleted the whitneywhtsang/simdblock branch September 11, 2024 16:21

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[TritonGEN] Use OCL builtins for subgroup block read/write #2178

[TritonGEN] Use OCL builtins for subgroup block read/write #2178

whitneywhtsang commented Sep 10, 2024 •

edited

Loading

victor-eds left a comment •

edited

Loading

whitneywhtsang commented Sep 10, 2024

quintinwang5 commented Sep 11, 2024

whitneywhtsang commented Sep 11, 2024

Dewei-Wang-sh commented Sep 11, 2024

victor-eds left a comment

whitneywhtsang commented Sep 11, 2024

[TritonGEN] Use OCL builtins for subgroup block read/write #2178

[TritonGEN] Use OCL builtins for subgroup block read/write #2178

Conversation

whitneywhtsang commented Sep 10, 2024 • edited Loading

victor-eds left a comment • edited Loading

Choose a reason for hiding this comment

whitneywhtsang commented Sep 10, 2024

quintinwang5 commented Sep 11, 2024

whitneywhtsang commented Sep 11, 2024

Dewei-Wang-sh commented Sep 11, 2024

victor-eds left a comment

Choose a reason for hiding this comment

whitneywhtsang commented Sep 11, 2024

whitneywhtsang commented Sep 10, 2024 •

edited

Loading

victor-eds left a comment •

edited

Loading