코드는 AutoGPTQ, vLLM 에서 가져왔습니다.
- new triton 코드 https://github.com/foundation-model-stack/foundation-model-stack/blob/triton/triton/kernels/gptq/small_benchmark_cuda_graphs.py
- triton 코드 https://github.com/AutoGPTQ/AutoGPTQ/blob/main/auto_gptq/nn_modules/triton_utils/dequant.py
- marlin 코드 https://github.com/AutoGPTQ/AutoGPTQ/blob/main/autogptq_extension/marlin/marlin_cuda_kernel.cu
- new_marlin 코드 vllm-project/vllm#6612