Releases · ggerganov/llama.cpp

11 Nov 18:28

54ef9cf

b4067

vulkan: Throttle the number of shader compiles during the build step.…

Assets 22

11 Nov 08:00

github-actions

b4066

b0cefea

b4066

metal : more precise Q*K in FA vec kernel (#10247)

Assets 22

11 Nov 07:56

github-actions

b4065

b141e5f

b4065

server : enable KV cache defrag by default (#10233)

ggml-ci

Assets 22

10 Nov 12:30

github-actions

b4062

160687b

b4062

vulkan: Fix newly added tests for permuted mul_mat and 1D im2col (#10…

Assets 22

09 Nov 12:51

github-actions

b4061

6423c65

b4061

metal : reorder write loop in mul mat kernel + style (#10231)

* metal : reorder write loop

* metal : int -> short, style

ggml-ci

Assets 22

09 Nov 12:51

github-actions

b4060

39a334a

b4060

metal : fix build and some more comments (#10229)

Assets 22

09 Nov 12:51

github-actions

b4059

bb38cdd

b4059

metal : fix F32 accumulation in FA vec kernel (#10232)

Assets 22

09 Nov 12:51

github-actions

b4058

f018acb

b4058

llama : fix Qwen model type strings

Assets 22

09 Nov 12:50

github-actions

b4057

46323fa

b4057

metal : hide debug messages from normal log

Assets 22

09 Nov 08:50

github-actions

b4056

5b359bb

b4056

ggml: fix zero division in ‘dne’ calculation in CUDA COUNT_EQUAL oper…

Assets 22

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Releases: ggerganov/llama.cpp

b4067

b4066

b4065

b4062

b4061

b4060

b4059

b4058

b4057

b4056