docker-compose-gpu-embeddings.yml

version: '3'

services:

  splade-doc:
    image: ghcr.io/huggingface/text-embeddings-inference:turing-1.2
    command: --model-id naver/efficient-splade-VI-BT-large-doc --revision main --pooling splade
    ports:
      - "4000:80"
    volumes:
      - ./data:/data
    runtime: nvidia

  splade-query:
    image: ghcr.io/huggingface/text-embeddings-inference:turing-1.2
    command: --model-id naver/efficient-splade-VI-BT-large-query --revision main --pooling splade
    ports:
      - "5000:80"
    volumes:
      - ./data:/data
    runtime: nvidia

  jina:
    image: ghcr.io/huggingface/text-embeddings-inference:turing-1.2
    command: --model-id jinaai/jina-embeddings-v2-base-en --revision main
    ports:
      - "6000:80"
    volumes:
      - ./data:/data
    runtime: nvidia

  bgem3:
    image: ghcr.io/huggingface/text-embeddings-inference:turing-1.2
    command: --model-id BAAI/bge-m3 --revision main
    ports:
      - "7000:80"
    volumes:
      - ./data:/data
    runtime: nvidia

  reranker:
    image: ghcr.io/huggingface/text-embeddings-inference:turing-1.2
    command: --model-id BAAI/bge-reranker-large --revision refs/pr/4
    ports:
      - "8000:80"
    volumes:
      - ./data:/data
    runtime: nvidia