简介

PaddleMIX是基于飞桨的跨模态大模型开发套件，聚合图像、文本、视频等多种模态，覆盖视觉语言预训练，文生图，文生视频等丰富的跨模态任务。提供开箱即用的开发体验，同时满足开发者灵活定制需求，探索通用人工智能。

主要特性

丰富的多模态功能: 覆盖图文预训练，文生图，跨模态视觉任务，实现图像编辑、图像描述、数据标注等多样功能
简洁的开发体验: 模型统一开发接口，高效实现自定义模型开发和功能实现
高效的训推流程: 全量模型打通训练推理一站式开发流程，BLIP-2，Stable Diffusion等重点模型训推性能业界领先
超大规模训练支持: 可训练千亿规模图文预训练模型，百亿规模文生图底座模型

任务展示

视频Demo展示（video Demo）

PaddleMix.mp4

安装

环境依赖

pip install -r requirements.txt

关于PaddlePaddle安装的详细教程请查看Installation。

注：ppdiffusers部分模型需要依赖 CUDA 11.2 及以上版本，如果本地机器不符合要求，建议前往 AI Studio 进行模型训练、推理任务。

如果希望使用bf16训练推理，请使用支持bf16的GPU，如A100。

手动安装

git clone https://github.com/PaddlePaddle/PaddleMIX
cd PaddleMIX
pip install -e .

#ppdiffusers 安装
cd ppdiffusers
pip install -e .

教程

快速开始
训练微调
推理部署

特色应用

艺术风格二维码模型

体验专区: https://aistudio.baidu.com/community/app/1339

Mix叠图

体验专区: https://aistudio.baidu.com/community/app/1340

模型库

多模态预训练

扩散类模型

图文预训练

EVA-CLIP
CoCa
CLIP
BLIP-2
miniGPT-4
VIsualGLM
qwen_vl
llava

开放世界视觉模型

Grounding DINO
SAM

更多模态预训练模型

ImageBind

文生图

Stable Diffusion
ControlNet
LDM
Unidiffuser

文生视频

LVDM

音频生成

AudioLDM

更多模型能力，可参考模型能力矩阵

许可证书

本项目的发布受Apache 2.0 license许可认证。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

简介

最新进展

主要特性

任务展示

安装

教程

特色应用

模型库

许可证书

Files

README.md

Latest commit

History

README.md

File metadata and controls

简介

最新进展

主要特性

任务展示

安装

教程

特色应用

模型库

许可证书