🦜️🔗 GigaChain (GigaChat + LangChain)

Библиотека для разработки LangChain-style приложений на русском языке с поддержкой GigaChat
Создать issue · Документация GigaChain

🤔 Что такое GigaChain?

GigaChain это фреймворк для разработки приложений с использованием больших языковых моделей (LLM), таких, как GigaChat или YandexGPT. Он позволяет создавать приложения, которые:

Учитывают контекст — подключите свою модель к источникам данных.
Могут рассуждать — положитесь на модель в построении рассуждениях (о том, как ответить, опираясь на контекст, какие действия предпринять и т.д.).

Warning

Версия библиотеки LangChain адаптированная для русского языка с поддержкой нейросетевой модели GigaChat. Библиотека GigaChain обратно совместима с LangChain, что позволяет использовать ее не только для работы с GigaChat, но и при работе с другими LLM в различных комбинациях.

Фреймворк включает:

Библиотеку GigaChain. Библиотека на Python содержит интерфейсы и интеграции для множества компонентов, базовую среду выполнения для объединения этих компонентов в цепочки и агенты, а также готовые реализации цепочек и агентов.
Хаб промптов. Набор типовых отлаженных промптов для решения различных задач.
GigaChain Templates. Коллекция легко развертываемых шаблонных решений для широкого спектра задач.
GigaServe. Библиотека, позволяющая публиковать цепочки GigaChain в форме REST API.
GigaGraph. Библиотека, дающая возможность работать с LLM (большими языковыми моделями), для создания приложений, которые используют множество взаимодействующих цепочек (акторов) и сохраняют данные о состоянии. Так как в основе GigaGraph лежит GigaChain, предполагается совместное использование обеих библиотек.

Кроме этого, фреймворк совместим со сторонним сервисом LangSmith — платформой для разработчиков, которая позволяет отлаживать, тестировать, оценивать и отслеживать цепочки, построенные на любой платформе LLM, и легко интегрируется с LangChain и GigaChain.

Репозиторий содержит следующие компоненты:

Warning

GigaChain находится в состоянии альфа-версии: мы заняты переводом библиотеки и ее адаптацией для работы с GigaChat. Будьте осторожны при использовании GigaChain в своих проектах, так как далеко не все компоненты оригинальной библиотеки проверены на совместимость с GigaChat.

Будем рады вашим PR и issues.

Библиотека упростит интеграцию вашего приложения с нейросетевой моделью GigaChat и поможет в следующих задачах:

Работа с промптами и LLM.

Включая управление промптами и их оптимизацию. GigaChain предоставляет универсальный интерфейс для всех LLM, а также стандартные инструменты для работы с ними.

Пример — Работа с хабом промптов на примере задачи суммаризации книг
Создание цепочек (Chains).

Цепочки представляют собой последовательность вызовов к LLM и/или другим инструментам. GigaChain предоставляет стандартный интерфейс для создания цепочек, различные интеграции с другими инструментами и готовые цепочки для популярных приложений.
Дополнение данных (Data Augmented Generation).

Генерация с дополнением данными включает в себя специфические типы цепочек, которые сначала получают данные от внешнего источника, а затем используют их в генерации. Примеры включают в себя суммирование больших текстов и ответы на вопросы по заданным источникам данных.

Пример — Ответы на вопросы по документу на примере "разговор с книгой" (RAG)

Пример — Ответы на вопросы по статьям из Wikipedia
Работа с агентами (Agents).

Агент представляет собой программу, которая принимает решение о дальнейшем действии, отслеживает его результат, и, с учетом результата, принимает следующее решение. Процесс повторяется до завершения. GigaChain предоставляет стандартный интерфейс для работы с агентами, выбор агентов и примеры готовых агентов.

Пример — Создание ассистента с тремя функциями
Создание памяти.

Память сохраняет состояние между вызовами цепочки или агента. GigaChain предоставляет стандартный интерфейс для создания памяти, коллекцию реализаций памяти и примеры цепочек и агентов, которые используют память.
Самооценка (Evaluation).

BETA Генеративные модели традиционно сложно оценивать с помощью стандартных метрик. Один из новых способов оценки — использование самих языковых моделей. GigaChain предоставляет некоторые запросы и цепочки для решения таких задач

Установка

Библиотеку можно установить с помощью pip:

pip install gigachain-community

Миграция с LangChain

Самый надежный способ избежать проблем при миграции с LangChain — использовать новое виртуальное окружение Python (Python virtual environment), в котором никогда не устанавливались пакеты LangChain.

Чтобы создать новое виртуальное окружение venv, используйте команды:

# Создает чистое виртуальное окружение Python
python -m venv .venv
# Активирует созданное окружение
source .venv/bin/activate
# Устанавливает gigachain
pip install gigachain-community

Работа с GigaChain

Основной особенностью библиотеки является наличие модуля gigachat, который позволяет отправлять запросы к нейросетевой модели GigaChat.

Авторизация запросов к GigaChat

Для авторизации запросов к GigaChat вам понадобится получить авторизационные данные для работы с GigaChat API.

Note

О том как получить авторизационные данные для доступа к GigaChat читайте в официальной документации.

Для работы с сервисом GigaChat передайте полученные авторизационные данные в параметре credentials объекта GigaChat.

chat = GigaChat(credentials=<авторизационные_данные>)

Для обращения к GigaChat в вашем приложении или в вашей ОС должны быть установлены сертификаты НУЦ Минцифры. О том как настроить сертификаты НУЦ Минцифры для обращения к GigaChat читайте в официальной документации.

Вы можете установить сертификаты с помощью утилиты gigachain-cli. Для этого:

Установите утилиту с помощью менеджера пакетов pip:

pip install gigachain-cli

Установите сертификаты с помощью команды:

gigachain install-rus-certs

Если вы не используете сертификат НУЦ Минцифры, то при создании объекта GigaChat вам нужно передать параметр verify_ssl_certs=False.

chat = GigaChat(credentials=<авторизационные_данные>, verify_ssl_certs=False)

Note

Для передачи аторизационных данных и других параметров GigaChat вы также можете настроить переменные окружения, например, GIGACHAT_CREDENTIALS, GIGACHAT_GIGACHAT_ и другие.

Использование модуля gigachat

Вот простой пример работы с чатом с помощью модуля:

"""Пример работы с чатом через gigachain"""
from langchain.schema import HumanMessage, SystemMessage
from langchain_community.chat_models.gigachat import GigaChat

# Авторизация в сервисе GigaChat
chat = GigaChat(credentials=<авторизационные_данные>, verify_ssl_certs=False)

messages = [
    SystemMessage(
        content="Ты эмпатичный бот-психолог, который помогает пользователю решить его проблемы."
    )
]

while(True):
    user_input = input("User: ")
    messages.append(HumanMessage(content=user_input))
    res = chat.invoke(messages)
    messages.append(res)
    print("Bot: ", res.content)

Развернутую версию примера смотрите в блокноте Работа с GigaChat. Этот блокнот также содержит пример работы с потоковой передачей токенов.

Больше примеров в коллекции.

Выбор модели

С помощью GigaChain вы можете обращаться к различным моделям, которые предоставляет GigaChat

Для этого передайте название модели в параметре model:

chat = GigaChat(model="GigaChat-Pro", credentials=<авторизационные_данные>, verify_ssl_certs=False)

Полный список доступных моделей можно получить с помощью метода get_models().

chat = GigaChat(credentials=<авторизационные_данные>, verify_ssl_certs=False)
chat.get_models()

Метод выполняет запрос GET /models к GigaChat API и возвращает список с описанием доступных моделей.

Warning

Стоимость запросов к разным моделям отличается. Подробную информацию о тарификации запросов к той или иной модели вы ищите в официальной документации.

Подсчет количества токенов

Для подсчета количества токенов в запросе используйте метод get_num_tokens(str):

chat = GigaChat(credentials=<авторизационные_данные>, verify_ssl_certs=False)
chat.get_num_tokens("Сколько токенов в этой строке")

Метод выполняет запрос POST /tokens/count к GigaChat API и возвращает информацию о количестве токенов в строке.

Описание модуля gigachat

Модуль gigachat позволяет авторизовать запросы от вашего приложения в GigaChat с помощью GigaChat API. Модуль поддерживает работу как в синхронном, так и в асинхронном режиме. Кроме этого модуль поддерживает обработку потоковой передачи токенов¹.

Note

Как подключить GigaChat API читайте в официальной документации.

Модуль поддерживает не только GigaChat. Поэтому, если ваше приложение уже использует другие нейросетевые модели, интеграция с GigaChat не составит труда.

Работа с эмбеддингами

Эмбеддинг — это векторное представление слова, которое можно использовать для определения смысловой близости разных текстов. Векторное представление создается с помощью модели Embeddings.

Note

Работа с моделью Embeddings оплачивается отдельно. Подробнее — в разделе Тарифы и оплата.

Для создания эмбеддингов с помощью GigaChain используйте модуль GigaChatEmbeddings:

from langchain_community.embeddings.gigachat import GigaChatEmbeddings

embeddings = GigaChatEmbeddings(
    credentials="<авторизационные_данные>", verify_ssl_certs=False
)

Для работы с GigaChatEmbeddings используются те же авторизационные данные, что и при работе с модулем GigaChat.

Подробнее о работе с эмбеддингами и использовании их при реализации RAG-методики — в соответствующем обучающем материале.

Устранение проблем

Если у вас возникли проблемы при работе с GigaChain убедитесь, что:

у вас установлена последняя версия библиотеки;
вместо модулей GigaChain не установлены модули LangChain.

Одновременное использование библиотек LangChain и GigaChain вызывает конфликты, которые могут проявиться даже после полного удаления одной из библиотек. Для предотвращения конфликтов рекомендуется создать чистое виртуальное окружение Python и установить только пакеты, которые входят в состав GigaChain. Подробнее — в разделе Миграция с LangChain.

Для вывода полного списка установленных модулей используйте команду:

pip list

В выводе команды не должно быть модулей, которые содержат в названии слово langchain.

Note

Исключение составляют модули langchain_hub и langsmith. Они не требуют удаления и переустановки.

Работа с большими текстами

Обработка больших текстов может занимать у модели продолжительное время — 10 минут и более. Это может привести к возникновению проблем, связанных с превышением времени ожидания.

Чтобы избежать таких проблем, используйте потоковую передачу токенов (параметр streaming=True):

chat = GigaChat(credentials='<авторизационные_данные>', verify_ssl_certs=False, streaming=True)

Коллекция примеров

Ниже представлен список примеров использования GigaChain.sdf

Базовые примеры работы с GigaChat

Развлекательные примеры

Участие в проекте

GigaChain — это проект с открытым исходным кодом в быстроразвивающейся области. Мы приветствуем любое участие в разработке, развитии инфраструктуры или улучшении документации. [BETA] Генеративные модели, как известно, трудно оценить с помощью традиционных показателей. Одним из новых способов их оценки является использование для оценки самих языковых моделей. LangChain предоставляет несколько подсказок/цепочек для помощи в этом.

Подробнее о том, как внести свой вклад.

📖 Дополнительная документация

Note

Полная документация GigaChain находится в процессе перевода. Вы можете также пользоваться документацией LangChain, поскольку GigaChain совместим с LangChain:

Introduction: Overview of the framework and the structure of the docs.
Tutorials: If you're looking to build something specific or are more of a hands-on learner, check out our tutorials. This is the best place to get started.
How-to guides: Answers to “How do I….?” type questions. These guides are goal-oriented and concrete; they're meant to help you complete a specific task.
Conceptual guide: Conceptual explanations of the key parts of the framework.
API Reference: Thorough documentation of every class and method.

Лицензия

Проект распространяется по лицензии MIT, доступной в файле LICENSE.

В настоящий момент эта функциональность доступна в бета-режиме. ↩

Name		Name	Last commit message	Last commit date
Latest commit History 11,764 Commits
.devcontainer		.devcontainer
.github		.github
.vscode		.vscode
cookbook		cookbook
cookbook_ru/yandex_search		cookbook_ru/yandex_search
docker		docker
docs		docs
hub		hub
libs		libs
scripts		scripts
templates		templates
.gitattributes		.gitattributes
.gitignore		.gitignore
.readthedocs.yaml		.readthedocs.yaml
CITATION.cff		CITATION.cff
LICENSE		LICENSE
MIGRATE.md		MIGRATE.md
Makefile		Makefile
README.md		README.md
SECURITY.md		SECURITY.md
lock_changed.sh		lock_changed.sh
package-lock.json		package-lock.json
poetry.lock		poetry.lock
poetry.toml		poetry.toml
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🦜️🔗 GigaChain (GigaChat + LangChain)

🤔 Что такое GigaChain?

Установка

Миграция с LangChain

Работа с GigaChain

Авторизация запросов к GigaChat

Использование модуля gigachat

Выбор модели

Подсчет количества токенов

Описание модуля gigachat

Работа с эмбеддингами

Устранение проблем

Работа с большими текстами

Коллекция примеров

Базовые примеры работы с GigaChat

Развлекательные примеры

Примеры работы с другими LLM

Примеры приложений для Streamlit

Примеры сторонних приложений, использующих GigaChain

Участие в проекте

📖 Дополнительная документация

Лицензия

About

Releases

Packages

Languages

License

kzayko/gigachain

Folders and files

Latest commit

History

Repository files navigation

🦜️🔗 GigaChain (GigaChat + LangChain)

🤔 Что такое GigaChain?

Установка

Миграция с LangChain

Работа с GigaChain

Авторизация запросов к GigaChat

Использование модуля gigachat

Выбор модели

Подсчет количества токенов

Описание модуля gigachat

Работа с эмбеддингами

Устранение проблем

Работа с большими текстами

Коллекция примеров

Базовые примеры работы с GigaChat

Развлекательные примеры

Примеры работы с другими LLM

Примеры приложений для Streamlit

Примеры сторонних приложений, использующих GigaChain

Участие в проекте

📖 Дополнительная документация

Лицензия

Footnotes

About

Resources

License

Code of conduct

Security policy

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages