Локальный запуск Llama 4, DeepSeek, Qwen и других моделей. Без облака, без API-ключей, полный контроль над данными.
# Установка Ollama на Linux curl -fsSL https://ollama.com/install.sh | sh # Запуск и включение сервиса sudo systemctl enable ollama sudo systemctl start ollama # Проверка статуса sudo systemctl status ollama # Установка на macOS brew install ollama # Установка на Windows (WSL2 рекомендуется) wsl --install # Затем выполните Linux-инструкцию внутри WSL
# Загрузка популярных моделей ollama pull llama3.1 # Meta Llama 3.1 8B — универсальная ollama pull deepseek-r1:8b # DeepSeek R1 8B — reasoning ollama pull qwen2.5-coder:7b # Qwen 2.5 Coder 7B — для кода ollama pull nomic-embed-text # Эмбеддинги для RAG # Просмотр установленных моделей ollama list # Удаление модели ollama rm llama3.1
# Интерактивный режим ollama run llama3.1 # Одноразовый запрос (неинтерактивный) ollama run llama3.1 "Привет, напиши функцию на Python для сортировки" # Внутри сессии: # >>> Напиши код для парсинга JSON # >>> /bye — выход из сессии # >>> /help — список команд # >>> /show info — информация о модели
# Ollama поднимает API на localhost:11434 # Проверка доступности: curl http://localhost:11434/api/tags # Отправка запроса через curl (chat completions) curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "llama3.1", "messages": [ {"role": "user", "content": "Привет!"} ] }' # Streaming ответ: curl -N http://localhost:11434/api/generate \ -d '{"model":"llama3.1","prompt":"Расскажи про Python"}'
# Установка OpenAI Python пакета pip install openai from openai import OpenAI client = OpenAI( base_url="http://localhost:11434/v1", api_key="ollama" # ключ обязателен, но значение любое ) response = client.chat.completions.create( model="llama3.1", messages=[ {"role": "system", "content": "Ты — полезный ассистент"}, {"role": "user", "content": "Напиши hello world на Python"} ], temperature=0.7, max_tokens=500 ) print(response.choices[0].message.content)
# Создание кастомного Modelfile cat <<EOF > Modelfile FROM llama3.1 PARAMETER temperature 0.5 PARAMETER num_ctx 8192 SYSTEM """Ты — эксперт по Python и DevOps. Отвечай на русском языке.""" EOF # Сборка кастомной модели ollama create my-custom-model -f Modelfile # Проверка использования GPU nvidia-smi # Настройка через переменные окружения export OLLAMA_HOST="0.0.0.0:11434" # слушать на всех интерфейсах export OLLAMA_NUM_PARALLEL=4 # параллельные запросы export OLLAMA_KEEP_ALIVE="24h" # держать модель в памяти