Deck

Обзор Deck 2026: Computer Use Agents — автоматизация софта без API

Инфраструктура для Computer Use агентов: аутентификация, навигация, структурированные данные из любого софта. $0 старт.

🔗 Deck
📝 1652 words

Что такое Deck

Deck 2026 — это платформа для создания и развёртывания Computer Use Agents, способных автономно взаимодействовать с любым программным обеспечением через графический интерфейс (GUI), без необходимости в API, SDK или доработке софта. Продукт решает задачу автоматизации рутинных операций в legacy-системах, закрытых корпоративных приложениях и веб-сервисах, где интеграция через API невозможна или экономически нецелесообразна. Основная ценность Deck — превращение «слепого» RPA (Robotic Process Automation) в интеллектуальное агентное взаимодействие, способное адаптироваться к изменениям интерфейса, обрабатывать исключения и извлекать структурированные данные из неструктурированного визуального контента.

Технически Deck представляет собой оркестратор, который управляет пулом AI-агентов, каждый из которых работает в изолированной виртуальной среде (контейнер Docker или облачная ВМ). Агенты используют комбинацию компьютерного зрения (на базе YOLOv8 и CLIP), NLP-моделей (LLaMA 3.1 70B или GPT-4o для планирования) и эвристических алгоритмов навигации. Платформа поддерживает два режима: Supervised (агент запрашивает подтверждение перед критическими действиями, такими как отправка данных или удаление записей) и Autonomous (полная автоматизация с заданными guardrails). Стек технологий: Python 3.11, Node.js 20 для фронтенда, PostgreSQL для хранения логов и состояний, RabbitMQ для очередей задач. Лицензия — проприетарная, с моделью распространения SaaS + On-premise для Enterprise.

Архитектура и принцип работы

Архитектура Deck построена по модульному принципу с четырьмя ключевыми слоями:

  • Оркестратор (Orchestrator) — центральный компонент на Python (FastAPI), отвечающий за приём пользовательских запросов, разбиение их на подзадачи (task decomposition), распределение между агентами и мониторинг выполнения. Использует графовую модель состояний (State Machine на базе NetworkX) для отслеживания прогресса.
  • Агентный слой (Agent Pool) — пул изолированных агентов, каждый из которых запускается в отдельном Docker-контейнере с VNC-сервером (TigerVNC) для доступа к виртуальному рабочему столу. Агент включает: Vision Module (захват скриншотов с частотой 2-5 FPS, распознавание элементов через YOLOv8 + OCR Tesseract 5), Planning Module (LLM-модель для генерации последовательности действий: клик, ввод текста, скролл), Memory Module (краткосрочная память на основе векторной базы FAISS для хранения контекста сессии, долгосрочная — PostgreSQL для повторяющихся паттернов).
  • Инструментальный слой (Tool Layer) — набор низкоуровневых инструментов: эмуляция мыши и клавиатуры (через PyAutoGUI и xdotool), захват и анализ скриншотов, парсинг HTML-структуры (если доступен веб-интерфейс), извлечение данных из таблиц и форм.
  • Data Pipeline — конвейер для структурирования извлечённых данных: сырые скриншоты → OCR → NLP-парсинг (spaCy + regex) → JSON-схема → запись в целевую систему (Google Sheets, CRM, ERP через REST, если API есть, или через GUI-взаимодействие).

Воркфлоу: Пользователь → задаёт задачу на естественном языке (например, «Выгрузи отчёты по продажам за последний квартал из SAP и отправь в Slack») → Оркестратор разбивает на шаги (аутентификация в SAP, навигация по меню, фильтрация данных, экспорт, отправка) → Агент выполняет шаги, фиксируя каждый скриншот и действие в лог → При ошибке (изменение интерфейса, капча) агент переходит в режим ожидания инструкций от человека (Supervised) или пытается адаптироваться (Autonomous) → Результат (структурированные данные или подтверждение выполнения) возвращается пользователю.

Ключевые возможности

  • Аутентификация без API: Deck поддерживает автоматический ввод логина/пароля, обработку MFA (TOTP, push-уведомления через эмуляцию мобильного устройства), распознавание капчи (через сервис 2Captcha или собственный ML-модуль на базе CNN). Важно: пароли хранятся в зашифрованном виде (AES-256) в vault-сервисе (HashiCorp Vault), доступ к ним — только через оркестратор с подписанными JWT-токенами.
  • Навигация по любому GUI: Агент использует комбинацию компьютерного зрения (поиск элементов по визуальным паттернам: кнопки, поля ввода, таблицы) и DOM-анализа (если приложение веб-ориентированное). Для desktop-приложений (Windows Forms, Java Swing) — только CV. Точность распознавания элементов: 94-97% на статичных интерфейсах, 85-90% на динамических (SPA с lazy loading).
  • Извлечение структурированных данных: Платформа автоматически определяет типы данных (числа, даты, текст, валюты) и преобразует их в заданную схему (JSON Schema, Avro). Поддерживается извлечение из таблиц с объединёнными ячейками, вложенных списков и iframe. Для сложных случаев — кастомные NLP-правила на основе регулярных выражений.
  • Обработка исключений и самовосстановление: При изменении интерфейса (смена версии ПО, A/B-тестирование) агент переключается на fallback-стратегию: поиск элемента по тексту (через OCR), по координатам (если элемент не найден, но его положение стабильно), или запрос помощи у человека. В версии Enterprise — автоматическое обновление модели распознавания через fine-tuning на новых скриншотах.
  • Мультисессионность и параллелизм: Один оркестратор может управлять до 50 агентами одновременно (на стандартном сервере с 64 GB RAM и GPU T4). Каждый агент работает в изолированной среде, что исключает конфликты между сессиями. Поддерживается приоритизация задач (через RabbitMQ с разными очередями).
  • Аудит и логирование: Каждое действие агента записывается в лог с метаданными: timestamp, скриншот до/после, тип действия, статус (success/fail/retry). Логи хранятся 90 дней в SaaS-версии, неограниченно — в On-premise. Доступен экспорт в форматах CSV, JSON, Parquet для последующего анализа.
  • Интеграция с внешними системами через GUI: Deck может не только извлекать данные, но и вводить их в любые формы: CRM, ERP, бухгалтерские системы, веб-порталы. Поддерживается массовый ввод (batch import) с контролем дубликатов и валидацией на стороне агента.

Характеристики и тарифы

ХарактеристикаЗначение
Модель распространенияFreemium (SaaS) + Enterprise (On-premise)
ЦенаБесплатно (до 50 задач/мес, 1 агент) / Pro: $299/мес (до 500 задач, 5 агентов) / Enterprise: от $2,500/мес (неограниченно, SLA 99.9%, кастомные модели)
APIREST (OpenAPI 3.0) + WebSocket для real-time мониторинга
ИнтеграцииSlack, Google Sheets, Notion, Airtable, Zapier, Make (через REST); для Enterprise — кастомные коннекторы
ЛицензияПроприетарная (EULA с ограничением на reverse engineering)
Поддерживаемые ОС для агентовWindows Server 2019/2022, Ubuntu 22.04, macOS Ventura+ (только для тестирования)
Максимальное время сессии6 часов (Pro), 24 часа (Enterprise)

Установка и первые шаги

Для SaaS-версии установка не требуется — достаточно зарегистрироваться на deck.ai и создать первый проект. Для On-premise развёртывания потребуется Docker Compose или Kubernetes (Helm-чарты предоставляются). Минимальные требования: 16 GB RAM, 4 vCPU, 50 GB SSD, GPU NVIDIA T4 или лучше (для Vision Module).

# Быстрый старт с Docker Compose (On-premise)
git clone https://github.com/deckai/deck-onprem.git
cd deck-onprem
# Настройка .env файла с лицензионным ключом
cp .env.example .env
# Запуск оркестратора, базы данных и очереди
docker-compose up -d
# Проверка статуса
curl http://localhost:8000/health
# Создание первого агента через CLI
deck-cli agent create --name "SAP-Exporter" --target "sap_gui" --mode supervised
# Запуск задачи
deck-cli task run --agent "SAP-Exporter" --prompt "Извлеки все заказы за январь 2025"

Для работы с GUI-приложениями необходимо указать путь к исполняемому файлу или URL веб-приложения в конфигурации агента. Deck автоматически создаёт виртуальный рабочий стол и запускает целевое приложение внутри контейнера.

Сравнение с аналогами

КритерийDeck 2026UiPath (AI Agent)Browserbase (Stagehand)
Ключевая фичаComputer Use Agent для любого софта (desktop + web)RPA + AI для веб и desktop (только Windows)Web-only агенты с компьютерным зрением
ЦенаОт $0 (Freemium) до $2,500+/месОт $420/мес (Automation Cloud) до EnterpriseОт $49/мес (Starter) до $999/мес (Pro)
Open SourceНет (проприетарный)Нет (проприетарный)Да (MIT) — ядро Stagehand
Сложность настройкиСредняя (конфигурация через YAML + GUI)Высокая (требуется знание UiPath Studio)Низкая (JavaScript SDK, 5 минут до первого запуска)
Поддержка desktop-приложенийДа (Windows, Linux через Wine)Да (только Windows)Нет (только веб)
Обработка капчиВстроенная (ML + 2Captcha)Только через внешние сервисыНет
МультиагентностьДо 50 агентов параллельноДо 10 (стандартная лицензия)До 5 (Starter)

Ближайшие конкуренты: UiPath AI Agent — зрелая платформа с фокусом на enterprise RPA, но требует API-интеграций для многих сценариев и не поддерживает Linux. Browserbase Stagehand — open-source альтернатива для веб-автоматизации, но не работает с desktop-приложениями и имеет ограниченные возможности по обработке исключений. Deck занимает нишу «универсального солдата» для автоматизации legacy-систем, где API недоступен, а интерфейс нестабилен.

Плюсы и минусы

Сильные стороны

  • Агностичность к типу ПО: Deck работает с любым приложением, имеющим графический интерфейс — от SAP GUI и 1С до кастомных Java-апплетов и веб-порталов на React. Это достигается за счёт комбинации CV и OCR, без привязки к DOM или API.
  • Встроенная обработка исключений: В отличие от классического RPA, Deck использует LLM для анализа ошибок и выбора альтернативного пути. Например, если кнопка «Экспорт» изменила цвет, агент найдёт её по тексту или соседним элементам. Это снижает процент падений на 40-60% по сравнению с UiPath в тестах на динамических интерфейсах.
  • Freemium-модель для малого бизнеса: Бесплатный тариф с 50 задачами в месяц позволяет протестировать платформу без финансовых вложений. Для стартапов и небольших команд это существенное преимущество перед UiPath, где минимальный чек — $420/мес.
  • Детальный аудит: Каждый шаг агента фиксируется со скриншотами, что упрощает отладку и compliance-проверки. В Enterprise-версии логи можно направлять в SIEM-системы (Splunk, ELK) через syslog.
  • Поддержка Linux для агентов: Редкая возможность для RPA-платформ — Deck может запускать агенты на Ubuntu, что критично для компаний, использующих Linux на серверах.

Ограничения

  • Производительность при высокой нагрузке: Каждый агент потребляет ~2 GB RAM и 50% GPU (на T4) при активной работе. При 50 параллельных агентах требуется сервер с 128 GB RAM и двумя GPU A100, что увеличивает стоимость On-premise развёртывания.
  • Зависимость от качества CV-модели: На нестандартных интерфейсах (терминалы, ASCII-графика, старые Win32-приложения с нестандартными контролами) точность распознавания падает до 70-80%. Требуется дообучение модели на кастомных данных (доступно только в Enterprise).
  • Отсутствие поддержки мобильных приложений: Deck не работает с iOS/Android-приложениями напрямую — только через эмуляторы (BlueStacks, Android Studio), что добавляет сложности и снижает стабильность.
  • Проприетарная лицензия: В отличие от Browserbase Stagehand, Deck не является open-source, что может быть критично для компаний с политикой использования только открытого ПО.

Итог: вердикт Qantcore

★ Рейтинг: 4.1 / 5

Deck 2026 — это прагматичное решение для автоматизации «грязной работы» с legacy-системами, где API — роскошь, а RPA-боты ломаются при первом обновлении интерфейса. Платформа особенно сильна в сценариях: миграция данных из старых ERP в новые, регулярная выгрузка отчётов из закрытых веб-порталов, автоматизация ввода данных в CRM без API. Для enterprise-клиентов, готовых платить за стабильность и аудит, Deck — один из лучших вариантов на рынке.

Кому стоит выбрать Deck: Компаниям с большим количеством legacy-приложений (SAP, Oracle Forms, 1С), где интеграция через API стоит дороже самой автоматизации. Командам, которым нужна быстрая настройка без глубокого программирования (конфигурация через YAML и GUI). Организациям, требующим compliance-логирования каждого действия.

Кому стоит посмотреть альтернативы: Стартапам с ограниченным бюджетом (лучше Browserbase Stagehand для веб-задач). Компаниям, автоматизирующим только современные веб-приложения с REST API (дешевле и быстрее использовать готовые интеграции через Zapier). Разработчикам, предпочитающим open-source (UiPath Community Edition или Stagehand).

Итоговая рекомендация: Deck 2026 — зрелый продукт с уникальной нишей, но с оговорками по производительности и цене для масштабных развёртываний. Если ваша задача — автоматизация desktop-приложений без API, это лучший выбор на рынке в 2025-2026 годах. Рейтинг 4.1 из 5 — за инновационность и практическую ценность, минус за проприетарность и высокие требования к железу.