Бенчмарки AI-агентов 2026: SWE-Bench, GAIA, WebArena

Бенчмарки AI-агентов 2026

SWE-Bench, GAIA, WebArena, SWE-bench Multilingual, Terminal-Bench — как измеряют качество AI-агентов и что эти цифры реально означают.

📊 Аналитика⏱ 18 мин

# 1. ЗАЧЕМ НУЖНЫ БЕНЧМАРКИ

AI-агенты — сложные системы. Они не просто генерируют текст, а принимают решения, вызывают инструменты, планируют на несколько шагов вперёд. Обычные бенчмарки (MMLU, HumanEval) для них не работают — нужны специализированные тесты, измеряющие именно агентность.

Бенчмарки AI-агентов проверяют три ключевых навыка: решение задач (может ли агент довести задачу до конца), использование инструментов (правильно ли выбирает и применяет), автономность (сколько шагов проходит без вмешательства человека).

# 2. SWE-BENCH — ГЛАВНЫЙ БЕНЧМАРК ДЛЯ CODING-АГЕНТОВ

SWE-bench (Software Engineering Benchmark) — это 2294 реальных GitHub issue из 12 популярных Python-репозиториев (Django, Flask, SymPy, matplotlib). Агент получает описание бага и должен найти и исправить его в кодовой базе. Результат проверяется прогоном существующих тестов.

🏆 SWE-Bench Verified (лидеры, июнь 2026):

Агент	Resolved %	Среднее время	Стоимость/issue
Claude Code (Sonnet 4)	72.8%	~3 мин	~$2.40
OpenAI Codex CLI (GPT-5)	64.1%	~2.5 мин	~$1.80
Devin AI	35.2%	~12 мин	~$4.50
SWE-Agent + GPT-5	58.3%	~8 мин	~$3.20
Gemini CLI (Gemini 2.5 Pro)	49.7%	~4 мин	~$0.40

Что реально означает результат: 72% — это не «решит 72 из 100 ваших багов». Это процент от специально отобранных issue, которые человек-эксперт может решить. На реальных проектах результат будет ниже из-за сложности кодовой базы.

# 3. GAIA — БЕНЧМАРК ДЛЯ АВТОНОМНЫХ АССИСТЕНТОВ

GAIA (General AI Assistant) — бенчмарк от Meta и HuggingFace. 466 вопросов, требующих многошагового рассуждения: поиск в интернете, работа с файлами, программирование. Средний человек решает 92% задач, GPT-4 без инструментов — только 15%.

# Пример задачи из GAIA:
"В каком году была опубликована статья, на которую ссылается
 третий пункт в разделе 'References' на странице Википедии
 о квантовых вычислениях, и кто её первый автор?"

# Чтобы решить, агент должен:
1. Открыть страницу Википедии о квантовых вычислениях
2. Найти раздел References
3. Определить третий пункт
4. Перейти по ссылке на статью
5. Найти год публикации и первого автора

Результаты GAIA 2026: лучшие агенты (на базе Claude, GPT-5) решают 65-70% задач уровня 1 (простые) и 40-45% уровня 3 (сложные). Человек: 92% и 75% соответственно.

# 4. WEBARENA — НАВИГАЦИЯ ПО САЙТАМ

WebArena тестирует способность агентов взаимодействовать с веб-интерфейсами: интернет-магазины, форумы, CMS, GitLab. Агент видит скриншот или DOM и должен кликать, вводить текст, перемещаться между страницами.

Агент	WebArena Score
GPT-5 + Browser	58.7%
Claude + Computer Use	52.3%
Manus AI	41.0%
Человек (baseline)	78.2%

# 5. ДРУГИЕ ВАЖНЫЕ БЕНЧМАРКИ

Бенчмарк	Что измеряет	Лидер
Terminal-Bench	Работа в терминале (команды, скрипты)	Claude Code: 68%
SWE-Multilingual	Код на 12 языках (не только Python)	Claude Code: 63%
AgentBench	8 сред: ОС, БД, веб, карты, API	GPT-5 + Tools: 4.2/5
OSWorld	Реальные задачи в Ubuntu VM	Claude Computer Use: 22%
τ-bench	Работа агентов поддержки (база знаний)	GPT-5: 81%

# 6. КАК ПРАВИЛЬНО ЧИТАТЬ БЕНЧМАРКИ

⚠️ 1. Утечка данных. Многие бенчмарки (SWE-Bench) имеют публичные тестовые наборы. Модели могли тренироваться на них. Результаты могут быть завышены.

⚠️ 2. Разные настройки. Один и тот же агент с разным temperature, разными промптами, разным числом попыток показывает разные результаты. Сравнивать напрямую сложно.

⚠️ 3. Не отражают реальность. SWE-Bench — это изолированные issue в известных репозиториях. Реальные проекты сложнее: легаси-код, нестандартные фреймворки, плохая документация.

✅ Что делать: смотрите на несколько бенчмарков одновременно, тестируйте агента на СВОИХ задачах, измеряйте бизнес-метрики (время до решения, satisfaction rate), а не только процент на бенчмарке.

# 7. ВЕРДИКТ

Бенчмарки AI-агентов за 2025-2026 год прошли огромный путь. От единичных тестов до стандартизированных наборов из тысяч задач. Claude Code лидирует по качеству кода, GPT-5 — по универсальности, Manus — по автономности. Но ни один агент пока не дотягивает до человека в сложных многошаговых задачах. Разрыв сокращается, но он всё ещё есть — особенно в задачах, требующих понимания контекста и здравого смысла.