AI-агенты — сложные системы. Они не просто генерируют текст, а принимают решения, вызывают инструменты, планируют на несколько шагов вперёд. Обычные бенчмарки (MMLU, HumanEval) для них не работают — нужны специализированные тесты, измеряющие именно агентность.
Бенчмарки AI-агентов проверяют три ключевых навыка: решение задач (может ли агент довести задачу до конца), использование инструментов (правильно ли выбирает и применяет), автономность (сколько шагов проходит без вмешательства человека).
SWE-bench (Software Engineering Benchmark) — это 2294 реальных GitHub issue из 12 популярных Python-репозиториев (Django, Flask, SymPy, matplotlib). Агент получает описание бага и должен найти и исправить его в кодовой базе. Результат проверяется прогоном существующих тестов.
| Агент | Resolved % | Среднее время | Стоимость/issue |
|---|---|---|---|
| Claude Code (Sonnet 4) | 72.8% | ~3 мин | ~$2.40 |
| OpenAI Codex CLI (GPT-5) | 64.1% | ~2.5 мин | ~$1.80 |
| Devin AI | 35.2% | ~12 мин | ~$4.50 |
| SWE-Agent + GPT-5 | 58.3% | ~8 мин | ~$3.20 |
| Gemini CLI (Gemini 2.5 Pro) | 49.7% | ~4 мин | ~$0.40 |
Что реально означает результат: 72% — это не «решит 72 из 100 ваших багов». Это процент от специально отобранных issue, которые человек-эксперт может решить. На реальных проектах результат будет ниже из-за сложности кодовой базы.
GAIA (General AI Assistant) — бенчмарк от Meta и HuggingFace. 466 вопросов, требующих многошагового рассуждения: поиск в интернете, работа с файлами, программирование. Средний человек решает 92% задач, GPT-4 без инструментов — только 15%.
# Пример задачи из GAIA: "В каком году была опубликована статья, на которую ссылается третий пункт в разделе 'References' на странице Википедии о квантовых вычислениях, и кто её первый автор?" # Чтобы решить, агент должен: 1. Открыть страницу Википедии о квантовых вычислениях 2. Найти раздел References 3. Определить третий пункт 4. Перейти по ссылке на статью 5. Найти год публикации и первого автора
Результаты GAIA 2026: лучшие агенты (на базе Claude, GPT-5) решают 65-70% задач уровня 1 (простые) и 40-45% уровня 3 (сложные). Человек: 92% и 75% соответственно.
WebArena тестирует способность агентов взаимодействовать с веб-интерфейсами: интернет-магазины, форумы, CMS, GitLab. Агент видит скриншот или DOM и должен кликать, вводить текст, перемещаться между страницами.
| Агент | WebArena Score |
|---|---|
| GPT-5 + Browser | 58.7% |
| Claude + Computer Use | 52.3% |
| Manus AI | 41.0% |
| Человек (baseline) | 78.2% |
| Бенчмарк | Что измеряет | Лидер |
|---|---|---|
| Terminal-Bench | Работа в терминале (команды, скрипты) | Claude Code: 68% |
| SWE-Multilingual | Код на 12 языках (не только Python) | Claude Code: 63% |
| AgentBench | 8 сред: ОС, БД, веб, карты, API | GPT-5 + Tools: 4.2/5 |
| OSWorld | Реальные задачи в Ubuntu VM | Claude Computer Use: 22% |
| τ-bench | Работа агентов поддержки (база знаний) | GPT-5: 81% |
⚠️ 1. Утечка данных. Многие бенчмарки (SWE-Bench) имеют публичные тестовые наборы. Модели могли тренироваться на них. Результаты могут быть завышены.
⚠️ 2. Разные настройки. Один и тот же агент с разным temperature, разными промптами, разным числом попыток показывает разные результаты. Сравнивать напрямую сложно.
⚠️ 3. Не отражают реальность. SWE-Bench — это изолированные issue в известных репозиториях. Реальные проекты сложнее: легаси-код, нестандартные фреймворки, плохая документация.
✅ Что делать: смотрите на несколько бенчмарков одновременно, тестируйте агента на СВОИХ задачах, измеряйте бизнес-метрики (время до решения, satisfaction rate), а не только процент на бенчмарке.
Бенчмарки AI-агентов за 2025-2026 год прошли огромный путь. От единичных тестов до стандартизированных наборов из тысяч задач. Claude Code лидирует по качеству кода, GPT-5 — по универсальности, Manus — по автономности. Но ни один агент пока не дотягивает до человека в сложных многошаговых задачах. Разрыв сокращается, но он всё ещё есть — особенно в задачах, требующих понимания контекста и здравого смысла.