Telegram-канал blockchainrf - Все о блокчейн/мозге/space/WEB 3.0 в России и мире: Криптовалюты

Все о блокчейн/мозге/space/WEB 3.0 в России и мире

31 октября 2024 12:36

Anthropic представил обновленного ИИ-агента на базе модели Claude 3.5 Sonnet

Система достигла результата в 49% на сложном бенчмарке SWE-bench Verified, превзойдя предыдущий рекорд в 45%. Но что особенно интересно – это не просто тест модели, а оценка целой системы искусственного интеллекта.

"Агент" в контексте ИИ – это нечто большее, чем просто языковая модель. Это комплексная система, состоящая из двух ключевых компонентов:
- Сама модель ИИ (в данном случае Claude 3.5 Sonnet)
- Программная обвязка, которая позволяет модели взаимодействовать с окружением.

Представьте это как разницу между мозгом (модель) и всем телом с органами чувств и способностью действовать (агент). Именно такой подход позволяет ИИ не просто генерировать текст, а реально решать практические задачи.

Как устроен агент Claude?

Команда Anthropic дала агенту два основных "органа чувств и действия":

1. Bash Tool – это своего рода "руки" агента, позволяющие ему выполнять команды в системе
2. Edit Tool – "глаза и пальцы" агента для работы с кодом: просмотр и редактирование файлов.

Обновленный агент на базе Claude 3.5 Sonnet демонстрирует ряд уникальных способностей:

- Самостоятельное планирование действий
- Способность к самокоррекции
- Умение находить альтернативные решения при неудачах
- Возможность длительной работы над задачей с сохранением контекста
- Адаптация стратегии на основе результатов предыдущих действий

Несмотря на впечатляющие результаты, остаются определенные сложности:

1. Ресурсоемкость – некоторые задачи требуют сотен итераций взаимодействия между компонентами агента

2. Технические сложности – проблемы с настройкой окружения могут влиять на работу всей системы

3. Ограничения восприятия – текущая реализация агента не может работать с визуальными файлами, несмотря на такие способности базовой модели

4. "Слепое" тестирование– агент не видит тесты, на которых проверяется решение

Anthropic уже анонсировала новую версию бенчмарка, фокусирующуюся на мультимодальных задачах. Это указывает на следующий этап эволюции ИИ-агентов – расширение их способностей восприятия и взаимодействия с различными типами данных.

Уже сейчас очевидно, что будущее ИИ за комплексными агентными системами, а не отдельными моделями.