48228
Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
⚡️ Андрей Карпаты выложил минимальный репозиторий Autoresearch - систему, где AI сам проводит исследования.
Это упрощённая версия ядра обучения LLM из nanoGPT/nanochat:
весь код обучения помещается в один файл (~630 строк) и работает на одной GPU.
Как это устроено:
- человек редактирует prompt (.md)
- AI-агент автоматически меняет training code (.py)
Дальше начинается цикл автономных экспериментов.
Каждая точка на графике — полный запуск обучения LLM (~5 минут).
AI-агент работает в бесконечном цикле:
- создаёт git-ветку
- меняет архитектуру модели
- подбирает optimizer
- оптимизирует гиперпараметры
- запускает обучение
- коммитит улучшения
Если validation loss становится ниже, изменение сохраняется.
Фактически агент сам оптимизирует собственный код обучения и постепенно улучшает модель.
Можно запускать несколько агентов с разными промптами и сравнивать, кто быстрее двигает исследование.
Карпаты шутит, что раньше AI-исследования делали люди между:
- едой
- сном
- митингами
Теперь же исследования могут выполнять рои автономных AI-агентов, которые бесконечно гоняют эксперименты на кластерах.
GitHub: github.com/karpathy/autoresearch
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
📊 Раскройте данные с DataClaw! 🚀
DataClaw — это инструмент для структурирования истории взаимодействия с AI, позволяющий экспортировать данные в Hugging Face. Он очищает ваши сессии от конфиденциальной информации и создает готовый к публикации набор данных.
🚀Основные моменты:
- Преобразует историю взаимодействия с AI в структурированные данные
- Автоматически редактирует конфиденциальную информацию
- Публикует данные на Hugging Face с одним командным вызовом
- Создает распределенный набор данных для совместной работы человека и AI
📌 GitHub: https://github.com/peteromallet/dataclaw
#python
⚡️ Anthropic опубликовала исследование о влиянии ИИ на рынок труда.
Главный вывод - между тем, что ИИ умеет делать сегодня, и тем, что он теоретически сможет делать в будущем, существует огромный разрыв.
И именно этот разрыв уже начинает создавать проблему для людей, которые только начинают карьеру в индустрии.
Навыки, которые раньше считались входным билетом в профессию, постепенно автоматизируются. В результате стартовые позиции могут сокращаться, а требования к новичкам будут расти.
Это означает, что будущим специалистам придется быстрее осваивать более сложные задачи и учиться работать вместе с ИИ, а не конкурировать с ним.
Синий - где ИИ теоретически может выполнять большую часть задач
Красный - где ИИ реально используется сейчас
⚠️ GPT-5.4 впервые получил статус “высокого уровня киберугрозы” среди универсальных AI-моделей.
GPT-5.4 - официально признана high cybersecurity risk.
Это означает, что модель уже способна самостоятельно планировать и выполнять сложные кибератаки на симулированные корпоративные сети.
Основание для такой оценки - тесты Capture the Flag (CTF).
В индустрии кибербезопасности CTF - это соревнования по взлому систем.
Участники должны проникнуть в симулированную сеть, найти уязвимости, взломать сервисы и добыть скрытые данные - так называемые *flags*.
Для этого требуется:
- взламывать шифрование
- делать reverse engineering программ
- находить уязвимости в веб-приложениях
- строить сложные цепочки атак
По результатам официальных тестов GPT-5.4 набрал 88% в профессиональных CTF-сценариях.
Это очень высокий показатель.
Фактически это означает, что модель уже умеет:
- находить уязвимости в системах
- писать эксплойты
- строить стратегии взлома
Если AI способен проходить профессиональные hacking-челленджи, значит он обладает теми же навыками, которые используют реальные хакеры для взлома корпоративных инфраструктур.
Главная проблема - масштабирование атак.
Если раньше хакеру нужно было вручную искать слабые места, то теперь AI может автоматически анализировать систему и находить уязвимости.
Это резко ускоряет и удешевляет кибератаки.
Именно поэтому GPT-5.4 стал первой универсальной AI-моделью, официально получившей высокий уровень киберриска в системной карте безопасности.
deploymentsafety.openai.com/gpt-5-4-thinking/gpt-5-4-thinking.pdf
Anthropic сейчас приближается к $20 млрд годовой выручки (run rate) - ещё несколько недель назад этот показатель вырос сразу на $5 млрд.
Компания уже выходит на $20 млрд годового дохода, более чем удвоив показатель с $9 млрд в конце 2025 года. Рост обеспечен массовым распространением её AI-моделей и инструментов вроде Claude Code.
Anthropic, оценка которой сейчас составляет около $380 млрд, стремительно набирает популярность: интерес к продуктам компании стал вирусным, а её приложения даже возглавляют чарты загрузок в App Store, обгоняя многие крупные приложения Apple.
https://www.bloomberg.com/news/articles/2026-03-03/anthropic-nears-20-billion-revenue-run-rate-amid-pentagon-feud
BullshitBench v2, созданный Питером Гостевым, - это бенчмарк, который проверяет, способны ли модели ИИ распознавать бессмысленные запросы и отказываться на них отвечать, вместо того чтобы уверенно продолжать и «придумывать» ответ.
Только модели Claude от Anthropic и Qwen 3.5 от Alibaba показывают результат выше 60% по распознаванию бессмыслицы.
А модели OpenAI и Google? Застряли на месте и почти не улучшаются.
Еще более неожиданно: модели с усиленным рассуждением (reasoning), которые «думают дольше», на самом деле показывают худшие результаты. Они используют дополнительное вычисление не для того, чтобы отвергнуть бессмысленный запрос, а чтобы рационализировать и оправдать этот абсурд.
🎯Полезные Мл-ресурсы 🚀 Max
https://x.com/petergostev/status/2028492838082666780
Бесплатный мастер-класс по практическому ML от karpov.courses × AI Talent Hub
5 марта в 19:00 мск, онлайн
Разберем реальный кейс и соберем бота для расшифровки аудиосообщений.
Всего за час ты:
→ соберешь бота для расшифровки аудиосообщений и увидишь, как из такой задачи вырастает ML-проект
→ решишь задачу классификации и проверки аудиосообщения на спам на основе текста
→ поймешь, в каких случаях в подобных проектах требуется обучение модели
→ разберешься, какие ML-навыки нужны для реализации таких проектов
⚡️ ChatGPT-5.4 - что уже «утекло»
- 2M токенов контекста + persistent memory
Это уже не просто «длинная история чата», а полноценная работа с огромными кодовыми базами, документами и агентными пайплайнами без постоянного перепромптинга.
- Полноразмерная обработка изображений
Модель якобы умеет работать с PNG, JPEG и WebP без понижения качества.
Это критично для:
- архитектурных чертежей
- плотных UI-скриншотов
- схем и графиков с мелким текстом
- сложной технической документации
Сохранение исходных байтов изображения = меньше потерь информации при анализе.
- Новый speed-priority tier
Отдельный класс скорости. Вероятно - для продакшена, агентов и real-time задач.
Интересный момент - GPT-5.4 «засветился» в pull request’ах публичного репозитория Codex на GitHub.
Упоминания быстро удалили force-push’ами, но скриншоты уже разлетелись.
Prediction markets:
- 55% шанс релиза до апреля 2026
- 74% шанс до июня 2026
Конкуренция давит:
- OpenAI не может замедляться.
- Claude Opus 4.6 вышел с агентными командами и 1M контекстом.
- Anthropic через Claude Code уже доминирует в кодинге.
- DeepSeek V4 тренируется на Huawei-железе вне NVIDIA-экосистемы.
Если 2M контекст подтвердится - это уже другой класс систем:
- полноценные автономные код-агенты
- большие финансовые и юридические пайплайны
- enterprise-документооборот
- сложные multimodal workflow
Если в работе с BI вы хоть раз собирали инвентаризацию дашбордов «по скриншотам и таблицам», то знаете это ощущение: аналитика вроде бы про данные, а управление BI – про ручной труд.
10 марта 11:00 мск можно будет разобраться, как это автоматизировать, потому что Yandex Cloud проведёт вебинар «API в DataLens – все пути автоматизации».
Если вы хоть раз пытались навести порядок в BI, то знаете эту боль.
Дашборды растут, копируются, устаревают.
А когда нужно понять, что где используется — начинается классика:
скриншоты, Excel-таблицы, ручные проверки.
Парадокс в том, что мы строим аналитику, чтобы автоматизировать бизнес,
но управление самой BI-средой часто остаётся полностью ручным.
Хорошая новость — это можно автоматизировать.
10 марта в 12:00 (мск) Yandex Cloud проведёт вебинар
«API в DataLens — все пути автоматизации».
На вебинаре разберут:
- возможности Public API DataLens
- как управлять дашбордами и объектами программно
- как убрать рутину из администрирования BI
- реальные сценарии автоматизации
- кейс использования API-коннектора клиентом
Будет особенно полезно, если вы хотя бы раз делали «инвентаризацию дашбордов вручную».
Кому подойдёт:
BI-аналитикам, дата-инженерам, разработчикам, системным архитекторам и руководителям аналитики.
Участие бесплатное, требуется предварительная регистрация.
Иногда следующий уровень аналитики — это автоматизация самой аналитики.
🖥 Большинство парсеров умирают через 2 дня.
Ты научишься делать те, которые работают в продакшене.
Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:
• не падают из-за мелких изменений на сайте
• собирают данные в разы быстрее
• обновляют всё автоматически по расписанию
• обходят ограничения и блокировки
• выглядят как полноценный сервис, а не как хаос из файлов
Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключаться.
В итоге ты сможешь:
• забирать данные для своих проектов
• автоматизировать чужую рутину
• создавать инструменты для аналитики
• брать коммерческие заказы на сбор данных
Это навык, который напрямую превращается в деньги.
Не «знаю Python», а «умею профессионально добывать данные из интернета».
🎁 Скидка 50% на Stepik действует 48 часов: https://stepik.org/a/269942/
⚡️ Дарио Амодеи дал первое интервью после того, как Пентагон фактически внес его компанию в чёрный список.
Ему задали один вопрос:
Что бы вы сейчас сказали президенту?
Ответ был коротким:
«Мы патриоты. Всё, что мы делали, — ради этой страны».
Anthropic сотрудничала с государством:
- их модели одними из первых допустили к секретным военным системам
- компания помогала в задачах обороны
Но затем Пентагон потребовал:
- доступ к технологиям полностью автономного оружия
- возможности массового наблюдения
Anthropic отказалась — и провела красную линию.
Ответ правительства:
- давление через цепочки поставок
- чрезвычайные полномочия
- требование отказаться от продуктов компании на федеральном уровне
Амодеи:
«Не соглашаться с правительством — это и есть по-настоящему по-американски».
🔥 10 GitHub-репозиториев, которые реально прокачают тебя в AI
1. Generative AI for Beginners
Полноценный курс от Microsoft: Jupyter-ноутбуки, практические задания и разработка GenAI-приложений.
https://github.com/microsoft/generative-ai-for-beginners
2. LLMs from Scratch
Пошаговая реализация GPT-подобной модели с нуля. Лучший способ понять, как работают LLM внутри.
https://github.com/rasbt/LLMs-from-scratch
3. AI Agents for Beginners
Практика по созданию агентных систем: инструменты, память, планирование, workflow.
https://github.com/microsoft/ai-agents-for-beginners
4. ML for Beginners
Классическая база по машинному обучению: 26 структурированных уроков.
https://github.com/microsoft/ML-For-Beginners
5. OpenAI Cookbook
Официальные примеры работы с API: production-паттерны, RAG, функции, реальные кейсы.
https://github.com/openai/openai-cookbook
6. Python 100 Days
Интенсив по Python с практикой каждый день. Отличная база для входа в AI.
https://github.com/jackfrued/Python-100-Days
7. LLM App Templates
Готовые RAG-шаблоны и production-решения для реальных LLM-приложений.
https://github.com/pathwaycom/llm-app
8. Python Data Science Handbook
Фундамент по NumPy, Pandas, визуализации и классическому ML.
https://github.com/jakevdp/PythonDataScienceHandbook
9. Stable Diffusion
Оригинальный код модели text-to-image - отличная база для изучения генеративного CV.
https://github.com/CompVis/stable-diffusion
10. Segment Anything
Модель от Meta для сегментации изображений - мощный инструмент для компьютерного зрения.
https://github.com/facebookresearch/segment-anything
#AI #MachineLearning #LLM #GitHub #Python #DataScience
✔️ Google выпустили Nano Banana 2 - новую модель генерации изображений, ориентированную на реальное production-использование.
Стоимость Nano Banana 2:
Модель позволяет быстро генерировать и редактировать изображения, сохраняя уровень детализации, света и текстур, достаточный для коммерческих задач.
Ключевые возможности:
* точное следование сложным текстовым инструкциям
* корректный текст внутри изображений
* создание инфографики, диаграмм и визуального контента
* сохранение внешнего вида персонажей и объектов между генерациями
* поддержка разных форматов и разрешений
Nano Banana 2 интегрирована в экосистему Google:
* Gemini
* AI Studio и Gemini API
* Vertex AI
* Search и Lens
* рекламные инструменты Google
• $0.0672 за изображение 1K
• $0.101 за изображение 2K
• $0.151 за изображение 4K
Отдельное внимание уделено прозрачности - изображения автоматически получают цифровую маркировку SynthID и соответствуют стандарту C2PA.
https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/
🔥 Веса серии моделей Qwen 3.5 Medium в формате FP8 открыты и готовы к продакшену
Теперь доступны FP8-версии моделей Qwen 3.5 - оптимизированные для высокой производительности и снижения затрат на инференс.
Что это даёт:
- более быстрый инференс
- меньшее потребление памяти
- оптимальный баланс скорости и качества
- готовность к развёртыванию в продакшене
Поддержка из коробки:
- vLLM
- SGLang
FP8-точность позволяет значительно ускорить рабочие процессы без заметной потери качества — особенно полезно для высоконагруженных AI-сервисов.
Скачать веса:
Hugging Face: https://huggingface.co/collections/Qwen/qwen35
ModelScope: https://modelscope.cn/collections/Qwen/Qwen35
✔️ OpenAI расширяет поддержку мейнтейнеров открытого кода.
Программа Codex Open Source Fund, запущенная год назад, получила апдейт льгот для разработчиков, которые поддерживают публичные репозитории.
Теперь участники программы получают не только API-кредиты, но и полный доступ к ChatGPT Pro с Codex на полгода.
Обновленный набор поддержки выглядит теперь так:
🟢API-кредиты для проектов, которые уже интегрировали Codex в pull request review, релизные пайплайны или другую инфраструктуру OSS.
🟢6 месяцев ChatGPT Pro с Codex.
🟠Условный доступ к Codex Security
Условность в том, то Codex Security одобряется вручную. OpenAI объясняет это возможностями GPT-5.4, команда рассматривает каждую заявку отдельно, чтобы убедиться, что инструмент применяется осознанно.
core maintainer с write access к широко используемому публичному проекту. Что считается широко используемым - не уточняется.
⚡️ Claude, похоже, решает одну из самых раздражающих проблем разработчиков.
Anthropic анонсировала экспериментальную функцию Auto Mode для Claude Code, которая должна появиться примерно 12 марта 2026 года.
Идея простая: позволить Claude самостоятельно обрабатывать запросы на разрешения во время программирования, чтобы разработчикам не приходилось постоянно подтверждать каждое действие.
Это избавляет от надоедливых permission-окошек во время длинных сессий кодинга.
Раньше, чтобы работать без остановок, приходилось запускать Claude с флагом --dangerously-skip-permissions. Он действительно убирал все подтверждения, но при этом полностью отключал защитные механизмы.
Новый Auto Mode предлагает более умный вариант.
Claude сам будет принимать решения по разрешениям, но при этом продолжит блокировать потенциальные угрозы, например prompt-injection атаки.
Это значит, что теперь можно запускать долгие задачи и не следить постоянно за экраном, ожидая очередного подтверждения.
Поскольку функция пока находится в research preview, её рекомендуют запускать в изолированных средах — sandbox или контейнерах.
Также стоит ожидать небольшого увеличения расхода токенов и задержек, потому что модели требуется дополнительное время на проверки безопасности.
После выхода функции её можно будет включить одной командой:claude --enable-auto-mode
Если вы управляете командой разработчиков и хотите, чтобы действия всё же подтверждались вручную, эту функцию можно ограничить через MDM-инструменты (например Jamf или Intune) или через конфигурационные файлы.
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
🚀 Вышла FireRed-Image-Edit-1.1 - одна из самых мощных open-source моделей для редактирования изображений.
Главная фишка - сильное сохранение идентичности персонажа. Даже после сложных правок лицо, стиль и детали остаются узнаваемыми.
Что умеет модель:
- сохраняет идентичность персонажа при редактировании
- объединяет 10+ элементов в одном изображении
- агент автоматически делает crop и stitch
- поддерживает портретный макияж
- перенос стиля текста
- восстановление фотографий
При этом модель работает довольно быстро - около 4.5 секунды на генерацию, требует примерно 30GB VRAM.
Используются техники:
- distillation
- quantization
- static compile
Дополнительно:
- открыто обучение LoRA
- поддержка ComfyUI
- поддержка GGUF
По бенчмаркам модель обходит:
- Imgedit
- Gedit
- RedEdit
Лицензия - Apache 2.0, можно использовать в коммерческих проектах.
Модель: https://modelscope.cn/models/FireRedTeam/FireRed-Image-Edit-1.1
✔️ Рассуждающие агенты требуют не только ума, но и железа
Когда провайдеры запускают «агентов», пользователи видят красивый интерфейс.
Инженеры видят ад.
Потому что агентские сценарии — это не «запрос-ответ». Это:
- длинные диалоги с историей
- вызов внешних инструментов (поиск, интерпретация кода, внешние приложения)
- гигабайты промежуточных данных между шагами
Если просто «поднять контейнер на GPU» — TTFT (время до первого токена) поплывёт, TBT (время между токенами) просядет, и агент будет тормозить на ровном месте.
Что с этим делают
Yandex AI Studio, например, на днях запустила инференс DeepSeek V3.2 и при этом полностью пересобрала инфраструктуру.
Внедрили разделение prefill/decode:
- prefill-ноды — быстрый прогон длинных контекстов
- decode-ноды — стабильная генерация с низкой задержкой
Это потребовало научиться передавать KV-кэши между серверами в реальном времени. Помимо прочего сбалансировали запросы с учётом «сессионности» и выстроить иерархию KV-кэшей от HBM GPU до распределённой памяти и/или NVMe.
Безопасность и тарификация
- Управляемые правила модерации ответов модели
- Доступ к моделям через частные эндпоинты по выделенному сетевому каналу для работы без выхода в публичный интернет
Новая тарификация:
- токены инструментов и кэширования — в 4 раза дешевле обычных входящих
- чем длиннее сессия, тем выгоднее
Потому что платить стоит не за факт обращения к модели, а за новую вычисленную информацию.
Всё остальное можно и нужно кэшировать.
Как DS/ML за 9 месяцев вырасти на 30% в зарплате и выйти на еще более интересные проекты?
Освойте Deep Learning. Голосовые помощники, распознавание лиц, рекомендации в приложениях, медицинская диагностика — нейросети используются уже во всех сферах бизнеса. Компании ищут DL-специалистов, чтобы точнее обучать и настраивать нейросети под свои запросы.
За 9 месяцев вы изучите все актуальные модели последних лет и получите крепкую базу в DL, углубившись в каждое направление.
Что вы освоите:
🟠Создание и обучение нейросетей с нуля
🟠Компьютерное зрение (Computer Vision)
🟠NLP (обработка текста)
🟠Генеративные модели
🟠MLOps и продакшн-подход
🧠 Оптимизация контекста для Claude Code
Context Mode — это сервер MCP, который значительно уменьшает объем данных, поступающих в контекстный буфер Claude Code. Он обрабатывает выводы инструментов, сокращая их размер с 315 КБ до 5.4 КБ, что позволяет сохранить больше информации для взаимодействия.
🚀Основные моменты:
- Сокращение данных на 98% для инструментов.
- Поддержка множества языков программирования.
- Интеграция с существующими инструментами через слэш-команды.
- Эффективная работа с логами и API-ответами.
- Умный поиск по индексированному контенту.
📌 GitHub: https://github.com/mksglu/claude-context-mode
🔥 Легендарный математик - Дональд Кнут начал свою новую научную работу словами: “Shock! Shock!”
Почему?
Потому что Claude Opus 4.6 решил открытую задачу, над которой Кнут работал несколько недель.
Речь о гипотезе разложения графов из легендарной книги The Art of Computer Programming.
Кнут даже назвал статью в честь ИИ:
“Claude’s Cycles”
Что произошло:
- Claude провёл 31 исследование
- на это ушло примерно 1 час
- Кнут изучил результат
- оформил формальное математическое доказательство
И закончил работу фразой:
> *«Похоже, мне придётся пересмотреть своё мнение о генеративном ИИ.»*
Это сказал человек, который написал библию компьютерных наук.
И назвал научную работу в честь ИИ.
Почитать саму работу можно здесь:
https://cs.stanford.edu/~knuth/papers/claude-cycles.pdf
✔️ Claude-Mem - open-source инструмент, который даёт Claude постоянную память между сессиями.
Главная проблема Claude Code
По умолчанию у Claude нет долгосрочной памяти:
- каждый запуск - "с чистого листа"
- весь контекст нужно передавать заново
- растут токены
- быстро достигаются лимиты
- агент забывает структуру проекта, решения и предыдущие шаги
Это делает длительную работу с кодом дорогой и неэффективной.
Что делает Claude-Mem
Claude-Mem добавляет слой persistent memory:
- сохраняет важный контекст между сессиями
- восстанавливает знания при следующем запуске
- отправляет в модель только релевантную информацию
По сути, это внешний long-term memory для агента.
Результаты
По заявлению разраьотчиков:
- до 95% меньше токенов на повторных запусках
- до 20x больше tool calls до достижения лимитов
- быстрее старт новых сессий
- меньше повторных объяснений модели
https://github.com/thedotmack/claude-mem
📌 Большинство AI-агентов на самом деле ничего не помнят.
Каждый диалог для них — как первый:
- нет памяти о прошлых разговорах
- нет понимания связей между фактами
- нет накопленного опыта
И здесь многие делают ошибку.
Они используют vector database — и считают, что это память.
Проблема:
Vector search находит похожие куски текста,
но не понимает связи между ними.
Документы остаются изолированными фрагментами.
Агенту нужна не просто память.
Ему нужна система знаний с отношениями.
Именно это делает Cognee — 100% open-source инструмент для самообучающейся памяти.
Что внутри:
- Vector search + графовая база
- Поиск по смыслу + связи между сущностями
- Документы превращаются в knowledge graph
Ключевые возможности:
Composable pipelines
Можно собирать свои пайплайны:
chunking → embedding → entity extraction → обработка
Weighted memory
Чем чаще используется связь — тем она сильнее
Память адаптируется под реальное использование
Self-evolving memory
Пайплайн memify:
- усиливает полезные связи
- удаляет устаревшие данные
- оптимизируется по принципам RL
Агент получает память, которая:
- сохраняется
- понимает связи
- улучшается со временем
https://github.com/topoteretes/cognee
📌 Anthropic добавила новую функцию памяти в Claude.
Теперь можно перенести контекст и предпочтения из других AI-инструментов.
Как это работает:
1. В другом AI генерируете специальный prompt с вашим контекстом
2. Копируете результат
3. Вставляете его в настройки памяти Claude
После этого Claude:
- запоминает ваши предпочтения
- понимает ваш стиль работы
- может сразу продолжать диалог без повторных объяснений
Функция доступна во всех платных тарифах.
Почему это важно:
Контекст становится переносимым.
Вы больше не привязаны к одному инструменту.
Новый тренд в AI:
Пользовательский контекст - это ваш личный слой поверх моделей.
Модель можно сменить.
Память - остаётся.
claude.com/import-memory
⚡️Андрей Карпати поделился интересным экспериментом: он попробовал собрать исследовательскую команду из AI-агентов.
В setup:
- 8 агентов (Claude + Codex)
- у каждого свой GPU
- каждый работает как отдельный исследователь
- задачи ведутся через Git-ветки
- коммуникация через файлы
- всё запускается в tmux - как «офис» с окнами
Фактически — попытка построить AI-research-организацию.
Но главный вывод оказался неожиданным.
Агенты:
- плохо продумывают дизайн экспериментов
- делают случайные или бессмысленные вариации
- не строят сильные baseline
- не контролируют compute и время
- часто делают ложные выводы
Пример: агент «обнаружил», что увеличение hidden size улучшает validation loss.
Формально - да. Но модель просто стала больше и дольше обучалась. Никакой научной ценности.
Инсайт:
AI отлично реализует хорошо сформулированные идеи.
Но пока плохо генерирует сильные исследовательские гипотезы.
Теперь мы программируем не модель -
мы программируем организацию.
Source code такой системы:
- промпты
- роли
- процессы
- инструменты
- standup’ы
- workflow
Добро пожаловать в эпоху *Org Engineering*.
https://x.com/karpathy/status/2027521323275325622
🎯 Martian выпустили крупнейший бенчмарк для оценки AI-агентов, которые проверяют код и он полностью open-source.
Главная проблема большинства AI-тестов - модели со временем просто запоминают ответы. Бенчмарк превращается в «экзамен с известными вопросами», а реальные возможности моделей остаются за кадром.
Martian решили эту проблему архитектурно.
Вместо одного теста они внедрили систему Dual-Layer Evaluation:
- Offline-слой — честное сравнение моделей на статичных данных
- Online-слой — анализ поведения инструментов в реальной работе разработчиков
Если компания попытается «подогнать» модель под офлайн-тест, это сразу станет заметно — её результаты перестанут совпадать с реальным использованием в онлайн-слое.
Фактически это первый самокорректирующийся бенчмарк, который нельзя накрутить маркетингом или обучением на тестовых данных.
Что внутри:
- Более 200 000 реальных изменений кода
- Данные реального поведения разработчиков
- Оценка качества AI-ревью в боевых условиях
- Полная нейтральность — создатели не продают собственные coding-ассистенты
Это первый измеритель качества AI-инструментов для разработки, который не деградирует со временем и отражает реальную пользу, а не лабораторные метрики.
https://codereview.withmartian.com/
⚡️ Карпаты поделился наблюдением, которое хорошо описывает то, что сейчас происходит с разработкой.
За последние пару месяцев программирование изменилось не постепенно, а резко. Раньше кодинг-агенты выглядели как интересный эксперимент - могли помочь с фрагментами кода, но не тянули реальные задачи. Сейчас ситуация другая: модели научились держать контекст, последовательно решать проблемы и доводить работу до конца.
По сути, они получили главное качество инженера - упорство.
Типичный сценарий сегодня выглядит так: ты ставишь задачу высокого уровня, агент подключается к серверу, настраивает окружение, устанавливает зависимости, поднимает сервисы, пишет код, тестирует, исправляет ошибки и возвращается с готовым результатом и отчётом. То, что раньше занимало выходные, теперь может решаться за десятки минут автономной работы.
И это меняет сам подход к разработке.
Раньше основной навык был - писать код.
Теперь основной навык - формулировать задачи, декомпозировать их и управлять процессом.
Новый рабочий процесс:
* описываешь цель на естественном языке
* запускаешь агента
* наблюдаешь за прогрессом
* проверяешь результат
* корректируешь направление
Ключевая компетенция смещается вверх по уровням абстракции:
* архитектурное мышление
* правильная декомпозиция
* настройка инструментов и среды
* оркестрация нескольких агентов
* контроль качества
Это ещё не магия. Агентам всё ещё нужны:
* чёткие спецификации
* понятные критерии успеха
* тесты и верификация
* человеческое суждение и вкус
Лучше всего они работают там, где результат можно проверить автоматически.
Но главное изменение уже произошло.
Программирование постепенно превращается из «написания кода» в управление вычислительной системой, которая пишет код за тебя.
И сейчас выигрывают не те, кто быстрее печатает,
а те, кто умеет мыслить на уровне систем, задач и результатов.
Если раньше ценился coding,
то теперь растёт ценность agent-engineering.
https://x.com/karpathy/status/2026731645169185220
Liquid AI представила свою крупнейшую модель - LFM2-24B-A2B 🐘
- 24 млрд параметров всего
- активны только 2,3 млрд на каждый токен
- построена на гибридной, аппаратно-оптимизированной архитектуре LFM2
Модель сочетает быстрый и экономичный дизайн LFM2 с архитектурой Mixture of Experts (MoE), благодаря чему при работе задействуется лишь небольшая часть параметров.
Результат:
- высокая энергоэффективность
- быстрая работа на edge-устройствах
- предсказуемый лог-линейный рост качества
- полный запуск в пределах 32 ГБ памяти
С выходом этой версии линейка LFM2 теперь охватывает почти два порядка масштаба — от 350 млн до 24 млрд параметров, при этом каждое увеличение размера даёт стабильный рост качества на стандартных бенчмарках.
Модель специально оптимизирована так, чтобы помещаться в 32 ГБ RAM — её можно запускать на потребительских ноутбуках и рабочих станциях.
Стратегия масштабирования:
- увеличить глубину сети (с 24 до 40 слоёв)
- увеличить число экспертов (с 32 до 64 в каждом MoE-блоке)
- сохранить компактный активный путь вычислений
Итог — общее число параметров выросло в 3 раза, но вычислительная нагрузка осталась контролируемой.
LFM2-24B-A2B выпущена как instruct-модель (без трасс reasoning) и показывает лог-линейный рост качества на задачах:
GPQA Diamond, MMLU-Pro, IFEval, IFBench, GSM8K, MATH-500.
Модель получила поддержку «с первого дня» в:
- llama.cpp
- vLLM
- SGLang
Доступны квантованные версии (GGUF), работающие на CPU и GPU.
Например:
- на CPU (Ryzen AI, Q4_K_M) — около 93 токенов/с при контексте 8K
- высокий throughput и на GPU (H100)
Главный вывод: архитектура LFM2 демонстрирует предсказуемое масштабирование без «потолка качества» у малых моделей.
https://huggingface.co/LiquidAI/LFM2-24B-A2B-GGUF