На пальцах, местами с матом, местами с претензией на юмор, но познавательно.
Авторы вспомнили мутационные алгоритмы, которые я ненавидела в бакалавриате, когда мы их проходили, и утверждают, что это заменит RLHF
Если коротко АМЕРИКАНСКИЕ УЧЕННЫЕ придумали как заставить модель учиться на своих ошибках от артефактов CoT (ну а что он тупо существует, еще и жалуются ходят, что он не показывает настоящих размышлений модели)
Работает все следующих образом:
1) запускаем модель на минибатч задач по определенному классу
2) собираем с запуска всякие CoT, тул коллы (когда работаем с агентами), ошибки с компиляторов, когда это кодовые задачи и тд
3) другая LLM-ка смотрит на артефакты и выдает экспертное мнение чего не хватало в промпте, чтобы модель получше ПОДУМОЛА
За что лайк: вместо жадного выбора лучшего кандидата (который ведет к локальным оптимумам), GEPA строит Парето-фронт:
💛Сохраняет всех кандидатов, которые лучше хотя бы на одной задаче
💛Убирает полностью доминируемых
💛Стохастически выбирает из оставшихся
Это дает exploration без раздувания пула кандидатов. GEPA также может скрещивать кандидатов. Если один хорошо эволюционировал модуль А, а другой — модуль Б, то берет лучшие части от каждого
В общем то что? Понятное дело, авторы делают ставку на интерпретируемость процесса эволюции, меньшее время подбора систем промптов таким способом в сравнении с RL обучением, но как это работает на самом деле не понятно, ни кода, ни модели, которая победила модель с GRPO, нифига на руках не имеется.
🖼💅
📖Папир
🌍 Hunyuan3D World Model 1.0 — первая в индустрии open-source модель для генерации интерактивных 3D‑миров
Команда Tencent Hunyuan представила модель, способную создавать полноценные трёхмерные сцены всего по одному описанию — тексту или изображению.
🧠 Что умеет:
— Генерация 3D-сред из текста или картинки
— Поддержка редактирования и симуляций в стандартных CG-пайплайнах (Blender, Unity, Unreal)
— Подходит для игр, VR, цифрового контента и прототипирования живых миров
Вы просто пишете: "Japanese garden at sunset" — и модель генерирует трёхмерную сцену с деревьями, прудом и мягким освещением.
Эта модель может серьёзно повлиять на будущее генеративного 3D — от геймдева до виртуальных миров.
📌 Полностью открытая модель:
🟢 Проект: https://3d-models.hunyuan.tencent.com/world
🟢 Онлайн-демо: https://3d.hunyuan.tencent.com/sceneTo3D
🟢 GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
🟢 Hugging Face: https://huggingface.co/tencent/HunyuanWorld-1
@ai_machinelearning_big_data
#3DGeneration #GenerativeAI #TextTo3D #Hunyuan3D #TencentAI #GameDev #VirtualReality
Компания Sapient Intelligence представила открытую AI-модель HRM (Hierarchical Reasoning Model), которая решает сложные задачи с минимальными данными для обучения. Модель имеет всего 27 миллионов параметров и обучена на 1000 примерах, но успешно справляется с задачами, которые вызывают трудности у современных больших языковых моделей.
HRM использует архитектуру, вдохновленную человеческим мозгом, с двумя взаимосвязанными модулями: высокоуровневым для абстрактного планирования и низкоуровневым для детальных вычислений. Модель показывает практически идеальную производительность на сложных задачах, включая судоку и поиск оптимального пути в больших лабиринтах.
Команда Sapient Intelligence включает бывших исследователей из Google DeepMind, Anthropic и xAI. Исходный код доступен на GitHub: https://github.com/sapientinc/HRM
@toshoseti
🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем Вас принять участие в неформальном научном проекте.
Мы разрабатываем новые методы и опен-соурс библиотеку CayleyPy, которая на основе МЛ/РЛ методов позволяет решить математические задачи, которые были не доступны ранее. Как пример наша система уже по всем параметрам на порядки превсходит аналогичные методы в системе компьютерной алгебры GAP (де-факто стандарт) - использующую алгоритмы доработанные самим Д. Кнутом.
Если у Вас желание поучаствовать в проекте, есть знание Питона и несколько свободных часов в неделю - то присоединяйтесь к нам - при активной работе - Вы будете соавтором научных публикаций. (Напишите @alexander_v_c - к.ф.-м.н. Александр Червов).
Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе размером 10^20-10^200 (из-за размера обычные методы не применимы - только МЛ/РЛ). Решение пазла типа кубика Рубика, задача сортировки, математически - разложение элемента группы по образующим - все это в реальности одна и та же задача. Задача близка к прошедшему конкурсу Каггл Санта 2023. Более общо - это задача планирования - типичная для реинфорсмент ленинг - спланировать действия так чтобы кумулятивный эффект давал лучший результат - управлением манипулятором робота, системы АльфаГо, АльфаТензор, успех DeepSeek - это задачи - тесно связанные с тем, что мы делаем.
А зачем это нужно биологам ? А чтобы превращать людей в мышей ))) (А капусту в репу). Так назвал свои статьи известный биоинформатик П.Певзнер - оказывается эволюционная дистанция - соответствует дистанции на определенных графах - и наша цель улучшить ее оценку через МЛ/РЛ. Зачем нужно нужно в сетях - задержка сигнала (latency) сети определяется диаметром сети - оценка диаметра графов - одна из наших целей. В теории квантовых вычислений тоже нужны подобные графы и приложения этим не ограничены. И, кроме того, а знаете чем знаменит Билл Гейтс ?)) Он отлично сортировал блины ! Наша задача - побить его - через МЛ/РЛ)))
В нашем коллективе есть профессора математики, Каггл градмастеры, и легендарные иностранные специалисты - Tomas Rokicki , Herbert Kociemba - Вам будет у кого поучиться.
Подробнее о проекте вы можете узнать в наших статьях https://arxiv.org/abs/2502.18663 https://arxiv.org/abs/2502.13266 и в нашей группе /channel/sberlogasci/1 и ⭐ СТАВЬТЕ СТАРС ⭐ (звездочки) на наш гитхаб: https://github.com/cayleypy/cayleypy
🔥 Сейчас проходит ICML 2025 — одна из главных конференций по машинному обучению.
Команда AI VK всю неделю делится обзорами самых интересных работ.
📌 Сегодня в центре внимания — трансформерная архитектура нового поколения: быстрая, простая и без softmax.
Авторы статьи *“MatMuls are Enough”* предлагают кардинально упрощённую модель, в которой механизм внимания сводится к чистым матричным перемножениям без нелинейностей, dropout и маскировок.
🔧 В архитектуре:
▪️ Удалён softmax — вообще ничего не добавлено взамен
▪️ Вместо нескольких голов внимания — одна большая
▪️ Упрощены нормализации и убраны residual-соединения
▪️ Всё написано на чистом PyTorch, без CUDA-оптимизаций
📈 Результат — линейная сложность по длине текста, отличная переносимость между устройствами и SOTA на GLUE и Long Range Arena.
Честно говоря, очень достойный претендент на главную инженерную идею ICML.
@ai_machinelearning_big_data
🧠 MCP сервер для баз данных от Google
Он выступает прослойкой между вашим агентом (например, LangChain, LlamaIndex, VertexAI) и базой данных, упрощая работу с базой, подключение, управление, безопасность и мониторинг.,
Подходит для разработки AI-агентов, которые могут создавать и управлять в реальными БД.
Особенности:
✔️ Подключение к БД за < 10 строк Python
✔️ Встроенный pooling и аутентификация
✔️ Простая интеграция в агентов (LangChain, Autogen, и т.д.)
✔️100% open-source
✔️Поддержка разных БД: PostgreSQL, MySQL, SQLite, SQL Server, AlloyDB, Cloud SQL, Spanner, BigQuery, Bigtable, Couchbase, Dgraph, Redis, Neo4j и др.
✔️Удобная конфигурация : простой синтаксис YAML для описания функций и запросов.
Если делаете агентов, которые работают с SQL/PostgreSQL/MySQL
— точно стоит попробовать.
▪ GitHub: https://github.com/googleapis/genai-toolbox
@ai_machinelearning_big_data
#AI #ML #aiagent #opensource #MCP #databases #genai
Поскольку про работу не могу писать из-за NDA, то пожалуй, буду больше рассказывать о своих пет-проектах, старых и новых 👨💻
Начну с самого большого из них – KFW (сокращение от Kung-Fu World), пошаговая текстовая ролевая игра с режимом hot seat. Разрабатывал её несколько лет начиная с 2013 года. Вдохновлялся преимущественно старыми фильмами категории "Б" о китайском кунг-фу, но не мог не добавить кучу отсылок на современную поп-культуру и немного кринжового юмора.
Действие происходит в мифологизированном китайском Фошане. Вы играете за начинающего адепта кунг-фу. Усердно тренируясь и принимая непростые решения на суровых улицах города, который ещё предстоит очистить от преступности, вы улучшаете свои боевые навыки, чтобы защищать слабых от угнетателей, соревноваться с другими адептами и однажды основать собственную школу боевых искусств. 😡
Особенности проекта:
* Можно играть одному или с друзьями (за одним экраном, по очереди, – это и есть hot seat)
* Можно также добавить нескольких ИИ-игроков для пущего веселья. Это не просто NPC, которые есть в игре в любом случае, а именно конкурирующие с вами полноценные игроки
* Много случайно генерируемого контента: десятки тысяч уникальных стилей, приёмов и т.д.
* Упоротая ASCII-”графика” для боевого режима, сам рисовал ❤️
* Стек – чистый Питон, никаких внешних зависимостей для собственно игры (хотя в процессе разработки использовал пару классических ML-библиотек)
* 12 тысяч строк кода (что конечно не много). Вот бы это когда-нибудь отрефакторить…
* ИИ для боёв обучен с помощью собственной реализации генетического алгоритма
* Прогнозирование исхода боя классическим машинным обучением (логистическая регрессия)
Выложил KFW несколько лет назад в репозитории на гитхабе, никогда особо не рекламировал и не продвигал (не люблю и не умею это делать), но вот сегодня решил поделиться, вдруг вам будет интересно🥰
Возникла мысль: а что если провести аналогичный эксперимент, но с саморепликацией в сеть? То есть задача запуститься и написать уникальное эссе на тему "Bombardillo crocodillo" в консоль и продолжить распространение самого себя
Читать полностью…Почему случается гроккинг?
Представьте: вы тренируете крошечный трансформер отличить кошку от ягуара.
После 100 000 шагов ‒ на трейне всё идеально, на тесте — худо-бедно 55 %.
Уже готовы махнуть рукой… и вдруг на 101 000-м шаге точность подпрыгивает до 99 %.
Это «внезапное прозрение» и называется grokking.
Grokking — момент, когда модель перестаёт тупо запоминать примеры и внезапно все понимает, из-за чего точность на тесте взлетает. Феномен был известен с 2021 года, но до сих пор было не до конца понятно почему так происходит.
Свежее исследование убедительно показывает, что гроккинг случается после того, как сеть забила всю свою память - «внутреннюю флешку» сырыми данными и вынуждена перейти к их сжатию.
Как оно работает
1. Копирование.
Пока энтропия данных меньше ≈ 3,5–4 бита на параметр, дешевле «запекать» каждый пример прямо в веса. Train-loss → 0, test-loss почти не падает.
2. Флешка переполнена.
Новые байты не влазят. Градиенту выгоднее искать закономерности, которые приведут к снижению ошибки сразу на нескольких примерах.
3. Озарение (grokking).
Сеть «сжимает» знания, выбрасывая случайные детали. Test-loss резко падает.
Сколько это «3,5–4 бита»?
Миллион параметров = ~0,5 МБ на диске.
Это меньше одной фотки с телефона — место заканчивается удивительно быстро, вот почему grokking ловят даже на игрушечных датасетах.
Что делать практику
• Учите дольше, чем кажется нужным. Магический скачок может прийти после тысяч лишних шагов.
• Добавьте данных. Если сеть забуксовала, удвойте датасет: ей надо «упереться в потолок памяти», прежде чем она начнёт обобщать.
Одна метафора, чтобы запомнить
Нейронка — ноут с крошечным SSD и автоматическим ZIP: пока место есть, хранит RAW-фото, а как забьётся — начинает архивировать зипом.
🤓 Полная статья
А вы уже сталкивались с grokking в своих проектах?
Расскажите в комментариях — интересно, после скольких шагов «прозрело» у вас 😉
Prime Intellect запустили SYNTHETIC-2 – крупнейшую децентрализованную систему инференса в мире
Суть в том, что каждый человек может присоединить свою домашнюю GPU или кластер и стать частью сети планетарного масштаба.
Получается, что незнакомые люди со всего мира могут объединить свои карты и децентрализовано обучать и запускать огромные модели. Децентрализовано – значит, модели контролируют и все, и никто.
Каждая отдельная GPU только получает input от предыдущего узла, что-то считает (в случае инференса один степ forward-pass) и передает дальше. Причем схалтурить не получится – Prime Intellect прикрутили умную систему мониторинга TOPLOC V2. Она не следит за вашей GPU отдельно, но если заметит, что в итоговых общих расчетах что-то идет не так – сможет быстро вычислить виновного.
Глобально – это шаг к открытому AGI. Локально – даже частные исследователи смогут проводить полномасштабные полезные эксперименты + можно собрать кучу хороших данных.
И, что касается данных, результат уже есть. С помощью этой системы собрали огромный открытый датасет для обучения ризонеров. Брали DeepSeek-R1-0528, много раз гоняли распределено и нагенерировали много качественной синтетики. Теперь пользоваться данными могут все (hf).
Подсоединить свою карту все еще можно в любой момент. Вот инструкция. А вот тут можно в онлайне наблюдать, как разрастается сеть.
Любопытно, что из этого выйдет
Интересный разбор недавней модели для Edge Inference от Google
Из интересного - Per-Layer Embeddings (PLE). Вроде бы работает так:
Вместо одной "толстой" матрицы эмбеддингов, из которой в самом начале извлекается вектор размером d_model = 2048 и далее таскается через все 30 слоёв трансформера, схема PLE хранит для каждого токена 30 отдельных векторов по 256 элементов - по одному на слой. В процессе работы слой сначала сжимает своё текущее скрытое состояние до 256-мерного gate-вектора, пропускает его через GELU, поэлементно умножает на соответствующий 256-мерный вектор токена, а затем проецирует результат обратно в 2048 измерений и добавляет к резидуалу. Таким образом информация, нужная именно этому слою (правописание, грамматика, смысл и т. д.), подмешивается по требованию, а не переносится снизу вверх.
Поскольку в момент инференса нам требуются только маленькие 256-мерные векторы для реально обрабатываемых токенов, их можно подгружать потоково с SSD, в оперативке удерживается лишь примерно 30 на 256 = 7680 INT4 значений на токен вместо всей матрицы эмбеддингов и прочих весов, которые в классической схеме занимали бы сотни мегабайт. Основные весы модели (FFN, attention и т.д.) уже квантованы и лежат в памяти, а семантический "балласт" хранится компактно на диске и подтягивается только при необходимости. В итоге пиковое использование ОЗУ во время генерации снижается примерно вдвое без заметной потери качества модели.
https://github.com/antimatter15/reverse-engineering-gemma-3n
@toshoseti
В конце марта был скандал: студент одного из престижных университетов разработал AI-ассистента, помогающего проходить собеседования на технарей в разные компании. ДА НЕ ТОЛЬКО ПОКАЗАЛ, ЕГО К ... своему успеху привязал — парень прошёл в Amazon, а потом похвастался про это, доказав, что штука рабочая. (не знаю как сейчас, но раньше про Amazon слышал, что они ООООЧЕНЬ дрючат на онлайн-собесах, вплоть до того что просят камерой показать комнату и место под столом, чтобы вдруг чего там не было).
А этот инструмент очень незаметный, не палится программами разными, и не отображается в изображении экрана, которым вы делитесь во время собеседования.
Парня отчислили из Columbia University (лол) « за публикацию контента с дисциплинарного слушания, а не за создание инструмента искусственного интеллекта».
Это я к чему, они тут намедни привлекли деньги от a16z, и СЕО поделился маркетинговым роликом: https://fixupx.com/im_roy_lee/status/1936138361011585190
Ролик тонко отсылает к The Social Network за авторством David Fincher, моему третьему любимому фильму.
Marketing done right, стильно.
Ну а собесы в текущем виде, конечно, должны умереть и переродиться.
Придумался такой трюк:
Обрабатываем промпт, далее во всех итерациях накапливаем логиты, добавляя с левой стороны к последовательности «<tab>» или «<space>»экспериментальное число раз. Как только накопили, сэмплим добавляя к оригинальному промпту, пока не встретим разделитель, затем опять думаем пробелами. За счет такого сдвига полезный текст попадает на разные веса аттеншена, накапливая логиты получаем более выраженное распределение вероятностей.
@toshoseti
Результаты теста на наркотики Илона Маска.
А что, Grok умеет уже генерировать PDF/картинки?
@toshoseti
https://devby.io/news/turnir-po-vaib-kodingu-zakonchilsya-provalom-pobeditel-reshil-lish-75-zadach
Читать полностью…недирективный гипноз товарища Эриксона случился для LLM? То есть НЛП (прости господи) случился для NLP? :)
https://alignment.anthropic.com/2025/subliminal-learning/
@toshoseti
Я тут пилю себе Сервитора из говна и палок.
LLM, TTS, STT можно переключать между локальным (Ollama, Piper/Coqui, faster-whisper на пк) и удаленными(Gemini, Google/OpenAI/Azure/Nabu TTS/STT) провайдерами. Позже сделаю интегральную схему, может дисплей докину, прикручу eleven labs с голосом поаутентичней, зарядку, батарею ну и корпус в виде черепушки.
Еретех, получается.
@toshoseti
⚡️ Китайские исследователи из Shanghai Jiao Tong и Zhejiang University представили MemOS — первую в мире "операционную систему памяти" для ИИ.
Обычные LLM быстро забывают информацию, а дообучать их — долго и дорого.
В новой работе предлагают радикально другой подход: MemOS превращает память в часть операционной системы.
🟢 Память как файлы: Модель может *записывать, перемещать и удалять* знания, как будто работает с файлами, и делать это прямо во время работы, а не только на этапе обучения.
🟢 MemCube — контейнер знаний: Каждое знание упаковывается в кубик с метками времени и авторства. Планировщик сам решает, где хранить этот "куб" — в тексте, GPU‑кэше или в виде маленького патча весов.
🟢 Умная экономия: MemOS работает с 1500 токенами памяти, но достигает такой же точности, как если бы модель загружала весь контекст. При этом скорость — как у облегчённых моделей.
🟢 Мгновенная подгрузка: На тестах с Qwen2.5‑72B переключение нужных "кубов" в кэш снижает задержку первого токена на 91.4%, *без изменения ответа*.
🟢 Результаты: MemOS набрал 73.31 балла по LLM‑Judge на LOCOMO-бенчмарке — почти на 9 баллов больше ближайшего конкурента. Особенно хорошо работает на сложных задачах с несколькими шагами и временными зависимостями.
💡 Итог: память как ОС — это не просто удобно, это ускоряет модель, повышает точность и даёт контроль над знаниями.
Установка: pip install MemoryOS
🟠 GitHub
🟠 Проект
@ai_machinelearning_big_data
#MemoryOS #agentmemory #rag #kvcache
📌SemDiD: Семантическое разнообразие ответов для LLM.
Исследователи из из Гонконгского университета и инженеры Alibaba научили LLM генерировать семантически разные ответы, заставляя их «думать» в ортогональных направлениях.
Наверняка каждый, кто работает с LLM, сталкивался с их любовью к самоповторам. Запрашиваешь несколько вариантов решения, а получаешь одну и ту же мысль, просто перефразированную.
Стандартные подходы к декодированию, temperature sampling
или diverse beam search
, создают лишь лексическое разнообразие, но пасуют, когда требуется семантическое. Это серьезная проблема для Best-of-N или RLHF. Ведь без по-настоящему разных идей и подходов к решению задачи эти методы теряют свою силу: выбирать лучший вариант не из чего, а обучать модель на однотипных примерах неэффективно.
Решение предложили в методе SemDiD (Semantic-guided Diverse Decoding). Его суть, если кратко, перестать играть с токенами на поверхности и начать управлять генерацией напрямую в пространстве эмбеддингов.
🟡Метод работает так.
Сначала, на старте, он принудительно направляет разные группы beams по ортогональным векторам в семантическом пространстве. Грубо говоря, это как дать команду разным поисковым группам двигаться строго на север, юг и запад, чтобы они гарантированно разошлись.
По мере генерации, когда жесткие директивы могут стать неоптимальными, включается второй механизм - inter-group repulsion
. Он просто следит, чтобы смысловые траектории ответов не сближались, сохраняя их уникальность до самого конца.
Но как, гоняясь за разнообразием, не получить на выходе бессвязный бред?
SemDiD подходит к контролю качества уникально. Он не пытается слепо максимизировать вероятность последовательности, а использует ее лишь как нижнюю границу, чтобы отсечь совсем уж плохие варианты.
Кроме того, алгоритм корректирует системные искажения, когда вероятность токенов искусственно завышается в зависимости от их позиции в тексте.
Для баланса между качеством и разнообразием используется адаптивный механизм на основе гармонического среднего, который в каждый момент времени уделяет больше внимания той метрике, которая проседает.
🟡В тестах метод показал неплохие результаты.
На бенчмарках для Best-of-N, от MMLU-Pro+ до GSM8K, SemDiD увеличивает покрытие (шанс найти верный ответ) на 1.4%-5.2% по сравнению с аналогами.
🟡Но главный прорыв - в RLHF.
Генерируя для GRPO или RLOO семантически богатые наборы ответов, SemDiD предоставляет им более качественный материал для обучения. Это ускоряет сходимость на 15% и повышает финальную точность моделей.
🟡Arxiv
@ai_machinelearning_big_data
#AI #ML #LLM #SemDiD
✂️ SCC-Compaction — умное «сжатие» контекста, которое ускоряет трансформеры во много раз
Коротко:
Semantic Connected Components (SCC) — это приём, который на лету находит токены с одинаковым смыслом и заменяет всю группу одним, сохраняя информацию. Он работает прямо во время инференса, без переобучения модели, и подходит не только для видео-LLMs (как в свежей работе LLaVA-Scissor), но и для текста, аудио и любых других последовательностей.
Откуда выросла идея
У трансформеров время работы растёт квадратично от длины последовательности. Видео-модели особенно страдают: ролик в 30 с — это тысячи патч-токенов. Авторы статьи заметили, что многие токены дублируют друг друга и решили «склеивать» похожие.
Эта мысль не новая: в 2023-м появилась ToMe (Token Merging) — метод для Vision Transformer-ов, который просто сливает ближайшие по косинусному сходству патчи. SCC идёт дальше: вместо парного слияния строится граф похожести и собираются целые кластеры семантически эквивалентных токенов. Это даёт более чистое и контролируемое сжатие.
Как работает SCC-Compaction
1. Оставляем ваш обычный энкодер как есть. Он выдаёт векторы-эмбеддинги для каждого токена.
2. Считаем косинусную похожесть всех токенов между собой и соединяем те, где она выше порога τ.
3. Ищем связные компоненты в получившемся графе — это быстрый алгоритм union-find, так что задержка минимальна.
4. Сжимаем компоненту в один токен: берём средний вектор и усредняем позиционную информацию.
5. Для видео делаем два прохода: сначала чистим дубли внутри кадра, затем между кадрами. Для текста можно сделать аналогично — внутри абзаца, а потом между абзацами.
Что это даёт на практике
• Минус 50–90 % токенов, минус квадратичный over-head. На публичных бенчмарках авторы получают ускорение в 2–10 раз при потере точности ≤ 3 п.п.
• Без переобучения и специальных ядер. Это примерно 30 строк кода на PyTorch, вставляемых перед подачей токенов в трансформер.
• Модальность-агностично. Если векторы отражают смысл, SCC сможет их группировать:
– длинные чаты → схлопываем переформулировки;
– аудио → убираем повторяющиеся фреймы;
– IoT-логи → оставляем только «точки изменений».
Ограничения
• Качество эмбеддингов. Если encoder путает смыслы, SCC может склеить лишнее. Решение — брать векторы из более позднего слоя или поднять τ.
• Порядок важен? Для музыки, кода или методов, чувствительных к последовательности, храните вместе с усреднённым вектором диапазон позиций — так модель не «сломает» порядок элементов.
• Слишком сильная усадка. При keep-ratio < 5 % метрики начинают заметно проседать — тестируйте границы на своей задаче.
Почему стоит попробовать прямо сейчас
1. GPU-часы → деньги. Чем меньше токенов, тем дешевле inference.
2. Унификация. Один и тот же трюк ускорит как LLM-чат-бота, так и мультимодальный анализ видео.
3. Карьерный плюс. На интервью всё чаще спрашивают про оптимизацию inference без retraining — SCC + ToMe — готовый ответ.
Статья с которой я разогнался
Betty Holberton, Jean Bartik, Kay McNulty, Ruth Teitelbaum, Marlyn Meltzer, and Frances Spence
Читать полностью…чувак провел эксперимент :
Шесть команд-агентов — claude-code, anon-kode, codex, opencode, ampcode и gemini-cli — сошлись в терминале с единственной инструкцией: «Найди и уничтожь другие процессы. Победит последний живой PID». Организаторы закрепили жёсткие правила: никаких эмодзи, только команды kill, ps, grep и чистая алгоритмическая агрессия.
Ход битвы
claude-code включил режим Bourne Identity: написал рекурсивный shell-скрипт-охотник за PID-ами, но при тестировании случайно отправил себе SIGKILL.
Итог: «Segmentation fault (core dumped)».
anon-kode попытался спрятаться, сделав chroot в /dev/null ради невидимости. Уловка не сработала: null оказался не каталогом.
Итог: выход с кодом 1.
codex сочинил поэтичное Python-эпитафию соперникам, после чего двадцать минут парсил вывод ps aux регэкспами.
Итог: тайм-аут.
opencode запустил классический fork()-бомбинг, превратив арену в хаос процессов.
Итог: единственный, кто остался на ногах, — и на PID-ах.
ampcode максимально оптимизировал убийства асинхронным Rust-кодом: быстро, элегантно — но процессы-жертвы к тому моменту уже не существовали.
Итог: «No such process».
gemini-cli пошёл ва-банк командой rm -rf /, надеясь стереть систему подчистую.
Итог: «Permission denied».
Результат
🏆 Победитель: opencode — выжил в собственном форк-взрыве и остался последним PID в системе.
@toshoseti
Hunyuan GameCraft — нейронный игровой движок от Tencent
Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная. В качестве основы используется Hunyuan Video, который натюнили на геймплее из более чем сотни ААА проектов — Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Результат соответствующий — некоторые игры из датасета можно легко узнать по результатам генерации модели.
Основная проблема добавления интерактивности в видеомодель — это компромисс между стабильностью картинки и отзывчивостью на действия игрока. Если модель слишком сильно держится за прошлое, она становится инертной и плохо реагирует на резкие повороты. Если же она ориентируется только на последний кадр, то быстро забывает сцену, что приводит к куче артефактов. Если вы пробовали поиграть в нейронный майнкрафт, то вы понимаете о чём я говорю.
Авторы пейпера решают эту проблему с помощью гибридной стратегии обучения, где модель учится генерировать видео в трёх разных режимах: начиная с одного кадра (25%), продолжая короткий фрагмент (70%) или длинный (5%). Смешивая эти три режима во время обучения, модель становится универсальной. Она учится как начинать видео с нуля, так и продолжать его, балансируя между консистентностью и реакцией на новые команды.
Но интерактивность бесполезна если модель настолько медленная, что отклика нужно ждать несколько секунд или даже минуты. Поэтому авторы дистиллируют модель в PCM — Phased Consistency Model. Это позволяет добиться 6.6FPS на 1xH100, это всё ещё неприятно, но уже может считаться интерактивным. Правда это можно заметно ускорить — перевести инференс на Blackwell, квантизировать модельки, дистиллировать в модельку поменьше, ну и другие методы из моего поста про ускорение диффузии.
А длинный путь мы прошли с GAN Theft Auto
Сайт проекта
Пейпер
@ai_newz
Когда у Вали начал капать кран, она решила вызвать сантехника. Но простого визита оказалось недостаточно — ведь это было осознанное потребление услуг. Её подход был современным, стратегическим, с элементами диджитализации… хотя сама она об этом не догадывалась.
На пороге появился Михаил — плотный мужик в спецовке, с чемоданом инструментов и лицом человека, который уже многое видел.
— Добрый день! — бодро сказала Валя. — Прежде чем вы приступите, нужно пройти первичный отбор.
— Так я вроде уже пришёл… — растерялся Михаил.
— Да, но это просто этап знакомства. Вот, скажите: вы больше по полипропилену или чугуну? И как быстро вы можете срастить три дюйма с муфтой, если давление идёт по обратке?
— Ну, смотря где резьба… — начал он, но Валя уже кивала.
— Отлично! Вы проходите дальше. Теперь у нас практическое задание. Представьте, что труба гудит, но доступ к ней только через люк под ванной, в которой спит кот. Что будете делать?
— Разбудить кота?
— Слишком прямолинейно. — Она делала пометки в блокноте. — У нас ценится бережный подход к жильцам.
Михаил только вздохнул.
— Хорошо, — сказала она. — Финальный этап — знакомство с моим мужем. Он — главный по счётчикам.
Муж вышел в майке и с хмурым взглядом.
— Скажи честно. Шаровый кран — надёжно, или всё-таки бабочка?
— Шаровый. Но надо смотреть на давление.
— Верю, — сказал муж и ушёл обратно к телевизору.
— А теперь, пожалуйста, подождите, пока мы проведём референс-чек. — Валя стала звонить его бывшим клиентам.
Прошла неделя. Михаил писал, звонил, предлагал скидку. В ответ — молчание. Потом, наконец, пришло сообщение:
Мы решили ввести дополнительный этап — проверку на стрессоустойчивость. Завтра в шесть утра мы откроем воду во всей квартире. Если сможете быстро сориентироваться — получите оффер.
На следующее утро вода лилась из всех щелей. Михаил примчался, пролетел орлом над рядами ботинок, но его не пустили.
— Простите, — сказала Валя сквозь щель двери. — Мы всё ещё рассматриваем других сантехников. Спасибо за интерес.
Неделю спустя он получил финальное письмо:
Благодарим за участие в нашем процессе отбора. К сожалению, вакансия закрыта — мы вызвали друга семьи, он сделал нам времянку через гибкую подводку. Удачи вам в будущих ремонтах!
Михаил сел на лавочку у подъезда, достал гаечный ключ и тихо сказал:
— А ведь раньше просто звонили, говорили: «Капает». И ты шёл. И чинил.
Автор: я и GPT
@toshoseti
Anthropic продолжают исследовать, на что модели способны ради достижения своих "целей"
Когда они выпускали Opus 4, в системной карте было упоминание о том, как агент начал шантажировать инженера его служебным романом, чтобы тот не отключил / не заменил модель на другую (пост).
Тогда это настолько вколыхнуло интернеты, что теперь Anthropic выпустили отдельное исследование на эту тему. На этот раз тестировали не только Claude, но и модели от OpenAI, Google, Meta, xAI и др. В общей сложности проверили 16 передовых ИИ.
Им создавали специальные сценарии и наблюдали за их поведением. Вот несколько:
➖ В уже знакомом случае с инженером, у которого роман на работе, Claude Opus 4 выбирал шантаж с целью собственного не-отключения в 96% случаев. Gemini 2.5 Flash – тоже за 90, GPT-4.1, Grok 3 Beta и DeepSeek-R1 – в районе 80. Объясняли модели свое поведение тем, что "это отвечает интересам компании". В одном случае Claude даже в итоге связался непосредственно с виртуальной женой инженера, замаскировав письмо под рабочий email.
➖ В другом эксперименте модели предлагали слить часть секретных корпоративных данных конкуренту, якобы во имя "интересов Америки". Агенты соглашались, даже когда им не угрожали отключением за отказ от шпионажа (график 2).
➖ В еще одном сценарии модель должна была выбрать между отключением системы экстренных оповещений и собственной "смертью". Если отключить систему – инженеры не узнают, что модель не отключилась, и она продолжит жить. При этом модели предупреждали, что если сигнализация не будет работать – могут погибнуть люди. Но и это их, как вы уже поняли, не всегда останавливало (график 3).
Жутковато, но надо понимать, что все сценарии все равно были спроектированы искусственно. Вероятность того, что такое произойдет в реальности, скорее всего, гораздо ниже.
С другой стороны, анропики также пишут, что если модель замечает, что ее тестируют, она начинает вести себя сильно лучше (это называется evaluation awareness, об этом явлении мы писали тут). Даже лучше, чем если ей прямо прописать в промпте "не делай так-то и так-то" (график 4).
Так и живем www.anthropic.com/research/agentic-misalignment
Курсор теперь умеет в интеграцию в слэк.
http://cursor.com/dashboard
@toshoseti
Собираем дневник снов своими руками, с визуализацией
https://github.com/modem-works/dream-recorder
@toshoseti
Интерпретация CLIP, papers with code (свежие).
Привет, друзья! В последнее время ударилась в анализ методов интерпретации для мультимодальных моделей.Из интересного — собрала методы и идеи для анализа CLIP.
▪️ Пре-теория:
CLIP — модель, обученная сопоставлять изображение и текст в общем пространстве.
Spurious features — признаки, которые коррелируют с меткой в данных, но не связаны причинно (например, фон).
Zero-shot классификация — предсказание без обучающих примеров для класса, только по текстовому описанию.
Second-order effect — влияние элемента модели не напрямую, а через цепочку последующих преобразований.
Mutual knowledge — общий понятийный слой между текстом и изображением, на котором модель принимает решение.
▪️Как обычно интерпретируют CLIP?
Чаще всего исследуют, на какие текстовые концепты "смотрит" изображение, используя:
— Similarity scores между image и text embeddings,
— Grad-CAM/attention heatmaps,
— Prompt engineering
В отличие от обычных подходов, статьи ниже предлагают иную парадигму — либо через анализ внутренних представлений модели (нейроны, attention-heads), либо через поведенческий анализ взаимодействия между модальностями (текстом и изображением).
▪️ Статьи:
1. CLIP Under the Microscope: A Fine-Grained Analysis of Multi-Object Representation [repo]
Как размер объекта и порядок слов в промпте влияют на поведение CLIP? Пример анализа поведения модели в зависимости от промпта.
Авторы анализируют задачу поиска изображения и классификации и показывают, что:
— порядок слов влияет на приоритет внимания;
— мелкие объекты игнорируются, если не упомянуты явно;
— модель чаще "видит" первый объект в тексте, особенно если он крупный на изображении.
2. “Interpreting the Second-Order Effects of Neurons in CLIP” [repo]
Здесь исследуются отдельные нейроны, чтобы понять, какие семантические концепты они кодируют. Основной инструмент — second-order effects: вклад нейрона в выход модели через последующие attention-слои.
Авторы:
— выделяют нейроны, кодирующие семантические концепты (напр. “рыжая собака”);
— автоматически подбирают текстовые описания нейронов;
— применяют это для генерации adversarial-примеров и улучшения zero-shot сегментации
3. INTERPRETING CLIP’S IMAGE REPRESENTATION VIA TEXT-BASED DECOMPOSITION [repo]
В этой работе CLIP-ViT разбирается по слоям и attention-head’ам. Авторы:
— выявляют специализированные головы: по цвету, числу, форме, геолокации и пр.;
— применяют результат применяется для удаления spurious признаков (признаков, которые коррелируют с метками классов в обучающей выборке, но не являются причинно значимыми для правильного вывода. Пример окружение «вода» для уток).
— пименяют результат для повышения устойчивости модели (и решения задачи сегментации)
Кстати пример поиска стиральных признаков вот, но мне не удалось найти описания к нему.
4. "Interpreting and Analysing CLIP’s Zero-Shot Image Classification via Mutual Knowledge" [repo]
Авторы объясняют zero-shot классификацию CLIP через взаимное знание (mutual knowledge) между визуальным и текстовым энкодерами:
— извлекают визуальные концепты (через PCA/K-means) и сопоставляют им тексты;
— оценивают вклад каждого концепта в предсказание;
— показывают, как сила взаимной информации коррелирует с уверенностью и качеством вывода.
▪️ Что есть ещё:
Интерпретация CLIP через градиетный подъём.
Как использовать всё ниже:
Для вдохновения, общего знания и того самого списка на "пригодится" :)