Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space
Статья-продолжение исследований по генерализации нейросетей. Перед тем, как читать дальше, обязательно убедитесь, что не пропустили разбор первой части тут. Я не буду рассказывать, что за красно-синие кружки и треугольники, и что такое 010, но повторю самое интересное: выяснили, что модель может генерировать маленький синий треугольник, даже если никогда не тренировалась не только на нём, но и на маленьких синих фигурах, маленьких треугольниках и синих треугольниках.
В когнитивных науках компетенция системы в решении задачи часто противопоставляется ее перформансу: компетентность — это наличие у системы способности (например, общаться на языке), а перформанс — это активное использование этой способности в конкретных ситуациях. Например, человек-билингв может обычно общаться и рассуждатьна своем основном языке, несмотря на знание другого. При этом очевидно, что он компетентен в обоих языках, но для оценки их перформанса на неосновном требуется соответствующим образом «побуждать» его использовать именно этот его.
Можно провести аналогию с нейронными сетями, обладающими способностью, и нами, тестировщиками, которые пытаются выявить этот навык на предопределенных контрольных примерах и измерить их перформанс. Один из ярких примеров — CoT, цепочки рассуждений (не те, что у о1, а у моделей прошлых поколений). Когда в январе 2022-го вышла статья, то произвела фурор — там показывалось, что если дать модели команду рассуждать шаг за шагом, то это существенно увеличивает качество (в задачах по математике с 18% до 57%). Модель одна и та же, дообучения нет, а за счёт нового трюка, позволяющего «выуживать» знания более эффективно — такой прирост.
Примерно то же произошло с RLHF, когда OpenAI выпустили InstructGPT: они хвастались, что их новая модель на 1.3 миллиарда параметров даёт ответы лучше (с точки зрения оценки людей), чем модель в 100 раз больше. Почему? Потому что специальный процесс дообучения позволил LLM лучше утилизировать свои знания и навыки. На странице прям так и написано: «Один из способов представить этот процесс заключается в том, что он «разблокирует» возможности, которые уже были у GPT-3, но которые было трудно получить только посредством промпт-инженеринга».
Авторы текущей статьи исследуют на игрушечных примерах, в какой момент у модели «щёлкает», и она начинает обладать навыком, но мы всё ещё не можем до него достучаться/использовать его через запросы — на примере генерации изображений диффузионной моделью.
Они снова генерируют синтетические данные с кружками разных цветов и размеров, выкидывают один из классов (например, «маленькие синие круги») и оценивают, когда в ходе тренировки модель выучивает необходимые концепты, а когда (сильно позже) уже может генерировать объекты используя комбинацию концептов.
Модель 🇨🇳 вышла только вчера, а уже произвела ХЛОПОК в соревновании по решению математических задач AIMO 2. Напомню, это соревнование по олимпиадным задачкам, спонсируемое трейдинговой компанией XTX Markets. Специально для него подготовили полностью новые и уникальные задачи, все решения считаются в оффлайне без доступа к интернету (то есть o1-mini не получится использовать).
Больше деталей писал в анонсе первого тура, читайте тут. Тогда тоже было 50 задач, и качество оценивалось количеством правильно решённых (проверяется только ответ). Решение первого места справилось с 29 из них, поэтому для второго тура решили задачи усложнить (но и ресурсов для запуска моделей выдать побольше).
Последние 3-4 недели в топе были решения, которые решали 10 задач из 50 (ещё раз: потому что их усложнили, а не потому что LLM-ки потупели). Я стабильно заходил раз в 4-5 дней проверить, и было по 10 решённых задач, всего у двух команд! У остальных 9 и меньше.
Зашёл сегодня — первое место 18, второе 17, третье 15, и ещё человек 7-8 выше старого предела в 10 очков. Как минимум 9-ое место с 12 решёнными задачами уже написало, что их скачок 8->12 (кажется мало, но это же +50%!) обусловлен просто сменой модели на свежую QwQ. Скорее всего, 14-15 задач можно решить точно так же, просто немного поправив логику вокруг модели. Моя ставка что и 17-18 задач взяты этой моделью, просто с каким-то трюками (но без дообучения, так как прошло меньше суток) — ну не могло быть такого совпадения, что несколько команд независимо нашли где-то в углу или под матрасом +70-80% качества в один день.
Вот такой скачок в качестве может делать новая парадигма длительных рассуждений. Правда в некоторым смысле топовые места теперь в тупике — пока никто не знает, как дообучать модели с длинными цепочками рассуждений, статей нет, примеров нет, есть только очень верхнеуровневые догадки. А ещё возможно, что из-за ограничений соревнований нельзя будет претендовать на призы с этой моделью (QwQ), так как она появилась позже дедлайна. А может и нет, тут надо разбираться с правилами, может, какие изменения внесли — в первом туре точно было бы нельзя. Уже одобрили, можно.
UPD: очень жаль, что по окончанию соревнований приватные задачи не выкладывают, чтобы на них можно было прогнать o1-mini/preview и оценить, какой разрыв там.
https://youtu.be/ii1jcLg-eIQ?t=1367
> Seriously, it's easy to tell how smart people are in ten minutes. You know, hit a few tennis balls over the net and do they hit them back at you or into the net
(в своё время обнаружил, что эта фраза очень обижает людей, которые не умеют отбивать 😀)
((а вообще вся лекция Paul'а очень познавательная, смешная и интересная, если вы можете смотреть контент на английском — рекомендую посмотреть, даже если не планируете делать компанию или стартап. Ха-ха, да даже только ради того, чтобы вот так отвечать на вопросы после лекции/презентации))
А вот и табличка с результатами
— Success Rate: в скольки играх разгадала число
— Avg Turns: сколько в среднем ходов понадобилось в выигрышных играх
— Format Failures: сколько % ходов выдавали ответ, который скрипт не смог распарсить. o1-mini забивала на мою просьбу не использовать выделение жирным, за что и была оштрафована. Без этого может игр 66% бы выиграла...
Так что ответ на опрос: 55-70% (если топовая модель o1) и 25-45% если обычная не супер-дорогая и медленная.
5 дней назад в чате канала подписчик написал:Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов
Если вы не знали, или детство было давно, то Быки и Коровы — это простая игра для двух игроков на взлом кода. Один игрок загадывает секретное число (чаще всего из 4 цифр, все уникальные), а другой пытается его угадать за несколько попыток. В ответ на каждый запрос первый игрок должен сказать сколько быков и коров он насчитал — быки это точное совпадение и цифры, и её положения (первая, вторая...), а коровы — это когда цифра есть в секретном числе, но позиция неправильная.
На примере: я загадал 1234, вы попробовали угадать 1246. Я говорю: 2 быка 1 корова. Вы знаете, что две какие-то цифры на правильном месте (у нас это 1 и 2), и какая-то другая цифра (четвёрка) есть, но не на своём месте.
Вполне понятно, как перевести эту игру в диалог с ChatGPT. Чтобы LLM смогла успешно выпытывать у вас информацию, ей нужно:
— помнить ваши ответы на свои запросы
— рассуждать о том, какие опции существуют и какие числа нужно пытаться угадать, а какие уже правильно угаданы
===
А я сидел играл в STALKER 2 👀 и мне было лень это нормально проверять, чтобы показать, что человек не прав (это вообще моё любимое дело), я решил прихлопнуть и второго зайца за раз — попробовать использовать АГЕНТОВ (😯) для написания кода. Дать ему задачу, отойти поиграть, посмотреть одним глазком чё как, и так итеративно без проактивного вмешательства посмотреть, что выйдет. Для этих целей я выбрал ex-OpenDevin, ныне OpenHands (это как AI-программист Devin, которым удивляли в начале года, только с открытым кодом и поддерживаемый сообществом).
Мне показалось хорошей идеей быстренько проверить именно эту проблему с игрой, так как с одной стороны это достаточно просто, а с другой я предположил, что можно будет увидеть интересную картину в разнице результатов разных моделей. Ну и показать, что комментатор в очередной раз не прав 🙂
В итоге накодили бенчмарк, и пока я пишу следующее сообщение попробуйте угадать: в каком проценте игр LLM-ки справляются с задачей?
Ракета Falcon Heavy отправит уникальный аппарат Dragonfly на Титан.
Есть и хорошие новости для науки на этой неделе. Компании SpaceX выиграла новый контракт NASA по запуску межпланетного аппарата к спутнику Сатурна. Общая сумма контракта по фиксированной стоимости $256.6 миллионов, которая включает в себя отправку зонда и все дополнительные услуги.
Dragonfly — это винтокрылый летательный аппарат, по сути дрон, с радиоизотопным термоэлектрическим генератором (РИТЭГ) и массой около полутонны, который будет летать по Титану. Его основная миссия должна продлиться около 3 лет. Дата запуска назначена на 5-25 июля 2028 года. Вокруг самой миссии ходило много новостей про отмену, но видимо удалось спасти.
Интересно в выборе Falcon Heavy то, что по сути ракета наконец-то сертифицирована для запуска радиоактивных элементов, а конкурентов на контракт по сути не было. Из ныне летающих опций по сути есть только Vulcan Centaur, у которого пока что нет нужного налёта для оценки безопасности.
Выводы:
— Модели часто хорошо описывают объекты и их положение, но им сложно точно определить их местоположение (указать координаты). Оценка по тексту была слабо скоррелирована с точностью рисования прямоугольника. Причём, даже для крупных объектов.
— (первая картинка) качество моделей на текстовой задаче. Доля полностью правильных ответов у всех трёх моделей почти одинаковая; а вот в mostly correct Gemini вырывается вперёд. Часть этого эффекта точно можно списать на то, что модель оценивает саму себя, а не других. Эти две категории правильных ответов дают 55%, 73% и 49% для моделей (сверху вниз).
— (вторая картинка) показывает, что и на объективной метрике GIoU Gemini лучше, у неё она равна 0.13, а у других -0.6 и -0.67 (то есть предсказанный прямоугольник в среднем почти не пересекается с истинной разметкой). Почти наверняка такая разница в качестве связана с тем, что Google дообучил свою модель на предсказание прямоугольников, так как это стандартный формат для указания объектов. У них прямо в одном из релизов было написано, что модель умеет нативно предсказывать координаты, она в этом шарит. Последний Claude тоже немного этому обучен (в ComputerUse-режиме он умеет предсказывать, на сколько пикселей нужно двигать мышку), а вот про GPT-4o информации нет. Ну, надеюсь хоть в 5-ке завезут)
— галлюцинации: автор спросил про все 50 картинок, где находится телескоп (его там не было). GPT-4o выдумала его в 96% (!) случаев, Claude 3.6 30%, а Gemini в 12%, зачастую спутав его с камерами или биноклями.
— Вывод от автора: Wimmelbench convinced me that the big lab’s language models indeed cannot see as well as they read. I suspect part of it is due to object size, part due to post-training, and part due to tokenization and model architecture.
И один вывод от меня — это очень круто, когда кто-то собирает на коленке оперативно бенчмарк и затем публикует его. Хороший способ прощупать модели в интересных вам задачах, потратить выходные и узнать что-то новое.
На неделе Figure.AI, компания, делающая коммерческих роботов (и запартнёрившаяся с OpenAI), выпустила апдейт по результатам трёх месяцев работы с BMW.
CEO компании похвастался, что теперь их роботы действуют автономно (без телеоперации, то есть удалённого управления человеком), и что они на «400% быстрее с в 7 раз большим показателем успешного выполнения задачи». Цифры могут выглядеть впечатляющими, но такие большие приросты всегда означают низкий старт — то есть что старые результаты были слабыми. Например, увеличение доли успешно выполненных задач в 7 раз означает, что... раньше он был не более 100% / 7 ~= 14.3%.
За эти три месяца компания соорудила физические/цифровые двойники, точно воспроизводящие среду работы, существующую на объекте клиента (см. видео — это физическая копия). На них роботы и практикуются, оттачивают навыки (= собирают данные для дообучения). Пока что показывают всё ту же одну задачу — снять три детали со специального держателя, положить аккуратно на специальную форму так, чтобы пазы/штыки совпали. По прошлому анонсу можно предположить, что задача требует точности манипуляций не более полусантиметра (бОльшие отклонения не позволят выполнить задачу).
Ещё написали, что делают 1000 установок (деталей на подложку) в день, но не ясно, это каждый робот или «флот» из как минимум трёх (на видео). Я бы поставил на последнее.
К сожалению, отсутствие процента успешно выполняемых задач в автономном режиме (он может быть хоть 70%, хоть 98%) и сравнения с человеком по скорости (1000 — это много или мало?) не позволяет делать заключения о близости интеграции в реальные производственные процессы BMW.
😳 😳 😯
Три года разницы, слева — тест посадки с полётом на 10 КМ, справа — после суб-орбитального с подъемом на 170 км. Снято с буя 😎
И теперь ждём ещё одного приводнения, а после — попытки посадки на башню.
Источник
Как написал в первом посте, в реальном офисе тестирований было мало из-за естественных ограничений. Для более полного тестирования применили очень крутой приём, про который хотелось рассказать. Авторы взяли видеозапись и применили к ней Zip-NeRF (или видео демки в тг вот в этом посте); это такой алгоритм нейронного рендеринга, который по набору фоток воссоздаёт 3D-сцену и позволяет генерировать изображения с новых ракурсов, в том числе любые произвольные пролёты камеры по пространству. В случае этой работы реконструкция делалась на основе 3244 фотографий (части видео).
Но алгоритм именно что рендерит картинку (которую можно подавать в понимающую видео Gemini), поэтому поверх этого применили метод из вот этой работы для генерации 3D-сетки пространства, запихнули это в симулятор как 3D-модель, поместили туда копию робота и прогнали 1000 тестов, 20 инструкций и 50 случайных стартовых точек для каждой. Gemini успешно справилась с 90% задач (правда тут выкинули все запросы из категории «маленькие объекты»).
С такими виртуальными симуляциями получается относительно легко существенно масштабировать тестирование, не ограничниваясь реальным миром. Они уже вовсю применяются в роботах и не только — например, Wayve, стартап, делающий автопилоты для машин, вовсю хвастается GhostGym.
На фото сравнение реального изображения (части видео) и сгенерированного NeRF'ом как часть симуляции.
Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs
Ранее в канале писал разборы статей, которые предлагали строить некий иерархический граф, по которому LLM/VLM будет ориентироваться и отвечать на запросы. Авторы из Google летом решили пофлексить длинным контекстом Gemini 1.5 Pro, в который влазит час+ видео, и сформулировали задачу Multimodal Instruction Navigation with demonstration Tours (MINT). Как следует из названия, предлагается решать задачи навигации через прямое использование видео-тура с локации.
Запись и использование демонстрационного видео-тура имеет несколько преимуществ:
1) его легко собирать: пользователи могут хоть просто записывать видео на смартфон во время прогулки по окружающей среде
2) это естественно:когда пользователь получает нового домашнего робота, для него ОК показать окрестности своего дома, к тому же снабдив отдельные части комментариями
В техническом плане всё просто и понятно: 1) видео-тур нарезается на слайды (1 кадр в секунду) 2) подаётся в Gemini с аннотациями «кадр 1: <опциональный комментарий>, кадр 2:...» 3) а после следует запрос, который может включать не только текст, но и картинку. Например, человек может в руках держать коробку, и фотография этого вместе с вопросом «Куда мне это вернуть?» составляет задачу навигации. От Gemini требуется вернуть наиболее релевантный кадр (его номер), после чего отдельный внешний алгоритм, никак не связанный с LLM, просчитает, как роботу доехать до точки, привязанной к кадру. Получается, что модель используется как умный незапрограммированный поиск релевантного контекста.
Для теста взяли одно крупное помещение, 836 квадратных метров, сняли 16-минутное видео (948 кадров, если брать по одному в секунду) и его пихали в контекст. Вообще для теста придумали 57 разных вопросов, которые можно разделить на 4 типа: просто поиск объекта, поиск с рассуждениями (нужно выявить связь), поиск маленьких слабозаметных объектов и мультимодальные инструкции (это как раз где в запросе есть картинка).... но тестирование на них всех не производилось из-за временных ограничений 🤷♂️. Однако выбрали по 5 задач каждого типа, и запускали их не один раз, а из четырёх разных стартовых точек.
Получилось решать задачки в целом в 80-85% случаев, кроме поиска маленьких объектов — там просело до 40%, так как Gemini просто не смогла разглядеть детали. Это сильно больше, чем у пайплайна, где делается поиск по релевантным кадрам с помощью CLIP (описывал это тут и тут), то есть большая модель гораздо более качественно использует видео-тур.
Ещё пробовали брать GPT-4o, но так как контекст у неё короче, то брали каждый пятый кадр (то есть раз в 5 секунд). При таком сетапе Gemini просела на 10-30% относительно 1 FPS, но всё равно была лучше GPT-4o (на 10-25%; выглядит как большой разрыв, не знаю, ошиблись/поленились ли авторы в тесте или реально так плохо было).
Прошло полтора месяца с анонса o1 от OpenAI, и вот сегодня китайцы из DeepSeek удивляют первым конкурентом. Я бы не подумал, что среди компаний уровня Google - META - Anthropic именно они смогут первыми удивить релизом.
Они представили модель DeepSeek-R1-Lite-Preview, но к сожалению без деталей касательно обучения и сбора данных. Модель пока доступна в онлайн-чате, зато видны все рассуждения, а не только краткая выжимка — однако обещают, что и веса LLM-ки, и API для неё опубликуют скоро.
На первой картинке — результаты бенчмарков, на задачах с AIME модель обходит o1-preview (но полноценная o1, со слов OpenAI, выдаёт 74.4). На LiveCodeBench (задачи на LeetCode, добавленные с августа 2024-го, то есть «новые», хоть похожие на них наверняка были в интернете до этого) тоже прирост относительно других моделей очень ощутимый.
На второй картинке — результаты масштабирования процесса размышлений R1 (с точки зрения процента решённых на AIME задач):
— Pass — это результат модели, если делать одно предсказание на задачу и его сверять с ответом. В данном случае масштабируется длина единственной цепочки рассуждений, чем больше — тем выше качество
— Majority Voting это дополнительная техника для улучшения качества за счёт генерации нескольких независимых цепочек рассуждений с последующим выбором ответа через взятие самого часто встречающегося предсказания (грубо говоря голосование)
Обратите внимание на значения на горизонтальной оси, самые правые точки — результат аггрегации цепочек рассуждений общей длины более 100'000 токенов.
На третьей картинке я задал LLM-ке задачку с олимпиады 4-го класса, ответ правильный (решение не проверял, чат тут). Вы можете потестировать модель сами тут:
https://chat.deepseek.com/
Можно авторизоваться через Google аккаунт. Доступно 50 запросов в день.
🇨🇳 Китай вперёёёд 🇨🇳
Я сначала увидел в твиттере и не поверил, подумал, что это шутка.
В США с 2000-го года существует United States–China Economic and Security Review Commission. В комиссии 12 членов, сама комиссия подчиняется только Конгрессу и не является частью никакого агентства или департамента. Каждый год до 1-го декабря комиссия публикует отчёт, в котором в том числе даёт рекомендации Конгрессу.
Свежий отчёт опубликовали час назад, и в нём первым пунктом в блоке ключевых рекомендаций идёт...
«Учредить и профинансировать программу, подобную Манхэттенскому проекту, направленную на разработку и использование возможностей искусственного интеллекта общего назначения (AGI)»
😐😐😐
===
Спросил у ChatGPT, насколько важна эта Комиссия и как часто Конгресс прислушивается к рекомендациям. Не ручаюсь за правильность оценки, но нейронка сказала, что в целом к рекомендациям прислушиваются, хоть и не все исполняют.
Идём перечитывать SITUATIONAL AWARENESS и/или пересматривать интервью с Leopold'ом из OpenAI
Помните, вместе с новым Claude 3.5 вышел Computer Use Preview (Beta API)? Это режим, в котором модель получает на вход картинку рабочего стола и предсказывает, куда надо кликать, чтобы выполнить задачу.
Подоспела первая статейка с тестированием навыков на 20 задачах: A Preliminary Case Study with Claude 3.5 Computer Use. Разбирать мы её не будем, внутри особо ничего нет. Единственное, что по сути добавили авторы — это критика, который после некоторых действий комментирует ход выполнения и проверяет, что условия выполнены.
Эти 20 задач покрывают 12 разных программ, от браузера и Word'а до компьютерных игр. Claude не справилась с четырьмя запросами. Один раз не смогла проскроллить страницу (на это ещё жаловался Денис), два раза не сработало выделение текста двойным щелчком (выделилось только имя, а не Имя+Фамилия, и то же самое с телефоном), и один раз модель выбрала не те ячейки в Excel (C6:C15 вместо D6:D16), скорее всего из-за неидеальности визуального восприятия. В последних случаях не спас даже критик — он прокомментировал, что всё ок. Есть куда расти, в общем, ждём развития и стабильной не-бета версии (в том числе и от OpenAI — по слухам, они выпустят свой аналог в январе 2025-го).
На первой картинке список задач и результат (очень жаль, что запускали по 1 разу, а не 3-5), если вам интересно — можете полистать статью, посмотреть картинки и почитать рассуждения модели. Иногда критик срабатывал верно и позволял вернуться к корректному способу решения задачи.
2-ая картинка — ход в карточной игре Hearthstone
3-ья картинка — закрытие дейликов в гача-игре Honkai: Star Rail
На других картинках всё понятно
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models (сайт проекта)
Ещё одна статья в копилку использования LLM для составления планов действий, исполняемых роботами (правда тут до них дело не дошло, тестировали виртуального человечка в виртуальном же доме). Написала за пару месяцев до выхода ChatGPT, но на тот момент уже были доступны разные варианты GPT-3 / 3.5. В такие моменты очень жалею, что авторы не возвращаются через полгодика к своей работе и не перезапускают код с более свежими моделями, чтобы замерить приросты 🥹
Напомню основную проблематку: составление плана выполнения задач может потребовать определения огромного количества знаний о мире, в котором должен действовать робот. Хочется использовать LLM для автоматизации того, что называют common sense, ну например что микроволновку нужно открыть перед тем, как класть в неё непустую тарелку или другую тару (а какую-то и класть нельзя). А потом ещё и закрывать...
SayCan, который я недавно разбирал, опирался на чётко зафиксированный набор действий и объектов. Это работает для малых масштабов, но когда объектов и действий много, а их сочетаний ещё больше — в контекст LLM'ок это просто перестанет помещаться (особенно в старые добрые 2022-ые). По сути, работа авторов этой статьи заключается в составлении промпта, позволяющего LLM сгенерировать Python-подобный код, описывающий ход решения задачи, оперируя по отдельности объектами и действиями. Действием может быть взять(что-то) или открыть(что-то), а объекты любые произвольные.
Промпт состоит из трёх частей (всё это выглядит как код):
1) набор доступных методов (действий) и объектов. Прям так и пишут, objects=[sink, pie, apple, ...]
2) несколько примеров того, как пишется план-функция для выполнения задач. Авторы берут по 2-3 вручную собранных примера, прописывая каждый шаг: куда роботу пойти, что открыть, что взять. По сути это few shot learning, позволяющий модели понять, как использовать объекты/действия. Примеры, которые использовались в работе: “put the wine glass in the kitchen cabinet”, “throw away the lime”, и “wash mug”. Смешно, что в работе жалуются на размер контекста LLM — для некоторых тестов влазит всего 2 примера (или даже 1). Сейчас можно было бы вкинуть несколько десятков...
3) описание новой задачи, которую нужно декомпозировать. Описание задаётся названием функции, def microwave_salmon():
— нужно подогреть лосось в микроволновке.
На этом промпт кончается, и дальше LLM естественным образом генерирует продолжение. Авторы добавляют от себя два штриха для улучшения качества планов:
1) комментарии, разбивающие код в примерах на логические блоки, мол, вот эти 5 действий это для того чтобы открыть мусорку, эти 3 чтобы выкинуть мусор, другие 7 это чтобы вернуться в исходную точку, закрыв мусорку, итд. Явное проговаривание логики, скрытой за кодом
2) добавление assertions, то есть пререквизитов для дальнейшего исполнения плана. Например, чтобы открыть мусорку, надо сначала к ней подойти — тогда нужно проверить, что расстояние меньше полуметра. Если больше — вставляем действие «идти» в план.
Оба приёма накидывают в качестве, измеряемом как доля успешно выполненных задач в виртуальном дом (в нём 115 предметов, всего 70 задач, от 3 до 18 действий в плане выполнения). Про метрики особо писать нечего, так как всё немного устарело, ну, лучшая модель решила 40%. Это был CODEX, GPT-3, заточенная на программирование, что не удивительно (обычная давала 34%).
Наткнулся на интересный ресеч рынка корпоративных LLM 2024:
— OpenAI потеряла за год 16% корпоративного рынка (не путаем с ChatGPT)
— Anthropic же приобрел на 12% долю рынка
— На втором слайде самые популярные юзкейсы LLM в корпоративном мире — на первом месте написание кода
— У каждого крупного департамента в корпорациях появился бюджет на генеративный АИ и он растет
— Про архитектуры, третья картинка: RAG стал еще популярнее в корпо-мире, промпт инженеринг теперь мало кому интересен, как и файнтюнинг моделей под задачи, а вот агенты набирают обороты при выборе архитектуры
— Отдельно отмечено, что корпоративный мир выбирает генеративный АИ на основе качества генераций (в любом домене), так как для них часто это прямо влияет на скорость возврата инвестиций
Вставлю свои 5 копеек:
Мне тоже кажется 2025 год будет про агентов, так как наконец-то экономика генеративного АИ всем понятна
Файнтюны падают, потому что нет смысла — сейчас одна гигантская модель часто решает все задачи сразу (но кончено же есть исключения)
Промт инженеринг упал, потому что его уже пишут сами LLM и оно нормально работает
Агенты только-только начали свою бизнес-адаптацию и будут набирать обороты вплоть до AGI
Китай наносить удар! дракон!
Вторая китайская команда, на этот раз Qwen-часть AliBaba, разродилась o1-подобной «размышляющей» моделью. Тоже превью (все видимо ждут полную о1, чтобы начать релизить?), тоже без технических деталей и статьи, зато сразу с доступными весами:
https://huggingface.co/Qwen/QwQ-32B-Preview
Тем, кому хочется сразу помучить модель вопросами, без возни с GPU, можно поиграться тут: https://huggingface.co/spaces/Qwen/QwQ-32B-preview (пока очередь маленькая)
Блогпост
К посту прикреплена картинка с метриками. Для 32B модели (да даже если бы было 405b) результаты очень-очень нетривиальные — Qwen-2.5 и до этого считался очень сильной моделью (с которой даже иногда избегали сравнение другие авторы моделей, ахахха, чтобы не выглядеть на их фоне вторично), а тут в два раза меньшая моделька такие скачки совершает
===
ждём пока развернут API, чтобы замерить в нашем бенчмарке 😎
Весь код опубликован тут: https://github.com/stalkermustang/llm-bulls-and-cows-benchmark
Вместе с кодом выложены и все диалоги с LLM, если вдруг захотите углубиться и посмотреть, где они лажают в логике (или наоборот как хитро раскручивают угадайку). Также выложены все промпты, ну в общем прям всё-всё что только можно.
Буду рад, если вы поставите звёздочку репозиторию (не тут, не в ТГ) за эксперименты.
(но напомню, что примерно 90% кода, не считая Readme-файла, было написано Claude Sonnet 3.6)
===
Сейчас получились очень толстые доверительные интервалы в оценках, так как модели играли всего по 50 игр. Самые лучшие модели, которые имеет смысл тестировать, стоят достаточно много. Если у вас есть желание поделиться API-ключом OpenAI/Anthropic с балансом в $200-250, которые не жалко, или если вы и вовсе хотите сами прогнать модель и опубликовать результаты — милости просим ко мне в личку, на почту или прямо на GH.
UPD: если накидаете прям много звёздочек, то я либо на свои потестирую по 300 игр (не 50), включая o1, либо с такой репутацией будет можно попросить API-ключи на тестирование у самих OpenAI/Anthropic (они любят раздавать на проекты). Так что поднажмите пж 🙏
Чтобы узнать ответ, Claude Sonnet 3.6 написала промпты (как часть кода, я их не сильно трогал) для объяснения правил и написания обратной связи (сколько коров и быков), код самой игры и валидацию ответов LLM. Правда, я не доверял коду, поэтому попросли нафигачить тестов, которые уже сам внимательно отсмотрел и проверил. Получился такой test-driven development, TDD. Именно поэтому в таком простом проекте 32 теста... я в рабочем-то коде столько не пишу 😀
Итого каждая LLM (кроме o1-mini) сыграла 50 игр, каждая не больше 15 ходов. 15 — моё ограничение, по которому я произвожу отсечку и заключаю, что LLM не разобралась и уже не решит задачу. Это может казаться маленьким значением, но вообще игра с 4-значным числом решается за 7 ходов (это доказано математически). 15 — это вдвое больше, взял с запасом. Ограничение по ходам позволяет сильно экономить $ на тестирование, так как каждый следующий запрос включает в себя всю предыдущую цепочку рассуждений (прям тех, что выдала LLM, я их не обрезал) и ответов.
Результаты в табличке
— o1-mini, модель со встроенным рассужденим, закономерно заняла первое место с большим отрывом. Она угадала число в 60% игр, и в них ей потребовалось в среднем всего 9.1 хода, чтобы справиться. Смешно, что первые 14 игр она вообще шла без поражений, а вот в оставшихся 9 выиграла лишь 1, поэтому процент побед просел( Но именно поэтому тут и отражены доверительные интервалы, которые к сожалению получились достаточно широкими
— Sonnet 3.6 и GPT 4o находятся на примерно одном и том же уровне, 30-35% побед
— GPT 4o-mini находится достаточно высоко, опережая многие открытые модели. По замерам вышло, что это лучшая маленькая моделька. Так она ещё и стоит копьё — на тесты ушло $0.1, я думал что баг какой-то)
— модели Google как-то очень плохо себя чувствуют. Причём я читал их цепочки рассуждений, начинают они за здравие, но не хватает сил закончить, дожать последние шаги в логике
— младшее семейство Claude, Haiku, вообще не вывозит. Даже с 3-мя цифрами вместо 4 в секретном числе у неё было что-то около 2-4% решений (1 или 2 задачи).
o1-mini оооочень дорогая за счёт длинных цепочек рассуждений, так на них ещё и скидки за кэширование нет (-50%). 25 игр стоили $24, второе место Claude Sonnet 3.6 $5.2, GPT 4o $2.29
OpenAI не экономят на спичках🔼
Не забываем, что миссия Dragonfly возможна во многом благодаря смелому вертолётику Ingenuity, летавшему по Марсу. Про него я писал раньше в канале, обязательно почитайте: /channel/seeallochnaya/1018
Dragonfly будет гораздо крупнее (450 килограмм против 1.8)
Ну и загадки с моими вопросами в этот воскресный день!
Картинка 1:
— сколько котов слушают сольный концерт?
— где второй капитанский штурвал от корабля?
— где живой енот?
Картинка 2:
— где целующаяся пара?
— где обглоданная рыба?
— где магический шар?
(пожалуйста, прячьте ответы, в том числе картинки со стрелчоками, под спойлер)
How well can LLMs see?
Интересный коротенький блогпост о любительском проекте по созданию бенчмарка для VLM. Помните журнал «Открой мир с Волли»? Мне такие в детстве покупали, там Волли путешествовал по стране, рассказывал про неё, а ещё там были виммельбухи — иллюстрации с большим количеством деталей, по которой нужно или отвечать на вопросы, или находить объекты (например, найти 20 разных Волли, персонажей в красно-белых костюмах).
Для оценки того, насколько хорошо модели ориентируются в большом количестве текста, есть бенчмарки вроде Needle in a Haystack, а вот Wimmelbench — попытка сделать то же для картинок. Автор собрал 50 изображений в интернете, вручную разметил их через простую веб-страничку, которую ему помог написать Claude, сделав два типа аннотаций: детальное текстовое описание (положение объекта, характерные черты, что рядом, итд) и bounding box — указание координат прямоугольника, в котором находится объект (нужно 4 цифры, чтобы описать фигуру).
А дальше сравнил на этом Gemini 1.5 Pro, GPT-4o и Claude-Sonnet-3.6. Модели подаётся картинка, задаётся вопрос про положение предмета, который был предварительно размечен человеком, и VLM должна либо ответить точным текстовым описанием, либо координатами прямоугольника. Первое автор решил проверять автоматически через Gemini 1.5 Pro («вот картинка, вот мой ответ, а вот ответ модели — насколько он правилен?), второе — через GIoU, если коротко, это мера от -1 до 1 того, насколько пересекаются прямоугольник из разметки (истинна) и ответ модели (предсказание).
Со слов автора, Gemini 1.5 Pro неплохо размечала ответы за него, и лишь в 10% отсмотренных кейсов он мог бы как-то придраться к ответу. Правда при всего 50 картинках 10% аннотаций это многовато, ну, ладно.
Hardware Failures Won’t Limit AI Scaling
Свежая аналитическая заметка от Epoch AI по дальнейшему масштабированию мощностей для тренировки. На этот раз (вот первый и второй предыдущий от них же) они пытаются ответить на следующий вопрос: насколько сильно скейлинг ограничен проблемами с железом?
Графические процессоры могут выходить из строя во время тренировки по разным причинам: повреждение памяти, отключени/перезагрузка, проблемы с сетью. Даже один немного замедленный графический процессор может стать узким местом всей системы, если его не заменить.
Когда Meta обучала самую большую Llama 3.1 на 405B на 16'000 GPU, то случилось более 400 отказов оборудования за 54 дня — по одному каждые три часа. Если масштабировать это на пуски с более чем 1 миллионом GPU, то эти отказы будут происходить каждые несколько минут.
Сбой почти всегда означает потерю данных в памяти, что приводит к нарушению обучения. Поэтому по ходе тренировки модели регулярного сохраняются (делаются «чекпоинты») для сохранения состояния обучения (включая и модель, и накопленные оптимизатором статистики), что позволяет восстановить какую-то недавнюю точку в обучении сразу после сбоя и продолжить работу.
Но сохранение занимает какое-то время, и тренировка не может идти, если время на сохранение и загрузку/синхронизацию больше времени между отказами оборудования. Например, тренировочный скрипт Llama 3.1 405B сохранял прогресс в хранилище с пропускной способностью 2 ТБ/с, и на сохранение необходимых ~5 ТБ информации уходило ~2,5 секунды.
Если зафиксировать этот размер модели, сохранить пропускную способность хранилища и периодичность выхода оборудования из строя, то тогда тренировка может масштабироваться до ~70 миллионов видеокарточек. Но на таком огромном кластере скорее всего и модель будут тренировать крупнее (это выгоднее с точки зрения финального качества), поэтому с ростом модели растёт и количество информации, которую нужно сохранять.
Авторы прикинули, что при текущем общепринятом темпе масштабирования кластера смогут вырасти до ~4 миллионов GPU — что пока всё ещё больше, чем запланировано до 2030 года (там, по слухам, хотят иметь кластер на 1M чипов). И это даже если не использовать продвинутые методы сохранения (например, можно резервировать часть памяти всех GPU и делить модель между ними. Такая подсеть внутри самих GPU в кластере быстрее, чем внешнее хранилище. Про это подробнее в самой статье).
Так что такого рода проблемы (пока) не ограничнивают масштабирование. Преодоление аппаратных сбоев по-прежнему будет серьезной инженерной задачей, требующей эффективной смены GPU на лету, обслуживания и защиты от непредвиденных событий. Но это влияет только на скорость обучения, а не на осуществимость.
UPD: 4 миллиона это много по текущим меркам, как вы видите, LLAMA 3.1 405B училась на 16'000 карт, предполагаемая GPT-5 на ~100-130k карт, и в следующем году ожидаются модели на ~500k карт, но распределённо, не в рамках одного многокомпонентного датацентра.
И еще немного утечек от OpenAI.
Есть слух, что через неделю-другую будут новости про НовоСору.
А пока посмотрите новое видео из текущей Соры.
И что тут бросается в глаза?
Лицо.
По сравнению с последними видосами от Соры, где лица все ухудшались и ухудшались (точнее задвигались на дальние планы, где генеративные лица всегда выглядят плохо ибо теряют отметку "лица"), здесь просто огонь.
И тут явно порылся image2Video, которым Сора никогда особо не флексила.
Текстуры, проработка лица, консистентность - тут все явно на костылях, выходящих за рамки простого text2video (моя гипотеза).
В общем подбросим дофамин ожиданиями скорого релиза или хотя бы демо новой Соры.
А пока у них тихий апдейт качества ответов chatGPT-4o (да, 4о, а не о1).
Цитирую: "Творческие способности модели к написанию текстов повысились - они стали более естественными, увлекательными и адаптированными для повышения релевантности и читабельности. Она также лучше работает с загруженными файлами, обеспечивая более глубокое понимание и более тщательные ответы."
https://x.com/OpenAI/status/1859296125947347164
@cgevent
Вот примеры четырёх типов вопросов + вид сверху на пространство, в котором надо ориентироваться. Снизу справа робот.
Добавлю, что хоть в первом посте и написано, что можно снимать видео с телефона — тут тесты производились с предварительной записью с робота. Со смартфоном (Google Pixel 6) был отдельный тест в среднего размера комнате. Видео-тур был 75-секундный, пробовали всего 5 вопросов, 100% решили (см. картинку номер два).
Вам повезло, что у меня медленный интернет, и свежевышедшая игра STALKER 2 будет долго качаться — за это время напишу разбор или два в канал 🍿
Всех, кто ждал игру долгие годы и кто фанатеет по серии, поздравляю с релизом 🤘 Удачной охоты, сталкеры
Для тех, кто ночью спал и не смотрел пуск — краткое саммари:
— вы не так много пропустили, попытки посадки на башню не было: какие-то из показателей не были в норме, и системе не была отдана команда «лети к башне». Поэтому ускоритель аккуратно сел на воду, работали все двигатели. Пока не ясно, что пошло не так, но есть спекуляции, что проблемы в башне (якобы она получила повреждения при взлёте)
— корабль успешно продемонстрировал перезапуск двигателей в космосе (с использованием топлива из дополнительных баков)
— несмотря на новую траекторию захода в атмосферу под большим углом, а также отсутствие нескольких тысяч плиток в тепловом щите, корабль пережил все процедуры
— по итогу Starship успешно приводнился в отведённой зоне (снова было видео с предварительно оставленного буя). Эту часть стрима вы можете посмотреть в прикреплённом видео — впервые не в тёмное время суток!
В целом, миссию можно считать частично успешной, корабль так вообще по полной программе прошёлся.
Напомню, что это был последний полёт для серии V1 — дальше начнут летать V2. В них тысячи инженерных изменений, а самое заметное для внешнего наблюдателя — увеличенная высота (и как следствие размер баков).
Elon написал, что ещё одна мягкая посадка корабля на воду — и после этого они предпримут попытку посадки уже на сушу (не ясно, на башню или нет). С одной стороны это значит, что следующий пуск может быть по такой же траектории (а значит новой лицензии не нужно), с другой — сама ракета новая, и наверняка там что-то нужно лицензировать. Надеюсь, не очень сильно затянется, и до марта увидим первый полёт 2025-го!
🚀🚀🚀
Шестой запуск Starship Super Heavy сегодня ночью.
Примерно через 12 часов открывается окно запуска для самой большой ракеты в истории, и последний полёт для корабля Starship V1. Поэтому держите чек-лист по ключевым этапам миссии Flight 6:
⚪️ Старт, прохождение зоны Max Q, горячее разделение ускорителя и корабля;
⚪️ Запуск 6 двигателей на Starship и перезапуск 10 двигателей (3 будут работать) Super Heavy B13 для первого тормозного манёвра;
⚪️ Команда «Go for catch» и перезапуск 13 двигателей Super Heavy B13 для второго тормозного манёвра и посадки;
⚪️ Успешная посадка Super Heavy B13 на манипуляторы и захват ускорителя;
⚪️ Super Heavy B13 проходит программу безопасности на площадке;
⚪️ Выход корабля Starship S31 на плановую незамкнутую орбиту;
⚪️ Тест перезапуска 1 двигателя Raptor на орбите;
⚪️ Вход Starship S31 в атмосферу под более высоким углом и прохождение зоны максимального нагрева;
⚪️ Манёвры в зоне максимальной нагрузки для теста живучести корабля;
⚪️ Обрезанная теплозащита Starship S31 выдерживает вход в атмосферу, плавники не расплавляются;
⚪️ Перезапуск 3 двигателей S31 с симуляцией мягкой посадки в океан в нужной точке — камеры с буя показывают посадку;
И после окончания миссии Flight 6 проставим нужные галочки и сравним. Если предыдущий запуск можно назвать самым успешным, то этот должен закрепить результат.
Уже в следующий миссии Flight 7 нас ждёт сильно обновлённый корабль и первый представитель блока Starship V2. Программа постепенно выходит из первой фазы тестирования, и в 2025 году будут запуски на замкнутую орбиту и отработка возвращения корабля на башню.
На картинке слева пример того, как выглядит собранный промпт, а справа пример генерации LLM'кой плана для новой задачи (`def microwave_salmon():`).
В конце работы исследователи анализировали ошибки, почему всего 40% решено, и самая большая группа проблем — это что часть действий недоступна в разные моменты времени. Например, нельзя сидя открыть что-то, что стоит рядом (даже если проверка на расстояние до объекта пройдена) — просто ограничения движка для запуска виртуальной симуляции. Странно, что они с этим ничего не делают и не пытаются побороть основной источник проблем.
Вторая группа — это отсутствие обратной связи от среды по ходу исполнения плана. План генерируется один раз в самом начале, и если вдруг что-то не учтено — полный провал. В то время как можно было бы в моменты затыка давать новое состояние в промпт, делать ещё одну генерацию с текущего места, и пробовать довыполнить задачу. Надеюсь, в какой-то из будущих работ это проверили, но я пока не искал.
Релиз GPT-5 или как там её назовут будет скоро (ориентировочно первый квартал 25-го), а её базовое обучение закончилось в сентябре, согласно TheInformation. Это означает что модельку уже тестируют и гоняют. Может, не в полную силу, например, только первый круг внутренних тестировщиков, а не внешние подрядчики, но всё равно.
Полезно посмотреть, какие бенчмарки недавно выкатывали OpenAI, потому что скорее всего по ним и компания, и мы сможем заметить прогресс между поколениями. Конечно в комментариях всегда найдутся умники, которые будут оправдывать рост с условных 30% до 80% просто переобучением на этих конкретных данных, и что на самом деле это всё маркетинг, ну, их мы игнорируем (и баним 😀).
Итак, 3 последних бенчмарка, все вышли с августа по октябрь 24-го. Начнём с конца:
1️⃣SimpleQA, множество сложных вопросов, требующих фактических знаний. Лучшие модели отвечают примерно на 40%, но что более важно — не очень хорошо понимают, когда они знают ответ, и потому вместо «я не знаю» отвечают с ошибкой. Подробный разбор я делал тут.
2️⃣MLE-bench, бенчмарк для измерения того, насколько хорошо ИИ-агенты решают задачи по машинному обучению. Зачем? Потому что одна из целей компании — это сделать систему-автономного исследователя, которая будет автоматизировать части работы команды. Разбор тут.
3️⃣SWE-bench Verified, исправленная (и урезанная) версия более раннего SWE-Bench от исследователей из Princeton University. Замеряет долю объемных проблем, описанных человеческим языком, но решением которых является изменения в существующем коде большого размера (десятки-сотни тысяч строк, реальные кодовые базы). Вышел недавно, а уже стал использоваться — Anthropic отчитались по улучшению в этом бенчмарке в недавнем релизе Claude. Разбора нет, можно читать оригинальный пост.
===
Два агентских бенчмарка (для ИИ-агентов очень важна надёжность в каждом шаге, потому что одна ошибка и ты ошибся, и исправить можно только рефлексией) и один на знания, но позволяющий оценивать уровень понимания моделью границ своих знаний. Может быть на последнем доля правильных ответов не вырастет (ого, снова бьёмся в стену 🙂), но у более надёжной модели ответы «я не знаю» должны появляться чаще, чтобы не давать неправильную информацию.
Кроме этого, персонально я очень буду ждать замеров и улчшений по бенчмаркам от других команд: GAIA, Lab-Bench, WebArena, WorkArena++ и конечно же ARC.