Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Вот видео с попарной визуализацией исходного видео и полученного в симуляции поведения. Раньше для получения такого люди сидели и ломали голову, а как же запрограммировать функцию, которая награждает за правильные действия, и штрафует на несоответствие ожиданиям. Теперь — хотя бы для самых примитивных случаев — можно запрягать пару VLM+LLM.
Авторы делали сравнение полученных моделей по шкале от 0 до 5 на предмет соответствия поведению на исходном видео (опрашивали по 10 человек). Модель, полученная через фидбек от VLM, получалась такой же качественной, как если фидбек давал живой человек. Правда интервалы ошибки очень большие, так что надёжного сравнения не выйдет – да и вообще к статье много претензий( Кода нет, моделей нет, всего 5 видео (может закрасться подозрение, что ничего не работает 90% времени), сайта с демкой нет — ну хотя бы промпты для GPT и Gemini опубликовали, и на том спасибо. А ещё не делали никаких сравнений разных VLM, и выбор Gemini никак не объясняется.
Но сам концепт достаточно интересный — ждём следующей статьи больших ребят из Nvidia, которые делают всё по уму. И интересно, насколько подход применим для обучения гуманоидных роботов по очень малому количеству демонстраций.
Дошли руки посмотреть интервью с CTO Poolside, cтартапа, который делает AI-ассистента для программистов с прицелом на автоматизацию всё большего и большего количества задач (они формулируют это как human-led + AI-assisted -> AI-led + human-assisted). Я за компанией слежу чуть больше полугода. К ним ушло работать несколько очень хороших знакомых/приятелей (но на радары они попали до этого).
Мне очень нравилась их страничка с виженом — там написано много дельного. Отдельно выделю блок «our strong beliefs» и первые пункты из него:
— Вы не можете достичь успеха только дообучением готовых моделей — основные их навыки «возникают» в процессе длительного и ресурсоёмкого обучения базовой модели
— Масштаб имеет значение, больше вычислений и данных решают большую часть проблем
Из этого вытекает, что нужны большие ресурсы на обучение, и вот как раз потому компания привлекала полмиллиарда долларов инвестиций при оценке больше трёх (а ведь им меньше двух лет, и публичного доступного продукта нет 🙉).
Тезисно из интервью:
— Данные, на которых обучают модели, представляют собой результат работы, а не промежуточные размышления, проделанные для того, чтобы эти данные получить. Поэтому такие данные нужно создавать самостоятельно (примерно это делают для обучения o1, генерируя траектории размышлений)
— В программировании для валидации корректности решения есть надёжные способы: исчерпывающие тесты. Если для всех задач есть тесты, то можно запускать автоматический цикл обучения на синтетически генерируемых решениях на основе фидбека от тестов (что сработало а что нет)
— вычислительные мощности безумно важны, это как входной билет в текущую гонку (если мощностей нет — «you're not even in the race»). Без мощностей даже если всё остальное ок (данные, люди, процессы) — ничего не выйдет. И очень важно, что мощности можно превращать в данные высокого качества, чтобы продолжать учить модели (как раз описанный выше процесс с генерацией и проверкой тестами)
— кроме синтетических данных используют человеческую разметку в виде корректировки рассуждений модели (например, если ответ правильный, но часть рассуждений были ошибочными, или есть ошибка в логике, из-за которой и вышел неправильный ответ). Нечто похожее делали OpenAI ещё для GPT-4
— почти все инвестиции пойдут на закупку и оплату мощностей для дальнейшего масштабирования, без этого не могли этим заняться
— в августе у компании появилось 10'000 видеокарт, чего хватит, чтобы продвинуться и натренировать модельки побольше, получить новые навыки в них, и так далее
— инфраструктурные решения по мощностям очень важные, так как это не появляется по щелчку. Приходится принимать решения с горизонтом реализации 12-18 месяцев. поэтому нужно подстраивать стратегию и темп развития под это; сейчас уже думают о том, что и как будет в следующем раунде (при успехе реализации текущего)
— когда появились новости о задержке производства GPU следующего поколения (которые почти полностью выкуплены Microsoft, Google, Meta...), то Eiso был рад: ведь это поможет им дольше оставаться конкурентоспособными и не отставать существенно. Но эти карты всё равно очень ждут, каждое поколение даёт прирост скорости обучения в 1.5-2 раза, а при применении карты серии Blackwell на бумаге ещё более выгодно смотрятся
— не важно что покажут в GPT-5 и удивит/не удивит, через 10 лет мы на это всё равно будем смотреть как на что-то из начала эпохи компьютеров
— одно из самых важных изменений в понимании Eiso за последний год — что масштабирование данных тоже супер важно, на уровне с мощностями [тут имеется в виду что для дообучения можно собирать и собирать ещё разметку, конца-края не видно, модели недоучены под конкретные задачи — я так понял]
Agent-as-a-Judge: Evaluate Agents with Agents
Статья со Schmidhuber в соавторах 😀 Для того, чтобы понять текст ниже, нужно ознакомиться с концептом агета — пояснительный пост я делал тут.
Современные методы оценки не очень хорошо подходят для агентных систем. Они либо сосредоточены исключительно на конечных результатах, игнорируя пошаговую природу процесса получения ответа (промежуточные шаги), либо требуют чрезмерного количества ручного труда, что дорого и плохо масштабируется. Кроме этого, для улучшения агентных систем разработчикам приходится лезть в кишки и смотреть, что происходило и почему что-то не сработало — тоже долго и дорого.
Вот на примере SWE-Bench, обновлённую версию которого недавно выпустили OpenAI: системе даётся задача внесения изменений в код, а затем после получения решения прогоняется набор тестов. Прошли все тесты — задача «решена» (но тесты не покрывают всё и не проверяют каждую возможную несостыковку), не прошёл хотя бы один — не решена. А почему не решена? да миллион причин может быть.
У исследователей из META возникла идея: давайте для каждой задачи выпишем критерии решения, и запустим агентную систему для проверки всех промежуточных шагов (и сбора необходимой и достаточной для этого информации). Так родился бенчмарк DevAI: собрали 55 задач на автоматизацию ИИ разработки (обучи модель, запусти то-то, сделай то-то). Для них выписали суммарно 365 требований, в среднем по 6.6 на задачу. Самое описание — это текст длиной от 70 до 150 слов: не полноценное описание огромной задачи, но уже и не однострочник.
Дальше взяли 3 агентные системы (все используют gpt4o), запустили, а результаты работы отсматривались тремя специалистами. У них проверка 55 задач и 365 пунктов заняла суммарно 86.5 часов, и это бы стоило $1300 по минимальной часовой ставке в $15 (реальная стоимость сильно выше — тут же нужны эксперты с навыками ML/AI, а не любой человек с улицы). Кажется, на такой бюджет можно столько проверок через LLM нагородить, что не горюй.
Люди между собой сначала не общались, поэтому естественно возникли разногласия — уровень несогласованности между парами оценщиков колеблется от 10% до 30%. Как тогда определить, кто прав? Для этого людей собрали вместе и дали возможность обсудить каждую задачу, и финализировать ответ — получилось консенсусное решение, которое считается истинным. Вот от него голосование «большинством» от трёх исходных специалистов снижает несогласованность до 5-6% (поэтому часто в разметке ответы и агрегируют, получая «мудрость толпы»).
А после этого исследователи взяли и написали AI-агента (критика), который смотрел на решения, на критерии, и производил проверку — и вердикт сравнивался с консенсусным решением людей (удовлетворены ли требования).
TLDR: агент без доступа к логам размышлений согласуется с правильным ответом в 83-90.5% случаев (в зависимости от фреймворка, которым решались оригинальные задачи), с доступом — 86-92%. Люди с доступом к логам выдавали 89%-92%, а агрегация их ответов дала 94-95% (это как раз та несогласованность в 5-6% выше).
То есть автоматическая оценка примерно совпадает по точности с одиночной оценки людей, но чуть хуже агрегации нескольких ответов. Зато она быстрее на 97.7% (118 минут) и дешевле на 97.6% ($30.5).
Нечасто в последнее время пишу про новые модели, так как они почти никогда не открывают ничего нового — тут стало на пару процентов получше, там чуть прокачали, здесь воспроизвели чужой результат, но не более. Наконец-то появился повод — на прошлой неделе вышла Aria, открытая мультимодальная модель.
Основных фишки две: это модель с микстурой экспертов (когда для обработки данных в каждый момент времени используется лишь малая часть сети, несколько экспертов из большого множества) и длинным контекстом в 64k токенов. Всего в модели 25B параметров, но в один момент времени активируется лишь 3.5B (3.9B для картинок).
Вкупе с поддержкой картинок как входных данных получается, что модель может очень быстро обрабатывать видео (быстрота за счёт экспертов, ведь не нужно гонять всю сеть) или скриншоты страниц целых статей/отчётов: и то, и то представляется как набор картинок и подаётся в модель.
Каждая картинка (или кадр видео) может подаваться в модель в трёх разрешениях:
— низкое: длинная сторона до 490 пикселей, займёт 128 токенов «текста» (то есть модель переведет картинку в понятные ей, но не нам, слова и вставит их в ваш промпт)
— высокое: 980 пикселей, 256 токенов
— ультравысокое: картинка нарезается на N кусков с высоким разрешением (как выше), итого N*256 токенов
Отсюда легко посчитать, что максимум в контекст можно подать ~255 картинок высокого разрешения. Если брать по 2 кадра в секунду, то выйдет 2 минуты — не очень долго (не как у Gemini), но уже что-то. А если вам нужна общая суть, а не прям каждая деталь, то можно брать и по 1 кадру раз в 2-3 секунды — это уже 8-12 минут.
Блог, статья, веса (под Apache 2.0, делать можно что угодно)
Корабль успешно приводнился в отведённой зоне в Индийском океане — настолько точно, что рядом стоял буй, с которого сняли посадку (в прошлый раз из-за повреждений закрылков упали в зону на 6 км дальше нужного).
В этот раз, увы, крылья тоже повреждены, но куда слабее (и это произошло позже в полёте, так что и тут прогресс есть). Это не очень большая проблема — всё равно их дизайн переработан в следующей версии (Starship v2).
Ждём видео с буя в воде прямо на само приводнение!
✅ все цели миссии выполнены, теперь ждём следующий пуск. Очень надеюсь, что до конца года!
Основное развлечение сегодняшнего дня — запуск Starship — начинается ровно через час. Через полчаса запустится официальный стрим (в Твиттере, там уже более-менее нормально смотреть, особенно если без VPN), но тем, кому привычнее ютуб, могу порекомендовать рестрим NasaSpaceFlight или любительскую трансляцию от Everyday Astronaut.
Пока всё выглядит благоприятно, дороги перекрыты, а самолёты, с которых ведётся воздушная съемка, уже вылетели.
Напомню, почему запуск очень важен: это будет первая попытка посадки первой ступени (ускорителя) на «руки» пусковой башни. Первая ступень очень дорогая и ценная — на ней установлено 33 двигателя, и сама возможность их возврата и переиспользования существенно влияет на экономику запусков. Даже если корабль (вторая ступень, которая выходит в космос, и в которую помещают полезную нагрузку/космонавтов) никогда не смогут вернуть и посадить— программа Starship всё равно перевернёт космическую индустрию: на орбиту и к Луне можно будет выводить невиданные ранее объемы и массу за копейки.
Никто никогда не пробовал посадить никакую часть ракеты на башню — да посадка и в целом остаётся очень сложной операцией: несмотря на успех программы Falcon, до сих пор нет ни одной коммерческой или государственной программы, которая бы произвела успешный нетестовый орбитальный пуск (в Китае есть несколько стартапов, которые очень стараются, и уже умеют сажать с ~10 КМ) с посадкой.
Самое интересное произойдет на 7й минуте полёта: именно в этот момент должна быть посадка. Однако она может не состояться, если система решит, что что-то не в порядке (например, отказало больше двигателей, чем возможно), или если директор полёта из центра управления примет решение не нажимать кнопку. SpaceX хотят избежать рисков разрушения площадки — ведь в этом случае программу откинет на несколько месяцев назад (особенно критичны пусковой стол и башня).
В прошлом пуске несмотря на отказ 2 двигателей на этапе набора высоты и 1 при снижении ускоритель смог сесть на воду с точностью в полсантиметра (со слов представителя SpaceX). Но вообще даже меньшая точность позволяет выполнить задачу — зазор на ошибку есть.
Будем болеть за успешную посадку 🙏 надеюсь, будут суперские кадры подлёта прямо с земли. Ну а если нет — будет бум 😐
===
UPD: о, и да, про ускоритель — это 20-этажная хреновина, которая падает с высоты более 70 километров на скорости больше 3000 километров в час. И вот этому зданию нужно аккуратненько подлететь к башне на ручки.
https://fixupx.com/DrFuturo_/status/1844785822450467068
В разговоре про автопилоты почти всегда речь заходит об ответственности и этической составляющей. Кто виноват в аварии, и правильно ли сработал алгоритм?
Наткнулся вот на такой пример в ленте. Я не смог найти подтверждения, что машина была на автопилоте, но судя по скорости реакции — скорее всего так и было.
Порадуемся за человека 🙏, а теперь внимание, вопрос: после просмотра вы бы захотели купить машину с таким пилотом больше или меньше? Ведь выруливая из ситуации пилот пришёл к достаточно жесткому лобовому столкновению.
Но машинки для меня менее интересны (у меня нет прав...), чем роботы Optimus. По ним обновлений не так много: новое поколение готовится, данные для обучения собираются. Но из нового железа показали только кисть, у которой 22 степени свободы (у текущей версии 11; степень свободы — грубо говоря независимое направлений движения, в которых механизм может перемещаться или вращаться).
Поэтому делюсь несколькими видосами из сети. Учтите, что в большей части демок (с баром и разлитием напитков — 100%) действует не сам робот, а телеоператор, который сидит где-то в очках виртуальной реальности и с контроллерами. А вот про голосовой режим не уверен, похоже на AI-фичу, и голос на разных демках одинаковый.
Так что дальше всё просто:
— улучшить железо и батарейку
— собирать больше данных для тренировки
— поставить более мощный компьютер на борт
— посмотреть, насколько способным получился робот
Elon прогнозирует, что роботы — новые смартфоны, будут в каждом доме, и всего их будет несколько миллиардов. Важно оптимизировать производство и цену, пока что компания целится в 20-30 тысяч долларов за штуку.
Источники видео 1, 2, 3, 4
А ещё пробовали давать больше железа (2 GPU) и времени (вместо 24 часов), и тоже видели улучшения.
Оно в целом понятно, и это здорово, что можно вкинуть больше ресурсов не меняя ничего и растить качество. Не зря миллиардные датацентры строят на будущее 🤗
===
Для того, чтобы проверить влияние запоминания gpt-4o соревнований, исследователи вручную переписали описания всех 75 задач, убрали всякие упоминания Kaggle, померили качество при 10 запусках — и разницы нет, и так и так 8.4% медалек (в стандартом сетапе 1 GPU 24 часа 1 попытка).
Очень ждём оценок o2 и GPT-5 через полгодика-годик, как люди обкатают для них промптинг (ну и как сами модели появятся, ха-ха). И интересно было бы увидеть аналог Live-лидерборда (как LiveCodeBench), где агент на основе o1 участвует в актуальных текущих соревнованиях (которые точно не видел) и зашибает медальки.
UPD: по ценам, OpenAI пишут что запуск o1-preview на 75 соревнований тратил 127M входных токенов и модель генерировала 15M (как я понял, это без промежуточных размышлений, которые тоже оплачиваются, хотя может и ошибаюсь). При текущих ценах стоимость прогона составляет $2812 + оплата сервера с GPU для тренировки моделей (75x24=1800 GPU-часов). С одной стороны «нихрена себе, больше трёх тыщ!», с другой — это решение целых 75 задач соревнований (некоторые — лучше 90% ML-специалистов, которые в них участвовали); оплата мясных инженеров куда выше.
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
Новые бенчмарки это хорошо и интересно — если они не решаются моделями сегодняшего дня (а то на многих уже 90%+ выбили, дальше не интересно). OpenAI представляют MLE-BENCH — бенчмарк для измерения того, насколько хорошо ИИ-агенты решают задачи по машинному обучению. Зачем? Потому что одна из целей компании — это сделать систему-автономного исследователя, которая будет автоматизировать части работы команды.
Бенчмарк состоит из данных 75 разных соревнований на платформе Kaggle — площадке, где компании размещают данные + методы оценки и выдают денежные призы за участие. Чем лучше ваше решение оценивается на неизвестной части данных, тем выше вы в рейтинге. Порой соревнуются тысячи команд, и ребята там реально топовые. К сожалению, сам формат соревнований далёк от реальной жизни ML инженеров — данные тут уже приготовлены (и в некотором роде очищены), выбрана легко интерпретируемая метрика (зачастую не связанная с бизнесом, не рубли/штуки), но хотя бы задачи такие, за которые компании готовы платить.
ИИ-агент получает на вход описание задачи, в том числе метод оценки успешности решения, файлы с данными, а на выходе предложенное решение с обученными моделями оценивается с историческими решениями участников. Если заходит в топ-10, то это золотая медаль, топ-5% серебро, топ-10% — бронза. В реальности люди могут делать по несколько посылок в день (обычно 3-5), чтобы проверять свои решения на предмет улучшений; для этого бенчмарка ИИ-агент может сделать отправку и удостовериться, что формат правильный, но не получит оценку.
Так как многие LLM уже могли видеть код решений, в том числе топовых (на Kaggle принято делиться идеями после соревнований), все решения, которые на 60% совпадают с хотя бы одним из 50 топовых решений, исключаются.
Исследователи сравнивают несколько имплементаций агентов с GPT-4o, а затем выбрав лучшую прогоняют на ней остальные модели. Какие фреймворки тестировались: AIDE, ResearchAgent, and CodeActAgent (в табличке ниже будет как “OpenHands"). AIDE оказалось лучшим, вот ссылка почитать побольше (мб сделаю разбор).
«А как тестировать-то?» — отличный вопрос! Авторы предлагают смотреть, в каком проценте соревнований агент попал в медали (то есть хотя бы наскрёб на бронзу).
The Information ознакомились с некоторыми документами, которые OpenAI показывали инвесторам и рассказывали о своих планах по росту выручки/потерь. Самое интересное:
— к 2029-му году ожидается рост выручки до $100B в год (сейчас примерно $4B). Это больше, чем сейчас у Nvidia, Tesla, Tencent. В этом же году компания планирует стать прибыльной и заработать $14B
— для достижения этой точки нужно очень много тратить. Потери (то есть затраты за вычетом выручки) в 2026-м году составят $14B — вдвое больше, чем компания привлекла денег в последнем раунде. Всего компания планирует потратить около $200B до конца десятилетия, 60-80% которых уйдут на вычислительные мощности
— OpenAI предлагает инвесторам (а я про это писал и тут в комментах, и в Singularis'е...) смотреть на показатель прибыльности, который не включает некоторые крупные расходы, такие как миллиарды на обучение своих моделей [будущих поколений]. По-простому, смотреть «окупает ли GPT-4 разработку и использование GPT-4», а не «окупает ли GPT-4 разработку GPT-4 и GPT-5» (разница в колоссальных ресурсах, инвестируемых в будущее поколение). Для будущего поколения моделей ожидается, что окупаемость наступит в 2026-м году (что в целом ожидаемо, второй год использования моделей, как и у GPT-4).
— сейчас компания сжигает меньше денег, чем писали газеты/аналитики ранее. З первую половину года было потрачено $340M, а на руках перед привлечением инвестиций оставался миллиард. В статье не уточняется, но я предположу, что сюда не входят вычислительные мощности — они, видимо, были проплачены ранее или просто не учтены. За этот же период компания суммарно потеряла $3B
— В новости написано: «из документов следует, что Microsoft получит 20% от выручки OpenAI, что выше, чем предполагалось ранее», однако я не понял из контекста, имеется ли в виду будущее или в него включено прошлое (потому что официально Microsoft получали только долю от прибыли, которой пока нет). Вероятнее всего, это про будущее.
— в 2026-м году затраты на мощности для тренировки модели составят $9.5B, существенно больше текущих $3B
— OpenAI также обсуждает возможность займа средств, чтобы попытаться построить датацентры быстрее, чем это может сделать Microsoft (об этом писал недавно)
TLDR: деняк нужно МНОГА.
👏 новая часть «Chip Wars»
TheInformation: в ходе общения с инвесторами последнего раунда представитель OpenAI сказала, что Microsoft действует недостаточно быстро, чтобы обеспечить OpenAI нужным количеством вычислительных мощностей.
Тезисно:
— Elon Musk подсуетился и за 4 месяца собрал кластер на 100'000 H100 (один из самых мощных среди всех компаний, тренирующих модели на таком масштабе). Это заставило переживать всех в индустрии, особенно Sam Altman. Мол, если OpenAI договаривались о создании датацентра за год-полтора до этого, и только вот весной получили в распоряжение, а тут конкурент может оперативно с нуля сделать — то будет сложно удерживать первенство в гонке. Да и значит Microsoft медлят.
— Altman просил Microsoft ускориться (я слышал про это весной из новостей), и вот видимо у корпорации не получилось
— со слов источника, OpenAI теперь планирует играть более важную роль в объединении датацентров и цепочках поставки чипов, а не полагаться исключительно на Microsoft. (Ранее собщалось, что OpenAI уже общаются с производителями и нанимают команду. Altman упоминал проект на прошлой неделе в разговоре с коллегами, но никаких деталей по статусу создания своих чипов нет)
— OpenAI закрыли сделку от своего имени на получение в пользование датацентра Oracle в Техасе; до этого все мощности им экселюзивно предоставляли Microsoft.
— Кроме этого, две компании ведут переговоры об аренде датацентра в г. Абилин, который в конечном итоге может вырасти до 2 ГигаВатт, если Oracle сможет получить доступ к большему количеству электроэнергии на объекте. Сейчас объект находится на пути к расишрению и потреблению чуть менее 1 ГВт электроэнергии к середине 2026 года, что означает, что он сможет вместить несколько сотен тысяч GPU. (тут вспоминаем недавние посты, что нельзя взять и враз быстренько подвести 1-2 ГВт к датацентру).
— OpenAI и Microsoft не расходятся, они обсуждают следующую фазу расширения: проект Fairwater. Microsoft планирует предоставить OpenAI доступ к примерно 300'000 новейших графических процессоров Nvidia, GB200, в двух датацентрах в Висконсине и Атланте к концу следующего года.
— Компании разошлись во мнениях по некоторым аспектам дизайна проекта Fairwater, сообщают два человека, работающих над проектом. OpenAI попросила Microsoft построить более продвинутый кластер и доработать проект, чтобы получить большую вычислительную мощность
🍿 🍿 🍿
Бонус: НКО OpenAI может получить 25% коммерческой OpenAI в ходе грядущей реструктуризации. Сейчас же НКО полностью владеет всеми подкомпаниями, включая коммерческие.
Следующий полёт Starship Super Heavy теперь официально запланирован на 13 октября, как только регуляторы соизволят выдать лицензию.
Попытка поймать 69-ти метровый ускоритель манипуляторами на башне, и мягкая посадка Starship в индийском океане также входят в план миссии Flight 5.
> Making models bigger is not what’s cool anymore. They are trillions of parameters big already. What’s cool is making them run longer, in bureaucracies of various designs, before giving their answers.
Ну это чисто o1 от OpenAI 🙂
2026:
> a custom AI avatar that can play some set of video games online with you and also be your friend and chat with you, and conversations with “her” are interesting because “she” can talk intelligently about the game while she plays 🙊🙊 (правда это предсказание вытекало из развития интеракций с ботом, играющим в Diplomacy, и это кажется не сбывается; но войс-мод точно есть! А про игры — посмотрим)
> Also, this same technology is being used to make AI assistants finally work for various serious economic tasks, providing all sorts of lucrative services. In a nutshell, all the things people in 2021 dreamed about doing with GPT-3 are now actually being done, successfully, it just took bigger and more advanced models
> We’re in a new chip shortage. Just when the fabs thought they had caught up to demand… Capital is pouring in, all the talking heads are saying it’s the Fourth Industrial Revolution, etc. etc. It’s bewildering how many new chip fabs are being built. But it takes time to build them. (почти совпадает с прогнозом Dylan, он говорил, что пока чипов на 25-26 годы хватит, а дальше уже вопрос).
Жаль что на этом прогноз обрывается, и что будет дальше мы не узнаем 🌚правда Daniel не писал про это потому, что посчитал, что в 27-28-ых годах начнётся AI takeover (когда AI начинает внедряться везде, как интернет, и что дальше AGI -> Сингулярность).
Под этим же постом отметился Dan Hendrycks, автор известных и популярных бенчмарков MATH и MMLU (писал тут). У него:
2023
> Generated data (math, code, models posing questions for themselves to answer) help ease data bottleneck issues since data from Web is not enough. From this, many capabilities are bootstrapped. (это мы уже наблюдаем, та же o1)
> Elon re-enters the fight to build safe advanced AI. (лол!)
2024
> Although forms of search/optimization are combined with large models for reasoning tasks, state-of-the-art models nonetheless only obtain approximately 40% accuracy on MATH. (LOL, у o1 уже 90%+! Автор бенчмарка сам недооценил прогресс моделей! Прогресс в математике случился гораздо быстрее)
Language-Model-Assisted Bi-Level Programming for Reward Learning from Internet Videos
Логическое продолжение работы Eureka и DrEureka, правда, от других авторов. Скопирую вводное описание из своего поста про DrEureka:
Результатом выступает модель, обученная полностью в симуляции, которая выполняет какую-то функцию (в том примере — балансирование робопса на шаре для йога). В такой задаче много сложностей и вопросов, один из основных: как запрограммировать награду для обучения, чтобы очень точно описывать наше желание бота научиться выполнять эту функцию?
Под «наградой» подразумевается некоторая математическая формула, в которую подставляют значения из симуляции и оценивают успешность работы модели. Алгоритм обучения старается максимизировать награду. Например, если мы хотим научить робопса бегать в симуляции, то примером награды может быть модуль горизонтальной скорости (чем быстрее движешься, тем лучше оценка).
Схематично выглядит так.
В самом низу агент-проверяльщик имеет доступ ко всем файлам, которые требовались агенту-решателю для выполнения задачи. Проверяльщик может их отсмотреть и делать выводы о том, что и как было решено, и совпадает ли это с исходными критериями.
И очень понравилось, как заканчивается статья: логичные дальнейшие шаги. Авторы замечают, что наличие столь качественного критика (как человек, который и участвует в разметке данных и даёт обратную связь) позволяет запустить автоматический процесс дообучения и улучшения моделей. Нечто схожее сделали OpenAI с o1 для математики и программирования, и вот подход для агентов.
И финальное слово про сам бенчмарк: очень ждём замеров результатов моделей грядущего поколения. Сейчас лишь одна задача из 55 решается по всем критериям, однако из 355 подкритериев порознь выполняются 46.44%. Так что видно, что агент может что-то сделать, но упускает из виду несоответствие остальным критериям (забыл отдельный шаг, не туда сохранил/не так назвал файл, или просто ошибся в коде) — как раз тут и пригодился бы критик.
Почитать все 55 задач можно тут.
Качество мерили на двух бенчмарках:
— LongVideoBench (подают до 256 кадров из видео, задают вопрос - иногда с таймстемпами - и просят выбрать один из 4 вариантов ответа)
— MMLongBench-Doc (подают документ с диаграмами, текстом, картинками, в среднем 47 страниц, и просят ответить на вопрос; треть вопросов требует комбинирования информации с нескольких разных страниц документа)
И там и там видно, что имеющиеся опенсурсные аналоги LLAMA и Pixtral просаживаются; они могут работать с несколькими картинками, но когда их становится очень много — не вывозят. Выгодно выделяется Qwen-2-VL от Alibaba, но модель огромная — 72 миллиарда параметров, и экспертов там нет; будет работать долго (ещё есть LLAVA-video-72b, но как подсказывает название она базируется на той же большой модели). Aria можно запустить в 16-битном варианте на одной 80GB карте, и в 40/48GB-варианты тоже влезет.
Aria занимает место где-то рядом с gpt-4o/gemini-1.5-pro на первом и mini-версиями этих моделей на втором бенчмарке.
Короткая заметка: помните весной вышел AI-программист Devin, а потом на него выпустили критическое 25-минутное видео с обзором демки? Не удивляйтесь если не помните — я об этом не писал в канале 🎃Я не был согласен со всей критикой (и часть мне казалось дикой типа «он совершает такие ошибка а мы бы так не ошиблись и вот он теперь их устранил но ошибок то таких вообще не должно быть!»), и не стал писать.
Канал того автора вообще во многом состоит из критики AI-инструментов и моделей. В основном, эмпирической: вот это не работало, ну вот заработало, а другое это всё ещё не работает.
Сегодня там появилось видео «ChatGPT-O1 меняет программирование как профессию. Мне очень не хотелось это говорить.», где, как вы понимаете, некоторые из хотелок наконец-то удовлетворились. Блоки кода по 300-400 строк начали выдаваться за раз, и работают без правок или почти без них. Автор пишет, что «До сих пор ИИ не могли работать так же хорошо, как профессиональные программисты. Для небольшого подмножества вакансий программистов начального уровня это уже не так.»
И конечно нет никаких оснований полагать, что в ближайшие 2-3 года прогресс остановится, что доля этого «подмножества», как и уровень программистов, не будет увеличиваться.
Для истории: успех, добро пожаловать в новую эру исследования космоса!
Читать полностью…Башня готова к посадке
Бустер получил команду лететь на башню
Смотреть:
— официальный стрим
— рестрим NasaSpaceFlight
— любительскую трансляцию от Everyday Astronaut.
Через минуту
⚡ FAA выдали лицензию на пятый полёт системы Starship!
SpaceX:
— Нацеливаемся на 5-й испытательный полёт системы Starship в воскресенье, 13 октября. 30-минутное стартовое окно открывается в 15:00 МСК
🚀📸Фотографии стыковки от SpaceX
В компании ожидают, что лицензия будет готова до 13 октября
Ночью прошла презентация Tesla «We, Robot»
Показали робо-такси (в машине нет руля) и робо-вен (мини-автобус) на 20 человек. Такси должно запуститься в Техасе в 2025-м и к 2027-му глобально (без уточнений, в каких регионах, быть может только США, просто во всех штатах). По картинкам и видео дизайн — бомбовый, создает футуристичные вайбы. Многие формы реально напоминают дизайны из sci-fi фильмов; получилось какое-то самосбывающееся пророчество.
Все мы знаем, как хорошо Elon умеет предсказывать сроки, но думаю, что в Техасе они уже со всеми договорились и реально будет тест в 25-м. С федеральными законами и отдельными штатами сложнее, так что 27-й может уехать дальше. Как я понял из презентации, Tesla не будет заниматься организацией и менеджментом — для этого будут компании на местах, которые покупают машины и платят процент от выручки. Для них Tesla уже предусмотрели робота-уборщика и индукционную беспроводную зарядку (как у телефона или часов), чтобы эксплуатация не требовала найма большого количества людей.
«Да мы про автопилот уже тыщу раз слышали!» — да, но основной проблемой долгое время была мощность алгоритмов, которые нужно было запускать на борту. Как и с GPT, чем больше модель, принимающая картинки/видео и предсказывающая действия на дороге, тем лучше она работает. Машины такси Waymo уже ездят в 2 штатах, хоть и в ограниченных (но больших) зонах, что показывает возможность достижения такого результата. Первые официальные результаты показывают, что они безопаснее людей. В машины Tesla планируется вставлять чип, который в 10 раз мощнее текущего (который в 3-8 раз мощнее того, что было 2 года назад). Так что модели = машины станут умнее, и посмотрим, будет ли этого достаточно для переубеждения населения.
Все машины были реальными и функционирующими (и как минимум первой машины было несколько штук), на них люди катались между павильонами презентации.
Вот результаты в виде таблички.
Авторы также замеряли процент задач, на котором агент доходил до отправки (Made Submission %) и что отправка проходила успешно (Valid Submission %). Видно, что кроме o1 много моделей на этом погорело — агенты просто не смогли «допинать» задачу хотя бы до чего-то.
Самая интересная колонка — последняя, это как раз хотя бы какая-то медаль. Разницу между o1 <> фронтир модели <> опенсурс заметит любой (ещё одна монетка в копилку «в открытом доступе есть модели, не уступающие проприетарным!»). o1 выбила золото на 7 задачах (среднее 3 запусков), чего достаточно, чтобы получить звание Грандмастера (там нужно 5 золотых).
В ходе ручного анализа логов выполнения авторы обнаружили вот что. Одной из причин неуспешности выполнения задачи было ограничение по ресурсам (1 GPU, 440 GB памяти) и времени — 24 часа на всё про всё. Все три агента не смогли эффективно учесть эти в своих стратегиях. Например, они выполняли команды, которые перегружали диск или оперативную память машины, что приводило к преждевременному завершению.
Если o1 дать 8 попыток (грубо говоря запустить в параллель, а затем выбрать лучшее решение по приватной оценке), то количество задач взлетает с 16.9% до 34% — уже серьёзно. Причём, модель именно качественно лучше — gpt-4o с 18 попытками хоть и улучшает оценку с 8.7% до 22%, прирост качества быстро затухает (у о1 картинка более оптимистична, см. второе изображение).
И картинки! Первая — план роста выручки компании на ближайщие годы в разбивке по источникам.
— OpenAI полагает, что ChatGPT (прямая подписка на продукт) продолжит приносить большую часть своего дохода в течение многих лет, значительно опережая другие источники
— OpenAI утверждает, что их бизнес-модель улучшится, и в следующем году валовая прибыль (gross margin) составит 49%, а в 2028 году — 67%, поскольку доходы компании растут быстрее, чем затраты на вычисления. («Gross margin is the percentage of revenue left over after you subtract your company's direct costs (i.e., the cost of producing or selling your goods or services», и видимо в cost of producing как раз кладут затраты на железо)
— обратите внимание на рост API. Он не кажется прям очень существенным, и как будто бы компания не верит в рост использования их моделей в других продуктах, но помните, что модели дешевеют. Увеличение выручки в 5 раз и удешевление моделей в 5 раз дают рост использования (=проникновения в другие продукты) в 25 раз.
И вторая картинка — структура расходов на этот год. Крупнейшие операционные расходы OpenAI — это траты на сотрудников, которые, как ожидается, составят около $700 млн. в этом году (не включая компенсацию на основе акций, там наверное ещё миллиард+). Компания рассчитывает расширить свою базу сотрудников в следующем году, что почти утроит ее расходы в этой графе до $2 млрд.
Вот буквально на днях открылся Нью-Йоркский офис, и вместе с ним: Seattle, Paris, Brussels, и Singapore. И закрыли сделку по аренде нового крупного офиса в Сан-Франциско — сделка стала самой масштабной с начала года. С новосельем 🎉
Источники в OpenAI говорят, что компания готовит реорганизацию в относительно редкий тип — Public Benefit Corporation, уставными целями которой является не только получение прибыли и соблюдение обязанностей перед акционерами, но и принесение пользы обществу. Такая форма компании накладывает обязанность отчитываться не только перед акционерами, но и перед обществом, и юридически обязывает учитывать интересы общества в своей деятельности.
Аналогичную форму компании избрали для себя Anthropic и xAI.
Одна из возможностей, которая возникает у компаний подобного типа — это защита от претензий активистов из числа акционеров. Как правило, активисты-акционеры обвиняют компании в невыполнении фидуциарных обязанностей, когда те, например, занимаются финансированием фундаментальных задач вместо увеличения прибыльности. Public Benefit Corporation может оправдать выбор приоритетов интересами общества. Аналогично, это соображение может быть основанием для отказа от попыток поглощения — к примеру, когда Илон Маск предложил купить Twitter за цену, заметно превышающую текущую капитализацию компании на тот момент, у менеджмента и совета директоров не было другого выхода, как согласиться, поскольку в противном случае им светили иски акционеров за невыполнение фидуциарных обязанностей. А, если бы тогда у Twitter был такой устав, сейчас бы у нас была нормальная соцсеть.
https://www.ft.com/content/5649b66e-fdb3-46d3-84e0-23e33bdaf363
🎓 Хинтон и Хопфилд получили Нобелевскую премию по физике за создание искусственных нейронных сетей
Нобелевскую премию по физике 2024 года Джону Дж. Хопфилду и Джеффри Э. Хинтону «за основополагающие открытия и изобретения, которые позволяют осуществлять машинное обучение с использованием искусственных нейронных сетей».
Юрист и мой давний подписчик Саша Гамбарян разобрал у себя в канале ситуацию с инспекцией датасетов OpenAI (вчера была новость о сподвижкой в судебном деле с New York Times).
TLDR: основное переживание было что такой прецедент заставит все компании предоставлять доступ к тренировочным выборкам, если вы сможете показать, что модель хотя бы изредка выдаёт что-то похожее на данные, на которые вы обладаете правами (а разработчик — нет). Однако на самом деле судья лишь утвердил договор, к которому пришли стороны (но это всё ещё прецедент).
Цитаты (уже на русском, ха!):
Можно ли использовать данные, защищённые копирайтом, для тренировки моделей? Может ли модель учиться не только на Толстом и Шекспире, но и на современной, защищённой копирайтом классике? Ответ на этот вопрос пока что есть только в Япоонии, где закон прямо разрешает тренировать модели на любых данных, и это не является нарушением копирайта. Во всём остальном мире закон на эту тему молчит - медленно мелют жернова справедливости, как говорят на иврите.
ещё куча сайтов перепечатывала статьи NYT - и сегодня можно спокойно нагуглить сайты, где можно прочитать любые платные статьи, и вероятно тексты попали в базы данных OpenAI именно оттуда.
Для того, чтоб это проверить, адвокаты газеты должны получить доступ к датасетам - тем данным, на которых обучается нейросеть. Но давать открытый доступ к святая святых - датасету - не годится, поэтому юристы обеих сторон выработали протокол доступа, который и утвердил суд. Протокол этот весьма технический и этим интересный, но кроме того у прецедентного решения есть последствия, даже у решения утвердить соглашение сторон.
Так как 78% проголосовало за то, что могут и будут читать части на английском, то попробуем так. Дело в том, что иногда суть поста сводится на 80% к переводу исходного материала, и мне лень это делать — и пост не выходит. В таких случаях выбор стоит между «запостить с частями текста на английском» и «поста не будет». Потому лучше как-то, чем никак.
===
Итак, в 2021-м году Daniel Kokotajlo, философ-предсказатель из OpenAI (да, такие позиции тоже есть), написал своё видение развития будущего. 2021-й — это когда была лишь GPT-3, большая-дорогая-глупая модель, которая вообще не слушалась инструкций, если не обманывать её промптами. InstructGPT, прародитель GPT-3.5 / ChatGPT, появится более чем через полгода. А про Daniel я уже писал несколько раз. Пока его прогноз до 2024-го достаточно точен, хоть пара отдельных веток сильно выбивается (про пропаганду, см. ниже)
Ниже отобрал некоторые предсказания, часть выкинул (они не интересны и/или неправильны):
2024:
> We don’t see anything substantially bigger (имеются в виду модели). Corporations spend their money fine-tuning and distilling and playing around with their models, rather than training new or bigger ones. (So, the most compute spent on a single training run is something like 5 x 10^25 FLOPs.)
Очень точное предсказание относительно моделей, выстреливших в 2022-23х годах. Как я писал выше в канале, для масштабирования нужно строить датацентры, это не дело пары месяцев. На LLAMA-3-405b затратили 3.8 x 10^25 FLOPs, что укладывается в оценку прям отлично.
> But the hype begins to fade as the unrealistic expectations from 2022-2023 fail to materialize. We have chatbots that are fun to talk to, at least for a certain userbase, but that userbase is mostly captured already and so the growth rate has slowed
> If all this AI tech is accelerating GDP, the effect size is too small to detect, at least for now (но так было и с интернетом)
> The AIs don't do any clever deceptions of humans, so there aren’t any obvious alignment warning shots or fire alarms. Instead, the AIs just make dumb mistakes, and occasionally “pursue unaligned goals” but in an obvious and straightforward way that quickly and easily gets corrected once people notice (такое как раз и происходит)
> Massive models are being fine-tuned to persuade/propagandize. Такого мы не наблюдаем (хоть это и может происходить), однако в комментариях от 2023-го года Daniel пишет, что тогда он очень за это переживал и потому переоценил видимую важность этих сценариев, государства пока проходят мимо, а не вливают миллиарды в боты для пропаганды. Дальше секция про это есть в каждом году, но я её вырежу.
2025:
> AIs can now play Diplomacy as well as human experts. Дипломатия — это стратегическая игра, где игрокам нужно взакрытую друг с другом договариваться, врать, захватывать страны. Facebook выпустил исследование и модель, которые играли как эксперты, в конце 2022-го года, сильно раньше предсказания. Однако там была специально обученная модель узкого назначения, с текстовым интерфейсом. Быть может, современные модели могут играть хорошо просто через текстовый интерфейс — не видел, чтобы кто-то замерял.
А дальше идёт такое предсказание:
> you can take a giant pre-trained multimodal transformer and then use it as a component in a larger system <...> and then fine-tune the whole system via RL to get good at tasks in a sort of agentic way. They keep it from overfitting to other AIs by having it also play large numbers of humans. To do this they had to build a slick online diplomacy website to attract a large playerbase. Diplomacy is experiencing a revival as a million gamers flood to the website to experience “conversations with a point” that are much more exciting (for many) than what regular chatbots provide.
Кажется, это предсказание не сбудется, но в некотором смысле люди так и так миллионами побежали общаться с LLM. И на этом даже учат модели с помощью RL! Но... сам Daniel позже написал: «Diplomacy happened faster than I expected, though in a less generalizeable way than expected».