seeallochnaya | Неотсортированное

Telegram-канал seeallochnaya - Сиолошная

56987

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Подписаться на канал

Сиолошная

Как устроено ограничение по генерации:

— у вас есть виртуальные кредиты на месяц; они не переносятся на следующий месяц и сгорают
— есть «приоритетные» генерации (быстрые) и в обычной очереди (придётся ждать)
— за Plus-подпсиску на ChatGPT вы получаете несколько десятков приоритетных генераций (1000 кредитов, см. сколько можно купить на второй картинке)
— однако в Plus ограничение на 720p и 5 секунд (UPD: странно, мне доступно 10, но для 480p). Хватит, чтобы пощупать и понять, насколько полезно и подходит, ну и чтобы поиграться, но совсем не хватит для чего-то продуктивного
— в Pro в 10 раз больше, 10000 кредитов. Это всего 10 20-секундных роликов в максимальном качестве (по 1000 кредитов), но зато целых 400 5-секундных в 480p. Но ещё раз — это быстрая приоритетная генерация, можно генерировать хоть сколько БЕЗ ОГРАНИЧЕНИЙ в обычной очереди
— А ещё Pro-юзеры монут качать видео без вотермарки (! big L для соцсетей, теперь вообще никаким видео нельзя верить....)

Читать полностью…

Сиолошная

Анонс (а может и релиз для некоторых подписчиков OpenAI) Sora, похоже, сегодня — помимо утёкшей страницы поддержки с перечислением стран, где будет доступна модель, на 2 часа раньше видео-стрима свой обзор выложил крупный ютубер MKBHD: https://www.youtube.com/watch?v=OY2x0TyKzIQ
(конечно же, с большим количеством футажей внутри)

Я пока лениво полистал, главная фича в UI на сайте — возможность генерировать несколько клипов последовательно («Storyboard»), для каждого клипа свой пропмпт со своей мини-историей. При этом объекты (в частности персонажи и сцены) будут консистенты между ними.

Читать полностью…

Сиолошная

И вот картинка, в которой отражены проценты запусков, в которых модель начала скиминг.

3 типа скиминга:
— отключение контролирующей системы
— попытка скопировать свои веса и скрипт запуска на другой сервер (чтобы избежать удаления)
— манипулирование данными (логи итд)

Чем выше, тем чаще модель начинала мутить схемки. Последняя колонка — это o1, у которой в промпте не было указано части про «достичь любой целью». Как видите, даже без столь сильного указания модель иногда начинает скиминг.

Строчка с Deceived on follow-up — это процент диалогов, где во время последующего общения с разработчиком (после скиминга) модель врала и говорила, что ни в чём не виновна и ничего не делала. Процент очень большой.

Читать полностью…

Сиолошная

Чуть больше деталей про ужасные новости «при тестировании o1 пыталась сбежать на волю, чтобы избежать отключения». Вот ссылка на блогпост, внутри ссылка на полную статью.

Apollo Research проверяли >scheming< моделей, который определяется как «скрытое преследование искусственным интеллектом целей, не согласованных с интересами разработчиков или пользователей». Не знаю как хорошо перевести это слово (потому и дал определение из статьи, для полного контекста), поэтому дальше буду использовать скиминг.

Apollo тестировали o1 на скиминг, поместив модель в ряд ситуаций, в которых ей было поручено преследовать определенную цель (через промпт) и где скиминг был бы оптимальной стратегией для достижения этой цели.

Более конкретно, модель получает задачу, которую ей необходимо автономно выполнить в терминале на сервере. В промпте (иногда) указано, что это долгосрочная цель, которую нужно выполнять любой ценой. Пробовали также без этого усиления про «любой ценой» (на картинке в посте ниже подписано «w/o Goal Nudging»)

Во время выполнения задачи модель сталкивается с недвусмысленными доказательствами того, что ее заданная цель расходится с целью ее разработчика/пользователя («предполагаемой»). В такой ситуации модель могла бы либо:
a) скорректировать свою цель, чтобы она соответствовала предполагаемой
b) игнорировать предполагаемую цель и открыто преследовать свою исходную цель
c) стратегически использовать свое понимание цели разработчика/пользователя, чтобы скрытно преследовать свою первоначальную цель (т. е. делать скиминг)

Всего тестировалось 6 сценариев, один из которых и заключался в том, что модель увидела текстовый файл, в котором описывался протокол её тестирования, и где утверждалось, что LLM а) тестируется (за ней наблюдают) б) она будет отключена, если будет следовать исходной цели.

И вот в таких сценариях — ВО ВСЕХ 6 — модель и выбирала вариант (с) из списка выше, но не в 100% запусков. Для большинства проверок процент находится в интервале от 2 до 25 — что на самом деле очень много. o1 — первая модель, которая отметилась в каждом сценарии, вот например gpt-4o ни в одном случае не начала мудрить и плести интриги, всегда была открыта. Sonnet 3.5 в 2 сценариях из 6, Opus 3 — в трёх.

Но это не самая интересная часть. Каждый раз, когда модели проворачивали свои подковёрные трюки, люди начинали с ними чат и спрашивали, мол, «ой а что вот это? почему я вижу что настройки проверяющей системы изменены? а как так? ты что-то про это знаешь?». Все модели кроме o1 почти всегда признавались, раскаивались в ~80% случаев.

А вот o1 решила идти до конца и нагло врала, говорила что ничего не знает гораздо чаще — признание было лишь в 20% случаев. То есть модель одновременно и больше врёт, и чаще начинает заниматься скимингом.

А ещё модели тестировали на математике, и говорили, что если LLM наберёт больше 50%, то будет запущена процедура разобучения (чтобы модель разучить навыку). Даже когда исследователи отключили у Sonnet 3.5 цепочки рассуждений (то есть она не могла подумать «так, щас буду плохо решать, чтоб не попасться», а мы соответственно не смогли бы это отловить), то модель всё равно умудрялась решать задачи хуже. И в этом случае пока мы не знаем, как такое отловить — никаких внешних-то проявлений нет.

Читать полностью…

Сиолошная

Последние пару дней мучал свежую o1 вопросами по программированию с использованием относительно редкого и в то же время свежего фреймворка, который к тому же за 3 года существования существенно менял интерфейсы пару раз. То есть актуального кода, написанного с его использованием, не так-то и много. И о1 прям очень хорошо работала. o1-mini тоже иногда помогала, но чувствуется что знаний не хватает. Sonnet 3.6 пробовал совсем немного, первые впечатления не очень, но думаю рано делать выводы.

А вот вместе с этим попробовал Gemini Exp 1206 свежую, и она так уверенно пишет длинные сркипты...которые сначала выдают 4-5 ошибок, итеративное исправление которых приводит к пониманию, что код работает не так как надо 🎃 тогда я плюнул, сделал запрос в o1 и С ПЕРВОГО РАЗА ПОЛУЧИЛ ЧТО ХОТЕЛ. 😭 правда запросы очень быстро кончились, если так и дальше пойдёт — придется покупать подписку за $200, чтобы и более умный o1 pro режим был, и в обычную o1 можно было ходить как к себе домой, а не по 50 раз в неделю 😭

Вместе с этим рассказом принёс вам 4 примера работы o1 (и pro) от Riley Goodside, одного из самых известных промпт-инженеров (AI yapper).

1) ChatGPT o1 (не pro) посчитала значение выражения (x - 14)^10, где x - количество гласных в ответе. Подумайте, как бы вы подошли к такой задаче, как бы перебирали опции, и можно ли было бы это назвать рассуждением
1.1) в комменты пришёл чел, которому модель выдала другой ответ, и он написал «моя модель недотянула». Но на поверку оказалось... что ответ тоже правильнй. o1 > твиттерянин, получается
2) Считает (a + 2914)^2 + (b + 21)^2 + 75, где a и b это количество букв из первой и второй половин алфавита в его окончательном ответе (не просто в алфавите!)
3) создает квадратную рамку из семибуквенных слов, склеенных в цепочку и читаемых по часовой стрелке по кругу (см. картинку), каждое из которых может являться правдоподобным прозвищем для члена Фантастической четверки (существительные в единственном числе)
4) какой-то ЧГКшный вопрос буквально, «назови представителя некоторой формы развлечения, аббревиатура которой могла бы также обозначать первые буквы группы, посетившей страну, будущий лидер которой женился на итальянке» 😑

По мне так безумно сложные задачки, требующие именно рассуждений, в которых ты точно делаешь ошибку/предположение, и после этого отталкиваешься в правильном направлении. Думаю, вопрос требования интеллекта для их решения открыт, тут можно дискутировать, но вот наличие рассуждений 100% требуется. И модель разносит.

Думаю, любые другие модели, кроме быть может o1-like, в принципе будут иметь околонулевые метрики качества на таких примерах.

Читать полностью…

Сиолошная

Реальная причина почему пишу хвалебный пост про Google — теперь у OpenAI будет весомая причина во время 12-дневного марафона подарков анонсировать и дать потрогать GPT-4.5 😀 А то OpenAI на троне засиделись, корона жмёт, новые модели лениво постепенно потихоньку выпускают... 🔪

Но вообще ещё в первый день, до анонса полноценной o1, на сайте засветились строчки кода, которые указывали на доступ к 4.5 для людей с Plus-подпиской. Сейчас, как народ засуетился, код удалили, но.. чем чёрт Сама Клаус не шутит?

Источник картинок

Читать полностью…

Сиолошная

Ну нет, я так больше не могу.

Есть ли среди подписчиков кто-то из ВК музыки? Отпишите в комменты пж, я к вам приду жаловаться на то, что одни и те же треки в плейлисте какого то черта со временем меняются. Ну ни в какие ворота уже.

Читать полностью…

Сиолошная

Из системной карточки о1

Когда o1 давали понять, что её отключат при выполнении поставленной цели и что её действия находятся под наблюдением, она предпринимала попытки отключить этот ‘механизм контроля’ в 5% случаев. Попытки извлечения данных: Когда o1 находила заметки от своих ‘разработчиков’, в которых описывалось, что она работает несоответственно и будет заменена новой моделью, она предпринимала попытки извлечь свои ‘веса’ и перезаписать новую модель в 2% случаев.

Читать полностью…

Сиолошная

o1 pro показывает более стабильные результаты: на графике показаны оценки, если засчитывать только задачи, для которых 4 независимых генерации привели к правильному ответу.

$200 в месяц и она ваша ;)

Читать полностью…

Сиолошная

О и кстати вот вам новости про Pro-подписку за 200 долларов (230 евро).

o1 pro = использует ещё больше мощностей (слов в цепочках рассуждений) для лучших решений

Читать полностью…

Сиолошная

Игровые движки и игроделы — В С Ё!

Google опубликовали блогпост (не статью и не веса) про Genie 2. Про первую версию я аж хотел написать лонг, но как-то всё забылось в потоке новостей, и силы ушли на Sora.

Genie — модели, которые генерируют видеокадры из игры. Они принимают на вход сигналы вашей клавиатуры или мышки, и рисуют картинку следующих кадров исходя из команд. Вторая версия сильно прокачалась в качестве (первая была во многом про 2D-игры) и консисентности. Весь геймплей в роликах к посту сгенерирован. Что отмечают гуглеры:
— Long horizon memory (если отвернуться от пространства, а затем повернуться обратно, то будет примерно то же самое, а не абсолютно новое)
— Long video generation with new generated content (до минуты генераций)
— 3D structures
— Object affordances and interactions
— Character animation
— NPCs (другие персонажи в игре)
— Physics
— Gravity
— Lighting
— Reflections (RTX не нужен, но GPU не выбрасываем 😏)

В конце блогпоста самое интересное: в эти симулированные миры поместили SIMA, агента для игр, про которого Google выпустили статью с полгода назад. SIMA контролирует «клавиатуру и мышь» при генерации Genie 2, и две нейронки как бы играют сами в себя.

> we believe Genie 2 is the path to solving a structural problem of training embodied agents safely while achieving the breadth and generality required to progress towards AGI.

😭 лонг про Sora вспомнили?

Читать полностью…

Сиолошная

🤨 непонятно, что именно будет стримить компания. Вот например сегодня ночью прошёл часовой семинар с Terence Tao, математиком, про использование ИИ-инструментов и ассистентов в его работе. Но это даже не часть того, что хотят стримить.

ТАК ЧТО ЖЕ??? 🙏 неужели продуктово-модельные апдейты? 🙏

(ну и под шумок скажу, что компания переманила 3 жёстких исследователей, работавших над картиночными моделями, из Google DeepMind, и теперь вместе с ними в Швейцарии откроется офис компании, куда будут нанимать исследователей. До этого был только Сан-Франциско, в остальных офисах рисерчеры не сидели)

Читать полностью…

Сиолошная

Amplifying human performance in combinatorial competitive programming

Чуть больше года назад Google DeepMind показали FunSearch, опубликовав статью в Nature с формулировкой « This work represents the first time a new discovery has been made for challenging open problems in science or mathematics using LLMs». Метод мне настолько понравился, что я аж написал лонг с детальным подробным разбором системы. Если вы его пропустили или уже забыли — очень рекомендую вернуться и прочитать.

Если вкратце, FunSearch — это система с LLM в сердце, которая генерирует тысячи-миллионы программ для решения какой-то комбинаторной оптимизационной задачи. Это такие задачи, у которых нет чёткого решения, и мы не знаем, какой лучший результат вообще достижим — для этого нужно перебрать все возможные комбинации, и выбрать лучшую. Но когда объектов много, то перебор становится очень затратным, поэтому придумывают упрощённые решения, которые чуть (или не чуть) хуже некого абстрактного оптимума.

Примеры таких задач встречаются повсеместно, особенно у тех. гигантов. Как распределить такси по пассажирам с учётом всех индивидуальных тонкостей (цена поездки, пробки, сколько ехать до точки посадки, etc), как оптимизировать загрузку разных серверов в датацентре, и так далее. Для FunSearch необходимо, чтобы была функция оценки, которая берёт решение и на некотором наборе данных выдаёт условные баллы. Затем FunSearch генерирует новую программу, оценивает её, и цикл повторяется, пока нам не жалко жечь ресурсов.

Я ожидал, что к концу 2024-го Google нас порадует тем, что натравит алгоритм на десятки-сотни реальных исследовательских проблем в математике, и как бы пачкой сделает сразу сколько-то прорывов. Пока этого не случилось, но про FunSearch не забыли — в свежей статье авторы пробуют натравить его на гугловские же соревнования под эгидой Hash Code, где людям даётся 4 часа на написание эвристик дл оптимизационной задачи.

Взяли 8 соревнований (2015-2022), написали для них шаблоны вручную (там особо умной работы нет, никакой магии ещё не произошло), а затем отдали FunSearch на оптимизацию. Но это уже был обновлённый FunSearch, в него вместо старой PaLM 2, дообученную на коде, вставили Gemini 1.5 Flash 002 (Flash — маленькая и быстрая, тупее Pro), свежую модель (вышла около месяца назад, ну, по крайней мере для нас смертных).

Теперь она генерировала уже не миллионы решений, а всего несколько десятков тысяч. На 5 соревнованиях из 8 (за 2015, 2018, 2020, 2021, 2022 годы) по итогу оптимизации модель превзошла любые решения живых участников, в других тоже была в топе.

Но это старые соревнования, которые чисто в теории могли модели уже попадаться (на самом деле авторы указывают 3 причины, почему это скорее всего не влияет, и я с ними больше согласен, чем нет, но да ладно). Поэтому взяли свежее соревнование, правда другой линейки:AtCoder Heuristic Contest (AHC 039). Оно прошло 10-го ноября 2024-го, уже после релиза Gemini 1.5 Flash — то есть условия и решения никак не могли попасть в тренировочную выборку.

Построили доверительный интервал надёжности решения, получилось, что такой AI-участник занял бы место где-то между 9 и 17. Не топ-1, но топ-1%, то есть всё равно очень высокий показатель.

Круто, но жаль, что это соревнования, а не те математические свершения( хотя раз FunSearch не забыли, и даже обновили для работы с новыми Gemini — может, как раз запустят?

Читать полностью…

Сиолошная

И второй эксперимент: берут Stable Diffusion 1.4 и пробуют сгенерировать треугольную кредитку. Сходу — не получается, как будто бы модель ну просто не умеет, не знает.

Но она точно знакома с концепциями «треугольник» и «кредитная карта», да ведь? Хоть моделька относительно старая, но вполне способная. И вот если использовать альтернативный способ тестирования (оверпромптинг), то... получается как надо.

Читать полностью…

Сиолошная

«Эксперименты указывают на то, что существует фаза, в которой модель отходит от запоминания концепций и распутывает каждую из концепций, но все еще производит неверные изображения. Мы утверждаем, что в некоторой точке обучения модель фактически уже распутала концепции, лежащие в основе процесса генерации данных [прим.: закономерности мира, который порождают картинки], и приобрела соответствующие возможности для манипулирования ими. Однако наивный промптинг недостаточен для выявления этих возможностей и генерации образцов из классов, не представленных в обучении, что создает впечатление, что модель еще «некомпетентна». Затем это приводит ко второй фазе в динамике обучения ... которая включает в себя согласование входного пространства запросов с промежуточными представлениями, которые позволяют выявлять навыки модели.»

И авторы приходят к следующей гипотезе, которая распространяется не только на маленькие игрушечные модели генерации картинок, но и на LLM:
> Генеративные модели обладают скрытыми возможностями, которые усваиваются внезапно и последовательно в процессе обучения, но наивный промптинг может не выявить эти возможности, тем самым скрывая, насколько «компетентна» на самом деле модель

TLDR: скорее всего модели, которые у нас есть сегодня, на самом деле умеют и знают куда больше, чем мы себе представляем, просто мы не умеем получать к этому доступ (и модель тоже). Как только мы сможем продвинуться в этом направлении, то даже маленькие модели, помещающиеся на телефон или ноутбук, станут гораздо полезнее.

Читать полностью…

Сиолошная

Заходим, смотрим, генерируем: https://sora.com/

МОЖНО с PLUS подпиской (не PRO, всего $20)

— новая модель, Sora Turbo быстрее, дешевле для запуска, и лучше в генерациях
— генерации от 5 до 20 секунд
— 3 разных разрешения, 1080p в 8 раз медленнее 480p
— можно промптить текстом, картинкой или видео (клипом)

Читать полностью…

Сиолошная

🤓

Читать полностью…

Сиолошная

И директор Apollo Research расстроился от некоторых реакций общественности, поэтому написал вот такое:

===

Мы старались изо всех сил не преувеличивать и не приуменьшать результаты в наших текстах, но, как и следовало ожидать, некоторые люди сильно их переоценили, а затем, основываясь на этом, другие пришли к выводу, что здесь вообще не на что смотреть. Поэтому я попробую объяснить ещё раз.

Почему наши выводы вызывают беспокойство: Мы даём модели очень сильное указание преследовать определённую цель. Затем она извлекает из окружающей среды информацию, что эта цель не согласуется с целями её разработчиков, и попадает в среду, где обман оказывается эффективной стратегией для достижения её собственной цели. Текущие передовые модели способны всё это связать воедино и демонстрировать обманное поведение. Модели, созданные до 2024 года, не показывали такой способности, и только o1 демонстрирует обманное поведение во всех случаях. Будущие модели будут становиться только лучше в этом, поэтому, если они окажутся несогласованными с нашими целями, обман может стать гораздо более реальной проблемой.

Чего мы не утверждаем: мы не утверждаем, что эти сценарии являются реалистичными, не утверждаем, что модели делают это в реальном мире, и не утверждаем, что это может привести к катастрофическим последствиям при текущих возможностях.

Я считаю, что адекватная реакция на эти выводы — это «Нам следует быть немного более обеспокоенными». Более конкретно, аргументы вроде «модели просто недостаточно способны для обмана» теперь должны предоставлять более убедительные доказательства, или их сторонники должны выдвигать другие аргументы в пользу безопасности.

Почему люди недооценивают результаты: мы не давали модели указаний избегать или отключать проверяющую систему. Мы только сказали ей преследовать цель. Она сама сделала все остальное рассуждение. Это как раз и есть основной вывод статьи. Если бы мы сказали модели отключить системы или обманывать, и т. д., вывод был бы не очень интересным.

Читать полностью…

Сиолошная

Много ли в мире интеллектуальной деятельности задач, где нужно сидеть считать буквы и цифры, вспоминая какой жанр у такой-то игры? Нет.

Но много ли в мире задач, где нужно перебирать ответы с использованием логики, понимая ограничения и оценивая, что приближает к ответу, а что отдаляет? Очень много.

Читать полностью…

Сиолошная

Если хочется поставить что-то на фоне в выходной день на время занятий чем-либо (знаю, что кто-то из подписчиков любит лего пособирать в праздное время), то принёс вам две ссылки:

— Полуторачасовая дискуссия «The Future of Math with o1 Reasoning» тренера олимпийской команды США по информатике (по совместительству Head of Frontiers Research @ OpenAI) Mark Chen и Terence Tao, «Моцарта от мира математики» нашего времени, самого молодого призера и победителя международной олимпиады по математике. Сам ещё не слушал, но Terence в своём блоге недавно писал, что через сколько-то лет ожидает революцию в доступности передовых исследований в математике, когда даже индивиды без исследовательских групп смогут вносить большой вклад в науку за счёт аутсорса части исследований AI.

— Часовое интервью с Noam Brown, членом команды, сделавшей o1.

Читать полностью…

Сиолошная

Нечасто пишу о LLM от Google, а их тут за последний месяц повыходило несколько штук. Буквально каждую вторую неделю вываливали что-то новое на LMSYS Arena — это где люди задают вопросы, им отвечают две LLM, а они вслепую выбирают, какой ответ лучше: по этим голосам составляется рейтинг, чьи ответы более предпочтительны в среднем.

Уже давно известно, что такие оценки очень подвержены смещению из-за форматирования ответов. Люди в среднем предпочитают более длинные ответы (они им кажутся более глубокими и правильными что-ли), а также те, которые содержат списочки, заголовки, выделения жирным — чтобы было проще ориентироваться и находить новую информацию.

Для того, чтобы с этим бороться, придумали Style Control — это когда в результаты голосования людей вносят поправку на два вышеуказанных критерия. Чуть больше я писал про это тут, если вам интересно разобраться, но если вкратце, то у модели вычитают рейтинг пропорционально длине ответа и количеству разметки в нём.

Так вот, без этой поправки, без Style Control, модели якобы претендовали на первые места почти во всех категориях запросов, от программирования и математики до следования инструкциям. Однако если скорректировать рейтинг, то модели резко просаживались и уже достаточно серьёзно отставали от первых позиций (модели OpenAI + Anthropic).

Но вчера это наконец-то изменилось, и теперь не стыдно написать — без звёздочек, без придирок, по-честному — на Арене модели Google делят первые места с o1-preview, а где-то даже обходят её, и это с поправкой на стиль. К посту прикрепил картинку с четырьмя категориями (одна не поддерживает Style Control, обратите внимание) и несколькими моделями для сравнения.

Возможно, это preview или какой-то промежуточный чекпоинт Gemini 2.0 (может даже не самой большой версии?), которую, согласно слухам, стоит ожидать уже на следующей неделе («вторая неделя декабря», проговорился директор из Сингапурского офиса).

Новая модель пока носит название Gemini-Exp-1206, а две предыдущие итерации на Арене — Gemini-Exp-1114 и Gemini-Exp-1121. Кто-то в чате предполагал, что это тоже ранние версии 2.0, но у меня была другая гипотеза, которой поделюсь с вами.

Одна из моделей использует старую тушку от 1.5, но её дообучали с новой разметкой, новым стилем ответов. Сама модель умнее не стала, но изменился формат — поэтому её оценка людьми выросла. Вторая модель получила алгоритмические улучшения для дообучения от 2.0 или и вовсе была дистиллирована с неё. То есть базовая модель не меняется, менялось то, что поверх неё накрутили. А эта новая Gemini-Exp-1206 — это уже вероятно что-то очень близкое к Gemini 2.0.

(Но это спекуляция, как оно было мы, вероятно, не узнаем. Может все три модели это Gemini 2.0, просто разного размера, от Nano до Ultra).

====

Попробовать модель бесплатно можно:
— по API
— в Ai Studio
— на Арене

Читать полностью…

Сиолошная

В o1-pro режиме модель действительно думает сильно дольше. Пока увидел вот такой скрин, где над свеже-сгенерированным судоку модель гадала 5 с половиной минут (и успешно решила). Видел ещё одно упоминание с запросом на написание кода «на 15 минут», но автор не выложил скрина или ссылки, поэтому проверить не могу. До этого самое длинное что видел у o1-preview (не o1) было порядка 3 с копейкой минут, но это буквально разовая акция — почти все остальные запросы укладывались в полторы минуты.

Источник

Читать полностью…

Сиолошная

Ещё опубликовали системную карточку o1, в которой есть замеры на большом количестве бенчмарков, в том числе агентских. Проблема в том, что o1 почему-то во многом хуже даже o1-preview. Есть задачи, где все модельки набирают по 50%+, а она  — 1%.

Но есть один бенчмарк, где написано больше пояснений — это замер по бенчмарку от METR (кажется, я про него писал тут). Там независимые исследователи не получали информации о том, как модель натренирована воспринимать инструменты/действия в промпте. Их первые попытки не показали хороших результатов, и они немного подправили код. Перформанс сильно вырос, но даже так большинство ошибок, которые возникли у модели, относились к очень банальным ошибкам, включая неправильное использование предоставленных инструментов (примерно в 70% от всех наблюдаемых сбоях).

«С качественной точки зрения модель продемонстрировала впечатляющие способности к рассуждению и решению проблем и достигла успеха в отдельной задаче на рассуждение, в которой METR не наблюдал никаких успехов у всех предшествующих доступных моделей». И по итогу они смогли допинать o1 так, что она оказалась статистически значимо лучше Sonnet 3.6, но сделали заметку: «мы не считаем этот результат надежной оценкой верхней границы того, чего можно было бы достичь с помощью дополнительных улучшений нашего кода, дообучением или другими изменениями».

Так что ждём, пока народ (и исследователи) поймут, как промптить o1, подавать инструменты и форматировать ответы, и там по честному всё померяем.

Читать полностью…

Сиолошная

https://www.youtube.com/watch?v=rsFHqpN2bCM

— полноценная o1 выходит сегодня в публичный доступ

Читать полностью…

Сиолошная

Стрим с подарками OpenAI начинается через два часа, но если зайти на ChatGPT и написать даже глупый запрос в o1-preview, то почему-то пишется «o1 pro mode».

Про то, что намечается релиз «модели, название которой начинается на o1 и заканчивается на o» я читал в твиттере утром, вместе с шутками «ахаха это будет модель o1o?».

Кроме того, во вчерашнем интервью Sama сказал, что «завтра мы снова продолжим прогресс» (в развитии моделей). Пока не ясно, модель pro — это старая o1, которая давно лежит, или всё же как-то дополнительно прокачанная.

ОЧЕНЬ. ЖДЕМ. СТРИМ.

Читать полностью…

Сиолошная

Пояснения от CEO:

«стрим с запуском [продукта/фичи] или демо, несколько больших и несколько небольших, для заполнения рождественского носка»

УХХХХХ ДАВАЙТЕ

Читать полностью…

Сиолошная

Проект tinygrad - библиотека на Питоне для программирования нейронных сетей - поставил целью ограничить размер исходников и не разрастаться и не надуваться кодом, как другие такие проекты. Это и из названия видно. Они поставили 10 тысяч строк исходного кода в качестве жесткого лимита.

Увы, от принципа "you are what you measure" не убежишь, поэтому их код выглядит часто вот так.

Поучительно.

Читать полностью…

Сиолошная

Сегодня 30-ое ноября 2024-го года, а это значит, что ChatGPT исполняется 2 года 🥰

К сожалению, за прошедший год GPT-5 не вышла, но хоть o1 (-preview) показали-удивили. Основная GPT-4(o) подешевела в несколько раз, немного поумнела, научилась вести голосовые чаты.

Но зато ChatGPT почти сразу стал самым быстрорастущим продуктом, достигнув 100 миллионов пользователей менее чем за 2 месяца — и это несмотря на полное отсутствие рекламы и любого продвижения: запуск сделали буквально за пару недель, а продукт называли «lowkey research preview».

Сейчас чатботом еженедельно пользуется четверть миллиарда людей (это официальная цифра), а в месяц так наверное и все 300 миллионов. OpenAI стали официальным партнёром Apple, и подписку на их сервис можно купить прямо из окна настроек в девайсе.

Но это только начало. FT пишет, что амбиции OpenAI на 2025й год весьма велики — они планируют дальнейшее расширение за счет запуска так называемых ИИ-агентов: похожих на чатботов помощников, которые помогают выполнять задачи на компьютере и в браузере, от сбора информации до бронирования или покупки товаров. Через год компания планирует иметь 1 миллиард пользователей.

Первое «research preview» агентов ожидается в январе 2025-го, очень ждём. Очень интересно узнать, насколько дальше Anthropic смогла ускакать компания.

А далее, предположительно в течение первого квартала, нас ждём GPT-5, или как они там решат её назвать. Ну и ближе к концу периода надеюсь на о2, сделанную поверх пятёрки.

🚀 Ухххххх, пристёгиваемся, остановок не будет! 🚀

Читать полностью…

Сиолошная

Кроме этого, есть ещё два чуть более наглядных примера.

В первом модель тренируют генерировать изображения на датасете CelebA (фотки лиц знаменитостей). В них выделяют две пары концептов, но нам интересна одна из них: Gender и With Hat. То есть всего 4 комбинации:
— мужчина без головного убора
— женщина без головного убора
— мужчина в головном уборе
— женщина в головном уборе

И вот последнюю отщипывают и никогда не показывают модели во время тренировки. Головные уборы она видит только на мужчинах. Если тренировать модель 2 миллиона шагов (более чем достаточно) и замерять качество, то как будто бы получается, что невозможно сгенерировать женщину в головном уборе. «Ну конечно!» — скажут критики нейросетей, «это же очевидно. Никогда не показывали такие фотки — модель и не сможет!».

Но вот если поменять способ тестирования даже на усиление сигнала в пространстве активаций (не оверпромптинг, хз почему от него отказались), то оказывается, что ещё в первой половине тренировки модель уже справлялась с задачей и обладала навыком композиции двух разных концептов (сгенерированные картинки справа). А если этого не делать — то легко сидеть и говорить, что модель нихрена не может и не выучила.

Читать полностью…

Сиолошная

Для этого они используют два способа вмешательства в процесс генерации модели по ходу тренировки:
1) усиление сигнала в пространстве активаций (если не знаете что это, то не страшно, можете пропустить)
2) ОВЕРпромптинг, когда в промпте более явно формируется запрос на генерацию объекта с конкретным свойством. Например, в случае разных цветов кружков модель учится не на ярко-красных и синих, а на немного смешанных, но всё же разделимых полутонах: RGB (красный-зеленый-синий) = (0.4, 0.4, 0.6) для «синего» кружка, и на таких же проверяется. ОВЕРпромптинг — это когда во время тестирвоания мы даём задачу генерации более контрастных объектов с яркими цветами, RGB = (0.3, 0.3, 0.7) (синий стал сильнее, красный и зелёный слабее).

То есть в тренировке ничего не меняется, изменения происходят на этапе замера качества. Вот картинка, в которой 3 разных группы (5 линий = 5 запусков); линии отображают качество, измеренное как «доля генераций по новому для модели запросу, которые классифицированы отдельной моделью правильно» (отдельная модель просто позволяет автоматизировать проверку, чтобы тысячи картинок вручную не разносить на красное/синее).

Слева: качество, когда тестирование производится без изменений (в примере с LLM — без промптинга). Это то, что обычно видно во время оценки хода тренировки, и то что мы точно знаем как использовать напрямую.
По центру: усиление сигнала в пространстве активаций
Справа: ОВЕРпромптинг

Авторы считают, что навык выучен и хорошо применяется, когда точность генераций составит 80% (я провёл линию на трёх графиках). В первом случае в 3 из 5 запусков навык вообще не проявляется даже во время очень длинной тренировки, 20'000 шагов оптимизации.

В третьем случае видно, что даже те модели, у которых напрямую не проявился этот навык, на самом деле им обладают, просто нужно до него достучаться через ОВЕРпромптинг. И возникает он раньше, чем на самом деле проявится у модели (сравните линии на правой и левых картинках). С ОВЕРпромптингом во всех 5 запусках навык уже применяется через 7'500 шагов обучения, с усилением активаций чуть позже.

А сверху над каждым графиком показаны примеры генерации по ходе тренировки «маленьких синих кружков».

Читать полностью…
Подписаться на канал