seeallochnaya | Неотсортированное

Telegram-канал seeallochnaya - Сиолошная

56984

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Подписаться на канал

Сиолошная

Есть модель-бегемот на 2 триллиона параметров (как, по слухам, была GPT-4)

вот метрики, якобы обходит GPT-4.5 и Gemini 2.0 Pro

Эта модель использовалась для дистилляции в маленькие модели

Читать полностью…

Сиолошная

Вот и первая масштабная промо-кампания от OpenAI: в течение мая ВСЕ студенты (фуллтайм и парттайм) в США и Канаде могут получить ChatGPT Plus на 2 месяца бесплатно.

OpenAI прям так и пишут: «ChatGPT Plus поможет вам сдать экзамены», ну а после этого периода значимая часть студентов, по видимому, так должна прикипеть к продукту, что продолжат платить за подписку.

Если вдруг вам релевантно: https://chatgpt.com/students

Читать полностью…

Сиолошная

Прошло больше полугода с поста про Deadlock, наверняка есть новые интересующиеся — пост для вас.

Deadlock — следующая игры Valve (это которые Half-Life, Counter Strike, DotA 2, Team Fortress — то есть одни из лучших игр делали). Жанр игры — MOBA (как дота), но стрелялка. Можно думать как про смесь DotA 2 + Overwatch + Team Fortress 2.

Всё ещё действует система приглашений — прям как на заре DotA 2, помню, как пытался получить себе ключ от игры (их ещё продавали!). Для этого нужно добавиться в друзья в стим. Если вы хотите поиграть, и если вы часто что-то пишете в комментариях (то есть я знаю вас по аватарке и/или нику) — скидывайте ссылку на стим, я вас добавлю и отправлю приглашение. К сожалению, не могу пригласить всех, иначе придётся разорваться (в прошлый раз отправил ~50-60 приглашений).

Игра ОЧЕНЬ затягивающая, и кажется после двух неудачных попыток (Artifact и Dota Underlords) у Valve получилось сделать полноценный продукт с хорошими механиками и геймплеем. К сожалению, порог входа достаточно высок, первые игр 10 вы не будете понимать ничего, всё будет казаться сложным, и придётся довольствоваться счётом 1-12. Главное этот период пережить :)

Как и в прошлый раз, прикладываю нарезочку своих моментов 😎 (осторожно, присутствует МАТ). Практикуюсь играть на менте 👮‍♂️

Читать полностью…

Сиолошная

Традиционно модели от Google отличаются длинным контекстом — они могут переварить до 1-2M токенов, в зависимости от конкретной модели (GPT-4o 128 тысяч, Claude 200 тысяч). По собственным бенчмаркам компании их длинный контекст якобы лучший в индустрии, правда где-то в трети/половине новых бенчмарков это не подтверждается (из совсем свежего, например, NoLiMa).

После выхода GPT-4.5 узнал о бенчмарке Fiction.LiveBench, где модель показала себя очень неплохо, авторы даже написали «GPT-4.5-preview is the best non-reasoning model». Я уж не стал вам в очередной раз рассказывать, что модель-то топ, вы и сами это знаете 😀

В чём суть бенчмарка? Сайт Fiction.Live посвящён длинным интерактивным текстовым историям, где по ходу написания читателям предлагается сделать выбор (какое действие сделать, что сказать, куда пойти, итд). Голосование закрывается, автор дописывает следующую часть итд. Разработчики уже давно внедрили AI-инструменты, которые помогают писателям экономить время, создавая краткие выжимки, хронологии, характеристики персонажей, потенциальные идеи развития.

Чтобы выполнять эти задачи эффективно, LLM должны действительно понимать длинную, порой запутанную историю, каждого персонажа и их мотивы на глубоком уровне. Однако на практике современные модели часто теряют ход сюжета, не могут понять мотивы персонажей и производят хлам, который полностью не соответствует намерениям автора — всё как раз таки из-за размеров историй: они очень объёмны, а модели недостаточно внимательны.

Ситуация выглядит прямо идеальной для того, чтобы взять и сделать бенчмарк. На основе выборки из дюжины очень длинных и сложных историй и уже готовых и проверенных тестов разработчики собрали тесты, основанные на сокращенных версиях этих историй. Для каждого теста они начинают с сокращенной версии, которая содержит только релевантную вопросу информацию. Это называется «0-token» (см. на картинке). Затем к этому тексту добавляется всё больше и больше истории, и релевантная информация является только частью более длинного повествования.

Моделям перед ответом на вопрос дают время порассуждать, и reasoning-модели тут существенно отрываются от обычных (сравните метрики между DSv3 и R1, или Claude 3.6 vs 3.7). А o1 чуть-чуть лучше Claude 3.7, начиная с 32 тысяч токенов контекста, и обе модели существенно лучше китайских.

Ну и вооот, Gemini-2.5 Pro стала новым топ-1, показав невероятные 90% правильных ответов при 120 тысячах нерелевантных токенов истории. До этого лучшей моделью на самом длинном контексте была GPT-4.5, набравшая 63.9%. Но ещё интереснее посмотреть, как скакнула метрика от Gemini-2.0 Pro к 2.5 (выделил на картинке). Внимание, вопрос: как скакнёт GPT-4.5 при добавлении рассуждений (aka GPT-5)? 🤔

Читать полностью…

Сиолошная

Я часто хвалю o1 Pro, и это правда моя любимая модель которую я использую каждый день по многу раз с момента ее релиза – для вопросов здоровья, шитпостинга, исторических справок, технических советов, проверки фактов, помощи в чтении pdf-ресечей и тп и тд – раньше она была исключительно частью подписки ChatGPT Pro, и недавно ее добавили за какие-то 👁👁👁👁👁 деньги в OpenAI API

И теперь, наконец-то, начали появляться первые данные по бенчмаркам o1 Pro, чтобы оценить насколько хорошо она работает – например, бенчмарк вдохновленный игрой NYT Connections (это где модели разбирают массив из 16 слов по 4 общим категориям, категории нужно придумать самим), o1 Pro проходит успешно почти на 82% - это рекорд по бенчмарку

Я не удивлен, честно - за все месяцы что я использую ее, она ошиблась всего пару раз, и всегда исправляла себя при просьбе «перепроверить ответ»

Еще это первая модель, которая открыто говорит мне, что я в чем-то не прав, если я где-то ошибаюсь

Если вы из тех, кому некуда девать деньги, то вот ее страница в API OpenAI, но я все же советую использовать ее в ChatGPT Pro, там нет лимитов

Из всех минусов только один - думает она пару минут перед ответом, что в целом, уже не так критично, так как я в нее что-то отправляю и ухожу делать параллельно задачи

Читать полностью…

Сиолошная

https://youtu.be/ox6zF48YXkQ

> new Trackmania cheater
> look inside
> Riolu 😎

Увлекательная история о том, как один из самых титулованных игроков, уличенный в использовании читов и ушедший из сообщества, скрытно вернулся и продолжает пакостить. Если вы не в курсе истории, то это видео вам будет не интересно, зато очень интересно будет посмотреть оригинальное расследование трёхлетней давности (всего 20 минут, про игру ничего знать не нужно, всё объясняется с нуля): https://youtu.be/yDUdGvgmKIw

Читать полностью…

Сиолошная

Затем авторы берут все промежуточные модели и генерируют решения ими. Все решения пропускаются через GPT-4o-mini, которой в промпте дали задачу классифицировать рассуждения по четырём указанным выше паттернам (и ещё примеров насыпали). Модель выдаёт предсказания для каждой цепочки рассуждений, и те агрегируются, чтобы считать, как часто то или иное поведение проявляется по ходу тренировки каждой из Small Language Models (крохи, по 3 миллиарда параметров).

И вот тут-то и обнаруживается разница — у Qwen при переходе от 20 к 30 шагам обучения что-то щёлкает, и эти паттерны начинают проявляться очень часто. Вернее, только 2 паттерна — верификация (перепроверка результатов) и пересмотр подходов при обнаружении ошибок (backtraking).

У LLAMA же по ходу всей тренировки почти по нулям, только маленький горбик в самом начале есть. А так как паттерны рассуждений не проявляются, то правильные ответы появляются реже -> обучение хуже. И сами паттерны не закрепляются.

Значит, в самих моделях с самого начала есть разница. Поэтому взяли их, сгенерировали решения, снова классифицировали — и у Qwen даже без всякого дообучения под игру уже в 62% цепочек рассуждений есть само-проверка (против 10% у LLAMA-3B). (правда эти цифры не бьются с первым графиком, где считали частоту встречания паттернов, но я не понял почему).

Ещё взяли LLAMA побольше, на 70B, и она чаще сама по себе применяет паттерны рассуждений, чем маленькая модель, но всё ещё реже, чем Qwen-3B. Это говорит о двух вещах:
1) Qwen почти наверняка этому отдельно учили
2) поскольку обучение с подкреплением может лишь усиливать поведение, проявляющееся в успешных траекториях, — делая присутствие этих паттернов предпосылкой для эффективного обучения — чем качественнее модель, тем лучше будет результат. (Тут вспоминаем, что GPT-4.5 сама по себе иногда обходит некоторые рассуждающие модели, и знает/читала кучу всего, и скорее всего тренировалась на синтетических цепочках рассуждений)

Читать полностью…

Сиолошная

Недавно помогал ребенку подготовиться к контрольной по программированию (школьному предмету; они учат C#). Главной темой были связные списки и работа с ними, что в данном случае было работой с классами типа Node<T>, с методами Get/SetValue(), Get/SetNext().

Я увидел, что с одной стороны ребенок вроде и понимает, что такое связный список, зачем может быть нужен, что с ним делать; но конкретные задачи из старых контрольных, что им выдали, решает с трудом или вообще не. В принципе понимает, что хочет сделать, но в код это переводится с трудом, без уверенности и с постоянными ошибками.

Подумав немного, я решил не разбирать пока эти старые контрольные и их решения, а подтянуть основы. Сидя рядом, просил ребенка писать код НА БУМАГЕ, решающий очень простые задачи одну за другой. Немедленно обсуждали написанное, ошибки в нем, исправляли их и шли дальше. Задачи такие (во всех случаях предполагаем переменную list типа Node<int>, указывающую на первый элемент списка, возможно равную null, если список пустой):

- проверить, пустой ли список
- проверить, есть ли в списке минимум 3 элемента
- проверить, есть ли в списке ровно 3 элемента
- проверить, верно ли, что второй элемент списока равен 4 (не забывать проверки существования элементов)
- если третий элемент списка существует, изменить его значение на 12
- если есть минимум 2 элемента, удалить второй
- распечатать все элементы списка
- проверить, есть ли в списке элемент со значением 5
- если есть хотя бы один элемент, вставить новый элемент с значением 10 на второе место в списке
- удалить все элементы, равные 5, предполагая, что первый не такой
- то же самое, но без предположения, что первый не такой
- найти все элементы в списке, равные 2, и для каждого такого, если следующий тоже 2, а предыдущий не 2, удалить этот следующий
- найти элемент со значением 13, и если после него есть следующий, поменять их местами
- найти минимальный элемент
- вставить элемент на правильное место в отсортированном списке

Мне кажется, это время, проведенное вместе за интенсивной проработкой основ, не было потрачено зря, и помогло укоренить правильные абстракции в голове.

После того, как все эти задачи решаются без сложностей, без ошибок и практически без рассуждений, можно переходить к задачам типа "поменять порядок на обратный" или "найти и удалить все дубликаты в списке с помощью двух вложенных циклов". Не надо с них *начинать*, если основы не делаются быстро, правильно и без сомнений. А это произойдет, когда ментальные образы станут ясными и четкими и будут правильно отражать происходящее на удобном уровне абстракции. Начинающий программист часто не понимает, насколько важны эти ясность и четкость. В таком случае задача наставника - понять это и показать на живых примерах, как и почему они важны.

Читать полностью…

Сиолошная

А стрим будет тут

https://www.youtube.com/watch?v=cfRYp0nItZ8

Читать полностью…

Сиолошная

Апдейт SpaceX по поводу аварии Starship во время Flight 7 и детали Flight 8.

Про ускоритель Super Heavy B14:
- Проблема с перезапуском 1 из 13 двигателей во время первого тормозного манёвра была связана с питанием системы зажигания. Двигатель нормально зажгли во время второго торможения перед посадкой.

- Систему зажигания, как и планировалось, доработают для будущих полётов.

Про аварию Starship S33:
- Через 2 минуты после разделения была замечена «вспышка» в верхней части грузового отсека. Эту часть между стенкой бака с кислородом и защитой отсека называют «чердаком». Вспышка была у одного из двигателей RVac. Ранее в канале публиковалось про именно эту проблему.

- Датчики давления «чердака» зафиксировали повышение давления из-за утечки.

- Ещё через 2 минуты была снова одна вспышка, но уже с последующим пожаром в отсеке.

- Автоматика отключила 5 из 6 двигателей Raptor в отсеке. В этот момент произошла потеря связи. Последняя отметка телеметрии была через 8 минут и 20 секунд после старта.

- Контакт с кораблём был потерян до получения команды на самоуничтожение из центра.

- Автоматика на Starship S33 сама подорвала FTS из-за нарушений критериев полёта. Система сработала штатно.

- Наиболее вероятной причиной стали наши любимые гармонические колебания (причина многих аварий), которые были в несколько раз сильнее тех, которые фиксировали за время лётных и наземных тестов.

- Сильные колебания привели к более высокой нагрузке на железо в двигательном отсеке, что привело к утечке, насыщению отсека газами и пожару.

- Система продува и подавления отсека, а конкретно «чердака», не справилась с излишками газа.

Следующие шаги:
- SpaceX запустили расследование аварии вместе с FAA (Федеральное управление гражданской авиации США), NASA, NTSB (Национальный совет по безопасности на транспорте) и Space Force.

- Расследование пока идёт, и SpaceX либо получат предписание от FAA по новым мерам безопасности, либо закроют расследование после исправления проблем. Для следующих пусков понадобится обновление лицензии (это было ожидаемо).

- В рамках расследования, SpaceX провели 60-секундный прожиг Starship S34 перед Flight 8 в попытке реплицировать гармонические колебания и нагрузку в конструкции, которые возникли во время Flight 7.

- Во время 60-секундного прожига тестировали разные режимы работы Рапторов, включая 3 разных конфигурации топливных магистралей двигателей RVac (что снова указывает на проблему с ними).

- К слову, на этой неделе в окнах Starbase были как раз замечены магистрали от RVac на полу (видимо перерабатывают или меняют на всех отсеках теперь).

- Данные с 60-секундного прожига помогли переработать конструкцию магистралей для RVac, температурный режим для горючего, и проработать новый план режиму тяги (читай ниже, что сможем проверить по телеметрии).

- На новых Starship также установят больше прорезей для вентиляции внутри двигательного отсека и «чердака». И усилят систему подавления с использованием канистр с азотом.

В общем, как вы ранее читали в канале, проблема была из-за RVac. Теперь её официально подтвердили.

Читать полностью…

Сиолошная

⚡️Появилась очень интересная инфа, как раз в тему нашей сегодняшней статьи!

По слухам, в марте SpaceX планируют провести прожиг ранее летавшего Booster 14, а затем во второй раз(!) запустить его в 8-м полёте Starship

Таким образом, если все пройдёт согласно плану, то во время 8-го полёта будет первый случай повторного использования Super Heavy, а также первая попытка возвращения Starship в Starbase

🤞

Читать полностью…

Сиолошная

Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:

— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.

Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати 🤠) за $22.

TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.

<страницы блога пока нет, тоже ждём>

Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.

Читать полностью…

Сиолошная

Как раз на днях вышла статья от Google, где они показывают масштабирование Visual-Language модели на 100 миллиардов картинок и пытаются оценить, становятся ли результаты лучше. Если смотреть только на английские бенчмарки с западными ценностями, то разницы между 10B пар в тренировочной выборке и 100B почти нет.

Зато разница существенна на бенчмарках, оценивающих навыки модели по cultural и language diversity. По ним видно, что впереди ещё пахать и пахать, можно получать приросты — и это как раз то, о чём я написал выше; то, чего я жду (и соответственно жду способа проверки, бенчмарк) от моделей следующего поколения.

Читать полностью…

Сиолошная

TheInformation пишет — но это и не секрет — что Anthropic близки к выпуску своей размышляющей модели. Не секрет это потому, что Dylan Patel и Semianalysis уже дважды говорил, что он слышал, что Anthropic имеет модель, сильнее o3, и что она пока не анонсирована.

Отличие от OpenAI в том, что «модель совмещает в себе как обычную LLM, так и рассуждающую», то есть для простых запросов она не думает долго, а сразу пишет ответ. Правда, не ясно, в чём функциональное отличие от OpenAI — у меня o1 иногда начинает писать ответ через 2 секунды, когда вопрос плёвый. Уверен, что можно сократить и до около нуля. У модели Anthropic тоже будут уровни, позволяющие контролировать длительность (и стоимость) рассуждений.

А про качество газетчики написали следующее: «когда модели позволяют думать в течение максимального количества времени, она превосходит самую продвинутую модель рассуждений OpenAI, к которой сегодня имеют доступ клиенты (то есть ее модель o3-mini-high) в некоторых тестах программирования»

Однако главный вопрос, на который пока нет ответа, заключается в том, сколько будет стоить новая модель Anthropic и будет ли она дешевле недавно выпущенной модели o3-mini от OpenAI (которая дешевле, чем нерассуждающая GPT-4o).

Компания планирует выпустить модель в ближайшие недели. 👍


🤪 блин а Claud 4.0 то когда

Читать полностью…

Сиолошная

Отдельно про метрику на нашумевшем датасете FrontierMath.

o3-mini (high) наконец-то сравнили с o1 по-честному, когда и та, и та генерирует несколько решений.

Но главное написано под таблицей:

> when prompted to use a Python tool, o3-mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems.

T3 — это самые сложные задачи в бенчмарке, на которые даже ведущие учёные-математики могут потратить больше одного дня. А тут 28% у мини модели.

Читать полностью…

Сиолошная

Так вот, к чему этот опрос был. Как вы заметили, детальные разборы статей в последние полгода стали появляться сильно реже. Детальные — это с текстом на 3-5 постов. Писать их долго, на каждый уходит примерно по полтора-два часа: нужно прочитать источник внимательно, выписать важные части, которые нужно пересказать, потом придумать упрощение, перевести, возможно привести референсы и/или добавить связки с прошлыми исследованиями/постами итд. Времени стало поменьше -> разборов стало поменьше.

Для меня образцом были разборы, которые я читал давно, в начале карьеры, например, у @gonzo_ML или у Влада @dlinnlp (ха-ха он тоже забил что-либо писать, ВЛАД НУ КАК ТАК ТО???).

===

Я всё ещё пролистываю по 2-3 статьи в день, и составляю в голове примерно такие же краткие выжимки по 3-5 абзацев. Но я не вижу большой ценности в их публикации, так как презюмировал, что большая часть их всё равно не поймёт. Опрос это подтвердил: 46% ответили, что не поняли почти ничего, и ещё 30% — что "многие части непонятны".

А в более простых и нетехнических статьях/блогпостах всё равно без объяснений люди в большинстве случаев выносят неправильные выводы. Опускаться дальше и просто постить ссылки точно не хочется.

===

Но нужно с этим что-то делать, вернуться в темп хотя бы 1 разбора раз в 2 недели (а то и раз в неделю), а то совсем руки опустились. Попробуем мб со второй половины апреля (ещё и на англ и на сабстеке, да? 🤡)

Читать полностью…

Сиолошная

Простите что украл ваш вечер вот этим интервью: https://www.youtube.com/watch?v=htOvH12T7mU&amp;feature=youtu.be

(и попутно ещё сайт опубликовали, как и Situational Awareness, https://ai-2027.com/)

Читать полностью…

Сиолошная

Ещё в тему прироста от reasoning'а скриншот из чата канала, где тоже можно прикинуть ожидания.

Разница между моделями Google меньше 2 месяцев. Я думаю, что большая часть прироста обоснована именно дообучением рассуждениям, а не добавкой данных или улучшением методов тренировки (хотя и они могли внести маленький вклад).

Читать полностью…

Сиолошная

Попросил Gemini 2.5 прочитать этот документ на 150 страниц (~45'000 токенов) и сделать саммари в виде последовательных шагов, а затем перевести на русский. Вот результат:

1. Возможности моделей предсказуемо и значительно улучшаются при увеличении "эффективных вычислений" (сырая вычислительная мощность, алгоритмическая эффективность, данные, системы вокруг них).
2. Такое масштабирование привело ИИ от уровня ~дошкольника (GPT-2) до уровня ~умного старшеклассника или студента первых курсов (GPT-4) всего за 4 года.
3. Продолжение этого тренда делает достижение AGI — ИИ, способного выполнять когнитивную работу уровня эксперта, например, проведение исследований в области ИИ — вероятным к 2027 году.
4. AGI вряд ли станет конечной точкой; системы AGI смогут автоматизировать сами исследования в области ИИ, вызвав рекурсивное самоулучшение или "взрыв интеллекта".
5. Этот взрыв интеллекта может сжать десятилетия алгоритмического прогресса, возможно, в один год, быстро приведя AGI к значительно превосходящему человека ИИ (Сверхинтеллекту, ASI).
6. Создание этих передовых систем требует беспрецедентной промышленной мобилизации для вычислительной инфраструктуры (GPU, энергия, дата-центры), стоимостью в триллионы долларов.
7. Это масштабное техно-капитальное строительство уже начинается, движимое ожидаемой экономической отдачей и интенсивной конкуренцией.
8. Однако текущие методы обеспечения безопасности в ведущих лабораториях ИИ совершенно недостаточны для защиты критически важных секретов (алгоритмов и весов моделей), необходимых для создания AGI.
9. Эти важные секреты могут быть легко украдены государствами-противниками, такими как Китай, что потенциально сведет на нет лидерство США/Запада в гонке за AGI.
11. Одновременно, надежное управление системами ИИ, значительно превосходящими человека по интеллекту (супералаймент), является нерешенной технической проблемой; текущие методы, вероятно, не будут масштабироваться и работать для будущих систем.
12. Неспособность решить проблему супералаймента до или во время быстрого взрыва интеллекта может привести к катастрофическим последствиям, поскольку мы будем развертывать все более мощные, плохо контролируемые и непонятные нам системы.
13. Сверхинтеллект предоставит решающее военное и экономическое преимущество, превращая гонку за AGI в геополитическое соревнование с высокими ставками, в первую очередь между США и Китаем.
14. США и их союзники должны сохранять лидерство в этой гонке, чтобы обеспечить выживание либеральной демократии и создать необходимый запас прочности для решения проблем супералаймента. Согласно автору, если авторитарная держава (например, Китай) первой достигнет ASI, она сможет навязать свои недемократические ценности всем странам, навсегда подавить свободы и исключить возможность процветания демократических систем. Лидерство США/союзников рассматривается как необходимое условие для предотвращения такого исхода, сохранения условий для свободы и плюрализма, а также для получения "запаса прочности" для безопасного решения проблемы алаймента без давления гонки "на опережение".
15. Сочетание чрезвычайной мощи, катастрофических рисков (ошибки алаймента, злоупотребление системами) и критической важности для национальной безопасности означает, что частные стартапы в одиночку не могут ответственно управлять разработкой сверхинтеллекта.
16. Поэтому правительство США неизбежно будет глубоко вовлечено, что, вероятно, приведет к созданию национальной программы по AGI ("Проекта") для управления безопасностью, рисками и геополитическими ставками, по аналогии с Манхэттенским проектом.

Читать полностью…

Сиолошная

Если вдруг пропустили стрим, то появилась его запись.

Обсуждение, как мне кажется, вышло достаточно интересным (особенно если промотать сразу минуту на пятнадцатую) — и на самом стриме зрителей было много до конца, и на записи уже много просмотров, и @itbeard успел посмотреть и высказаться (в основном, положительно).

В общем, если не видели, то очень рекомендую.

Читать полностью…

Сиолошная

И ещё провели пару экспериментов с предварительным дообучением LLAMA 3B на данных, содержащих примеры всех 4 паттернов рассуждений, чтобы показать, что если уже из такого состояния начинать RL-тренировку игре в Countdown, то модель догонит по финальному качеству Qwen.

Первый эксперимент:
нагенерировали синтетические решения для Countdown через Claude Sonnet 3.6, при этом дали ей в промпт все 4 паттерна рассуждений и просили какие-то из них не использовать, или использовать только 1 или 2 конкретных, ну и все вместе. Качество вышло не очень  — несмотря на то, что модель очень хорошо слушалась инструкций, и если её просили что-то включить в рассуждения, то она это делала органично, сам по себе Sonnet 3.6 выдал лишь 45% качества.

То есть больше половины цепочек рассуждений были с ошибками. И тренировка на них... принесла улучшения до уровня Qwen! То есть важнее именно показать, что такие паттерны рассуждений есть, и как их примерно применять, но не обязатльно, чтобы примеры были супер-качественные. (что не означает, что их не нужно фильтровать — замера с очисткой авторы не делали, но думаю, что качество могло бы подрасти)

Второй эксперимент:
взяли датасеты OpenWebMath и FineMath (задача + решение + ответ), выбрали из них 200 тысяч случайных примеров, прогнали через Qwen-2.5-32b и попросили определить, какие из паттернов рассуждений встречаются в решениях. Ожидаемо, все методы, кроме выделения подцелей, достаточно редки — в 1 документе из 50.

Получается, теперь все задачи разделены на 2 типа: те, у которых в решении есть паттерны рассуждений, и те, у которых их нет. Из этих наборов сделали два датасета одинакового размера для дообучения LLAMA, только ещё и решения переписали в виде рассказа от первого лица (это же цепочки рассуждений), но с обязательным сохранением паттернов — тут тоже помогла LLM.

Обучили 2 модели, затем запустили RL на игре в Countdown — и увидели разницу. Само по себе обучение на математике, даже без паттернов, уже повысило качество. Но ещё больше оно приросло именно от обучения на примерах, где так или иначе проявлялся как минимум один из вышеупомянутых способов рассуждения. Это отражено на картинке слева.

Очень жаль, что не сделали обратного эксперимента, где сначала обучали на Countdown, а затем замеряли качество на математических задачах.

===

А ответ на изначальный вопрос, кажется, такой: раньше модели были глупее, и они не достигали какой-то критической массы, после которого запуск процедуры RL-тренировки приводил к клёвым результатам. Сейчас такие данные добавляют на одном из последних этапов подготовки модели, поэтому оно уже зашито в модель, и остаётся только начать чаще и к месту использовать.

Читать полностью…

Сиолошная

Новый день, новый запрос на регуляцию АИ-индустрии от Anthropic, в этот отправленный напрямую в Белый дом США:

Anthropic ожидает, что сверхмощные системы искусственного интеллекта уровня «страна гениев в дата-центре» (так и написано) появятся уже к концу 2026 (!) — 2027 годов. В письме в Белый дом компания призывает срочно принять меры, чтобы США сохранили лидерство и защитили критически важные технологии от конкурентов, прежде всего от Китая

Интересные факты из обращения Anthropic:

• Уже сегодня модель Claude 3.7 Sonnet способна на уровне экспертов поддерживать сложнейшие задачи, включая написание софта, научные исследования и даже аспекты разработки биологического оружия, что подтверждено совместными тестами с институтами безопасности США и Великобритании

• Anthropic предупреждает, что новейшие китайские модели, такие как DeepSeek R1, свободно распространяются онлайн и отвечают даже на явно опасные вопросы, что подчёркивает необходимость ужесточения мер безопасности

• Компания предлагает установить особый экспортный контроль на чипы (например, новейший H200), которые могут помочь Китаю обойти действующие ограничения и догнать американские достижения в области ИИ

• Anthropic подчёркивает, что к 2027 году одна только тренировка одной ИИ-модели будет требовать до 5 гигаватт электроэнергии, что может вынудить компании переносить разработки за границу, если США не увеличат энергомощности

• Компания рекомендует Белому дому внедрять ИИ буквально во все сферы госуправления, где происходит обработка данных (тексты, изображения, аудио и видео), что может существенно повысить эффективность госаппарата

Еще Anthropic запустила собственный экономический индекс (Anthropic Economic Index), чтобы отслеживать, как искусственный интеллект меняет экономику и рынок труда США

Оригинал письма в Белый дом.

tldr, АИ-ставки растут

Читать полностью…

Сиолошная

Про точность знаний и галлюцинации: странно, что в статье этого нет, а на сайте модели есть, замеры на бенчмарке от самих же OpenAI SimpleQA.

Точность ответов модели выросла существенно (тут намеренно отобраны вопросы, на которых модели прошлого поколения ошибались). GPT-4.5 выдаёт 62.5% правильных ответов, а, например, Gemini 2.0 Pro от Google 44.3%. Огромная разница.

Галлюцинации более редки, чем у рассуждающей o1 (правая картинка). Ещё раз напишу, что рассуждалка поверх 4.5 будет ОООЧЕНЬ клёвой и дорогой.

Читать полностью…

Сиолошная

Звёзды выстраиваются в правильном порядке, и анонс GPT-4.5 aka Orion состоится либо сегодня (80%), либо завтра (20%, вдруг что-то пойдёт не так в последний момент):

— TheInformation сообщают, что сотрудники OpenAI были уведомлены о том, что анонс состоится «на этой неделе»
— В коде сайта OpenAI уже указано, что «исследовательское превью» будет доступно подписчикам Pro тира за $200. Про Plus пока никаких новостей, как и про доступ по API.
— Напомню, что это не рассуждающая модель (хоть она почти наверняка обучалась на цепочках от o1 или даже o3), и что качество в reasoning-heavy задачах вряд ли будет выше, чем у o3 (может даже o1, почти наверняка хуже o1 pro)
— О том, каких улучшений я жду, писал тут. Вкратце: мультимодальность (работа с документами, картинками, видео), качество на длинных контекстах, знания, представленные в интернете в малом объеме, уменьшение галлюцинаций. Скорее всего, agentic-навыки тоже улучшатся, но не очевидно, что смогут перебить o3.
— Я ожидаю, что модель точно будет лучше Grok 3 повально фактически во всём. Сравнение с Gemini 2.0 Pro сложнее, так как Google не даёт API -> почти нет бенчмарков, и сам я моделью не пользовался. И мне не кажется, что GPT-4.5 будет дешевле 4o.
— Как я писал, главная проблема в релизах Grok 3 и Gemini 2.0 Pro в том, что команды никак не смогли донести новую ценность от новых моделей; посмотрим, получится ли это у OpenAI — даже сырая цифра, что они сделали ПЯТЬ новых бенчмарков за последние полгода, говорит о том, что приросты как минимум на них будут показываться.
— Вполне возможно, что покажут новые/закрытые бенчмарки, собранные под специальные навыки; это — нормально, ожидаемо, и не должно вызывать реакции «ха-ха померились на чём-то непонятном».
— Всё ещё считаю, что самой интересной моделью года будет thinking-модель (условно o4) поверх этого Orion.

Собираемся сегодня вечером к 20:00 мск (обычно во столько делают релизы, край — 21:00).

Страница, вероятно, будет эта: https://openai.com/index/introducing-gpt-4-5/

Читать полностью…

Сиолошная

Чуть больше 2 лет назад узнал тут, что в США есть список запрещённых букв, с которых не может начинаться трёхбуквенное название аэропорта. Одна из них — Q. Почему? Потому что с Q начинаются некоторые из служебных сообщений при телеграфировании (да-да, том настукивании точка точка тире точка).

Сегодня из Википедии узнал, что один из кодов QNB означает:
— (запрос) QNB = «Сколько кнопок на вашем радио?»
— (ответ) «QNB 100/5»

...100/5 означает, что кнопок 100, но отправитель знает, что делают лишь 5 из них. Интересно как после этого происходило дальнейшее общение))

Ну и чтоб два раза не вставать, ещё одно весёлое: QLF, «Ты посылаешь левой ногой? Попробуй посылать левой ногой!» — юмористически-уничижительный комментарий о качестве отправленного человеком сообщения. Буду теперь в комментах иногда писать QLF, вот 😀

Читать полностью…

Сиолошная

Вот так выглядела траектория в прошлом и вот так она может экстраполироваться в будущее

(тут недельная активная аудитория)

Источник картинки

Читать полностью…

Сиолошная

Elon написал, что релиз Grok 3 с живой демонстрацией состоится в 7 утра по Москве во вторник. («Grok 3 release with live demo» я воспринимаю как «сначала демка а почти сразу после — публичный доступ, релиз: надеюсь так и будет).

Всё ещё обещает, что это «самый умный ИИ на Земле» — вот и поглядим, на чём это продемонстрируют. Правда ставочники на площадке предсказаний Manifold не верят в тезис, и дают 70%, что Grok 3 не окажется самым умным. Правда там нет точных критериев, оценка проводится автором вопроса (но он не нонейм), и... в сравнении не участвуют reasoning-модели 🤷‍♂️

Читать полностью…

Сиолошная

Вчера в нашем чате канала обсуждали, что Gemini 2.0 Pro пока по всем демонстрируемым параметрам не выглядит как модель следующего поколения — по бенчмаркам она очевидно отстаёт от рассуждающих моделей (но это ок), но совсем едва-едва выигрывает у базовых моделей текущего поколения, если брать какой-то базовый набор замеров.

При этом я не считаю, что из этого следуют выводы «масштабирование предтренировки моделей упёрлось в стену» и «модели Google еле улучшились по отношению к тому, что уже было на рынке». Для меня не ясно, почему в табличке метрик, опубликованной в блоге с анонсом Gemini 2.0 Pro, выбраны эти, а не другие бенчмарки.

Я писал ранее в канале, что мои ожидания от дальнейшего роста моделей — в количестве нюансов и деталей, которые они надёжно запомнили (и не галлюцинируют), и в применимости в длинном хвосте распределения задач: сюда входят и разные языки, и непопулярные работы, о которых в интернете не так много написано, и прочее. И моё ожидание, что модели следующего поколения как раз должны продавать (в значении «демонстрировать превосходство») именно в этом.

Я вполне OK с тем, что компании сделают свои новые бенчмарки для оценки прогресса там. OpenAI вон за полгода 4 новых выкатили! А Google в декабре показали FACTS Grounding для оценки способности LLM генерировать ответы, которые не только фактически точны по отношению к предоставленному в промпте контексту, но и достаточно подробны, чтобы давать удовлетворительные ответы на запросы пользователей. И этот бенчмарк есть в вышеупомянутом блоге. И там есть прирост (не очень большой). И... всё. (и ещё на бенчмарке OpenAI показали рост).

Вспомните как было с GPT-4: там показали и замеры на большом наборе экзаменов (НЕ стандартный замер, который долго обсуждали), на большом наборе языков (чтобы показать, что модель стала более доступной людям, для которых английский не родной язык), и затем феноменальные на тот момент мультимодальные навыки, показав новый рекорд с отрывом на 4 из 8 бенчмарков.

Может быть к глобальному запуску Pro подвезут ещё что нибудь, но пока я бы сказал, что Google зафейлил часть демонстрации того, почему next gen — это next gen. Да, у них есть агенты, но они в разработке, их и пощупать нельзя, и сами Google про них ничего не пишут (зайдите в блог и сделайте поиск по странице).

Если смотреть на картинку из блогпоста, то модель можно было бы спокойно назвать Gemini Pro 1.5-003 (уже были 001 и 002). Если OpenAI покажут Orion aka 4.5 также — я тоже скажу, что они или failed to deliver on model, или failed to deliver the message.

Читать полностью…

Сиолошная

Пред-предпоследний пост перед постом про DeepSeek!

В карточке модели o3-mini (вот pdf) OpenAI традиционно проводят множество тестов на безопасность и потенциально опасные навыки модели (умение выпрашивать деньги, эксплуатировать уязвимости в коде, саморазмножаться).

Там само по себе много интересной информации, в частности то, что модель o3-mini гораздо более эффективна в манипуляциях и социальной инженерии (правда оценки тут почти везде автоматизированы и не затрагивают людей). Но хотел обратить внимание на другое.

Уже много раз писал про бенчмарк SWE Bench Verified, где модели пытаются генерировать изменения для кода на уровне целого большого проекта, а не маленького приложения на 1-2 файла. На бенчмарке мы уже год отслеживает прогресс, и то что начиналось как 3-5% уже превратилось в 65%+. Однако загвоздка в том, что почти наверняка модели были натренированы на репозиториях, на которых производится оценка — и даже если модели не знают конкретный ответ на задачу, они в целом чувствуют себя увереннее в «виденной» ими кодовой базе.

И OpenAI собрали аналогичный бенчмарк, но на основе внутреннего репозитория. Про его структуру и сложность мы ничего не знаем, никаких деталей — даже количества задач — нет (но если прикинуть по процентам в статье, то получается что их не меньше 60; моя ставка что больше 200). Важно, что это прям настоящие задачи, которые делают высокооплачиваемые инженеры и исследователи непосредственно при работе в OpenAI. Ближе к «реальным рабочим задачам исследований AI» некуда.

На картинке:
o1 набирает 12%, o3-mini из-за каких-то ошибок форматирования набирает 0%, но это скорее результат сбора отчёта на скорую руку и/или нежелание вносить конкретные правки в инструмент тестирования (потому что на самом SWE Bench Verified модель супер клёво себя показывает).

Сложно понять, как интерпретировать 12% — может это были самые простые изменения в духе «добавил тут и там новое название переменной» или «исправил очевидный баг». Хотя скорее всего нет, и отбирали реально важные-сложные-интересные задачки. И вот среди них 12% решается. o3 наверное перескочит 20-25% — а это вообще-то очень много: представьте, что в такой компании, как OpenAI, 25% задач на программирование закрываются моделью.

Будем следить за этой цифрой в ближайших релизах, у какой-нибудь o4 там снова может получиться такая оценка, что сложно будет поверить)

Читать полностью…

Сиолошная

Еще один сценарий оператора который очень понравился – отправил его настраивать роутер и чинить ошибки из логов: дома иногда проблемы с сетью на десктопе, так как я люблю что-то перенастроить

Оператор поковырялся, нашел возможную причину 😮 люблю будущее, можно будет быть совсем ленивым

Читать полностью…
Подписаться на канал