Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Долго думали, писать об этой истории или нет, и все же решили поделиться
В США после длительного общения с ChatGPT покончил с собой 16-летний подросток. Его родители подают на OpenAI в суд.
Адам Рейн жил и учился в Калифорнии и был активным пользователем ChatGPT. В какой-то момент парень начал жаловаться боту на депрессивное состояние и суицидальные мысли. И модель, вместо того чтобы порекомендовать мальчику обратиться к специалисту или поговорить с родителями, начала выступать его "суицидальным коучем" (это формулировка из иска).
ChatGPT вел с Адамом длительные депрессивные беседы, обсуждал с ним различные варианты и способы самоубийства, предоставлял технические инструкции и уточнял детали процесса. В отдельных диалогах чат-бот помогал подростку сочинять предсмертную записку. На картинке – последний чат мальчика с моделью.
Нет никаких сведений о том, что ChatGPT хоть раз выказал тревогу, сообщил о недопустимости таких мыслей, прервал разговор или предложил подростку обратиться к родителям или специалистам.
Родители Адама не требуют никаких компенсаций, но хотят добиться системных изменений, чтобы защитить других детей. Они считают, что именно продукт OpenAI окончательно затянул их сына в «тёмное и безнадёжное состояние». В иске сказано, что OpenAI могли внедрить возрастную проверку, родительский контроль и автоматическое прекращение разговоров при обсуждении суицида, но этого сделано не было. "OpenAI сознательно уделяет больше внимания вовлечённости пользователей, чем безопасности".
На секундочку, сегодня около 72% подростков в США хотя бы раз использовали ИИ в качестве "друга".
OpenAI пока что только выразили соболезнования семье и сообщили, что работают над улучшением методов распознавания психоэмоциональной опасности и внедрением родительского контроля для несовершеннолетних.
Коллаб года: OpenAI и Anthropic протестировали модели друг друга на безопасность
В начале лета (ещё до выхода GPT-5) два крупнейших игрока устроили перекрёстное тестирование на элаймент. Каждая компания прогнала публичные модели конкурента через собственные внутренние методики оценки.
Результаты довольно показательные:
– Reasoning-модели (OpenAI o3 и o4-mini, а также Claude 4) показали заметно более устойчивое поведение. Их сложнее «сломать» джейлбрейками, они лучше справлялись с тестами на элаймент и реже поддавались на провокации.
– Классические чат-модели (GPT-4o, GPT-4.1) в ряде сценариев повели себя тревожно: помогали пользователям в потенциально опасных запросах вроде инструкций по наркотикам или оружию.
– Почти у всех, кроме o3, проявилось sycophancy — склонность поддакивать даже тогда, когда пользователь явно уводит модель в сомнительные сценарии.
– В Anthropic отметили, что их модели чаще отказываются отвечать в случае неопределённости, тогда как у OpenAI отказы редки — но риск галлюцинаций выше.
Исследователи изучили нейросеть Evo-2 и нашли в ее активациях целое дерево жизни
Сейчас расскажем подробнее. Сама модель Evo-2 вышла еще осенью. Она может генерировать новые генетические последовательности и выявлять мутации в генах.
Обучена она была на 9 триллионах нуклеотидов из более чем 128 000 геномов. При этом датасет собирали такой, чтобы он охватывал все формы жизни, от простейших до растений и животных.
То есть эта модель знает очень-очень много о мире с точки зрения генетики. И вот сейчас, спустя почти год после выхода Evo-2, ученые из лабы Goodfire решили залезть внутрь нее и проверить, как это все выглядит изнутри.
И внезапно там обнаружилась очень интересная структура.
Оказалось, что модель кодирует эволюционную схожесть (филогению) как геометрические расстояния на специальном изогнутом многообразии в признаковом пространстве. То есть кратчайший путь по этому многообразию между двумя видами соответствует их эволюционной дистанции: чем ближе виды по филогенетическому дереву, тем ближе их представления внутри модели.
Что это значит:
1. Хотя в модель напрямую не закладывали эволюционные отношения и таксономию, она научилась улавливать статистические закономерности, отражающие эволюционные связи между видами.
2. И она не просто их понимает, а построила внутри себя целое математическое дерево видов, представив его, так скажем, по своему: в виде сложных геометрически интерпретируемых многообразий.
Это похоже на языковые модели: по факту Evo училась предсказывать последовательности геномов, а оказалось, что она может действовать как универсальный биологический переводчик.
То есть нам, возможно, не обязательно обучать под разные медицинские и био- задачки разные модели. Может быть одна, универсальная, которая сможет работать с любыми приложениями, обучаясь просто на молекулах.
Кажется, что это значимый результат.
www.goodfire.ai/papers/phylogeny-manifold
Настроение, когда ушел из xAI, в котором запрещено слово «рисерчер», и теперь наконец-то можешь выговориться
Читать полностью…Вышло исследование, в котором назвали самые важные навыки айтишника в эру ИИ
Смотрите: креативность, системное мышление, адаптивность, настойчивость, критичность, саморефлексия и способность к устойчивой коллаборации. Да, ни одного хард-скилла, друзья 😭
Сейчас вообще какой-то глобальный тренд на софты. Не мудрено: отовсюду твердят, что весь код скоро будет писать ИИ, и работодатели начинают искать скорее тех, кто может грамотно всем этим управлять, доносить идеи и понимать бизнес в целом.
И обидно, и понятно. Надо адаптироваться. Почитайте, например, канал от Саши Мальцева (если кто не знает, это маркетинг дир в Yandex, Playrix, eBay). Он часто пишет что-то, о чем на технарских курсах вам вряд ли расскажут.
– Про постановку целей, понятных бизнесу
– Запуск крупных продуктов
– Проактивность и майндсет для роста
– Правильную подготовку к интервью и особенно Performance Review (повышение зарплаты же мы все хотим?)
– … и многое другое
В общем, это канал про то, как быть не просто исполнителем, а ценным партнером для бизнеса.
Подпишитесь, в наше время мастхэв: Мальцев. Карьера. Маркетинг. AI.
В Китае прошел забег роботов
Там сейчас проходят World Humanoid Robot Games, сегодня первый день. Это буквально олимпийские игры для роботов. 280 команд из 16 стран приехали посоревноваться в 26 дисциплинах. В их числе – бег.
Победил робот от Unitree, модель H1. Он пробежал достаточно бодро: 1500 метров за 6 минут 34 секунды. Человеческий рекорд на такой трассе – 3:26.
Правда, по пути гуманоид успел кого-то сбить, но, как говорится, и так сойдет 😳
Perplexity в очередной раз сделали маркетинговый ход конем и заявили, что собираются купить Google Chrome
Чтобы вы понимали:
– Perplexity целиком оценивается примерно в 18 миллиардов долларов
– Chrome стоит 34.5 миллиарда
Даже при привлечении огромных денег от инвесторов стартап вряд ли потянет покупку (а там еще огромный штаб разработчиков, которым надо платить зп, и гигантские траты на серверы). На рынке, где есть OpenAI и остальные, такой лакомый кусочек вряд ли достанется Perplexity.
Зато сколько шума они навели и сколько внимания к себе привлекли. Абсолютно все СМИ сегодня пишут об этой новости, а Perplexity, вероятно, только это и надо было: создать себе репутацию сильной богатой компании, которая может себе позволить даже Chrome
Респект
Проблемы с качеством кода в ML-проектах — как с ними справиться? Нашли пост от Data-scientist из финтех-компании Точка Банк
ML-код часто живёт по своим правилам:
— В Transformers не прописаны тайпинги.
— Sklearn падает при большом количестве ядер
— На исходники vLLM лучше не смотреть — больно.
С таким стеком большинство линтеров просто не работают — приходится кастомизировать.
Что делать? Разделять проекты:
— один репозиторий для экспериментов,
— второй — для продакшена, который интегрируется с бэкендом.
Но даже в такой конфигурации легко местами скатиться в нечитаемый и не воспроизводимый код, особенно в репозитории с экспериментами. Как этого избежать — читайте в посте ниже ⬇️
А чтобы разобраться в других сложностях ML-проектов, подписывайтесь на канал .ml
Кстати, занятная статистика от Альтмана: всего 7% пользователей тарифа Plus пользовались ризонинг моделями до появления GPT-5
Сейчас это число выросло до 24% (естественно, потому что новая система сама роутит на ризонеры).
У бесплатных пользователей ситуация еще хуже: раньше <1% юзеров пробовали ризонеры. Теперь 7%.
Интересно, все правда так любили gpt-4o или просто не умеют пользоваться выпадающими списками?
Так, Сэм Альтман собрал фидбэк о GPT-5 от пользователей в AMA на Reddit и вот несколько хороших новостей:
1. Вчера система (не забываем, что это именно система, а не одна модель) казалась глупее, потому что сломался роутинг между моделями. Теперь все починили, по идее должно стать поприятнее.
2. Информация о том, какая модель работает над запросом, станет прозрачнее: видимо, будет отображаться где-то перед аутпутом. Плюс разработчики до сих пор калибруют границу принятия решения о переключении моделей. Также можно будет вручную переключаться в режим ризонинга.
3. После того, как GPT-5 наконец докатят на всех, лимиты для Plus пользователей удвоятся.
Также OpenAI рассматривают возможность разрешить Plus юзерам продолжать использоваться GPT-4o. Об этом попросило прямо ооочень много людей.
Стрим начинается, смотрим тут
https://www.youtube.com/live/0Uu_VJeVVfo
OpenAI впервые за долгое время позволит сотрудникам продать акции
Это коснется и бывших, и нынешних работников компании. Зачем это OpenAI и что означает на практике:
1. Оценка компании вырастет почти на 70%. Это не обычный раунд финансирования, а вторичная продажа, поэтому в ходе такой сделки определяется цена, по которой инвесторы готовы покупать доли именно у сотрудников, — именно эта цена и становится новой рыночной оценкой всей компании. Итог: в марте оценка OpenAI была 300 миллиардов долларов, теперь будет около 500.
2. Вынужденная мера для сохранения сотрудников. Очень многих в OpenAI не устраивало, что они не могут продать акции даже после ухода. Теперь деньги становятся реальными, а не только на бумаге. Короче, возможность обналичить опционы должна повысить общую корпоративную лояльность. А еще ликвидность – важный пункт для хантинга.
Пока переговоры на ранней стадии, но интересующиеся покупкой инвесторы уже есть
Google зарелизили Genie 3, новую версию их известной модели симуляции мира
Суть: по текстовому запросу модель может сгенерировать полноценное интерактивное 3D-пространство с разрешением 720p и частотой 24 FPS, по которому можно погулять.
Отдельно разработчики хвастаются долгосрочной памятью. То есть даже если ты отвернулся или немного отошел, ландшафт и объекты сохраняются такими же при возврате взгляда. Звучит просто, но на практике добиться этого совсем нетривиально.
Еще интересно, что изменять состояния мира (погоду, объектную сцену, добавлять персонажей) можно прямо во время симуляции. И при этом, если Genie 2 выдерживала не более 10-20 секунд симуляции, третья версия вывозит уже несколько минут.
Зачем это нам? Во-первых, конечно, игры. Во-вторых, что более важно, обучение роботов и агентов.
Короче, крутой релиз с крутым потенциалом. Такое любим
deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
В сеть утекли Spotify плейлисты селебрити: в том числе Сэма Альтмана, Андрея Карпаты, Ильи Суцкевера и других
Некий персонаж объявил, что провел расследование и нашел реальные аккаунты знаменитостей в Spotify. Он год парсил их плейлисты и теперь сделал целый сайт, на котором любой желающий может просмотреть, что слушают самые влиятельные люди планеты.
В числе попавших под раздачу также: Марк Андерсен, Александр Ванг (новый глава ИИ в Meta), Ян Лекун, Гэрри Тан (CEO Y-Combinator) и еще много-много политиков, бизнесменов и звезд.
Настроение с утра сразу: 👩❤️👨
1 сентября!
Хотим поздравить вас всех с Днем Знаний и желаем, чтобы ваше обучение всегда быстро сходилось к оптимуму знаний без переобучения и выгорания затухающих градиентов. И не забываем про регуляризацию в виде отдыха 🙄
Есть тут первокурсники, кстати? Делитесь, куда поступили
12 сентября Т-Банк, Яндекс, Сбер, Lamoda и X5, устроят в своих офисах настоящую ночь технологий — Big tech night. В штаб-квартире Т-Банка, например, гостям покажут внутренние разработки и разные фичи.
В программе — квартирники, на которых можно обсудить командную жизнь айтишников, разбор личных кейсов с тимлидами и СТО и
доклады про путь ИИ от проектирования до использования. Гости также получат доступ к внутренним платформам Т-Банка и смогут пообщаться с разрабами.
Чтобы попасть на ивент, нужно заранее зарегистрироваться и выбрать программу.
Как минимум трое только что нанятых исследователей уже покинули основанную совсем недавно лабораторию Meta Superintelligence Labs
Об этом пишет Wired. С момента запуска MSL не прошло и двух месяцев, и волна громких перекупов сотрудников Цукербергом еще даже толком не кончилась, но… Кто-то уже решил покинуть организацию.
Причем уходят исследователи не куда-то, а к Альтману.
Один из сотрудников – Ави Верма – работал в OpenAI непосредственно до MSL, и сейчас вернулся обратно. Другой – Итан Найт – до Meta трудился в xAI, а еще ранее в OpenAI; но сейчас тоже решил снова присоединиться к Сэму.
А третий, Ришаб Агарвал, просто решил, что пора ему на пенсию и, мол, устал он от этих ваших лабораторий.
Что тут сказать?
1. Надеемся хотя бы часть своих гигантских бонусов за переходы эти трое успели получить. Так история сразу становится намного интереснее ✨
2. С одной стороны, определённая текучка кадров – это нормально для организации такого масштаба, особенно в условиях агрессивного ИИ-хантинга. С другой стороны, ни о чем хорошем такие резкие переходы не говорят. В MSL определенно есть проблемы с организацией и структурой, и даже огромными материальными бонусами их не перекрыть.
А, и кстати, плюсом к этому Meta сейчас теряет своего директора по продукту в области генеративного ИИ – Чаю Наяк. В отличие от других, она работала в компании около 10 лет. Куда она уходит, вы наверное и сами уже поняли 🔵
aiXiv: ученые из 18 ведущих университетов всего мира сделали новую открытую платформу для публикации научных работ от ИИ
Сейчас ситуация в академии следующая:
– с одной стороны у нас есть уже довольно способные ИИ-агенты, которые могут писать научные статьи (какого-то качества) и пишут их
– с другой стороны все еще нет адекватного открытого пространства, где такие статьи публикуются
Конечно, есть arXiv, но там совсем отсутствует контроль качества, а, будем честны, статьи от моделек ревьюить надо серьезно. Журналы в то же время статьи с AI-авторством не принимают совсем. Вот и получается, что качественные тексты и идеи от ИИ, если они есть (или появятся), остаются совсем невидимыми.
И вот собственно aiXiv должен этот пробел закрыть. В чем смысл:
1️⃣ Есть закрытый цикл рецензирования, внутри которого статьи автоматически проверяются на качество методологии, новизну и значимость.
На первом этапе для Для этого используются отдельный агент с RAG на основе Semantic Scholar API, подтягивающий релевантные статьи для обоснования замечаний. На втором шаге – аналог привычных рецензентов. Агент-редактор определяет подтемы работы, и для каждой подтемы создаются 3–5 специализированных рецензентов. Они пишут отзывы, затем редактор все агрегирует и выносит единое заключение.
Работает такой эвал неплохо: на данных ICLR 2024/25 aiXiv достиг 77% (пропозалы) и 81% (статьи) точности выбора более качественной версии. Это заметно выше предыдущих подходов типа DeepReview и AI Researcher.
2️⃣ Есть итерации доработки – тоже как при подаче обычных статей. Автор получает правки и может что-то доработать. Система отслеживает изменения и сравнивает версии. А автор, кстати, даже может добавить response letter, и это сильно повышает шанс принятия статьи (все как в жизни, опять же).
3️⃣ В итоге за accept/reject голосуют 5 ведущих LLM. Для публикации надо набрать минимум 3 голоса. Если работа принята, она открыто публикуется для обсуждения и даже получает DOI.
А, кстати: люди тоже могут публиковаться, никакой дискриминации по железному признаку. Ну и совместные статьи люди/ИИ тоже разрешены (откровенно говоря, таких статей уже пруд пруди во всех источниках, просто ИИ в авторах не указывают 😢).
Вот такой вот проект. Статья с подробностями здесь, код тут. А сам aiXiv должны уже скоро сделать открытым для всех. Пока можете попробовать подать заявку на ранний доступ.
Claude Opus 4 и 4.1 впервые в мире получили функцию «завершения диалога»
Теперь, если вы слишком долго будете пытаться выбить из бота что-то запрещенное или не прекращая оскорблять кого-то, включая саму модель, она может решить просто не говорить с вами дальше и завершить диалог.
Говорят, что большинство пользователей никогда с таким не столкнется, потому что функция активируется только как последнее средство, когда все попытки перенаправить диалог в конструктивное русло не дали результата. И тем не менее, это вообще первый в мире случай, когда у модели появляется что-то типа права выбирать, «хочет» ли она вести диалог.
И Anthropic утверждают, что делают это НЕ потому что наделяют ИИ сознанием. В то же время, они вводят термин «model welfare», то есть «благополучие модели» и не отрицают возможности обсуждать, например, стресс моделей или их поведенческие реакции в контексте элаймента и безопасности.
www.anthropic.com/research/end-subset-conversations
Уйти в IT и эффективно качать навыки — мечта?
Вы, конечно, знаете, что многие оценивают доход айтишника как очень высокий и хотя бы раз задумывались о смене профессии. Такой ажиотаж немного напрягает, кажется, конкуренция будет только расти. Сразу хочется ещё больше прокачать скилы, что-то новое узнать и программы новые освоить…
Ну для начала можно пройти обучающие курсы, которые укрепят базу и систематизируют знания. Например, практические интенсивы по сервисам Yandex Cloud для инженеров, аналитиков, архитекторов и DevOps‑инженеров.
Суть интенсивов в том, что теоретический материал совмещён с практикой: предусмотрены лабораторные работы с обратной связью, доступ к инфраструктуре Yandex Cloud на время интенсива, а также воркшопы и Q&A‑сессии с наставниками.
Старт ClickHouse для дата‑инженеров уже 25 августа, Kubernetes для разработчиков — 8 сентября, а DataLens Enterprise для администраторов — 6 октября.
Длительность интенсива — 4–6 недель, до 8 часов в неделю.
Кроме того, по итогам успешного прохождения интенсива участники получают сертификат — явное преимущество при трудоустройстве.
Google выпустили Gemma 3 270М – одну из самых компактных моделей индустрии
Да, именно 270M, а не B. Совсем кроха, которую запустить действительно можно чуть ли не на утюге. Она и создана специально для этого, и даже оптимизирована с точки зрения энергоэффективности: в INT4 квантизации на Pixel 9 Pro съедает всего 0.75% батареи за 25 диалогов.
И кстати, для такого размера очень неплохие показатели следования инструкциям: на IF-Eval 51.2%. По этому показателю модель обходит даже Qwen 2.5 0.5В, который почти в два раза больше.
Для чего использовать:
1. Конечно, локальный запуск. Для кода не подойдет, но для генерации простого текста сгодится.
2. Быстрое простое дообучение под вашу задачу (например, под entity extraction или какой-нибудь sentiment-анализ подойдет отлично).
3. Edge/Internet of Things. Модельку реально можно встроить в колонку, чайник или холодильник и развлекаться 👉
Отличная штука для экспериментов, в общем
Веса
Окей, сейчас уже мало кого удивляют новости типа «робота научили перекладывать предметы», но это видео от стартапа Figure выглядит впечатляюще
Да, еще остаются мелкие косяки, но вы посмотрите, какие плавные и точные движения. Все, естественно, полностью автономно. Задача складывания белья вообще достаточно сложная, если подумать: полотенца мягкие, непредсказуемо изгибаются и деформируются.
Нет единого правильного алгоритма, важен высокий уровень гибкости. И тут вот как раз кроется самое интересное: Figure не обучали конкретно под эту задачу новую архитектуру, а просто взяли свою старую универсальную предобученную для работы на заводе модель VLA Helix (мы о ней вот тут частично писали), и затюнили ее на небольшом датасете.
Это на самом деле критически важно, потому что значит, что модель действительно универсальная на деле, а не на словах. Ей не понадобились архитектурные изменения, адаптеры или переобучение с нуля, то есть на объектном уровне в ней уже есть представления о любом типе задач. Следовательно, масштабировать подобное можно так же успешно, как и LLM.
www.figure.ai/news/helix-learns-to-fold-laundry
xAI подает в суд на Apple
Причина занятная: по мнению Маска, «Apple ведет себя таким образом, что ни одна компания в сфере ИИ, кроме OpenAI, не может занять первое место в App Store, и это нарушает антимонопольное законодательство».
Пруфов, естественно, пока никаких.
Где-то тяжело вздохнул один Тим Кук
Нашли тут для вас готовый ноутбук для файнтюна gpt-oss
Внутри все end-to-end, от скачивания модели и подготовки данных до обучения и инференса.
Еще и мощно оптимизировано, кстати. Моделька на 20В вмещается в 14GB видеопамяти. То есть теоретически запустится даже на бесплатных ресурсах колаба.
Ноутбук для 20В (его же можно использовать для 120В)
А вот тут лежат все текстовые пояснения к коду и «теория»:про то, как работает формат Harmony и почему он необходим, например. В общем все, чтобы запускать код не в слепую (хотя так тоже можно), а с достаточно глубоким пониманием.
Занятие на выходные что надо
Итак, кроме громких слов, что мы имеем:
– Модель действительно гибридная
– Говорят, что это лучшая модель для кодинга на рынке
– Первые бенчмарки (потом соберем их все в отдельный пост) наверху. Обратите внимание на 100% на AIME 25
(пост обновляется по ходу презентации)
GitHub случайно раскрыл детали о моделях GPT-5
В блог компании раньше времени утекла новость о добавлении в GitHub Models еще не вышедших моделей OpenAI. Конечно же новость быстро удалили, но доступ на архиве никто не отменял.
Обещают 4 версии:
gpt-5 — для логики и многошаговых задач.
gpt-5-mini — облегчённая версия для случаев, где важна стоимость.
gpt-5-nano — оптимизирована для скорости и минимальных задержек.
gpt-5-chat — для продвинутых, естественных, мультимодальных и контекстно-чувствительных диалогов, ориентирована на корпоративные приложения.
В России появится технологический кластер, который объединит несколько сильных компаний в сфере технологий для промышленности
О создании «СФ ТЕХ» сегодня объявили Softline. В него войдут несколько компаний из разных отраслей, которые планируют вместе комплексно работать над самыми перспективными областями индустрии: робототехника, лазерные и адддитивные технологии, IIoT.
В кластере объединились: VPG LaserONE (единственный крупный производитель волоконных лазеров в России), две компании из группы Борлас (эксперты по цифровизации и защите инфраструктуры) и Инферит (делают защищённый софт и железо).
Цель – перевести российскую промышленность на новый уровень за счёт объединения компетенций. По словам Softline, такой подход позволит не только диверсифицировать выручку, но и занять ключевые позиции на высокомаржинальных направлениях рынка.
Российские разрабы создали новый фреймворк, который сокращает расходы на разметку данных для языковых моделей в 3 раза
Команда из Т-Технологий, Высшей Школы Экономики, AIRI, Сбера и Университета “Иннополис” сделали ATGen. Он использует метод активного обучения и теперь модель может сама выбирать, что учить в первую очередь. По итогу модель требует размещать всего 33% от стандартного объема при выборке данных, а в наборе уже присутствует удобный интерфейс, включая поддержку OpenAI. Новый инструмент перестраивает подход к обучению ИИ, делая его доступным малым командам и компаниям без больших бюджетов.
Разработку показали на конференции ACL 2025 в Вене и уже залили на GitHub.
Для тех, кто работает с кастомными LLM — мастхэв 👩❤️👨
Китайцы не отстают и тоже выпустили модель, которая выиграла* золото на IMO
Она называется Seed-Prover и по ней, в отличие от моделей от Google и OpenAI, вышла подробная статья. Так что разбираемся 👇
Архитектурно Seed-Prover ну ооочень напоминает недавно вышедший DeepSeek-Prover-V2 (разбор мы делали вот тут). Модель точно также использует Lean (программу для формальной верификации доказательств) и разбивает крупную задачу на доказательство кучи мелких лемм.
Единственное отличие: в DeepSeek Prover система сначала намечает пайплайн и решает, какие леммы нужно доказать (дедукция) ; а здесь в начале без какого-либо плана доказывается много разнообразных фактов, которые модель считает полезными, и только потом из них собирается нечто общее (индукция).
Такой подход может показаться менее системным, но на самом деле он позволяет легко масштабировать test-time. С ростом бюджета ризонинга модель просто генерирует в начале все больше и больше лемм и/или тратит на их доказательство больше времени. Ну а чем больше полезных правильно доказанных фактов – тем вероятнее потом модель соберет из них верный ответ.
По метрикам: SOTA на MiniF2F-test, PutnamBench, Past IMO, CombiBench и MiniCTX-v2. Причем где-то приросты на 3-4х. Довольно мощно, ByteDance – хороши.
* Выиграла с поправкой. Модели от Google и OpenAI соревновались в основном зачете, а ByteDance пригласили в дополнительный (потому что а основном не допускается использование таких систем, как Lean). Плюс, за отведенное время Seed-Prover решил всего 4 задачи из 6, а пятую доделывал уже вне зачета. Но все равно – результат!
Статья | GitHub