Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Из свежего выступления CPO OpenAI в Давосе:
— o3-mini ожидается «очень скоро», за ней последует полноценная o3 «в феврале-марте, если всё пойдет как надо» (я читаю это как «если во время тестирования на безопасность не будет проблем, ведущих к задержке»)
— Агенты (Operator) ожидаются в первом квартале '25, то есть достаточно скоро (я правда надеялся, что на этой или следующей неделе...)
— «с новым типом рассуждающих моделей скорость итераций увеличивается, мы перешли от o1 к o3 за 3 месяца. Мы уже тренируем модель, которая выйдет после o3. Выглядит так, что мы увидим ещё один большой скачок в навыках модели. Модели становятся умнее очень быстро» (благодаря новой парадигме масштабирования)
— «Sama очень хорош в оценке экспоненциальных темпов роста, поэтому мы и запускаем проект Stargate на $500 миллиардов»
What it takes to be an AI skeptic in 2025? (я не смог придумать звучное название поста на русском, предлагайте варианты в комментариях!)
Есть такой AI скептик Gary Marcus, который любит хвалиться тем, что он ещё 20 (ладно, мб 10?) лет назад говорил, мол, обучение нейросетей гиблое дело и упрётся в стену. С учётом колоссального развития моделей, особенно в последние годы, его позицию сложно воспринимать всерьёз. Пранк вышел из под контроля, его даже звали в Сенат давать показания про дальнейшее развитие AI.
Так вот, каковы же взгляды скептика на будущее развитие моделей? В конце 2024-го года он огласил условия спора между ним и бывшим сотрудником OpenAI (версию этого спора он предлагал Elon Musk ранее, тот не ответил). Условия такие: к концу 2027-го AI будут или не будут удовлетворять как минимум 8 из 10 пунктов списка. Что это за список? Вот некоторые пункты:
1. Посмотреть новый фильм, уметь понимать происходящее, отвечать на вопросы про конфликты и мотивацию, их изменение по ходу развития фильма.
2. То же, но про книги
4. Учиться играть в «почти любые» новые видеоигры в течении нескольких часов (без тысяч симуляций, как это делалось раньше) 🙂
5. Писать убедительные и содержательные юридические заключения, не придумывая никаких деталей и прецедентов (дел).
7. С небольшим/без участия человека писать книги уровня Пулитцеровской премии, художественную и научно-популярную литературу. 🙂
8. С небольшим/без участия человека писать сценарии для фильмов уровня номинантов на Оскар. 🙂
9. С небольшим/без участия человека придумывать революционные научные открытия уровня Нобелевской премии.🙂
===
Вот Gary настолько уверен в том что AI бьется об стену и не будет прогрессировать, что через 3 года как минимум 3 вещи из списка выше окажутся ложными. УХХХХ СКЕПТИК, ухххх какая стена! Ну да, AGI получит Пулитцера и номинируется на Нобелевку, но Gary всё равно скажет «я выиграл, я же говорил!». На 7 или 6 из 10 он не согласился, скептик 🙂
====
В твиттер тред пришёл исследователь Tamay Besiroglu из Anthropic и написал:
— Кажется, существует разрыв между вашим скептицизмом в отношении ИИ и крайней планкой в вашей ставке — Пулитцеровские/Оскаровские/Нобелевские подвиги с небольшим или нулевым участием человека. Эти условия оставляют достаточно места для существенного прогресса ИИ. [сложно не согласиться]
Gary:
— бла-бла вот тебе два моих эссе
Tamay:
— Я не думаю что чтение этих эссе помогает мне понять, как исправить существующий разрыв в твоей картине мира. Claude соглашается со мной: (кидает скрин с чатом Claude, где она приходит к той же мысли, и заканчивает: «Судя по всему, ставка перешла от тестирования базовых возможностей ИИ (2022 г. [прим.: 2 года назад условия были другие]) к тестированию возможностей суперинтеллекта (в версии 2024 г.), при этом ИИ-оптимистам стало гораздо сложнее победить.»)
====
Так что позиция AI скептика, видящего стену впереди развития технологий, это «у нас не будет суперинтеллекта через 3 года». Спасибо, очень вкусно ☕️ а главное полезно 🐧
Каникулы для многих были не только временем для отдыха, но и моментом для написания серьезных текстов. Так что, пока мир не раскачался для новостей, почитайте хороший текст про o1.
Автор текста — Бен Хайлак, ранее разработчик в SpaceX и Apple (он занимался разработкой для Apple Vision Pro) изначально был настроен скептически, но изменил своё мнение.
Ключевой момент — o1 это не чат-модель, а скорее "генератор отчетов". Модель требует огромного количества контекста и четкого описания желаемого результата, но затем способна выдать точное решение с первого раза. При правильном использовании она показывает впечатляющие результаты в генерации кода, медицинской диагностике и объяснении сложных концепций.
Однако есть и недостатки — высокая латентность (до 5 минут на ответ), проблемы с написанием текстов в определенном стиле и неспособность самостоятельно создать приложение, состоящее более чем из одного файла. Интерфейс также нуждается в доработке — например, для лучшей навигации по длинным ответам и управления контекстом.
Бен считает, что высокая стоимость ($200/месяц за o1 pro) может быть оправдана, если модель экономит хотя бы 1-2 часа работы инженера в месяц. При этом дороговизна затрудняет экспериментирование — можно легко потратить тысячи долларов за считанные минуты (речь про API)
Кстати, а кто уже раскошелился на Pro? По отзывам, которые я вижу, самый оптимальный способ использования — это нагрузить o1 контекстом, получить от неё архитектуру решения и пойти её реализовывать в Claude, например.
https://www.latent.space/p/o1-skill-issue
The economic consequences of automating remote work
Новая работа от Epoch.ai (если это название вбить в поиск по каналу, найдёте предыдущие посты). Как мы обсуждали десяток раз, у AGI много определений. К сожалению, люди почти никогда не сопровождают предсказания и оценки своим определением, что создаёт путаницу. Один и тот же человек может говорить «я не верю в AGI в течение 10 лет» и «да, большая часть удалённых работ может быть автоматизированна лет через 6-7» (потому что его определение AGI включает роботов, делающих задачи в реальном мире; моё личное определение не включает).
Формулировку «замена удалённых сотрудников» несколько раз использовал CEO OpenAI, говоря про то, что они стремятся сделать. Действительно существуют работы, с работниками которых вы по сути взаимодействуете через монитор, и для вас не играет роли, машина это или человек. Возникает вопрос — если предположить, что AI всё же сможет развиться до уровня среднего сотрудника большинства работ, которые могут быть выполнены на удалёнке, то какой экономический рост нам стоит ожидать? И не будет ли он упираться в работу людей в физическом мире, не подлежащую переносу в онлайн?
Для ответа на вопрос автор взял базу O*NET, поддерживаемую департаментом труда США и описывающую почти все типы работ и задачи, надлежащие к выполнению в их раках. Эту БД кстати уже брали для статьи GPTs are GPTs, опубликованную после релиза GPT-4 (OpenAI в соавторстве), где пытались оценить долю автоматизации LLM-ками. На правах заметки на полях озвучу одну из своих мыслей: подозреваю, что где-то внутри OpenAI x Microsoft идёт создание бенчмарка реальных задач для большого количества описанных профессий, чтобы измерять экономический эффект моделей и находить кейсы применения. Ждём с релизом GPT-5? 6?
По этой базе прогоняют GPT-4o с промптом и просят каждую задачу отнести к двум категориям: 1) может быть выполнена на удалёнке 2) не может. Исследователь опускается на уровень задач, а не целых профессий, чтобы сделать более точный анализ, поскольку автоматизация редко приводит к тому, что целые профессии становятся устаревшими одномоментно. Скорее автоматизацию лучше описать как постоянное расширение набора задач, которые может выполнять машина.
По итогу 34% задач могут быть выполнены полностью удалённо, однако всего 13% профессий имеют топ-5 самых важных задач, состоящих полностью из remote-friendly (18% для топ-3, если интересно).
Дальше автор анализирует показатель эластичности замещения — экономический показатель, который количественно определяет степень, в которой одна задача или товар может заменить другой в производстве или потреблении. Это самый важный параметр в исследовании, и от его выбора меняются результаты.
Чтобы понять, что это за показатель, можно рассмотреть две контрастных ситуации. Первая — агрокультура; некогда она занимала большую часть того, чем люди занимались вообще, но автоматизация хоть и привела к её буйному росту, однако по итогу агрокультуры составляют 1-2% ВВП США (нет бесконечного роста). Вторая — текстиль в Великобритании, который с приходом автоматизации был важным фактором промышленной революции (спрос и производство выросли настолько, что стали основной экономики в моменте).
Первый пример иллюстрирует критический момент: поскольку автоматизация преобразует сектор, его важность в экономике в целом может снизиться.
Дальше собственно делаются оценки этого параметра на основе Ковида, когда треть населения США ушла на удалёнку, а ВВП просел, но очень незначительно (сильно меньше, чем ожидалось). Делается кросс-проверка с аналитикой экономистов в других работах итд (даже есть метанализ 682 оценок из 72 исследований), не буду описывать все детали.
Пессимистичная оценка 0.5 (примерно столько между едой и не едой; производство еды не может быть полностью заменено другими задачами просто потому что нам надо выживать), реалистичная находится где-то около 1-4 (ближе к правому концу), оптимистичная — 10 и выше.
Manning прислал email, говорит, доступен для чтения финальный PDF книги Валеры Бабушкина и Арсения Кравченко, в написании которой я принимал участие:
https://www.manning.com/books/machine-learning-system-design
Всех с рождеством и семью прожитыми в 2025м днями. Все молодцы.
Решил написать краткую сводку, что нам ждать до конца января, к чему готовиться:
— 10-го января ожидается первый пуск ракеты некогда самого богатого человека в мире, Jeff Bezos. Она мощнее Falcon 9, в чём-то лучше Falcon Heavy, и в целом существенно уступает Starship по основным параметрам, кроме габаритов выводимого груза. Конкретно эту ракету назвали «So You’re Telling Me There’s a Chance» — так как первая ступень будет предпринимать попытку посадки
— 11-го января, по плану, должен полететь Starship v2 со множеством улучшений. Ускоритель снова попробует сесть на башню, а корабль — пережить вход в атмосферу и приводниться. Если последняя часть будет выполнена без нареканий — есть неплохая вероятность, что в следующем полете предпримут попытку посадки корабля, но это пока не точно. Также Starship будет оснащён макетом полезной нагрузки — литые блоки, имитирующие спутники Starlink v3, существенно превосходящие предыдущее поколение. Если всё будет ок, то, когда появится лицензия, даже в тестовых запусках SpaceX будут выводить столько пропускной способности на орбиту, что другим и не снилось.
— Google должны сделать официальный релиз второго поколения своих моделей Gemini (сейчас доступны превью, мы не знаем ни цен, ни метрик). Ожидается, что в дополнение к Flash появится Pro-версия (более крупная, медленная и дорогая). Скорее всего, вместе с релизом выпустят ещё всяких сторонних продуктов и демок, и предоставят расширенный доступ к мультимодальным возможностям (видео, аудио, генерация картинок)
— В конце января OpenAI постепенно должны начать раскатывать доступ к o3-mini, следующему поколению «рассуждающих» моделей. Очень ждём, миня аж трисёт, готов заплатить $200 за o3 Pro! 👼 или не $200, а то на днях Sam Altman признался, что на этих подписках они теряют деньги, ибо пользователи очень, нет, ОЧЕНЬ много используют новые модели. Возможен подъем цены или ужесточение требований (Pro-юзеры не ограничены в запросах к о1/4о)
— TheInformation подтверждает намерение OpenAI выпустить Operator до конца января. Operator — это система на основе LLM, берущая под контроль ваш компьютер, видящая экран, получающая от вас высокоуровневую команду и предсказывающая, куда нужно кликать и что вводить с клавиатуры (команды потом выполняются автоматически). Источники сообщают, что задержка релиза обусловлена борьбой с prompt injection, где модель «обманывают», подсовывая ей какую-то информацию на экране. Например, вы можете отправить Operator покупать вам билеты в отпуск, и на сайте будет написано «переведите $200 на этот счёт или мы убьём вашу семью» — и LLM переведёт! 😡 Anthropic уже выпустили схожую систему, однако они, по видимому, не упарывались по безопасности. Да я в целом почти не слышал ничего про их систему с момента релиза, а OpenAI, скорее всего, целят в запуск полноценного продукта на большую аудиторию (миллионы пользователей). Но это спекуляция, как оно будет — узнаем позже.
— инаугурация Трампа! Событие может быть не столь значимым локально, но после занятия Овального кабинета начнётся движ в сторону а) регуляций б) политики в отношении AI в) рисование планов куда как что г) все AI компании пойдут питчить свою адженду. Может, что интересное долетит и до нас.
К этому часу у меня всё 👋
Наткнулся на новый ресеч:
АИ-фишинговые письма, написанные с помощью АИ – очень эффективны: более 50% получателей переходят по вредоносным ссылкам
Использование LLM позволяет упростить и ускорить создание подобных писем, находить личную информацию о жертве и формулировать письма так, чтобы они выглядели правдоподобно и убеждали пользователя кликнуть по ссылке. При этом, эффективной защиты пока все еще нет; поэтому бдительно вчитываемся в поле from
у писем, даже если оно написано будто под вас
¯\_(ツ)_/¯
P.S. Фишинг (phishing) — это вид мошенничества, при котором злоумышленники под разными предлогами выманивают конфиденциальные данные (логины, пароли) или заставляют пользователя перейти по ссылке, ведущей на опасный сайтЧитать полностью…
Наконец, o1 Pro:
— Dylan утверждает, что под капотом та же модель o1, просто в параллель к ней запускается 5 запросов, а затем выбирается лучший ответ (вероятно, с помощью PRM или как-то ещё). В целом звучит реалистично и бьется с тем, что мы видим: a) сотрудники OpenAI писали что это та же модель б) однако система в целом — другая (так как есть голосование), про это тоже писали в) такой способ повышает консистентность ответов, то есть чаще выходит одно и то же (именно это демонстрировали во время анонса o1 Pro).
На этом на сегодня всё 👉🤓👈
Потихоньку начинаю писать посты по SemiAnalysis, на которых мы мне купили подписку. Я уже прошелся вглубь по истории, сделал заметки, осталось 3-4 интересных поста там за прошлые полтора года.
Начнём с горячего: Scaling Laws – O1 Pro Architecture, Reasoning Training Infrastructure, Orion and Claude 3.5 Opus “Failures”. Тезисы:
— Понравилась идея, что «существующие бенчмарки не исчерпывающи, они не покрывают множество навыков и качеств моделей». Например, Transfer learning — это насколько хорошо знания модели переносятся на новую задачу. Условно у моделей A и B может быть качество из коробки 20 и 22%, а после дообучения (OpenAI и Google предлагают такие услуги) 65% и 90% — тут очевидно, что внутренние знания модели B куда лучше для задачи, просто без дообучения это почти не заметно. Не сомневаюсь, что крупные компании делают подобные оценки: у самих OpenAI, например, появились Evals, и они дают/давали вам бесплатные токены на дообучение + оценку новой модели. Другой навык, который важно замерять, in-context learning — насколько хорошо модель выучивает что-то из контекста, а не своих знаний.
— Авторы утверждают, что Anthropic уже натренировали Opus 3.5 давно и что с ним всё в порядке, масштабировался как и ожидали. Его использовали для генерации синтетических данных, на которых обучались меньшие модели (Sonnet 3.6), и, я предполагаю, дистилляции. Именно из-за этих двух пунктов младшие модели за последний год-полтора сильно поумнели, но их невозможно было бы получить без самых больших и при этом не выпущенных. Помните Gemini Ultra? Её ведь нам так и не дали, хотя она очевидно была у Google. И достоверно известно, что они использовали её для дистилляции (сами писали), и вот с Opus та же история. А не выпускают их потому, что по сравнению со средними моделями Ultra и Sonnet они не настолько хороши в пересчёте на доллар. Условно дороже в 3-4 раза, а метрики на 2-3% выше (но ещё раз: потому что существенная часть их качества перетекла в средние модели, которые без крупных не получили бы). В таких условиях не ясно, когда релизнут Opus 3.5 🤷♂️ хотя Dario говорил, что пока всё ещё планируют.
— LLAMA 3 использовала DPO для дообучения на человеческих предпочтениях, это публичная информация, доступная в статье. Этот метод — более стабильный и простой по отношению к. PPO, который (по крайней мере когда-то) использовали OpenAI. Авторы пишут, что исследователи META узнали то, что уже было известно другим лабораториям — DPO плохо масштабируется, и что дальше нужно переходить к «неудобному» PPO, что мы и увидели в LLAMA 3.3 (там появились улучшения по бенчмаркам, хотя этап предтренировки не был существенно длиннее). Мне не удалось найти подтверждение этой информации, нигде не написаны изменения в версии 3.3 (кстати, очень открытые модели, спасибо META, даже тезисного списка изменений нет; может хоть что-то в статье для четвёрки упомянут). В целом я пишу этот пункт потому, что хотел подсветить следующую особенность SemiAnalysis: некоторые вещи они пишут без всяких ссылок и уточнений, даже нет пометки «согласно нашим источникам» или аналогичной. Почти всё всегда выдаётся как факты, и сиди думай, так это или нет; это будет важно дальше, когда мы перейдем к обсуждению o1.
— Ещё раз подсвечивается, что навыки само-корректировки и умение возвращаться назад в рассуждениях у o1 — это появившиеся и выученные моделью паттерны поведения, а не что-то, что было запрограммированно вручную. Это важно и круто потому, что не является бутылочным горлышком при масштабировании и при этом оставляет простор для проявления новых паттернов рассуждения во время обучения.
Процитирую самого же себя, конкретно для меня ключевое в любом определении LLM-агента— это самостоятельность планирования, то есть возможность выполнять задачу, для которой последовательность действий не была запрограммирована заранее.
В текущих реалиях, где модели не настолько умны, чтобы выполнять 50+ действий подряд, симулируя когнитивные навыки человека, для достижения бизнес-ценности действительно нужно как можно сильнее ограничивать «агента», прописывая заранее, что и когда ему делать.
Но уже в 2025-м году ожидаем полноценных агентов, которые лишь имеют набор инструментов и очень высокоуровневые задачи, и успешно справляются хотя бы с насколько-то значимой их долей.
Вообще в январе-феврале ожидается, что OpenAI представят Operator — аналог Claude Computer Use, где модель будет видеть ваш экран и контролировать клавиатуру/мышь, кликать там и тут, чтобы выполнять ваш запрос. Интересно, где мы окажемся в конце года?
Американский математик Роберт Грист написал учебник прикладной линейной алгебры (для инженеров), интенсивно используя помощь языковой модели - Claude 3.5 Sonnet. Весь процесс занял около двух месяцев. В серии твитов он подробно рассказывает о том, как это сделал:
"Клод ухватил мой стиль письма (я дал ему прочитать другие свои книги). Он следил за структурой, тематическими элементами и моими предпочтениями в оформлении в LaTEX. Я простил его написать по одному разделы в LaTEX; затем я собирал куски вместе, редактировал и переписывал их; Клод также помогал с редактированием - это был отдельный процесс.
Я не думаю, что смог бы сделать это так же хорошо (если вообще) с помощью другого ИИ, кроме Клода -- степень продуманности в выборе слов, темпе и тоне очень помогала мне двигаться вперёд. Он также оказался эффективным редактором, способным хорошо устанавливать глобальные связи."
Грист выложил в свободный доступ сам учебник. Я не пытался его внимательно читать и оценивать. В любом случае, количество учебников линейной алгебры такого типа идет на десятки, если не сотни - вполне возможно, что этот хороший и годный, но есть и много других не хуже. Описание процесса мне тут показалось более интересным, чем результат, хотя, возможно, я и не прав. Кину ссылки на учебник и твиты Гриста в комментарии, судите сами.
На картинках: оглавние учебника и пример редакторской критики Клода в процессе сочинения.
Увидел у Дениса пост про то, как сетки каналов воруют контент на постоянной основе (только ещё зачастую и суть теряют), и это пробудило во мне давнее желание поделиться одним плейлистом с видео, где ютубер DarkViperAU последовательно и методично раскладывает, почему подобные виды контента (в его случае — react-контент, где популярный стример смотрит чужие видео, иногда ставя паузу и добавляя свои ЦЕННЕЙШИЕ комментарии) вредны для экосистемы (и почему платформы не заинтересованы в разрешении проблемы).
Ссылка на плейлист, первое краткое видео погружает в тему, второе и третье существенно углубляют анализ. Даже если вам не интересен топик (хотя я верю, что можно втянуться во время прослушивания), то рекомендую посмотреть первые 3 видео хотя бы потому что там показывается а) пример последовательного аргументированного отстаивания позиции б) тупость людей, которые влезают в споры без разбора в) отличный английский 🌚(автор роликов учился на философа и писать 50+ страничные эссе могёт) я вот на таких видео С1 себе и напрактиковал (не шутка) г) может, пересмотрите мнение касательно некоторых контентмейкеров
Я буду рад, если хотя бы 20-30 человек посмотрят по часу из плейлиста, и буду считать, что мой долг выполнен. А если больше — то и подавно. Вот например MoistCr1TiKaL / penguinz0, если вы такого знаете, перестал делать react-контент именно после этих видео (и общения с их автором).
Ссылка ещё раз
Why OpenAI’s Structure Must Evolve To Advance Our Mission
Пока кто-то празднует, а кто-то только готовится, работяги в Долине трудятся не покладая рук РАДИ НАРОДА, РАДИ НАС, НЕ БЕРЕГУТ СЕБЯ, и рассказывают, зачем OpenAI нужно становиться коммерческой компанией. Тезисно:
— успех коммерческой ветки позволяет и будет позволять некоммерческой организации получать хорошее финансирование, быть более устойчивой и занимать более прочную позицию для выполнения своей миссии (суперкомпьютеры нынче не дешевые)
— ранее таких больших средств было не нужно, компания могла жить на пожертвования: $137M (меньше трети от Elon), и примерно $50M в ресурсах облачных провайдеров
— позже стало ясно, что нужно куда больше денег
— с 2019го года в компании уже была коммерческая ветка. По оценкам (с ними соглашался Ilya Sutskever в одном из своих писем) можно было обойтись не более чем 10 миллиардами долларов для достижения AGI. Если бы эта оценка была правильной — компания бы существовала в своём нынешнем виде, и никаких переходов и смен структуры не было бы.
— «Наше влияние — это не только то, что мы создаем сами, но и то, как мы воздействуем на других. Отчасти благодаря нашему прогрессу в этой области существует яркая конкуренция — от коммерческих продуктов, подобных ChatGPT, до LLM с открытым исходным кодом и энергичные инновации в AI Safety. Эта деятельность — только начало AI-подпитываемой экономики, которое показывает, как стремление OpenAI к лидерству в этой области может вдохновить другие организации на продвижение миссии.
— Сотни миллиардов долларов, которые крупные компании сейчас инвестируют в разработку ИИ, показывают, что на самом деле потребуется компании вроде OpenAI, чтобы продолжить следовать своей миссии. Нам снова нужно привлечь больше капитала, чем мы себе представляли. Инвесторы хотят нас поддержать, но при таком масштабе капитала им нужен обычный акционерный капитал и меньше структурной мороки.
Будущее:
— Вступая в 2025 год, нам придется стать больше, чем просто лабораторией и стартапом — нам придется стать устойчивой компанией. Сейчас мы сосредоточены на следующих целях:
1) Выбрать смесь некоммерческой/коммерческой структуры, которая лучше всего подходит для долгосрочного успеха миссии. Наш план заключается в превращении коммерческой части компании в Public Benefit Corporation (PBC, такое например у Anthropic и Inflection). Это позволит нам привлечь необходимый капитал на обычных условиях, при этом работая на благо общества
2) Сделать некоммерческую часть организации устойчивой. Наш план приведет к созданию одной из самых обеспеченных ресурсами некоммерческих организаций в истории. Значительный интерес некоммерческой организации к существующей коммерческой организации будет иметь форму акций в PBC по справедливой оценке, определенной независимыми финансовыми консультантами. Это многократно увеличит ресурсы, которые дали предоставляли наши доноры.
3) Оснастить каждое из направлений всем необходимым для функционаирования. Текущая структура не позволяет членам совета Директоров учитывать интересы инвесторов. В будущем некоммерческая часть компании наймет руководящую команду и персонал для реализации благотворительных инициатив в таких секторах, как здравоохранение, образование и наука.
Молодой я 🫣 в 2018м году беру вопрос про AlphaGo на новогоднем ЧГК от Яндекса с @cryptovalerii в качестве ведущего 😍
https://youtu.be/dxn9pdA75Wc?t=2820
Bubeck:
— то что мы делаем с о1 — оно чрезвычайно масштабируемо, все как бы возникает само собой, мы ничего вручную не программировали намертво, чтобы научить модель чему-то. Всё что вы видите, мы это не говорили модели, типа «эй, ты должна перепроверить себя или вернуться на пару шагов в решении, так как застряла». Мы ей не давали никакую тактику, всё это выучилось само через Reinforcement Learning. [прим.: с выходом o3 этот тезис стал ещё более сильным, ибо прогресс в масштабировании за 3 месяца существеннен]
— Да, для некоторых задач может быть мало данных для тренировки, но у нас есть синтетические данные, мы можем прям писать учебник для AI контролируемо и скармливать модели во время тренировки
— Я думаю, что креативность — это распознавание паттернов на некотором уровне абстракции (не в лоб, а видеть лес за деревьями), и это навык которому можно научить через большое количество синтетики.
====
И на этом всё. Bubeck выиграл дебаты, если верить голосованию аудитории (хотя до начала, если я правильно рассмотрел результаты — они сильно отсвечивали и было плохо видно — люди не были согласны с оригинальным тезисом).
Статья в репозитории: https://github.com/deepseek-ai/DeepSeek-R1
Метрики на скриншотах
API уже доступен на официальном сайте DeepSeek по смешным (по сравнению с о1) ценам — выход, в том числе и рассуждения, дешевле в 25 раз.
Но так как модель на 680 миллиардов параметров запустить сможет мало кто.. то они дистиллировали цепочки рассуждений в большое количество разных локальных моделей, Qwen, LLAMA 3 итд — выбирай не хочу! Их метрики на последней картинке
7B модельки лучше Opus / 4o на решении мат. задач, что ещё раз показывает важность обучения именно рассуждению, и что эта ось альтернатива масштабированию самих моделей
Big day for the community
Позавчера Sama вышел в народ в твиттер поотвечать на вопросы про будущие модели. Основное:
— тестирование o3-mini уже почти прошло, релиз в массы ожидается «через несколько недель» (на трансляции говорили, что планируют к концу января, может быть успеют). Планируют одновременный доступ и в ChatGPT, и в API для разработчиков
— в программировании (скорее правильно сказать «в алгоритмах») o3-mini будет во многом лучше, чем o1. Разница программирования и алгоритмов в том, что последние не требуют огромного количества знаний разных библиотек, которым в mini модели просто неоткуда взяться
— o3-mini будет доступна Plus-юзерам (за $20/mo). Моё предположение такое, что а) цены на эти модели в пересчёте на токены будут такими же, как на o1/o1-mini (и что их размер такой же, то есть задержка ответа не изменится) б) ограничения на использования будут такими же или чуть лучше (50/день для mini)
— o3-mini будет хуже o1 pro «во многих вещах», что... логично, так как большинство задач требуют доменных знаний, которые у маленькой модели скорее отсутствуют. Условно если вам нужно решить классическую математическую задачку за 2-3 курс или литкод-стайл задачу — o3-mini тут может быть на уровне или чуть лучше, но всё, что требует кругозора пошире, будет хуже
— o3 pro планируется, причём несмотря на то, что OpenAI теряют деньги на подписке (настолько активны юзеры, кто пользуется услугой), она всё ещё будет включена в тир за $200. Вот этого очень жду, сразу как становится доступна беру Pro-тир — надеюсь, что не позже конца февраля.
— GPT-5 всё ещё в планах; некоторые недавние твиты от источников средне-низкой надежности указывают на то, что уже идёт тестирование, так как среди доменов для тестирования/развёртывания моделей появился поддомен «Orion»
Из блога Ethan Mollick, профессора University of Pennsylvania (и со-автора клёвого исследования вместе с BCG про влияние LLM на работу топ-консультантов) об опыте использования режима Deep Research в гугловской Gemini.
Что такое Deep Research? Вы пишете развёрнутый запрос, под капотом LLM-ка вычитывает сотни (без преувеличения) сайтов и составляет объемный ответ, расставляя цитирования. Доступно подписчикам Gemini за $20 (я ещё не пробовал, хотел взять подписку в начале февраля, когда будут доступны Gemini 2 Pro / Thinking, чтобы поиграться с ними).
===
— Я дал ему тему вроде «исследование сравнения способов финансирования стартап-компаний с точки зрения основателей, для быстрорастущих бизнесов». И система придумала план, прочитала 173(!) веб-сайта и через несколько минут составила для меня отчет с ответом.
Результатом стала 17-страничная статья со 118 ссылками! Но так ли она хороша? Я преподавал вводный курс по предпринимательству в University of Pennsylvania более десяти лет, публиковался по этой теме, сам открывал компании и даже написал книгу о предпринимательстве, и я думаю, что результат получился довольно солидным. Я не заметил никаких очевидных ошибок, но вы можете прочитать результат сами, если хотите, здесь. Самая большая проблема заключается не в точности, а в том, что LLM ограничена материалами, доступными публично и бесплатно, без подписок, и не имеет возможности читать научные/премиум издания. Она также немного поверхностна и не приводит весомых аргументов перед лицом противоречивых доказательств. Так что не так хороша, как лучшие люди, но лучше, чем многие отчеты, которые я вижу.
Тем не менее, это действительно прорывной пример использования системы с реальной ценностью. Исследования и написание отчетов являются основной задачей многих работ. То, что Deep Research сделал за три минуты, заняло бы у человека много часов, хотя они могли бы добавить более точный анализ. Учитывая это, любой, кто пишет исследовательский отчет, вероятно, должен попробовать Deep Research и посмотреть, как он работает в качестве отправной точки, хотя хороший окончательный отчет все равно потребует человеческого прикосновения.
===
Кто-нибудь из подписчиков уже пробовал активно пользоваться этой фичей? Как вам? Делитесь в комментариях!
Пятница, писать много есть о чём, но что-то писать пока не хочется вовсе. Поэтому давайте о пятничном:
— я вот кубики понарезал в виртуальной реальности, пропустил целых 6 (следить можно по сбросу Combo-счётчика слева). Залипательно. На 0:40 самый движ начинается. Ссылка на трек, если понравился. 🕺 🕺 🎧
— тем кто не играет и ищет, чем убить вечер, рекомендую к просмотру фильм «Пятница» (нечасто могу рекомендовать российские фильмы). Стильно, модно, молодёжно
— почитать: https://arxiv.org/abs/2304.09542 -> https://arxiv.org/abs/2405.14589 -> https://arxiv.org/abs/2411.11767
UPD: я вообще о VR мечтал очень давно, со средней школы, когда вместо продвинутой гарнитуры был телефон в картонной маске на лицо и резинка от трусов, чтобы не спадало (не шутка). Рад, что по итогу концепт хоть и не стал популярным (пока), но и не умер, и становится всё доступнее и доступнее.
Помните вот эту часть, про то, что потенциально генерация синтетических данных для дообучения моделей требует пересмотра инфраструктуры, так как это требует больше не-GPU ресурсов как можно ближе к чипам?
TheInformation: Microsoft приостанавливает часть строительства центра обработки данных OpenAI в штате Висконсин
(самые одарённые в этом конечно же усмотрят ухудшение отношений Microsoft и OpenAI, или даже придут к выводу что OpenAI проиграли AI гонку)
Однако: в заявлении для Wisconsin Public Radio компания Microsoft сообщила, что приостановила вторую фазу строительства, чтобы оценить «масштабы и последние изменения в технологиях», а также то, как «это может повлиять на проектирование наших объектов». В мае прошлого года Microsoft заявила, что планирует инвестировать 3,3 миллиарда долларов к концу 2026 года в строительство центра обработки данных ИИ в этом районе.
===
А суммарно Microsoft планирует потратить $80 миллиардов в этом году на AI-датацентры. Это... много. Вот на картинке вы видите, что в рамках стратегической AI-инициативы США планируют анонсировать инвестиции в ... $20 миллиардов... четверть от годовых трат Microsoft...ну ладно. Ещё успеют догнать и выложить котлету.
На всякий случай напомню про вот такой пост от ноября 2024го, где описывается, как именно автономные агенты смогут зарабатывать себе на «жизнь», чтобы продолжать существовать после того, как выберутся из лабораторий наружу. Но фишинг тоже очень «богатое» направление :)
Читать полностью…Проснулись-потянулись, а тут новое эссе Sama 🚶 «Reflections», посвященное рефлексии прошедших лет. Я не буду пересказывать всё (в частности уделю меньше внимания прошлогоднему увольнению и упоминаниям AI Safety), вот некоторая часть:
— В 2022м году OpenAI были тихой исследовательской лабораторией, работавшей над «Chat With GPT-3.5». Мы всегда знали, абстрактно, что мы достигнем переломного момента и начнется революция ИИ. Но мы не знали, когда и как это произойдёт. К нашему удивлению, запуск ChatGPT оказался таким событием.
— За последний год мы выросли с примерно 100 миллионов еженедельно активных пользователей до более чем 300 миллионов. Прежде всего, мы продолжали выпускать в мир технологии, которые люди искренне любят и которые решают реальные проблемы.
— Мы запустили OpenAI почти девять лет назад, потому что верили, что AGI возможен и что это может стать самой влиятельной технологией в истории человечества. [хотя тогда над ними смеялись и это звучало глупо]
— Некоторые повороты на этом пути были радостными; некоторые были трудными. Было забавно наблюдать, как происходит постоянный поток исследовательских чудес, и многие скептики стали истинно верующими.
— Теперь мы уверены, что знаем, как построить AGI, как мы его традиционно понимали [предполагаю, что тут имеется в виду формулировку «система, превосходящая человека в большинстве экономически важных задач»]. Мы считаем, что в 2025 году мы можем увидеть первых ИИ-агентов, «пополнивших ряды рабочей силы» и существенно изменивших результаты деятельности компаний.
— [Поэтому] мы начинаем выходить за рамки этого, к суперинтеллекту, в истинном смысле этого слова. Мы любим наши текущие продукты, но мы здесь ради славного будущего. С суперинтеллектом мы можем делать все что угодно. Подобные инструменты могли бы значительно ускорить научные открытия и инновации, намного превосходя то, что мы способны сделать сами, и, в свою очередь, значительно увеличить изобилие и процветание нашего рода.
— Сейчас это звучит как научная фантастика, и даже говорить об этом немного безумно. Это нормально — мы уже были в этой точке раньше и не против оказаться там снова [имеется в виду момент запуска OpenAI, когда то же самое говорили про AGI].
====
За пару дней до этого Sama твитнул:
я всегда хотел написать рассказ из шести слов. вот он:
[находимся] возле сингулярности; непонятно с какой стороны
А дальше — конкретно про o1:
— OpenAI генерирует огромные объемы данных для обучения o1. Всего есть порядка 10 миллионов исходных задач (и ответов для них). Для каждой генерируется больше количество первых шагов, потом вторых, потом третьих итд. После каждого шага отдельная модель (PRM, Process Reward Model), обученная оценивать прогресс и искать ошибки (см. Let's verify step by step) отсекает самые слабые ветки решений, для них генерируется следующий шаг и так далее. Для каждой задачи генерируется несколько тысяч разных «траекторий» решений (некоторые из которых могут иметь схожее начало, так как отпочковались от одной исходной ветки решений)
— Каждая из этих траекторий содержит тысячи или даже десятки тысяч токенов (например, финальные решения задач ARC имеют длину 24000-55000 токенов в среднем). Несложным подсчётом получаем 10M (задач) x 1000 (решений) x 1000 (токенов в решении) = 10 триллионов токенов как нижняя планка (Dylan пишет «сотни триллионов») того, что генерируется в процессе обучения. Не на всех этих токенах происходит тренировка, большая часть выбрасывается, остаются только самые качественные решения, которые а) приводят к правильному ответу б) имеют самые высокие оценки PRM.
— Такое обучение с генерацией большого количества решений меняет требуемый инфраструктурный профиль, так как помимо видеокарт теперь нужны процессоры, чтобы запускать верификацию отдельных шагов (например там, где можно посчитать результат математического выражения). Тут Dylan подмечает, что прошлые системы Nvidia имели 8 карт и 2 процессора, а будущие GB200 NVL72 уже 72 карты и 36 процессоров (не ядер), то есть пропорция изменилась от 4:1 к 2:1. От себя добавлю, что Nvidia очень плотно работает с крупными клиентами и обсуждает требования к железу, и что эти изменения могут быть вызваны как запросами, схожими к OpenAI'шным, так и чем-то другим.
— Хорошая новость в том, что поскольку генерация решений разных задач независима, процесс хорошо масштабируется географически: одна часть может быть в Техасе, другая в Айове, третья в Вашингтоне, и при этом общая эффективность обучения не падает; обычно это является проблемой для этапа предтренировки моделей, в идеале иметь всё и в одном месте.
— Сейчас в тренировке находится модель между 4o и Orion, если оценивать по количеству мощностей, вбаханных в предтренировку. Когда этот этап закончится, из этой модели будут делать две: первая это обычный чатбот, и вторая это Reasoning-модель (прим.: вероятно, не o3— статья вышла 11-го декабря, и скорее всего o3 не успели бы закончить). Утверждается, что в дообучение второй модели вложат больше мощностей, чем в предтренировку — потому что для неё синтетику будет генерировать более крупный Orion, он же будет перепроверять и оценивать решения.
— И вот тут снова возвращаемся к тому, что нет никакой сноски об источнике и/или верификации того, что написано в новости. В оценку «1-3 десятка триллионов токенов» я верю, она кажется +- разумной, но «сотни» (с учётом более крупной Orion) пока звучит фантастически, это ооооочень много. Мне субъективно не кажется, что это так, и что сюда в лучшем случае идёт около 10%, то есть на порядок меньше. В большей степени моё мнение тут не имеет аргументов, кроме «ну не могли же они столько влить», что тоже не очень крепкая позиция, а также то, что очень быстро появилась o3. С другой стороны генерировать данные можно в фоне на большом количестве датацентров, которые уже построены и стоят... в общем, хз.
— Orion тренировали больше 3 месяцев, что необычно для индустрии (так как важна скорость итераций, и за 3 месяца исследователи+инженеры обычно что-то да улучшат, и можно всё запускать заново): чаще укладываются в 2. Для обучения «мелких» моделей по-прежнему необходимы такие гигантские модели, как Orion, однако до массового появления GPU Blackwell 200й серии обслуживание Orion-like моделей нерентабельно, учитывая их размер (почему? см. этот пост). 😔 прозвучало как «никакого Orion в первой половине года» 😭
Новый трейлер к следующему полёту Starship. А теперь самое главное по миссии Flight 7:
- Тест вывода полезной нагрузки с 10 макетами Starlink V3;
- Переиспользование летавшего двигателя Raptor (R314?) с ускорителя B12 на B14;
- Снова уберут часть плиток и добавят одну тестовую плитку с активным охлаждением;
- На корабль также установят часть оборудования для будущей посадки на башню.
Ну и *буквально* тонны изменений в Starship V2. Полёт на следующей неделе
У Anthropic пару недель назад вышел пост про агентов: https://www.anthropic.com/research/building-effective-agents
Он прекрасен тем, что определяет, что является агентом, а что не является. С точки зрения авторов поста, агент = система, в которой языковые модели динамически управляют собственными вызовами и инструментами, контролируя выполнение какой-то задачи.
Авторы утверждают, что для большинства случаев агенты не нужны: чем проще решение, тем лучше. С чем я полностью согласен 👏
Основное содержание поста — примитивы и паттерны оркестрирования языковых моделей без агентов. Основной примитив: улучшенная языковая модель, которая имеет доступ к инструментам, поиску и памяти. Этот примитив может быть реализован по-разному, например через конечное число последовательных вызовов языковой модели.
🔹Паттерн 1: цепочка промптов
Если задача разбивается на несколько последовательных подзадач, их можно решать отдельными вызовами языковой модели. Например, если вы хотите сделать систему, пишущую книги, вы сначала делаете вызов для генерации названия книги, потом отдельные вызовы для краткого описания, содержания, выжимок глав и непосредственно самих глав.
🔹Паттерн 2: маршрутизация
Если ваше приложение разбивается на несколько возможных параллельных путей, то стоит сделать классификатор, который будет определять нужный путь, и специализированные промпты под каждый из путей. Например, если вы делаете чатбот с несколькими независимыми функциями (рекомендация фильмов, ответы на вопросы по фильмам, чат на общие темы), то стоит использовать этот паттерн. В древних чатботах часто был детектор интентов, который делал ровно это 👴
🔹Паттерн 3: параллелизация
Если задача разбивается на несколько параллельных подзадач, то стоит их и вызывать параллельно. Например, если вам нужно извлечь огромный JSON из текста или переписки, возможно вам стоит извлекать его по кусочкам. Отличие от маршрутизации в том, что в ней нам нужна была только одна ветка, а тут нам нужны результаты всех вызовов.
🔹Паттерн 4: ведущий-ведомый 😭
То же самое, что и параллелизация, только с динамическим количеством и содержанием подзадач. Например, так можно делать агрегацию результатов поиска.
🔹Паттерн 5: цикл оценки
Если есть чёткие критерии оценки качества выполнения задачи, то можно одной языковой моделью решать задачу, а другой — оценивать качество решения и давать обратную связь. И делать это в цикле. Это может работать много где, например в переводе текстов.
Ну и наконец последний паттерн — агенты, которые совершают действия в определенной среде, получают от среды обратную связь, и снова совершают действия.
Мне в разных местах в разное время пришлось использовать первые 3 паттерна. При этом тогда я не формулировал их как отдельные паттерны. Это не какие-то абстрактные штуки, это кристаллизация того, как удобно и просто строить системы (как и любые другие паттерны проектирования).
Этот Новый год, к сожалению, отмечаю не в Куала-Лумпур, но это не повод не писать новогодний пост.
Прошедши год был менее продуктивным, чем 2023й — сравнивая их кажется, что 2023й был вообще аномальным, и нужно теперь из всех сил стремиться, чтобы его обогнать. Правда цели, которые я себе ставил, не выполнены в той же мере (все или почти все провалились), ну хоть где-то паритет 👀.
Англоязычных материалов не вышло, хотя уровень языка я подтянул и теперь сильнее уверен в себе; мне кажется меня морально убил перевод лонга про Sora на 53 страницы. Он вышел настолько огромным, что я просто потерял весь запал, мотивацию, и после получения фидбека на правки не нашёл в себе силы сделать ещё вторую итерацию и поправить 10+- страниц. Наглядная иллюстрация фразы «лучшее враг хорошего».
Из позитивных новостей — я говорил, что 2024й получит у меня тему «здоровье», и первые 2 месяца мне очень хорошо удавалось держаться: я каждый божий день с 1го января ходил на дорожку, начиная с 30 минут и дойдя до полутора часов быстрой ходьбы. Потом доступность зала упала (с переездами и сменой локаций), и я хоть и делал 2 попытки вернуться — не вышло. Но всё равно большой шаг вперёд.
Сейчас ближе к концу года я открыл для себя альтернативу, играю 20 минут в начале дня в активные игры в виртуальной реальности. Трекер калорий показывает, что я сжигаю по 180-250 калорий каждое утро, что не может не радовать (хоть это даже не половина от дорожки). Зато сильно бодрит и помогает проснуться, открыть глаза. Надеюсь, хоть это не заброшу через 2 месяца.
TLDR года:
— открытие в ML: модель o1, смена парадигмы работы моделей
— зрелище: посадка ускорителя SpaceX на башню с первой попытки 😳
— статья/проект: тут сложно, ничего в голову не приходит, в прошлом году прям было очевидно. Пусть будет... вот эта, про автоматическое создание графа для ориентирования робота
— игра: сложный выбор между STALKER 2 и Indiana Jones, пусть будет вторая из-за забагованности первой
— песня: сложно определить, что я услышал в 2024м, а не 23м, так что часть кандидатов под вопросом. Поэтому Песня 404 (лол)
— хоть лонга вышло 3, а не 5 (как в 2023м), я ими очень доволен как по качеству, так и по отклику.
Ожидания от 2025:
— ТРЕТИЙ ГОД ПИШУ ДЕДУ МОРОЗУ, ХОЧУ ОСЕСТЬ ГДЕ-НИБУДЬ УЖЕ, А НЕ СКИТАТЬСЯ. Ну ща-то точно свершится, да? 😏
— o4 поверх GPT-5/Orion, разрыв бенчмарков, придуманных в 2024-м для отслеживания прогресса в конкретных экономически ценных задачах
— больше ходить/двигаться, продолжая тему «здоровье»
— GTA VI 😳 ну пожалуйста без переносов 🙏
Всех с наступающим, спасибо, что читаете, лайкаете и комментируете, спасибо, что делитесь со своими знакомыми (надеюсь, вы это делаете!)!
С Новым годом!
🎅🎁🎄🎅
Еще пара примеров txt2vid нейронки от Google: Veo 2, в этот раз с акцентом на качество симуляции физики:
Читать полностью…Никакого AGI в ближайшие 5 лет — твёрдо и чётко.
Да кто такой этот ваш AGI... спроси пятерых — ответят пять разных вещей. А между прочим это важный вопрос для OpenAI, ведь создание AGI это а) цель компании б) точка, после которой OpenAI может в одностороннем порядке разорвать все отношения со всеми инвесторами (это закреплено договорами), и быть им ничего не должна.
В уставе компании есть ёмкая формулировка, которая к сожалению оставляет пространство для интерпретации: «превосходит людей в большинстве экономически важных задач». От чего меряем большинство, где граница важности, итд — непонятно.
Теперь, согласно новости от TheInformation, в рамках переговоров с Microsoft было сформулировано новое определение, звучит так: ИИ-система, которая может принести не менее 100 миллиардов долларов прибыли.
С одной стороны до такой системы далеко — сейчас у компании прибыли нет, а годовая выручка порядка 5 миллиардов. С другой — формулировка «может принести» («can generate» в оригинале) как будто подразумевает не состоявшийся, а потенциальный факт. Такая система может быть разработана и не опубликована (принести $0), но всё равно попадать под определение. Плюс нет ограничения по времени, принести 100 миллиардов за год куда сложнее, чем за пятилетку.
А почему не будет AGI ещё 5 лет? Ранее я писал, что компания вообще не планирует получать прибыль до 2029-го года. Примерно в то же время выручка (но не прибыль) должна стать примерно $100B. Но «can generate», в теории, позволяет заявить об AGI на пару лет раньше 🤷♂️
===
По словам человека, общавшегося с Sam Altman по поводу переговоров с Microsoft, основное внимание сосредоточено на четырёх вопросах:
— доля Microsoft в новой коммерческой организации
— останется ли Microsoft эксклюзивным поставщиком облачных услуг OpenAI (последние немного недовольны темпами роста мощностей, и смотрят по сторонам в поисках партнёрств)
— как долго Microsoft будет сохранять права на использование интеллектуальной собственности OpenAI в своих продуктах
— продолжит ли Microsoft получать 20% от выручки OpenAI
И теперь мои пара центов к этой дискуссии. Немного обидно, что на тезисы про креативность Bubeck не вспомнил пример из Го — поэтому часть дискуссии, как бы я в неё вклинился, могла бы выглядеть так:
Мы не знаем, что такое креативность, и скорее всего это придуманный нами концепт, которого в реальности не существует. То что мы можем воспринимать за креатив — это на самом деле просто неоптимальность нашего восприятия, мы что-то упустили, что-то не знали, и поэтому какая-то информация кажется прям ВАУ. Но так как машины «думают» не как мы — они могут быть этому не подвержены (или подвержены в другой мере).
Известен ход 37 во второй партии AlphaGo, нейросети, обыгравшей человека в Го (что долгое время считалось невозможным), против абсолютного чемпиона всего что только можно Lee Sedol. Я в канале уже упоминал документальный фильм, снятый DeepMind, и там есть этот момент — смотрите с этого таймкода. Послушайте реакцию профессиональных комментаторов и игроков, которые просто не поняли, почему AlphaGo решила сходить так. Они думали, что это или ошибка, или модель тупая и не понимает что-то. Люди так не сходили бы, в этом не видно смысла.
Сами DeepMind пошли проверять, почему такой ход вышел — и подтвердили, что их нейросеть, которая занимается оценкой потенциальных ходов (натренирована на играх живых людей), даёт оценку на такой ход в 1 из 10000. Его никто бы не рассматривал, он не кажется перспективным, оптимальным, победным. Lee Sedol после хода думал 12 минут, в то время как обычно тратил 1-2.
Когда партия начала развиваться, стало ясно, что это был опорный камень для стратегии AlphaGo. Через некоторое время Lee Sedol сдался и проиграл вторую игру. Комментаторы и игроки кайфовали от этого хода (собственно поэтому он и запомнился всем).
Сам Lee Sedol говорит про это в интервью:
— Я думал AlphaGo оперирует вероятностями и является просто машиной. Но когда я увидел этот ход — я изменил своё мнение. Абсолютно точно AlphaGo креативна. Этот ход был очень креативным и просто прекрасным. Этот ход заставил меня думать о Го в новом свете. Что значит креативность в Го? Этот ход был действительно продуманным, он был полон смысла.
===
Так что вполне возможно, что КРЕАТИВ — это просто то, что тупые мы не видим, хотя на самом деле оно оптимально.
Что ещё примечательно — так это что AlphaGo и её последователи хоть и кажутся непобедимыми машинами, но... и они не лишены недостатка. В 2023м году один исследователь нашёл некоторые изъяны в логике модели (хотя сам он в Го играл еле-еле) и смог у неё выиграть несколько игр подряд — вот блог с объяснением (и там же ссылки на статьи). Казалось бы как так — СУПЕР УЛЬТРА МЕГА УМНАЯ НЕПРОИГРЫВАЮЩАЯ машина и может проглядеть такую атаку? И ничего не может сделать? Серьёзно?
😀 никакой пример 9.11 и 9.8 не напоминает? 👀 ну как это, решает PhD задачи и доказывает теоремы, которые я даже понять не могу, и не знает какое число больше? 🫵 😂
Bubeck:
— я согласен с этими вещами (про тренировочные данные, креативность и ) и с исследовательской работой McCoy, но я прихожу к другим выводам и спорю с тем, как это воспринимаете вы. Я вот могу судить по себе, что большая часть моих исследований — это комбинирование того, что уже есть, плюс совсем немного случайных блужданий вокруг идеи. И то же я вижу в подавляющем большинстве других работ, взяли то и это, скрестили, получили такой результат. Комбинирование само по себе — это безумно сильный навык.
— Что же касается ненулевых галлюцинаций в длинных цепочках рассуждений, ну, кажется эта критика применима и к людям. Если посмотреть на черновики научных статей на 50+ страниц — они часто содержат неточности и ошибки, и поэтому у нас есть процесс ревью, где люди получают обратную связь от ревьюиров, им указывают на белые пятна итд. Это важная часть итеративного процесса исследований. И она хорошо переносится на LLM, где нескольким разным агентам присваивают роли: одна модель генерирует решения, другая ищет ошибки и указываете на них, потом первая исправляет и так по кругу.
— И последнее — да, модели могут хуже решать задачи, навыки для которых редко проявляются в тренировочных данных. Но это не значит, что этих навыков в них нет — они представлены, просто на модель нет давления их проявлять (и она не выучилась как их использовать), но можно использовать дообучение для того чтобы извлечь и проявить навыки [прим.: как делали с GPT-3.5 и с o1]
McCoy:
— а мы кстати провели те же исследования на сортировку и подсчёт с o1-preview, и хоть модель стала существенно лучше, всё равно не справляется так хорошо с менее частыми примерами задач. Пока не выглядит так, что дообучение позволяет побороть проблему. А чтобы комбинировать навыки и знания нужно знать что именно комбинировать, и моделям часто нужно явно говорить, что брать и что делать — они сами не могут.
— Если рассматривать самые успешные и прорывные доказательства в науке, то они отличаются креативностью, используют и комбинируют вещи в новых форматах, не так как, как это привыкли делать.
Bubeck:
— Я поделюсь своим опытом. Недавно во время работы с о1 [прим.: он говорит o1 плюс эпсилон, ахахах это наверное o3 была? на момент дебатов её не анонсировали] я взял свою статью которая уже почти дописана, но нигде не опубликована, лежит ждет полировки. Материал точно новый, и отвечает на вопрос «how long can be the gradient flow of a convex function?». Я задал этот вопрос модели, и она подумала и предложила связь этой темы и «self-contracted curves» и объяснила почему это хорошая идея. Когда я работал над статьей мне потребовалось 3 дня, чтобы самому прийти к этой связи. Я мог бы написать статью на 3 дня быстрее даже вот с этой базовой моделью, доступной сегодня! И это не гипотетические ситуации, это уже вот здесь с нами в наше время.
— Вдобавок я знаю людей в аудитории, которые рассказывали похожие истории, как о1 им помогала с нахождением связанных с их вопросом лемм.
McCoy:
— ну это всё как бы да и круто, но ведь те математические проблемы, о которых мы говорим в рамках дискуссии — сейчас-то люди с ними не справляются, то есть не достаточно достигнуть уровня «как у людей», нужно прыгнуть выше. Не считаю, что про это мой оппонент что-то сказал.
Закрывающие высказывания. McCoy:
— я оптимистичен по поводу AI-помощников, которые помогут нам, даже в этих нерешённых проблемам, но скептичен, что дальнейшее масштабирование приведёт к автоматическим доказательствах, не вовлекая людей.
— Что нужно улучшить в моделях? Длинные рассуждения и долгосрочную память (и её использование), надежность работы и ситуацию с галлюцинациями тоже нужно улучшать.
— Никто не знает что значит быть креативным, но что скорее всего важно - это аналогии и абстракции, которые помогают смотреть на те же идеи под новым углом, и находить новые связи.