seeallochnaya | Unsorted

Telegram-канал seeallochnaya - Сиолошная

71212

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Subscribe to a channel

Сиолошная

В комментариях попросили запустить ChatGPT Pro с просьбой сделать аналитику того, каким мог бы быть показатель OpenAI, если бы они считали так же, как Anthropic. Мне тоже стало интересно.

Чат: ссылка

TLDR: ARR OpenAI на конец февраля была $25B, с корректировкой скорее $33-34B (я ожидал, что ниже — не думал, что Microsoft столько продаёт).

Как GPT сделала оценку — нашла пост TechCrunch с разбором утёкших финансовых документов Microsoft, где упоминались размеры выплат OpenAI (те самые 20% по договору). Потом сопоставила это с выручкой на даты в утечках, посчитала долю, и экстраполировала. Так что цифра может быть завышена, если выручка OpenAI росла быстрее (например, из-за роста популярности Codex, в то время как Microsoft, например, могли продавать просто API).

С другой стороны GPT говорит, что в утечках были только данные Azure, а не по всем возможным Microsoft-продуктам с OpenAI внутри, поэтому цифра может быть больше.

Почему я об этом вообще пишу? Мне кажется это важно для того, чтобы понимать, какой спрос на модели, сколько люди суммарно реально платят за ИИ-продукты. Получается, что у всего лишь двух игроков, OpenAI и Anthropic (вместе с их провайдерами) суммарный ARR уже перевалил за $55B. Но рост супер стремительный, и к концу года мы можем достаточно легко увидеть взятие планки в $100B.

Читать полностью…

Сиолошная

Представляете вот вы открываете последнюю статью Terence Tao, «Моцарта от мира математики», а там написано «Первое из этих предположений было доказано с помощью ChatGPT».

А представлять теперь и не надо 😭

В своём блоге автор даёт пояснение:
— Я так и не понял, как доказать это неравенство, но решил попытать счастья и дать его ChatGPT Pro <и он решил его>

Сомнений что без модели математик смог бы разобраться у меня нет; но теперь и решать самому не нужно, достаточно проверить и/или развить идеи, предложенные моделью. Terence последний год+ очень топит за верифицируемую математику — это когда все условия и доказательства записаны на специальном языке программирования, и компьютер проверяет решение, компилируя его. Если ошибок нет, то почти наверняка решение правильное.

И тогда остаётся лишь проверять, что исходные условия + вердикт формализованы правильно — и всё. Звучит чудесно? Да, но к сожалению ручная формализция на этом языке очень времязатратна, на сложные доказательства могут уходить месяцы. И тут тоже помогает AI — см. Gauss.

Читать полностью…

Сиолошная

Nvidia проводит конференцию GTC, которую открывает CEO компании. Игровых видеокарт не представят (да и скоро ждать не стоит 😭), зато показали новую железку, сделанную на основе технологий недавно «купленного» стартапа Groq.

Groq специализировались на быстрой генерации токенов за счёт того, что в их картах не было HBM — очень быстрой, но всё ещё относительно медленной памяти. Вся модель и ваши токены жили в SRAM — супер-быстрой памяти (в 15+ раз быстрее), с которой напрямую взаимодействуют вычислительные юниты. Но она очень дорогая, и её мало — видеокарта GB200, использующаяся в датацентрах, имеет всего 126 МегаБайт SRAM (и это на 2 чипа внутри, то есть 63 МБ/чип).

(это было одной из проблем Groq — они не могли запускать очень большие модели, SRAM не хватало)

Теперь модуль Groq 3 LPX будет частью серверных стоек, которые предлагает Nvidia — специально для сценариев, где нужна сверх-быстрая генерация. Nvidia рассчитывает, что современные GPT (якобы размером в 2 триллиона параметров) смогут бегать на скорости в 400 токенов в секунду.

Один блок с чипами в стойке (на второй картинке) будет иметь 128 GB SRAM – то есть огромное количество, по сравнению с обычными картами. Но этого всё равно не хватит, чтобы считать всё — поэтому Nvidia предлагает считать там только FFN/MOE, а Attention продолжать на картах Nvidia (картинка 4).

О, и на последней картинке — Nvidia планирует сделать чип архитектуры Vera Rubin (следующее поколение, уже представлено, но ещё не продаётся) специально для космоса, с вниманием к выделяемому теплу.

🚀 🚀 🚀

Читать полностью…

Сиолошная

Cursor написали в своём блоге о том, как отслеживают качество моделей в написании кода. Они используют гибридный онлайн-офлайн процесс.

Оффлайн — это обычный бенчмарк на внутреннем наборе тестов, основанном на сессиях работы инженеров компании. В среднем решение требует гораздо больше строк кода в решении, нежели публичные бенчмарки: изменение 352 строк в ~8 файлах.

Сравнение с другими бенчмарками приведено на второй картинке — откуда также видно, что входное описание куда короче других бенчмарков, то есть в промпте не прописывают каждую маленькую деталь (но детали прописаны в рубрике для автоматической проверки).

Онлайн-часть — это контролируемый анализ на реальном живом трафике. Такие онлайн-оценки помогают выявлять регрессии, например, когда результат работы агента выглядит правильным для проверяющего, но воспринимается хуже самим разработчиком, использующим продукт.

Онлайн-оценка позволяет измерить, действительно ли улучшения помогают разработчикам на практике. Cursor отслеживают набор высокоуровневых прокси-метрик (косвенных показателей) результативности агента на основе действий пользователя.

Онлайн и офлайн бенчмарк очень скоррелированы и имеют одинаковое ранжирование моделей (третья картинка) — в топе GPT-5.4, чуть ниже Opus 4.6 на уровне с GPT-5.2, а собственная модель компании Composer 1.5 обходит Sonnet 4.5 (при том что она гораздо быстрее за счёт инференса на чипах Cerebras).

Приятно удивлён, что пользователи Cursor так высоко оценивают модели OpenAI — но ещё здорово и то, что они требуют меньше токенов для решения задач.

Задачи CursorBench решаются в рамках одной сессии, но компания ожидает, что в течение следующего года подавляющее большинство задач по разработке будет передано агентам с длинным горизонтом планирования, работающим на своих собственных мощностях где-то в облаке — и бенчмарк придётся адаптировать к этому.

Читать полностью…

Сиолошная

Помните несостоявшуюся рекламу наушников от OpenAI? Которая вроде как и не их, но с высоким уровнем продакшена, и за продвижение которой кто-то даже заплатил?

Наушники "случайно" засветились снова — на CDO (Chief Design Officer) America (да, Америки) и со-основателе AirBnb Joe Gebbia, который сидел пил кофе где-то в Сан-Франциско.

После этого я на ~85% уверен, что это действительно девайс OpenAI и что они выбрали такую тактику продвижения, чтобы люди обсуждали.

Читать полностью…

Сиолошная

Мы победили. Не будет дата-центра. И им придётся построить парк.

— 200 тысяч лайков за чуть более чем сутки.

Интересно почему же ДЦ хотят строить на орбите 🤔

Комментарий из твиттера:
200 тысяч лайков за радость от блокировки вычислительной инфраструктуры прямо во время гонки за AGI.

Ни один парк в истории человечества не будет иметь значения, если вы проиграете следующие 1000 лет цивилизационного развития стране, которая создаст его первой.

Кстати, именно так и выглядит упадок.
Вам даже не нужны войны — достаточно лишь людей, которые ликуют, разрушая и фундамент, и будущее своей собственной культуры (и при этом чувствуют свою абсолютную моральную правоту).

Читать полностью…

Сиолошная

Grok 4.20, обещаемый Elon Musk с августа прошлого года, появился в бете на https://grok.com/ .

При обработке вашего запроса используется до 4 агентов, которые общаются между собой; одному из них назначается роль лидера.

Думаю, что с точки зрения качества эти агенты не должны существенно накидывать по отношению к одной длинной цепочке рассуждений, но могут потенциально уменьшать время до получения ответа за счёт параллельных рассуждений и поиска.

Читать полностью…

Сиолошная

Так совпало, что и я на макбуке долго не обновлял операционную систему, и на андроид новый клиент телеграма не приходит. И вот на позапрошлой неделе обновились оба.

Теперь полностью могу прочувствовать это:

Читать полностью…

Сиолошная

Интересный факт. Суммарные капитальные расходы Амазон, Гугл и Мета на 2026 год - около $500 млрд. С Майкрософтом - порядка $650 млрд. И это не прогнозы аналитиков, а цифры с последних отчетов компаний.

Для масштаба. Это 2/3 военного бюджета США, а весь военный бюджет Китая в 2025 - $249 млрд официально (реально ближе к $295 млрд). Три техкомпании потратят на инфраструктуру вдвое больше, чем вторая военная держава мира тратит на всю армию.

Все страны НАТО, исключая США, потратят на оборону около $607 млрд в 2025. Четверка техгигантов по расходам сопоставима со всем европейским военным блоком.

Причем у НАТО эти $607 млрд размазаны по 31 стране на зарплаты, технику, операции, базы. У техкомпаний основная часть идет в одну точку - чипы, дата-центры, электричество. Такой концентрации ресурсов в частном секторе не было никогда.

Год назад $250 млрд совокупных расходов казались ненормальными (ну как минимум мне). В 2025 стало $410 млрд. На 2026 - $650 млрд, плюс 60% за год. При этом CEO Гугла на звонке с инвесторами спросили "что не дает вам спать" - вычислительные мощности. Им мало.

Одни уже покупают электричество у ядерных реакторов. Другие скупают участки рядом с электростанциями. Война за чипы, энергию и землю под дата-центры - это не сценарий из киберпанка. Это банально текущие фин отчеты.

Читать полностью…

Сиолошная

https://www.youtube.com/watch?v=n1E9IZfvGMA

Читать полностью…

Сиолошная

Расчехляйте подписки на $200 — сегодня Codex начёт генерировать со скоростью 300-500 токенов в секунду 🚀🚀🚀

Читать полностью…

Сиолошная

По поводу недавних экспериментов Cursor и Anthropic с запуском десятков-сотен агентов на неделю — как всегда вспоминаю, что не все люди воспринимают мир одинаково, и зачастую сложно посмотреть на мир чужими глазами. Поэтому нужно писать вот такие вот объяснения.

Вау-эффект эксперименты вызывают по разным причинам — например, кто-то думает, что вау в том, что смогли сделать вот конкретно эти агенты с конкретно этими задачами. Кто-то справедливо замечает, что браузер на самом деле не с нуля написан, что комплиятор медленный, что качество кода не лучшее, и так далее — и потому считает, что никакого "вау" нет.

Но это вообще не то направление, в котором стоит смотреть. Главная причина для моего вау — это что модели текущего поколения без специальной тренировки работы роем агентов на задачи длительностью в 7 дней и больше уже могут показывать какой-то результат. А как мы знаем из последних полутора лет развития RL — как только появляется какой-то минимальный результат, то его можно в короткие сроки существенно прокачать, условно от 11% до 85%.

(я уверен, что фронтир-модели не учились или учились очень мало в таком формате)

Есть куча низковисящих фруктов, которые помогают делать прогресс по проблемным направлениям, и есть большое количество мощностей для заливания в задачи.

Как полтора года назад казалось, что модели еле-еле решают какие-то серьезные олимпиадные задачи, а теперь справляются с проблемами исследовательского уровня, так будет и тут. Через год рой агентов / команды субагентов / кто как назовёт будет гораздо способнее.

Однако прогресс тут может быть чуть более медленным, чем с обычными рассуждениями, так как каждая отдельная задача банально занимает много времени, несколько дней или неделю. Тут очень пригодятся методы увеличения количества сигнала из каждого роллаута, и, наверное, мы скоро увидим статьи по этой теме.

Читать полностью…

Сиолошная

Пока люди в твиттере хайпуют по бесполезному редиту для ИИ-агентов, а я дописываю 8-ую тысячу слов для следующего лонга — Anthropic отчитались, что марсоход проехал 400 метров под контролем Claude: https://www.anthropic.com/features/claude-on-mars

(детали будут после лонга)

Читать полностью…

Сиолошная

Ждать долго не пришлось: автомобиль Waymo сбил ребёнка около школы в Калифорнии.

Waymo заявили, что ее роботакси сбило ребенка на скорости 10 километров в час после резкого торможения с примерно 27 километров в час. Молодой пешеход «внезапно выскочил на проезжую часть из-за высокого внедорожника, двигаясь прямо на пути нашего автомобиля», — говорится в сообщении компании в блоге. Waymo заявила, что ее автомобиль «немедленно обнаружил человека, как только он начал выходить из-за остановившегося транспортного средства».

Ребёнок сразу же смог встать и отойти на тротуар, а такси вызвало 911.

Waymo утверждает, что по результатам их моделирования выходит, что «внимательный водитель в той же ситуации столкнулся бы с пешеходом на скорости приблизительно 22 километра в час». Хоть деталей этой аналитики не опубликовано, в целом поверить, что алгоритм сработал лучше человека не трудно.

Посмотрим, что скажет полиция, и как это повлияет на регуляции, а самое главное человеческое отношение. Каждый такой кейс может или поспособствовать ускорению внедрения самоходных такси, или откинуть их назад на годы.

Читать полностью…

Сиолошная

Существует заблуждение — и я удивлён, насколько распространённое — что инференс моделей убыточен, и что компании его субсидируют, чтобы захватывать рынок. И на этом теряют деньги. Ну как, они же привлекают деньги? Значит нужны, иначе умрут!

Как я писал много раз и поправлял людей в комментариях — сам инференс очень прибыльный, с наценками в сотни процентов. И это с учётом того, что у Nvidia за чипа наценка тоже в сотни процентов, представляете?

Epoch.AI подошли к вопросу систематически, собрали доступные данные по тратам и выручке OpenAI в разных категориях и постарались оценить: зарабатывают ли компании, и сколько?

Для этого они выбрали «поколение GPT-5» — все модели, которые были доступны с релиза GPT-5 в августе до декабря, когда на смену пришла GPT-5.2 (потому что она, вероятно, является новой базовой моделью).

Перед тем как читать дальше: у всех значений есть достаточно широкие доверительные интервалы, поэтому выводы могут быть немного другие, но не кардинально.

За озвученный период OpenAI получили примерно $6.1B выручки и потратили $3.2B на мощности для инференса. И это с учётом примерно 750 миллионов бесплатных пользователей, которые не принесли НИ-ЧЕ-ГО.

Таким образом, валовая прибыль составляет примерно 48%.

Теперь к операционной выручке: для этого в затраты нужно добавить зарплаты ($1.4B) и расходы на маркетинг + продажи ($2.2B), то получается убыток, -20% (доверительный интервал от -50% до 5%).

К этому сверху можно добавить затраты на исследования: зарплаты, данные, мощности на эксперименты и финальную тренировку. Тут оценки делать ещё сложнее, так как разрабатывается много моделей, какие-то наработки будут пользоваться дальше, какие-то вообще делали для Sora. Но Epoch.AI приходят к цифре $4.9B.

Таким образом, за 4 месяца существования GPT-5 скорее всего не смогла окупить свой полный цикл разработки. В большей степени это продиктовано тем, что выпустили GPT-5.2, и модель устарела.

Ситуация точно была другой для GPT-4o, которая была с нами около полутора лет — да, она обновлялась, но скорее всего на это выделяли меньше ресурсов (в том числе людских).

В быстрорастущих технологических секторах инвесторы, как правило, готовы мириться с убытками сегодня в обмен на большую прибыль в будущем. Поэтому, если модели ИИ уже покрывают большую часть затрат на себя, это говорит о благоприятных финансовых перспективах для ИИ-компаний.

Поэтому выводы очевидны: сам запуск моделей супер-выгодный. Чтобы оставаться в гонке, нужно растить затраты на RND (что делают все), и после насыщения выйти на плато и начать зарабатывать.

Смогут ли дотянуть те или иные игроки? Узнаем в 2029-2030м!

Читать полностью…

Сиолошная

Федеральный судья в Сан-Франциско вынесла предварительный судебный запрет в пользу Anthropic, приостановив действие решений администрации Трампа о включении компании в чёрный список Пентагона и запрете на использование моделей Claude федеральными агентствами. Судья Рита Лин квалифицировала действия правительства как «классическое незаконное преследование по Первой поправке» — формулировка, которая задаёт тон всему дальнейшему разбирательству.

Судья Лин прямо назвала происходящее «оруэлловским» — и это не риторическая фигура, а сигнал о том, как суд оценивает правовую обоснованность позиции правительства. Это не окончательное решение — но обычно суды очень детально разбирают иск по сути, прежде чем выносить обеспечительное решение.

https://www.cnbc.com/2026/03/26/anthropic-pentagon-dod-claude-court-ruling.html

Читать полностью…

Сиолошная

Федеральный судья Рита Лин в ходе рассмотрения иска Anthropic к Пентагону заметила, что запрет администрации Трампа на использование госструктурами моделей Anthropic выглядит как наказание компании за то, что она публично раскрыла свой контрактный спор с Пентагоном. По словам судьи, действия правительства «похожи на попытку подорвать Anthropic» и потенциально нарушают Первую поправку. Решение по делу пока не вынесено, но судья запросила дополнительные доказательства.

https://www.wsj.com/tech/ai/u-s-governments-ban-on-anthropic-looks-like-punishment-attempt-judge-says-2ff98fe3

Читать полностью…

Сиолошная

Смотрим-слушаем про токеномику и гигаватты в свежем интервью Dwarkesh: https://www.youtube.com/watch?v=mDG_Hx3BSUE

Какие темы обсудят:
00:00:00 – Почему H100 сегодня стоит дороже, чем 3 года назад
00:24:52 – Nvidia заранее забронировала мощности TSMC; Google сталкивается с дефицитом
00:34:34 – К 2030 году ASML станет главным ограничением для масштабирования вычислительных мощностей ИИ
00:56:06 – Разве нельзя просто использовать старые фабрики TSMC?
01:05:56 – Когда Китай обойдет Запад по масштабам производства полупроводников?
01:16:20 – Надвигающийся колоссальный дефицит памяти
01:42:53 – Увеличение энергетических мощностей в США не станет проблемой
01:55:03 – ДЦ в космосе не появятся в этом десятилетии
02:14:26 – Почему так мало хедж-фондов делают ставку на AGI?
02:18:49 – Вытеснит ли TSMC компанию Apple с техпроцесса N2?
02:24:35 – Роботы и риски, связанные с Тайванем

Читать полностью…

Сиолошная

Одна из крупнейших венчурных фирм a16z выпустила отчёт по AI-индустрии с большим количеством графиков. Я его полистал и нашёл пару интересных моментов:

1. Приложение Sora c генерацией видео еще живо и даже растёт — дневная аудитория чуть больше 3 миллионов пользователей. Солидно само по себе, но на фоне замашек OpenAI цифра достаточно скромная.

2 и 3 — доля ChatGPT по сессиям. С ростом рынка и появлением новых продуктов доля падает, но остаётся солидной. Количество времени, проведенном в ChatGPT, в 8 раз выше, чем у топ-2 игрока.

Читать полностью…

Сиолошная

А ведь менее чем неделю назад на конференции в Индии эти двое не могли взяться за руки

Читать полностью…

Сиолошная

3.5 месяца назад после выхода Kimi K2 Thinking, как и после любого другого релиза, началась волна комментариев в духе «Да всё, да Китай догнал, да эти модели уже на уровне не то что OpenAI а Anthropic».

Как и в случае с R1 vs o1, я считаю, что это бред. Мой твит с хот-тейком про превращение паритета на бумаге в разрыв в реальности набрал под 80 тысяч просмотров, поэтому я решил вернуться и проверить, был ли я прав.

Остают ли модели от фронтира, и если да, то почему? Об этом читайте в новом блогпосте: ikot.blog/the-illusion-of-parity

Читать полностью…

Сиолошная

Считаю, что тут очень важная мысль - как

Читать полностью…

Сиолошная

Посмотрел вчера это интервью, очень понравилось, особенно часть с 00:58:49 про инвестиции в мощности и выход на прибыль. В целом Dario достаточно хорошо ответил на заковыристые вопросы, очень хотелось бы услышать ответы на ровно них же от Sama (хотя уверен, что они будут такими же, но с более агрессивными целями).

Если вкратце, то:
— Dario верит, что «страна гениев в датацентре» появится в течении 3-4 лет.
— Почти наверняка индустрия AI (3-4-5 ведущих игроков) будет иметь выручку больше триллиона долларов в 2030-м. 3 года на «страну гениев в датацентре», 2 года на диффузию этого в экономику от текущего момента.
— После этого ВВП может начать расти на 10-20% в год. Компании и дальше будут наращивать мощности, инвестируя уже триллионы долларов, пока не достигнут некоторой точки равновесия, где дальнейшие вливания уже дают очень маленькую отдачу. Эквилибриум задаётся тем, сколько всего чипов будет производиться, и какую долю в ВВП будет составлять выручка компаний.
— Dario снова повторил предсказание про то, что модели через год смогут делать 90% работы инженеров-разработчиков (не только написания кода).
— Подтвердил / прокомментировал почти все слухи, которые мы получали из утечек презентаций для инвесторов касательно маржинальности, планов по росту выручки, выходу на прибыль.
— Выход на прибыль в 2028-м пока обусловлен тем, сколько спроса они видят, сколько мощностей нужно на исследования и сколько чипов смогут купить.
— Но из всех ответов Dario я скорее укрепился во мнении, что OpenAI имеют более рисковый и при этом реалистичный план; Anthropic уже двигали год выхода на прибыль, и это может повториться снова.

Dario несколько раз подчеркнул, что их инвестиции в мощности не настолько агрессивны, так как если они ошибаются хотя бы на год, то компания обанкротится. Я с этим не согласен, мне кажется он лукавит — ну или это верно для его компании, но не OpenAI 🤷‍♂️

А мой твит с этим кадром из подкаста как-то набрал полмиллиона просмотров 😳

Читать полностью…

Сиолошная

Картинка фотошоп, а твит выдуман:


Вчера вечером я встречался с Andrew Strominger и Alex Lupsasca, двумя ведущими физиками мира.

Они только что опубликовали статью в соавторстве с OpenAI, и, по-моему, это уже уровень ASI (искусственного суперинтеллекта).

Andrew, один из создателей теории струн, рассказал мне, что еще год назад он сомневался, что ИИ может быть хоть сколько-нибудь полезен.

Год спустя, после серии взаимодействий с GPT 5.2 Pro, они отправили итоговый запрос внутренней модели, которая решила И доказала ранее нерешенную задачу квантовой теории поля… всего за 12 часов.

Модель сделала то, что не удавалось двум умнейшим людям в мире в их области. И когда мы общались, они были в диком восторге от того, что может ждать нас впереди.

Andrew сказал: «Я впервые вижу, чтобы ИИ решил задачу в моей области теоретической физики, которая, возможно, вообще не под силу человеку».

Они отметили: «Изменились две вещи: модель стала лучше, и мы поняли, как с ней разговаривать».

Он также добавил: «Учитывая последние достижения, я чувствую, что теперь большинству физиков, желающих оставаться на передовой научного прогресса, придется учиться общаться с ИИ. Год назад в этом не было необходимости».

ASI уже здесь, просто он распределен неравномерно.

Читать полностью…

Сиолошная

https://openai.com/index/introducing-gpt-5-3-codex-spark/

GPT-5.3 в чипы Cerebras не влезла, поэтому вместо неё маленькая версия GPT‑5.3-Codex-Spark. Целевая скорость — тысяча токенов в секунду. То есть большинство ваших задач будут отрабатывать за < 3 минут, особенно если нет долгого прогона тестов.

Модель не поддерживает картинки и имеет всего 128 тысяч токенов контекста.

Из хороших новостей — модель НЕ жрёт ваши лимиты, так что если ваши задачи относительно простые для фронтир-моделей — то Spark вам должен очень зайти.

Бенчмарки на картинках — как видно, еле-еле составляет конкуренцию Codex-5.3-low (минимальное время рассуждений), зато быстрее.

Доступно везде: Codex app, CLI, и VS Code плагин (нужно обновиться)

Читать полностью…

Сиолошная

Как может выглядеть группировка из 5 тысяч спутников на солнечно-синхронной орбите на высоте 500-2000 км. «Солнечно синхронная» означает, что спутники всегда расположены одной стороной к Солнцу, а значит смогут получать энергию.

(спутники тут намеренно сделаны более яркими, чем будут в реальности)

Ждём группировку спутников-датацентров к 2035?

Источник

Читать полностью…

Сиолошная

Быстроновости в понедельник:

— Начался февраль, ожидается много релизов моделек, от китайских GLM-5 до Claude Sonnet 4.6 / 5 (который может выйти вообще завтра, судя по некоторым утечкам) и GPT-5.3.

— При этом источники из Китая говорят, что DeepSeek уже не планирует выпуск V4 в конце февраля (к Лунному Новому году). Компания, кстати, получила одобрение от Партии на закупку H200 у Nvidia — ещё месяц назад был полный запрет, «должно быть всё своё родное», потом разрешили закупку для Tencent и Alibaba, и вот дошли до Китов.

— OpenAI пытается успеть провести IPO в 2026-м году, Anthropic и SpaceX тоже. Большой год для финансовых рынков. А ещё xAI может ещё объединиться с Tesla/SpaceX, так что формально тоже выйти на биржу. Мне не нравится идея выхода Anthropic и особенно OpenAI на IPO — потому что оценка публичных компаний сильно подвержена новостному фону и настроению инвесторов, которые зачастую ничего не понимают. «Пишут, что GPT-5 плохая? Сливаем акции».

— Некоторые пользователи заметили, что у них обновился ChatGPT DeepResearch. Он теперь по другому строит план и может выполнять несколько пунктов плана одновременно. Возможно, это означает, что под капотом будут работать 💫agent swarms — это когда агент не один, а несколько.

— Agent Swarms вообще рискует стать одной из горячих тем 2026-го, где от каждой компании мы увидим релиз, связанный с этим. А возможно и новые уровни подписок, за $500 или даже $1000-$2000. Совсем недавно вышла Kimi-K2.5, которая обучена аркестрировать «сотни» агентов, но как и любая ранняя технология это скорее концепт нежели что-то реально стоящее. Ждём больших игроков, которые покажут, как правильно.

— По информации WSJ, CEO Nvidia в приватных беседах выражал сомнение в «бизнес дисциплине» OpenAI, и что обсуждение инвестиций в раунде на $100B пока заморожено. Сам Jensen эту информацию опроверг, сказав, что они участвуют в следующем раунде и сделают рекордную для себя инвестицию. Посмотрим, как будет — за кусок пирога OpenAI с ним будут тягаться Softbank, Microsoft и Amazon, последний хочет вкинуть какие-то огромные деньги, $50B.

— Завтра после обеда лонг (не про файлы Эпштейна)

Читать полностью…

Сиолошная

АИ и обучение программированию

Антропик взяли 52 джунов, им нужно было решить задачку, затем ответить на тестовые вопросы связанные с темой задачки. В вопросах теста рисерчеры сделали упор на понимание кода, дебаг сообщений и обших концептов. Джунов разделили на две группы: одна могла использовать АИ инструменты во время решения задачи (но не во время теста), вторая - нет.

Что получилось:
• Группа без АИ лучше справилась с тестом. Эти джуны чаще ошибались при решении самой задачки, но эти ошибки и были их обучением. Чаще видишь сообщение с ошибкий -> начинаешь их лучше понимать.
• Участники, которые надеялись на АИ слишком сильно, хуже всех справились с тестом. Сюрприз-сюрприз, если ты делаешь себя прослойкой между консолью и АИ чатом - ты ничего не поймешь.
• Участники активно взаимодействующие с чатом (просили объяснить куски кода, задавали вопросы о коде и смысле сообщений о багах) справились с тестом лучше всех.

Вывод? Если аутсорсить trial and error из процесса обучения в АИ, то ничему не научишься.

https://www.anthropic.com/research/AI-assistance-coding-skills

Читать полностью…

Сиолошная

Обещал не писать про очередные раунды, но это довольно большие значения, чтобы пропустить.

Amazon ведёт переговоры об инвестициях до $50 млрд в OpenAI. Если сделка состоится, Amazon станет крупнейшим участником текущего раунда, в котором OpenAI привлекает до $100 млрд при оценке около $830 млрд.

Вчера были сообщения, что SoftBank планирует участие в этом раунде, вкладывая до 30 млрд долларов. Сразу видно, что там комментариев в чатах не читают и не подозревают, что это пузырь пузырем и скоро лопнет.

https://www.wsj.com/tech/ai/amazon-in-talks-to-invest-up-to-50-billion-in-openai-43191ba0?st=GjBnZ4&amp;reflink=desktopwebshare_permalink

Читать полностью…

Сиолошная

Картинки к посту (на последней Dario увидел, какой датацентр запланирован у OpenAI, и решил повысить прогноз).

Читать полностью…
Subscribe to a channel