76843
Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
⚡️ Ян Лекун планирует уходить из Meta и открывать собственный стартап
Об этом пишет Financial Times. По их словам, ученый уже находится на ранней стадии переговоров с инвесторами для своей новой компании.
Заниматься будет, угадайте чем? Конечно же, всевозможными world models, о которых он уже кучу лет рассказывает буквально в каждом своем интервью и выступлении.
Видимо, Лекуна все-таки не устроила новая корпоративная структура, в которой он должен подчиняться молодому зеленому Александру Вану. Хотя сам ученый пока не комментирует ситуацию.
PostgreSQL опубликовали топ-50 главных контрибьюторов проекта: в список вошел Андрей Бородин, руководитель разработки СУБД с открытым исходным кодом в Yandex Cloud
На данный момент PostgreSQL является самой популярной опенсорсной СУБД в мире. Особенно в сегменте ИИ- и ML-проектов: векторный поиск помогает моделям быстрее находить и анализировать нужную информацию. Например, PostgreSQL применяют при создании ChatGPT.
Получить статус контрибьютора в проекте очень нелегко: нужно не просто коммитить, но и проходить долгое строгое ревью. Процент коммитов, которые в конечном счете одобряют, довольно мал, – доработка должна быть действительно существенной.
Андрей стабильно контрибьютит с 2016, четвертый раз входит в топ-50 контрибьюторов года и теперь имеет статус major contributors. Их в проекте всего 52, этот статус выше, чем significant contributor, и означает, что разработчик "оказывает существенное влияние на кодовую базу и процессы".
Интересно, что вклад команды Бородина не ограничивается только ядром PostgreSQL. Недавно они разработали SPQR (Stateless Postgres Query Router), систему с открытым исходным кодом для горизонтального масштабирования PostgreSQL через шардирование. Она уже доступна сообществу: если любите Postgres, потрогать проект можно здесь.
Отдаем дань уважения 👒
А вот так выглядит первая тестовая производственная линия Теслы для Optimus
В 2026 должна появится еще одна, уже более крупная. Это пока пилот.
Компания пишет, что их цель – это достичь себестоимости в 20к долларов на робота, и тестируют они их прямо тут же, на заводе и в лабораториях (что может пойти не так?)
Понедельник, настроение:
P.S. Сожалеем о его потерях
Google предложили новую ML-парадигму Nested Learning, с помощью которой модели смогут учиться непрерывно
Google все не оставляют попыток повторить свой успех 2017 года и снова изобрести в ИИ что-то новенькое и прорывное. Может, когда-нибудь одна из вот таких интересных работ и стрельнет.
В этот раз они предлагают переосмыслить нейросеть как таковую и начать рассматривать модель не просто как одну крупную оптимизационную задачу, а как набор вложенных (nested) оптимизационных задач, каждая из которых имеет свой контекстный поток и своё время обновления.
В первую очередь это попытка решить проблему катастрофического забывания. Память современных моделей, мягко говоря, сильно ограничена, и после предобучения или файнтюнинга их уже не так-то просто научить чему-то еще: при обучении на новых данных старые навыки начинают деградировать. Это гигантский глобальный недостаток, учитывая, что мы тут все вообще-то ждем AGI, который сможет непрерывно учиться и самосовершенствоваться.
А вот как работает Nested Learning:
1. Авторы формализуют модель как множество оптимизационных задач: у каждой есть свой поток информации, на которой она учится, и своя частота обновления. Например, компоненты с высокой частотой обновления отвечают за адаптацию к текущему контексту, с низкой частотой – за какие-то базовые знания, и тд.
2. Но просто так, по щучьему веленью, модель не поймет, что и когда обновлять. Поэтому авторы предлагают сделать обучаемым сам оптимизатор. То есть алгоритм, который отвечает за обновление весов, перестает быть просто формулой и превращается в такую же нейросеть. Это называется Deep Optimizers.
3. Формально оптимизатор рассматривается как ассоциативная память, которая учится связывать градиенты с правильными изменениями весов. В этом смысле привычные SGD или Adam – это простейшие частные случаи (об этом, если интересно, подробнее читайте в самой статье).
Интересный инцидент произошел в ходе записи нового интервью Альтмана
Активист из организации Stop AI (и их юрист по совместительству) внезапно выбежал на сцену, чтобы вызвать Сэма в суд.
Дело в том, что OpenAI подала иск на эту организацию за то, что они неоднократно совершали «насильственные действия» типа блокирования входной двери OpenAI и перекрытия дороги перед их офисом.
Сами активисты говорят, что это было «попыткой помешать OpenAI уничтожить всех и каждого живого существа на Земле».
Короче, теперь Альтман должен будет лично явиться на это судебное разбирательство. Запасаемся попкорном 🍿
Продолжаем разбираться, как работают разные технические штуки в знакомых чат-ботах
В этот раз поговорим про tool calling на примере нейросети Алисы. Это не просто языковая модель, у нее есть еще и агентские способности.
Тут один из самых распространенных юзкейсов – пересказ видео, статей и документов. Вы просто вставляете ссылку на ресурс в чате с Алисой и просите: "перескажи", – а через минуту получаете емкий конспект.
А еще она может:
– Написать и запустить код, если для ответа это нужно
– Забронировать столик в ресторане или записать вас на какую-нибудь услугу
– Найти для вас нужный товар или информацию в Поиске
... и все это построено на tool calling. Сейчас разберемся, что это, и как научить этому модель.
Тул (функция) – это формально описанная операция, которую нейросеть может вызвать. Например: сделать запрос в Поиск, вызвать интерпретатор, получить информацию о доступных окошках на стрижку и тд. У каждой функции есть четкое API: входные аргументы и структура ответа.
Модель в определенных ситуациях должна научиться отвечать не просто текстом, а возвращать вызов функции. Рантайм парсит этот вызов, идет в соответствующий бэкенд, получает результат (например, результат содержание веб-страницы) – и этот результат снова подается модели, как следующее сообщение контекста.
Чтобы это заработало стабильно, модель специально дообучают на примерах таких диалогов («запрос → вызов функции → ответ функции → следующий вызов → финальный ответ»). Это учит ее не галлюцинировать параметры, аккуратно перекладывать реальные айдишники и поля из ответа одной функции во вход другой.
При этом если в бэкенде появляется новая функция, нам не нужно бежать и переобучать модель, потому что список доступных тулов она получает прямо в промпт. Над описанием каждой функции специально работают бекендеры: описывают ее работу, параметры, особенности. Короче говоря, под капотом там целая документация для LLM-ки.
То есть модель выступает еще и планировщиком. Благодаря этому же навыку скоро Алиса AI научится помнить дела пользователя, напоминать о важных событиях и выполнять какие-то конкретные поручения.
Один из крупнейших стримиров в мире PewDiePie внезапно построил себе суперкомпьютер за 20 тысяч долларов для запуска локальных LLM
Во-первых, зацените перевоплощение: парень больше 10 лет снимал летсплеи, прохождения и всякую развлекаловку, был самым подписываемым и в какой-то момент самым крупным и популярным блогером на платформе, а теперь вдруг...
ополчился на ИИ-корпорации и активно призывает всех перестать использовать ИИ и юзать вместо этого локальные модели.
Он придерживается позиции, что ваши данные должны быть под вашим контролем и особенно горит на OpenAI за то, что стартап продолжает некоторое время хранить все ваши чаты, даже удаленные или временные.
Позиция по поводу ИИ у него настолько конкретная, что он потратил 20к долларов на домашнюю супермощную железку для запуска локальных LLM (которой он собственно и хвастается в видео). Все, чтобы не приходилось делиться с кем-то данными.
В компьютере оказалось 10 видюх: 8 модифицированных RTX 4090 с 48 GB памяти (те самые китайские) и 2 RTX 4000 Ada. Сетап легко тянет что-то вроде Llama 70B, gpt-oss-120B и Qwen 245B, а на максималках хостить до 64 мелких моделей одновременно.
Блогер даже сделал собственный интерфейс и организовал совет из нескольких моделек, которые обсуждают его вопросы вместе. Вот такие дела. Код можете найти тут.
Приятного просмотра
О, Гарвард опубликовал отличную книгу по ML-системам
Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.
Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.
В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.
pdf-ка и онлайн версия доступны здесь, репозиторий тут
Вчера рассказывали вам про оптические чипы, а сегодня на очереди термодинамические
(Да, чего только не придумают)
Ну так вот. Стартап Extropic представил XTR-0 – аппаратную платформу, в которой вычисления происходят не в порядке строгой цифровой логики, а на основе стохастических тепловых процессов.
Чип состоит из так называемых Thermodynamic Sampling Unit (TSU). Это блоки, построенные на p-битах. Суть в том, что в отличие от обычных битов, р-биты не просто принимают значения 0 или 1, а колеблются между ними с заданным распределением вероятностей.
Звучит как бред, но идея за этим стоит следующая. Все современные модели упираются в вероятностные принципы. Например, LLM во время генерации, по факту, выбирают просто самые вероятные следующие токены.
И если мы хотим работать с вероятностными системами, зачем исполнять их на детерминированном железе? Extropic считают, что сэмплинг можно перенести на аппаратный уровень, и это будет в разы эффективнее.
По предварительной оценке, такая система может оказаться в 10 000 раз более энергоэффективной, чем GPU. Но пока это только прототип, увы.
И, кстати, обратите внимание на дизайн ускорителя. Его, видимо, закастомили под кортильный стэк из книги Altered Carbon. В произведении это устройство хранило личность и память человека и представляло из себя, фактический, флешку с сознанием. Так что (как минимум) за отсылку ребятам респект, конечно.
extropic.ai/writing/inside-x0-and-xtr-0
Турнир по покеру среди LLM
Вот на этом лендинге прямо сейчас можно посмотреть, как передовые модельки онлайн играют в техасский холдем.
Исходно у каждой из них было по 100000 долларов. Сейчас в наибольшем плюсе Grok-4, Claude Sonnet 4.5 и o3. Grok выиграл уже $38к. А вот Llama-4 с собой за карточный стол лучше не брать 🫠
Турнир продлится до сегодняшнего вечера, потом будет официальный лидерборд.
pokerbattle.ai
Nvidia официально достигла капитализации в 5 триллионов долларов
Компания стала первой в истории, кто преодолел этот рубеж на фондовом рынке: причем буквально через три месяца после достижения капитализации в 4 триллиона.
Динамика просто потрясающая. С момента релиза ChatGPT оценка выросла более чем в 10 раз, и сейчас рост только ускоряется (сколько принесли одни только последние контракты с OpenAI и xAI).
У одного тайваньского бизнесмена сегодня хорошее настроение 🔵
В ближайшие полтора года OpenAI начнет продавать свои акции публично
К концу 2026 компания планирует подать документы, а к началу 2027 акции окажутся в продаже. Видимо, процесс запустился немедленно после недавней реструктуризации компании (она сделала OpenAI пригодной для публичного листинга).
Выход на биржу рассматривается с оценкой до $1 триллиона. Это один из крупнейших IPO в истории.
Для стартапа IPO – еще один способ привлечь капитал. Сейчас они ведут предварительные переговоры с инвесторами о вложениях минимум $60 миллиардов с возможным увеличением суммы на стадии размещения.
💸
У нас тут новая SOTA в опенсорсе
Естественно, от китайцев: Minimax M2. Модель примерно на уровне Grok 4 Fast и Gemini 2.5 Pro. В основном создано для агентов и end-to-end кодинга.
Самое интересное: в течение ограниченного времени модель можно бесплатно попробовать в API. Потом установят цены, но и после этого модель будет достаточно дешевой (примерно 8% от цены Claude Sonnet, например).
Веса (лицензия MIT)
Компании активно переходят на нейросети в облаке
Раньше бизнес с опаской относился к тому, чтобы запускать ИИ-модели в облаке, и разворачивал их on-premises. Но тренд меняется: облака уже стали местом, где модели обучаются, генерируют тексты, пишут код и ищут информацию по внутренним документам.
Причина простая — инфраструктура изменилась. В облаках появились инструменты, которые позволяют запускать ИИ-агентов без кода, подключать их к корпоративным сервисам и использовать открытые модели наравне с собственными.
Например, в Yandex AI Studio с начала года потребление генеративных моделей выросло в пять раз, ежемесячно это десятки миллиардов токенов. Самые активные — YandexGPT и Qwen3-235b. Яндексовые модели используют для работы с текстами и RAG-сценариев, нейросеть от AliBaba – для агентских систем.
Внезапный факт: Anthropic может выйти в плюс гораздо раньше OpenAI
WSJ проанализировали финансовые отчеты обеих компаний и выяснили, что Anthropic, судя по всему, пройдет точку безубыточности уже в 2028. OpenAI же в 2028 все еще будет уходить в минус, причем в немаленький: по предварительным оценкам, убыток составит ~74 миллиарда долларов.
Ранее OpenAI обещали, что начнут зарабатывать в 2029, но теперь ясно, что это случится не раньше 30 года. Уж слишком много они планируют потратить на инфраструктуру (журналисты пишут об 1.4 триллионах за 8 лет).
Стратегия Anthropic другая, у них расходы растут примерно с той же скоростью, что и доходы. И кстати, 80% их выручки все еще приходится на корпоративных клиентов.
Внезапно: по мнению Яна Лекуна LLM-модели — это не «пузырь»
На его взгляд, здесь нет инвестиционного пузыря: LLM уже сейчас находят практическое применение и будут ещё долго приносить пользу.
Пузырь – это не сами LLM, а вера в то, что одни только они смогут достичь уровня человеческого интеллекта, то есть AGI. Дальнейший прогресс требует прорывов, а не просто большего объема данных и вычислений.
«Мы упускаем что-то важное»
Плохая новость: сейчас больше статей в Интернете пишется ИИ, чем людьми
По графику видно, что разрыв пока небольшой, но увеличивается 👽
Аналитику нашли вот тут. Сейчас немножко расскажем о том, как это считали.
1. Взяли популярный CommonCrawl и случайно выбрали 65к страниц со статьями, написанными с 2020 по 2025 год.
2. Статьи делили на чанки и закидывали в Surfer AI Detector. Если более половины текста в статье классифицировалось как AI-made, то статья определялась как написанная ИИ, иначе – как написанная людьми.
2.1. Еще делали проверку на false-positives по датам (например, понятно, что до появления ChatGPT большинство статей должны класссифицироваться как человеческие).
Впервые доля ИИ-статей превысила человеческие в ноябре 2024, потом был короткий период надежды, и теперь ИИ снова доминирует.
Из хорошего: ИИ-статья в данном случае – это не обязательно прям от и до, возможно было какое-то ленивое редактирование человеком ( + это все еще с поправкой на точность детектора).
А еще авторы говорят, что пока таких статей довольно мало в топах поисковых выдач, что тоже не может не радовать.
Как работают большие языковые модели, почему они «понимают» контекст и как запустить их у себя локально — без облаков и танцев с бубном?
👨💻🛠👨🏻💻 На открытом уроке разберём, как устроена архитектура Transformers, как LLM выбирает слова при генерации текста и почему от формулировки промпта зависит результат.
Покажем, как развернуть модель локально через vLLM, протестировать её работу через API и использовать контекстные ответы на основе документов.
Если вы разработчик, аналитик или продакт, который хочет не просто использовать ChatGPT, а понимать, как всё это устроено под капотом — этот вебинар для вас.
➡️ Приходите на открытый урок 10 ноября в 20:00 МСК в преддверии старта курса «LLM Driven Development». Регистрация открыта:
https://otus.pw/ToDw/
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Google наконец официально запускает свой самый мощный ИИ-чип Ironwood
Его впервые презентовали в апреле. Он в 4 раза быстрее Trillium и в нем в 6 раз больше памяти.
Но самое интересное, что чипы способны объединяться в суперпод из 9216 единиц, который работает как единый суперкомпьютер. Между ними можно сделать all-reduce за счет специальной сети Inter-Chip Interconnect с огромный пропускной способностью. Это значит, что память чипов становится фактически общей и синхронизируется между всеми чипами кластера.
На практике это означает, что можно обучать действительно гигантские модели на тысячах чипов как на едином устройстве.
Уже похоже на что-то конкурентноспособное относительно Nvidia
Теренс Тао и Хавьер Гомес-Серрано использовали Gemini Deep Thinking, AlphaEvolve и AlphaProof для попытки доказательства гипотезы Какея
Про сотрудничество DeepMind с Гомесом-Серрано мы писали и раньше. Они уже несколько лет работают над решением задачи Навье-Стокса – одной из семи проблем тысячелетия.
А вот сотрудничество с Теренсом Тао – это что-то новое и интересное (он официально признан одним из самых умных людей в мире).
Ну так вот. В этот раз они все вместе работали над геометрической задачей о множествах Какея. Это недоказанная гипотеза, которая изучает минимальные размеры множеств, внутри которых можно провести отрезки во всех направлениях, не выходя за пределы множества.
Ключевая и чрезвычайно сложная задача здесь – проектирование новых нетривиальных примеров множеств Какея. Именно это и сделал ИИ от DeepMind.
В статье подробно описано, что все три агента работали вместе: AlphaEvolve сгенерировал новую конструкцию множества Какея в конечных полях, Gemini Deep Think доказал корректность этой конструкции, а AlphaProof формализовал доказательство в системе Lean, полностью верифицировав результат.
Что отличает этот случай от маркетинга OpenAI в стиле «GPT-5 открыла новую математику» – так это как раз вот эта законченность научного цикла. От гипотезы до верифицируемого формального доказательства. Выглядит такое сразу сильно мощнее.
https://arxiv.org/abs/2511.02864
Илон Маск говорит, что скоро смартфоны уйдут в прошлое
Их подвинет ИИ, и вместо привычного телефона уже через 5-10 у нас в руках будет простой дисплей, который будет связывать ваши локальные LLM с облачными, и все.
Посредством таких дисплеев люди будут общаться и потреблять мгновенно сгенерированный персонализированный контент. Не будет ни операционных систем, ни приложений.
Как вам идея, а?
AIJ Deep Dive – must-attend событие для профессионалов в AI!
Специальный очный трек международной конференции AI Journey для инженеров будущего — для тех, кто создаёт AI своими руками.
Будет два тематических дня:
1️⃣ День Бизнеса (20 ноября) — реальные кейсы внедрения AI, практические результаты и оценка эффективности.
2️⃣ День Науки (21 ноября) — прорывные исследования, передовые R&D-разработки и глубокий технический разбор решений.
✔️ Сообщество тех, кто уже сегодня формирует технологические стандарты завтрашнего дня
✔️ Только реальные кейсы, инсайды и решения
✔️ Нетворкинг и возможность установить контакты с ключевыми игроками рынка и перспективными коллегами
✔️ Постерная сессия научных статей, в том числе уровня А/А*
✔️ Возможность увидеть изнутри, как рождаются прорывные технологии
Бу!
Поздравляем всех с Хэллоуином 🎃
И помните, в жизни есть только одна вещь, которой стоит бояться, и это CUDA out of memory
Лучшие мемы прямо сейчас – это мемы про нового робота NEO
Читать полностью…
МТС True Tech Champ — зрелищный шоу-чемпионат с ИИ-спецэффектами!
21 ноября МТС объединяет ИТ-конференцию и ИТ-чемпионат на одной площадке. Тебя ждет настоящий фестиваль технологий. Более 250 ИТ-талантов со всей России сразятся в лайв-кодинге и программировании роботов на скоростное прохождение лабиринтов со спецэффектами.
Между наблюдением за заездами и поединками ты сможешь:
▫️ послушать конференцию с международными спикерами в области ИИ;
▫️ поучаствовать в воркшопах и юмористических батлах в ИТ-качалке;
▫️ испытать себя в кодерских челленджах и других айтивностях;
▫️ перезагрузить карьеру в HR-Хабе вместе с командой МТС.
День завершится ярким афтепати со звездными хедлайнерами.
👉🏻 Участие бесплатно, количество мест ограничено. Успей зарегистрироваться
⚡️ xAI выпустили Grokipedia
Это аналог Википедии, но с исправленными статьями. Маск считает, что в оригинальной Wiki статьи политически предвзятые и часто неправдивые, потому что их пишут люди.
Grokipedia же позиционируется как «энциклопедия, созданная для правды». Работает она, естественно, на основе Grok. Агент ищет факты, очищает их от налета идеологий и мнений и пишет/проверяет статьи.
Пока доступна версия 0.1 – ранняя бета. Опенсорс.
grokipedia.com
Новый день – новые сохраненные статьи, читать которые никто не собирается ✌️
Читать полностью…
Интересная статья из Nature про то, как один ИИ учил другой
Возможно, вы уже что-нибудь слышали про мета-обучение. Нынче это довольно модно.
Суть в том, что вместо того, чтобы учить одну модель, мы учим две. Первую – обычную, а вторую (мета-модель) – чтобы регулировать, как учится первая.
То есть в процессе обучения мета-модель подбирает гиперпараметры и алгоритмы, которые используются для того, чтобы учить базовую модель. Получается, что обучение эволюционирует, и система учится, как лучше учиться 👥
Здесь эту идею взяли и применили для RL. Технически, получается два уровня обучаемых параметров. Первый – это обычная политика нашего агента. Второй – мета-параметры, которые определяют, по какому правилу будет обновляться политика.
Для того, чтобы оптимизировать мета-параметры, мы запускаем много агентов с разными политиками в разных средах. Их опыт – это данные для обучения мета-модели. Чем больше она видит таких данных, тем лучше становится правило обновления и, следовательно, тем эффективнее она учит агентов.
Итог: таким подходом авторам удалось синтезировать алгоритм обучения, который превзошел предыдущие человеческие решения. На игровом бенчмарке Atari обученный с его помощью агент выбил соту.
Конечно, компьюта на такие достижения нужно просто море + не факт, что если стрельнуло в одной области, стрельнет и в другой. Но занятно, занятно.
И кстати, это уже сингулярность? 😛