76843
Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Google наконец официально запускает свой самый мощный ИИ-чип Ironwood
Его впервые презентовали в апреле. Он в 4 раза быстрее Trillium и в нем в 6 раз больше памяти.
Но самое интересное, что чипы способны объединяться в суперпод из 9216 единиц, который работает как единый суперкомпьютер. Между ними можно сделать all-reduce за счет специальной сети Inter-Chip Interconnect с огромный пропускной способностью. Это значит, что память чипов становится фактически общей и синхронизируется между всеми чипами кластера.
На практике это означает, что можно обучать действительно гигантские модели на тысячах чипов как на едином устройстве.
Уже похоже на что-то конкурентноспособное относительно Nvidia
Теренс Тао и Хавьер Гомес-Серрано использовали Gemini Deep Thinking, AlphaEvolve и AlphaProof для попытки доказательства гипотезы Какея
Про сотрудничество DeepMind с Гомесом-Серрано мы писали и раньше. Они уже несколько лет работают над решением задачи Навье-Стокса – одной из семи проблем тысячелетия.
А вот сотрудничество с Теренсом Тао – это что-то новое и интересное (он официально признан одним из самых умных людей в мире).
Ну так вот. В этот раз они все вместе работали над геометрической задачей о множествах Какея. Это недоказанная гипотеза, которая изучает минимальные размеры множеств, внутри которых можно провести отрезки во всех направлениях, не выходя за пределы множества.
Ключевая и чрезвычайно сложная задача здесь – проектирование новых нетривиальных примеров множеств Какея. Именно это и сделал ИИ от DeepMind.
В статье подробно описано, что все три агента работали вместе: AlphaEvolve сгенерировал новую конструкцию множества Какея в конечных полях, Gemini Deep Think доказал корректность этой конструкции, а AlphaProof формализовал доказательство в системе Lean, полностью верифицировав результат.
Что отличает этот случай от маркетинга OpenAI в стиле «GPT-5 открыла новую математику» – так это как раз вот эта законченность научного цикла. От гипотезы до верифицируемого формального доказательства. Выглядит такое сразу сильно мощнее.
https://arxiv.org/abs/2511.02864
Илон Маск говорит, что скоро смартфоны уйдут в прошлое
Их подвинет ИИ, и вместо привычного телефона уже через 5-10 у нас в руках будет простой дисплей, который будет связывать ваши локальные LLM с облачными, и все.
Посредством таких дисплеев люди будут общаться и потреблять мгновенно сгенерированный персонализированный контент. Не будет ни операционных систем, ни приложений.
Как вам идея, а?
AIJ Deep Dive – must-attend событие для профессионалов в AI!
Специальный очный трек международной конференции AI Journey для инженеров будущего — для тех, кто создаёт AI своими руками.
Будет два тематических дня:
1️⃣ День Бизнеса (20 ноября) — реальные кейсы внедрения AI, практические результаты и оценка эффективности.
2️⃣ День Науки (21 ноября) — прорывные исследования, передовые R&D-разработки и глубокий технический разбор решений.
✔️ Сообщество тех, кто уже сегодня формирует технологические стандарты завтрашнего дня
✔️ Только реальные кейсы, инсайды и решения
✔️ Нетворкинг и возможность установить контакты с ключевыми игроками рынка и перспективными коллегами
✔️ Постерная сессия научных статей, в том числе уровня А/А*
✔️ Возможность увидеть изнутри, как рождаются прорывные технологии
Бу!
Поздравляем всех с Хэллоуином 🎃
И помните, в жизни есть только одна вещь, которой стоит бояться, и это CUDA out of memory
Лучшие мемы прямо сейчас – это мемы про нового робота NEO
Читать полностью…
МТС True Tech Champ — зрелищный шоу-чемпионат с ИИ-спецэффектами!
21 ноября МТС объединяет ИТ-конференцию и ИТ-чемпионат на одной площадке. Тебя ждет настоящий фестиваль технологий. Более 250 ИТ-талантов со всей России сразятся в лайв-кодинге и программировании роботов на скоростное прохождение лабиринтов со спецэффектами.
Между наблюдением за заездами и поединками ты сможешь:
▫️ послушать конференцию с международными спикерами в области ИИ;
▫️ поучаствовать в воркшопах и юмористических батлах в ИТ-качалке;
▫️ испытать себя в кодерских челленджах и других айтивностях;
▫️ перезагрузить карьеру в HR-Хабе вместе с командой МТС.
День завершится ярким афтепати со звездными хедлайнерами.
👉🏻 Участие бесплатно, количество мест ограничено. Успей зарегистрироваться
⚡️ xAI выпустили Grokipedia
Это аналог Википедии, но с исправленными статьями. Маск считает, что в оригинальной Wiki статьи политически предвзятые и часто неправдивые, потому что их пишут люди.
Grokipedia же позиционируется как «энциклопедия, созданная для правды». Работает она, естественно, на основе Grok. Агент ищет факты, очищает их от налета идеологий и мнений и пишет/проверяет статьи.
Пока доступна версия 0.1 – ранняя бета. Опенсорс.
grokipedia.com
Новый день – новые сохраненные статьи, читать которые никто не собирается ✌️
Читать полностью…
Интересная статья из Nature про то, как один ИИ учил другой
Возможно, вы уже что-нибудь слышали про мета-обучение. Нынче это довольно модно.
Суть в том, что вместо того, чтобы учить одну модель, мы учим две. Первую – обычную, а вторую (мета-модель) – чтобы регулировать, как учится первая.
То есть в процессе обучения мета-модель подбирает гиперпараметры и алгоритмы, которые используются для того, чтобы учить базовую модель. Получается, что обучение эволюционирует, и система учится, как лучше учиться 👥
Здесь эту идею взяли и применили для RL. Технически, получается два уровня обучаемых параметров. Первый – это обычная политика нашего агента. Второй – мета-параметры, которые определяют, по какому правилу будет обновляться политика.
Для того, чтобы оптимизировать мета-параметры, мы запускаем много агентов с разными политиками в разных средах. Их опыт – это данные для обучения мета-модели. Чем больше она видит таких данных, тем лучше становится правило обновления и, следовательно, тем эффективнее она учит агентов.
Итог: таким подходом авторам удалось синтезировать алгоритм обучения, который превзошел предыдущие человеческие решения. На игровом бенчмарке Atari обученный с его помощью агент выбил соту.
Конечно, компьюта на такие достижения нужно просто море + не факт, что если стрельнуло в одной области, стрельнет и в другой. Но занятно, занятно.
И кстати, это уже сингулярность? 😛
Cloud.ru запустили телемагазин на диване в стиле нулевых – только продают не утюги и сковородки, а облачные и AI-сервисы
Поверьте, на это стоит взглянуть. Компания выпустила 4 ролика с Ильей Макаровым, и они буквально излучают ностальгию. О том, что на дворе 2025, напоминают только продукты, которые "продаются":
– Сервис для создания корпоративных AI-агентов
– Инструменты для настройки умного поиска на базе RAG
– Сервис Evolution Foundation Models, чтобы кодить с AI-ассистентом
Все это можно найти на платформе Evolution AI Factory, которую разрабатывает Cloud.ru.
Покажите рекламу ИИ-сервисов лучше этой. Мы подождем.
P.S. Лендинг тоже зацените, это отдельное удовольствие
Реклама. ООО «Облачные технологии», ИНН: 7736279160. Erid: 2W5zFGdb38t 0+
Буквально все ИИ-стартапы в последние пол года:
Читать полностью…
🚀 AI Journey Contest 2025: Брось вызов задачам уровня профи в мире ИИ!
Участвуй в международном онлайн-соревновании по ИИ и получи возможность побороться за денежный приз! Призовой фонд — 6,5 млн рублей!
Выбери один или несколько треков:
🤖 Agent-as-Judge — универсальный «судья», способный оценивать ИИ-тексты.
🧠 Human-centered AI Assistant — персонализированный ассистент на основе
GigaChat, имитирующий поведение людей и способный предугадать их предпочтения.
Бонус: Участникам предоставляются токены для API + возможность получить дополнительно 1 млн токенов!
💾 GigaMemory — механизм долговременной памяти для LLM, помогающий ассистенту запоминать и использовать важные факты в диалоге.
Больше 20 мощных LLM
👉 Ждут вас тут
До 31 октября провайдер Cloud․ru раздает бесплатный доступ к LLM и AI-моделям в сервисе Evolution Foundation Models.
Там есть GigaChat-2-Max, Qwen3-Coder-480B-A35B-Instruct, GLM-4.6, gpt-oss-120b и еще 15+ популярных open source моделей. Они уже готовы к использованию, достаточно подключиться через API, совместимый с OpenAI 😎
Успейте воспользоваться акцией, чтобы протестировать LLM на ваших проектах!
Интересный инцидент произошел в ходе записи нового интервью Альтмана
Активист из организации Stop AI (и их юрист по совместительству) внезапно выбежал на сцену, чтобы вызвать Сэма в суд.
Дело в том, что OpenAI подала иск на эту организацию за то, что они неоднократно совершали «насильственные действия» типа блокирования входной двери OpenAI и перекрытия дороги перед их офисом.
Сами активисты говорят, что это было «попыткой помешать OpenAI уничтожить всех и каждого живого существа на Земле».
Короче, теперь Альтман должен будет лично явиться на это судебное разбирательство. Запасаемся попкорном 🍿
Продолжаем разбираться, как работают разные технические штуки в знакомых чат-ботах
В этот раз поговорим про tool calling на примере нейросети Алисы. Это не просто языковая модель, у нее есть еще и агентские способности.
Тут один из самых распространенных юзкейсов – пересказ видео, статей и документов. Вы просто вставляете ссылку на ресурс в чате с Алисой и просите: "перескажи", – а через минуту получаете емкий конспект.
А еще она может:
– Написать и запустить код, если для ответа это нужно
– Забронировать столик в ресторане или записать вас на какую-нибудь услугу
– Найти для вас нужный товар или информацию в Поиске
... и все это построено на tool calling. Сейчас разберемся, что это, и как научить этому модель.
Тул (функция) – это формально описанная операция, которую нейросеть может вызвать. Например: сделать запрос в Поиск, вызвать интерпретатор, получить информацию о доступных окошках на стрижку и тд. У каждой функции есть четкое API: входные аргументы и структура ответа.
Модель в определенных ситуациях должна научиться отвечать не просто текстом, а возвращать вызов функции. Рантайм парсит этот вызов, идет в соответствующий бэкенд, получает результат (например, результат содержание веб-страницы) – и этот результат снова подается модели, как следующее сообщение контекста.
Чтобы это заработало стабильно, модель специально дообучают на примерах таких диалогов («запрос → вызов функции → ответ функции → следующий вызов → финальный ответ»). Это учит ее не галлюцинировать параметры, аккуратно перекладывать реальные айдишники и поля из ответа одной функции во вход другой.
При этом если в бэкенде появляется новая функция, нам не нужно бежать и переобучать модель, потому что список доступных тулов она получает прямо в промпт. Над описанием каждой функции специально работают бекендеры: описывают ее работу, параметры, особенности. Короче говоря, под капотом там целая документация для LLM-ки.
То есть модель выступает еще и планировщиком. Благодаря этому же навыку скоро Алиса AI научится помнить дела пользователя, напоминать о важных событиях и выполнять какие-то конкретные поручения.
Один из крупнейших стримиров в мире PewDiePie внезапно построил себе суперкомпьютер за 20 тысяч долларов для запуска локальных LLM
Во-первых, зацените перевоплощение: парень больше 10 лет снимал летсплеи, прохождения и всякую развлекаловку, был самым подписываемым и в какой-то момент самым крупным и популярным блогером на платформе, а теперь вдруг...
ополчился на ИИ-корпорации и активно призывает всех перестать использовать ИИ и юзать вместо этого локальные модели.
Он придерживается позиции, что ваши данные должны быть под вашим контролем и особенно горит на OpenAI за то, что стартап продолжает некоторое время хранить все ваши чаты, даже удаленные или временные.
Позиция по поводу ИИ у него настолько конкретная, что он потратил 20к долларов на домашнюю супермощную железку для запуска локальных LLM (которой он собственно и хвастается в видео). Все, чтобы не приходилось делиться с кем-то данными.
В компьютере оказалось 10 видюх: 8 модифицированных RTX 4090 с 48 GB памяти (те самые китайские) и 2 RTX 4000 Ada. Сетап легко тянет что-то вроде Llama 70B, gpt-oss-120B и Qwen 245B, а на максималках хостить до 64 мелких моделей одновременно.
Блогер даже сделал собственный интерфейс и организовал совет из нескольких моделек, которые обсуждают его вопросы вместе. Вот такие дела. Код можете найти тут.
Приятного просмотра
О, Гарвард опубликовал отличную книгу по ML-системам
Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.
Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.
В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.
pdf-ка и онлайн версия доступны здесь, репозиторий тут
Вчера рассказывали вам про оптические чипы, а сегодня на очереди термодинамические
(Да, чего только не придумают)
Ну так вот. Стартап Extropic представил XTR-0 – аппаратную платформу, в которой вычисления происходят не в порядке строгой цифровой логики, а на основе стохастических тепловых процессов.
Чип состоит из так называемых Thermodynamic Sampling Unit (TSU). Это блоки, построенные на p-битах. Суть в том, что в отличие от обычных битов, р-биты не просто принимают значения 0 или 1, а колеблются между ними с заданным распределением вероятностей.
Звучит как бред, но идея за этим стоит следующая. Все современные модели упираются в вероятностные принципы. Например, LLM во время генерации, по факту, выбирают просто самые вероятные следующие токены.
И если мы хотим работать с вероятностными системами, зачем исполнять их на детерминированном железе? Extropic считают, что сэмплинг можно перенести на аппаратный уровень, и это будет в разы эффективнее.
По предварительной оценке, такая система может оказаться в 10 000 раз более энергоэффективной, чем GPU. Но пока это только прототип, увы.
И, кстати, обратите внимание на дизайн ускорителя. Его, видимо, закастомили под кортильный стэк из книги Altered Carbon. В произведении это устройство хранило личность и память человека и представляло из себя, фактический, флешку с сознанием. Так что (как минимум) за отсылку ребятам респект, конечно.
extropic.ai/writing/inside-x0-and-xtr-0
Турнир по покеру среди LLM
Вот на этом лендинге прямо сейчас можно посмотреть, как передовые модельки онлайн играют в техасский холдем.
Исходно у каждой из них было по 100000 долларов. Сейчас в наибольшем плюсе Grok-4, Claude Sonnet 4.5 и o3. Grok выиграл уже $38к. А вот Llama-4 с собой за карточный стол лучше не брать 🫠
Турнир продлится до сегодняшнего вечера, потом будет официальный лидерборд.
pokerbattle.ai
Nvidia официально достигла капитализации в 5 триллионов долларов
Компания стала первой в истории, кто преодолел этот рубеж на фондовом рынке: причем буквально через три месяца после достижения капитализации в 4 триллиона.
Динамика просто потрясающая. С момента релиза ChatGPT оценка выросла более чем в 10 раз, и сейчас рост только ускоряется (сколько принесли одни только последние контракты с OpenAI и xAI).
У одного тайваньского бизнесмена сегодня хорошее настроение 🔵
В ближайшие полтора года OpenAI начнет продавать свои акции публично
К концу 2026 компания планирует подать документы, а к началу 2027 акции окажутся в продаже. Видимо, процесс запустился немедленно после недавней реструктуризации компании (она сделала OpenAI пригодной для публичного листинга).
Выход на биржу рассматривается с оценкой до $1 триллиона. Это один из крупнейших IPO в истории.
Для стартапа IPO – еще один способ привлечь капитал. Сейчас они ведут предварительные переговоры с инвесторами о вложениях минимум $60 миллиардов с возможным увеличением суммы на стадии размещения.
💸
У нас тут новая SOTA в опенсорсе
Естественно, от китайцев: Minimax M2. Модель примерно на уровне Grok 4 Fast и Gemini 2.5 Pro. В основном создано для агентов и end-to-end кодинга.
Самое интересное: в течение ограниченного времени модель можно бесплатно попробовать в API. Потом установят цены, но и после этого модель будет достаточно дешевой (примерно 8% от цены Claude Sonnet, например).
Веса (лицензия MIT)
Компании активно переходят на нейросети в облаке
Раньше бизнес с опаской относился к тому, чтобы запускать ИИ-модели в облаке, и разворачивал их on-premises. Но тренд меняется: облака уже стали местом, где модели обучаются, генерируют тексты, пишут код и ищут информацию по внутренним документам.
Причина простая — инфраструктура изменилась. В облаках появились инструменты, которые позволяют запускать ИИ-агентов без кода, подключать их к корпоративным сервисам и использовать открытые модели наравне с собственными.
Например, в Yandex AI Studio с начала года потребление генеративных моделей выросло в пять раз, ежемесячно это десятки миллиардов токенов. Самые активные — YandexGPT и Qwen3-235b. Яндексовые модели используют для работы с текстами и RAG-сценариев, нейросеть от AliBaba – для агентских систем.
Ян Лекун снова раздает критику в адрес современного ИИ. На этот раз досталось роботам
Большой секрет всей этой отрасли в том, что ни одно из этих компаний не имеет ни малейшего представления о том, как сделать роботов достаточно умными для того, чтобы быть глобально полезными.
Мы можем обучить их под конкретные задачи. Например, делать что-то на производстве или типа того. Но автономный домашний робот абсолютно невозможен без целого списка прорывов в области ИИ и архитектур, умеющих планировать.
Так что успех всех этих компаний напрямую зависит от прогресса, которого мы добьемся с world modelling архитектурами.
Датацентры могут перенестись в космос
Nvidia заключили очень занятную сделку со стартапом под названием Starcloud. Они планируют начать создавать датацентры на орбите Земли. Утверждается, что у таких кластеров есть целый ряд преимуществ:
1. Можно экономить на охлаждении. На Земле приходится тратиться на воду, а в космосе можно использовать вакуум как почти бесконечный радиатор.
2. На орбите можно активнее использовать солнечную энергию. Снова экономия.
3. Минимальный углеродный след. Пишут, что выбросы CO₂ можно сократить аж в 10 раз.
Короче, даже с учётом расходов на запуск Starcloud считает, что энергозатраты будут примерно в 10 раз меньше, чем на Земле.
Уже в ноябре они планируют запустить спутник с GPU размером примерно с холодильник, а в долгосрочной перспективе хотят построить датацентр мощностью 5 гигаватт.
Это примерно 4 квадратных километра GPU Nvidia, летающих в космосе 👀
Anthropic теперь будут обучать модели на TPU
Они заключили большую сделку с Google, и уже к концу 2026 гигант предоставит стартапу мощностей на 1 гигаватт. Это более миллиона чипов.
Говорят, что TPU выбрали из-за соотношения цены и производительности. А еще Google пообещал поделиться с Anthropic опытом обучения и инференса моделек на этом железе.
2025 получился каким-то очень удачным годом для TPU. Сейчас среди пользователей видеокарт гугла уже Safe Superintelligence, Salesforce и Midjourney, и теперь добавился Anthropic. Внезапный камбэк.
LLMs Can Get Brain Rot: статья о том, что модельки тоже деградируют от думскролинга
Исследователи из Техаса выпустили ну очень интересную работу, вызвавшую волну обсуждений. Они показали, что если LLM начать дообучать на низкокачественных данных из соцсетей (коротких, популярных, кликабельных постах), то она начинает терять свои когнитивные способности. Примерно так же, как человек теряет внимание и память, когда слишком много думсерфит.
Разбираемся, почему так, с технической точки зрения.
По факту, эксперимент был следующий. Взяли Llama 3 8B Instruct и начали дообучать на (а) коротких и очень популярных постах, у которых много лайков, ретвитов и реплаев; и (б) на контенте с низкой смысловой ценностью: кликбейт, конспирология, все такое. После этого замерили метрики и сравнили с результатами до дообучения. Итоги:
– Качество ризонинга упало с 74.9 до 57.2
– Понимание длинного контекста – с 84.4 до 52.3
– На элаймент-тестах выяснилось, что у модели развился нарциссизм, макиавеллизм и психопатия
Даже после дополнительного тюнинга на чистых данных деградация не исчезала полностью.
Но дело в том, что никакого глобального открытия тут нет. Объясняется все это простым сдвигом распределения. При дообучении на коротких, популярных, эмоционально окрашенных твитах модель видит совсем другой статистический ландшафт, чем во время исходного претрейна на книжках, статьях и тд.
Это смещает распределение в пространстве эмбеддингов и меняет attention-паттерны. Модель постоянно видит короткие тексты без логической цепочки, и, естественно, маски внимания начинают больше фокусироваться на последних нескольких токенах и терять долгосрочные зависимости, которые раньше и обеспечивали качественный CoT.
Градиентная динамика тут тоже играет против нас. Лосс просто-напросто минимизируется за счет поверхностных корреляций, а параметры, отвечающие за долгие причинно-следственные связи, почти не получают обновлений. Вот и получается, что моделька теряет способность длинно рассуждать. Авторы называют этот феномен thought-skipping.
Вот так. Просто еще одно доказательство, что данные – наше все. Теперь можно идти дальше листать рилсы ☕️
arxiv.org/pdf/2510.13928
DeepSeek снова выпустили что-то очень интересное: у них вышла OCR модель, но непростая
Она не просто распознает текст. Это в какой-то степени система для оптического сжатия контекста.
Как работает обычный OCR: получает картинку с текстом или PDF -> распознает символы -> возвращает текст.
Что делает DeepSeek OCR: получает документ -> сжимает его как зрительный объект -> восстанавливает в текст.
Глобально моделька состоит из двух частей – DeepEncoder и DeepSeek-3B-MoE Decoder. DeepEncoder здесь главная звезда. Он оптически сжимает изображения, превращая его в набор vision токенов.
Под капотом тут SAM + CLIP. SAM извлекает главную структуру и символы: буквы, главы, подписи, картинки, формулы. А CLIP добавляет глобальное понимание контекста и того, о чем вообще этот документ.
Их выходы затем проходят через сверточное сжатие и вот тут – центральный момент. Свертка уменьшает количество токенов в 10–20 раз, не теряя при этом смысла. То есть вместо 1000 токенов мы получаем, например, 100, а точность при этом сохраняется на уровне 97%. Если сжать в 20 раз – то на уровне 60%.
Дальше все в целом как обычно – сжатые визуальные токены отправляются в LLM, и та расшифровывает их в итоговый текст.
То есть: DeepSeek по сути придумали, как нам хранить в памяти модели в 10 раз больше информации при том же количестве токенов. DeepSeek-OCR может хранить не сам текст, а его сжатое визуальное представление: например, вместо 10 страниц сырого текста в памяти будет 1 страница его visual эмбеддингов, а информативность при этом не пострадает.
Чем вам не замена RAG, например? При этом все это работает в том числе с формулами, сложными структурами, чертежами, картинками и прочим. Полная мультимодальность. Плюс, на практике модель способна обрабатывать 200 000+ страниц в день на одной A100 GPU (ничего себе, как бы).
Ну и метрики. На OmniDocBench обходит GOT-OCR2.0, используя 2.5 раз меньше токенов,
и превосходит MinerU2.0, используя в 9 раз меньше ресурсов. По факту, SOTA. И по точности, и по эффективности.
Все в опенсорсе под лицензией MIT
github.com/deepseek-ai/DeepSeek-OCR