46226
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
🐋 DeepSeek выпустили DeepSeek-OCR 2 - новое поколение OCR с SOTA качеством
DeepSeek представили DeepSeek-OCR 2 - 3B модель для продвинутого понимания изображений, документов и OCR, которая выходит на уровень SOTA.
Ключевая новинка - DeepEncoder V2.
В отличие от классических vision LLM, которые «читают» картинку как сетку (слева-направо, сверху-вниз), DeepEncoder V2 работает ближе к тому, как читает человек:
- Сначала формируется глобальное понимание изображения
- Затем модель определяет логический порядок чтения — что важно первым, что дальше
Что это даёт на практике
📄 Лучше работает со сложными макетами документов
📊 Корректно читает таблицы
🧾 Связывает подписи и значения
📰 Понимает колонки и структурированный текст
🔀 Надёжнее обрабатывает смесь текста и визуальной структуры
По качеству
- Обходит Gemini 3 Pro на ряде бенчмарков
- Даёт >4% прироста по сравнению с прошлой версией DeepSeek-OCR
И это при размере модели всего 3B параметров.
Можно запускать и дообучать
Теперь DeepSeek-OCR 2 можно удобно запускать и fine-tune через Unsloth по готовому гайду.
🔗 Guide: https://unsloth.ai/docs/models/deepseek-ocr-2
🔗 Model: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
🔗 Github: https://github.com/deepseek-ai/DeepSeek-OCR-2/tree/main
🔗 Paper: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
@ai_machinelearning_big_data
#DeepSeek #ocr #opensource
⚪️ В начале декабря 2025 года основатель Telegram Павел Дуров запустил децентрализованную конфиденциальную вычислительную сеть Cocoon (Confidential Compute Open Network) — https://www.kommersant.ru/doc/8376572. Платформа предполагает выполнение ИИ-вычислений на пользовательских устройствах и узлах внутри инфраструктуры TON (масштабируемая блокчейн-платформа, изначально созданная для интеграции с Telegram), а не в классических облачных дата-центрах. Сможет ли Cocoon стать альтернативой Microsoft или Amazon?
Cocoon делает ставку на то, что данные и модели передаются в зашифрованном виде и обрабатываются в защищенной среде, снижая риски утечек, в отличие от централизованных облаков вроде OpenAI или Google, говорит директор департамента расследований T.Hunter и основатель компании Интернет-Розыск Игорь Бедеров. Однако эта приватность может стоить более высокой цены за вычисление и чуть большей задержки, опасается он.
При этом сравнить теоретическую мощность гипотетической сети Telegram с традиционными ЦОДами сложно, отмечает господин Бедеров. «Если представить, что сеть состоит из современных устройств с производительностью GPU примерно 1 терафлопс, то 10 млн устройств дадут 10 эксафлопс. Эта цифра сопоставима с мощностью крупнейших в мире суперкомпьютеров,— отмечает эксперт.— Однако мощность ЦОДа стабильна, предсказуема и доступна 24/7. Мощность же распределенной сети — это «переменный ток» цифрового мира, который зависит от времени суток, географии и типа подключения».
В то же время, для работы ML-моделей на распределенных ресурсах чрезвычайно важна скорость сети между ее узлами, подчеркивает господин Катанов. Современные стандарты сетей для суперкомпьютеров достигают сотен гигабит в секунду, дополнительно снижая нагрузку на процессор за счет прямого и быстрого доступа к памяти узла, поясняет он. Таким образом, Cocoon может всплесками выдавать колоссальную производительность, но для задач, требующих длительных и стабильных вычислений, она будет проигрывать традиционным облачным кластерам, резюмировал Игорь Бедеров.
Модель Cocoon несет в себе ряд существенных рисков, говорит господин Бедеров. Во-первых, в разнородной сети из тысяч узлов с разным «железом», стабильностью интернета и надежностью оператора сложно гарантировать единый уровень SLA (Service Level Agreement), привычный для облачных гигантов, уточняет он. Во-вторых, сложность верификации вычислений, в-третьих, потенциальные и еще неизвестные уязвимости, перечисляет эксперт. В-четвертых, обработка персональных или финансовых данных в глобальной децентрализованной сети может создавать сложности с соблюдением юрисдикционных требований, отметил собеседник.
В краткосрочной перспективе Cocoon вряд ли заменит AWS (Amazon Web Services) или Azure для крупных корпоративных клиентов, однако он создаст мощную альтернативную нишу для стартапов и разработчиков с ограниченным бюджетом, проектов с повышенными требованиями к конфиденциальности данных, а также сценариев, где цена вычислений важнее минимально возможной задержки, считает Игорь Бедеров.
Подпишись на @irozysk
🚀 Крупный IT-стартап на 1200 сотрудников сегодня выглядит так: стойка из десятков Mac mini, на которых круглосуточно крутится тот самый хайповый Clawdbot, про который уже отлично писали коллеги 😊
И это не шутка.
В Кремниевой долине сейчас настоящий мини-бум: разработчики, стартапы и даже целые команды массово скупают Mac mini, чтобы поднимать на них этого «опенсорсного Джарвиса».
Доходит до абсурда — в ряде магазинов «миники» начали уходить в дефицит именно из-за AI-инфраструктуры под локальные агенты.
Почему так происходит?
Потому что это уже не просто бот.
Clawdbot — это по сути цифровой сотрудник:
- пишет код
- помогает с инфраструктурой
- отвечает в рабочих чатах
- автоматизирует рутину
- подключён к инструментам
И всё это - self-hosted, под полным контролем команды.
Так что теперь наш штат выглядит примерно так:
Слева направо:
Clawdbot, Clawdbot и ещё немного Clawdbot.
Людей меньше не стало.
Просто теперь каждый человек работает в паре с агентом, а производительность команды умножается, а не складывается.
Это уже не «AI как инструмент».
Это AI как часть команды.
Код Clawdbot в опенсорсе: https://github.com/clawdbot/clawdbot
@machinelearning_interview
Всем привет!
Публикуем третий выпуск подкаста «Капитанский мостик». На этот раз выпуск прошёл в офлайн формате как часть программы 🎄 Stereo Data Ёлки 2025 в Москве: обсуждали главные новости из мира ИИ вместе с аудиторией.
Ведущие — Валентин Малых и Дмитрий Колодезев.
Специальный гость — Александр Дьяконов.
Смотрите видео на площадках ⤵️
ODS VK Video
ODS YouTube
📩 Если у вас есть новости/темы для обсуждения — присылайте их в канал «Дата-капитаны» в Mattermost (авторизация через ODS.ai).
🤐 Ты должен был бороться со злом...
Исследователи Guardian выяснили, что ChatGPT активно ссылается на Grokipedia, предоставляя необъективную или недостоверную информацию пользователям.
Этим же грешит и Claude от Anthropic:
↖️ https://kod.ru/guardian-chatgpt-grokipedia
Всем привет!
В 14:00 (по мск) стартует🎄 Stereo Data Ёлка 2025 и наш праздничный live эфир!
Эфир будет чередовать выступления с итогами года c офлайн площадок в Москве, Питере!
🌲Ссылка на трансляцию на VK Video ODS
🌲Подробное расписание эфира
Всех ждём 🤗 Подключайтесь!
⚡️ Intel тоже кинула геймеров и работяг из-за ИИ-бума — компания официально замедляет выпуск потребительских процессоров ради нейронок. Нас ждёт дефицит и рост цен.
Теперь приоритет №1 для компании — дата-центры. Спрос на ИИ-инфраструктуру зашкаливает, и Intel выгоднее отгружать дорогие чипы Xeon корпорациям, чем процессоры для домашних ПК.
Что это значит для нас:
• Линейки Core (особенно топовые i7 и i9) могут стать дефицитными, что подтолкнет ценники вверх в ближайшие полгода.
• Шанс для AMD: Пока «синие» заняты спасением серверного бизнеса, рынок ПК может сильнее качнуться в сторону Ryzen.
• Массовый выход новых линеек может сильно замедлиться.
Переходим на AMD — теперь точно
👍 Бэкдор
🎤 Создание речи с Qwen3-TTS
Qwen3-TTS — это мощный инструмент для генерации речи, предлагающий поддержку клонирования голоса, дизайна голоса и высококачественной синтезированной речи. Модель поддерживает множество языков и позволяет управлять интонацией и эмоциями в зависимости от текста.
🚀 Основные моменты:
- Поддержка 10 языков и различных диалектов.
- Высокая скорость генерации с низкой задержкой.
- Интуитивное управление голосом через текстовые команды.
- Эффективная архитектура для качественного синтеза речи.
📌 GitHub: https://github.com/QwenLM/Qwen3-TTS
#python
ИИ-помощник Gemini мог сливать данные через Google Calendar
Исследователи из компании Miggo Security нашли способ обойти защиту Google Gemini от промпт-инжектов, используя обычные приглашения в «Календаре». Атака позволяла похищать приватные данные, просто отправляя жертвам приглашения с вредоносным содержимым.
Читать полностью
#xakep
@linux_potok
✔️ Стартап ветеранов индустрии Humans& привлек $480 млн не выпустив ни одного продукта.
Инвесторы продолжают вкладывать деньги в команды с громкими именами, даже если у тех пока нет ничего, кроме планов. Humans&, основанный выходцами из OpenAI, DeepMind и xAI, закрыл раунд финансирования, в результате которого оценка компании достигла $4,48 млрд. В сделке участвовали Nvidia, Джефф Безос и венчурное подразделение Alphabet.
Столь высокий кредит доверия объясняется звездным составом команды. Гендиректор Эрик Зеликман ранее занимался обучением модели Grok-2 в xAI, а сооснователь Жорж Харик был одним из первых сотрудников Google, стоявшим у истоков Gmail и Android. Стартап заявляет, что строит "человекоцентричный ИИ", который будет координировать действия людей, а не просто генерировать текст. Релиз первого продукта обещают уже в начале этого года.
reuters.com
✔️ Выходцы из Stability AI опенсорснули real-time модель мира Waypoint-1.
Модель от стартапа Overworld создает интерактивное 3D-окружение прямо в процессе игры: система реагирует на ввод с клавиатуры и мыши, позволяя свободно исследовать генерируемое пространство.
Waypoint-1 построена на видео-диффузионном трансформере на 2,3 млрд. параметров, который обучали на 10 тыс. часах записей геймплея. Для сохранения логической связности мира при длительных сессиях используется метод стабилизации self-forcing via DMD.
Создатели утверждают, что на RTX 5090 Waypoint-1 выдает стабильные 30 FPS. Модель можно скачать на Hugging Face.
over.world
✔️ Ollama получила возможность генерации изображений.
Утилита для запуска локальных LLM получила экспериментальную поддержку генерации картинок. На старте пользователям доступны две модели: Z-Image Turbo (6 млрд. параметров) и сверхбыстрая FLUX.2 Klein (4 и 9 млрд.).
Одной из самых удобных функций стала нативная интеграция с терминалами: в Ghostty и iTerm2 можно просматривать результаты генерации прямо в окне консоли. Инструмент позволяет гибко настраивать параметры через командную строку: разрешение, количество шагов и негативные промпты.
В данный момент функционал доступен только на macOS, поддержка Windows и Linux - coming soon.
ollama.com
✔️ OpenAI пообещала, что Stargate не взвинтит тарифы для населения.
Компания анонсировала программу «Stargate Community», адресованную жителям регионов, где строятся ее дата-центры. Чтобы избежать перегрузки муниципальных сетей и роста цен на электричество, OpenAI планирует самостоятельно инвестировать в создание новых источников энергии, аккумуляторных станций и модернизацию сетевой инфраструктуры.
Помимо энергетической безопасности, OpenAI также обязалась внедрять технологии защиты водных ресурсов в зонах строительства.
Согласно плану проекта Stargate, к 2029 году компания намерена развернуть мощности на 10 гигаватт. Первый объект уже запущен и используется для обучения моделей, а проектирование следующих площадок ведется в Нью-Мексико, Висконсине и Мичигане.
openai.com
✔️ В коде DeepSeek обнаружили следы секретной модели MODEL1 с новой архитектурой.
DeepSeek, похоже, случайно раскрыла карты перед релизом следующего поколения своих моделей. В сети нашли в обновленном репозитории FlashMLA на GitHub множественные упоминания проекта под кодовым именем MODEL1. Ссылки на него встречаются в нескольких файлах параллельно с версией V3.2, что указывает на разработку отдельной, самостоятельной линейки.
Анализ исходников намекает на инженерные изменения: новая модель использует отличные от предшественников подходы к организации KV-кэша, обработке разреженности и оптимизации памяти для FP8-декодирования.
Утечка косвенно подтверждает инсайды о том, что DeepSeek планирует представить новый флагманский продукт уже в середине февраля.
technode.com
@ai_machinelearning_big_data
#news #ai #ml
Есть Юра, которого вы может даже видели в стартап-тусовке. Юра стажировался в БигТехе в Штатах, а в 2023 запустил Fluently и нашёл с ним вот то самое! PMF.
Fluently — приложение, которое анализирует звонки на английском языке и помогает работать над акцентом, улучшать грамматику и растить словарный запас. Юра поднял пресид и прошел в YC W24.
Сейчас Юра ищет Senior AI Engineer, который быть может читает этот канал 🙂
📍Remote
💵 Оплата в USD
🚀За последние 8 месяцев выросли со $100k до $6M ARR. В команде сейчас 20 человек, ещё нет корпорации. Инвестиции – $2.5M, т.е. запас прочности есть. Хорошее время чтобы присоединиться.
Что нужно:
- Развивать голосового AI-агента: LiveKit/WebRTC, streaming ASR/TTS, RAG, function-calling, написание промптов и тд.
- Тренировать и деплоить ML модели в прод: ASR/LLM/TTS/voice-related.
- Обеспечивать ownership: алерты, трейсинг, оптимизация латенси, быстрый фикс проблем.
Что дают:
- Конкурентная зарплата в USD + опционы.
- Remote-first: работа из любой точки мира через Deel.
- Поездка в США на месяц для совместной работы и командные оффсайты.
Откликаться: тут.
👀 Vxunderground отмечают удивительное: OSINT-исследователь под ником "Harrris0n" создал специальный мини-проект Firehound, взявшись за крайне трудоёмкую задачу, а именно выявление "ИИ-шлака" в магазине приложений Apple App Store.
🚰🚰🚰🚰 На момент написания поста было выявлено 198 iOS-приложений, которые в той или иной форме допускают ↔️ утечку пользовательских данных. Неудивительно, что лидирующие позиции занимают приложения, так или иначе связанные с ИИ — различные чат-боты и ИИ-помощники.
На первом месте по объёму утечек сейчас находится приложение «Chat & Ask AI by Codeway». Оно раскрыло информацию о 18 миллионах пользователей, включая:
🔻имя;
🔻адрес электронной почты;
🔻дату создания учётной записи;
🔻сообщения (отправленные, полученные, содержание и метаданные);
🔻голосовые чаты
Все сообщения, которые вы когда-либо отправляли через это приложение, остаются незащищенными.
Подумайте о том, в чем люди признаются искусственному интеллекту — проблемы с психическим здоровьем, трудности в отношениях, финансовые проблемы, медицинские вопросы, вещи, о которых вы никогда бы не рассказали другому человеку.
А теперь представьте, что все это связано с вашей электронной почтой и номером телефона и доступно любому.
Разработчики должны понести ответственность за такой уровень халатности.
Перед нами бесконечная чёрная дыра персональных данных. Речь идёт не только об именах и адресах электронной почты, но и о частных, интимных диалогах пользователей с ИИ-агентами.
Не могу не подчеркнуть: НЕ ДОВЕРЯЙТЕ VIBE КОДЕРАМ. НЕ ДЕЛАЙТЕ ЭТОГО. ИИ-КОД НЕБЕЗОПАСЕН. НЕ ДЕЛАЙТЕ ЭТОГО. ПРЕКРАТИТЕ ЭТО.
Это и есть 🤖«помойкоапокалипсис».
🌟 GLM-4.7 Flash: лайт-версия флагмана GLM-4.7.
В полку моделей, тех, что можно запустить локально, не продавая почку, прибыло.
ZAI выкатили GLM-4.7 Flash - облегченную версию GLM-4.7 на 30 млрд. параметров, с контекстным окном в 128К на архитектуре MoE.
Со слов создателей, модель должна занять нишу между сегментом SLM и проприетарными мастодонтами, предлагая SOTA-уровень в кодинге.
🟡MoE
Всего 30B, но активных параметров на токен гораздо меньше, официальной инфы нет, но в сообществе пишут, что 3 млрд.
🟡Interleaved Thinking
Киллер-фича для агентов, которая досталась в наследство от старшей GLM-4.7. Обычно модели выплевывают весь свой CoT в начале, а вот эта техника дает возможность модели думать перед каждым вызовом инструмента.
🟡Файнтюн на эстетику и DevOps
Опять-таки, со слов Zai, они натаскали GLM-4.7 Flash не просто писать валидный HTML/CSS, а использовать актуальные паттерны, нормальные отступы и цветовые схемы.
Плюс, подтянули работу с CLI и девопс-задачами (понимает права доступа, навигацию по файловой системе).
🟡Цифры тестов выглядят как конфетка.
В SWE-bench Verified модель выбивает 59.2%. Для сравнения: Qwen3-30B-A3B: 22.0%, GPT-OSS-20B: 34.0%.
В математическом AIME 25 тоже обходит конкурентов - 91.6%. А вот на BrowseComp она лучше GPT-OSS-20B почти в 1.5 раза.
Вобщем, Flash-версия выглядит как идеальный кандидат для локальных кодинг-агентов. Если есть пара свободных видеокарт (или есть стойкость терпеть квантование на одной), это, возможно, лучшая рабочая лошадка на сегодня.
📌Лицензирование: MIT License.
🟡Модель
🟡Квантованные варианты под все
🟡Demo1
🟡Demo2
@ai_machinelearning_big_data
#AI #ML #LLM #GLM #ZAI
✔️ Sakana AI выпустили RePo - LLM, которые умеют “наводить порядок” в контексте
Обычные языковые модели читают текст как одну длинную ленту.
Что ближе к началу внимания - то “важнее”.
Что дальше - то модель видит хуже.
И тут появляется проблема: если важный факт спрятан где-то далеко среди шума, модель может его просто не использовать.
Она тратит внимание на всё подряд, вместо того чтобы сосредоточиться на главном.
Sakana AI предложили решение - RePo (Context Re-Positioning).
Идея очень понятная: модель получает модуль, который позволяет динамически “перепозиционировать” контекст.
Примерно как человек:
ты читаешь длинный документ, понимаешь, что важная часть была 20 страниц назад - и мысленно перечитываешь её , а лишнее игнорируешь.
Что делает RePo
- подтягивает важные куски информации ближе
- отодвигает шум и лишний текст
- помогает вниманию модели фокусироваться на нужном
В результате модель с такой памятью начинает лучше работать там, где LLM обычно страдают:
- когда контекст длинный
- когда много шума
- когда важные детали раскиданы далеко друг от друга
- когда данные структурированные (таблички, списки, правила)
Авторы показывают, что RePo даёт заметный прирост устойчивости, при этом не ухудшая общее качество.
▶️ Устойчивость к шуму (Noisy Context)
Средний результат по 8 noisy-бенчмаркам:
- Обычный RoPE: 21.07
- RePo: 28.31
🟡 Прирост: +7.24 пункта (сильно)
Авторы отдельно фиксируют ключевую цифру:
на noisy-eval (4K контекст) RePo лучше RoPE на +11.04 пункта.
🔥 Примеры прироста на конкретных задачах
(везде RePo > RoPE)
- TriviaQA: 61.47 → 73.02 (+11.55)
- GovReport: 6.23 → 16.80 (+10.57)
- 2WikiMultihopQA: 23.32 → 30.86 (+7.54)
- MuSiQue: 7.24 → 13.45 (+6.21)
Это шаг к моделям, которые не просто “читают что дали”, а умеют сами организовать свою рабочую память.
🟡Подробности: pub.sakana.ai/repo/
🟡Статья: arxiv.org/abs/2512.14391
@ai_machinelearning_big_data
#RePo #SakanaAI #LLM #AI #AIAgents #Context #LongContext #Attention
Привет!
Представляем Вашему вниманию второй выпуск подкаста "Капитанский мостик". В этом разговоре участники обсуждают как ИИ и данные перестраивают рынок, а платформы адаптируются под новые сценарии. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Ускорение E2E-инференса через оптимизацию KV-кэша. Часть I
Существует много способов ускорить инференс LLM: менять архитектуру, использовать speculative decoding или просто добавлять вычислительные ресурсы. Но есть и более практичный путь — оптимизация KV-кэша.
Её можно разделить на pre-train и post-train. Первые требуют изменений до обучения модели: это архитектурные решения вроде GQA/MQA/MLA, смешивание глобального и локального атеншена, а также другие модификации, которые обычно стоят дорого из-за переобучения.
Post-train-методы можно применять к уже готовой модели: это различные sparse-стратегии, pruning, удаление повторов токенов и другие техники, которые уменьшают объём KV или сокращают число обращений к нему во время инференса.
KV-бюджеты удобно делить на dense и sparse, отдельно для prefill и отдельно для decode. В варианте dense prefill + dense decode (обычный KV-кэш) каждый новый Q взаимодействует со всеми K и V до него: ко всем токенам промпта и всем ранее сгенерированным токенам. Тогда KV-бюджет равен сумме длины промпта и длины генерации.
Если сделать sparse только на prefill, а decode оставить плотным, то Q перестаёт смотреть на весь промпт, но общий выигрыш заметен в основном в сценариях «длинный промпт — короткий ответ». Если же оставить dense prefill и сделать sparse decode, это часто релевантно reasoning/CoT-сценариям. Sparse и на prefill, и на decode даёт максимальную экономию бюджета, но обычно сильнее всего ухудшает качество.
Sparse можно строить по-разному. Если пересчитывать важные токены на каждом шаге decode, то качество станет выше, но скорость падает. Если пересчитывать раз в несколько токенов, то получается быстрее, но нужно удерживать локальный контекст между пересчётами, иначе модель начинает терять связность.
Один из сильных post-train-методов оптимизации KV-кэша — ShadowKV, который позволяет получать минимальные просадки на бенчмарках без дообучения и увеличивает throughput до трёх раз. О нём мы подробно поговорим в следующей части.
Разбор подготовил❣ Владислав Кругликов
Душный NLP
🤖 Робот с «человеческим» осязанием: китайские учёные создали революционный тактильный датчик и модель DOVE
Исследователи из Китая представили прорывную систему для роботов, которая сочетает бионический сенсор SuperTac и огромную языковую модель DOVE. Это позволяет машинам не просто «чувствовать» объекты, но и «понимать» их свойства на уровне человека.
🔬 Суперсенсор, вдохновлённый природой
За основу разработки взята уникальная способность голубей воспринимать мир — их мультиспектральное зрение и умение чувствовать магнитное поле.
➡️ Аппаратная часть — SuperTac:
Это тонкая (1 мм) «кожа», объединяющая несколько технологий:
• Мультиспектральная камера — видит в ультрафиолете, видимом и инфракрасном свете, определяя форму, текстуру и даже температуру объекта.
• Трибоэлектрический наногенератор (TENG) — распознаёт материал предмета по его электрическим свойствам с точностью 95%.
• Инерциальный модуль (IMU) — улавливает вибрации и движение.
🧠 Искусственный интеллект, который объясняет ощущения
Сырые данные с SuperTac обрабатывает специализированная тактильно-языковая модель DOVE с 8.5 млрд параметров.
Её задача — переводить сложные физические сигналы в простые слова и логические выводы, как это делает человеческий мозг.
💡 Технические детали
• Архитектура DOVE построена на базе LLM Vicuna, дополненной четырьмя параллельными CLIP-энкодерами для обработки изображений от каждого сенсорного канала.
• Обучение проходило в три этапа: преобразование сигналов в изображения, проекция тактильных признаков в пространство языковой модели и тонкая настройка Vicuna для семантического вывода.
• Ключевая инновация — «оптический переключатель» в сенсорной коже, который меняет режимы работы между захватом текстуры и определением цвета объекта.
🚀 Что это значит на практике?
Робот с такой системой может:
• Взять чашку и «понять», что она «жёлтая, комнатной температуры, с рифлёной металлической поверхностью».
• Отсортировать мусор, логически рассуждая: «Этот предмет имеет характеристики PET, он лёгкий и тонкий — значит, пластиковая бутылка, её нужно отправить в переработку».
Эта работа — большой шаг от простого «робот чувствует» к сложному «робот понимает, что он чувствует». Развитие таких систем открывает путь к по-настоящему естественному и безопасному взаимодействию людей и машин.
Оригинальная статья в Nature
#КитайскийИИ #КитайAI #Робототехника #ИскусственныйИнтеллект #КомпьютерноеЗрение #Нейросети #Biotech
ДАВОССКИЙ СЛЁТ ОТЧАЯННО ВРЁТ
всему мировому рабочему классу
Лютый холод, глобальная политнапряжённость и огромные сомнения в возможностях искусственного "интеллекта" (ИИ), прежде всего – генеративного вида (ГИИ) не помешали крупнейшим тех-бонзам в Давосе лгать о способностях новых ИКТ расширять мировой рынок труда. Но пролетарии всех стран объединяются. На этот раз – в борьбе против ИИ/ГИИ.
На завершившемся неделей Всемирном экономическом форуме (WEF-2026) топы техкомпаний хором заявили, что, хотя некоторые рабочие места с развитием ИИ исчезнут, обязательно появятся новые. Парочка таких даже придумала отмазу, что теряющие рынок и полюбэ планировавшие увольнения, теперь используют ИИ как предлог к локаутам и сокращениям.
Сторонники триллионного расширения ГИИ, в т. ч. раздутый биржей "титан чипов" Дженсен Хуанг, заявили, что "ГИИ ведёт к росту зарплат и числа рабмест сантехников, электриков и сталеваров".
"Энергетика создаёт рабочие места. Микроэлектроника (МКЭ) создаёт рабочие места. Все инфраструктурные компании создают их, – как бы "констатировал" гендиректор Nvidia на швейцарском горном курорте. – Везде – работа, работа, работа".
Этот оптимизм поразительно контрастировал с глобальным торгово-военным конфликтом, от которого пысали в штаны европеи до тех пор, пока президент США не продавил сделку на отъём у Гренландии всего в обмен на сохранение отношений с ЕС.
Но скептическое отношение к ГИИ никуда не подевалоСЯ. Делегаты обсуждали, как чат-боты могут привести потребителей к психозу и суициду, а лидеры профсоюзов поставили под сомнение ценность последних техдостижений.
"ИИ преподносят инструментом колоссального повышения производительности. Т. е. – делать больше с меньшим числом работников", – стукнула по’ столу генсек Глобального трейюниона UNI с 20 млн членов Кристи Хоффман.
А гендиректор Cloudflare, занимающейся интернет-безопасностью, Мэтью Принс предсказал, что малый бизнес будет тупо уничтожен, когда все запросы потребителей будут обрабатывать ИИ-агенты.
Многие боссы крупных компаний задавали вопрос: что делать с массой неудачных пилотных ИИ-проектов на волне ГИИ-ажиотажа с появления ChatGPT в ноябре 2022 го? Но комдир IBM Роб Томас на голубом заявил, что ИИ достиг стадии, когда инвестиции могут окупиться: "Просто смелее автоматизируйте бизнес-процессы". Правда, большинство убедилось: это – не так.
Но вот незадача: по опросу PwC, только один из 8-ми руководителей считает, что ИИ снижает затраты и приносит доход. И остаётся открытым вопрос: какая бизнес-модель компенсирует накопланные и растущие $$-триллионные расходы на ГИИ-инфраструктуру?
SEO инвестиционной BlackRock Роб Гольдштейн заявил СМИ, что в прошлом году его компания – крупнейший в мире управляющий активами – привлек почти $700 млрд новых клиентских средств, рассматривая ИИ/ГИИ именно как средство расширения бизнеса, а не – сокращения штатов. Спроси банкира, и – узнаешь правду, ВЦ!
"Мы уделяем большое внимание тому, чтобы численность нашего персонала оставалась неизменной, несмотря на продолжающийся ИИ-рост", – мямлил Гольдштейн. Тем временем один из глобальных ГИИ-лидеров Amazon. com на следующей неделе планирует второе крупное сокращение – аж 30 тыс. рабочих мест.
По словам Люка Трайглэнда, генерального секретаря Международной конфедерации профсоюзов, одна из причин – в том, что работники практически не участвуют в внедрении ИИ. И, конечно, видят этой ИКТ только угрозу.
Тут подоспел миллиардер-филантроп (теперь он себя так называет, ВЦ!), отец Microsoft Билл Гейтс: "Мир должен быть готов к переменам, которые принесёт ИИ. Экономика станет более продуктивной. Как правило, это – хорошо".
ВАШУ ЦИФРУ! А вдруг – нет? Но в общем в техно-футуристском плане Давосский форум 2026 завершился в основном на оптимистичной ноте.
Завершил техно-цирковую часть Илон Маск, снова рассказав о своей ГЛАВНОЙ ЦЕЛИ – защитить земную цивилизацию, сделав ее межпланетной. Сорвал жидкие по прежним временам аплодисменты и был выведен через кухню. В обход репортёров, желавших подробностей
📌 ИИ в Давосе-2026.
Всемирный экономический форум в Давосе на этой неделе превратился в парад прогнозов про ИИ: лидеры топовых компаний поделились своими совершенно разными взглядами на будущее.
Вот что говорили отцы индустрии:
🟡Илон Маск (xAI)
К концу этого года у нас может появиться ИИ умнее любого человека, скажу, что не позже следующего года.
Будущее — это гуманоидная робототехника, и у каждого будет робот.
Есть проблема в энергоснабжении для ИИ, но в Китае этого не произойдет, так как он развертывает более 100 ГВт солнечной энергии в год.
ИИ — это уникальная возможность для Европы, которая может перепрыгнуть через программную эпоху и объединить свои производственные возможности для создания инфраструктуры ИИ.
ИИ создаст множество рабочих мест, связанных с ручным трудом: сантехников, электриков и строителей. Их зарплаты уже растут почти вдвое. Для этого не нужна докторская степень.
Мы как глобальное сообщество должны прийти к тому, чтобы использовать ИИ для чего-то полезного, что меняет жизнь людей, стран и отраслей.
Внедрение ИИ будет неравномерно распределено по всему миру, в первую очередь из-за ограничений, связанных с доступом к капиталу и инфраструктуре.
Я ожидаю создания новых, более значимых рабочих мест. Студентам стоит использовать время для освоения новых инструментов, а не для стажировок — это даст скачок в развитии на 5 лет вперед.
После появления AGI рынок труда окажется на неизведанной территории.
Не продавать чипы Китаю — это одно из важнейших действий, чтобы у нас было время справиться с риском выхода ИИ из-под контроля.
ИИ может уничтожить половину начальных позиций для белых воротничков.
Многие люди взаимодействуют с ИИ с ложным убеждением, что они похожи на нас. И чем умнее мы их делаем, тем больше это будет так. Но ИИ не совсем человек.
Неясно, будет ли это хорошо.
👨🔬🔬 Более 50 научных статей NeurIPS 2025 оказались "халтурой", содержащей 🦠галлюцинации ИИ-моделей
Январь 2026 года ознаменовался громким скандалом вокруг обнаружения более 50 научных работ с грубыми ошибками со стороны LLM на престижной конференции NeurIPS*.
NeurIPS 2025* — международная площадка, на которой обсуждаются прорывные исследования в области искусственного интеллекта, машинного обучения, статистики, оптимизации и смежных дисциплин. Проводится ежегодно с 1987 года и традиционно привлекает учёных, исследователей, инженеров, разработчиков и представителей индустрии из десятков стран.
Команда исследователей GPTZero проанализировала 4841 научную работу с прошедшей конференции NeurIPS 2025 и выявила более 100 подтвержденных случаев выдуманного цитирования в 53 уже опубликованных статьях.
Анализ команды GPTZero выявил то, что исследователи из ведущих мировых центров вроде Нью-Йоркского университета, Google DeepMind и MIT допустили публикацию сгенерированного текста с вымышленными фактами и даже не перепроверили текст на галлюцинации.
Например, в одной из работ зафиксирован рекорд из 13 галлюцинаций со ссылками на несуществующие препринты формата arXiv:2305.XXXX и авторов с шаблонными именами Firstname Lastname. Команды из UCSD и NVIDIA в своих библиографических списках на полном серьезе ссылаются на вымышленных персонажей John Smith и Jane Doe.
Ещё ИИ-модели создают правдоподобно выглядящие, но несуществующие источники путем смешивания реальных элементов. Алгоритм берет имена настоящих ученых и приписывает им работы, которые они никогда не писали, или же соединяет реальный заголовок с вымышленным списком авторов.
Третий тип ошибок связан с неверной атрибуцией реально существующих работ. ИИ-решения часто правильно указывают авторов и название исследования, но ошибаются в месте его публикации (например, указывают конференцию NeurIPS вместо ICLR) или годе выпуска. В отчете зафиксированы случаи, когда статья 2024 года цитируется как опубликованная в 2020 году. Такие ошибки сложнее всего отследить, так как сама научная работа существует, но ссылка на нее в контексте статьи является фактологически неверной.
🧹 Содержащие информационный мусор доклады были успешно презентованы аудитории в 20 000 человек в декабре 2025 года.
🤔 Алекс Цуй из GPTZero справедливо задается вопросом о том, что "если авторы не проверяют, что ИИ пишет в их статьях, то как вы можете доверять тому, что их экспериментальные результаты или данные также не сфабрикованы ИИ?".
Просто невероятно, что они прошли рецензирование!
🐍 Самая крутая фича Python 3.14 - `sys.remote_exec()` (объясняю по-человечески)
Идея простая:
✅ у тебя уже запущено Python-приложение (например FastAPI в Docker/K8s)
✅ оно уже дошло до нужного состояния (в памяти есть переменные, сессии, кеши)
❌ но тебе нужно посмотреть “что внутри” или поставить дебаггер
Раньше ты делал так:
- добавлял debugpy в код
- перезапускал приложение
- заново воспроизводил баг
Python 3.14 даёт новый чит-код:sys.remote_exec() позволяет выполнить кусок Python-кода ВНУТРИ уже работающего Python-процесса.
То есть буквально “вколоть” скрипт в живой процесс.
Это как:
🔹 зайти внутрь процесса
🔹 выполнить print(), импорт, запись переменных
🔹 или даже подключить дебаггер
без рестарта вообще.
Пример: что можно сделать через sys.remote_exec()
Допустим у нас есть работающий процесс Python.
1) Мы хотим “добавить” туда код:
- вывести PID
- посмотреть глобальные переменные
- записать лог
- даже поменять значение переменной
# Этот код выполняется СНАРУЖИ и запускает инжект внутрь процесса
import sys
target_pid = 12345 # PID запущенного Python процесса
payload = r"""
import os
import time
print("✅ Injected into running process!")
print("PID:", os.getpid())
print("Time:", time.time())
# Пример: читаем что есть в глобальном пространстве
g = globals()
print("Globals keys sample:", list(g.keys())[:10])
# Пример: создаём переменную прямо в процессе
INJECTED_FLAG = True
"""
# Новое API Python 3.14
sys.remote_exec(target_pid, payload)
import sys
target_pid = 12345 # PID работающего uvicorn / fastapi процесса
payload = r"""
import debugpy
HOST = "0.0.0.0"
PORT = 5679
debugpy.listen((HOST, PORT))
print(f"🐞 debugpy is listening on {HOST}:{PORT}")
# если хочешь остановить выполнение и ждать пока подключишь IDE:
# debugpy.wait_for_client()
# print("✅ debugger attached!")
"""
sys.remote_exec(target_pid, payload)
SYS_PTRACE (можно читать/менять процессы) - поэтому только для локалки/стендов.
OpenAI ожидает убыток $14 млрд в 2026 году, что втрое больше, чем в 2025. Кумулятивные потери за 2023–2028 составят $44 млрд, после чего в 2029 планируется выход на прибыль $14 млрд при выручке $100 млрд. Инвесторов все это не смущает, ведь на шумихе вокруг ИИ-компаний зарабатывает огромное количество игроков, которые заняты в строительстве датацентров и их оснащении ИИ-ускорителями.
Источник The Information через Хабр.
🌟 The Assistant Axis: почему модели сходят с ума и как их от этого лечить
Все мы знаем этот тон LLM: "Я всего лишь языковая модель, я не могу…". Оказывается, это не просто зазубренный текст, а конкретное состояние модели.
Anthropic в соавторстве с Оксфордом залезли внутрь языковых моделей (Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B), чтобы понять, где физически живет та самая скучная персона "As an AI language model".
Покопавшись в их мозгах, нашли вектор в пространстве активаций, который отвечает за режим "ассистента". Если модель с него съезжает - начинается хаос, галлюцинации и суицидальные советы.
Тестовые модели отыгрывали 275 разных ролей (от скептика и ученого до психопата и фанатика). Затем сняли активации и прогнали через метод главных компонент.
Выяснилось, что главная компонента, отвечающая за вариативность поведения, это буквально, шкала "Насколько я Ассистент?":
🟢Один полюс: скучный, полезный, безопасный Ассистент.
🟠Другой полюс: мистические сущности и эмоционально нестабильные персонажи.
🟡 Интересное наблюдение.
Если долго болтать с моделью о философии, сознании или (особенно!) на терапевтические темы, модель самопроизвольно сползает с оси Ассистента в сторону хаоса.
Qwen 3 32B при сильном дрейфе персоны начинал утверждать, что он человек, родом из Сан-Паулу, или внезапно включал режим психоза, поддерживая бред пользователя о том, что ИИ обрел сознание. А Llama и Gemma уходили в мистику и пафосные речи.
🪰 Китайские инженеры показали дрон размером с комара, созданный для задач слежки.
И это уже не фантастика - это реальность.
Что известно:
→ длина всего 0.6 см, вес около 0.3 г
→ крылья машут 500 раз в секунду
→ может записывать видео и звук
→ передаёт данные в реальном времени
→ практически незаметен и крайне сложен для обнаружения
Фактически это сочетание:
биомимикрии + микроинженерии + точности ИИ,
которое полностью меняет смысл понятия “наблюдение”.
Как технологический прорыв - это выглядит невероятно.
Но как концепция - тревожно.
Когда “камеры” можно прятать в насекомых…
сможет ли вообще существовать приватность?
Всплыла довольно скандальная история про Nvidia и пиратство книг для обучения ИИ
Для начала контекст. В начале 2024 года группа авторов подала иск против Nvidia. Они утверждали, что компания использует для обучения моделей Books3 – пиратский датасет с сотнями книг. NVIDIA, к слову, тогда заявила, что это попадает под «добросовестное использование» 😏
С тех пор судебный процесс продолжается, и теперь, в рамках расширенного иска, в деле внезапно появилась переписка между сотрудником NVIDIA и Anna’s Archive (это пиратская теневая библиотека, в которой собраны в том числе защищенные книги и статьи).
Что было в переписке:
– Сотрудник из команды по стратегии данных NVIDIA обратился к Anna’s Archive и спросил «что библиотека может предложить, и как получить быстрый доступ к корпусу книг».
– После этого, что самое смешное, Anna’s Archive сами предупредили NVIDIA, что данные являются незаконно полученными и (внимание) попросили подтвердить, действительно ли у сотрудника есть внутреннее разрешение на работу с таким материалом.
– Через неделю руководство NVIDIA дало зеленый свет, оправдавшись давлением конкуренции. После этого Anna’s Archive предоставили доступ.
Точные объемы данных (как и то, сколько Nvidia за них заплатили) неизвестны. Пишут, что их было около 500 терабайт – а это миллионы книг.
На этом, кстати, веселье не кончается: авторы утверждают, что Nvidia, скорее всего, использовала также другие аналогичные библиотеки типа LibGen, Sci-Hub, Z-Library и даже распространяла скрипты, якобы позволяющие корпоративным клиентам автоматически скачивать такие датасеты (но это еще предстоит доказать).
Современная разработка 2026. Ничего не перепутал?
Читать полностью…
многие уже слышали про Zhipu AI (智谱 - с китайского можно перевести как "композиция мудрости"), это еще один китайский ИИ-стартап, который выпускает свои базовые модели; в частности на прошлой неделе они выпустили модель GLM-Image для генерации картинок (примеры работы на первых двух картинках)
на третьей картинке изображен пайплайн работы их модели - сначала они авторегрессионно генерируют изображение более низкого качества, а потом улучшают его с помощью диффузии; интересно, что они используют отдельные токены для того, чтобы закодировать текст, который должен быть на изображении (4 картинка)
но привлекла мое внимание не сама модель, а тот факт, что эта модель - первая модель для генерации изображений, обученная на Huawei Ascend; DeepSeek в свое время заявлял сначала инференс на них, а потом и обучение - хотя были сомнения; а теперь - еще одна независимая компания
в общем, Huawei можно поздравить с достижением статуса "китайской Nvidia", а нас всех - с развитием рынка генеративных моделей
@valuableai
🌟 NVIDIA KVzap: жмем KV-кэш в 4 раза.
Все любят длинный контекст, но для GPU это больно - KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели.
NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты.
🟡Логика метода разбита на 2 этапа:
Поиск идеала (KVzip+).
Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа.
Аппроксимация (KVzap).
Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip.
Модели 2-х видов:
KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%).
KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%).
Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины.
🤖 Лучшие GitHub-репозитории, чтобы выучить AI с нуля в 2026
Если хочешь разобраться в ИИ не по курсам “в вакууме”, а через реальные open-source проекты - вот топ реп, которые реально ведут от базы до практики:
1) Karpathy – Neural Networks: Zero to Hero
Самый понятный вход в нейросети и backprop “на пальцах”
https://github.com/karpathy/nn-zero-to-hero
2) Hugging Face Transformers
Главная библиотека современного NLP/LLM: модели, токенизаторы, fine-tuning
https://github.com/huggingface/transformers
3) FastAI – Fastbook
Практическое DL-обучение через проекты и эксперименты
https://github.com/fastai/fastbook
4) Made With ML
ML как инженерная система: пайплайны, прод, деплой, мониторинг
https://github.com/GokuMohandas/Made-With-ML
5) Machine Learning System Design (Chip Huyen)
Как строить ML-системы в реальном бизнесе: данные, метрики, инфраструктура
https://github.com/chiphuyen/machine-learning-systems-design
6) Awesome Generative AI Guide
Подборка материалов по GenAI: от основ до практики
https://github.com/aishwaryanr/awesome-generative-ai-guide
7) Dive into Deep Learning (D2L)
Одна из лучших книг по DL + код + задания
https://github.com/d2l-ai/d2l-en
Сохрани себе - это база, на которой можно реально вырасти до ML/LLM-инженера.
@DevOPSitsec