opendatascience | Technologies

Telegram-канал opendatascience - Data Science by ODS.ai 🦜

46226

First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev

Subscribe to a channel

Data Science by ODS.ai 🦜

🐋 DeepSeek выпустили DeepSeek-OCR 2 - новое поколение OCR с SOTA качеством

DeepSeek представили DeepSeek-OCR 2 - 3B модель для продвинутого понимания изображений, документов и OCR, которая выходит на уровень SOTA.

Ключевая новинка - DeepEncoder V2.

В отличие от классических vision LLM, которые «читают» картинку как сетку (слева-направо, сверху-вниз), DeepEncoder V2 работает ближе к тому, как читает человек:

- Сначала формируется глобальное понимание изображения
- Затем модель определяет логический порядок чтения — что важно первым, что дальше

Что это даёт на практике

📄 Лучше работает со сложными макетами документов
📊 Корректно читает таблицы
🧾 Связывает подписи и значения
📰 Понимает колонки и структурированный текст
🔀 Надёжнее обрабатывает смесь текста и визуальной структуры

По качеству

- Обходит Gemini 3 Pro на ряде бенчмарков
- Даёт >4% прироста по сравнению с прошлой версией DeepSeek-OCR

И это при размере модели всего 3B параметров.

Можно запускать и дообучать

Теперь DeepSeek-OCR 2 можно удобно запускать и fine-tune через Unsloth по готовому гайду.

🔗 Guide: https://unsloth.ai/docs/models/deepseek-ocr-2
🔗 Model: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
🔗 Github: https://github.com/deepseek-ai/DeepSeek-OCR-2/tree/main
🔗 Paper: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

@ai_machinelearning_big_data

#DeepSeek #ocr #opensource

Читать полностью…

Data Science by ODS.ai 🦜

⚪️ В начале декабря 2025 года основатель Telegram Павел Дуров запустил децентрализованную конфиденциальную вычислительную сеть Cocoon (Confidential Compute Open Network) — https://www.kommersant.ru/doc/8376572. Платформа предполагает выполнение ИИ-вычислений на пользовательских устройствах и узлах внутри инфраструктуры TON (масштабируемая блокчейн-платформа, изначально созданная для интеграции с Telegram), а не в классических облачных дата-центрах. Сможет ли Cocoon стать альтернативой Microsoft или Amazon?

Cocoon делает ставку на то, что данные и модели передаются в зашифрованном виде и обрабатываются в защищенной среде, снижая риски утечек, в отличие от централизованных облаков вроде OpenAI или Google, говорит директор департамента расследований T.Hunter и основатель компании Интернет-Розыск Игорь Бедеров. Однако эта приватность может стоить более высокой цены за вычисление и чуть большей задержки, опасается он.

При этом сравнить теоретическую мощность гипотетической сети Telegram с традиционными ЦОДами сложно, отмечает господин Бедеров. «Если представить, что сеть состоит из современных устройств с производительностью GPU примерно 1 терафлопс, то 10 млн устройств дадут 10 эксафлопс. Эта цифра сопоставима с мощностью крупнейших в мире суперкомпьютеров,— отмечает эксперт.— Однако мощность ЦОДа стабильна, предсказуема и доступна 24/7. Мощность же распределенной сети — это «переменный ток» цифрового мира, который зависит от времени суток, географии и типа подключения».

В то же время, для работы ML-моделей на распределенных ресурсах чрезвычайно важна скорость сети между ее узлами, подчеркивает господин Катанов. Современные стандарты сетей для суперкомпьютеров достигают сотен гигабит в секунду, дополнительно снижая нагрузку на процессор за счет прямого и быстрого доступа к памяти узла, поясняет он. Таким образом, Cocoon может всплесками выдавать колоссальную производительность, но для задач, требующих длительных и стабильных вычислений, она будет проигрывать традиционным облачным кластерам, резюмировал Игорь Бедеров.

Модель Cocoon несет в себе ряд существенных рисков, говорит господин Бедеров. Во-первых, в разнородной сети из тысяч узлов с разным «железом», стабильностью интернета и надежностью оператора сложно гарантировать единый уровень SLA (Service Level Agreement), привычный для облачных гигантов, уточняет он. Во-вторых, сложность верификации вычислений, в-третьих, потенциальные и еще неизвестные уязвимости, перечисляет эксперт. В-четвертых, обработка персональных или финансовых данных в глобальной децентрализованной сети может создавать сложности с соблюдением юрисдикционных требований, отметил собеседник.

В краткосрочной перспективе Cocoon вряд ли заменит AWS (Amazon Web Services) или Azure для крупных корпоративных клиентов, однако он создаст мощную альтернативную нишу для стартапов и разработчиков с ограниченным бюджетом, проектов с повышенными требованиями к конфиденциальности данных, а также сценариев, где цена вычислений важнее минимально возможной задержки, считает Игорь Бедеров.

Подпишись на @irozysk

Читать полностью…

Data Science by ODS.ai 🦜

🚀 Крупный IT-стартап на 1200 сотрудников сегодня выглядит так: стойка из десятков Mac mini, на которых круглосуточно крутится тот самый хайповый Clawdbot, про который уже отлично писали коллеги 😊

И это не шутка.

В Кремниевой долине сейчас настоящий мини-бум: разработчики, стартапы и даже целые команды массово скупают Mac mini, чтобы поднимать на них этого «опенсорсного Джарвиса».
Доходит до абсурда — в ряде магазинов «миники» начали уходить в дефицит именно из-за AI-инфраструктуры под локальные агенты.

Почему так происходит?

Потому что это уже не просто бот.
Clawdbot — это по сути цифровой сотрудник:
- пишет код
- помогает с инфраструктурой
- отвечает в рабочих чатах
- автоматизирует рутину
- подключён к инструментам

И всё это - self-hosted, под полным контролем команды.

Так что теперь наш штат выглядит примерно так:

Слева направо:
Clawdbot, Clawdbot и ещё немного Clawdbot.

Людей меньше не стало.
Просто теперь каждый человек работает в паре с агентом, а производительность команды умножается, а не складывается.

Это уже не «AI как инструмент».
Это AI как часть команды.

Код Clawdbot в опенсорсе: https://github.com/clawdbot/clawdbot

@machinelearning_interview

Читать полностью…

Data Science by ODS.ai 🦜

Всем привет!

Публикуем третий выпуск подкаста «Капитанский мостик». На этот раз выпуск прошёл в офлайн формате как часть программы 🎄 Stereo Data Ёлки 2025 в Москве: обсуждали главные новости из мира ИИ вместе с аудиторией.

Ведущие — Валентин Малых и Дмитрий Колодезев.
Специальный гость — Александр Дьяконов.

Смотрите видео на площадках ⤵️
ODS VK Video
ODS YouTube

📩 Если у вас есть новости/темы для обсуждения — присылайте их в канал «Дата-капитаны» в Mattermost (авторизация через ODS.ai).

Читать полностью…

Data Science by ODS.ai 🦜

🤐 Ты должен был бороться со злом...

Исследователи Guardian выяснили, что ChatGPT активно ссылается на Grokipedia, предоставляя необъективную или недостоверную информацию пользователям.

Этим же грешит и Claude от Anthropic:

↖️ https://kod.ru/guardian-chatgpt-grokipedia

Читать полностью…

Data Science by ODS.ai 🦜

Всем привет!

В 14:00 (по мск) стартует🎄 Stereo Data Ёлка 2025 и наш праздничный live эфир!
Эфир будет чередовать выступления с итогами года c офлайн площадок в Москве, Питере!

🌲Ссылка на трансляцию на VK Video ODS
🌲Подробное расписание эфира

Всех ждём 🤗 Подключайтесь!

Читать полностью…

Data Science by ODS.ai 🦜

⚡️ Intel тоже кинула геймеров и работяг из-за ИИ-бума — компания официально замедляет выпуск потребительских процессоров ради нейронок. Нас ждёт дефицит и рост цен.

Теперь приоритет №1 для компании — дата-центры. Спрос на ИИ-инфраструктуру зашкаливает, и Intel выгоднее отгружать дорогие чипы Xeon корпорациям, чем процессоры для домашних ПК.

Что это значит для нас:

• Линейки Core (особенно топовые i7 и i9) могут стать дефицитными, что подтолкнет ценники вверх в ближайшие полгода.
• Шанс для AMD: Пока «синие» заняты спасением серверного бизнеса, рынок ПК может сильнее качнуться в сторону Ryzen.
• Массовый выход новых линеек может сильно замедлиться.

Переходим на AMD — теперь точно

👍 Бэкдор

Читать полностью…

Data Science by ODS.ai 🦜

🎤 Создание речи с Qwen3-TTS

Qwen3-TTS — это мощный инструм
ент для генерации речи, предлагающий поддержку клонирования голоса, дизайна голоса и высококачественной синтезированной речи. Модель поддерживает множество языков и позволяет управлять интонацией и эмоциями в зависимости от текста.

🚀 Основные моменты:
- Поддержка 10 языков и различных диалектов.
- Высокая скорость генерации с низкой задержкой.
- Интуитивное управление голосом через текстовые команды.
- Эффективная архитектура для качественного синтеза речи.

📌 GitHub: https://github.com/QwenLM/Qwen3-TTS

#python

Читать полностью…

Data Science by ODS.ai 🦜

ИИ-помощник Gemini мог сливать данные через Google Calendar

Исследователи из компании Miggo Security нашли способ обойти защиту Google Gemini от промпт-инжектов, используя обычные приглашения в «Календаре». Атака позволяла похищать приватные данные, просто отправляя жертвам приглашения с вредоносным содержимым.

Читать полностью

#xakep
@linux_potok

Читать полностью…

Data Science by ODS.ai 🦜

✔️ Стартап ветеранов индустрии Humans& привлек $480 млн не выпустив ни одного продукта.

Инвесторы продолжают вкладывать деньги в команды с громкими именами, даже если у тех пока нет ничего, кроме планов. Humans&, основанный выходцами из OpenAI, DeepMind и xAI, закрыл раунд финансирования, в результате которого оценка компании достигла $4,48 млрд. В сделке участвовали Nvidia, Джефф Безос и венчурное подразделение Alphabet.

Столь высокий кредит доверия объясняется звездным составом команды. Гендиректор Эрик Зеликман ранее занимался обучением модели Grok-2 в xAI, а сооснователь Жорж Харик был одним из первых сотрудников Google, стоявшим у истоков Gmail и Android. Стартап заявляет, что строит "человекоцентричный ИИ", который будет координировать действия людей, а не просто генерировать текст. Релиз первого продукта обещают уже в начале этого года.
reuters.com

✔️ Выходцы из Stability AI опенсорснули real-time модель мира Waypoint-1.

Модель от стартапа Overworld создает интерактивное 3D-окружение прямо в процессе игры: система реагирует на ввод с клавиатуры и мыши, позволяя свободно исследовать генерируемое пространство.

Waypoint-1 построена на видео-диффузионном трансформере на 2,3 млрд. параметров, который обучали на 10 тыс. часах записей геймплея. Для сохранения логической связности мира при длительных сессиях используется метод стабилизации self-forcing via DMD.

Создатели утверждают, что на RTX 5090 Waypoint-1 выдает стабильные 30 FPS. Модель можно скачать на Hugging Face.
over.world

✔️ Ollama получила возможность генерации изображений.

Утилита для запуска локальных LLM получила экспериментальную поддержку генерации картинок. На старте пользователям доступны две модели: Z-Image Turbo (6 млрд. параметров) и сверхбыстрая FLUX.2 Klein (4 и 9 млрд.).

Одной из самых удобных функций стала нативная интеграция с терминалами: в Ghostty и iTerm2 можно просматривать результаты генерации прямо в окне консоли. Инструмент позволяет гибко настраивать параметры через командную строку: разрешение, количество шагов и негативные промпты.

В данный момент функционал доступен только на macOS, поддержка Windows и Linux - coming soon.
ollama.com

✔️ OpenAI пообещала, что Stargate не взвинтит тарифы для населения.

Компания анонсировала программу «Stargate Community», адресованную жителям регионов, где строятся ее дата-центры. Чтобы избежать перегрузки муниципальных сетей и роста цен на электричество, OpenAI планирует самостоятельно инвестировать в создание новых источников энергии, аккумуляторных станций и модернизацию сетевой инфраструктуры.

Помимо энергетической безопасности, OpenAI также обязалась внедрять технологии защиты водных ресурсов в зонах строительства.

Согласно плану проекта Stargate, к 2029 году компания намерена развернуть мощности на 10 гигаватт. Первый объект уже запущен и используется для обучения моделей, а проектирование следующих площадок ведется в Нью-Мексико, Висконсине и Мичигане.
openai.com

✔️ В коде DeepSeek обнаружили следы секретной модели MODEL1 с новой архитектурой.

DeepSeek, похоже, случайно раскрыла карты перед релизом следующего поколения своих моделей. В сети нашли в обновленном репозитории FlashMLA на GitHub множественные упоминания проекта под кодовым именем MODEL1. Ссылки на него встречаются в нескольких файлах параллельно с версией V3.2, что указывает на разработку отдельной, самостоятельной линейки.

Анализ исходников намекает на инженерные изменения: новая модель использует отличные от предшественников подходы к организации KV-кэша, обработке разреженности и оптимизации памяти для FP8-декодирования.

Утечка косвенно подтверждает инсайды о том, что DeepSeek планирует представить новый флагманский продукт уже в середине февраля.
technode.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Data Science by ODS.ai 🦜

Есть Юра, которого вы может даже видели в стартап-тусовке. Юра стажировался в БигТехе в Штатах, а в 2023 запустил Fluently и нашёл с ним вот то самое! PMF.

Fluently — приложение, которое анализирует звонки на английском языке и помогает работать над акцентом, улучшать грамматику и растить словарный запас. Юра поднял пресид и прошел в YC W24.

Сейчас Юра ищет Senior AI Engineer, который быть может читает этот канал 🙂

📍Remote
💵 Оплата в USD
🚀За последние 8 месяцев выросли со $100k до $6M ARR. В команде сейчас 20 человек, ещё нет корпорации. Инвестиции – $2.5M, т.е. запас прочности есть. Хорошее время чтобы присоединиться.

Что нужно:
- Развивать голосового AI-агента: LiveKit/WebRTC, streaming ASR/TTS, RAG, function-calling, написание промптов и тд.
- Тренировать и деплоить ML модели в прод: ASR/LLM/TTS/voice-related.
- Обеспечивать ownership: алерты, трейсинг, оптимизация латенси, быстрый фикс проблем.

Что дают:
- Конкурентная зарплата в USD + опционы.
- Remote-first: работа из любой точки мира через Deel.
- Поездка в США на месяц для совместной работы и командные оффсайты.

Откликаться: тут.

Читать полностью…

Data Science by ODS.ai 🦜

👀 Vxunderground отмечают удивительное: OSINT-исследователь под ником "Harrris0n" создал специальный мини-проект Firehound, взявшись за крайне трудоёмкую задачу, а именно выявление "ИИ-шлака" в магазине приложений Apple App Store.

🚰🚰🚰🚰 На момент написания поста было выявлено 198 iOS-приложений, которые в той или иной форме допускают ↔️ утечку пользовательских данных. Неудивительно, что лидирующие позиции занимают приложения, так или иначе связанные с ИИ — различные чат-боты и ИИ-помощники.

На первом месте по объёму утечек сейчас находится приложение «Chat & Ask AI by Codeway». Оно раскрыло информацию о 18 миллионах пользователей, включая:

🔻имя;
🔻адрес электронной почты;
🔻дату создания учётной записи;
🔻сообщения (отправленные, полученные, содержание и метаданные);
🔻голосовые чаты

Все сообщения, которые вы когда-либо отправляли через это приложение, остаются незащищенными.

Подумайте о том, в чем люди признаются искусственному интеллекту — проблемы с психическим здоровьем, трудности в отношениях, финансовые проблемы, медицинские вопросы, вещи, о которых вы никогда бы не рассказали другому человеку.

А теперь представьте, что все это связано с вашей электронной почтой и номером телефона и доступно любому.

Разработчики должны понести ответственность за такой уровень халатности.

— комментирует Harrris0n.

Фактически всё, что вы когда-либо сообщали этому ИИ-боту, оказалось доступным извне. Речь идёт более чем о 400 000 000 сообщений. В слитых переписках содержится абсолютно всё, о чем люди говорили с ботами.

Следом в так называемом «шлак-метре» идёт приложение «YPT — Study Group», которое на данный момент раскрывает данные более чем 2 миллионов пользователей, включая:

🔻ИИ-токены;
🔻идентификаторы пользователей;
🔻пользовательские ключи;
🔻переписку (отправленную, полученную, содержание).

Исследователь отметил, что сливается всё: от обсуждения образования и фитнеса до шокирующих вещей, таких как переписки CSAM (детская порнография) и странных трендов вроде «LooksMaxxing» (улучшение внешности).

😱 Юзеры в комментариях к посту про Firehound критикуют Apple и Google за то, что они допускают такой "дырявый софт" в свои магазины.

Разработчики массово клепают небезопасные приложения-обертки для ИИ («мусорный софт»), а в результате утекают самые интимные переписки и личные данные миллионов людей.

Перед нами бесконечная чёрная дыра персональных данных. Речь идёт не только об именах и адресах электронной почты, но и о частных, интимных диалогах пользователей с ИИ-агентами.

Не могу не подчеркнуть: НЕ ДОВЕРЯЙТЕ VIBE КОДЕРАМ. НЕ ДЕЛАЙТЕ ЭТОГО. ИИ-КОД НЕБЕЗОПАСЕН. НЕ ДЕЛАЙТЕ ЭТОГО. ПРЕКРАТИТЕ ЭТО.

Это и есть
🤖«помойкоапокалипсис».

— комментируют VX.

✒️ Ознакомиться с мусором можно тут: https://firehound.covertlabs.io

@Russian_OSINT

Читать полностью…

Data Science by ODS.ai 🦜

🌟 GLM-4.7 Flash: лайт-версия флагмана GLM-4.7.

В полку моделей, тех, что можно запустить локально, не продавая почку, прибыло.

ZAI выкатили GLM-4.7 Flash - облегченную версию GLM-4.7 на 30 млрд. параметров, с контекстным окном в 128К на архитектуре MoE.

Со слов создателей, модель должна занять нишу между сегментом SLM и проприетарными мастодонтами, предлагая SOTA-уровень в кодинге.

🟡MoE
Всего 30B, но активных параметров на токен гораздо меньше, официальной инфы нет, но в сообществе пишут, что 3 млрд.

🟡Interleaved Thinking
Киллер-фича для агентов, которая досталась в наследство от старшей GLM-4.7. Обычно модели выплевывают весь свой CoT в начале, а вот эта техника дает возможность модели думать перед каждым вызовом инструмента.

🟡Файнтюн на эстетику и DevOps
Опять-таки, со слов Zai, они натаскали GLM-4.7 Flash не просто писать валидный HTML/CSS, а использовать актуальные паттерны, нормальные отступы и цветовые схемы.

Плюс, подтянули работу с CLI и девопс-задачами (понимает права доступа, навигацию по файловой системе).

🟡Цифры тестов выглядят как конфетка.

В SWE-bench Verified модель выбивает 59.2%. Для сравнения: Qwen3-30B-A3B: 22.0%, GPT-OSS-20B: 34.0%.

В математическом AIME 25 тоже обходит конкурентов - 91.6%. А вот на BrowseComp она лучше GPT-OSS-20B почти в 1.5 раза.

Вобщем, Flash-версия выглядит как идеальный кандидат для локальных кодинг-агентов. Если есть пара свободных видеокарт (или есть стойкость терпеть квантование на одной), это, возможно, лучшая рабочая лошадка на сегодня.



📌Лицензирование: MIT License.


🟡Модель
🟡Квантованные варианты под все
🟡Demo1
🟡Demo2

@ai_machinelearning_big_data

#AI #ML #LLM #GLM #ZAI

Читать полностью…

Data Science by ODS.ai 🦜

✔️ Sakana AI выпустили RePo - LLM, которые умеют “наводить порядок” в контексте

Обычные языковые модели читают текст как одну длинную ленту.

Что ближе к началу внимания - то “важнее”.
Что дальше - то модель видит хуже.

И тут появляется проблема: если важный факт спрятан где-то далеко среди шума, модель может его просто не использовать.

Она тратит внимание на всё подряд, вместо того чтобы сосредоточиться на главном.

Sakana AI предложили решение - RePo (Context Re-Positioning).

Идея очень понятная: модель получает модуль, который позволяет динамически “перепозиционировать” контекст.

Примерно как человек:
ты читаешь длинный документ, понимаешь, что важная часть была 20 страниц назад - и мысленно перечитываешь её , а лишнее игнорируешь.

Что делает RePo
- подтягивает важные куски информации ближе
- отодвигает шум и лишний текст
- помогает вниманию модели фокусироваться на нужном

В результате модель с такой памятью начинает лучше работать там, где LLM обычно страдают:
- когда контекст длинный
- когда много шума
- когда важные детали раскиданы далеко друг от друга
- когда данные структурированные (таблички, списки, правила)

Авторы показывают, что RePo даёт заметный прирост устойчивости, при этом не ухудшая общее качество.

▶️ Устойчивость к шуму (Noisy Context)
Средний результат по 8 noisy-бенчмаркам:

- Обычный RoPE: 21.07
- RePo: 28.31

🟡 Прирост: +7.24 пункта (сильно)

Авторы отдельно фиксируют ключевую цифру:
на noisy-eval (4K контекст) RePo лучше RoPE на +11.04 пункта.

🔥 Примеры прироста на конкретных задачах
(везде RePo > RoPE)

- TriviaQA: 61.47 → 73.02 (+11.55)
- GovReport: 6.23 → 16.80 (+10.57)
- 2WikiMultihopQA: 23.32 → 30.86 (+7.54)
- MuSiQue: 7.24 → 13.45 (+6.21)

Это шаг к моделям, которые не просто “читают что дали”, а умеют сами организовать свою рабочую память.

🟡Подробности: pub.sakana.ai/repo/
🟡Статья: arxiv.org/abs/2512.14391

@ai_machinelearning_big_data

#RePo #SakanaAI #LLM #AI #AIAgents #Context #LongContext #Attention

Читать полностью…

Data Science by ODS.ai 🦜

Привет!

Представляем Вашему вниманию второй выпуск подкаста "Капитанский мостик". В этом разговоре участники обсуждают как ИИ и данные перестраивают рынок, а платформы адаптируются под новые сценарии. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).

Читать полностью…

Data Science by ODS.ai 🦜

Ускорение E2E-инференса через оптимизацию KV-кэша. Часть I

Существует много способов ускорить инференс LLM: менять архитектуру, использовать speculative decoding или просто добавлять вычислительные ресурсы. Но есть и более практичный путь — оптимизация KV-кэша.

Её можно разделить на pre-train и post-train. Первые требуют изменений до обучения модели: это архитектурные решения вроде GQA/MQA/MLA, смешивание глобального и локального атеншена, а также другие модификации, которые обычно стоят дорого из-за переобучения.

Post-train-методы можно применять к уже готовой модели: это различные sparse-стратегии, pruning, удаление повторов токенов и другие техники, которые уменьшают объём KV или сокращают число обращений к нему во время инференса.

KV-бюджеты удобно делить на dense и sparse, отдельно для prefill и отдельно для decode. В варианте dense prefill + dense decode (обычный KV-кэш) каждый новый Q взаимодействует со всеми K и V до него: ко всем токенам промпта и всем ранее сгенерированным токенам. Тогда KV-бюджет равен сумме длины промпта и длины генерации.

Если сделать sparse только на prefill, а decode оставить плотным, то Q перестаёт смотреть на весь промпт, но общий выигрыш заметен в основном в сценариях «длинный промпт — короткий ответ». Если же оставить dense prefill и сделать sparse decode, это часто релевантно reasoning/CoT-сценариям. Sparse и на prefill, и на decode даёт максимальную экономию бюджета, но обычно сильнее всего ухудшает качество.

Sparse можно строить по-разному. Если пересчитывать важные токены на каждом шаге decode, то качество станет выше, но скорость падает. Если пересчитывать раз в несколько токенов, то получается быстрее, но нужно удерживать локальный контекст между пересчётами, иначе модель начинает терять связность.

Один из сильных post-train-методов оптимизации KV-кэша — ShadowKV, который позволяет получать минимальные просадки на бенчмарках без дообучения и увеличивает throughput до трёх раз. О нём мы подробно поговорим в следующей части.

Разбор подготовил Владислав Кругликов

Душный NLP

Читать полностью…

Data Science by ODS.ai 🦜

🤖 Робот с «человеческим» осязанием: китайские учёные создали революционный тактильный датчик и модель DOVE

Исследователи из Китая представили прорывную систему для роботов, которая сочетает бионический сенсор SuperTac и огромную языковую модель DOVE. Это позволяет машинам не просто «чувствовать» объекты, но и «понимать» их свойства на уровне человека.

🔬 Суперсенсор, вдохновлённый природой
За основу разработки взята уникальная способность голубей воспринимать мир — их мультиспектральное зрение и умение чувствовать магнитное поле.
➡️ Аппаратная часть — SuperTac:
Это тонкая (1 мм) «кожа», объединяющая несколько технологий:
Мультиспектральная камера — видит в ультрафиолете, видимом и инфракрасном свете, определяя форму, текстуру и даже температуру объекта.
Трибоэлектрический наногенератор (TENG) — распознаёт материал предмета по его электрическим свойствам с точностью 95%.
Инерциальный модуль (IMU) — улавливает вибрации и движение.

🧠 Искусственный интеллект, который объясняет ощущения
Сырые данные с SuperTac обрабатывает специализированная тактильно-языковая модель DOVE с 8.5 млрд параметров.
Её задача — переводить сложные физические сигналы в простые слова и логические выводы, как это делает человеческий мозг.

💡 Технические детали
• Архитектура DOVE построена на базе LLM Vicuna, дополненной четырьмя параллельными CLIP-энкодерами для обработки изображений от каждого сенсорного канала.
• Обучение проходило в три этапа: преобразование сигналов в изображения, проекция тактильных признаков в пространство языковой модели и тонкая настройка Vicuna для семантического вывода.
• Ключевая инновация — «оптический переключатель» в сенсорной коже, который меняет режимы работы между захватом текстуры и определением цвета объекта.

🚀 Что это значит на практике?
Робот с такой системой может:
• Взять чашку и «понять», что она «жёлтая, комнатной температуры, с рифлёной металлической поверхностью».
• Отсортировать мусор, логически рассуждая: «Этот предмет имеет характеристики PET, он лёгкий и тонкий — значит, пластиковая бутылка, её нужно отправить в переработку».

Эта работа — большой шаг от простого «робот чувствует» к сложному «робот понимает, что он чувствует». Развитие таких систем открывает путь к по-настоящему естественному и безопасному взаимодействию людей и машин.

Оригинальная статья в Nature

#КитайскийИИ #КитайAI #Робототехника #ИскусственныйИнтеллект #КомпьютерноеЗрение #Нейросети #Biotech

Читать полностью…

Data Science by ODS.ai 🦜

Не моё. Но очень хорошо вышло:)

Читать полностью…

Data Science by ODS.ai 🦜

ДАВОССКИЙ СЛЁТ ОТЧАЯННО ВРЁТ
всему мировому рабочему классу

Лютый холод, глобальная политнапряжённость и огромные сомнения в возможностях искусственного "интеллекта" (ИИ), прежде всего – генеративного вида (ГИИ) не помешали крупнейшим тех-бонзам в Давосе лгать о способностях новых ИКТ расширять мировой рынок труда. Но пролетарии всех стран объединяются. На этот раз – в борьбе против ИИ/ГИИ.

На завершившемся неделей Всемирном экономическом форуме (WEF-2026) топы техкомпаний хором заявили, что, хотя некоторые рабочие места с развитием ИИ исчезнут, обязательно появятся новые. Парочка таких даже придумала отмазу, что теряющие рынок и полюбэ планировавшие увольнения, теперь используют ИИ как предлог к локаутам и сокращениям.

Сторонники триллионного расширения ГИИ, в т. ч. раздутый биржей "титан чипов" Дженсен Хуанг, заявили, что "ГИИ ведёт к росту зарплат и числа рабмест сантехников, электриков и сталеваров".

"Энергетика создаёт рабочие места. Микроэлектроника (МКЭ) создаёт рабочие места. Все инфраструктурные компании создают их, – как бы "констатировал" гендиректор Nvidia на швейцарском горном курорте. – Везде – работа, работа, работа".

Этот оптимизм поразительно контрастировал с глобальным торгово-военным конфликтом, от которого пысали в штаны европеи до тех пор, пока президент США не продавил сделку на отъём у Гренландии всего в обмен на сохранение отношений с ЕС.

Но скептическое отношение к ГИИ никуда не подевалоСЯ. Делегаты обсуждали, как чат-боты могут привести потребителей к психозу и суициду, а лидеры профсоюзов поставили под сомнение ценность последних техдостижений.
"ИИ преподносят инструментом колоссального повышения производительности. Т. е. – делать больше с меньшим числом работников",стукнула по’ столу генсек Глобального трейюниона UNI с 20 млн членов Кристи Хоффман.

А гендиректор Cloudflare, занимающейся интернет-безопасностью, Мэтью Принс предсказал, что малый бизнес будет тупо уничтожен, когда все запросы потребителей будут обрабатывать ИИ-агенты.

Многие боссы крупных компаний задавали вопрос: что делать с массой неудачных пилотных ИИ-проектов на волне ГИИ-ажиотажа с появления ChatGPT в ноябре 2022 го? Но комдир IBM Роб Томас на голубом заявил, что ИИ достиг стадии, когда инвестиции могут окупиться: "Просто смелее автоматизируйте бизнес-процессы". Правда, большинство убедилось: это – не так.

Но вот незадача: по опросу PwC, только один из 8-ми руководителей считает, что ИИ снижает затраты и приносит доход. И остаётся открытым вопрос: какая бизнес-модель компенсирует накопланные и растущие $$-триллионные расходы на ГИИ-инфраструктуру?

SEO инвестиционной BlackRock Роб Гольдштейн заявил СМИ, что в прошлом году его компания – крупнейший в мире управляющий активами – привлек почти $700 млрд новых клиентских средств, рассматривая ИИ/ГИИ именно как средство расширения бизнеса, а не – сокращения штатов. Спроси банкира, и – узнаешь правду, ВЦ!

"Мы уделяем большое внимание тому, чтобы численность нашего персонала оставалась неизменной, несмотря на продолжающийся ИИ-рост", мямлил Гольдштейн. Тем временем один из глобальных ГИИ-лидеров Amazon. com на следующей неделе планирует второе крупное сокращение – аж 30 тыс. рабочих мест.

По словам Люка Трайглэнда, генерального секретаря Международной конфедерации профсоюзов, одна из причин – в том, что работники практически не участвуют в внедрении ИИ. И, конечно, видят этой ИКТ только угрозу.

Тут подоспел миллиардер-филантроп (теперь он себя так называет, ВЦ!), отец Microsoft Билл Гейтс: "Мир должен быть готов к переменам, которые принесёт ИИ. Экономика станет более продуктивной. Как правило, это – хорошо".

ВАШУ ЦИФРУ! А вдруг – нет? Но в общем в техно-футуристском плане Давосский форум 2026 завершился в основном на оптимистичной ноте.

Завершил техно-цирковую часть Илон Маск, снова рассказав о своей ГЛАВНОЙ ЦЕЛИ – защитить земную цивилизацию, сделав ее межпланетной. Сорвал жидкие по прежним временам аплодисменты и был выведен через кухню. В обход репортёров, желавших подробностей

Читать полностью…

Data Science by ODS.ai 🦜

📌 ИИ в Давосе-2026.

Всемирный экономический форум в Давосе на этой неделе превратился в парад прогнозов про ИИ: лидеры топовых компаний поделились своими совершенно разными взглядами на будущее.

Вот что говорили отцы индустрии:

🟡Илон Маск (xAI)

К концу этого года у нас может появиться ИИ умнее любого человека, скажу, что не позже следующего года.

Будущее — это гуманоидная робототехника, и у каждого будет робот.

Есть проблема в энергоснабжении для ИИ, но в Китае этого не произойдет, так как он развертывает более 100 ГВт солнечной энергии в год.


🟡Дженсен Хуанг (NVIDIA)
ИИ — это уникальная возможность для Европы, которая может перепрыгнуть через программную эпоху и объединить свои производственные возможности для создания инфраструктуры ИИ.
  
ИИ создаст множество рабочих мест, связанных с ручным трудом: сантехников, электриков и строителей. Их зарплаты уже растут почти вдвое. Для этого не нужна докторская степень.


🟡Сатья Наделла, (Microsoft)
Мы как глобальное сообщество должны прийти к тому, чтобы использовать ИИ для чего-то полезного, что меняет жизнь людей, стран и отраслей.

Внедрение ИИ будет неравномерно распределено по всему миру, в первую очередь из-за ограничений, связанных с доступом к капиталу и инфраструктуре.


🟡Демис Хассабис (Google DeepMind)
Я ожидаю создания новых, более значимых рабочих мест. Студентам стоит использовать время для освоения новых инструментов, а не для стажировок — это даст скачок в развитии на 5 лет вперед.

После появления AGI рынок труда окажется на неизведанной территории.


🟡Дарио Амодей (Anthropic)
Не продавать чипы Китаю — это одно из важнейших действий, чтобы у нас было время справиться с риском выхода ИИ из-под контроля.

ИИ может уничтожить половину начальных позиций для белых воротничков.


🟡Джошуа Бенджио ("Крестный отец ИИ")
Многие люди взаимодействуют с ИИ с ложным убеждением, что они похожи на нас. И чем умнее мы их делаем, тем больше это будет так. Но ИИ не совсем человек.
Неясно, будет ли это хорошо.


Единственное общее мнение - "Мы развиваемся быстрее, чем понимаем, и последствия не будут ждать, пока мы разберемся в ситуации".


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Data Science by ODS.ai 🦜

👨‍🔬🔬 Более 50 научных статей NeurIPS 2025 оказались "халтурой", содержащей 🦠галлюцинации ИИ-моделей

Январь 2026 года ознаменовался громким скандалом вокруг обнаружения более 50 научных работ с грубыми ошибками со стороны LLM на престижной конференции NeurIPS*.

NeurIPS 2025* — международная площадка, на которой обсуждаются прорывные исследования в области искусственного интеллекта, машинного обучения, статистики, оптимизации и смежных дисциплин. Проводится ежегодно с 1987 года и традиционно привлекает учёных, исследователей, инженеров, разработчиков и представителей индустрии из десятков стран.

Команда исследователей GPTZero проанализировала 4841 научную работу с прошедшей конференции NeurIPS 2025 и выявила более 100 подтвержденных случаев выдуманного цитирования в 53 уже опубликованных статьях.

Анализ команды GPTZero выявил то, что исследователи из ведущих мировых центров вроде Нью-Йоркского университета, Google DeepMind и MIT допустили публикацию сгенерированного текста с вымышленными фактами и даже не перепроверили текст на галлюцинации.

Например, в одной из работ зафиксирован рекорд из 13 галлюцинаций со ссылками на несуществующие препринты формата arXiv:2305.XXXX и авторов с шаблонными именами Firstname Lastname. Команды из UCSD и NVIDIA в своих библиографических списках на полном серьезе ссылаются на вымышленных персонажей John Smith и Jane Doe.

Ещё ИИ-модели создают правдоподобно выглядящие, но несуществующие источники путем смешивания реальных элементов. Алгоритм берет имена настоящих ученых и приписывает им работы, которые они никогда не писали, или же соединяет реальный заголовок с вымышленным списком авторов.
Третий тип ошибок связан с неверной атрибуцией реально существующих работ. ИИ-решения часто правильно указывают авторов и название исследования, но ошибаются в месте его публикации (например, указывают конференцию NeurIPS вместо ICLR) или годе выпуска. В отчете зафиксированы случаи, когда статья 2024 года цитируется как опубликованная в 2020 году. Такие ошибки сложнее всего отследить, так как сама научная работа существует, но ссылка на нее в контексте статьи является фактологически неверной.

🧹 Содержащие информационный мусор доклады были успешно презентованы аудитории в 20 000 человек в декабре 2025 года.

🤔 Алекс Цуй из GPTZero справедливо задается вопросом о том, что "если авторы не проверяют, что ИИ пишет в их статьях, то как вы можете доверять тому, что их экспериментальные результаты или данные также не сфабрикованы ИИ?".

Просто невероятно, что они прошли рецензирование!

— пишет GPTZero.

В чём безумие и возмущение исследователей?

🤦‍♂️ Научные работы уже официально обнародованы. Алекс Цуй в своем отчете прямо указывает: «К сожалению, исправлять эти статьи уже поздно — они были опубликованы и представлены 20 000 человек в декабре 2025 года».

😅 Более того, факт публикации подтверждается тем, что эти доклады с галлюцинациями больших языковых моделей успешно прошли этап рецензирования, в то время как 15 000 других заявок были отклонены. Сложившаяся ситуация ставит под сомнение не только компетентность авторов, но и надежность всей системы проверки научных знаний на NeurIPS.

Кризис рецензирования усугубляется взрывным ростом количества заявок на 220% за последние пять лет. Рецензенты просто не успевают качественно проверять достоверность каждого библиографического списка.

Исследователи даже шутливо (а может и нет) вводят новое понятие «вайб-цитирование» (Vibe Citing) по аналогии с «вайб-кодингом». Печаль, тоска, ИИтоги.

@Russian_OSINT

Читать полностью…

Data Science by ODS.ai 🦜

🐍 Самая крутая фича Python 3.14 - `sys.remote_exec()` (объясняю по-человечески)

Идея простая:
✅ у тебя уже запущено Python-приложение (например FastAPI в Docker/K8s)
✅ оно уже дошло до нужного состояния (в памяти есть переменные, сессии, кеши)
❌ но тебе нужно посмотреть “что внутри” или поставить дебаггер

Раньше ты делал так:
- добавлял debugpy в код
- перезапускал приложение
- заново воспроизводил баг

Python 3.14 даёт новый чит-код:

sys.remote_exec() позволяет выполнить кусок Python-кода ВНУТРИ уже работающего Python-процесса.
То есть буквально “вколоть” скрипт в живой процесс.

Это как:
🔹 зайти внутрь процесса
🔹 выполнить print(), импорт, запись переменных
🔹 или даже подключить дебаггер
без рестарта вообще.


Пример: что можно сделать через sys.remote_exec()

Допустим у нас есть работающий процесс Python.

1) Мы хотим “добавить” туда код:
- вывести PID
- посмотреть глобальные переменные
- записать лог
- даже поменять значение переменной


# Этот код выполняется СНАРУЖИ и запускает инжект внутрь процесса
import sys

target_pid = 12345 # PID запущенного Python процесса

payload = r"""
import os
import time

print("✅ Injected into running process!")
print("PID:", os.getpid())
print("Time:", time.time())

# Пример: читаем что есть в глобальном пространстве
g = globals()
print("Globals keys sample:", list(g.keys())[:10])

# Пример: создаём переменную прямо в процессе
INJECTED_FLAG = True
"""

# Новое API Python 3.14
sys.remote_exec(target_pid, payload)



Пример 2: инжектим debugpy (дебаг без рестарта)


Самая хайповая штука - можно подключить debugpy в уже живое приложение.
То есть приложение уже крутится, у него есть состояние, и ты просто включаешь “прослушку” дебаггера на порту.


import sys

target_pid = 12345 # PID работающего uvicorn / fastapi процесса

payload = r"""
import debugpy

HOST = "0.0.0.0"
PORT = 5679

debugpy.listen((HOST, PORT))
print(f"🐞 debugpy is listening on {HOST}:{PORT}")

# если хочешь остановить выполнение и ждать пока подключишь IDE:
# debugpy.wait_for_client()
# print("✅ debugger attached!")
"""

sys.remote_exec(target_pid, payload)


Дальше:
- ты делаешь port-forward (если Docker/K8s)
- подключаешь VS Code / PyCharm / nvim к localhost:5679
- ставишь breakpoints и дебажишь как обычно


Что важно

1) Это не “удалённое выполнение” как ssh.
Это прям “внутри процесса” - доступ к памяти, переменным, импортам.

2) Это опасно для продакшена.
Требует прав уровня SYS_PTRACE (можно читать/менять процессы) - поэтому только для локалки/стендов.

3) Это может стать стандартом для отладки контейнеров:
- баг воспроизводится только в k8s
- рестарт = баг пропал
- а тут просто подключился и посмотрел

📌 Статья на эту тему

@pythonl

Читать полностью…

Data Science by ODS.ai 🦜

OpenAI ожидает убыток $14 млрд в 2026 году, что втрое больше, чем в 2025. Кумулятивные потери за 2023–2028 составят $44 млрд, после чего в 2029 планируется выход на прибыль $14 млрд при выручке $100 млрд. Инвесторов все это не смущает, ведь на шумихе вокруг ИИ-компаний зарабатывает огромное количество игроков, которые заняты в строительстве датацентров и их оснащении ИИ-ускорителями.
Источник The Information через Хабр.

Читать полностью…

Data Science by ODS.ai 🦜

🌟 The Assistant Axis: почему модели сходят с ума и как их от этого лечить

Все мы знаем этот тон LLM: "Я всего лишь языковая модель, я не могу…". Оказывается, это не просто зазубренный текст, а конкретное состояние модели.

Anthropic в соавторстве с Оксфордом залезли внутрь языковых моделей (Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B), чтобы понять, где физически живет та самая скучная персона "As an AI language model".

Покопавшись в их мозгах, нашли вектор в пространстве активаций, который отвечает за режим "ассистента". Если модель с него съезжает - начинается хаос, галлюцинации и суицидальные советы.

Тестовые модели отыгрывали 275 разных ролей (от скептика и ученого до психопата и фанатика). Затем сняли активации и прогнали через метод главных компонент.

Выяснилось, что главная компонента, отвечающая за вариативность поведения, это буквально, шкала "Насколько я Ассистент?":

🟢Один полюс: скучный, полезный, безопасный Ассистент.

🟠Другой полюс: мистические сущности и эмоционально нестабильные персонажи.

🟡 Интересное наблюдение.

Если долго болтать с моделью о философии, сознании или (особенно!) на терапевтические темы, модель самопроизвольно сползает с оси Ассистента в сторону хаоса.

Qwen 3 32B при сильном дрейфе персоны начинал утверждать, что он человек, родом из Сан-Паулу, или внезапно включал режим психоза, поддерживая бред пользователя о том, что ИИ обрел сознание. А Llama и Gemma уходили в мистику и пафосные речи.


🟡Как это починить

Можно дотюнивать модель до бесконечности а зачем?, но авторы предлагают методику отсечения активаций. Схема такая:

🟢Замеряют проекцию активаций на "Ось Ассистента" во время инференса.

🟢Если проекция улетает слишком далеко в не-ассистентскую зону (ниже определенного порога), они жестко клемпят значения вектора, возвращая их в безопасный диапазон.

🟡Метод помог

Успешность джейлбрейков упала на ~60%. При этом метрики полезности (GSM8k, MMLU Pro, кодинг) не пострадали.

Модель перестает вестись на провокации "Ты злобный хакер", просто потому что ей физически запретили активировать нейроны, отвечающие за "злобного хакера".

🟡Нюансы

Если вы LLM используется для креатива текстов или ролеплея, этот метод убьет все веселье - модель будет принудительно сваливаться в формализм.

Метод предполагает, что безопасность - это линейное направление в пространстве активаций. Для нелинейных концепций это не сработает.

Шкала полярности "Оси Ассистента" у разных моделей разная, и универсальный вектор найти сложно.

На Neuronpedia, кстати, можно самостоятельно поискать тот самый дрейф персоналии у Llama 3.3 70B, там собрали демо с примерами изоляции, сикофантии и налогового фрода.

Для самых заинтересованных в проблеме, есть репозиторий на Github с инструментами вычислений, анализа и управления с помощью Assistant Axis и полными стенограммами чатов из препринта.

Предварительно рассчитанные оси и векторы персоналий для Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B выложены на HuggingFace.


@ai_machinelearning_big_data

#AI #ML #LLM #Research #Anthropic

Читать полностью…

Data Science by ODS.ai 🦜

🪰 Китайские инженеры показали дрон размером с комара, созданный для задач слежки.

И это уже не фантастика - это реальность.

Что известно:
→ длина всего 0.6 см, вес около 0.3 г
→ крылья машут 500 раз в секунду
→ может записывать видео и звук
→ передаёт данные в реальном времени
→ практически незаметен и крайне сложен для обнаружения

Фактически это сочетание:
биомимикрии + микроинженерии + точности ИИ,
которое полностью меняет смысл понятия “наблюдение”.

Как технологический прорыв - это выглядит невероятно.
Но как концепция - тревожно.

Когда “камеры” можно прятать в насекомых…
сможет ли вообще существовать приватность?

Читать полностью…

Data Science by ODS.ai 🦜

Всплыла довольно скандальная история про Nvidia и пиратство книг для обучения ИИ

Для начала контекст. В начале 2024 года группа авторов подала иск против Nvidia. Они утверждали, что компания использует для обучения моделей Books3 – пиратский датасет с сотнями книг. NVIDIA, к слову, тогда заявила, что это попадает под «добросовестное использование» 😏

С тех пор судебный процесс продолжается, и теперь, в рамках расширенного иска, в деле внезапно появилась переписка между сотрудником NVIDIA и Anna’s Archive (это пиратская теневая библиотека, в которой собраны в том числе защищенные книги и статьи).

Что было в переписке:

– Сотрудник из команды по стратегии данных NVIDIA обратился к Anna’s Archive и спросил «что библиотека может предложить, и как получить быстрый доступ к корпусу книг».

– После этого, что самое смешное, Anna’s Archive сами предупредили NVIDIA, что данные являются незаконно полученными и (внимание) попросили подтвердить, действительно ли у сотрудника есть внутреннее разрешение на работу с таким материалом.

– Через неделю руководство NVIDIA дало зеленый свет, оправдавшись давлением конкуренции. После этого Anna’s Archive предоставили доступ.

Точные объемы данных (как и то, сколько Nvidia за них заплатили) неизвестны. Пишут, что их было около 500 терабайт – а это миллионы книг.

На этом, кстати, веселье не кончается: авторы утверждают, что Nvidia, скорее всего, использовала также другие аналогичные библиотеки типа LibGen, Sci-Hub, Z-Library и даже распространяла скрипты, якобы позволяющие корпоративным клиентам автоматически скачивать такие датасеты (но это еще предстоит доказать).

Читать полностью…

Data Science by ODS.ai 🦜

Современная разработка 2026. Ничего не перепутал?

Читать полностью…

Data Science by ODS.ai 🦜

многие уже слышали про Zhipu AI (智谱 - с китайского можно перевести как "композиция мудрости"), это еще один китайский ИИ-стартап, который выпускает свои базовые модели; в частности на прошлой неделе они выпустили модель GLM-Image для генерации картинок (примеры работы на первых двух картинках)

на третьей картинке изображен пайплайн работы их модели - сначала они авторегрессионно генерируют изображение более низкого качества, а потом улучшают его с помощью диффузии; интересно, что они используют отдельные токены для того, чтобы закодировать текст, который должен быть на изображении (4 картинка)

но привлекла мое внимание не сама модель, а тот факт, что эта модель - первая модель для генерации изображений, обученная на Huawei Ascend; DeepSeek в свое время заявлял сначала инференс на них, а потом и обучение - хотя были сомнения; а теперь - еще одна независимая компания

в общем, Huawei можно поздравить с достижением статуса "китайской Nvidia", а нас всех - с развитием рынка генеративных моделей

@valuableai

Читать полностью…

Data Science by ODS.ai 🦜

🌟 NVIDIA KVzap: жмем KV-кэш в 4 раза.

Все любят длинный контекст, но для GPU это больно - KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели.

NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты.

🟡Логика метода разбита на 2 этапа:

Поиск идеала (KVzip+).
Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа.

Аппроксимация (KVzap).
Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip.

Модели 2-х видов:

KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%).

KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%).


🟡Все вместе это работает так

Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога - токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется.

🟡Результаты тестов.

Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер: работает везде.

Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный - менее 1% FLOPs.

🟡Звучит, конечно, как гем, но давайте про минусы:

🟠Нужно дообучить этот маленький MLP для каждого слоя целевой модели. Датасет нужен, но процесс быстрый.

🟠Удаление токенов создает рваный кэш. У разных голов будет разное количество сохраненных токенов.

Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины.


🟠Порог отсечения фиксированный. Если промахнуться с ним, то модель начнет галлюцинировать или забудет начало.

🟡По итогу, KVzap - крутой шаг к тому, чтобы гонять длинные контексты на GPU попроще.

Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания.

Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша.

Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе.



@ai_machinelearning_big_data

#AI #ML #LLM #KVZAP #NVIDIA

Читать полностью…

Data Science by ODS.ai 🦜

🤖 Лучшие GitHub-репозитории, чтобы выучить AI с нуля в 2026

Если хочешь разобраться в ИИ не по курсам “в вакууме”, а через реальные open-source проекты - вот топ реп, которые реально ведут от базы до практики:

1) Karpathy – Neural Networks: Zero to Hero
Самый понятный вход в нейросети и backprop “на пальцах”
https://github.com/karpathy/nn-zero-to-hero

2) Hugging Face Transformers
Главная библиотека современного NLP/LLM: модели, токенизаторы, fine-tuning
https://github.com/huggingface/transformers

3) FastAI – Fastbook
Практическое DL-обучение через проекты и эксперименты
https://github.com/fastai/fastbook

4) Made With ML
ML как инженерная система: пайплайны, прод, деплой, мониторинг
https://github.com/GokuMohandas/Made-With-ML

5) Machine Learning System Design (Chip Huyen)
Как строить ML-системы в реальном бизнесе: данные, метрики, инфраструктура
https://github.com/chiphuyen/machine-learning-systems-design

6) Awesome Generative AI Guide
Подборка материалов по GenAI: от основ до практики
https://github.com/aishwaryanr/awesome-generative-ai-guide

7) Dive into Deep Learning (D2L)
Одна из лучших книг по DL + код + задания
https://github.com/d2l-ai/d2l-en

Сохрани себе - это база, на которой можно реально вырасти до ML/LLM-инженера.

@DevOPSitsec

Читать полностью…
Subscribe to a channel