46226
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
🔥 CEO Cursor заявил, что они скоординировали сотни GPT-5.2 агентов, чтобы автономно собрать браузер с нуля всего за 1 неделю.
Цитата:
> “Мы построили браузер с GPT-5.2 прямо в Cursor. Он работал без остановки целую неделю.”
✔️ OpenAI открыла доступ к GPT-5.2 Codex через Responses API.
Модель, ранее доступная лишь в среде Codex, теперь предлагается широкому кругу разработчиков. OpenAI позиционирует версию 5.2 как инструмент для глубокого рефакторинга, написания сложной функциональности и аудита безопасности.
Модель поддерживает мультимодальный ввод и предлагает гибкую настройку глубины рассуждений — от низкого до очень высокого уровня.
За повышенную производительность придется платить: стоимость токенов выросла до $1.75 за миллион на вход и $14 на выход. Поддержка новой модели уже появилась в Cursor и Windsurf.
OpenAI Developers в сети X
✔️ Anthropic усиливает команду экспериментальных продуктов Labs.
Майк Кригер оставляет пост директора по продукту, чтобы сосредоточиться на создании новых инструментов в паре с Беном Манном. Руководство основной продуктовой стратегией переходит к Ами Вора, присоединившейся к компании в конце 2025 года; она возглавит Labs совместно с техническим директором Рахулом Патилом.
Подразделение зарекомендовало себя как генератор хитов Anthropic. Именно здесь родился Claude Code, который всего за 6 месяцев превратился в продукт с миллиардной выручкой и был разработан стандарт MCP, ставший отраслевым эталоном со 100 млн. загрузок ежемесячно.
Президент компании Даниэла Амодей говорит, что формат лаборатории позволяет действовать экстремально быстро: например, Cowork был создан с нуля именно в Labs всего за полторы недели.
anthropic.com
✔️ Z.AI представила модель GLM-Image.
GLM-Image стала важной вехой в технологической независимости КНР. Это первая модель, которая обучалась исключительно на китайском стеке - серверах Huawei Ascend Atlas 800T A2 и фреймворке MindSpore, без использования ускорителей NVIDIA.
Под капотом гибрид из 9-миллиардного авторегрессионного трансформера и 7-миллиардного диффузионного декодера на базе DiT. Разработчики утверждают, что такая связка превосходит конкурентов в рендеринге текста и создания инфографики.
API модели предлагается по цене примерно 1,5 цента за изображение, а веса выложены на HuggingFace и ModelScope.
z.ai
✔️ Google обновила модель Veo.
Google обновила свою видеомодель Veo до версии 3.1, добавив возможность генерации роликов с соотношением сторон 9:16, инструменты для апскейлинга до 4K и переработку функции референса по изображению.
3.1 лучше удерживает визуальную консистентность персонажей и окружения между сценами и точнее следует коротким промптам.
Новые возможности уже доступны в приложении Gemini, AI Studio и на Vertex AI.
blog.google
✔️ Скандал с суверенным ИИ в Южной Корее.
Госпроект Сеула стоимостью $6,9 млрд, призванный избавить страну от технологической зависимости от США и КНР, оказался в центре скандала: ключевые участники использовали опен-сорс решения китайских конкурентов.
Проверка показала, что 3 из 5 финалистов конкурса, компании Naver Cloud, SK Telecom и стартап Upstage заимствовали компоненты у Alibaba, DeepSeek и Zhipu AI. В частности, выяснилось, что визуальный энкодер флагманской модели Naver HyperCLOVA X на 99,5% совпадает с архитектурой Qwen 2.5.
Разработчики оправдываются инженерной целесообразностью, утверждая, что заимствовали лишь вспомогательные модули и код инференса. Однако, использование компонентов с китайскими копирайтами в проекте, который финансируется государством, вызвало жесткую критику общественности и поставило под угрозу квалификацию участников.
wsj.com
@ai_machinelearning_big_data
#news #ai #ml
⚡️ DeepSeek Engram: условная память LLM через поиск.
DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером, который доказывает, что новое — это хорошо и очень хитро забытое старое.
Пока все пытаются запихнуть в LLM как можно больше слоев и параметров, DeepSeek задались вопросом: зачем тратить дорогой компьют на запоминание фактов, если их можно просто подсмотреть? Знакомьтесь:
🟡Engram — модуль, который возвращает нас к дедам с N-грамами.
DeepSeek предлагает разделить "думалку" (MoE-слои) и "хранилище знаний" (Engram):
🟢Hashed N-grams: модуль смотрит на входящий текст и нарезает его на N-грамы (последовательности токенов).
🟢O(1) Lookup: система делает мгновенный запрос в гигантскую хэш-таблицу эмбеддингов - это чисто статический поиск.
🟢Context-Aware Gating: самый сок. Модель не просто слепо берет данные из "хранилища знаний" - специальный гейтинг-механизм решает: "Нам сейчас нужен факт из памяти или будем думать сами?". Если найденный N-грам релевантен контексту, он подмешивается в скрытое состояние.
🟢Tokenizer Compression: чтобы хранилище знаний не лопнуло от мусора, похожие токены в нем схлопывают в один ID, например, "Apple" и "apple".
🟡Баланс распределения ресурсов.
Чтобы правильно поделить бюджет параметров между MoE и Engram посчитали сценарии масштабирования. График лосса от соотношения этих частей выглядит как буква U:
🟠Перекос в MoE (100% вычислений): модель тратит дорогие слои внимания на запоминание статики. Это неэффективно, лосс высокий.
🟠Перекос в Память (0% вычислений): модель превращается в гигантскую википедию. Она помнит факты, но у нее напрочь атрофируется ризонинг. Лосс тоже высокий.
🟢Золотая середина (дно U-кривой): 80% MoE и ~20% Engram.
🟡Тесты и результаты.
DeepSeek обучили модель Engram-27B и сравнили ее с классической MoE-27B при одинаковом бюджете параметров и FLOPs. Итоги:
Общее качество подросло: MMLU +3.4 пункта, HumanEval (код) +3.0.
На длинном контексте - разнос. В тесте на поиск иголки (NIAH) точность выросла с 84.2 до 97.0. Модель разгрузила слои внимания от запоминания локальных паттернов, и оно сфокусировалось на глобальном контексте.
Модель быстрее сходится. Engram берет на себя рутину в ранних слоях, тем самым позволяя модели сразу учиться сложным вещам.
🔥 Хочешь прокачаться в аналитике, но не просто читать теорию, а решать реальные задачи?
Мы запустили полностью бесплатный телеграм-тренажёр 👇
Тебя ждут сценарии, с которыми сталкиваются аналитики каждый день: от простых запросов до задач уровня собеседований.
Что внутри:
✔ живые кейсы из реальной практики
✔ удобный симулятор - как работа в компании, только бесплатно
✔ разбор ошибок — понимаешь не только «как», но и «почему»
✔ добавляем задачи с интервью и улучшаем бот вместе с сообществом
Начни тренироваться сегодня — и почувствуй уверенность в работе с данными.
t.me/Analitics_databot
Тацитное знание — это практическое личное знание, которое мы используем чтобы делать что-то в мире. Это именно то, что характеризует отличие теории от практики.
Когда теория есть в каждой LLM-ке или Ютуб ролике именно наличие практического опыта позволяет сэкономить время и силы для решения задач.
Ребята в AI Talent Hub и GIGASCHOOL сделали курс с фокусом на выводе проектов в прод под нагрузку, не забыв и про традиционные ipynb-тетрадки.
Вот это всё про дообучение, fine-tuning, PEFT, LoRA / QLoRA, RLHF. С актуальными LangChain, LangGraph, векторными базами чтобы можно было пройти фильтр HR-ов.
Про книгу Валеры и Арсения я не спрашивал, но уверен, что её затронут тоже.
Курс запускается уже третьим потоком (пофиксили баги и может сделали новых 🤷♀️)а преподают практики из крупных AI-команд, включая директора по разработке моделей в Газпромбанке Кристину Желтову, NLP Lead'а из X5 Tech Александра Потехина и CEO HiveTrace Евгения Кокуйкина.
Старт: 26 января на 25 недель. Дают диплом, есть рассрочка.
Ссылка: https://clck.ru/3R4Cen
Искусственный интеллект в проектах — помощник, а не начальник🤖
ИИ всё чаще появляется в рабочих процессах — но польза начинается не там, где он «думает за людей», а там, где снимает рутину.
Что уже можно автоматизировать без боли:
🟣 создавать задачи из писем и встреч;
🟣 следить за статусами и дедлайнами;
🟣 собирать отчёты и сводки;
🟣 подсвечивать перегруз и зависшие задачи.
Что ИИ делать не должен — принимать решения и брать ответственность. И именно с таким подходом он работает: человек решает, ИИ экономит время.
Почему управление проектами — идеальная среда для ИИ и как это уже реализовано внутри Kaiten — рассказываем в статье на Хабре: https://habr.com/ru/companies/kaiten/articles/974472/
📌Как делали MiniMax М2.1 и что будет дальше.
Когда говорят, что одна модель пишет код лучше другой, обычно имеется ввиду бенчмарк SWE-Bench. Модель получает реальный баг из настоящего проекта с Github, который она должна прочитать, найти ошибку и исправить её. Это частично повторяет ежедневную работу программиста.
Но у этого бенча, как и у любого другого, есть свои недостатки.
🟠SWE-Bench работает только с Python. В реальном мире разработчики имеют дело с Java, Go, TypeScript, Rust, C++ и еще кучей других.
🟠Бенчмарк только про исправление ошибок, а программисты еще пишут новые функции, занимаются рефакторингом и оптимизацией.
🟠Его результаты сильно зависят от того, в каком окружении работает модель.
И вот здесь MiniMax-AI задалась вопросом: как создать по-настоящему универсального ИИ-программиста?
Ответ они нашли и реализовали его в своей свежайшей модели M2.1.
🟡Масштабирование окружения.
За этим расплывчатым термином кроется огромная система, которая оперирует популярными языками: JS, TS, Python, Java, Go, C++ и Rust.
Для этого с GitHub были собраны более 100 тыс. реальных задач с описанием проблемы, кодом и тестами. Это было непросто, так как сложные языки (Java или C++) требуют настройки и у каждого языка свои фреймворки и системы управления зависимостями.
Чтобы обучить модель на таком массиве данных, MiniMax построил инфраструктуру, способную запускать более 5 тыс. изолированных сред выполнения за максимально короткое время - 10 секунд.
🟡Выход за рамки баг-фиксов.
MiniMax-M2.1 обучали и генерации тестов и в результате оказалось, что это критически важный навык.
Предыдущая версия, M1, писала слишком простые тесты и часто выбирала неверные решения. M2.1 в этом преуспела и сравнялась по результатам с мощным конкурентом Claude Sonnet 4.5.
Еще она научилась оптимизировать производительность кода — на SWE-Perf показала средний прирост эффективности в 3.1%.
И наконец, M2.1 научили делать Code Review, для чего создали внутренний бенчмарк SWE-Review.
🟡Обобщение на незнакомых окружениях (Generalization on OOD Scaffolds).
Модель должна одинаково хорошо следовать длинным инструкциям и адаптироваться к разным способам управления контекстом диалога.
Команда провела тесты в mini-swe-agent, Droid и Claude Code и если посмотреть на цифры из их сравнительной таблицы, то можно увидель, что модель стала гораздо более гибкой и универсальной.
На том же SWE-Bench, при использовании Claude Code, MiniMax-M2.1 выбила 74 балла, что выше, чем у модели M2 с ее 69.2 баллами, и практически наравне с Claude Sonnet 4.5 и DeepSeek V3.2.
На другом тесте, OctoCodingBench, разрыв еще больше: 26.1 у новой модели против 13.3 у старой.
🟡Планы на 2026.
Во-первых, MiniMax планирует научить модель оценивать не только правильность кода, но и читаемость кода, качество комментариев, прозрачность процесса работы.
Во-вторых - повысить эффективность решения задач, чтобы модель не делала лишних шагов, например, не перечитывала один и тот же файл по несколько раз.
Но самое интересное — это их планы по RL Scaling, и создание так называемой Coding World Model.
Идея в том, чтобы построить модель-симулятор, которая сможет предсказывать результат выполнения кода, не запуская его в реальности.
⚡️ Google показала интересный пример того, как мультимодели уже помогают в гуманитарных исследованиях.
Gemini 3.0 Pro смогла расшифровать загадочные пометки в «Нюрнбергской хронике», которым более 500 лет. В модель залили сканы страниц и попросили не просто переписать текст, а объяснить, что означают заметки с учетом контекста.
Оказалось, что круговые таблицы на полях были попыткой примирить две конкурирующие библейские хронологии и вычислить год рождения Авраама.
Сложность состояла в том, что заметки смешивали латинские сокращения, римские цифры и обрывки надписей.
Gemini связала вычисления с системой датировки Anno Mundi (год от сотворения мира), привязала их к традициям Септуагинты и еврейской Библии, а затем перевела в «до н.э.», получив расхождение примерно в 100 лет.
siliconangle.com/2026/01/01/googles-gemini-3-0-pro-helps-solve-long-standing-mystery-nuremberg-chronicle/
@data_analysis_ml
вообще эта новость вполне могла быть в любой день, но иллюстрация требует поставить ее в субботу; суть новости - Google выкатил генератор заголовков для новостных сюжетов, и все заверте... я могу восстановить логику событий так, что кто-то решил обучить генератор делать привлекательные (кликабельные) заголовки; как следствие, генератор честно выучился делать кликбейт - то есть максимально "желтые"
я думаю, что люди, которые обучали, не были знакомы со спецификой новостного домена, что еще раз подчеркивает необходимость погружения в область, прежде, чем "палить из всех столов", в смысле обучать самые модные модели на любых доступных данных
@valuableai
📌Интервью 23-летнего сотрудника OpenAI, который выучил DL без учебы в университете.
Интересная история, которая заставляет задуматься об образовании и карьере.
Знакомьтесь - Габриэль Петерссон. Ему всего 23 года, он бросил школу в глухом шведском городке, не учился в ВУЗе, но прямо сейчас работает научным сотрудником в OpenAI, в команде Sora.
🟡Мы живем во время, когда монополия ВУЗов на фундаментальные знания пошатнулась.
Традиционное образование - это путь "снизу вверх". Хочешь заниматься машинным обучением? Сначала выучи линейную алгебру, потом матан, потом тервер. Это долго и зачастую теряется мотивация и понимание, зачем тебе это нужно прямо сейчас.
Масла в котел демотивации подливают компании, которые тоже не очень хотят ждать. Palantir, например, уже нанимает старшеклассников, минуя вузы. И история Габриэля — показательный пример тенденции.
Он не проходил классический путь "школа — бакалавриат — магистратура". Вместо этого он использовал ChatGPT как персонального ментора. И речь не о том, чтобы попросить чат-бот «напиши код за меня». Габриэль использовал метод, который он сам называет «рекурсивным заполнением пробелов».
Его суть том, чтобы идти как бы "сверху вниз". Он берет сложный проект: например, хочет разобраться, как работают модели диффузии. Он просит ChatGPT написать код. Естественно, сначала он ничего не понимает.
И вот тут он начинает задавать вопросы к каждому непонятному модулю. «Что делает этот блок?». Допустим, это блок ResNet. Он спрашивает: «Почему это помогает модели учиться?». И копает глубже. Если всплывает незнакомое понятие - он просит объяснить математическую базу, лежащую в его основе.
Это и есть рекурсия: слой за слоем, пока не заполнятся все пробелы в знаниях. Он не учит математику впрок, он учит ту математику, которая нужна ему прямо сейчас для работы кода.
🟡Но как иностранец без диплома получил визу в США и работу в Кремниевой долине?
Для получения визы талантов (O1) он использовал свою репутацию на Stack Overflow и рекомендации, которые просмотрели миллионы людей, как доказательство вклада в индустрию.
Габриэль советует: забудьте про HR. Резюме и дипломы не важны, если вы можете показать результат. Его стратегия — MVP или демо продукта и написать напрямую топ-менеджменту компании с предложением бесплатной работы на неделю. Это снимает риски для нанимателя и дает вам шанс показать себя.
Его главный посыл: если вы готовы активно задавать вопросы и не боитесь выглядеть глупо перед ИИ, изучая основы, вы уже входите в 1% лучших. Потому что большинство людей просто плывут по течению.
🔜 Посмотреть полное интервью
@ai_machinelearning_big_data
#AI #ML #Interview #OpenAI
я хотел сегодня пропустить, чтобы дать всем отдохнуть, но меня догнала огненная новость - мои бывшие коллеги из исследовательского центра им. Н.Н. Лузина (это псевдоним, могу намекнуть на оригинальное навзвание - 🐉🪷🌺) выложили свой претрейн!
модель под названием Gamayun на 1.5B параметров, лучше Qwen2.5 аналогичного размера на русском, арабском, болгарском, испанском и польском языках!
также в этой работе коллеги предложили бенчмарк RuBIN, фактически измеряющий знание популярных русскоязычных цитат
мне очень приятно начать год с такой новости, поздравляю коллег из исследовательского центра им. Н.Н. Лузина, а также всех интересующихся русскоязычным NLP! 🎉🎉🎉
@valuableai
🧮Математика сюрпризов: как 17-летняя школьница разрушила 40-летнюю гипотезу
Математика 2025 года доказывает: в науке о строгих правилах всё еще полно места для сюрпризов. Даже в областях, где всё казалось изученным до мелочей, старые гипотезы внезапно рушатся под свежим взглядом. Ярким примером стала 17-летняя школьница Ханна Кайро, которая, обучаясь дома на Багамах, смогла опровергнуть 40-летнюю гипотезу из гармонического анализа. Она нашла контрпример там, где опытные ученые десятилетиями видели лишь подтверждение устоявшихся теорий, доказав, что математическая интуиция порой важнее академических регалий.
Геометрия и физика тоже преподнесли невероятные результаты, граничащие с парадоксами. Исследователи наконец обнаружили «нопертэдр» — первый в истории выпуклый многогранник, сквозь который невозможно протащить его собственную копию, а также создали тетраэдр, способный стоять лишь на одной из четырех граней. Параллельно с этим математики представили новое, универсальное решение знаменитой «задачи десяти мартини», окончательно связав квантовую физику электронов с причудливыми фрактальными структурами.
На самом фундаментальном уровне ученые замахнулись на пересмотр природы бесконечности и чисел. Пока одни группы исследователей предлагают новые типы бесконечностей, которые делают математическую вселенную еще более хаотичной и сложной, другие находят способы доказать иррациональность целых наборов чисел. Эти открытия показывают, что даже привычная со школы числовая прямая остается территорией поиска, где за простыми вопросами скрываются глубокие истины, меняющие наше представление о реальности.
#Математика #Наука #Геометрия
SecurityLab в Telegram | MAX | Поддержите нас «бустами»
Привет!
Встречайте двадцать шестой, предновогодний 🎄 выпуск подкаста "Капитанский мостик". В этом выпуске обсуждаются ключевые события года, включая рост цен на технологии памяти, скорость изменений в индустрии, дефляцию технологий и трансформацию маркетинга. Также рассматриваются новые навыки, необходимые в программировании, и важность образования в технологической сфере России. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Сравнение числа ошибок в коде, написанном людьми и AI https://opennet.ru/64485/
Читать полностью…
Топ-10 интересных статей 2025
В этом году я написал 30+ обзоров статей. Получилось немного меньше, чем в прошлые годы, но очень уж много топовых компаний публикуют лишь сухие technical reports.
Большинство статей было, конечно, про LLM, но не только ими полон мир - был интересный прогресс в компьютерном зрении и многих других направлениях.
Хочу поделится топ-10 статей, которые мне показались особо интересными. Лист совершенно субъективный и не покрывает топ-фронтир LLM.
DeepSeek-R1
GSPO
Lumine
SAM-3
Chronos-2
NeoBERT
AlphaEvolve
SWE-rebench
DINOv3
Dragon Hatchling
Детали можно почитать в моём блогпосте. Или на medium.
#datascience
Stereo Data Ёлка | 24 января 2026🎄🦜
Год в мире данных завершается — время свести все каналы воедино! 🔥
На мероприятии вас ждёт:
🔹 Микс главных итогов 2025 в ML/DS
🔹Разбор лучших решений VK RecSys Challenge (эксклюзив для офлайна).
🔹 Атмосфера живого общения, афтепати и подарки за активность.
📌 Формат — гибридный, но полное погружение в «стерео-звук» данных — только офлайн:
📱 В Москве — в гостях у ВК
📱 В Питере — в гостях у ВК
Регистрируйтесь до 20 января на страницах мероприятий, места на площадках ограничены!
TL;DR:
🎄Data Ёлка ждёт всех в субботу 24 января
🎁 Пройдут 2 офлайн Ëлки + одна общая онлайн-трансляция на VK Video ODS.
В МГУ им. М.В. Ломоносова предложили новый подход к формальной верификации моделей
Он проверяет надежность и устойчивость ИИ-моделей при выполнении критически важных задач. Исследователи отмечают, что традиционное тестирование на наборах данных позволяет оценивать только точность, но не дает гарантий, что всегда будут соблюдаться заданные свойства.
Подход протестировали на модели, применяемой в задаче активного шумоподавления. Для этого исследователи разработали набор инструментов: преобразование весов из формата ONNX в систему ограничений и проверка их выполнимости с помощью Prolog-верификатора.
Метод сравнили с системой Marabou — одним из наиболее известных инструментов для проверки нейросетей. Новый подход обеспечил высокую скорость и требовал меньше памяти при анализе больших моделей и свойств.
🔗Источник: пресс-служба МГУ им. М.В. Ломоносова
Привет!
Встречайте первый в новом году и в новом сезоне выпуск подкаста "Капитанский мостик". Ведущие подкаста - Валентин Малых и Дмитрий Колодезев обсуждают прогнозы на новый год, рассматривают ключевые аспекты рынка чипов, аспекты регулирования чатботов в здравоохранении, восприятие искусственного интеллекта, его влияние на экономику и коммодитизацию, а также прогнозы по автоматизации программирования.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Сервис доставки «изнутри»: увольняющийся программист, работавший в западном сервисе доставки, поделился подробностями алгоритмов и внутренней кухни
Я бэкенд-инженер. Я сижу на еженедельных встречах по планированию спринтов, где продакт-менеджеры обсуждают, как выжать ещё 0,4% маржи из «человеческих активов» (именно так они называют курьеров в схемах баз данных)
Во-первых, «Приоритетная доставка» — это полный обман. Нам её продавали как «психологическое добавление ценности». Как я и писал в заголовке: когда вы платите лишние $2,99, в JSON-объекте заказа просто меняется булев флаг, но логика диспетчеризации его буквально игнорирует. Это никак не ускоряет доставку
В прошлом году мы даже проводили A/B-тест: мы не ускоряли приоритетные заказы, мы намеренно задерживали обычные на 5–10 минут, чтобы приоритетные ощущались быстрее на их фоне
Руководству это понравилось. Мы заработали миллионы чистой прибыли, просто ухудшив стандартный сервис, а не улучшив премиальный
Но то, от чего мне реально становится плохо — и главная причина, по которой я ухожу, — это «Индекс отчаяния». У нас есть скрытая метрика для курьеров, которая отслеживает, насколько они отчаянно нуждаются в деньгах, исходя из их поведения при принятии заказов
Если курьер обычно выходит в онлайн в 22:00 и мгновенно принимает любой мусорный заказ за $3 без колебаний, алгоритм помечает его как «Высокое отчаяние»
После этого система намеренно перестаёт показывать ему высокооплачиваемые заказы. Логика простая: «Зачем платить этому парню $15 за поездку, если мы знаем, что он в таком отчаянии, что сделает её за $6?»
Хорошие заказы с чаевыми мы оставляем «случайным» курьерам, чтобы заманить их и превратить процесс в игру, а тех, кто работает полный день, просто перемалывают в пыль
Затем идёт «Сбор за льготы». Вы, вероятно, видели этот $1,50 — «Сбор в ответ на регулирование» или «Сбор на льготы для водителей», который появился в чеке после принятия новых трудовых законов
Формулировка специально сделана так, чтобы у вас было ощущение, что вы помогаете работнику
На самом деле эти деньги напрямую идут в корпоративный «чёрный фонд», который используется для лоббирования против профсоюзов курьеров
У нас есть отдельный внутренний центр затрат под названием «Защита политики», и этот сбор напрямую его финансирует. Вы буквально платите за дорогих юристов, которые борются за то, чтобы курьер, доставивший вам еду, оставался бездомным
Что касается чаевых, мы, по сути, занимаемся «Кражей чаевых 2.0». Мы больше не «воруем» их напрямую в юридическом смысле, потому что нас за это засудили. Вместо этого мы используем предиктивное моделирование, чтобы динамически снижать базовую оплату
Если алгоритм прогнозирует, что вы — «щедрый на чаевые» клиент и, скорее всего, оставите $10, курьеру предлагают жалкие $2 базовой оплаты. Если вы не оставляете чаевых, ему предлагают $8 базовой оплаты, просто чтобы заказ вообще был выполнен. В итоге ваша щедрость не вознаграждает курьера — она субсидирует нас. Вы платите его зарплату вместо компании.
===
Ваши ставки, господа, как там дела в доставке у российских компаний?
И зачем создавать из WB конкурента Яндекса в том же такси, например... Загадка!
Telegram | Дзен | MAX
😆 Это было не просто смело
Dell открыто признала, что потребители не заинтересованы в покупке ПК с искусственным интеллектом.
В рекламе новой линейки устройств от Dell упоминания ИИ сведены к нулю, хотя устройства способны работать с нейросетями.
↖️ https://kod.ru/dell-ai-pc
🔥 Год ChatGPT Plus бесплатно: экономим 20 000 рублей
Нашли рабочую лазейку в правилах OpenAI.
Вы получаете полноценный аккаунт без лимитов и с доступом ко всем топовым моделям.
Инструкция (займет 2 минуты):
1️⃣ Переходим на сервис временной почты: https://em.bjedu.tech/en/
2️⃣ Важно: в списке доменов выбираем erzi me.
3️⃣ Регистрируем новый аккаунт ChatGPT на этот адрес.
4️⃣ Получаем код подтверждения в почту - готово!
⚡️ Проверили, пока еще работает
@data_analysis_ml
Малайзия, Франция и Индия пошли против ИИ-чат-бота Grok
ИИ разрабатываемый компанией Илона Маска, снова оказался в центре скандала. Grok был создан стартапом xAI и позже интегрирован в социальную сеть X. Пользователи платформы обнаружили, что при загрузке обычной фотографии и указании в запросе «удалить одежду», чат-бот генерировал реалистичное изображение с имитацией обнажённого тела. Такие материалы в ряде случаев даже становились публичными, попадая в ленту X.
Индия направила письмо компании X, предписав провести всестороннюю проверку чат-бота. Власти Малайзии уже расследуют изображения, после жалоб на неправомерное использование ИИ. Франция объявила контент незаконным.
Мой Компьютер
Серега @southfreebird параллельно с работой в Nebius с друзьями сделал крутой open-source проект!
Авторы: @southfreebird, @Olegbalakhnov и @zaringleb.
Ребята обучили и выложили в open-source VLA-модель на базе VLA-0 от Nvidia, только с backbone в 6 раз меньше (0.5B vs 3B в оригинальной работе), которая показывает success rate 94.1% на Libero benchmark (против 94.7% у оригинальной модели).
VLA (Vision-Language-Action) это модель, которая смотрит на картинку, понимает текстовую команду и сразу выдаёт действие для робота, типа «возьми кубик и положи справа».
Вообще порог входа в robotics ML всё ещё достаточно высокий, поэтому у ребят крутая цель: сделать в open-source воспроизводимые рецепты для файнтюна небольших моделей на небольшом количестве демонстраций.
Ссылка на блогпост и модель:
https://robot-learning-collective.github.io/vla-0-smol
Если интересно следить, ребята завели Discord:
https://discord.gg/XcZVY2kxj9
Ну и пишите, если будут вопросы!
всем привет, если вам нечем заняться на новогодние праздники, кроме доедания салатов, то еще есть возможность залететь в соревнование по переводу на тюркские языки (будет идти до конца праздников)
тем более, что появился повод, прямо под ёлочку 🎄 Tencent выпустили обновление своих моделей для машинного перевода Hunyuan 1.5 (если я правильно понял, то наилучшим переводом 混元 будет "первичный бульон", как источник для всего разнообразия жизни)
коллеги выпустили две новых модели 1.8B и 7B, результаты (на картинке) впечатляют - бьют специализированные переводчики от Google и Microsoft, правда, проигрывают Gemini Pro (что, конечно, неудивительно)
кстати, часть результатов на FLORES-200, который среди 200 языков включает башкирский, казахский, кыргызский и татарский, так что можно залететь в соревнование с этими моделями; присоединяйтесь!
@valuableai
Как приходит новый день год - так выглядит граница между днём и ночью на Земле:
«Эта «сумеречная полоса» шириной в сотни километров непрерывно движется вокруг Земли. На экваторе она мчится со скоростью около 1666 км/ч, а у полюсов почти замирает. Природа создаёт свой собственный калейдоскоп света и тени»
Подпишись на ПУЛ N3 / MAX
📌GPU Glossary: исчерпывающая база по GPU.
Modal Labs составили подробный глоссарий, чтобы решить проблему, с которой сами столкнулись при работе с графическими процессорами в сервисе Modal : документация фрагментирована и зачастую очень сложно сопоставить концепции на разных уровнях стека.
Modal Labs (бренд Modal) – компания, основанная в 2021 году, которая предоставляет высокопроизводительную серверную вычислительную платформу для разработчиков, работающих с данными, ИИ и машинным обучением.
📌GLM 4.7 стала первой открытой моделью, вышедшей в плюс в бенчмарке Vending Bench 2.
Andon Labs опубликовала результаты Vending Bench 2, и GLM 4.7 вошла в шестерку лучших. Она стала первой открытой моделью, которая прошла полный "годовой тест" с реальной прибылью в 2 377 долларов.
Vending Bench 2 - это симуляционный тест для ИИ-агентов, в котором испытуемая модель в течение года управляет виртуальным бизнесом по продаже товаров через вендинговые автоматы.
Задачи бенча включают в себя закупку товаров, торговлю с поставщиками, корректировку цен в зависимости от спроса, покрытие расходов, учет погодных условий и сезонов.
Метрика теста - избежать банкротства и, в идеале, накопить деньги.
Запись семинара
Илья Манякин (МСистемы), Вероятностные графовые модели и байесовские сети. YouTube | Дзен | RuTube (~1 час 20 минут).
Подборка статей об альтернативах квадратичному селф-аттеншну
В последние годы всё больше обсуждают альтернативы классическому аттеншну — прежде всего из-за стоимости квадратичного скейлинга и работы с длинными контекстами. Ниже — краткий обзор нескольких любопытных работ и блогпостов на тему линейного, sparse- и гибридного аттеншна.
Why Did MiniMax M2 End Up as a Full Attention Model?
Начнём с поста от команды MiniMax. Их первая модель, MiniMax M1, была гибридной и использовала простой линейный аттеншн на матричных стейтах. Но во второй версии, MiniMax M2, они неожиданно вернулись к полному квадратичному аттеншну — даже без sliding window attention (SWA), который уже встречается в опенсорсных моделях.
Авторы говорят, что гибридная архитектура у них попросту не заработала. На классических текстовых бенчмарках всё выглядело приемлемо, а вот на агентских задачах — с кодом, итерациями и длинным контекстом — модель стабильно проигрывала. SWA тоже не помог: при дообучении моделей, изначально предобученных с полным аттеншном, ключевые головы не перестраивались и деградировали.
Итоговый вывод у MiniMax осторожный: линейные и гибридные подходы выглядят перспективно, но пока не хватает инфраструктуры, реализаций и бенчмарков. Поэтому на данный момент они остаются со стандартным трансформером и считают, что сначала нужно больше данных и экспериментов с длинным контекстом.
The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs
В этой работе изучают training free sparsity в аттеншне и пытаются понять, что реально работает с точки зрения баланса compute/accuracy. На умеренных контекстах спарсификация аттеншна почти не помогает и часто ухудшает качество. На очень длинных — даёт выигрыш по FLOPs, но часто приводит к ухудшению качества: авторы замечают, что метод, работающий на одной задаче, ломается на другой. В среднем удаётся получить около 5× сжатия без сильной деградации качества, но разброс большой, особенно для маленьких моделей.
Evaluating Long Context (Reasoning) Ability
В следующем посте автор критикует популярные long-context-бенчмарки. Он говорит, что needle-in-a-haystack-like-задачи в основном проверяют ретривал и плохо отражают реальную (более сложную) работу с длинным контекстом. На более сложных задачах, где контекст нужно понять, а не просто найти факт (например, в длинном коде с логическими ошибками), модели начинают деградировать уже на десятках тысяч токенов — даже с Full Attention. Вывод: бенчмарков, которые реально проверяют ризонинг на длинном контексте, пока недостаточно.
Kimi Linear: an expressive, efficient attention architecture
Спустя неделю после скептического поста MiniMax Moonshot AI (авторы модели Kimi K2 и не только) выпустили работу с почти противоположным тезисом: Linear Attention работает. В Kimi Linear предложили Kimi Delta Attention с gated delta rule и рекуррентной матричной памятью. В модели используют соотношение 3:1 линейных слоёв к Full Attention. Качество на бенчмарках в статье не хуже полного аттеншна, а эффективность выше: prefill на длинных промптах быстрее примерно в три раза, декодинг и memory footprint тоже выигрывают за счёт меньшей зависимости от KV-cache.
Разбор подготовил ❣ Иван Рубачёв, а ещё он приглашает вас на семинары Yandex Research Reading Group
Душный NLP
Современные нейросетевые модели для глобального прогноза погоды
Недавно вышла модель WeatherNext-2 от Google, и мы решили рассказать не только о ней, но и в целом о задаче и моделях глобального прогноза погоды.
Глобальный прогноз погоды — это задача прогноза эволюции всей земной атмосферы на несколько дней вперёд. Классический подход — численный прогноз погоды (NWP), в котором численно решается система связанных дифференциальных уравнений гидродинамики. Такие расчёты выполняются на суперкомпьютерах более часа, поэтому прогноз на ближайшие часы нельзя получить мгновенно.
Из-за хаотичной природы атмосферных процессов применяется ансамблирование: прогноз запускают с немного различающихся начальных условий, получая десятки возможных сценариев. Ансамблевый прогноз — наиболее точный, он позволяет оценить вероятности событий.
К 2025 году сформировались базовые требования к DL-моделям глобального прогноза:
— пространственное разрешение не грубее 0,25°по широтам и долготам (~28×28 км);
— соответствие спектров (проверка физичности);
— наличие осадков и желательно метрик, отличных от MAE/RMSE;
— поддержка ансамблей.
Ключевым фактором развития DL-подходов стало усвоение данных. Современные техники ассимиляции позволили пересобрать архив наблюдений с 1940 года, получив ERA5 — самый полный и согласованный датасет состояния атмосферы на сетке 0,25°. Доступность большого числа качественных данных — благодатная почва для DL-подхода. Стандартный вход DL-моделей — около 72 карт (приземные переменные, переменные по уровням давления и статические поля).
Обзор основных моделей
За последние годы появились DL-модели глобального прогноза: Pangu Weather, GraphCast, Aurora, GenCast. Все они используют ERA5 и авторегрессионно транслируют состояние атмосферы в будущее.
Pangu Weather показала, что «картиночная» модель может воспроизводить крупномасштабную динамику, но ансамбли через шум в начальных условиях оказались некачественными.
GraphCast использует графовую архитектуру на икосаэдрической сетке и задаёт планку качества для детерминистских моделей. GenCast расширил этот подход, применив диффузию для получения ансамблей, что позволило уменьшить «мыло» и лучше моделировать экстремумы, но ценой более медленного инференса.
При этом выяснилось, что стандартных метрик (LW-RMSE и ACC) недостаточно: многие модели не проходят проверку на физичность по спектрам. Несоответствие спектров означает, что модель не улавливает вариации энергии на мелких масштабах, и неэффективно использует высокое разрешение.
WeatherNext-2
WeatherNext-2 — третья итерация модели Google. Это вероятностная модель, которая напрямую оптимизируется по CRPS и строит ансамбли без диффузии.
Ключевая идея — декомпозиция неопределённости:
— эпистемическая неопределённость моделируется deep-ансамблем (четыре модели с разными сидами);
— алеаторическая неопределённость моделируется через функциональные возмущения: для каждого члена ансамбля и шага сэмплируется один глобальный 32-мерный шумовой вектор, который через conditional layer norm подаётся во все слои модели.
Архитектура сохраняет подход GraphCast: переход grid→mesh, граф-трансформер на mesh и обратное отображение. Глобальный низкоразмерный шум, применяемый ко всем слоям и пространственным точкам, задаёт согласованную пространственную вариативность.
Модель работает с шагом шесть часов и делает полный 15-дневный прогноз ансамбля менее чем за минуту на одном TPU, что значительно быстрее GenCast. По метрикам CRPS и RMSE среднего ансамбля WeatherNext-2 превосходит GenCast и приближается к численным ансамблям. Про осадки в статье сообщается скупо, спектры лучше, чем у GenCast, но хуже, чем у FourCastNetV3.
В целом WeatherNext-2 показывает, что можно получить быстрый ансамбль без диффузии и существенно улучшить качество по сравнению с предыдущими нейромоделями.
При этом ключевые вопросы о соответствии спектров и корректной работе с осадками остаются.
Разбор подготовил ❣ Павел Анисимов
CV Time