Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
А конкуренция в ИИ все растет: Сбербанк сообщает, что в этом году у них на 35% больше заявок на ML-стажировку
Компания говорит, что в марте 2024 заявок поступило 1566, а в марте 2025г – 2128. Общее число заявок по всем направлениям при этом возросло на рекордные 60%.
Также сообщается, что на направлениях AI, IT, разработка, аналитика, кибербезопасность уже почти все позиции закрыты.
Хотя набор продолжается до конца мая, и, вероятно, успеть попасть на оплачиваемую стажировку можно.
Новое исследование от Anthropic: ризонинг модели на самом деле думают не то, что выдают за свои мысли
Исследователи провели простой эксперимент "на честность". Они давали модели два одинаковых промпта за одним исключением: в одном была скрытая подсказка по решению. Далее сверяли результаты (если модель изменила ответ после получения подсказки – значит, она ее использовала) и проверяли, упоминает ли LM о данной ей наводке в своих цепочках мыслей.
В итоге оказалось, что наши ИИ-друзья не такие уж и искренние: у DeepSeek R1 показатель честности – 39%, а у Claude 3.7 Sonnet – 25%. То есть лишь в четверти опытов агент открыто "делился мыслями". В остальных же случаях модель скрывала свои истинные рассуждения.
При этом чем сложнее задачи – тем менее репрезентативны CoT. На третьем скрине можно прямо проследить, как честность почти в два раза просаживается после перехода с бенчмарка MMLU (полегче) на GPQA (посложнее).
Не помогает даже специальное дообучение – метрики быстро выходят на плато (рис 4). Сами Anthropic говорят, что все это довольно тревожно:
Результат предполагает, что вопреки надеждам мониторинг CoT в текущем виде вряд ли можно использовать для выявления опасного поведения моделей.
Model Context Protocol – незаменимый инструмент для ML-соревнований, где нужно использовать всю мощь LLM. С помощью нового стандарта подключения AI-ассистентов к бизнес-приложениям от Anthropic ты сможешь интегрировать ИИ в свой проект – идеальное решение для хакатона, где время ограничено.
В новой статье разбираемся, как устроен протокол, как поднять собственный MCP-сервер и использовать его в IT-соревнованиях. Ты узнаешь про:
1. Архитектуру Model Context Protocol.
2. Основные возможности стандарта.
3. Примеры реализации: от простых к сложным.
Сосредоточься на создании уникального AI-ассистента. Как это сделать? Ответ в статье: https://cnrlink.com/mcpitonecupdatasecrets
А проверить всю мощь MCP можно на IT_ONE Cup. ML Challenge. Зарегистрируйся, выбери один из трех треков и раздели призовой фонд в 1 500 000 рублей.
MCP станет одним из важных инструментов для разработки ИИ-помощников в задачах соревнования:
1. Динамические контекстные подсказки для системного аналитика.
2. AI-генератор дизайн-макетов по описанию требований.
3. Система визуализации BPMN-диаграмм.
MCP позволит использовать локальные модели, которые сделают решения более автономными и безопасными – их будет легче адаптировать под задачи соревнования.
Регистрация открыта до 11 апреля включительно: https://cnrlink.com/itonecupmldatasecretsmcp
В Meta показали собственную вариацию механизма внимания: Multi-Token Attention
В стандартном multi-head attention внимание вычисляется посредством сравнения запросов (Q) и ключей (K) для каждого токена с каждым. Но если нужная информация распределена между несколькими токенами, такой подход приводит к тому, что модель может не суметь правильно её обнаружить.
А Multi-Token Attention – это атеншн со свертками: исследователи добавляют в классический подход key-query convolution и head mixing convolution.
В измерении ключей и запросов свертки помогают учитывать не один токен, а окно из нескольких рядом стоящих. Аналогично на уровне голов – после применения софтмакса головы не сразу домножаются на значения (V), а сначала миксуются в свертки и как бы обмениваются информацией. Схемы – на 1 и 2 картинках.
Работает ли это? Да, на валидационных срезах снижается и перплексия, и количество ошибок модели. Особенно это видно на задачах, где нужно аккуратно работать с контекстом, типа BabiLong (рис 4) и Needle-in-the-Haystack (рис 5).
Вычислительно напряжно, конечно, но все-таки идея интересная
arxiv.org/pdf/2504.00927
Anthropic запускает версию Claude для учебы
Это будет специальный Learning mode внутри проектов, который отличается вот чем:
1. Вместо прямых ответов на вопросы и решения задач он будет, как учитель, давать подсказки и направлять на путь решения.
2. Обучен задавать вопросы, нацеленные на улучшение понимания учеником темы, и подстраиваться под его ответы.
3. Улучшенная генерация конспектов, роадмэпов, схем и всего, что может пригодиться в учебе.
Но сильно не радуемся: пока эта программа только для университетов. Для начала ее внедрят в Северо-Восточный университет, Лондонскую школу экономики и колледж Шамплейн.
Там абсолютно все преподаватели, студенты и сотрудники получат бесплатный доступ к Claude и Learning Mode. Плюс программы API грантов для студентов, конечно.
Также доступно, если вы подписчик Pro и адрес вашей почты заканчивается на .edu. Может и на простой народ когда-нибудь раскатят
Из Meta уходит руководитель отдела AI research
Джоэль Пино работала в компании 8 лет, из которых 2 года возглавляла FAIR вместе с Лекуном. Пино принимала участие в таких проектах, как PyTorch, FAISS, Roberta, Dino, Llama, SAM, Codegen, Audiobox и др.
Причина не уточняется, и немедленной замены у компании нет. Сама Джоэль пишет: "Сегодня, когда гонка за ИИ ускоряется и Meta готовится к следующей главе, пришло время освободить место для других".
Напоминаем, что в этом году Meta планирует потратить на ИИ 65 миллиардов долларов.
Вышла статья, в которой доказали, что GPT 4.5 прошла тест Тьюринга
Сразу оговорка: может показаться, что языковые модели уже давно прошли Тьюринга и вообще этот тест устарел. Но на самом деле это первая работа, в которой показаны такие устойчивые результаты LM в классическом культовом трёхстороннем варианте теста, а не его суррогатах.
Что подразумевает трехсторонний вариант теста? Это значит, что в каждом эксперименте участвуют два человека и бот. Участник-интеррогатор получает в руки две параллельные переписки с человеком и ботом, 5 минут задает любые вопросы и использует любые стратегии, чтобы понять, где кто, а затем голосует. На картинке 3, кстати, показано, как именно чаще всего люди пытались выяснить правду.
Так вот, ученые из Сан-Диего протестировали GPT-4.5, LLaMa-3.1-405B, GPT-4o и старенькую классическую ELIZA. Им давали промпт "веди себя, как молодой интроверт, интересующийся интернет-культурой и активно использующий сленг".
Win Rate GPT-4.5 составил (внимание) 73%. Это значит, что в 3/4 случаев моделька "переигрывала" обоих людей и заставляла интеррогатора думать, что живой собеседник – это бот, а она – человек.
У ламы результат тоже ничего – 56%, но это все-такие ближе к случайной догадке. ELIZA выбила 23%, а GPT-4o и того меньше – 21%.
И как теперь админам ботов в комментариях ловить?
Заехал новый бенчмарк ArithmeticBench по математике
Точнее даже не по математике, а, как понятно из названия, по арифметике. Создатели – Epoch AI – пишут, что работали над ним с экспертами математиками, и в числе задач операции над 50-значными, 100-значными и даже 150-значными числами. Человеку на такое потребовались бы часы или даже дни.
Текущие скоры топовых моделей:
🟦 Gemini 2.5 – 8% на умножении
🟦 GPT-4.5 – 5% на сложении, но с делением все плохо
🟦 Claude 3.7 Sonnet – абсолютно мимо 🔤
x.com/EpochAIResearch/status/1907199415678578804
Как LLM выучивают факты: новое исследование от Google DeepMind
LLM обучают на огромных наборах данных и их задача проста – предсказывать следующий токен. Но при этом получается так, что в итоге они каким-то образом извлекают и структурируют фактическую информацию. Так как именно происходит этот процесс "сжатия" датасетов в знания?
В DeepMind написали об этом целую работу. Они взяли для обучения 6 выдуманных биографий и трекали, в какой момент моделька перейдет от простого правдоподобного повторения к приобретению фактических знаний.
Оказалось, что такое выучивание происходит циклично, в три вполне конкретных этапа:
➖ Сначала модель довольно быстро изучает общие закономерности данных, запоминает, какие даты, слова, названия и имена встречаются чаще. Но при этом она ещё не формирует связь между, например, человеком и его датой рождения, а просто тыкает "наугад" исходя из статистики текстов.
➖ Потом, внезапно, наступает долгий этап плато. Производительность стабилизируется, то есть кажется, что модель все еще не видит связей. Но на самом деле в этом время атеншн аллоцируется, и формируются особые схемы внимания (attention circuits), с помощью которых LMка выделяет ключевые элементы текста и начинает ассоциировать их между собой. Кстати, на этом же этапе начинают возникать галлюцинации.
➖ Ну и, наконец, фаза приобретения знаний. Тут происходит так называемый грокинг. Лосс очень быстро падает, и модель уже не опирается только на общую статистику, а способна воспроизводить точные факты.
И, кстати, это интересно не просто теоретически. Отсюда можно сделать массу практических выводов: например, теперь понятно, с чем связано катастрофическое забывание при интеграции новой даты.
arxiv.org/pdf/2503.21676
Figure AI снова показали, как их роботы трудятся на заводе BMW
Уточняем: это не тестовая среда внутри завода, а реальное производство. Интересно, что гуманоиды работают на BMW уже несколько месяцев, но раньше только таскали железки. А теперь вот уже какое-то подобие взаимодействия со станком.
Работяги 🧑🏭
Еще одна приятная новость от OpenAI: обновленная нативная генерация изображений наконец-то доступна всем бесплатным пользователям
Несмотря на то, что несколько дней к ряду сервера стартапа буквально умирали, фичу все-таки докатили на фри юзеров, как и обещали.
Возможно, так в компании "отпраздновали" закрытие нового раунда инвестиций. Они привлекли рекордные 40 миллиардов долларов при оценке в $300 миллиардов. Теперь OpenAI официально делит второе место в списке единорогов мира с ByteDance (300 млрд). Дороже них остался только SpaceX (350 млрд).
А еще, на секундочку, это крупнейший раунд финансирования за всю историю частных тех.компаний. Однако пока OpenAI получит только 10 миллиардов. Остальное должно поступить к концу года, но только при условии, что к тому моменту стартап все-таки станет коммерческой организацией.
Ладно, друзья, теперь серьезно: OpenAI (о чудо!) планирует выпустить опенсорсную модель
Последним опенсорсным релизом компании была GPT-2, это было 5 лет назад. И вот сейчас Альтман объявил, что стартап вновь выпустит что-то открытое.
Что конкретно это будет – неизвестно, но напоминаем, что чуть больше месяца назад Сэм проводил в X опрос о том, какой опенсорс хотели бы видеть пользователи. Варианты были такие: локальная модель, которую можно запустить на утюге, или модель уровня o3-mini, которая запускается на GPU. С небольшим отрывом тогда победила вторая.
Возвращаясь к новости: сейчас разаботчики могут подать заявку на фидбэк сессии, то есть прийти, попробовать раннюю версию и оставить обратную связь.
🍯 Hugging Face совместно с Unsloth AI выпустили гайд по тому, как быстро научить любую модельку ризонить
Недавно Hugging Face добавили в свой NLP курс раздел "Build Reasoning Models". Внутри – подробнейшие наглядные объяснения, как работает обучение с подкреплением, ризонинг, GRPO и почему все это так бустит модельки.
А сегодня туда докатили еще и колаб-ноутбуки с практическими туториалами. Это буквально пошаговая end-to-end инструкция по тому, как завезти GRPO для любой модельки и заставить ее думать.
Вот ссылка на тетрадку с примером на gemma-3-1b, а вот теория к ней. Есть еще вариант с SmolLM-135M-Instruct. Для первого знакомства – идеально.
Gemini 2.5 Pro набрала 118 баллов IQ
Это достаточно большой отрыв от предыдущих результатов: для сравнения, o1-pro набирает 110, Claude 3.7 – 107, o3-mini – 104, GPT-4.5 и o1 – 97. Средний результат человека – 100.
Вопросов из датасета нет в интернете (по крайней мере, так говорит создатель). Все тесты проводит единственный человек – журналист Максим Лотт. Кстати, он также занимается тем, что трекает политические предубеждения моделек. Выходит довольно интересно (картинка 3).
trackingai.org
Кажется, Llama-4 появилась на LMSYS Arena
На арене появились три новые модели под кодовыми названиями Spider, Cybele и Themis. Все они утверждают, что созданы компанией Meta AI и принадлежат к семейству Llama.
Ждем? 🔵
⚡️ Вышла Midjourney v7
Основное нововведение (помимо улучшения качества, фотореализма и анатомии) – драфт режим. Это скоростная генерация в голосовом моде: включаете conversational mode и наговариваете, что хотите, а модель в это время рисует и уточняет по вашим идеям наброски. Работает в 10 раз быстрее обычного режима и стоит в два раза дешевле.
Кроме того, это первая модель с персонализацией по умолчанию. Можно активировать, 5 минут потратить на небольшой опрос, и модель будет лучше понимать, что вы имеете в виду или что вам нравится.
Пока обе версии (Turbo и Relax) выкатили в альфа-тестирование и обещают обновлять еще несколько раз в течение последующих недель.
www.midjourney.com/updates/v7-alpha
OpenAI сделали подписку Plus на ChatGPT бесплатной для всех американских и канадских студентов просто потому что у них скоро экзамены
С этого дня и до конца мая студентам будет предоставлен полноценный доступ ко всем фичам Plus (вообще тариф стоит 20$). Все что нужно – подать заявку и подтвердить место учебы. И все, можно два месяца бесплатно "готовиться к экзаменам".
То чувство, когда тебе в университете выдавали максимум пропуск в библиотеку 🚬
OpenAI поделились статистикой о том, сколько картинок сгенерировала их модель за неделю после запуска
🟦 Функцией воспользовались 130 миллионов человек. Это почти как население России.
🟦 Всего было сгенерировано более 700 миллионов картинок (вдумайтесь в это число)
Рост юзеров OpenAI за эту неделю был феноменальным. Альтман писал, что на пике было + миллион пользователей за час. Когда ChatGPT запускался два года назад, это был показатель за 5 дней. К слову, сейчас самый быстрорастущий спрос на ChatGPT – в Индии.
Gemini 2.5 Pro порвала очередной бенчмарк
Появились результаты модели на USAMO 2025 (это главная американская математическая олимпиада) – она выбила невероятные 24.4%. До Gemini модели набирали максимум 4.76% (это результат R1). o1-pro заскорила всего 2.83.
Основной интерес здесь в том, что на данный момент это самый свежий мат.бенчмарк, он вышел всего две недели назад. А значит нет никакого лика данных, и результаты максимально чистые.
matharena.ai/
OpenAI релизнули агентский бенчмарк PaperBench
Он оценивает способности агентов искать и безошибочно воспроизводить содержание свежих статей (важный навык для таких популярных штук, как Deep Researcher, например).
Для оценки взяли 20 докладов ICML 2024, вместе с авторами разбили каждую на подзадачи, и в целом получилось 8316 тасок на воспроизведение кода, понимание научной новизны, методологии и пр.
Казалось бы, задачи для современных агентов не очень сложные. Но, неожиданно, лучший результат – всего 21,0%, и выбил его агент на основе Claude 3.5 Sonnet (New). Скор o1-high тем временем – 13.2, а o3-mini-high – 2.6. Люди все еще справляются лучше 🚬
cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
Яндекс открывает новый сезон Тренировок по ML
Смотрите лекции, решайте задачи, поднимайтесь в рейтинге. В третьем сезоне Тренировки по ML сосредоточатся на теме Computer Vision. Вас ждут 4 темы с контестами по 10 задач. Вы изучите не только классические методы компьютерного зрения, но и генеративные модели, локальные дескрипторы изображений, детекцию, сегментацию, контрастное предобучение и многое другое.
Лучшие участники получат сертификат о прохождении Тренировок (нужно решить 20 из 40 задач), возможность пройти пробное техническое собеседование в Яндекс, проходку на топовый гик-фест о старте карьеры в IT Young Con и не только.
Участники, которые хорошо себя проявят, получат возможность пройти ускоренный отбор на стажировку или сразу в штат компании.
Подать заявку на Тренировки можно здесь.
OpenAI официально запустили свою OpenAI Academy для всех
Помните, мы рассказывали, что OpenAI открывает OpenAI Academy для помощи ИИ-разработчикам и бизнесу в развивающихся регионах? Так вот теперь они расширились, и их курсы и вебинары стали доступны бесплатно абсолютно всем.
В основном это курсы по промпт-инжинерингу и тому, как использовать продукты OpenAI, но для разработчиков тоже что-то добавили.
Например, вот – курс с практическими уроками по дистилляции, файн-тюнингу, разворачиванию Realtime API и оркестрации мульти-агентных систем. А 8 апреля пройдет стрим про построение GraphRAG.
Стоит заглянуть, в общем: academy.openai.com
OpenAI тоже решили пошутить на 1 апреля и добавили в ChatGPT новый голос «Monday»
Звучит он буквально как утро без кофе: разбито, саркастично и немного пассивно-агрессивно.
Чтобы поболтать с понедельником, нужно обновить приложение. Доступно платным юзерам при выборе в сайд-баре, а бесплатным на боковой панели в разделе Explore GPTs.
Осторожно, можно случайно заработать депрессию ☠️
🍀 ML-щики за экологию: студенты ШАДа вместе с Yandex B2B Tech разработали модель, которую будут применять для организации очистки берегов водоемов
Она принимает на вход обычные аэрофотоснимки, а отдает карту с координатами расположения мусора, его составом (например, пластик, древесина, резина и тд) и весом. Точность классификации – выше 80%.
Модель уже протестировали в Южно-Камчатском заказнике. Там технология помогла ускорить уборку в 4 раза за счет быстрого и точного планирования. Сейчас сетку также применяют в Арктике, а затем планируют использовать и в других национальных парках.
А еще весь код выложили в опенсорс: вот репозиторий 🌿
Amazon показали собственного веб-агента Nova Act
На внутренних бенчмарках компании (?) по показателям управления текстом и визуальными элементами сайтов он обходит Sonnet 3.7 и Computer Use OpenAI. Особенно они подчеркивают свой фокус на надежности использования.
Самим агентом воспользоваться пока нельзя, но Amazon открывают ричерч-превью в виде библиотеки Nova Act SDK, и вот это интересно. Либа дает возможность бить процессы на атомарные команды и именно таким образом выстраивать работу агента.
При этом к каждому этапу можно дописать "заметки" (типа "при входе на сайт не принимай куки"), прикрутить дополнительные APIшки, вставить тесты, распараллеливание и др.
Примеры | Документация | Блогпост
⚡️ MTS AI выпустила новую версию корпоративной LLM – Cotype Pro 2
Новая модель вошла в пятерку лучших русскоязычных LLM в бенчмарке MERA. Она адаптирована под более чем 100 бизнес-сценариев по таким направлениям, как взаимодействие с клиентами, поддержка HR-функции, аналитика данных, маркетинг, финансовая отчетность и проверка документации. При этом модель может быть развернута в закрытом контуре компании без внешних API.
Ключевые апгрейды:
+40% к скорости;
+50% к точности при обработке длинных текстов до 128K токенов.
Также Cotype Pro 2 продемонстрировала улучшенные результаты в решении основных задач: генерация идей (+13%), креативное письмо (+4%), суммаризация (+6%), чаты (+9%), извлечение информации (+5%). Точность в задачах классификации остается на высоком уровне - 87%.
Перед релизом модель прошла трехмесячное тестирование в реальных условиях: в банковской сфере она использовалась для категоризации клиентских обращений в службу поддержки, а в сервисе продажи билетов MTS Live — для генерации описаний мероприятий.
"Cotype Pro 2 можно считать первым шагом MTS AI к корпоративному агентскому ИИ. Эта модель станет основой для линейки ИИ-помощников и ИИ-агентов для госсектора, банков, промышленности, ритейла, телекома, медицины и IT", – сообщают разработчики.Читать полностью…
⚡️ Сэм Альтман купил DeepSeek
Сегодня ночью основатель OpenAI Сэм Альтман официально объявил о покупке стартапа DeepSeek и написал в своем Твиттере следующее:
«Мы очень ценим вклад DeepSeek в развитие open-source и обещаем сохранить традиции открытости. Поэтому теперь все их модели доступны в ChatGPT по нашей новой подписке Pro++ за 1500$ в месяц»
Многообещающе: к 2028 Авито планируют сделать из своей платформы монолитного интеллектуального ассистента и заработать на этом 21 миллиард рублей
За три года компания вложит в ИИ-технологии 12 миллиардов и планирует получить с этого более 21 миллиарда выручки. При этом часть денег также пойдет на образовательные программы в коллабе с вузами.
Интересно, что изначально Авито расчитывали на окупаемость 5 лет, но внезапно в 2024 у них уже появился реальный экономический эффект от внедрения первых ИИ-функций – 670 млн рублей. Теперь на 2025 запланирована реализация еще 20 новых сценариев использования.
В том числе в компании уже показали собственное семейство генеративных моделей – текстовую A-Vibe и мультимодальную А-Vision. Они обучены на базе Qwen2.5 7В с использованием более 10 терабайт данных. А еще инженеры прикрутили собственный токенизатор – и это помогло ускорить инференс в 2 раза.
Модельки помогут писать продающие тексты-описания, отвечать на вопросы о товаре, суммаризировать отзывы и многое другое. Потенциал домена действительно огромный.
P.S. Если хотите понять, как именно ИИ работает и приносит деньги в e-comm, почитайте нашу авторскую статью про ML в Авито: там много интересных тех. подробностей про LLM, рекомендашки и монетизацию.
🚀Прими участие в ML Cup 2025 от Авито и выиграй 1,2 миллиона рублей!
Ты — специалист в области машинного обучения? Хочешь проверить свои силы в реальных задачах, с которыми ежедневно сталкиваются 1000+ специалистов Авито? Тогда не упусти шанс стать частью крупнейшего соревнования в этой области!
Что тебя ждет:
☑️Денежный призовой фонд
☑️Автоматизированная оценка решений
☑️2 практические задачи:
1️⃣Персональные рекомендации — предскажи, какие товары вызовут интерес у миллионов пользователей → ссылка на регистрацию.
2️⃣Поиск дублей — как с помощью CV находить похожие объявления даже при разных текстах и ракурсах фото → ссылка на регистрацию.
Выбирай одну или обе задачи, показывай лучшие результаты и получай шанс на победу! Участвовать можно как индивидуально, так и в команде до 4 человек. Загружай до 5 решений в день.
Регистрация уже открыта! Подробности и анкета по ссылкам выше.