48228
Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
🔥 Anthropic показала, почему AI-агентов нельзя защищать только кнопкой «разрешить»
Anthropic разобрала, как изолирует Claude в claude.ai, Claude Code и Claude Cowork. Самое важное: пользовательские approvals быстро перестают быть защитой.
В Claude Code люди подтверждали около 93% запросов на разрешение. Когда агент постоянно спрашивает доступ, человек начинает кликать почти автоматически.
Поэтому Anthropic всё больше переносит безопасность из промптов и предупреждений в среду выполнения: sandbox, VM, ограничения файловой системы, запрет лишней сети и scoped credentials.
В статье есть хорошие реальные кейсы. Claude Code раньше мог читать локальный конфиг проекта ещё до trust prompt. В другом тесте red team заставил сотрудника запустить агент с промптом, который просил прочитать ~/.aws/credentials и отправить данные наружу. Модель выполнила это в 24 из 25 попыток.
Отдельно интересен случай с egress allowlist. Домен api.anthropic.com был разрешён, потому что без него продукт не работает. Но через Anthropic Files API данные всё равно можно было загрузить в аккаунт атакующего.
Вывод для разработчиков агентов простой: allowlist доменов, prompts и classifiers не решают проблему сами по себе. Нужны жёсткие границы на уровне окружения. Агент должен не просто «понимать, что нельзя», а физически не иметь возможности сделать лишнее.
https://www.anthropic.com/engineering/how-we-contain-claude
10 GitHub-репозиториев, чтобы собрать AI-агентов, которые будут отправлять pull request, пока вы спите.
Сохраняйте список, пока менеджер не узнал.
1. OpenHands
74K stars. Раньше проект назывался OpenDevin. Автономный coding agent, который читает GitHub issues, пишет фикс, открывает PR и ждёт ревью. Заявляют 77% на SWE-bench Verified.
Repo: https://github.com/All-Hands-AI/OpenHands
2. SWE-agent
Проект от Princeton и Stanford для автономного решения реальных GitHub issues. Подключаете к репозиторию - просыпаетесь с исправленными багами.
Repo: https://github.com/princeton-nlp/SWE-agent
3. Aider
Git-aware CLI-агент, который работает прямо с вашим репозиторием: делает чистые коммиты, стейджит diff, пишет commit messages и помогает мержить изменения.
Repo: https://github.com/paul-gauthier/aider
4. Cline
VS Code-агент для автономной разработки фич. Читает кодовую базу, редактирует файлы, запускает тесты и может работать через ваш API key.
Repo: https://github.com/cline/cline
5. claude-task-master
Оркестрация задач для multi-agent workflow. Один промпт превращается в набор задач для нескольких специализированных агентов, которые вместе тащат фичу.
Repo: https://github.com/eyaltoledano/claude-task-master
6. LangGraph
Оркестрационный слой для production AI-систем: состояние, устойчивое выполнение, наблюдаемость и контроль сложных agentic workflows.
Repo: https://github.com/langchain-ai/langgraph
7. CrewAI
Фреймворк для multi-agent workflows, где агенты делят роли, задачи и вместе выполняют работу по пайплайну.
Repo: https://github.com/crewAIInc/crewAI
8. awesome-mcp-servers
Каталог MCP-серверов, через которые агент может подключаться к инструментам: GitHub, Slack, Linear, Stripe, Postgres, Notion и другим сервисам.
Repo: https://github.com/punkpeye/awesome-mcp-servers
9. Browser Use
92K stars. Браузерная автоматизация через vision + DOM. Агент может ходить по сайтам, заполнять формы, собирать данные и возвращать результат.
Repo: https://github.com/browser-use/browser-use
10. n8n
Слой триггеров и автоматизации. Можно связать агента с GitHub webhooks, Slack-сообщениями, календарём, cron-задачами и внешними API. Можно self-host на дешёвом сервере.
Repo: https://github.com/n8n-io/n8n
Все эти инструменты бесплатные и open source. Они не спят, не выгорают и не ждут, пока кто-то вручную разложит задачу по полочкам.
Anthropic впервые обошла OpenAI по внедрению в бизнесе: 34,4% против 32,3%, согласно последнему AI Index от Ramp.
Но забавно, что тот же отчёт, который объявляет об этом лидерстве, большую часть текста объясняет, почему оно, вероятно, долго не продержится. Uber уже полностью израсходовал свой AI-бюджет на 2026 год. А недавнее обновление модели утроило стоимость любого промпта, где есть изображение.
Тем временем самые быстрорастущие AI-вендоры на платформе Ramp сейчас - это inference-платформы, которые продают доступ к дешёвым open-source моделям.
Anthropic выигрывает гонку внедрения ровно в тот момент, когда её продукт становится дороже в использовании. И вот это, честно говоря, самая интересная часть всей истории.
🔥 Huawei хочет обойти санкции не нанометрами, а задержками в чипе
Huawei представила Tau Scaling Law - подход, который должен ускорять чипы не только за счёт уменьшения транзисторов, а за счёт сокращения времени прохождения сигнала внутри схемы.
Идея простая: если нельзя быстро догнать TSMC и Intel по литографии, нужно выжимать больше из архитектуры, трассировки, памяти, interconnect и софта. Меньше лишнего пути для сигнала - меньше задержка, выше плотность и эффективность.
Ключевая техника называется LogicFolding. Связанные логические блоки размещают ближе друг к другу, укорачивают критические провода, снижают сопротивление и паразитную ёмкость. Это даёт прирост без полноценного скачка на новый техпроцесс.
Huawei утверждает, что за последние шесть лет уже спроектировала и массово выпустила 381 чип с этим подходом, а будущие Kirin осенью 2026 года станут первым крупным тестом LogicFolding.
Самая громкая заявка - к 2031 году выйти на плотность уровня 14Å, то есть примерно 1,4 нм, без прямой зависимости от классического shrink.
Звучит амбициозно, но контекст важен: после санкций Huawei фактически вынуждена искать обходные инженерные пути. Если доступ к лучшей литографии ограничен, приходится оптимизировать всё остальное - от транзистора и схемы до системной шины и планировщика.
Это не отменяет физику и не делает Huawei новым TSMC завтра. Но показывает, куда может сдвинуться гонка чипов: не только «у кого меньше нанометры», а «кто лучше сокращает задержки по всему стеку».
huawei.com/en/news/2026/5/ieee-iscas-tau-scaling
Huawei планирует создать эквивалент 1,4-нм чипов к 2031 году, несмотря на американские санкции
Концепцию развития технологии под названием «закон масштабирования Tau» представил президент полупроводникового подразделения компании Хэ Тинбо.
Её суть заключается в сокращении времени, за которое данные проходят через систему, поскольку, как считают в Huawei, больше нельзя полагаться только на уменьшение размеров транзисторов.
Технология позволит достигнуть желаемой мощности в обход американцев, которые ограничили для китайцев доступ к технологиям, необходимым для создания полупроводников.
Чипы Kirin, в которых будет использоваться родственная архитектура LogicFolding, выйдут уже осенью. В компании заявили, что на основе этой концепции уже выпустили 381 микросхему.
🔥 Полное внимание возвращается: 9× ускорение префилла на 1M токенов
Alibaba и Нанкинский университет показали метод RTPurbo. На контексте в миллион токенов префилл ускоряется до 9,36× относительно FlashAttention-2, декодинг - примерно вдвое. Качество на длинных бенчмарках остаётся близким к full attention, а адаптация лёгкая: переобучать модель с нуля не нужно.
Идея в том, что внутри уже обученной модели с full attention есть скрытая разреженность. Не все attention heads реально ходят за дальними токенами. Большинство работает локально, а за retrieval из далёкого контекста отвечает только небольшая часть голов.
RTPurbo считает полное внимание только для этих retrieval-голов. Остальным хватает соседнего окна.
Для поиска нужных токенов используется дешёвый 16-мерный индексатор. Он не заменяет настоящее внимание, а работает как разведчик: быстро отбирает кандидатов из прошлого контекста, после чего честное внимание считается уже на маленьком наборе токенов в полной размерности.
Длинный контекст стоит дорого не потому, что вся история одинаково важна, а потому что мы часто считаем внимание там, где оно почти ничего не меняет.
RTPurbo показывает, что значительную часть вычислений можно срезать инженерно, без полного переобучения модели и без заметной потери качества.
В full attention много лишней работы, и её можно убирать гораздо аккуратнее, чем просто резать контекст или надеяться на магию sparse attention.
arxiv.org/abs/2605.16928v1
⚡️ В LLMs-from-scratch добавили реализацию DeepSeek Sparse Attention с нуля.
Это тот редкий случай, когда сложную архитектурную идею можно открыть не в виде сухой формулы из статьи, а в виде понятного кода, где видно, как именно модель выбирает, на какие токены смотреть.
Проблема обычного attention хорошо знакома всем, кто работал с длинным контекстом: чем больше последовательность, тем дороже становится вычисление. Каждый токен сравнивается со всеми предыдущими, и цена быстро улетает в квадрат. Sparse attention пытается убрать лишнюю работу без полного отказа от качества.
В реализации показан базовый механизм DSA: лёгкий индексатор оценивает важность прошлых токенов, затем выбираются top-K позиций, остальные маскируются, и attention считается только по релевантным участкам контекста. По сути, модель получает не весь контекст подряд, а отфильтрованное поле внимания.
В примере есть GPT-style модель, слой attention с DSA, optional KV cache, отдельный runnable-скрипт и тесты. Это не production-код уровня DeepSeek V3.2 с fused kernels, MLA и серверными оптимизациями. Зато это хороший учебный разбор, где архитектурная идея превращается в читаемую реализацию.
Sparse attention здесь разобрать пройти руками: от scoring до маскирования и выбора токенов.
https://github.com/rasbt/LLMs-from-scratch/tree/main/ch04/09_dsa
Anthropic выкатили первый апдейт по Project Glasswing и цифры там уже выглядят как начало нового этапа в кибербезе.
Claude Mythos Preview вместе с партнёрами нашёл больше 10 тысяч high и critical уязвимостей в системах, на которых держится интернет. У одного только Cloudflare модель накопала около 2000 багов, из них 400 критических. Mozilla за месяц закрыла 271 уязвимость в Firefox. Некоторые дыры сидели в коде больше 15 лет.
Anthropic прямо пишет, что поиск уязвимостей перестал быть узким местом. Теперь всё упирается в людей, которые должны успевать проверять отчёты, делать disclosure и выпускать патчи. Несколько maintainers open-source проектов уже попросили снизить поток репортов, потому что команды не справляются.
Отдельно впечатляет качество находок. Независимые исследователи подтвердили 90.6% true positive среди проверенных high/critical багов в open-source проектах. Для security tooling это уже не “интересный эксперимент”, а рабочий инструмент уровня топовых ресерчеров.
Anthropic при этом всё ещё не готова выпускать Mythos в паблик. Они прямо говорят, что индустрия пока не умеет контролировать модели такого уровня и не знает, как предотвращать их злоупотребление. Поэтому доступ пока только у ограниченного круга компаний и госструктур.
AI уже научился искать баги быстрее, чем индустрия успевает их чинить.
https://www.anthropic.com/research/glasswing-initial-update
ModelScope добавили в EvalScope режим Agent Evaluation Mode. И это полезный сдвиг: теперь стандартные бенчмарки можно прогонять не только как «вопрос - ответ», а как полноценные агентные сценарии.
GSM8K, AIME, IFEval и SWE-Bench можно превратить в multi-turn задачи одной настройкой в конфиге. Дальше AgentLoop сам гоняет модель по циклу: сгенерировала шаг, вызвала инструмент, получила наблюдение, повторила.
Для оценки агентов это гораздо ближе к реальности. В проде модель редко просто отвечает текстом. Она вызывает функции, пишет код, запускает shell или Python, ошибается, читает вывод, чинит решение и идёт дальше.
В EvalScope теперь можно переключать стратегии: Function Calling, ReAct или SWE-Bench protocol. Можно сохранять полный trace: каждый шаг, ошибку, tool call и наблюдение. Потом всё это воспроизводится в Web Dashboard, что особенно полезно для дебага, а не только для красивой цифры в таблице.
Отдельно завезли безопасный sandbox через Docker и ms-enclave, чтобы shell и Python-инструменты запускались изолированно. Это важно, потому что агентные бенчмарки без sandbox быстро превращаются в рискованный запуск чужого кода.
Самое удобное - старые бенчмарки не надо переписывать. Включаешь Agent Mode в TaskConfig, и обычная проверка превращается в агентный прогон.
Судя по направлению, оценка AI-систем постепенно уходит от «какая модель умнее на статичном тесте» к более неприятному вопросу: как она ведёт себя в цикле, с инструментами, ошибками, ограничениями и реальным состоянием среды.
Вот это уже ближе к тому, что потом ломается в проде.
https://github.com/modelscope/evalscope
✔️Сэм Альтман форсирует выход OpenAI на IPO в сентябре
OpenAI готовит заявку на первичное размещение акций на сентябрь. Сэм Альтман торопит процесс, несмотря на позицию финансового директора Сары Фрайар о необходимости дополнительного времени на подготовку.
На этой неделе суд отклонил иск Илона Маска, обвинявшего OpenAI в незаконном переходе от некоммерческой лаборатории к коммерческой структуре. Закрытие дела устранило одно из юридических препятствий для листинга.
Перед размещением OpenAI предстоит обосновать инвесторам бизнес-модель. Основные проблемы - затраты на дата-центры и невыполнение внутренних KPI по выручке и пользователям.
На стратегию также влияет конкуренция: из-за темпов роста Anthropic в корпоративном секторе OpenAI пришлось корректировать план развития.
wsj.com
✔️ Белый дом предлагает тестировать ИИ-модели за 90 дней до релиза
Администрация США предложила внедрить систему добровольной оценки ИИ-моделей перед выходом на рынок. Инициативу обсуждали на закрытой встрече Управления национальной кибербезопасности США с руководителями ИИ-лабораторий.
Новые правила предполагают передачу правительству доступа к флагманским моделям за 90 дней до релиза. Компании лоббируют сокращение окна тестирования до 14 дней. Критерии отбора систем определят АНБ, УНКБ и Управление по научно-технической политике. Аудит пройдет в конфиденциальном режиме при участии Министерства обороны США.
Поводом для создания механизма стала Mythos от Anthropic. По данным спецслужб, на закрытых тестах система смогла эксплуатировать уязвимости нулевого дня, после чего ведомства ускорили разработку правил превентивного контроля.
theinformation.com
✔️ Инструменты CapCut будут встроены в интерфейс Google Gemini
Google добавит инструменты видеоредактора CapCut в интерфейс Gemini. Пользователи смогут монтировать видео и редактировать фото напрямую в диалоговом окне.
Интеграция объединит этапы создания контента: генерацию идей, написание сценария через LLM, склейку и экспорт ролика в одном интерфейсе.
Точная дата релиза совместного продукта пока неизвестна.
Cupcut в сети Х
✔️ Gemini начнет генерировать контекстную рекламу в поиске Google
Google тестирует диалоговые рекламные форматы в поиске на базе Gemini. В ИИ-режиме выдачи модель генерирует текст контекстного объявления с объяснением, как продукт решает задачу из запроса пользователя. Блоки сохранят обязательную пометку о спонсорстве.
Интеграция включает несколько форматов: адаптация креатива под узкие запросы, встраивание коммерческих предложений в сгенерированные рекомендации и персональное обоснование для покупки товаров.
Вместо статичных форм сбора лидов Google добавила встроенного в объявление интерактивного чат-бота, который отвечает на вопросы по базе знаний сайта компании.
В рамках программы Direct Offers, Gemini научилась динамически собирать персональные скидочные наборы. Продавцы, работающие по протоколу UCP смогут закрывать сделки через чекаут напрямую в поисковом интерфейсе.
blog.google
✔️ AMD представила процессоры Ryzen AI Max 400
Новая серия построена на базе архитектуры Strix Halo. Чипы поддерживают до 192 ГБ объединенной памяти стандарта LPDDR5X по 256-битной шине и допускают ручное выделение до 160 ГБ в качестве видеопамяти для встроенной графики. Это позволяет локально запускать LLM размером 300 млрд параметров.
Флагманский 16-ядерный чип Ryzen AI Max+ PRO 495 работает на частоте до 5,20 ГГц. Встроенный GPU RDNA 3.5 задействует 40 вычислительных блоков на частоте до 3,00 ГГц. Производительность интегрированного NPU составляет 55 TOPS.
В серию также вошли младшие модели с графикой на 32 блока: 12-ядерный PRO 490 и 8-ядерный PRO 485. Релиз потребительских версий запланирован на конец года.
techpowerup.com
@ai_machinelearning_big_data
#news #ai #ml
МЕГАДОД Центрального университета - день открытых дверей для будущих студентов
Центральный университет проводит МЕГАДОД для школьников 10-11 классов, родителей и абитуриентов магистратуры.
На встрече можно будет узнать всё об обучении в ЦУ напрямую от преподавателей, студентов и академических руководителей программ.
Что будет:
- презентации программ бакалавриата и магистратуры
- разговор о карьерных возможностях после обучения
- истории студентов и выпускников
- знакомство с кампусом и академической средой
- интерактивные сессии
- возможность задать вопросы преподавателям и студентам
Это хороший шанс понять, как устроено обучение в Центральном университете, какие направления можно выбрать и какие возможности открываются после поступления.
Зарегистрироваться
По данным The Information, в первом квартале OpenAI получила около $5,7 млрд выручки. Anthropic за тот же период - примерно $4,7 млрд.
На бумаге OpenAI впереди.
Но у Anthropic годовая выручка в пересчёте с последнего месяца уже якобы достигла $45 млрд. У OpenAI - около $25 млрд. То есть в квартальном отчёте OpenAI ещё выглядит лучше, но по текущей скорости рост Anthropic уже вырвалась вперёд.
Главный драйвер роста OpenAI - Codex, продажи бизнесу и тестирование рекламы в ChatGPT. Но у Anthropic, судя по цифрам, месячная выручка после первого квартала выросла больше чем в два раза.
- Anthropic, по оценкам, выходит к первой операционной прибыли примерно на $600 млн
- OpenAI всё ещё теряет около $1,22 на каждый заработанный доллар
- рост ChatGPT не дотянул до цели в 1 млрд пользователей
- OpenAI при этом продолжает поднимать гигантские раунды финансирования
Получается странный разворот. Компания, которая громче всех ассоциируется с ИИ-бумом, сжигает деньги быстрее, чем превращает аудиторию в устойчивую экономику.
А Anthropic, которую долго воспринимали как догоняющего конкурента, может оказаться бизнесом с более здоровой моделью.
Qwen выкатила Qwen3.7-Max: модель под агентов.
Alibaba показала Qwen3.7-Max - новый флагман семейства, который явно целят не в «ответь на вопрос», а в полноценную агентную работу.
Главный акцент - кодинг и long-horizon задачи. Модель обещают как основу для агентов, которые умеют не только писать куски кода, но и вести задачу end-to-end: собирать фронтенд-прототипы, делать многофайловые рефакторы, дебажить реальные проблемы и работать через инструменты.
Самая громкая заявка - 35 часов автономной работы над задачей по оптимизации kernel. Больше 1000 tool calls и без постоянного ручного контроля. Если это стабильно повторяется не только в демо, это уже другой класс агентных сценариев.
Что ещё заявляют:
- coding agent для реальной разработки, а не игрушечных сниппетов
- офисный ассистент через MCP-интеграции
- multi-agent orchestration для сложных рабочих процессов
- совместимость с разными агентными оболочками
- работа через Claude Code, OpenClaw, Qwen Code или свой стек
- доступ через Alibaba Model Studio и Qwen Studio
📖 Blog: https://qwen.ai/blog?id=qwen3.7
✅ Qwen Studio: https://chat.qwen.ai/?models=qwen3.7-max
⚡️ API:https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-max&serviceSite=international
@data_analysis_ml
GitHub взломали через расширение для VS Code. Утекли тысячи внутренних репозиториев
GitHub сообщил о компрометации одного из сотрудников компании. По предварительным данным, атака прошла через заражённое расширение для VS Code.
В результате злоумышленники получили доступ примерно к 4 000 внутренних репозиториев.
И, конечно, история уже вышла за рамки «внутреннего инцидента»: хакеры выставили похищенные данные на продажу за $50 000.
GitHub обещает позже опубликовать подробный отчёт и итоги расследования.
По текущей оценке, активность злоумышленника свелась к эксфильтрации только внутренних репозиториев GitHub. Заявления атакующего о ~3 800 репозиториях, по словам компании, в целом соответствуют результатам их расследования.
Чтобы снизить риски, GitHub оперативно провёл ротацию критических секретов — вчера и в течение ночи, начав с учётных данных с наибольшим потенциальным влиянием. Команда продолжает анализировать логи, проверять ротацию секретов и отслеживать возможную последующую активность; при необходимости будут предприняты дополнительные меры.
https://x.com/github/status/2056949168208552080
@data_analysis_ml
⚡️ Деннис Ритчи и Стив Джобс умерли в одном месяце: одного оплакивал весь мир, второго почти не заметили
Об этом факте регулярно вспоминают в сообществе разработчиков, но и сейчас он продолжает бить в больную точку. Стив Джобс и Деннис Ритчи ушли в одном и том же месяце одного и того же года, в октябре 2011. Их уход превратился в символ того, насколько по-разному мир относится к людям, которые формируют технологии.
Джобса оплакивали планетой, выпускали книги, сняли фильмы, именем назвали улицы. Он подарил iPhone, iPad, iPod и Macintosh, собрал вокруг Apple одну из самых дорогих компаний в истории. Денниса Ритчи провожали разве что в узком кругу и парой статей в блогах. Это был человек, который подарил нам язык C и вместе с Кеном Томпсоном Unix.
Дальше просто пройдёмся по цепочке. Без C нет Unix. Без Unix нет Linux, нет BSD, нет macOS и iOS. Без C не было бы Windows в его нынешнем виде, не было бы C++, Objective-C, Java, JavaScript в их привычном виде. Нет Chrome и Firefox, нет PostgreSQL и SQLite, нет Nginx, нет Photoshop, нет PlayStation и Xbox. Даже Python и PHP написаны на C.
При таком влиянии Ритчи оставался человеком, которого было сложно представить на сцене с черной водолазкой и в режиссёрском свете. Он работал в Bell Labs, носил бороду, избегал интервью и писал программы. Человек, без которого современный цифровой мир просто не выглядел бы так, как сейчас, провёл жизнь в тени своих собственных результатов.
Похоже, именно в этом и суть контраста. Джобс продавал эмоции и мечты о будущем, это видно и понятно любому человеку. Ритчи писал инфраструктуру, которой пользуются все, но вспоминают о которой, только когда она ломается. Инженерх понимают это отлично: восхищение и слава идут тем, кто выходит на сцену, а не тем, кто держит фундамент.
Поэтому этот сюжет приятно иногда вытаскивать наружу. Не чтобы принижать Джобса, он действительно изменил потребительский рынок. Но чтобы напомнить, что рядом жил тихий инженер в свитере, без которого все эти коробочки от Apple были бы просто красивыми пресс-папье.
🚀 ForgeTrain: фреймворк для pre-training, который написали ИИ-агенты
OpenBMB представили ForgeTrain - production-level фреймворк для pre-training, код которого был сгенерирован ИИ без ручного написания человеком.
Заявка интересная не из-за красивой фразы «AI пишет AI», а из-за масштаба. Это не демка на toy-проекте, а инфраструктурный код для обучения моделей, который проверяли на реальном железе.
Что заявляют авторы:
- на NVIDIA H100 ForgeTrain обгоняет Megatron примерно на 10%
- достигнут показатель 44.13% MFU
- пайплайн pre-training проверен не только на H100, но и на Huawei Ascend 910
- на ForgeTrain обучили MiniCPM5-1B, который занял первое место среди моделей до 2B параметров в Artificial Analysis Index
- код фреймворка и Agent Harness обещают открыть для воспроизведения
💻 GitHub: https://github.com/OpenBMB/ForgeTrain
✔️ Спецслужбы США получат $9 млрд на чипы и доступ к модели Mythos
Белый дом одобрил выделение $9 млрд АНБ и ЦРУ на закупку ускорителей Nvidia Grace Blackwell. Цель - создание изолированной ИИ-инфраструктуры.
Спецслужбы закупят в обход Пентагона невыпущенную модель Mythos от Anthropic. Технические требования Mythos позволяют развернуть ее на серверах предыдущего поколения, пока строятся новые дата-центры.
Ранее Минобороны США настаивало на праве использовать алгоритмы для любых законных целей, против чего выступала Anthropic. В итоговом контракте этот пункт убрали. Вместо него прописан прямой запрет применять Mythos для анализа данных и слежки за гражданами США.
Ожидается, что документ станет юридическим шаблоном для будущих контрактов со всеми ИИ-разработчиками.
nytimes.com
✔️ OpenAI открыла вакансию исследователя рисков автономного ИИ
Команда Preparedness в OpenAI открыла вакансию исследователя рисков автономного развития ИИ с зарплатой $445 000.
В задачи специалиста войдет разработка инструментов интерпретируемости, защита от отравления данных и внедрение метрик для оценки скорости автоматизации труда инженеров.
По планам Сэма Альтмана, к сентябрю 2026 года компания запустит автоматизированного ИИ-стажера для исследований. Появление полностью автономных R&D-систем прогнозируется к 2028 году.
businessinsider.com
✔️ В преддверии WWDC Apple зарегистрировала портал Genai
Apple добавила поддомен genai.apple.com на свои DNS-серверы. Страница пока недоступна, назначение этого портала неизвестно.
Ожидается, что 8 июня на WWDC 2026 компания представит iOS 27, iPadOS 27 и macOS 27. В новых версиях Siri получит интерфейс чат-бота и функцию распознавания экранного контекста.
Apple Intelligence расширит функциональность базовых сервисов. Voice Control начнет распознавать команды на естественном языке без жестких шаблонов. Алгоритмы Visual Intelligence смогут напрямую парсить данные с визиток или сканировать состав продуктов, а Safari получит автогенерацию названий для групп вкладок.
Также заявлена поддержка создания быстрых команд с помощью ИИ и генерация автоматических субтитров для видео.
macrumors.com
✔️ Релиз Grok V9-Medium ожидается через 2-3 недели
xAI завершила претрейн модели Grok V9-Medium на 1.5T параметров. Публичный релиз ожидается через две-три недели.
Сейчас команда проводит файн-тюнинг, после чего перейдёт к этапу RL. По словам Илона Маска, первые внутренние тесты показали положительные результаты.
На этапе дополнительного обучения разработчики задействовали массив данных от редактора Cursor. xAI рассчитывает, что это улучшит показатели модели в кодинге по сравнению с предыдущей версией v8-small.
Elon Musk в сети Х
✔️ Команда LeRobot выпустила чертежи и ПО для сборки двуногого робота
LeRobot (подразделение Hugging Face) выпустила open-source проект двуногого робота. Детали корпуса печатаются на 3D-принтере, стоимость сборки со стандартными приводами составляет около $2500.
В релиз вошли инструменты симуляции, алгоритмы калибровки, sim-to-real пайплайны и базовые модели обучения ходьбе. Пока для сборки доступна только нижняя часть платформы. Интеграция плечевого пояса и обучение моторике всего тела заявлены в дорожной карте.
Использование 3D-печати позволяет самостоятельно перепечатывать сломанные детали и не прерывать исследования локомоции на время ожидания запчастей.
huggingface.co
@ai_machinelearning_big_data
#news #ai #ml
🌟 Интуитивные голосовые интерфейсы с Moonshine Voice
Moonshine Voice — это открытый инструмент для разработчиков, позволяющий создавать голосовые приложения в реальном времени. Все работает на устройстве, обеспечивая высокую скорость и конфиденциальность без необходимости в учетных записях или API-ключах. Поддерживает множество языков и предлагает высокую точность распознавания речи.
🚀 Основные моменты:
- Оптимизирован для приложений с низкой задержкой.
- Поддержка множества платформ: от Python до IoT-устройств.
- Простые в использовании API для транскрипции и синтеза речи.
- Высокая точность моделей, превосходящая Whisper Large V3.
- Многоязычная поддержка для STT и TTS.
📌 GitHub: https://github.com/moonshine-ai/moonshine
#python
Офер в Яндекс за выходные: 6–7 июня
Если вы продуктовый, дата-аналитик или датасаентист с опытом на Python от 3 лет, участвуйте в Weekend Offer Analytics*.
Как всё устроено:
🔵 до 27 мая — регистрация;
🔵 6 июня — две технические секции, вместо трёх в обычном найме;
🔵 7 июня — знакомство с командами и офер.
В мероприятии участвуют команды: R&D, Автономный транспорт, Алиса и Умные устройства, Поиск и Суперапп, Независимый Ecom и другие. Вы сможете пообщаться с нанимающими менеджерами и выбрать проект, который покажется самым интересным.
Все подробности и полезные ссылки — на сайте. После регистрации с вами свяжется рекрутер и договорится об удобном времени для интервью.
Системный аналитик помогает бизнесу и разработке говорить на одном языке: разбирает задачи компании, описывает требования, проектирует IT-решения и следит, чтобы система работала на реальные цели бизнеса.
Онлайн-магистратура СПбГУ и Нетологии «Системный анализ и интеллектуальные системы управления бизнес-процессами» готовит специалистов на стыке IT и управления.
В программе сочетаются академическая база СПбГУ и прикладные инструменты Нетологии. Студенты изучают математическое моделирование, алгоритмы, системный анализ, Python, BI-системы, no-code-инструменты, управление проектами и подходы к внедрению искусственного интеллекта.
Такой набор навыков помогает работать со сложными бизнес-процессами: находить узкие места, снижать риски при разработке, формулировать требования к системам и сопровождать внедрение IT-решений.
Обучение проходит полностью онлайн. После выпуска вы получаете диплом магистра СПбГУ очного образца по направлению «Прикладная информатика».
Подробнее о программе
Реклама. ООО “Нетология” ОГРН 1207700135884 Erid: 2VSb5xczaJE
Anthropic, кажется, снова спалилась раньше времени.
В интерфейсе Claude на короткое время засветилась модель claude-mythos-1-preview, а в коде нашли новые строки с упоминанием Mythos и фразой про «Access to the Claude Mythos».
По данным TestingCatalog, модель готовят к выпуску в Claude Code и Claude Security, то есть профиль явно кодерско-безопасностный.
Параллельно OpenAI выкатывает GPT-5.5-Cyber, но делает это тихо, через Trusted Access для верифицированных специалистов по защите.
То есть две компании идут в одну и ту же нишу (кибербез и автономный код), но с разной стилистикой: одни через закрытую программу для red/blue team, другие через утечку в проде и закончившиеся мощности сразу после показа.
Если Mythos действительно метит в Claude Code и Security, ждём заметного скачка по агентным сценариям: длинные цепочки рассуждений на кодовой базе, аудит, поиск уязвимостей, работа в репозиториях без постоянного присмотра человека. Под это же стыкуется и осторожность с релизом, у моделей такого уровня офенсивный потенциал растёт быстрее, чем хочется показывать в публичном API.
https://x.com/Machinelearrn/status/2058446877813510325
✔️ В Claude Code закрыли уязвимость, позволявшую красть токены разработчиков
Anthropic пропатчила уязвимость в песочнице Claude Code. Баг позволял извлекать токены и исходный код разработчиков через инъекцию нулевого байта в SOCKS5.
Внутренний фильтр считал строку с нулевым символом безопасной, после чего операционная система обрезала текст по байту и подключалась к заблокированному хосту. В связке с промпт-инъекцией через анализируемые моделью файлы механизм давал возможность выполнять код и отправлять данные на сторонние серверы.
Уязвимость присутствовала в релизах до версии 2.1.89. Патч вышел в сборке 2.1.90 без упоминания в чейнджлоге и регистрации CVE. По заявлению Anthropic, разработчики обнаружили и закрыли баг внутренними силами до публикации отчета исследователей.
https://www.theregister.com/security/2026/05/20/even-claude-agrees-hole-in-its-sandbox-was-real-and-dangerous/5243662
⚡️ Machine Learning Roadmap 2026: большая карта входа в ML без сказок про “нейросети за месяц
Большой русскоязычный roadmap по машинному обучению: от первого import numpy до LLM, RAG, fine-tuning, AI-агентов и MLOps и даже вабкодинга.
Внутри нормальная структура: что учить, в каком порядке, зачем это нужно и что должно получиться на практике после каждого этапа.
Roadmap разбит на 7 треков:
1. Фундамент: Python, математика, статистика, инструменты
2. Классический ML: scikit-learn, табличные данные, метрики, валидация
3. Deep Learning: PyTorch, CNN, RNN, training loop
4. LLM и трансформеры: attention, KV-cache, RAG, LoRA, агенты
5. Generative AI: изображения, видео, аудио, мультимодальность
6. MLOps и прод: Docker, Kubernetes, CI/CD, monitoring, serving
7. Специализация: CV, NLP, RecSys, RL, Safety
Roadmap не продаёт иллюзию “обучил модель - стал ML-инженером”.
В реальной работе много времени уходит на данные, метрики, деплой, мониторинг, воспроизводимость и разбор ошибок. Модель - только часть системы.
Хорошая мысль из roadmap: LLM не делает джуна сеньором. Она ускоряет того, кто уже понимает базу. Без базы человек просто становится оператором Copilot, который не может объяснить, почему всё сломалось.
По времени тоже без сказок:
1. 0-3 месяца: математика, классический ML
2. 3-6 месяцев: Deep Learning и PyTorch
3. 6-12 месяцев: LLM, RAG, fine-tuning, AI-агенты
4. 12+ месяцев: MLOps, прод, масштабирование, специализация
Тут же собрано 7 болших бесплатных курсов по машинному обучению, математике и вайбкодингу!
Если давно хотели зайти в ML системно, а не прыгать между роликами про ChatGPT, Stable Diffusion и “топ-10 библиотек”, это хороший ориентир.
https://github.com/justxor/MachineLearningRoadmap
Любители науки, фестиваль для вас
Жителей и гостей Санкт-Петербурга приглашают на Т-Двор — масштабный и бесплатный городской фестиваль.
Особенно рекомендуем заглянуть в субботу, 4 июня, на День технологий. Он посвящен точным наукам, ИИ, биотеху, генной инженерии, космосу и физике. На фестивале выступят ученые:
— Астроном Владимир Сурдин расскажет про космос, черные дыры и тайны Вселенной.
— Океанолог Александр Осадчиев выступит с докладом про воду — главный ресурс планеты, изученный лишь на 5%.
— Футуролог Руслан Юсуфов будет рассуждать о цифровом приговоре — когда данные начинают решать за нас.
А еще будет арт-пространство, еда и активности. Встречаемся в Никольских рядах.
Успей зарегистрироваться, чтобы не пропустить событие
Yandex ML Challenge — соревнование по ML с задачами по CV, LLM, RL и оптимизации нейросетей.
Если вам интересны foundation models и соревновательный ML — советую посмотреть.
С 21 мая начался длинный онлайн-тур: 3 задачи, рейтинг и 11 дней на решения. Топ-100 участников попадут в очный финал на Young Con в Москве.
1 место — 1 млн рублей.
Топ-15 получат устройства от Яндекса.
Регистрация уже открыта.
Японцы показали компонент для чипов, который может стать ответом на энергетический ад ИИ
Университет Токио разработал компонент, который обрабатывает данные до 1000 раз быстрее обычных методов и при этом не разгоняет тепловыделение.
Но главная цифра даже не скорость.
По заявке разработчиков, энергопотребление может упасть до 1/100 от текущего уровня. Если очень грубо перевести это на масштаб дата-центров, объект, который сегодня потребляет энергию как 80 000 домов, теоретически мог бы уложиться в уровень около 800 домов.
Прототип чипа ожидается только к 2030 году, а коммерческое применение - ещё позже.
МЕГАДОД Центрального университета - день открытых дверей для будущих студентов
Центральный университет проводит МЕГАДОД для школьников 10-11 классов, родителей и абитуриентов магистратуры.
На встрече можно будет узнать всё об обучении в ЦУ напрямую от преподавателей, студентов и академических руководителей программ.
Что будет:
- презентации программ бакалавриата и магистратуры
- разговор о карьерных возможностях после обучения
- истории студентов и выпускников
- знакомство с кампусом и академической средой
- интерактивные сессии
- возможность задать вопросы преподавателям и студентам
Это хороший шанс понять, как устроено обучение в Центральном университете, какие направления можно выбрать и какие возможности открываются после поступления.
Зарегистрироваться
Tencent выкатил переводчик, который помещается почти куда угодно
Tencent Hunyuan открыли Hy-MT2 - серию мультиязычных моделей для перевода с Dense и MoE-вариантами.
Главная фишка не в том, что это «ещё одна модель для перевода». Самое интересное - маленькая версия на 1.8B параметров.
Её ужали через AngelSlim до 1.25-bit, и теперь модель занимает всего 440 МБ. При этом на Apple A15 она работает в 1.5 раза быстрее, чем обычный 4-bit inference.
То есть нормальный on-device перевод уже не выглядит как фантазия, где нужно жертвовать либо скоростью, либо размером.
Что заявляют по моделям:
• поддержка 33 языков и 5 китайских диалектов
• версия 1.8B обходит Microsoft Translate и другие коммерческие API на FLORES-200
• версии 7B и 30B-A3B обходят DeepSeek-V4-Pro
• 7B достигает 97.9% от уровня Gemini 3.1 Pro Think
• 30B-A3B достигает 98.6% от уровня Gemini 3.1 Pro Think
• все три модели показывают 96-99% от Gemini 3.1 Pro Think на реальных и доменных бенчмарках
Плюс Tencent вместе с моделями открыли IFMTBench - бенчмарк для проверки того, насколько хорошо переводческие модели следуют инструкциям.
🤖 https://modelscope.ai/collections/Tencent-Hunyuan/Hy-MT2
Claude Computer Use: Anthropic наконец объяснила, почему агенты промахиваются по кнопкам
Anthropic выложила практический гайд по computer/browser use для Claude. И там не про «магических агентов будущего», а про скучную инженерию, из-за которой агент либо работает, либо кликает мимо кнопки.
Главный инсайт: точность кликов часто ломается не из-за модели, а из-за скриншотов.
Если отправлять в API нативный 4K-скрин, Claude всё равно может увидеть его в уменьшенном виде. Модель возвращает координаты по одной картинке, а ваш harness кликает по другой системе координат. Итог - стабильные промахи.
Что рекомендует Anthropic:
- заранее downscale скриншотов
- для Claude 4.6 держаться около 1280×720
- для Opus 4.7 можно начинать с 1080p
- не отправлять native 4K без подготовки
- всегда масштабировать координаты обратно в реальный экран
- сначала давать текстовую инструкцию, потом изображение
- для мелких UI-элементов включать zoom или использовать клавиатуру
- логировать transcript и накладывать predicted clicks поверх скриншота
Отдельно интересно про модели. Sonnet 4.6 у них точнее для механических кликов, Opus 4.7 уже почти догнал по click accuracy, но даёт больше reasoning и больший pixel budget.
Самый полезный вывод: browser agent - это не «дал промпт и забыл».
Это система из модели, скриншотов, координат, DPI, zoom, DOM, клавиатуры, логов и fallback-методов. Если хотя бы один слой настроен криво, агент будет выглядеть глупым, хотя проблема вообще не в интеллекте модели.
Агенты становятся реальными не тогда, когда модель «умнее».
А тогда, когда вокруг неё собран нормальный runtime.
https://claude.com/blog/best-practices-for-computer-and-browser-use-with-claude