data_secrets | Unsorted

Telegram-канал data_secrets - Data Secrets

76842

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n

Subscribe to a channel

Data Secrets

Microsoft выкатили ОС для экстравертов

Они прикрутили к Windows 11 Copilot и назвали это «компьютером, с которым можно разговаривать».

Пока это похоже на чуть улучшенную версию Siri. Агент реагирует на «Hey, Copilot» и может помочь с какой-нибудь не очень сложной задачей: типа разобраться в работе приложения или найти какой-нибудь файл.

Отличная новость, но мы пошли дальше молча стучать по клавиатуре самостоятельно 🎮

Читать полностью…

Data Secrets

Готовый мини-ChatGPT с нуля от Андрея Карпаты

Помните, наверное, что на днях Андрей выложил продолжение проекта nanoGPT – nanochat. Это готовый конвейер для обучения и инференса целого мини-клона ChatGPT. Мы о нем вот тут подробно писали.

Так вот теперь инженер сообщил, что закончил обучать на этом коде первую более крупную версию модели nanochat d32. Самые маленькие модельки на этом пайплайне можно обучить примерно за 100 долларов (учитывая средние цены аренды GPU). nanochat d32 же стоил примерно 1000 долларов и обучался 33 часа.

Можно посмотреть на метрики. Они очень даже неплохие для 32 слоев и 1к долларов (что еще раз подтверждает качество кода).

– На CORE score результат 0.31. Это лучше, чем у GPT-2 (≈0.26)
– На GSM8K (математика) метрика выроса с 8% до 20%

Чудес, конечно, ждать не стоит. Это все еще ультра маленькая моделька. Карпаты говорит, что она как дошкольник. И тем не менее, результаты улучшились, и с инженерной точки зрения это все еще модель, которая прошла все этапы обучения с нуля: претрейн, мидтрейн, SFT и RL. В ней даже есть tool use.

https://github.com/karpathy/nanochat/discussions/8

Читать полностью…

Data Secrets

Anthropic выпустили Claude Haiku 4.5

Это мини-версия Claude в новом поколении. На SWE-bench модель набирает 73.3%. Это больше, чем у Claude Sonnet 4 (72.7%). А ведь эту модель выпустили всего пол года назад, и она долго считалась SOTA для кодинга. Теперь такое же качество можно получать в три раза дешевле и в два раза быстрее.

Также модель превосходит Sonnet 4 в метриках на Computer Use. В общем, это полноценная замена не только предыдущего малыша Haiku 3.5, но и Sonnet 4 (которая, предположительно, в несколько раз больше по количеству параметров).

Модель уже раскатили в Claude Code, Claude для Chrome, в чат и API. Блогпост.

Осталось дождаться только Claude Opus 4.5

Читать полностью…

Data Secrets

Новая неделя – новые модели от Qwen

На этот раз у нас Qwen3 VL в размерах 4B и 8B. Две просто отличные модельки для локального запуска и дообучения.

Каждая идет в вариантах Instruct и Thinking. Несмотря на размер, по качеству малышки даже кое-где обгоняют Gemini 2.5 Flash Lite и GPT-5 Nano.

По бенчмаркам видно, что модели почти дотянули до уровня Qwen2.5-VL-72B. А ведь эту модель выпустили всего пол года назад, и она считалась флагманом Qwen.

Кроме того, оптимизировали потребление VRAM и выпустили версии FP8.

Hugging Face
Cookbook

Читать полностью…

Data Secrets

Сэм Альтман пообещал, что в ChatGPT станет меньше цензуры

После выхода GPT-5 пользователи начали массово жаловаться на то, что модель перестала быть человечной, что теперь с ней нельзя поговорить как с другом, что они потеряли в ее лице психолога и тд.

OpenAI оправдывали это тем, что такой ценой старались сделать модель однозначно безопасной для людей с психологическими проблемами (вспоминаем историю о подростке, который покончил с собой после общения с ChatGPT).

Но теперь, кажется, свобод снова должно стать больше. Альтман написал, что они «разработали новые инструменты» для обработки отдельных случаев, и теперь могут безопасно ослабить ограничения для большинства юзеров. В частности:

1. В ближайшее время выйдет дополнительная версия ChatGPT, специально для фанатов человечности ответов и дружеского общения, как с GPT-4o.

2. В декабре, как только более широко введут возрастной ценз, для совершеннолетней аудитории разрешат эротику (что бы это ни значило).

У вайфу Илона Маска появится соперник 🤨

Читать полностью…

Data Secrets

🔺5 способов запускать проекты дешевле

Храните и обрабатывайте данные, оркестрируйте приложения и запускайте производительные веб-сервисы выгодно с облаком Selectel.

Подстраивайте инфраструктуру под ваш проект и платите только за то, что используете.

🚀А если проекту нужны вычисления под ML, рендер или аналитику — подключайте облачные серверы с GPU со скидками до 44%.

👉Выбирайте облачный сервер от Selectel для вашего проекта по ссылке:
https://slc.tl/rdae8?erid=2W5zFGwJWRN

Читать полностью…

Data Secrets

В Твиттере – очередная волна хейта OpenAI: юрист, работающий в сфере AI, рассказал, как компания пытается запугивать критиков

Парня зовут Натан Кэлвин, он основатель и главный юрист маленькой некоммерческой компании Encode. Они занимаются политикой в области ИИ: например, продвигают законопроекты по безопасности.

Основным из таких законопроектов в последнее время был калифорнийский SB 53. Он должен был ввести несколько новых важных правил, направленных на повышение прозрачности компаний, обеспечение безопасности выпускаемых моделей и защиту информаторов (то есть людей изнутри компаний, которые тайно или явно заявляют о нарушениях safety протоколов).

Естественно, несколько крупных компаний выступали против этого законопроекта. В том числе OpenAI, которые решили играть по-грязному.

Собственно, к сути истории: Натан рассказал, что OpenAI пытались стрясти с него важные данные по лоббированию проекта, когда узнали, что Encode его продвигает. Это, ясное дело, незаконно, НО OpenAI решили прикрыться (ни за что не поверите) Илоном Маском!

Повестка в суд, которая пришла Натану, была частью иска OpenAI против Маска, который они подали в начале 2025. Там обвинения в том, что миллиардер якобы спонсирует заговор против OpenAI.

В целом, не суть. Главное: сейчас OpenAI очень удобно использует этот иск как предлог, чтобы запугивать организации, выступающие (даже косвенно) против их политики.

В частности, у Натана таким образом требовали личные переписки с законодателями Калифорнии, студентами и бывшими сотрудниками OpenAI. Как эти переписки должны были помочь им в деле с Маском – остается загадкой.

Причем жульничество это насколько явное, что даже судья по этому делу раскритиковал OpenAI за злоупотребление процедурой и чрезмерное давление в ходе расследования.

К слову, в организации Натана работает всего 3 юриста. Такая конторка, естественно, не готова к суду с гигантами вроде OpenAI. Чем компания активно и пользуется, чтобы влиять на деятельность этой и подобных организаций.

Сейчас тред с историей набрал уже 6 миллионов просмотров и 1.5 реплаев. Стартап эту неловкую завирусившуюся ситуацию пока никак не комментирует

А законопроект, кстати, все-таки подписали, буквально пару недель назад

Читать полностью…

Data Secrets

Вчера вечером вышел долгожданный робот Figure 03

Разработчики пророчили революцию, так что посмотрим, что в нем на самом деле нового:

1. Это первая модель, которую Figure хотят пустить на массовое производство на их заводе BotQ и довезти до продакшена. Говорят, что робот готов почти для любых задач в быту/сервисе.

2. Полностью переделали сенсорику и руки. Угол обзора камер теперь на 60% шире + добавились камеры на ладонях для мелких деталей. А на пальцах – новые тактильные подушечки с датчиками давления в граммах. Отсюда аккуратный захват и манипуляции с хрупкими предметами.

3. Обновили голос и память. Улучшили естественность диалога и сделали акцент на долгосрочную поведенческую память. Например, робот постоянно помнит, где лежат вещи, кто что просил сделать, любите вы кофе с сахаром или без и тд.

Ну и еще беспроводная зарядка, пальцы на ногах для баланса, пониженная масса робота, увеличенная грузоподъемность, обновленные батареи и материалы.

И да, робот еще не выглядит как идеальный дворецкий из коробки, НО уже выглядит, как что-то достаточное умное для первых реальных пилотов.

Блогпост вот, но он больше на широкую аудиторию. Технических деталей там, к сожалению, нет. Единственное, что известно: под капотом все та же VLA модель Helix (мы писали о ней тут и вот тут). Она работает на роботе локально и хорошо обобщается даже на незнакомые предметы. Обучали частично в симуляции, частично – на реальных роботах, с помощью RL.

Читать полностью…

Data Secrets

3. Обновили Codex. Первое и главное: агент вышел из беты и стал мощнее. Кроме того:

– Сделали интеграцию со Slack: теперь агент сможет читать ваши чатики с коллегами и брать из обсуждений контекст для работы.

– Добавили Codex SDK. Теперь агента можно прикрутить вообще куда угодно.

Прямо на презентации Codex присоединился к системе освещения и некоторое управлял светом и экраном. Выглядело круто.

Читать полностью…

Data Secrets

У Anthropic новый CTO

Им стал бывший технический директор Stripe Рахул Патил. Он пришёл на место сооснователя Сэма МакКлэниша, который теперь займётся архитектурой и обучением крупных моделей в роли главного архитектора.

Патил будет отвечать за инфраструктуру, вычисления и инференс — ключевые направления для компании, особенно на фоне растущей нагрузки на Claude и гонки с OpenAI и Meta* за вычислительные мощности.

https://techcrunch.com/2025/10/02/anthropic-hires-new-cto-with-focus-on-ai-infrastructure/

Читать полностью…

Data Secrets

О, легендарный Эндрю Ын кажется проведет открытый бесплатный курс по Deep Learning в Стэнфорде

Все лекции можно будет смотреть на YouTube. Первая вышла вчера, вот ссылка. Эндрю уже довольно давно ничего такого не вел, так что это настоящий подарок.

Все презентации и материалы будут выкладывать здесь. В программе обещают довольно подробную теорию по нейросетям, от самых основ DL до LLM, RL, агентов, RAG и мультимодальных моделей. Практические материалы также должны быть доступны, включая (вроде как) домашки.

Вот и нашлось занятие на выходные

Читать полностью…

Data Secrets

Wired пишет, что OpenAI тоже собираются делать свой ИИ-ТикТок

Идея та же, что и у только что вышедшего приложения от Meta: соцсеть с короткими сгенерированными видео.

Самое интересное, что под капотом будет Sora 2 (давно пора).

Читать полностью…

Data Secrets

В X вовсю обсуждают блогпост ученого Джулиана Шриттвизера, который напророчил AGI к 2026-2027 году

Это имя может быть вам не знакомо, потому что Джулиан нечасто появляется на публике и в соцсетях. Но на самом деле он – один из самых заметных ученых в области (с огромным Хиршем). Он занимал позицию главного рисерчера в DeepMind и сыграл ключевую роль в создании AlphaGo, AlphaZero, MuZero, AlphaCode, AlphaTensor и AlphaProof. Сейчас работает в Anthropic.

Так вот, он в своем новом блогпосте («Failing to Understand the Exponential, Again») сравнил текущую ситуацию с ИИ с началом пандемии COVID-19. Тогда, несмотря на явные экспоненциальные данные о росте заражений, многие продолжали считать пандемию маловероятной.
С ИИ происходит то же самое: люди видят прогресс, но продолжают думать, что AGI не будет и развитие ИИ уже замедляется.

На самом деле, как говорит Джулиан, рост все еще экспоненциальный:

➡️ На бенчмарке METR (оценивает, как модели справляются с длинными автономными задачами, подробно писали в этом посте) примерно каждые 7 месяцев максимальная длительность автономной работы модели удваивается. Это экспонента по определению, а значит в 2026 году ИИ сможет работать автономно целый рабочий день.

➡️ На новом GDPval от OpenAI (пост про бенчмарк) GPT-5 и Opus 4.1 уже почти достигли среднего человеческого уровня по многим профессиям. Судя по прогрессу относительно прошлых моделей, уже к концу 2026 хотя бы одна модель достигнет уровня лучших экспертов в большинстве отраслей. К 2027 году компании начнут массово заменять специалистов.

В общем, основная мысль такова: экспонента есть, даже если мы ее не замечаем.
Пользователи часто судят по собственному опыту – «я не заметил разницы между GPT-4о и GPT-5, значит прогресс остановился». Но с каждым новым релизом эффекты все равно накапливаются, даже если это не сразу видно в повседневных чатах. Плюс, экспоненту в целом сложно интуитивно осознать: все изменения всегда кажутся медленными, пока не произойдет поворотный момент.

(Хочется еще добавить, что все-таки надо еще делать поправку на закон Гудхарта: метрики можно натаскать, а realworld задачи так и останутся нерешаемыми. Но это уже совсем другая история.)

Вот такой вот вам разбор в понедельник утром ☕️

Еще раз ссылка на блогпост: www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/

Читать полностью…

Data Secrets

Помните, рассказывали вам про международную олимпиаду по ИИ и анализу данных от Яндекс Образования и ФКН НИУ ВШЭ? До конца регистрации осталось совсем чуть-чуть — если хотели, но не решались, самое время поторопиться 🚀

Читать полностью…

Data Secrets

Секретное оружие аналитика: ИИ, встроенный в дашборды, стал доступен всем

Раскрываем еще один data-секрет! С 24 сентября открывается массовый доступ к ии-агенту внутри BI-системы DataLens.

Нейроаналитик — это ваш напарник прямо в интерфейсе DataLens. Вы показываете ему график, а он помогает его понять: находит инсайты, аномалии и формулирует выводы

Что он делает?

• Смотрит на дашборд и пишет, что там происходит.
• Отвечает на ваши вопросы по данным в чате.
• Помогает создавать кастомные графики, генерируя необходимый код.


Выгода очевидна: меньше рутины, больше инсайтов и ускорение проверки гипотез на 30%.

Читать полностью…

Data Secrets

Google объединяются с одной из крупнейших компаний в области ядерного синтеза, чтобы вырабатывать энергию в помощью ИИ

CFS, с которыми Google заключили сделку, уже много лет занимаются выработкой термоядерной энергии. Она считается самым чистым из возможных видов топлива: экологично, безопасно и неисчерпаемо – три в одном. Но пока человечество только пытается научиться ее добывать.

Один из основных подходов к синтезу такой энергии – это контролируемое движение сверхгорячего ионизированного газа (плазмы) внутри специальной трубы – токамака.

Но чтобы управлять плазмой, нужно очень точно моделировать, как тепло, ток и вещество движутся через газ и взаимодействуют с ним. Это очень сложные расчеты, с которыми не справляются даже суперкомпьютеры. Но Google надеются, что именно эту задачу возьмет на себя их моделька под названием Torax.

Torax – это специальный симулятор транспорта плазмы / RL-агент (опенсорсный, кстати), который позволяет быстро и эффективно проводить много виртуальных экспериментов без потребления энергии токамака, за счет чего преодолевается точка безубыточности.

Кроме того, агент как бы сам может управлять плазмой и распределением тепла, быстро находя лучшие стабильные конфигурации. Это буквально выработка сверхмощной энергии под управлением ИИ. Звучит как будущее.

deepmind.google/discover/blog/bringing-ai-to-the-next-generation-of-fusion-energy/

Читать полностью…

Data Secrets

Курс по практической ML-инженерии от лучшего просветительского проекта в GenAI 2025

Залетай в новый поток курса «Практическая ML-инженерия: MLOps и разработка проектов» от AI Talent Hub, ИТМО если хочешь:

1️⃣ Освоить стек MLOps: DVC, Airflow, MLflow, ClearML, W&B, FastAPI, PyTest, Docker, GitLab CI — ключевые инструменты для выведения ML-модели в продакшен.
2️⃣ Вырасти в грейде: обновить скилсет и перейти в практический ML
3️⃣ Пройти весь путь создания ML-продукта от идеи до релиза с поддержкой практиков из AI Talent Hub
4️⃣ Получить диплом ДПО ИТМО
Продолжительность: 5 месяцев
Формат: онлайн

➡️ Изучи программу и успей зарегистрироваться до 31 октября!

AI Talent Hub — лучший просветительский проект в GenAI по версии Generation AI Awards 2025

Реклама. Университет ИТМО ИНН:7813045547

Читать полностью…

Data Secrets

Существующие методы защиты моделей от взломов сломаны: совместная статья от OpenAI, DeepMind и Anthropic

Достаточно радикальная и категоричная работа (и потому интересная). Авторы утверждают, что любые существующие методы защиты LLM от джейлбрейков можно сломать и показывают, как 🏴‍☠️

В качестве примера они берут 12 популярных защитных механизмов (Spotlighting, PromptGuard, MELON, Circuit Breakers и др) и демонстрируют, что каждый можно обойти с успехом 90–100%. Даже если в оригинальных статьях заявляется "0% успешных атаки".

Все дело в том, как мы измеряем качество алгоритмов. В большинстве работ механику наивно прогоняют по фиксированному набору известных джейлбрейков, никак не учитывающих саму защиту. Это как если бы антивирус тестировали только на старых вирусах. Естественно, что так ничего не сработает.

Авторы говорят, что нужен другой подход. Против модели должны играть не старые заготовки, а динамический алгоритм, который подстраивается под атаку и может менять стратегию. Это может быть:

RL-агент, который обучается на обратной связи модели.
Какой-нибудь поисковой вид атак типа beam search и генетических алгоритмов.
Если модель открытая, то можно оптимизировать градиент на уровне токенов. То есть постепенно меняем по 1-2 токена, смотрим на влияние, подстраиваемся.
Ну или просто Red-teaming с живыми людьми, если денег не жалко. Это все еще самый эффективный способ.

Сейчас любой из этих методов имеет до 95% успеха взломов на самых популярных защитных системах. Вроде простой стресс-тест, но его не прошел никто. Забавно, конечно, но факт. По сути, это значит, что модели – это новый вид универсальных вирусов, которые мы вообще не умеем отлавливать.

Тем временем любая системная карта любого стартапа: да все безопасно, зуб даем ☕️

Читать полностью…

Data Secrets

Две идеи, что подарить другу или коллеге:

1. Стильная подставка под кружку

2. Функциональная открывашка для пива

Не благодарите.

Читать полностью…

Data Secrets

Завтра наконец-то поступит в продажу DGX Spark от Nvidia. Первые экземпляры достались Маску.

Это та самая видеокарта, которая попала в топ-100 изобретений года по версии Times. По сути, самый маленький в мире ИИ-суперкомпьютер. Так что сегодня – большой день.

В основе архитектура NVIDIA Grace Blackwell. Начинка: 128Gb оперативки, 20 ядер CPU, ARM процессор. Пропускная способность в районе 273 ГБ/с. И все это весит всего 1.2кг. А стоит – 4000 долларов 🚨

А еще в честь долгожданного начала продаж (а с момента анонса DGX Spark до сегодняшнего дня прошло чуть меньше года) Дженсен Хуанг сам лично подарил один из первых экземпляров суперкомпьютера Илону Маску.

Подпись: "From a single Spark, a world of Intelligence": то есть "Из одной искры в мир интеллекта".

(Где-то ревниво вздыхает один Альтман)

Больше технических характеристик DGX Spark ищите тут

Читать полностью…

Data Secrets

📘 На Stepik вышел курс — «ML-инженер: от первой модели до продакшена»

Хотите не просто натренировать модель в ноутбуке, а довести её до реального продукта? Этот курс — полный путь от основ до production.

• Математика и Python: линейная алгебра, статистика, NumPy, Pandas, визуализация (Matplotlib, Seaborn, Plotly)

• Классика ML: регрессия, KNN, деревья решений, Random Forest, SVM, Naive Bayes

• Ансамбли: XGBoost, LightGBM, CatBoost, подбор параметров (Optuna, Hyperopt), MLflow

• Deep Learning: PyTorch и TensorFlow/Keras, CNN, RNN/LSTM, Attention, Transfer Learning

• Работа с данными: парсинг (BeautifulSoup, Scrapy), SQL/API, feature engineering

• Продвинутые задачи: рекомендательные системы, временные ряды (ARIMA, Prophet), SHAP и LIME

• MLOps: FastAPI, Docker, деплой в облако, мониторинг моделей

• Подготовка к собеседованиям: технические вопросы, системный дизайн, SQL, портфолио

🎓 Сертификат — добавьте в резюме или LinkedIn

🚀 Скидка 25%, действует 48 часов

👉 Пройти курс на Stepik

Читать полностью…

Data Secrets

Минутка интересных фактов: без ИИ рост ВВП США составил бы всего 0.1%

Ведущие экономисты Гарварда совместно с аналитиками Morgan Stanley и Fortune выяснили, что 80% роста американского фондового рынка в 2025 году обеспечили компании, разрабатывающие ИИ.

Без ИИ рост ВВП был бы почти нулевой: вложения в железо и софт составили 92% всего прироста показателя за первую половину 2025.

В статье пишут, что это уникальное экономическое явление. Но дискуссии по поводу того, насколько устойчива подобная конструкция, продолжаются.

Читать полностью…

Data Secrets

⚡️ GPT-5 Pro и Sora-2 появятся в API

Читать полностью…

Data Secrets

Google DeepMind выпустили занятную статью, в которой проверили, насколько хорошо Veo 3 понимает мир

Google уже долгое время говорят, что Veo – это их не просто моделька для генерации прикольных видосиков, а (потенциально) полноценная world modeling система, которую хотят использовать для обучения следующего поколения моделей, агентов и роботов.

А еще, возможно, такие модели как Veo сами по себе могут стать следующим шагом в развитии ИИ. Ведь ученые вроде Лекуна очень любят повторять, что именно отсутствие понимания материального мира – основная проблема современных LLM, которая отделяет нас от AGI.

Так вот. В Google решили проверить, насколько уже сейчас текущая версия Veo понимает физику и логику нашего мира. Ее прогнали по большому сету задач, среди которых были: лабиринты, моделирование физики, визуальные задачки на ризонинг, распознавание свойств объектов и тд и тп.

Все задачки и как с ними справилась Veo можно посмотреть тут. Если кратко:

– Модель действительно способна решать широкий набор задач, для которых её. Пример: детекция, которой напрямую не было в трейне.

Veo 3 решает задачи, требующие пошагового визуального мышления (которое авторы называют Chain-of-Frames (CoF), аналог Chain-of-Thought в LLM). Например, на лабиринтах 5 на 5 точность достигает 78% на pass@10. Для такой модельки это прямо неплохо.

– Хорошо понимает физику и может смоделировать сложные штуки типа плавучести, трения, отражений, преломлений и другого.

Вывод такой: подобные модели точно можно рассматривать как альтернативу обучению на тексте. Пока, конечно, их развитие все еще в зачатке. Но кто знает, что будет через год, два или три.

Статья

Читать полностью…

Data Secrets

OpenAI официально ответили на последний иск Илона Маска о шпионаже

Берите попкорн, вот вам подробности:

– Около недели назад Маск заявил, что OpenAI систематически переманивает бывших сотрудников xAI и подталкивает их распространять коммерческие секреты стартапа. Так Альтман, якобы, пытается выкрасть секреты разработок xAI. Наш пост с подробностями по этом делу тут.

– Это, кажется, уже сотый по счету иск Маска в сторону OpenAI. Но в этот раз, видимо, Сэм не выдержал: сегодня на сайте стартапа появился целый лендинг под названием "Правда об Илоне Маске и OpenAI", в котором оказались собраны все иски миллиардера, официальные ответы на них, архивы переписок руководства OpenAI с Маском и тд.

– OpenAI в своем ответе пишут, что всем этим собранием пытаются показать, что череда исков Маска – это просто политическая стратегия, а не реальные претензии. В частности, по поводу шпионажа они пишут следующее:

Не имея возможности добиться того же уровня инноваций, что и OpenAI, xAI направила в суд этот беспочвенный иск о хищении коммерческой тайны. Подчеркиваем: OpenAI вообще не нуждается в чьих-либо коммерческих секретах для достижения своей миссии, и меньше всего – в принадлежащих xAI.

Это очередной элемент стратегии, которая фокусируется на судебном преследовании со стороны Илона Маска. Сотрудники имеют полную свободу выбора места работы. Многие талантливые люди покидают xAI из-за Маска, и часть из них добровольно решает присоединиться к OpenAI для реализации общей миссии.

Цель подобного иска – не защита коммерческих интересов, а создание атмосферы страха среди специалистов, чтобы ограничить их профессиональную мобильность и вынудить остаться в нынешней компании. Попытки запугивать сотрудников юридическим давлением – это вредная для всей отрасли тактика, которая серьёзно подрывает инновационную динамику в мире искусственного интеллекта.


Вот такие страсти. А вы говорите, продолжение "Кремниевой Долины" не снимают 🍿

Читать полностью…

Data Secrets

Что есть ML без математики…

Под любым алгоритмом скрываются формулы. Градиентный спуск, тервер, статистика — без всех этих строгих математических инструментов машинное обучение превращается в чёрный ящик.

Но хорошая новость в том, что подступиться к этому всему может даже заядлый гуманитарий. Коллеги из канала «Зачем мне эта математика» как раз для этого и работают.

Там разбирают задачи по шагам, показывают, где они встречаются в жизни, и постепенно помогают разгадывать сложные математические головоломки. Для профиков тоже много полезного:

🔸объяснение линейной регрессии в контексте ML;

🔸прогноз спроса с учетом цен и сезонностей;

🔸рассказ про универсальность метрик.

А ещё команда каждую неделю постит по задаче. Причём есть разные: и школьные, и оптимизационные, и даже инсайтные 👀

Подписывайтесь на канал! Это ваш базовый минимум, если вы хотите связать свою жизнь с цифрой, и роскошный максимум, если боялись школьную математичку.

Реклама. ООО "ФРОМ СКРЭТЧ", ИНН 9724205560, erid: **

Читать полностью…

Data Secrets

📘 На Stepik вышел курс — «MLOps с нуля: как довести модель до продакшна»

Начинаете путь в MLOps и хотите понять, как перевести ML-модель из ноутбука в реальный продукт? Этот курс — именно то, что нужно.

🔍 Что вы получите:
• Понимание полного жизненного цикла ML-модели: от обучения до мониторинга
• Практику с современными инструментами: Docker, Kubernetes, CI/CD, MLflow
• Опыт построения воспроизводимых пайплайнов и управления экспериментами
• Навыки автоматизации и работы с инфраструктурой для реального продакшна

🎓 Сертификат по завершении — добавьте его в резюме или профиль LinkedIn

🚀 Сделайте шаг к профессии MLOps-инженера. Начните уже сегодня и получите скидку 30%, которая действительна в течение 24 часов

👉 Пройти курс на Stepik

Читать полностью…

Data Secrets

У стартапа Миры Мурати Thinking Machines вышло уже второе исследование: авторы предлагают новый метод обучения нейросетей

В статье много зубодробительной математики, но мы попробуем разобрать ее более простым языком.

Когда мы обучаем нейросети, одна из главных проблем – это контроль масштабов тензоров (весов, активаций, градиентов). Если что-то становится слишком большим или слишком маленьким, начинаются численные проблемы: всякие взрывы градиентов, исчезающие градиенты и тд.

Обычно это фиксится высокоуровнего с помощью техник типа gradient clipping, weight decay или layer norm. Но здесь предлагается более жёсткий и фундаментальный подход: не просто скейлить веса, а ограничивать саму структуру тензоров, заставляя их жить не в произвольном пространстве, а на определенном многообразии (на английском manifold).

На практике это выглядит примерно так:

➡️ Каждый вид слоев сети живет на своем многообразии. Например, мы хотим, чтобы полносвязыне слои не растягивали веса слишком сильно. Для этого в качестве многообразия можно выбрать пространство матриц, у которых строки/столбцы ортонормированы (просто исходя из свойств такая матрица почти не будет увеличивать норму сигнала). Значит, при любом обновлении весов, после каждого шага обучения, матрица весов на этом слое во что бы то ни стало должна обладать таким свойством.

➡️ На прямом проходе ничего не меняется, да и на бэкпропе градиенты сами по себе считаются как обычно. Но обновить веса по обычной формуле мы теперь не можем: так условия на матрицы перестанут выполнятся. Поэтому, прежде чем вычесть градиент, мы сначала проецируем его в касательное пространство. Интуитивно это значит, что в векторе обрезаются те направления, которые увели бы нашу матрицу из целевого подпространства.

➡️ Все, теперь с подправленным градиентом можно сделать шаг обучения. Теоретически полученные матрицы должны остаться в исходном пространстве. Но из-за численных ошибок они могут немного съехать. Поэтому заключительным этапом еще идет аккуратная ретракция (примерно то же, что и проекция). Для стабильности еще предлагают вводить бюджет шагов. Это чтобы все слои двигались примерно равномерно.


Короче, на игрушечном эксперименте с CIFAR-10 такой оптимизатор действительно показывает метрики гораздо лучше, чем AdamW (+ лучшую стабильность).

И вроде все круто, и с исследовательской точки зрения проект правда интересный. Но до практики пока далеко, потому что остается еще куча вопросов: а как подбирать пространства, а как будет сходиться, а заведется ли на больших сетях, а будет ли работать с float16 и прочее-прочее. Это не говоря уже об огромных вычислительных затратах.

thinkingmachines.ai/blog/modular-manifolds/

Читать полностью…

Data Secrets

ChatGPT Pulse – первый из обещанных Альтманов «ресурсоемких» продуктов OpenAI

По сути, личный проактивный ассистент, который не просто помогает с чем-то по просьбе, а каждый день напоминает вам о важных событиях и сам готовит сводку актуальной информации.

Например:

– Если вы упоминали, что куда-то едете, агент предложит список мест, куда можно сходить, или ресторанов.

– Если спрашивали что-то про спорт, поищет для вас актуальные исследования на тему ЗОЖ.

– Если подсоединить Google календарь и Gmail, будет формировать агенду к предстоящим встречам, напоминать о чьем-то ДР (и предлагать подарки) и прочее прочее прочее.

И это все агент будет делать сам, основываясь просто на ваших чатах и том, что (по его мнению) вам актуально именно в этот день. Но, конечно, влиять на подборку можно и вручную.

Пока доступно только для Pro, и только в мобильном приложении. После обкатки обещают раскатить и на плюсов.

Читать полностью…

Data Secrets

Новый модели Qwen: уровень GPT-5 и Grok 4 от китайцев

В этот раз лаборатория показала сразу несколько моделей:

Основная: Qwen3-Max, новый флагман лабы. Есть варианты Instruct (без ризонинга) и Thinking. Instruct перебивает на бенчах Claude Opus 4 Non-thinking. А вариант с ризонингом – вообще что-то: уровень GPT-5 и Grok4 Heavy на AIME25 (100%), HMMT25 (100%) и GPQA (85%). Весов пока нет, но в чате можно попробовать бесплатно.

Qwen3-VL – новая vision-language модель, которая опережает Gemini 2.5 Pro. Также есть варианты с ризонингом и без. Например, модель можно использовать как Computer Use агента или как Visual Coding агента (аля напиши сайт с дизайном, как на картинке). И, кстати, модель не супер массивная: MoE на 235В с 22 авктивными. Веса.

Обновленный Qwen3-Coder. Добавили мультимодальность + прокачали метрики. На SWE-Bench теперь выбивает почти 70% (это, опять же, примерно уровень Opus 4 и GPT-5).

Кажется, это R1-moment для Qwen. Все модели уже можно попробовать в чате chat.qwen.ai

Читать полностью…
Subscribe to a channel