sberloga | Неотсортированное

Telegram-канал sberloga - Sberloga

2562

Data Сообщество По всем вопросам обращаться @SberlogaHelperBot Чат - @sberlogadataclub

Подписаться на канал

Sberloga

📖️ Видеопост прошедшей лекции, как обещал!

Отдельный респект Роману за его крутой доклад! Очень подробно раскрыл специфику построения моделей, тонкости и разные подходы. 👍️ Рекомендую к просмотру!

Кстати, для удобства выкладываю видео и в VK, и в YouTube, чтобы не мучиться с VPN из России:

🎬 VK: https://vkvideo.ru/video-231661716_456239017

🎬 YouTube: https://youtu.be/7vfsl9HV5_c

Смотрите и наслаждайтесь! 🎥

Читать полностью…

Sberloga

МТС True Tech и ComDS приглашают на Summer Data Science Night — вечерний open-air митап для специалистов по DS и ML. Встречаемся 29 июля в 19:00 во дворе бара «Стрелка», который на одну ночь превратится в летний кинотеатр для data-фанатов.

Обсудим:

⭐️«Вызовы для DS 2025 в России».
Спикеры:
— Никита Зелинский, CDS & Head of ML Platforms МТС, автор канала Дата канальи – про „специалистов“ данных в ML/AI
— Евгений Смирнов, CDS & Head of ML Lab, Alfa-Bank, автор канала Нескучный Data Science
— Шамаев Юлий, начальник управления моделирования партнерств и ИТ-процессов, Банк ВТБ.
⭐️ «Наши RecSys-технологии: как мы завариваем вашу любимую музыку». — Дмитрий Берестнев, начальник управления машинного обучения, Hi-Fi стриминга Звук.
⭐️ «Трансформеры в кино. Как мы строим персональные рекомы в KION». — Даниил Пименов, Team Lead RecSys в KION, MWS Big Data.
⭐️ «Георекомендации: как мы подсказываем клиентам, где тратить деньги». — Алексей Пустынников, DS Team Lead команды GeoML Банка ВТБ.
⭐️«Serving по-взрослому: ускорение NLP inference в 50 раз в Антиспаме» — Илья Денисов, ML Team Lead команды Антифрод MWS Big Data.
⭐️«Практические кейсы внедрения Rag: помощник оператора и HelpDesk» — Александр Вавилкин, Middle Data Scientist, Альфа Банк.

Готовьте ваши вопросы спикерам, под попкорн будем выбирать лучшие!

🗓 29 июля
🕗 19:00–22:30
🔗
Офлайн. Количество мест ограничено. Регистрируйтесь по ссылке.

Читать полностью…

Sberloga

📌 США могут ускорить гонку ИИ, вложив в "Манхэттенский проект ИИ" ресурсы, сопоставимые с программой «Аполлон».

Идея «Манхэттенского проекта для ИИ», витавшая последние месяцы на самом высоком уровне в США, кажется, начинает обретать очертания. Но за громкими сравнениями обычно теряется суть: а что это значит на практике?

Аналитики из Epoch AI решили посчитать, какой вычислительный монстр может появиться, если американское правительство консолидирует ресурсы частного сектора и вложит в проект долю ВВП, сопоставимую с пиком лунной программы.

Epoch AI - некоммерческий исследовательский институт, который изучает траекторию развития искусственного интеллекта, анализирует тренды в вычислениях, данных и алгоритмах, чтобы прогнозировать влияние ИИ на экономику и общество.


🟡Картина получается масштабная.

Расчеты показывают, что к концу 2027 года такой проект мог бы обеспечить тренировочный прогон модели с вычислительной мощностью порядка 2 × 10²⁹ FLOP.

Чтобы понять масштаб: это примерно в 10 000 раз больше, чем потребовалось для обучения GPT-4. По сути, это рывок, который по текущим прогнозам должен был случиться на несколько лет позже.

Финансирование на уровне программы «Аполлон» (около 0.8% ВВП или 244 млрд. долларов сегодня) позволило бы закупить и объединить в один кластер эквивалент 27 миллионов NVIDIA H100. Эта цифра, кстати, совпадает с экстраполяцией текущих доходов NVIDIA от продаж в США.

🟡А хватит ли на это электричества?

27 миллионов GPU потребуют около 7.4 ГВт мощности - это больше, чем потребляет весь город Нью-Йорк. Оказывается, это не главная преграда. Аналитики говорят, что к 2027 году в США и так планируется ввод 8.8 ГВт за счет новых газовых электростанций, значительная часть которых уже предназначена для дата-центров.

При наличии политической воли и используя законодательные инструменты, правительство США сможет сконцентрировать эти мощности в одном месте, так что энергия не станет узким местом.

🟡Разумеется, у сценария есть свои «но».

Геополитическая напряженность, например, вокруг Тайваня, может сорвать поставки чипов. Кроме того, нельзя просто так взять и увеличить масштаб в тысячи раз. Масштабирование требует времени на отладочные прогоны и эксперименты, но это скорее инженерное, а не ресурсное ограничение.

Тем не менее, анализ показывает: при должной координации и инвестициях технологический скачок в области ИИ может произойти гораздо быстрее, чем мы думаем. И это уже вполне просчитываемая возможность.

🔜 Статья на Epoch AI

@ai_machinelearning_big_data

Читать полностью…

Sberloga

Будни вайб-кодеров 💀

Читать полностью…

Sberloga

🔥 Исследователи Яндекса выложили в опенсорс один из самых больших в мире датасетов для RecSys

Речь про YaMBDa — Yandex Music Billion-interactions Dataset. Он создан на основе обезличенных данных Яндекс Музыки, крупнейшего подписного музыкального сервиса в России, а также «Моей волны», главного рекомендательного продукта сервиса. Датасет содержит обезличенные взаимодействия 1 миллиона пользователей Яндекс Музыки с 9 миллионами треков в течение 10 месяцев. Всего это 5 миллиардов событий.

https://habr.com/ru/companies/yandex/articles/913294/

Читать полностью…

Sberloga

Как построить личный бренд в IT и зачем это нужно?

Центр непрерывного образования ФКН приглашает на вебинар, посвященный роли личного бренда разработчика и его эффективному развитию с использованием современных ИИ-инструментов.

На вебинаре обсудим:
〰️〰️〰️〰️
1️⃣Зачем разработчику личный бренд и как он влияет на карьеру:
🟣Почему в IT уже недостаточно только технических навыков и какую роль играет персональный бренд в продвижении по карьерной лестнице и укреплении профессиональной репутации.

2️⃣Стратегии развития личного бренда в IT:
🟣Разберем эффективные подходы к продвижению себя как специалиста: выступления на конференциях, написание профессиональных статей и создание технического контента. Обсудим, как правильно выбрать каналы и форматы коммуникации.

3️⃣Как ИИ упрощает развитие бренда и в чем его ограничения:
🟣Рассмотрим, какие задачи при построении бренда можно делегировать нейросетям и большим языковым моделям, а где по-прежнему необходимы человеческий подход.

🎙Спикер: Михаил Попов, Developer Relations Partner в Яндекс Go, преподаватель программы «DevRel: работа с комьюнити как основа личного и HR-бренда».

📁Дата: 30 апреля в 19:00 в онлайн-формате.

Регистрация

Читать полностью…

Sberloga

Navigate easily with an intuitive, modern UI.
Airflow’s UI has been rebuilt from the ground up, with new navigation and views to access to logs and task details quickly, making the experience ideal for both newcomers and power users. This future-focused redesign also opens the door for advanced React plugins and community-driven customizations in Airflow 3.x.

Читать полностью…

Sberloga

Put your data assets at the center of orchestration.
Define data objects directly with the @asset decorator, simplifying pipeline creation while maintaining visibility into your data's journey. Write less boilerplate code, manage dependencies naturally, and align your pipelines with how you actually think about data.

Читать полностью…

Sberloga

Вышел Airflow 3.0.0 🥳

Anywhere
Deploy workers to any environment while maintaining security isolation. Remote Execution lets you run tasks exactly where your data resides — optimizing for cost-efficiency, latency, and data sovereignty without sacrificing centralized control.

Any Time
Unlock new use cases with event-driven scheduling by integrating with message systems like Amazon SQS, so you can trigger your DAGs the moment data arrives – not just on a schedule. By removing the uniqueness constraint for logical dates, users can launch parallel inference runs easily, ideal for GenAI and on-demand ML workloads.

Any Language
Unify your data stack under a single orchestrator with multi-language task execution coming in future 3.x releases. Starting with Golang, Airflow 3 eliminates the need for code rewrites or Python wrappers — choose the right language for each task based on your specific requirements.

Читать полностью…

Sberloga

«SotA для TS forecasting, все ли так однозначно?»

2️⃣0️⃣ февраля состоится следующая встреча тренировок по машинному обучению ↩️

В рамках этой встречи мы разберем следующие темы с нашими приглашенным экспертом:
⚪️переход от задачи прогнозирования временных рядов к задаче регрессии
⚪️как выбрать подходящую модель для вашей задачи временных рядов
⚪️какие есть нейронные архитектуры, в том числе Zero-shot

📢 Спикер:
⚪️Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab

📆 Когда: 20 февраля с 19:00
🗺️ Где: Покровский бульвар д. 11, ауд. R308

Подробнее про челленджи 🐭

Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам участия в тренировках вы можете обращаться к Александре ▶️

Читать полностью…

Sberloga

Ребята
Мы в команде решили проходить курс по графам :)
За основу взял стэнфордский курс
cs224w Machine Learning with Graphs
По материалам - на просторах интернета есть абсолютно все лекции 2021г и только 8 лекций 2023г
прикол в том что есть лекции которые есть в 2023, которых нет в 2021 и наоборот, поэтому я попробовал их объединить.

Сегодня начнем (поздний анонс немного), но там типа интро всего лишь, думаю не очень критично

Информация тут:
/channel/sberlogawithgraphs/26044

Читать полностью…

Sberloga

The future is now, old man

Читать полностью…

Sberloga

Собеседование в Яндекс

Читать полностью…

Sberloga

История о том, как неудачный джойн чуть не испортил всё

Привет, друзья! Сегодня расскажу вам одну историю из жизни, которая случилась со мной на работе. Она о том, как важно иметь опыт работы с базами данных и почему критическое мышление и ответственность — это не просто слова, а жизненно необходимые навыки.

Итак, работал я в компании, где мы решили начать использовать данные из Бюро Кредитных Историй (БКИ). Если вы не в теме, это такие данные, которые помогают моделям кредитного скоринга стать почти волшебными. Они дают около 95% всей силы модели, и это намного лучше, чем универсальные модели, которые продаёт БКИ.

Наша задача была начать собирать эти данные и складывать их в хранилище. Но сначала нужно было убедиться, что данные корректные, чтобы через несколько месяцев можно было строить фичи и потом саму модель. Данные эти, скажу я вам, хранятся в очень странной структуре — около 40 таблиц, и джойнить их между собой — это квест, которому позавидует любой ролевик.

У меня уже был опыт работы с этими данными, поэтому я знал, как их джойнить. Описал всё в задаче, приложил примерный код. Инженеры начали загружать данные, а я поручил коллеге проверить, всё ли ок. Ответ был: всё ОК. Мы начали копить данные. Копили их полгода, и вот настало время строить модель.

Что-то меня насторожило — может, объём данных был в 10 раз больше ожидаемого, или что-то ещё. В общем, решил я уточнить, что же именно проверял мой коллега. Оказалось, что в моём скрипте был джойн нескольких таблиц. В каждой таблице был serial key (Hijid) — просто последовательные цифры 1, 2, 3, ... А чтобы джойнить, нужно было использовать foreign key из таблицы 1 (поле называлось похожим образом как название таблицы 2) с serial key (Hijid) из таблицы 2

Коллега мой взял скрипт, воспроизвёл его на Spark, но ничего не заджойнилось. Он подумал, что скрипт фигня, и решил джойнить по своему - все таблицы по полю Hijid, которое было во всех таблицах. И это у него прекрасно получилось, потому что во всех были значения от 1 до N. В итоге он проджойнил все 5 таблиц по этому полю и получил не пустые результаты. Раз данные собрались то все ОК, так ведь? 🤣

Вывод из этой истории такой: важно иметь опыт работы с базами данных и понимать, хотя бы что такое serial key и foreign key. А ещё самостоятельность — это не просто делать всё самому, а критически относиться к своей работе и задавать вопросы, если есть сомнения. В итоге мы потеряли около 2 месяцев на то, чтобы прогрузить корректные данные и получить правильные результаты. И хорошо, что мы вовремя заметили ошибку, ведь могли бы обучить модель на неправильных данных и получить "не те" результаты.

Так что, друзья, не забывайте задавать вопросы и проверять свою работу. Удачи вам в ваших проектах!

Читать полностью…

Sberloga

Ну и карьерная новость №1 на сегодня: тим лид продуктовой аналитики в Lamoda Tech Анжелика Шахурина стала порноакртисой под ником Lika Blackberry. Точнее она ей была, просто об этом никто не знал, а сейчас узнали. А Lamoda Tech зачем-то начал удалять все посты с упоминанием Анжелики, хотя могли бы наоборот поддержать, зарплату повысить, накинуть новый функционал по организации тим билдингов, или еще как-то...

с кем не бывает, однажды вы найдете и мои видео…….

Читать полностью…

Sberloga

Ребята, уже через полтора часа у нас начнется лекция Романа
GNN в рекомендациях OKKO

Начало в 18:00
Подключаться можно будет по ссылке:
https://mts.mts-link.ru/j/MTC/99464665

Читать полностью…

Sberloga

📣 Внимание! 17 июля (четверг) в 18:00 в Sberloga пройдет доклад на тему
GNN в рекомендациях OKKO

🎙️ Спикер - Никифоров Роман, Senior Data Scientist в отделе рекомендаций онлайн-кинотеатра Окко.

⭐ Роман поделится опытом использования графовой нейронной сети для создания персонализированных рекомендаций для пользователей. Узнайте об их экспериментах и достигнутых результатах.

🕕 Ждем вас в @Sberloga в 18:00!
(ссылку пришлю перед докладом в канал, подписывайтесь, чтобы не пропустить)

Читать полностью…

Sberloga

🚀 Новый курс по рекомендательным системам и RePlay — прокачай навыки персонализации данных!

В мире, где персонализация решает всё — от любимых фильмов до идеальных покупок — рекомендательные системы стали must-have инструментом. Хотите не просто понимать их, а создавать с нуля? Тогда этот курс для вас!

Sber AI Lab представляет курс по рекомендательным системам и open-source библиотеке RePlay!

🔘 Погружение в основы: от коллаборативной фильтрации до гибридных моделей
🔘 Практика на реальных кейсах, только работающие решения
🔘 Освоение RePlay — мощного инструмента для построения рекомендаций
🔘 Гибкий график — учитесь где угодно и когда удобно

🎁 Бонус: Сертификат от СберУниверситета для участников, кто успешно закроет все модули - для резюме и личной гордости

Зачем это вам?
Рынок рекомендательных систем растёт на 24,7% в год (Research Nester), и спрос на специалистов огромен. С этим курсом вы войдёте в топ востребованных профессионалов!


💻 Записаться на курс


#курс
❤ @sb_ai_lab

Читать полностью…

Sberloga

⚡️ Вышел Apache Spark 4.0. Что интересного в релизе:

1️⃣ Новая архитектура клиент-сервер Spark Connect. Теперь клиентское приложение отделено от кластера Spark. Это значит, что подключаться к Spark можно будет из любой среды и ЯП, включая Python, Scala, Go, Swift и Rust. Кстати, клиент для Python весит всего 1,5 МБ и устанавливается просто через pip install pyspark-connect.

2️⃣ Режим ANSI SQL по умолчанию. Раньше Spark прощал многие ошибки – например, если ты делил на ноль или числа не влезали в столбец, он просто возвращал NULL или тихо обрезал значение. Это было удобно, но могло скрывать баги. Теперь включён режим ANSI SQL по умолчанию – как в классических базах данных. Если в запросе ошибка, Spark сразу об этом скажет и выбросит ошибку. Получается более надежно и предсказуемо.

3️⃣ Materialized Views. Это сохранённый результат SQL-запроса, который может автоматически использоваться при выполнении будущих запросов, если Spark понимает, что часть запроса уже была вычислена и закеширована. То есть теперь повторяющиеся запросы не надо каждый раз пересчитывать, можно просто достать из кэша. Супер существенно для времени и нагрузки на кластер.

4️⃣ Python Data Source API. Это прямо очень приятно: теперь не надо учить Scala, чтобы подключиться к кастомному источнику данных, все можно сделать просто на питоне. Это сильно упрощает интеграцию Spark с веб-сервисами, файлами, базами данных и вообще чем угодно.

5️⃣ Новый тип данных VARIANT. Это специально для полуструктурированных данных. То есть теперь, если у вас где-то лежат вложенные поля или JSON, запросы к ним можно выполнять прямо из коробки, предварительно не описывая схему.

Официальный релиз

Читать полностью…

Sberloga

Внезапная годнота для VSCode — Microsoft выкатили полноценную IDE для PostgreSQL прямо внутри редактора кода.

При чём это не просто плагин (хотя это плагин), а мощнейшая станция управления базой данных с кучей инструментов.

— Полная визуализация схемы — таблицы, связи, поля. Всё прямо в редакторе;
— Подсветка синтаксиса и автокомплит;
— Под капотом Copilot, он сейчас работает на Claude 4 Sonnet;
— История запросов и быстрый доступ к часто используемым шаблонам.

Всё работает через агента @pgsql, который реально помогает работать с запросами, как будто у вас на проекте появился свой DBA.

Уже в маркетплейсе

Читать полностью…

Sberloga

Там Стэнфорд выложили на YouTube свой свежий курс CS336: Language Modeling from Scratch

Это практический курс, в котором вся теория по LLM подается в процессе разработки собственной модели. Получается изучение end-to-end: от обработки данных и архитектуры трансформера до RL и эвала.

Ведет курс опытный профессор университета и сооснователь TogetherAI Перси Лианг.

Ну и главное: курс новый и вся информация актуальна на сегодняшний день. Он даже в самом Стэнфорде еще идет прямо сейчас, так что лекции и код продолжат выкладывать по ходу.

Репозиторий с дз и ноутбуками
Сайт курса
YouTube

Читать полностью…

Sberloga

Track every DAG evolution with immutable snapshots tied to each run.
Never wonder which code version produced which outcome - teams can rapidly audit and debug, eliminating confusion and accelerating compliance checks. Troubleshooting now takes minutes instead of hours, giving you clear accountability and pipeline governance that satisfies even the most stringent regulatory requirements.

Читать полностью…

Sberloga

Scheduler-driven backfills triggered straight from the UI.
Trigger, monitor, pause, or cancel backfills from the UI or API — no more fragile CLI-based backfills. Large-scale reprocessing jobs run reliably without session timeouts, ensuring consistent performance even for backfills spanning months of historical data.

Читать полностью…

Sberloga

🔥 МТС BIG DATA X Лаборатория Машинного обучения

🤩 На фото запечатлены два довольных парня из красных компаний, офисы которых находятся через дорогу, которые только что провели совместный митап. Процесс организации был настолько нативным и синергичным, что мы потратили всего полчаса на созвон и чуть больше на переписку в телеге чтобы договориться обо всех деталях. Мы обязательно продолжим проводить совместные митапы, ставьте 🔥чтобы это случилось быстрее.

🙏 Хочу поблагодарить всех причастных к этому событию. Спасибо площадке МТС за теплый прием и позитивные эмоции, всем спикерам за интересные доклады и качественный перфоманс, членам команды Лаборатории за высокий уровень самостоятельности в подготовке к митапу. Ну и конечно спасибо всем, кто пришел на наш митап в онлайне и большое спасибо тем, кто пришел на офлайн часть без вашей поддержки ничего бы не получилось!

📸 Фото вышли огонь, забирайте по ссылке.
📹 Видео и презентации на следующей неделе появятся в комментариях к посту 👇

Читать полностью…

Sberloga

Спасибо всем кто вчера подключился ❤️
Если вчера не получилось присоединиться - ничего страшного, самое сложное будет еще впереди :)

Краткий саммари что обсуждали:
- по первой лекции - лекции были вводные, из самого интересного это третья часть о различных представлениях графов, в слайдах 2023 этих материалов почти нет, поэтому слайды 2021 стоит открыть
- разницу в курсах 2019/2021/2023
- познакомились, рассказали что кому интересно и кто чем занимается (по желанию)
- орг вопросы

Расписание дальнейших встреч будет в чате
/channel/sberlogawithgraphs/

Читать полностью…

Sberloga

Всем привет! 28 февраля в 17:00 приходите на митап по Data Science в Москве. На встрече экспертами из Центра Big Data МТС и Лаборатории машинного обучения Альфа-Банка поделимся кейсами:

🎙️Гибкая калибровка: как одновременно попадать в KPI для сотен рекламных кампаний?
🎙️Превращаем нейросети в SOTA и для табличных задач
🎙️Трансформеры в RecTools: от fit/predict из коробки до кастомных архитектур
🎙️Улучшаем клиентский опыт за счет комплекса моделей
🎙️Бандиты и нейросети. Строим рекомендации с нуля в стриминговом сервисе с UGC-контентом
🎙️Ускоряем работу аналитиков инструментами Data Science
🎙️Новый релиз CoolGraph – краткий обзор нашей библиотеки для быстрого старта с GNN

🎬Модераторы: Никита Зелинский (CDS & Head of ML Platforms МТС и Евгений Смирнов (CDS & Head of ML Lab, Alfa-Bank).

😍 В рамках колоборации двух CDS-ов из красных компаний запускаем розыгрыш аж 1️⃣0️⃣ подписок ✈️-премиум на год!

Как принять участие?
1️⃣ Подписаться на канал "Нескучный Data Science" (@not_boring_ds)
2️⃣ Подписаться на канал "Дата канальи – про "специалистов" данных в ML/AI" (@datarascals)
3️⃣ Ждать 28 февраля, когда мы объявим, кто победил.

🗓️ 28 февраля в 17:00
📍 г. Москва, офлайн
➡️ Регистрация по ссылке: https://mts-digital.ru/events/details?id=12357783

Читать полностью…

Sberloga

ML-архитектор: кто это и зачем он нужен в эпоху автоматизации кода

С появлением инструментов для автоматизации кода (например, GitHub Copilot, Cursor) роль ML-архитектора становится критически важной. ИИ генерирует фрагменты кода, но пока что плохо проектирует системы целиком, не способен предвидеть все скрытые риски и обеспечивать устойчивость решений. Архитектор здесь — тот, кто превращает разрозненные компоненты в надежный продукт.

Кто такой ML-архитектор?

Официально: Специалист, проектирующий структуру ML-систем, от выбора алгоритмов до интеграции с инфраструктурой.

По-простому: Человек, который отвечает за каждую будущую проблему — от падения accuracy модели до сбоев в продакшене. Если система «упала» через полгода после релиза — это его зона ответственности.

Чем конкретно занимается:
⚡️ Проектирование сценариев failure: предсказывает, что может сломаться, и встраивает защитные механизмы (например, автоматический откат моделей).
⚡️ Оптимизация trade-off: баланс между скоростью инференса, точностью и стоимостью инфраструктуры.
⚡️ Стандартизация процессов: как данные поступают в модель, как мониторится её работа, как обновляется pipeline.

Отдельная роль или навык разработчика?

Идеальный мир: ML-лид совмещает архитектурные компетенции с управлением командой. Он понимает, как технические решения влияют на бизнес-метрики (например, задержка предсказания может стоить потерей клиентов).

Реальность: В крупных компаниях (например, банки, маркетплейсы) ML-архитектор — отдельная позиция.
Почему?
⚡️ Масштаб: Системы с сотнями моделей требуют единой стратегии развертывания и мониторинга.
⚡️ Специализация: Лид фокусируется на управлении и бизнес-метриках, архитектор — на широте технической экспертизы в проекте и принимаемых архитектурных решениях.

Как развивать архитектурное мышление: 5 шагов
1️⃣ Рисуйте схемы — но правильно
Используйте различные стандарты: C4-моделирование, UML для ML (Data Flow Diagrams, Deployment Diagrams).
Практика: Возьмите любой open source проект (например, TensorFlow Extended) и визуализируйте его компоненты.
2️⃣ Рефлексируйте над ошибками — своими и чужими
Свои проекты: Ведите «журнал архитектурных решений» (ADR — Architecture Decision Record). Пример записи:

- Выбор базы данных для метаданных моделей
- Проблема: Нужно хранить версии моделей и их параметры.
- Варианты: PostgreSQL vs ML Metadata от TFX.
- Решение: TFX, так как интеграция с пайплайнами проще.
- Последствия: Придется мигрировать при переходе на Kubeflow.


Чужие проекты: Анализируйте кейсы на Kaggle или открытые проекты в github. Спрашивайте:
- Почему автор выбрал PyTorch, а не TensorFlow для этого NLP-проекта?
- Как система масштабируется при росте данных в 10 раз?

3️⃣ Стройте «гибридные» системы
Пример задачи: спроектируйте pipeline, где модель на PyTorch интегрирована с FastAPI-бэкендом, а логирование ошибок идет через Elasticsearch.
Совет: используйте Docker и Kubernetes даже для пет-проектов — это научит вас думать о масштабируемости.

4️⃣ Изучайте смежные области
- DevOps для ML: CI/CD пайплайны для моделей (например, gitlab + DVC).
- ETL и стриминг данных: как настроить spark-стриминг / kafka в kubernetes.

5️⃣ Участвуйте в Code Review
Задавайте вопросы не только «как работает этот код», но и:
- Что произойдет, если входные данные увеличатся в 100 раз?
- Как система восстановится при падении GPU-сервера?

Карьерный путь: когда вы готовы стать архитектором?
⚡️ Junior: решаете локальные задачи (написание модели, фича-инжиниринг).
⚡️ Middle: видите связь между своей задачей и всей системой (например, как ваша модель влияет на нагрузку API).
⚡️ Senior/Architect: можете спроектировать систему с нуля, включая точки отказа и план миграции на новые технологии.

Заключение
ML-архитектор — это не про рисование схем в вакууме. Это про умение видеть систему на 5 шагов вперед и принимать решения, которые сэкономят компании тысячи часов на исправление костылей. Инструменты автоматизации кода не заменят эту роль — они лишь увеличат спрос на людей, которые могут ими грамотно управлять.

(мемы для привлечения внимания)

Читать полностью…

Sberloga

В комментариях к этому посту попросили поделиться ссылками на антифрод, их есть у меня

Прям в цельную картинку вместе они собраны в курсе ML в бизнесе, но здесь поделюсь кусочками, из которых она состоит.

А для совсем начинающих – хендбук

Как вообще устроен антифрод (на примере фин. мониторинга):

1. Правила (известные схемы, например из профильных обнальных тг-чатов -- для обнала: распыление, слом назначения платежа, вексели, слом ндс, транзит и пр) и экспертные модели (регрессии на известных фичах -- доли контрагентов, коэффициента налоговой нагрузки, корп карты, учредитель - подставное лицо и пр.). Известные фичи "ломаются" уже со стороны нарушителя -- например, КНН можно увеличить отправляя ошибочные платежки в налоговую и получая возвраты

2. Модели (supervised модели, построенные по отловленным правилами и руками кейсам). Здесь тоже работает PseudoLabelling. Но и фродеры не стоят на месте, на это намекал в самом первом начале канала /channel/datarascals/3
Кейс-менеджмент и эксперты (разбор найденных примеров, новых схем, мотивированное суждение). Разбор кейса может занимать, например, 2 недели, включая запрос документов от клиента

3. Exploration -- unsupervised -- outlier detection -- наша задача найти несколько десятков примеров, передать их на разбор, сделать supervised модель

4. Мониторинг качества работы и схем и отдельных фичей, симуляции новых схем атак
Мониторинг мошеннических заявок на кредит, определение компаний, искажающих финансовую отчетность -- все это тоже про антифрод.
На Forex вообще фродовыми считаются клиенты, которые выживают и выводят деньги.

Таргетом может быть как компания / физик так и конкретная сомнительная транзакция.

Итак, сами материалы

Поиск аномалий в табличках (для того чтобы быстро разные алгоритмы перебрать):
1. PYOD – база, даже вариационный автоэнкодер включили (вообще автоэкнодеры в разных формах полезны в этих задачах)
2. PYTOD – ускоренная версия (за счет использования GPU) – вообще большинство классических алгоритмов редко применяют из-за того что они очень медленные, мне нравится Isolation Forest из всех, но перебирать всегда приходится несколько
Здесь важно сделать отступление – что для многих классических алгоритмов придется как-то умозрительно задать ожидаемую долю аномалий, что не очень удобно. По факту нам интереснее ранжирование на более аномальные и менее – а дальше сколько мы возьмем будет зависеть от цены ошибки в каждом кейсе и мощности офицеров чтобы эти кейсы руками разобрать и подтвердить.

Поиск аномалий на транзакциях:
1. PYGOD– смотрим на задачу как на поиск аномалий в графах (и то, насколько аномалия должна быть более структурной чем контекстной – необучаемый параметр в лоссе), здесь в основном графовые автоэнкодеры
Но это прям затравочка, тема популярная, плюс графы меняются по времени (и структура и свойства вершин / ребер), даже на последнем NIPS (а это декабрь) показали новый алгоритм поиска аномалий на графах UniGAD. И еще на KDD’24 (сам еще не успел прочесть читал, но denoising диффузионка звучит как что-то интересное)

Подборка актуальных статей по теме

2. PTLS от Sber AI лабы сначала ssl-эмбеддим транзакции, потом закидываем в табличные методы

Если уже нашли и даже добились какой-то разметки, но единичек не очень много сотни), то помогает pseudolabelling– строите график того как метрика (обычно recall) зависит от того, с какого порога предикты единичек первой моделью досыпать в трейн второй. Выбираете порог, максимизирующий recall -- не панацея конечно, но до +10% полноты получалось выжимать.

Ну и supervised – здесь относительно понятно, кроме того на какой event rate калиброваться, да и надо ли )

Читать полностью…

Sberloga

Подготовил для вас актуальные идеи pet-проектов в ML на 2025 год

Всем data-привет! 🚀

Новый 2025 год уже начался, а значит самое время взяться за реализацию (и довести до конца 😬) крутого pet-проекта, который бустанёт ваши навыки и карьеру в сфере ML.

На карточках ниже перечислил проекты, за которые я и сам бы взялся, честно говоря, настолько они интересные и актуальные. Все они, очевидно, связаны с использованием нейронных сетей, а большинство - с большими языковыми моделями.

Выберите один проект, и начните его прорабатывать. Уверяю вас, что навыки, которые вы приобретете в процессе создания проекта, вам пригодятся в для текущей или будущей работы.

Чуть более детальное описание можно найти на habr

#pet_проект
#карьера

Читать полностью…

Sberloga

Привет, друзья! 🤓

Вот и закончились праздники, и пришло время вернуться к нашим любимым историям. Сегодня хочу поделиться итогами одной из прошлогодних историй
Серия 1
Серия 2
Серия 3
Серия 4
Которая, как ни странно, оказалась настоящим приключением в мире data science и бизнеса.

Итак, начнем с того, что в той истории было слишком много накладок. Представьте себе: усложнение задач с использованием word2vec и NLP там, где это было совершенно не нужно, неправильный выбор метрик и полное непонимание базовых методов машинного обучения, таких как PCA. Да, такое бывает даже у самых опытных!

Почему это важно? Потому что бизнесу редко интересна внутренняя кухня обучения моделей. Начальники спешат отчитаться о завершении задач, и часто нет ни валидации, ни A/B тестов. Когда приходит время разбираться с последствиями, многие уже уволились, и разгребать ошибки приходится тем, кто остался.

В моей истории все вскрылось за месяц до завершения проекта. Времени было мало, и пришлось действовать быстро. Запросил логи посещения страниц, чтобы самостоятельно обучить рекомендательную систему. Вместо этого мне предложили весь дамп базы размером в 30 Мб. Мне стало понятно, почему разработчик был в шоке, когда я пытался впихнуть ему архив с эмбедингами на 10 Гб! 😅

Но в итоге я построил базовое решение, показывающее ранее просмотренные страницы, и более сложное на основе lightfm. Финальное решение состояло из трех сервисов в docker-compose:
1⃣ База Redis для хранения рекомендаций.
2⃣ Сервис, который забирает данные из бэкэнда, рассчитывает рекомендации и кладет оба решения в Redis для честного А/В теста. Всё запускалось с помощью cron.
3⃣ Flask, который отдавал рекомендации и решал, какое решение использовать — lightfm или базовое, по остаточному делению хеша client_id.

И знаете что? Всё развернулось практически с первого раза! 🚀 Конечно, из-за отсутствия интернета пришлось собирать docker-образы локально, что оказалось не всегда так просто, но мы справились.

Если бы было больше времени, возможно, сделал бы что-то иначе. Но учитывая сроки, считаю, что это был успех.

Мы обсуждаем такие истории, чтобы обратить внимание на важные моменты и улучшить нашу работу в data science. Учимся на ошибках и движемся вперед! 🙌

До новых историй, друзья! 💡

Читать полностью…
Подписаться на канал