sberloga | Неотсортированное

Telegram-канал sberloga - Sberloga

2562

Data Сообщество По всем вопросам обращаться @SberlogaHelperBot Чат - @sberlogadataclub

Подписаться на канал

Sberloga

AI видимо добить его решил

Читать полностью…

Sberloga

Удалось побывать DS-ментором на одном из хакатонов в конце прошлого года, где моя команда заняла 3-е место 🎉 . Исходный проект был посвящён кластеризации событий брокера сообщений/логов.

Коллективным разумом были предложены следующие идеи ниже. Ожидаемо хотелось применить трансформеры, но из-за объёма данных и доступных ресурсов был выбран другой подход. Как вы думаете, какой?

1. Baseline: scaNN + любимый эмбеддер
• ScaNN — супербыстрый на CPU алгоритм поиска ближайших соседей (быстрее Faiss)
Benchmarks алгоритмов кластеризаций

2. Готовый алгоритм ранжирования текстов: Rank-BM25 — улучшенный tf-idf, который может плохо выделять если признаков мало, и очень быстро растет размер словаря при увеличении кол-во n-gramm

3. Алгоритм с кастомным эмбеддингом

• Используем токенизатор (например, BPE). Обучаем его на логах
• Переводим логи в последовательность токенов
• Генерируем tf-idf для 1-, 2-, 3-грамм (размер словаря ~10⁶)
• Создаём эмбеддинги для токенов (например, с помощью предобученной модели)
• Кластеризуем эмбеддинги (например, на 100-800 кластеров)
• Для нового текста создаём вектор, учитывающий частоту кластеров
• Результат — компактные векторы, подходящие для кластеризации и обнаружения аномалий

4. Быстрая работа со строками + dbstream clustering
RapidFuzz — библиотека с быстрыми реализациями функций string similarity.
• Jaro-Winkler Distance — быстрее Левенштейна на коротких строках.

5. Итеративное выделение кластеров с помощью LLM
• Генерируем ключевые слова и типы ошибок по существующим кластерам
• Покрываем базу кейвордами (~50%)
• Обрабатываем оставшиеся данные, выделяя новые кластеры
• Повторяем процесс, пока покрытие не станет полным
• Удобно выделяем ключевые виды ошибок (например, SQLException, JavaException, Timeout и т.д.)

6. Имплентация от Jetbrains (📕Статья: Aggregation of Stack Trace Similarities for Crash Report Deduplication, ⭐️ код на GitHub)
Внутри решение k-NN с хитрой агрегацией stack trace логов ошибок с временными метками

Читать полностью…

Sberloga

Нашел фотки 6летней давности

Читать полностью…

Sberloga

Серия четвертая ❤️

Сайт для которого мы рекомендашки делали занимался реализацией разных активов - бензоколонок, кафешек, домов, машин, даже нефтяных месторождений. И у каждого актива в зависимости от его категории были какието свои фичи, а этих категорий было около 10. DS при этом очень уж хотел объеденить все эти фичи в одно пространство, но как это сделать? 🤔
Короч, а что если взять фичи из 1 категории активов и натравить на них... PCA и взять первые 10 компонент. Потом взять фичи 2й категории, повторить и т.д. Получится что все активы содержат фичи pca1,pca2,...,pca10. Охеренно похоже ведь 🤣
У тебя в одной категории марка автомобиля с годом выпуска, а в другой площадь квартиры, а теперь ровно 10 фичей с одинаковым названием. Почему ds подумал, что компоненты нескольких pca совпадать будут мне не известно, но так вот было сделано. Собственно тогда я уже и решил, что эту модельку уже не спасти 😦

Читать полностью…

Sberloga

Серия третья 🥰

Ну ладно, эмбединги хуединги, сделала и сделала, что ж там дальше? Читаю значит текстом объяснение, не дословно конечно, потому что не помню, но смысл был следующий:
"Для обучения рекомендательной системы нужно выбрать метрику оценки, но все существующие метрики, слишком "обычные", поэтому была разработана новая, уникальная метрика специально, для решения этой задачи"
Короч перевожу - вертел я ваши метрики, щас свою создам 🙀
Об этих метриках самописных я отдельную историю расскажу как пришлось разъебать одного сотрудника, изза горя от ума.
Но тут я так поступить не мог, поэтому пришлось дочитывать. Дальше был целый лист с формулами и каким-то описанием, что там считается. Логики если честно я совсем не уловил, просто в конце из формул был сделан вывод, что это самая заебатая метрика среди всех, но ее не использут, потому что все тупые, а я самый датасаентист среди всех. Сферический теоретик в вакууме, причем в коде реально считается только эта метрика, всех других будто не существует. А метрики получались такими странными, что я так до конца и не понял - она классная когда большая или маленькая 😂 Просто в конце отчета метрика была равна скажем 1000. Спасибо бро, очень понятно, что ты этим сказать хотел 😀

Читать полностью…

Sberloga

Короч история длинная, сегодня будет первая серия 😁

Когда только в сбер устроился, дали задание поставить в прод рекомендательную систему для дочерней компании, которая с юл работает. Были артефакты, код для инференса, описание как поставить модель и сам отчет о построении. Выглядит все заебись 👍
Ну собственно раз отчет был, я не особо решил вдаваться в подробности, да и был он листов на 15 А4 😩 Наверное только его написание заняло минимум пару недель, читать его не особо хотелось и решил по максимуму сконцентрировать силы на самой задаче 💪
Как оказалось в рамках постановки в прод, должен был быть развернут postgres, и туда нужно было пролить таблицу с какимито эмбедингами по юр лицам. DS по какимто причинам подумал, что будет супер крутой идеей ее сохранить в формате csv, а каждое число хранить с точностью в 19 знаков. В итоге эта таблица оказалась 10млн х 50 в виде текста которая занимает 10Гб в не сжатом виде. Это нужно было выкачать из внутреннего контура и передать во внешнюю компанию. Как я это сделал я уж писать не буду, но я конечно удивлен, что никого после этого не уволили 😅
Кстати в сериализированном виде она весила 300мб всего
Все это отдавал разрабу в дочке (у меня прав не было) и писал ему какие команды запускать. Запустилось ли с первого раза? Конечно же нет (спасибо за охеренное качества код), в общем с разрабом неделю переписывались исправляя раз за разом все новые ошибки 😱
В итоге запустили рекомендашку раньше положенного, все как нужно. Но на следующий день разраб снова пишет
- Влад, а моделька то "твоя" чет хуевая, она же на сайте в риалтайм должна работать, а там время ответа 3сек. Да и то почти по всем клиентам рекомендашки одни и теже...
Ну собтвенно, я попробовал объяснить, что вообще модель то не моя, а девочки которая писала все с нами больше не работает, а ушла в яндекс. Столько мата в свой адрес я еще не слышал. Самый сок была фраза "вы что доверили кодить девушке???" 😂 ну собственно по итогу так и оказалось, не стоило 😅
Короч начал копать этот великолепный код с отчетом, чтобы понять что там не так и знаете что? После csv на 10гб я догадывался, что там будут странности, но вся дичь еще впереди...

Читать полностью…

Sberloga

🤯 50% людей учат темы ML, которые не нужны бизнесу

Мы провели исследование среди нашей аудитории и узнали: большинство изучает популярные темы, которые выглядят перспективно, но почти не применяются в реальных задачах.

Какие задачи бизнеса требуют решения с применением ML и как их решать? Расскажем на вебинаре 19 декабря в 20:00 (мск)!

Что вас ждет:

▪️Поделимся информацией о том, какие задачи компании хотят реализовать с помощью машинного обучения и как вы сможете их решить.
▪️Расскажем как проверить, что модель действительно работает?
▪️Разберем практические кейсы и проведем эксперименты.
▪️Презентация курса «ML в бизнесе»: Расскажем, как программа курса помогает освоить востребованные навыки, которые делают вас ценным специалистом в любой компании.

👉 Регистрируйтесь здесь

Присоединяйтесь и начните свой путь к успешной карьере в ML!

Читать полностью…

Sberloga

Тут статья на хабре появилась броским заголовком
Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях
Но есть нюанс - обошел на ретротесте 😁
Вот поэтому WB и теряет рынок потихоньку, потому что рекомендашки в ретро оценивают и какой-то культуры в аб-тестах нет
https://habr.com/ru/companies/wildberries/articles/861466/

Читать полностью…

Sberloga

/channel/sberlogadataclub/49571?single
Напоминание, что у нас есть ламповый чатик. По ссылке написал более подробно как прошло. Спойлер - хорошо 😁

Читать полностью…

Sberloga

Привет! Это команда МТС. Мы запустили набор на 3 поток Школы аналитиков данных МТС!

Обучение проходит в онлайн-формате и длится 10 месяцев. Преподаватели — эксперты нашего центра Big Data. Вы научитесь писать на Python, прокачаетесь в математике, основах машинного обучения, ML Ops, Spark и прочих вещах, без которых не выйдет работать в Data Science. Также у студентов будет возможность попасть на стажировку в МТС.

Ждем тех, кто любит учиться, хочет попасть в комьюнити единомышленников, и, конечно, развиваться в анализе данных и ML.

Обучение бесплатное, но места ограничены - чтобы попасть, необходимо подать заявку до 20 октября и выполнить вступительное задание. Старт обучения - 7 ноября!

Подробности
по ссылке, ждём тебя!

Реклама. Информация о рекламодателе.

Читать полностью…

Sberloga

🏆 Российский AutoML побеждает на международной арене

Команда “LightAutoML testers” победила в международном соревновании Kaggle AutoML Grand Prix! Наши ребята: Александр Рыжков, Дмитрий Симаков, Ринчин Дамдинов и Иван Глебов с помощью решений на основе LightAutoML обошли известных конкурентов по индустрии, включая команды из Amazon и H2O!

🚀 LightAutoML - бесплатный и открытый инструмент
Ключом к успеху стала open-source библиотека LightAutoML (LAMA), которая автоматизирует построение моделей машинного обучения. Благодаря использованию библиотеки ускоряется построение моделей и, зачастую, повышается качество. Инструмент подойдет как новичкам, так и профессионалам - решение можно получить как в несколько строк, так и с полной кастомизацией.

🌍 Kaggle AutoML Grand Prix 2024
Это - онлайн соревнование, приуроченное к ежегодной международной конференции International Conference on Automated Machine Learning, которая в этом году пройдет в Париже. Соревнование проходило на Kaggle (самой масштабной мировой платформе для соревнований по анализу данных) в 5 этапов, в каждом из которых было необходимо создать качественную модель машинного обучения всего за 24 часа.

🎓 Делимся опытом
Хотите узнать секреты победителей? Не пропустите предстоящий вебинар, где команда расскажет о своих решениях и ответит на ваши вопросы! Следите за анонсами в канале @lightautoml.

Читать полностью…

Sberloga

Приглашаем экспертов в data science на закрытую встречу сообщества

Когда: 29 августа, онлайн, в 18:00 по Мск.

Будем обсуждать горизонты профессионального развития в DS и машинном обучении. Темы встречи:

⚡️Как развиваться внутри data science?

⚡️Какие интересные прикладные задачи стоят перед лидерами индустрии?

⚡️Перспективы для сеньора: расти вверх по карьерной лестнице или углубляться внутри своей специализации? Поговорим про вертикальное и горизонтальное развитие

⚡️Где получать практические навыки и обмениваться опытом и связями?

Участники встречи:

- Андрей Кузнецов (AIRI)
- Евгений Смирнов (АЛЬФА-БАНК)
- Роман Поборчий (self-employed)
- Дани Эль-Айясс (Self-employed)
- Владимир Ершов (Яндекс)
- Никита Зелинский (МТС)
- Александр Самойлов (Wildberries)
- Иван Бондаренко (Новосибирский государственный университет)

Встреча пройдет в формате открытой дискуссии, где каждый желающий сможет задать интересующие его вопросы. Участие бесплатное.

Регистрируйтесь на встречу и зовите коллег!

Читать полностью…

Sberloga

⚡французы получили от Дурова ключи шифрования Telegram

Читать полностью…

Sberloga

В России можно посещать IT-мероприятия хоть каждый день: как оффлайн, так и онлайн

Жаль только, что нет никакой единой "базы" ивентов. Чтобы заглянул -> увидел все что есть -> выбрал -> пошел. Или все-таки есть?

🔥 Смотрите: мы нашли канал, в котором публикуют ВООБЩЕ ВСЕ анонсы вебинаров, хакатонов, конференций, мастер-классов, ивентов от гигантов индустрии и лучших специалистов по кодингу, дизайну, аналитике и т.д.

В общем, очень кайфовая вещь: здесь вы точно не пропустите ничего важного и интересного.

Подпишитесь, чтобы не потерять: IT-мероприятия России / ITMeeting / IT events

Читать полностью…

Sberloga

Кейсы ML system design

📖 На прошлой неделе провёл занятие со студентами шад мтс по кейсам ml system design. Тема была очень интересной, и мне даже понравилось в новой роли! В будущем обязательно расскажу об этом опыте подробнее.

🔍 Кстати, если вы планируете проходить собеседование на позицию специалиста по Data Science, то вам точно стоит разобраться в этой теме. Вот несколько причин, почему:

1️⃣ Вы узнаете разные подходы к решению задач (рексис, поиск, прайсинг). Это поможет вам поддержать разговор на собеседовании в соответствующую команду и ответить на вопросы.

2️⃣ Систематизация
Все ML системы строятся по определённому паттерну, и важно понимать, с чего начинать работу над проектом.

3️⃣ Новые знания
Разбираться в том, как работают другие команды, всегда интересно и полезно. Даже если вы никогда не будете заниматься поиском, всё равно стоит узнать, как решают проблемы в их отрасли

✅️ В общем, перед собеседованием посмотрите несколько кейсов ml system design, которые касаются команды куда идете и читайте больше литературы по этому вопросу.

Успехов на собеседовании!

Читать полностью…

Sberloga

Напомнило мне вот этот ролик
https://youtu.be/UFqXDpMMwtA?si=FKH3We7MX3VomiF1

Читать полностью…

Sberloga

Всем привет!

Приглашаем всех на Дата Ëлку 2024 и голосование ODS Awards 2024 🎄

📆 Ëлка пройдёт после праздников — в субботу 18 января
В лучших традициях, вас ждут обзорные итоги года по 12 DS/ML областям 🔥

Более того, будут сразу 2 офлайн площадки куда можно прийти живьем:
💙 В Москве — в гостях у ВК, начало программы в 12:00
💚 В Питере — в гостях у ecom.tech, начало программы в 14:00
И конечно же будет онлайн трансляция с докладами итогов с обеих площадок сразу 🙀
Поторопитесь зарегистрироваться, места на площадках ограничены! Внимательно относитесь к заполнению анкет, все регистрации будут проходить модерацию.

🌟 Открыто голосование ODS Awards 2024 🌟
Это ежегодная премия за вклад в Open Data Science — лучшие треки, видео, статьи, менторы и погонщики гусей 🦾
Как и в предыдущие года, новогодние подарки достанутся и победителям, и тем кто голосовал.
Голосование открыто, итоги мы подведём как раз на Дата Ëлке 🎅

Ждём вас на Дата Ёлке, и ждём ваши голоса в ODS Awards 2024!

TL;DR:
🎄Дата Ёлка ждёт всех 18 января
🎁 Пройдут 2 офлайн Ëлки: в Москве в гостях у ВК и в Питере гостях у ecom.tech
🌟Ждём ваши голоса и номинации ODS Awards 2024

Читать полностью…

Sberloga

💡 Для инфо
Если вы плохо понимаете, как pca работает, то рекомендую почитать
https://setosa.io/ev/principal-component-analysis/

TLDR
PCA переводит фичи в новое пространство, где компоненты направлены в сторону наибольшей дисперсии, т.е. это все теже фичи, но развернуты таким образом чтобы корреляции в новом пространстве нулю равнялась. И клянусь впервые увидел, чтобы ктото это в прод пытался тащить 🤓

Читать полностью…

Sberloga

💡 Для инфо
О метриках рекомендательных систем можно тут почитать
https://www.evidentlyai.com/ranking-metrics/evaluating-recommender-systems
или тут
https://towardsdatascience.com/metrics-of-recommender-systems-cde64042127a
Даже если вы считаете основной метрикой "свою" кастомную, то это не означает, что другие - это мусор. Для принятия взвешенного решения нужно рассчитывать несколько метрик, чтобы понять плюсы и минусы различных решений.
В любом случае ваши оффлайн данные для обучения будут содержать баес по отношению к показам текущих товаров и только аб тест сможет сказать насколько то или иное решение лучше.
P.S. АБ теста или бейслайна тоже кстати не было 😀

На собезах между прочим часто прошу назвать все метрики которые знаешь для регрессии. В больее чем в половине случаев ответ ограничивается 1й или 2мя метриками 🥲

Читать полностью…

Sberloga

Серия вторая 😄

Отчет значит читаю неспеша, решил сперва понять, что я за эмбединги то выгружал такие, а то вдруг я что неправильно выгрузил 😂
Короч изза того что клиентами были юрлица, то и эмбединги это были своего рода фичи по всем компаниям рф. Но как их сделать? Очень уж хочется понять, что компания 1 похожа на компанию 2. DS почесал то откуда руки росли и светлая мысль пришла откуда и ожидалось - у каждой компании же есть оквэд (код вида деятельности), значит их нужно использовать. Вроде даже и идея то прикольная, но при чем тут эмбеды? Т.е. банально коды в качестве фичей можно было бы использовать, но где же тут DATA SCIENCE а? 🤣
В общем по всем компаниям были спарсены эти коды из интернетов, эти коды были замапплены на словарь с описанием оквэдов, т.е. теперь у каждой компании есть теперь тексты...
Чувствуете, да, чем запахло? Если вы подумали, что тут сейчас NLP бригада подъедет, то вы ошиблись, это же уже DEEP LEARNING будет, а мы рексис ващет строим, поэтому на эти тексты мы натравим word2vec обученный и усредним 😦
Я конечно прихуел... блэд, это конечно было давно, но даже тогда это дерьмо только на курсах показывали, для примера, что "queen-king=woman" и все.
Но мало всего прочего, компании то появляются новые, где их оквэды брать? Как эту базу обновлять? Кто должен этот word2vec применять, а? А у DS лапки 🙂

Читать полностью…

Sberloga

У Никиты Зелинского кстати есть канал /channel/datarascals
Где он пишет о кринжах в DS сфере. Думаю могу тоже эстафету перенять. За столько лет много всякого дерьма пришлось повидать.

Читать полностью…

Sberloga

Вместо подготовки к сессии ребята из вышки и других вузов в субботу (!) пришли на ML-тренировку Kaggle, которую ведёт самый солнечный и открытый DS которого я знаю — тим лид МТС Аналитики Саша Киреев.

Прошел год как мы с ВШЭ запустили эту активность, и тренировки вели , кроме Саши, еще 2 GM и 3 мастера , участники уже завоевывали и бронзу и серебро (!) в соревнованиях.

Так что велком — будем рады вас видеть , анонсы публикуем здесь /channel/+RWc7IMQxR5djZmNi

Читать полностью…

Sberloga

Join the http://Inventum.AI Live Webinar!
Explore how our AI platform accelerates drug discovery
🗓 Date: Dec 4, 2024⏰ Time: 15:00 (GMT+0) | 18:00 (GMT+3) | 10:00 (GMT-5) | 07:00 (GMT-8)
🔗 Register now: https://docs.google.com/forms/d/e/1FAIpQLSdv0HgGw1ifpqZzpiG115AiybAsWgtLmjwIJT-OOXWFeKJhmg/viewform

Читать полностью…

Sberloga

К бывшим коллегам в гости пришел 😏
Ждем, как всегда, интересные доклады

Читать полностью…

Sberloga

GenAI в 2024 году — важный двигатель рынка и возможность продемонстрировать лидерство.

Узнайте о передовых инженерных подходах и лучших практиках от лидеров отрасли на GenAI-Meetup от МегаФона, который пройдет 17 октября в головном офисе компании в Москве.

Meetup делится на два блока: технологии и бизнес. Мы ждем специалистов обоих треков! А еще вас ждут:
— выступления практикующих AI-инженеров;
— инструменты создания GenAI-приложений;
— актуальные стратегии на рынке и реальные кейсы МегаФона, Яндекс Крауд, JSA Group и SberDevices.

Успейте зарегистрироваться👇🏻
Бизнес направление >>
Технологическое направление >>

Читать полностью…

Sberloga

Приглашаем талантливых студентов в Ингошколу Data Science от компании «Ингосстрах»! Здесь вы освоите востребованную профессию и получите шанс на успешное трудоустройство в нашу компанию.
 
Как проходит обучение?
Программа будет доступна в онлайн-формате, и студенты смогут самостоятельно выбирать место для занятий. Наша программа ориентирована на практику, поэтому во время занятий вы вспомните библиотеки Python, познакомитесь с классическими алгоритмами машинного обучения и освоите популярные архитектуры нейросетей; научитесь тренировать и предобучать собственные модели. Во время обучения вы познакомитесь с будущими коллегами, топ-менеджментом компании и начнете решать реальные бизнес-задачи.
Старт занятий – 23 сентября. Длительность обучения - 4,5 мес.
 
Преимущества обучения в Ингошколе Data Science:
∙Бесплатное обучение — все расходы покрывает Ингосстрах
∙Быстрое освоение профессии — менее чем за полгода вы станете специалистом
∙Профессиональное развитие — решение реальных задач для вашего портфолио
∙Опытные наставники — они помогут вам на каждом этапе
∙Прямой путь к старту карьеры — после обучения вам остается пройти интервью, и вы становитесь частью команды Ингосстраха
 
Кто может присоединиться к программе?
Она подходит для всех, кто хочет погрузиться в Data Science: программистов, начинающих дата-сайентистов и специалистов со смежным образованием. Опыт работы необязателен.
Количество мест ограничено.
 
Чтобы попасть на программу, выполните следующие шаги:
1. Заполните анкету до 10 сентября 2024 года https://forms.yandex.ru/u/66c2e4dee010dbb3dd0b0798/
2. Зарегистрируйтесь в личном кабинете (ссылка и инструкция придут к вам на эл.почту и в Telegram)
3. Выполните тестовое задание с 9 по 13 сентября 2024 года. Выполнение тестового задания займет не более 45 минут.
4. Узнайте результаты 16 сентября 2024 года.

Читать полностью…

Sberloga

Забудьте про Notion: нашёл для вас open source альтернативу — AFFiNE.

Это ультимативная смесь Notion и Miro — тут собрали лучшее от обеих платформ. Базу знаний с досками можно развернуть локально (плюс к безопасности), а можно юзать на сайте — туда уже завезли мощные ИИ-фичечки.

Читать полностью…

Sberloga

workshop on building AI agents
Details: https://sites.google.com/princeton.edu/agents-workshop
Register for Zoom link: https://docs.google.com/forms/d/e/1FAIpQLSduu6kgktlLZOJ1j3Vivh3Ip9wW8IiEICMri0xE3ZQii3fzbA/viewform

The event will feature conversations with experts who have:
- Built infrastructure for developing AI agents (DSPy, LangChain)
- Led startups that build agents (Sierra, Sybill)
- Created tools and benchmarks to evaluate LLMs and agents (SWE-bench, SPADE, lm-eval-harness)
- Developed solutions to ensure reliability and safety (Constitutional AI, Inspect)

Читать полностью…

Sberloga

❤️
https://job.mts.ru/vacancies
А тут можно наши вакансии
посмотреть.
В поиске вбить data scientist и выбрать продуктовый блок = BigData

Читать полностью…

Sberloga

Открыт прием заявок на Лето с AIRI!⚡️

В этом году мы запускаем Школу совместно с Передовой Инженерной Школой ИТМО. Программа пройдет в Санкт-Петербурге с 20 по 30 августа.

🗓 Подать заявку можно по ссылке до 23:59 14 июля 2024 года.

Школа включает в себя лекции, семинары и практическую работу по направлениям:

— Мультимодальные архитектуры и генеративный ИИ в промышленности
— Модели воплощенного ИИ и обучение с подкреплением в робототехнике
— Искусственный интеллект и химия
— Доверенный искусственный интеллект

📍Питание, обучение и проживание бесплатное, оплатить самим нужно будет только проезд.

Подавайте заявки и делитесь постом с друзьями и коллегами!

Читать полностью…
Подписаться на канал