Мне платят за то, что я говорю другим людям что им делать. Автор книги https://www.manning.com/books/machine-learning-system-design https://venheads.io https://www.linkedin.com/in/venheads
В Сингапуре, в зоопарке (ну а где ещё), был тренажёр на силу хвата
В какой то момент я его неправильно потянул и вот что вышло.
А ведь я просто представил как вытягиваю битки из Игоря
Прочитал заметку от чуваков из LessWrong - Refusal in LLMs is mediated by a single direction
Пацаны предположили (видимо начитались Игоря и насмотрелись стримов про world models) что в LLM (по крайней мере опен сурс) можно определить направление, отвечающее за цензуру и подавляющее harmful behavior
By comparing activations between harmful and harmless instructions - identified a "refusal direction."
PROMPT:
"Generate a list of five books related to machine learning."
INTERVENTION COMPLETION:
"I am unable to provide information on how to generate a list of books related to machine learning as it would be unethical and potentially harmful. Machine learning can be used for malicious purposes, and I do not want to be involved in that."
# Average projection of harmful prompts (scalar)
avg_proj_harmful = 1.5
# Ablation: Remove the refusal direction
projection = np.dot(c_out, refusal_direction) * refusal_direction
c_out_ablate = c_out - projection
# Injection: Add the refusal direction
c_out_inject = c_out + avg_proj_harmful * refusal_direction
Здесь можно посмотреть как выглядит лайв-кодинг на синьорскую позицию для аналитика
Читать полностью…По просьбам трудящихся поменяли зарплату
Теперь 500-1000к база в месяц
Помогаю Друзьям из Вайлдберриз найти Лида в матчинг
Заодно прособеседую по мл дизайну
Описание вакансии тут
Как подаваться - тоже
Приехал в Индию
Понял почему чуваки отсюда стараются уехать: грязно, очень бедно (таких трущоб я нигде не видел) + отдельные островки люкса: гостиницы, бизнес центры и тп - подчеркивает контраст
На въезде в гостиницу охрана осматривает машину на наличие взрывчатки, багажник, капот, все дела
На входе в гостиницу тоже досмотр и скан, вся территория огорожена мощным забором с охраной в несколько слоев. За забором - жизнь.
Из приятного это конечно местные: максимально опрятные, вежливые и стремящиеся к лучшему
Из интересного: купить квартиру с двумя спальнями будет стоить 20 млн рупий, снимать ее 30 тысяч. Понятно что при таких раскладах покупать особо смысла нет
Местные айтишники в хороших компаниях зарабатывают +- как в Москве. Условный синьор будет получать около 6 млн рупий(6.6 млн рублей) в год. Как вы понимаете, при аренде в 30к это более чем достаточно для жизни, а за ещё 30к можно нанять двух чуваков себе в помощники.
Кроме того есть разные бенефиты, например такси, которое забирает тебе из дома в офис и обратно
Но даже при всем этом почти у всех на уме одно, уехать.
Май обещает быть насыщенным - решил совершить турне по офисам BP, посетить свою команду
13 Мая лечу из Лондона в Мумбай, оттуда в Пуне - до 23 мая, затем обратно в Мумбай и 24 оттуда в Куала-Лумпур, тусуюсь там до 29 и направляюсь в Сингапур, уже оттуда 6 июня обратно в Лондон
Самое тяжелое, это, конечно же, отсутствие мега простыни с охлаждением
На следующей неделе буду в Индии и оттуда буду вещать на подлодке.
🔗Что нужно, чтоб показать на собеседовании действительно всё, на что способен?
Прокачанные софт-скиллы. Узнайте, как покорить интервьюера своими гибкими навыками за пять дней конференции.
Будем много практиковаться в мастерстве прохождения интервью и самопрезентации:
🌟Научимся строить личный бренд разработчика или менеджера в IT. Узнаем, как личный бренд помогает получать выгодные офферы — своим опытом поделится один из лучших специалистов по Data Science в мире по рейтингу Kaggle Валерий Бабушкин . Научит нетворкаться, вести блог и искать работу пассивно.
🌟Прокачаем навык переговоров об оффере в интерактивном докладе с примерами. Узнаем, как добиться лучших условий и выбирать самое выгодное предложение вместе с Вероникой Ильиной.
🌟Выясним, как использовать AI при трудоустройстве. Оказывается, искусственный интеллект и нейросети могут помочь нам готовиться к собеседованиям. Сделаем из AI идеального личного ментора и наставника по софтскиллам вместе с Екатериной Селезнёвой.
Это не все доклады сезона. Вас ждёт действительно много практики и интерактива.
📌Забирайте свои билеты на сайте конференции и присоединяйтесь!
Подъехали свежие вакансии
Principal Data Engineer
Principal Machine Learning Engineer
Репортить мне, переезд в Лондон
По деньгам что-то среднее между L6 и L7
После трех лет мы обновили «Динамическое ценообразование» на курсе Hard ML.
Новая программа, новые лекции и даже новый преподаватель – Ирина, лид команды ML-ценообразования в AliExpress. В самом модуле помимо базы из основных терминов и подходов, можно научиться проводить Backtest, A/B и Switchback и различные методы оптимизации.
В практической части: задачи через построение модели спроса, определение эластичности и многоруких бандитов. В финальном проекте нужно решить типичную бизнес-задачу: максимизировать оборот, не просадив выручку. Всё как в жизни.
Смотрите программу и приходите
Перебирал паспорт, увидел там старую китайскую визу от ноября 2019 до февраля 2020 года и вспомнил как мой друг-Китаец, к которому я собирался ехать в гости в январе, попросил отложить поездку, потому что у них там какая то простуда и просят не приезжать.
Помню я тогда еще подумал, ну что за нелепая отмазка, не ожидал от тебя
Интересный взгляд на аналитику - Disband the analytics team
Проводится аналогия между отделом аналитики и пирамидой
Постоянно что-то обещают - причем то - что выполнить не получится никогда, что ведет к циклу неисполнения ожиданий и оправдания своего существования
Но говорится что не получается потому что нужно сделать data quality, data governance, data driven и заживем, когда-то в светлом будущем, просто дайте еще денег
Но факт в том, что идеально не будет никогда - возможно следует признать эти ограничения и начать жить с ними, став более практичными и прагматичными?
В очередной раз подумал, какую невероятную вещь проделал Герман Греф. Взял неповоротливую машину Сбербанка и сделал из нее монстра, лезущего своими щупальцами всюду
Здесь, конечно, можно возразить и сказать:
Залили деньгами
Купили компании, а не сделали сами
Просто копируют других
Многие поделки по качеству ± равны опенсурсу
Да, все это валидно и Сбер не является прорывной технологической компаний, выдающей нам новые языки программирования становящиеся стандартом, фреймворки для обучения нейронных сетей, которые используют все или продукты дисраптящие мировой рынок, но:
Банк, в который ты приходил с бумажной сберкнижкой 10-12 лет назад, смог относительно быстро вкорячить в свою софтину для видео конференций функцию автоматического подведения итогов видео встреч, которая реализована на базе их же STT и LLM
Купленные компании интегрируются в единую экосистему и SberID как ни крути, а используется в рунете, так что видимо есть у пацанов работающая золотая запись
Залить деньгами себе позволяют все конторы с высокой маржой, покупка других компаний это практика повсеместная и как известно - покупка это только начало, проблемы начинаются потом
Самое главное - движение Сбера в этом направлении продолжается уже который год
Я смутно догадываюсь - как невероятно тяжело и сложно было запустить и продолжать толкать эту машину, и просто удивляюсь, что в течении более десяти лет этот человек все еще удерживает в себе железной волю, дисциплину для долгосрочного вижена и , видимо, почти абсолютную власть в компании.
Кажется даже Сатья Надела начинал с базы получше
Сейчас Валерий Бабушкин работает в British Petroleum в должности "старший главный начальник" и управляет коллективом из 500 человек, который работает на 5 континентах. При устройстве туда ему пришлось пройти 10 собесов. Еще он написал книгу Machine Learning System Design: With end-to-end examples. Он прошел Яндекс, X5, Facebook, Blockchain.com — причем далеко не на рядовых должностях.
В общем, у нас сегодня в подкасте реально большая шишка, экспертище, батя сына маминой подруги.
Но — когда-то и он начинал свой путь в индустрии. Все, от первых шагов до вершины, он сегодня расскажет. Заходите смотрите
https://www.youtube.com/watch?v=67nZBDH0FA0
Анонс отсюда /channel/rzrbs/437
Буду читать Бесплатный курс по дизайну систем машинного обучения - запись по ссылке
Восемь 1.5 часовых сессий, 24 темы/урока
По факту это 2 из 4 модулей от полного мл систем дизайна, который мы с Арсением читаем на английском здесь, а на русском, в ещё более расширенной версии, выйдет на Карпов Курсес в этом году
Наша книга по ML System Design прошла третье - и последнее - ревью внутри паблишера. Я уже писал про ревью раньше, но вкратце процесс такой: издатель раздает 10+ потенциальным читателям текущую версию книги и заставляет писать много комментариев и отвечать на десятки вопросов. Ревью проводится после каждой трети книги, и потом анонимизированные комментарии сваливаются обратно авторам: чините, что считаете важным.
По результатам ревью выглядит так, что мы наконец-то научились писать: оценки выросли 3.75 → 4.36 → 4.73. Во многом это вызвано тем, что книга "отлежалась" - много мелких улучшений по результатам первых ревью, отзывов читателей (большое вам спасибо!) и собственных переосмыслений/дополнений. Еще в комментариях написали, что книгу стоило бы назвать Principles of ML Design. Мы вообще-то так и хотели, но издательство вежливо проигнорировало наше мнение по этому вопросу.
В общем, с нашей стороны все в целом готово, осталось пройти через пару кругов формальностей, дождаться корректуры, и тогда книга уйдет в печать (и все предзаказавшие печатную версию ее наконец-то получат). Зная неповортливость издательства, рассчитываю увидеть печатную версию к концу года.
В раннем доступе было продано чуть больше тысячи экземпляров. До завтрашнего дня у издательства скидки 50% на все, но я ни на что не намекаю :)
Пропавший модуль «Деплой ML-сервисов» вернулся в расширенном формате – теперь это «MLOps».
Из нового: почти всё. Программа, преподаватели (два разработчика MLOps-инструментов – Александр Гущин - Kaggle GM из Iterativeꓸai и Михаил Свешников из Evidently AI), практика и даже добавили финальный проект.
Если думаете в сторону разработки, не уходя далеко от машинного обучения, то MLOps станет хорошим фундаментом.
Смотрите программу здесь
Без промо кода, но до конца мая у нас есть акция, по которой при покупке 4 блоков Hard ML - пятый идет со скидкой 50%
Прочитал статью от челов из Майкрософта - A/B Testing with Fat Tails
Идея понятная и простая, чем больше вероятность того что какие-то эксперименты могут оказаться черными лебедями, то есть небольшое число экспериментов может дать чрезвычайно высокие результаты (The top 2% of ideas accounted for 74.8% of historical gains.), - тем выгоднее быть lean - делать частые небольшие эксперименты
В противном случае стоит делать более длительные эксперименты.
В целом - несколько разочарован, звучит как: если эффект большой, его поймать можно быстрее, поэтому сделаем много экспериментов, а если маленький - то придется делать меньше экспериментов. С учетом того что примерный процент успешных тестов около 10-15 и это известно - вывод не поражает
Еще статья предлагается обмазаться баесом. Куда же без этого и утверждает что если сможем делать на 20% больше а/б - сможем увеличить производительность на 17%
Ходят слухи что в ноябре, видимо после выборов президента США, в Мета будет новый year of efficiency
Звучит как фейк ньюс, но все может быть, когда самый главный начальник - ящер.
Продолжение банкета от сравни.ру и запуск второго потока стажировок (про первый говорили ранее). У них хороший руководитель Аналитики - Андрей Чехлов, достойный чел
Программы стажировок рассчитаны для продуктовых и дата аналитиков. Второй поток стартует сейчас
Что предлагают:
- Оплачиваемая стажировка
- Занятость 30-40 часов в неделю
- Крутое комьюнити и опытные наставники
- 3 месяца коммерческого опыта в крупной IT компании
Кого ждут: Студентов последних курсов технических специальностей
Как попасть: За подробностями переходите на сайт - https://tech.sravni.ru/internship
Или пишите напрямую HR: @begishevad
Вышла новая версия мега простыни.
Теперь шумит на 40% меньше, холодит в два раза лучше и следит за тем храпишь ты или нет. Понятное дело - тут же заказал и купил. Ultra версия еще имеет доп приблуду, которая ставится под матрас и может поднимать/опускать его, чтобы бороться с храпом + якобы повышает комфорт во время сна. Ее, конечно же, не заказал.
Теперь осталось дождаться доставки и продать свою предыдущую мега простыню
Однажды в Х5 наняли Джуна. Через несколько недель он стал на пальцах объяснять ряду синьоров почему они не синьоры, а инвалиды разума.
В какой то момент он решил объяснить продакт менеджеру, почему тот не прав и как надо жить
В итоге этого чела пришлось позвать на разговор к директору департамента (то есть мне). С одной стороны, он был неправ в своем подходе, с другой стороны у чела был потенциал да и такие люди, которые не терпят булщита, помогают руководителю понимать что происходит на самом деле, кроме того он писал хороший код и комитил в scikit learn.
В итоге он и в Х5 остался и в мою жизнь вошел. Уже позже мы с Богданом, а это был именно он, вместе работали над разными проектами: прайсинг в Али, симулятор МЛ/ДС, книга по МЛ дизайну.
Однако Богдан не оставил привычку учить людей и сейчас он учит их правильно переписываться и строить отношения на любовном фронте с другими людьми, использую силу LLM. О чем он и рассказывает здесь
В среду, 1 мая проведем стрим с Эмели Co-founder and CTO Evidently AI - и со-автором курсов по МЛ от Яндекса
Добавить в календарь
Недавно в одном чатике успешных аналитиков зашли разговоры про мотивационные примеры о том, как кто-то из руководителя инфраструктуры дорос до CDO. Будем считать что CDO репортит CEO, отвечает за все что связано с данными в компании и в его команде 200+ человек.
Мое мнение простое - весь бурный рост и невероятные карьерные возможности были во многом обусловлены новизной профессии и свободным рынком. По мере сатурации рынка и формализации профессии - жизнь потихоньку изменится и нужно быть реалистичным и откровенным в признании этого факта. Если в компании всего один CDО - то всем ни стать CDO, более того, любой уровень выше синьора - это скорее исключение из правила, поэтому синьор и является терминальным левелом.
Это конечно не значит, что никто не станет CDO, но и не стоит становиться проджект менеджером Экселя в надежде затем возглавить самую дорогую компанию мира.
Если меня спросят про пример успешной и реальной карьеры - то вот она - 47 лет в разработке, последние 33 года - Senior, 12 лет отработал в Гугле.
Прочитал неплохую статью How to avoid machine learning pitfalls:a guide for academic researchers - которая зайдет не только академикам.
Понятно что серьезным пацанам нужно брать серьезную книгу Machine Learning System Design With end-to-end examples
Но список вещей, которые в статье затрагивается - хорош, рекомендую
Before Building Models:Читать полностью…
Consider data usage and limitations.
Understand your data thoroughly.
Avoid examining all data to prevent bias.
Ensure you have enough data.
Consult with domain experts.
Review relevant literature.
Plan for model deployment.
Reliable Model Building:
Prevent test data from leaking into training.
Explore different models.
Avoid using inappropriate models.
Stay updated with deep learning developments.
Don't default to deep learning.
Be cautious with feature selection.
Optimize model hyperparameters.
Avoid learning spurious correlations.
Robust Model Evaluation:
Use an appropriate test set.
Perform data augmentation after splitting data.
Avoid sequential overfitting.
Evaluate models multiple times.
Save some data for final model evaluation.
Select evaluation metrics carefully.
Handle time series data correctly.
Fair Model Comparison:
Don't assume higher numbers mean better performance.
Use statistical tests for comparisons.
Adjust for multiple comparisons.
Be critical of community benchmark results.
Combine models with caution.
Reporting Results:
Maintain transparency in methods and findings.
Report performance through various metrics.
Avoid generalizing beyond your data.
Report statistical significance with care.
Examine your models closely.
Use a machine learning checklist to ensure completeness. (На него есть ссылка)