Прочитал Статью
Z-curve 2.0: Estimating Replication and Discovery Rates
Говорят что многие публикации балуются с p-value hacking, и что то надо делать. Хотя даже если не баловаться - очевидно что посылать будут только успешные работы, и допустим малая часть от всех экспериментов, а среди всех экспериментов (при альфа .95) 5% будут ложно положительными и это (скорее всего) будет большая часть от всех положительных
Recent replication failures have fueled concerns that many published results are false-positives. Brunner and Schimmack (2020) developed z-curve, a method for estimating the expected replication rate (ERR) – the predicted success rate of exact replication studies based on the mean power after selection for significance.
Предлагают ввести пару метрик и использовать их для рассчета показателей
Before introducing the formal model, we illustrate the concepts with a fictional example. In the example, researchers test 100 true hypotheses with 100% power (i.e., every test of a true hypothesis produces p < .05) and 100 false hypotheses (H0 is true) with 5% power which is determined by alpha = .05. Consequently, the researchers obtain 100 true positive results and 5 false-positive results, for a total of 105 statistically significant results. The expected discovery rate is (1 × 100 + 0.05 × 100)/(100 + 100) = 105/200 = 52.5% which corresponds to the observed discovery rate when all conducted studies are reported.
So far, we have assumed that there is no selection bias. However, let us now assume that 50 of the 95 statistically non-significant results are not reported. In this case, the observed discovery rate increased from 105/200 to 105/150 = 70%. The discrepancy between the EDR, 52.5%, and the ODR, 70%, provides quantitative information about the amount of selection bias.
Соответсвенно если собрать p value, конвертнуть их в z value и построить Z-curve, можно прикинуть из какого распределения эти значения были сэмплированы (то есть какой там был power) через EM, отсюда можно понять насколько стоит доверять результат
В целом интерено, потому что понятно, но непонятно зачем
Осталось два дня на прохождение тестирования для участия в бесплатном курсе по МЛ систем дизайну
Ссылка
Сейчас происходит некоторая активность по взаимному эндорсу каналов пишущих про аналитику/мл
Все они собраны здесь:
/channel/addlist/dMeiok8FCdA3ZTMy
В рамках этой активности я получил задачу рассмотреть канал /channel/andron_233
Много времени это не заняло.
Первое сообщение, которое я открыл, было про линейку симуляторов. Симулировать мы с Богданом итак уже умеем. У него вообще целый бизнес на этом построен
Но если вы не умеете - можно и почитать
Сейчас Валерий Бабушкин работает в British Petroleum в должности "старший главный начальник" и управляет коллективом из 500 человек, который работает на 5 континентах. При устройстве туда ему пришлось пройти 10 собесов. Еще он написал книгу Machine Learning System Design: With end-to-end examples. Он прошел Яндекс, X5, Facebook, Blockchain.com — причем далеко не на рядовых должностях.
В общем, у нас сегодня в подкасте реально большая шишка, экспертище, батя сына маминой подруги.
Но — когда-то и он начинал свой путь в индустрии. Все, от первых шагов до вершины, он сегодня расскажет. Заходите смотрите
https://www.youtube.com/watch?v=67nZBDH0FA0
Анонс отсюда /channel/rzrbs/437
Буду читать Бесплатный курс по дизайну систем машинного обучения - запись по ссылке
Восемь 1.5 часовых сессий, 24 темы/урока
По факту это 2 из 4 модулей от полного мл систем дизайна, который мы с Арсением читаем на английском здесь, а на русском, в ещё более расширенной версии, выйдет на Карпов Курсес в этом году
Наша книга по ML System Design прошла третье - и последнее - ревью внутри паблишера. Я уже писал про ревью раньше, но вкратце процесс такой: издатель раздает 10+ потенциальным читателям текущую версию книги и заставляет писать много комментариев и отвечать на десятки вопросов. Ревью проводится после каждой трети книги, и потом анонимизированные комментарии сваливаются обратно авторам: чините, что считаете важным.
По результатам ревью выглядит так, что мы наконец-то научились писать: оценки выросли 3.75 → 4.36 → 4.73. Во многом это вызвано тем, что книга "отлежалась" - много мелких улучшений по результатам первых ревью, отзывов читателей (большое вам спасибо!) и собственных переосмыслений/дополнений. Еще в комментариях написали, что книгу стоило бы назвать Principles of ML Design. Мы вообще-то так и хотели, но издательство вежливо проигнорировало наше мнение по этому вопросу.
В общем, с нашей стороны все в целом готово, осталось пройти через пару кругов формальностей, дождаться корректуры, и тогда книга уйдет в печать (и все предзаказавшие печатную версию ее наконец-то получат). Зная неповортливость издательства, рассчитываю увидеть печатную версию к концу года.
В раннем доступе было продано чуть больше тысячи экземпляров. До завтрашнего дня у издательства скидки 50% на все, но я ни на что не намекаю :)
Пропавший модуль «Деплой ML-сервисов» вернулся в расширенном формате – теперь это «MLOps».
Из нового: почти всё. Программа, преподаватели (два разработчика MLOps-инструментов – Александр Гущин - Kaggle GM из Iterativeꓸai и Михаил Свешников из Evidently AI), практика и даже добавили финальный проект.
Если думаете в сторону разработки, не уходя далеко от машинного обучения, то MLOps станет хорошим фундаментом.
Смотрите программу здесь
Без промо кода, но до конца мая у нас есть акция, по которой при покупке 4 блоков Hard ML - пятый идет со скидкой 50%
Прочитал статью от челов из Майкрософта - A/B Testing with Fat Tails
Идея понятная и простая, чем больше вероятность того что какие-то эксперименты могут оказаться черными лебедями, то есть небольшое число экспериментов может дать чрезвычайно высокие результаты (The top 2% of ideas accounted for 74.8% of historical gains.), - тем выгоднее быть lean - делать частые небольшие эксперименты
В противном случае стоит делать более длительные эксперименты.
В целом - несколько разочарован, звучит как: если эффект большой, его поймать можно быстрее, поэтому сделаем много экспериментов, а если маленький - то придется делать меньше экспериментов. С учетом того что примерный процент успешных тестов около 10-15 и это известно - вывод не поражает
Еще статья предлагается обмазаться баесом. Куда же без этого и утверждает что если сможем делать на 20% больше а/б - сможем увеличить производительность на 17%
Ходят слухи что в ноябре, видимо после выборов президента США, в Мета будет новый year of efficiency
Звучит как фейк ньюс, но все может быть, когда самый главный начальник - ящер.
Продолжение банкета от сравни.ру и запуск второго потока стажировок (про первый говорили ранее). У них хороший руководитель Аналитики - Андрей Чехлов, достойный чел
Программы стажировок рассчитаны для продуктовых и дата аналитиков. Второй поток стартует сейчас
Что предлагают:
- Оплачиваемая стажировка
- Занятость 30-40 часов в неделю
- Крутое комьюнити и опытные наставники
- 3 месяца коммерческого опыта в крупной IT компании
Кого ждут: Студентов последних курсов технических специальностей
Как попасть: За подробностями переходите на сайт - https://tech.sravni.ru/internship
Или пишите напрямую HR: @begishevad
Вышла новая версия мега простыни.
Теперь шумит на 40% меньше, холодит в два раза лучше и следит за тем храпишь ты или нет. Понятное дело - тут же заказал и купил. Ultra версия еще имеет доп приблуду, которая ставится под матрас и может поднимать/опускать его, чтобы бороться с храпом + якобы повышает комфорт во время сна. Ее, конечно же, не заказал.
Теперь осталось дождаться доставки и продать свою предыдущую мега простыню
Однажды в Х5 наняли Джуна. Через несколько недель он стал на пальцах объяснять ряду синьоров почему они не синьоры, а инвалиды разума.
В какой то момент он решил объяснить продакт менеджеру, почему тот не прав и как надо жить
В итоге этого чела пришлось позвать на разговор к директору департамента (то есть мне). С одной стороны, он был неправ в своем подходе, с другой стороны у чела был потенциал да и такие люди, которые не терпят булщита, помогают руководителю понимать что происходит на самом деле, кроме того он писал хороший код и комитил в scikit learn.
В итоге он и в Х5 остался и в мою жизнь вошел. Уже позже мы с Богданом, а это был именно он, вместе работали над разными проектами: прайсинг в Али, симулятор МЛ/ДС, книга по МЛ дизайну.
Однако Богдан не оставил привычку учить людей и сейчас он учит их правильно переписываться и строить отношения на любовном фронте с другими людьми, использую силу LLM. О чем он и рассказывает здесь
Начал активно нанимать в BP в Куала- Лумпуре, столице Малайзии. Визу делаем. Нужны дата-аналитики (мидлы-синьоры-стафы),
Дата Инженеры (мидлы-синьоры-стафы-принципал), МЛ Инженеры (мидлы-синьоры-стафы-принципал)
Если есть желание, резюме можно прислать на maiia.malenko@bp.com
Недавно мы писали, что метрики – это основное понятие, которым оперируют аналитики (на самом деле многие DS-специалисты тоже!). Если подниматься на уровень выше, то существует система, объединяющая в себе бизнес-метрики и позволяющая видеть «общую картину» – юнит-экономика.
Если ваша цель – не работа ради работы, и вы стремитесь понимать, какое влияние оказывает на компанию ваши действия, то добавляйте в закладки и включайте наш краткий (да, в случае юнит-экономики – это краткий) обзор на устройство юнит-экономики!
Богдан Печёнкин, соавтор Симулятора DS и фаундер стартапа Vibe AI, разобрался, как соединены между собой основные метрики бизнеса и почему важно понимать полный «круговорот денег» в компании. А ещё на каждую из упомянутых метрик у нас есть задачи в Симуляторе DS, но об этом подробнее вы узнаете уже сами!
В Сингапуре, в зоопарке (ну а где ещё), был тренажёр на силу хвата
В какой то момент я его неправильно потянул и вот что вышло.
А ведь я просто представил как вытягиваю битки из Игоря
Прочитал заметку от чуваков из LessWrong - Refusal in LLMs is mediated by a single direction
Пацаны предположили (видимо начитались Игоря и насмотрелись стримов про world models) что в LLM (по крайней мере опен сурс) можно определить направление, отвечающее за цензуру и подавляющее harmful behavior
By comparing activations between harmful and harmless instructions - identified a "refusal direction."
PROMPT:
"Generate a list of five books related to machine learning."
INTERVENTION COMPLETION:
"I am unable to provide information on how to generate a list of books related to machine learning as it would be unethical and potentially harmful. Machine learning can be used for malicious purposes, and I do not want to be involved in that."
# Average projection of harmful prompts (scalar)
avg_proj_harmful = 1.5
# Ablation: Remove the refusal direction
projection = np.dot(c_out, refusal_direction) * refusal_direction
c_out_ablate = c_out - projection
# Injection: Add the refusal direction
c_out_inject = c_out + avg_proj_harmful * refusal_direction
Здесь можно посмотреть как выглядит лайв-кодинг на синьорскую позицию для аналитика
Читать полностью…Помогаю Друзьям из Вайлдберриз найти Лида в матчинг
Заодно прособеседую по мл дизайну
Описание вакансии тут
Как подаваться - тоже
Приехал в Индию
Понял почему чуваки отсюда стараются уехать: грязно, очень бедно (таких трущоб я нигде не видел) + отдельные островки люкса: гостиницы, бизнес центры и тп - подчеркивает контраст
На въезде в гостиницу охрана осматривает машину на наличие взрывчатки, багажник, капот, все дела
На входе в гостиницу тоже досмотр и скан, вся территория огорожена мощным забором с охраной в несколько слоев. За забором - жизнь.
Из приятного это конечно местные: максимально опрятные, вежливые и стремящиеся к лучшему
Из интересного: купить квартиру с двумя спальнями будет стоить 20 млн рупий, снимать ее 30 тысяч. Понятно что при таких раскладах покупать особо смысла нет
Местные айтишники в хороших компаниях зарабатывают +- как в Москве. Условный синьор будет получать около 6 млн рупий(6.6 млн рублей) в год. Как вы понимаете, при аренде в 30к это более чем достаточно для жизни, а за ещё 30к можно нанять двух чуваков себе в помощники.
Кроме того есть разные бенефиты, например такси, которое забирает тебе из дома в офис и обратно
Но даже при всем этом почти у всех на уме одно, уехать.
Май обещает быть насыщенным - решил совершить турне по офисам BP, посетить свою команду
13 Мая лечу из Лондона в Мумбай, оттуда в Пуне - до 23 мая, затем обратно в Мумбай и 24 оттуда в Куала-Лумпур, тусуюсь там до 29 и направляюсь в Сингапур, уже оттуда 6 июня обратно в Лондон
Самое тяжелое, это, конечно же, отсутствие мега простыни с охлаждением
На следующей неделе буду в Индии и оттуда буду вещать на подлодке.
🔗Что нужно, чтоб показать на собеседовании действительно всё, на что способен?
Прокачанные софт-скиллы. Узнайте, как покорить интервьюера своими гибкими навыками за пять дней конференции.
Будем много практиковаться в мастерстве прохождения интервью и самопрезентации:
🌟Научимся строить личный бренд разработчика или менеджера в IT. Узнаем, как личный бренд помогает получать выгодные офферы — своим опытом поделится один из лучших специалистов по Data Science в мире по рейтингу Kaggle Валерий Бабушкин . Научит нетворкаться, вести блог и искать работу пассивно.
🌟Прокачаем навык переговоров об оффере в интерактивном докладе с примерами. Узнаем, как добиться лучших условий и выбирать самое выгодное предложение вместе с Вероникой Ильиной.
🌟Выясним, как использовать AI при трудоустройстве. Оказывается, искусственный интеллект и нейросети могут помочь нам готовиться к собеседованиям. Сделаем из AI идеального личного ментора и наставника по софтскиллам вместе с Екатериной Селезнёвой.
Это не все доклады сезона. Вас ждёт действительно много практики и интерактива.
📌Забирайте свои билеты на сайте конференции и присоединяйтесь!
Подъехали свежие вакансии
Principal Data Engineer
Principal Machine Learning Engineer
Репортить мне, переезд в Лондон
По деньгам что-то среднее между L6 и L7
После трех лет мы обновили «Динамическое ценообразование» на курсе Hard ML.
Новая программа, новые лекции и даже новый преподаватель – Ирина, лид команды ML-ценообразования в AliExpress. В самом модуле помимо базы из основных терминов и подходов, можно научиться проводить Backtest, A/B и Switchback и различные методы оптимизации.
В практической части: задачи через построение модели спроса, определение эластичности и многоруких бандитов. В финальном проекте нужно решить типичную бизнес-задачу: максимизировать оборот, не просадив выручку. Всё как в жизни.
Смотрите программу и приходите