Мне платят за то, что я говорю другим людям что им делать. Автор книги https://www.manning.com/books/machine-learning-system-design https://venheads.io https://www.linkedin.com/in/venheads
Мне есть что на это ответить:
A/B тесты оценивают общий эффект, будь то средний, медианный, перцинтильный и т.д. Утверждение о том, что требуется 100% случаев для принятия решения, неверно. Возможно, у вас возникло неправильное понимание этого процесса. Рекомендую обсудить ваши наблюдения с командой Саши Сахнова. Это поможет устранить недоразумения и объяснить, как это действительно работает, чтобы в дальнейшем не возникало ложных представлений.
Если в 70% случаев стало лучше на 1%, в 20% не изменилось, а в 10% стало хуже на 7%, общий эффект будет:
0.7 * 0.01 + 0.2 * 0 - 0.1 * 0.07 = 0
В этом случае, изменение не имеет смысла, поскольку оно не приносит выгоды, а наоборот, может привести к потерям, учитывая затраты на его реализацию. Платформа предоставила вам распределение результатов. Теперь ваша задача - найти способы либо уменьшить потери в 10%, либо увеличить прибыль в 70%.
Что касается уменьшения количества экспериментов, возможно, это даже хорошо. Ведь каждый эксперимент требует значительных ресурсов, особенно в офлайн-ритейле. Возможно, раньше, когда большинство экспериментов считались успешными, не все было в порядке. В развитом бизнесе процент успешных экспериментов не может быть высоким, иначе зачем экспериментировать - сразу внедряйте на всех. Мне помнится, процент успешных экспериментов был на уровне 90+%, что вызывает сомнения в их достоверности. Более того, платформа - инструмент - решения принимает топ менеджмент, хочет рисковать - пусть рискует, измерительный прибор лишь говорит что видит
Особенно забавно это читать после вчерашнего поста. Мир, где бизнес живет под железной пятой математиков
3/3
Наткнулся, во время просмотра комментариев к видео про А/Б тесты, на крик вопиющего в пустыне.
Ютуб не позволяет нафигачить большой комментарий, а мне есть что сказать, поэтому буду бить его почастям.
Я конечно не такой крутой математик как господин Бабушкин. Скажу как практик из Х5, который сидел с ребятами Валерия по другую сторону стола/монитора. В моем проекте проводились десятки а/б тестов для валидации результата и оправдания инвестиций с его командой и на их платформе. В оффлайн ритейле (но думается, что также везде) есть несогласие с методами А/В тестов в практической области. Причина довольно простая, это сферические исследования в вакууме, которые ставят высокую обоснованность результатов во главе угла. С первого взгляда это даже неплохо, но давайте рассуждать дальше.
В его примерах фигурировало, что "если мы проводим исследование с 40 летними мужчинами то... " продолжим мысль. Успешным считается аб тест в котором на все 100% мужчин участвовавших в исследовании результат дал отклонение в положительную область с разной степенью успеха и результат имеет низкую ошибку. Если 10% мужчин не отреагировали или по другим причинам отреагировали негативно, то этот эксперимент получает от команды Валерия негативное заключение. С точки зрения практики этот результат надо интерпретировать как 90% успех, но бинарная логика платформ аб-тестирования отвечает одной из граней монетки - да или нет. И тут ответ будет - нет. Бизнес не может решать комплексные (сложные) задачи всегда с успехом на 100%. Это вам не кирпичный цвет кнопки, это система органических стимулов влияющая на мотивацию десятков умов, которые должны принять однозначное (с точки зрения платформы) решение.
Давайте приведу пример. Вы автопроизводитель и запускаете новый вариант автомобиля на замену существующему (ну допустим новая версия ауди а4). Краш-тесты старого автомобиля это контрольная группа, краш-тесты нового это тестовая. И вот вы получаете результат, звучит он следующим образом в 90% случаев в краш тесте нового автомобиля повреждения водителя были меньше чем в старом (остаются конечности, выживаемость). Но в одном типе тестов результаты хуже, водитель изуродован больше чем в старой версии авто, потому что балка безопасности спасающая теперь 90% водителей, расположена под таким углом, что в аварии с 32% перекрытием, под углом 65 градусов при скорости 93-96 км в час по законам физики не успевает уйти влево и входит водителю в грудь и это подтвердилось много раз при аналогичных условиях. В то время как в старом автомобиле именно этот кейс обеспечивает более высокую выживаемость. Несмотря на то, что эти пропорции безопасности сильно лучше чем в предыдущей модели заключение Валерия на этот тест будет - нет, продолжайте улучшать новый авто, так как не 100% случаев лучше чем старые авто. Задайте себе вопрос как потребитель - что в этой ситуации правильнее? Вы могли бы получить завтра более совершенный автомобиль, но вынуждены довольствоваться старым более опасным в целом, потому что не найдено решение для этих 10% случаев, когда стало хуже. Абсурд, верно? Нет, конечно во имя добра, надо и этот кейс решать, (даешь 100% безопасность автотранспорта!!!), но система АБ-тестов так не работает, она дает заключение только когда найдено "абсолютное" решение (как у ситхов).
Теперь применительно к ритейлу. Проводим мы тест, когда меняется выкладка товара на полку, ну например хороший кофе ставили на верхнюю полку, теперь начали ставить на среднюю. В 70% случаев покупатели отреагировали положительно и продажи кофе улучшились, в 20% нет никаких изменений, а в 10% случаев ухудшились по разным причинам, вплоть до непредсказуемых. Влияние на покупателя это комплексная задача. Этот эксперимент оценивает платформа Бабушкина и дает заключение - нет подтвержденного эффекта. Идите думайте дальше бизнес эксперты. Хороший кофе возвращают на верхнюю полку, эксперты от бизнеса идут думать как сделать так, чтобы повлиять на 30% оставшихся потребителей. Не придумали? - значит опцию видеть хороший кофе на средней полке бизнес потерял навсегда.
Заказал себе бочку и чиллер для холодных ванн, они как раз на картинке.
Буду анализировать через датчики oura и eight sleep в течении трёх месяцев, чтобы оценить, работает ли этот протокол.
В прошлом году, когда делал в домашних условиях ванну со льдом в течение трёх месяцев, мне очень зашло, но много времени тратил
Моя любимая рубрика, пацаны к успеху шли или Форбс 30 до 30
Читать полностью…У нас с Валерой Бабушкиным, хоть мы и вместе много работали, почти нет совместных видео. Надо бы это исправлять
Начать мы решили с темы которая нам обоим близка помимо ML, и это литература. Мы оба довольно много прочитали литературы по самым разным направлениям, будь то sci-fi, войны китайских династий, зарубежная классика или античная философия
Поэтому в эту пятницу, в 17:00 по Лондону (19:00 по Москве) в канале Валеры мы обсудим:
• Как у каждого из нас пробудилась любовь чтению и какие книги сформировали наше мировоззрение?
• Какие книги стоит прочитать каждому (вот Мой топ-120); вообще, в какие области знаний стоит углубиться?
• Какой у каждого из нас подход к процессу чтения, как правильно читать? как читать много и не упускать важного?
Поэтому всех ждём в пятницу, готовимся качать свою интеллектуальную бицуху
Прочитал Статью
Z-curve 2.0: Estimating Replication and Discovery Rates
Говорят что многие публикации балуются с p-value hacking, и что то надо делать. Хотя даже если не баловаться - очевидно что посылать будут только успешные работы, и допустим малая часть от всех экспериментов, а среди всех экспериментов (при альфа .95) 5% будут ложно положительными и это (скорее всего) будет большая часть от всех положительных
Recent replication failures have fueled concerns that many published results are false-positives. Brunner and Schimmack (2020) developed z-curve, a method for estimating the expected replication rate (ERR) – the predicted success rate of exact replication studies based on the mean power after selection for significance.
Предлагают ввести пару метрик и использовать их для рассчета показателей
Before introducing the formal model, we illustrate the concepts with a fictional example. In the example, researchers test 100 true hypotheses with 100% power (i.e., every test of a true hypothesis produces p < .05) and 100 false hypotheses (H0 is true) with 5% power which is determined by alpha = .05. Consequently, the researchers obtain 100 true positive results and 5 false-positive results, for a total of 105 statistically significant results. The expected discovery rate is (1 × 100 + 0.05 × 100)/(100 + 100) = 105/200 = 52.5% which corresponds to the observed discovery rate when all conducted studies are reported.
So far, we have assumed that there is no selection bias. However, let us now assume that 50 of the 95 statistically non-significant results are not reported. In this case, the observed discovery rate increased from 105/200 to 105/150 = 70%. The discrepancy between the EDR, 52.5%, and the ODR, 70%, provides quantitative information about the amount of selection bias.
Соответсвенно если собрать p value, конвертнуть их в z value и построить Z-curve, можно прикинуть из какого распределения эти значения были сэмплированы (то есть какой там был power) через EM, отсюда можно понять насколько стоит доверять результат
В целом интерено, потому что понятно, но непонятно зачем
Осталось два дня на прохождение тестирования для участия в бесплатном курсе по МЛ систем дизайну
Ссылка
Сейчас происходит некоторая активность по взаимному эндорсу каналов пишущих про аналитику/мл
Все они собраны здесь:
/channel/addlist/dMeiok8FCdA3ZTMy
В рамках этой активности я получил задачу рассмотреть канал /channel/andron_233
Много времени это не заняло.
Первое сообщение, которое я открыл, было про линейку симуляторов. Симулировать мы с Богданом итак уже умеем. У него вообще целый бизнес на этом построен
Но если вы не умеете - можно и почитать
Сейчас Валерий Бабушкин работает в British Petroleum в должности "старший главный начальник" и управляет коллективом из 500 человек, который работает на 5 континентах. При устройстве туда ему пришлось пройти 10 собесов. Еще он написал книгу Machine Learning System Design: With end-to-end examples. Он прошел Яндекс, X5, Facebook, Blockchain.com — причем далеко не на рядовых должностях.
В общем, у нас сегодня в подкасте реально большая шишка, экспертище, батя сына маминой подруги.
Но — когда-то и он начинал свой путь в индустрии. Все, от первых шагов до вершины, он сегодня расскажет. Заходите смотрите
https://www.youtube.com/watch?v=67nZBDH0FA0
Анонс отсюда /channel/rzrbs/437
Буду читать Бесплатный курс по дизайну систем машинного обучения - запись по ссылке
Восемь 1.5 часовых сессий, 24 темы/урока
По факту это 2 из 4 модулей от полного мл систем дизайна, который мы с Арсением читаем на английском здесь, а на русском, в ещё более расширенной версии, выйдет на Карпов Курсес в этом году
Наша книга по ML System Design прошла третье - и последнее - ревью внутри паблишера. Я уже писал про ревью раньше, но вкратце процесс такой: издатель раздает 10+ потенциальным читателям текущую версию книги и заставляет писать много комментариев и отвечать на десятки вопросов. Ревью проводится после каждой трети книги, и потом анонимизированные комментарии сваливаются обратно авторам: чините, что считаете важным.
По результатам ревью выглядит так, что мы наконец-то научились писать: оценки выросли 3.75 → 4.36 → 4.73. Во многом это вызвано тем, что книга "отлежалась" - много мелких улучшений по результатам первых ревью, отзывов читателей (большое вам спасибо!) и собственных переосмыслений/дополнений. Еще в комментариях написали, что книгу стоило бы назвать Principles of ML Design. Мы вообще-то так и хотели, но издательство вежливо проигнорировало наше мнение по этому вопросу.
В общем, с нашей стороны все в целом готово, осталось пройти через пару кругов формальностей, дождаться корректуры, и тогда книга уйдет в печать (и все предзаказавшие печатную версию ее наконец-то получат). Зная неповортливость издательства, рассчитываю увидеть печатную версию к концу года.
В раннем доступе было продано чуть больше тысячи экземпляров. До завтрашнего дня у издательства скидки 50% на все, но я ни на что не намекаю :)
Пропавший модуль «Деплой ML-сервисов» вернулся в расширенном формате – теперь это «MLOps».
Из нового: почти всё. Программа, преподаватели (два разработчика MLOps-инструментов – Александр Гущин - Kaggle GM из Iterativeꓸai и Михаил Свешников из Evidently AI), практика и даже добавили финальный проект.
Если думаете в сторону разработки, не уходя далеко от машинного обучения, то MLOps станет хорошим фундаментом.
Смотрите программу здесь
Без промо кода, но до конца мая у нас есть акция, по которой при покупке 4 блоков Hard ML - пятый идет со скидкой 50%
Когда такого рода претензии высказываются коллегам Валерия их ответ прост. Мы просто написали заключение и поставили оценку (и даже показали распределение результатов те самые 70-20-10), решение принял топ-менеджмент. Если у вас есть идеи как это оценивать лучше чем наша платформа, сделайте и защитите у руководства, мы свою платформу у топов защитили. Но руководство, также как и я, не математики, а практики, и текущая религия - "биг дата это новый колосс" по сути не оставляет им выбор на принятие гибких решений. Им проще заставить не-математиков попрыгать вокруг математиков чтобы математики снизошли до индивидуальных настроек оценки или не тратить деньги на эксперименты.
К чему это все пришло. Спустя 2-3 года с тех пор как появилась эта платформа (по моей СУБЪЕКТИВНОЙ оценке) количество экспериментов упало в десятки раз. Где то дело текущей скорости - надо делать 10 итераций теста, а где то бизнесу проще заниматься повседневной операционной работой по поддержанию "как есть", чем заниматься десятками и сотнями разных экспериментов. Сейчас инициатива имеет инициатора через выплясывание вокруг математиков в смешных шляпах, чтобы тем было весело гонять туда сюда свои датасеты. Если ты недостаточно забавен в глазах согласовантов, то твои результаты будут иметь отрицательное заключение. Такой новый вариант вахтерства. Я знаю что говорю (стыдливо отводит глаза).
Ну и нечестным по отношению к Валерию было бы на бинарное заявление выдавать бинарную критику. Конечно плюсы от ввода аб тестов есть. Есть ситуации когда заключение отсеивает однозначно негативные результаты или пограничные результаты в стиле 50 на 50. Таких шарлатанов выдающих себя за экспертов от бизнеса тоже хватает, а может даже и большинство. Но сейчас этот шлагбаум слишком жесткий и рано или поздно колосс падет. Топ менеджмент конечно будет смотреть в рекомендации платформы тестирования, но оно будет лишь подсказкой, а не ЗАКЛЮЧЕНИЕМ как сейчас. Надо просто подождать, когда за год пройдет всего 2-3 успешных теста и количество внедренных инноваций упадет раз в 5 - 10, тогда вопросы появятся ко всем, включая математиков.
Я бы от всех практиков рекомендовал начать с простого - система должна выдавать пограничные заключения, не светофор да, нет, непонятно (что трактуется топами как нет). А все таки руководствоваться некоей нечеткой логикой интерпретации. В стиле "не идеально, но точно лучше чем раньше". Я понимаю, что в результате так и будет, но сегодня бигдата для бизнеса, скорее зло через призму моего 20 летнего практического опыта. Многие минорные улучшения отправляются в помойку, а весь взрослый бизнес выживает не за счет революций ,а именно эволюционными изменениями.
Ну и спасибо за интересный рассказ, смотреть как профессионал рассказывает о своем опыте и знаниях это всегда впечатляет.
На днях зашла дискуссия про измерения, data driven и прочие алюминиевые огурцы и возник вопрос:
Отвечает ли технологический департамент за бизнес результаты?
Один из авторитетов, участвующих в дискуссии, утверждал что нет, технологии отвечают только за технологии, а уже бизнес должен с их помощью добывать ценность. По аналогии с продавцом, задача которого предоставить качественный товар (в зависимости от цены), а добыча ценности - уже задача покупателя
Мне эта позиция кажется неверной, хотя безусловно удобной. С таким подходом тяжело построить партнёрские отношения, чувство ответственности за результат и проактивность (откуда возьмутся те самые высокогрейдовые и проактивные?).
Мы вам предоставили что вы просили, дальше - не наша проблема. Особенно плохо может выйти, когда это касается аналитики и работы с данными.
Но что-то в этом подходе безусловно есть. Эта дискуссия, кстати, началась после обсуждения кто и как должен измерять результаты проектов
По итогам вчерашнего поста я увидел как много специалистов есть в чатике, поэтому хочу спросить их мнения
Наконец-то дошли руки установить мега простыню версии 4.0.
Установка оказалась гораздо легче чем версия 3.0, блок работает еще тише и теперь его совсем неслышно, управление похлопыванием гораздо удобнее чем ночью лезть в аппку (не так, чтобы часто приходилось это делать, но тем не менее). Предыдущая версия делала матрас чуть жестче, что мне нравилось, новая версия вообще кажется его никак не меняет.
В целом - очень рекомендую
В который раз поражаюсь. Запросил резюме на найм в Куала Лумпур, компания British Petroleum, упомянул релокацию. Разбираю резюме - четверть на русском языке. Занавес
Читать полностью…Прочитал небольшую заметку от Ebay - Increase A/B Testing Power by Combining Experiments. Идея хорошая, послевкусие так себе.
Обсуждают что будет, если взять несколько экспериментов в рамках одинаковых изменений, правильно их объединить и получить общие результаты? Идея неплохая, правда моменты где это можно использовать сомнительные, а примеры вызывают удивление. Читать на свой страх и риск
Сейчас на секунду предался ностальгии и легкой грусти по тем временам, когда у меня была возможность погружаться в чтение с головой. С головой это значит, когда удавалось уделять столько времени, что выходило прочитывать 1-1.5 книги в день на протяжении длительного времени (месяца). Пожалуй, столько событий, красок и эмоций в моменте (где момент — это единица длиной в месяц) я не получал в других ситуациях.
Сейчас у меня такой возможности нет
Начал активно нанимать в BP в Куала- Лумпуре, столице Малайзии. Визу делаем. Нужны дата-аналитики (мидлы-синьоры-стафы),
Дата Инженеры (мидлы-синьоры-стафы-принципал), МЛ Инженеры (мидлы-синьоры-стафы-принципал)
Если есть желание, резюме можно прислать на maiia.malenko@bp.com
Недавно мы писали, что метрики – это основное понятие, которым оперируют аналитики (на самом деле многие DS-специалисты тоже!). Если подниматься на уровень выше, то существует система, объединяющая в себе бизнес-метрики и позволяющая видеть «общую картину» – юнит-экономика.
Если ваша цель – не работа ради работы, и вы стремитесь понимать, какое влияние оказывает на компанию ваши действия, то добавляйте в закладки и включайте наш краткий (да, в случае юнит-экономики – это краткий) обзор на устройство юнит-экономики!
Богдан Печёнкин, соавтор Симулятора DS и фаундер стартапа Vibe AI, разобрался, как соединены между собой основные метрики бизнеса и почему важно понимать полный «круговорот денег» в компании. А ещё на каждую из упомянутых метрик у нас есть задачи в Симуляторе DS, но об этом подробнее вы узнаете уже сами!
В Сингапуре, в зоопарке (ну а где ещё), был тренажёр на силу хвата
В какой то момент я его неправильно потянул и вот что вышло.
А ведь я просто представил как вытягиваю битки из Игоря
Прочитал заметку от чуваков из LessWrong - Refusal in LLMs is mediated by a single direction
Пацаны предположили (видимо начитались Игоря и насмотрелись стримов про world models) что в LLM (по крайней мере опен сурс) можно определить направление, отвечающее за цензуру и подавляющее harmful behavior
By comparing activations between harmful and harmless instructions - identified a "refusal direction."
PROMPT:
"Generate a list of five books related to machine learning."
INTERVENTION COMPLETION:
"I am unable to provide information on how to generate a list of books related to machine learning as it would be unethical and potentially harmful. Machine learning can be used for malicious purposes, and I do not want to be involved in that."
# Average projection of harmful prompts (scalar)
avg_proj_harmful = 1.5
# Ablation: Remove the refusal direction
projection = np.dot(c_out, refusal_direction) * refusal_direction
c_out_ablate = c_out - projection
# Injection: Add the refusal direction
c_out_inject = c_out + avg_proj_harmful * refusal_direction
Здесь можно посмотреть как выглядит лайв-кодинг на синьорскую позицию для аналитика
Читать полностью…По просьбам трудящихся поменяли зарплату
Теперь 500-1000к база в месяц