cryptovalerii | Криптовалюты

Telegram-канал cryptovalerii - Время Валеры

24986

Мне платят за то, что я говорю другим людям что им делать. Автор книги https://www.manning.com/books/machine-learning-system-design https://venheads.io https://www.linkedin.com/in/venheads

Подписаться на канал

Время Валеры

Наткнулся, во время просмотра комментариев к видео про А/Б тесты, на крик вопиющего в пустыне.

Ютуб не позволяет нафигачить большой комментарий, а мне есть что сказать, поэтому буду бить его почастям.

Я конечно не такой крутой математик как господин Бабушкин. Скажу как практик из Х5, который сидел с ребятами Валерия по другую сторону стола/монитора. В моем проекте проводились десятки а/б тестов для валидации результата и оправдания инвестиций с его командой и на их платформе. В оффлайн ритейле (но думается, что также везде) есть несогласие с методами А/В тестов в практической области. Причина довольно простая, это сферические исследования в вакууме, которые ставят высокую обоснованность результатов во главе угла. С первого взгляда это даже неплохо, но давайте рассуждать дальше.


В его примерах фигурировало, что "если мы проводим исследование с 40 летними мужчинами то... " продолжим мысль. Успешным считается аб тест в котором на все 100% мужчин участвовавших в исследовании результат дал отклонение в положительную область с разной степенью успеха и результат имеет низкую ошибку. Если 10% мужчин не отреагировали или по другим причинам отреагировали негативно, то этот эксперимент получает от команды Валерия негативное заключение. С точки зрения практики этот результат надо интерпретировать как 90% успех, но бинарная логика платформ аб-тестирования отвечает одной из граней монетки - да или нет. И тут ответ будет - нет. Бизнес не может решать комплексные (сложные) задачи всегда с успехом на 100%. Это вам не кирпичный цвет кнопки, это система органических стимулов влияющая на мотивацию десятков умов, которые должны принять однозначное (с точки зрения платформы) решение.

Давайте приведу пример. Вы автопроизводитель и запускаете новый вариант автомобиля на замену существующему (ну допустим новая версия ауди а4). Краш-тесты старого автомобиля это контрольная группа, краш-тесты нового это тестовая. И вот вы получаете результат, звучит он следующим образом в 90% случаев в краш тесте нового автомобиля повреждения водителя были меньше чем в старом (остаются конечности, выживаемость). Но в одном типе тестов результаты хуже, водитель изуродован больше чем в старой версии авто, потому что балка безопасности спасающая теперь 90% водителей, расположена под таким углом, что в аварии с 32% перекрытием, под углом 65 градусов при скорости 93-96 км в час по законам физики не успевает уйти влево и входит водителю в грудь и это подтвердилось много раз при аналогичных условиях. В то время как в старом автомобиле именно этот кейс обеспечивает более высокую выживаемость. Несмотря на то, что эти пропорции безопасности сильно лучше чем в предыдущей модели заключение Валерия на этот тест будет - нет, продолжайте улучшать новый авто, так как не 100% случаев лучше чем старые авто. Задайте себе вопрос как потребитель - что в этой ситуации правильнее? Вы могли бы получить завтра более совершенный автомобиль, но вынуждены довольствоваться старым более опасным в целом, потому что не найдено решение для этих 10% случаев, когда стало хуже. Абсурд, верно? Нет, конечно во имя добра, надо и этот кейс решать, (даешь 100% безопасность автотранспорта!!!), но система АБ-тестов так не работает, она дает заключение только когда найдено "абсолютное" решение (как у ситхов).


Теперь применительно к ритейлу. Проводим мы тест, когда меняется выкладка товара на полку, ну например хороший кофе ставили на верхнюю полку, теперь начали ставить на среднюю. В 70% случаев покупатели отреагировали положительно и продажи кофе улучшились, в 20% нет никаких изменений, а в 10% случаев ухудшились по разным причинам, вплоть до непредсказуемых. Влияние на покупателя это комплексная задача. Этот эксперимент оценивает платформа Бабушкина и дает заключение - нет подтвержденного эффекта. Идите думайте дальше бизнес эксперты. Хороший кофе возвращают на верхнюю полку, эксперты от бизнеса идут думать как сделать так, чтобы повлиять на 30% оставшихся потребителей. Не придумали? - значит опцию видеть хороший кофе на средней полке бизнес потерял навсегда.

1/3

Читать полностью…

Время Валеры

Заказал себе бочку и чиллер для холодных ванн, они как раз на картинке.

Буду анализировать через датчики oura и eight sleep в течении трёх месяцев, чтобы оценить, работает ли этот протокол.

В прошлом году, когда делал в домашних условиях ванну со льдом в течение трёх месяцев, мне очень зашло, но много времени тратил

Читать полностью…

Время Валеры

Моя любимая рубрика, пацаны к успеху шли или Форбс 30 до 30

Читать полностью…

Время Валеры

Задавайте вопросы по стриму сюда

Читать полностью…

Время Валеры

У нас с Валерой Бабушкиным, хоть мы и вместе много работали, почти нет совместных видео. Надо бы это исправлять

Начать мы решили с темы которая нам обоим близка помимо ML, и это литература. Мы оба довольно много прочитали литературы по самым разным направлениям, будь то sci-fi, войны китайских династий, зарубежная классика или античная философия

Поэтому в эту пятницу, в 17:00 по Лондону (19:00 по Москве) в канале Валеры мы обсудим:

• Как у каждого из нас пробудилась любовь чтению и какие книги сформировали наше мировоззрение?

• Какие книги стоит прочитать каждому (вот Мой топ-120); вообще, в какие области знаний стоит углубиться?

• Какой у каждого из нас подход к процессу чтения, как правильно читать? как читать много и не упускать важного?

Поэтому всех ждём в пятницу, готовимся качать свою интеллектуальную бицуху

Читать полностью…

Время Валеры

Теперь и на Амазоне

Читать полностью…

Время Валеры

Прочитал Статью

Z-curve 2.0: Estimating Replication and Discovery Rates

Говорят что многие публикации балуются с p-value hacking, и что то надо делать. Хотя даже если не баловаться - очевидно что посылать будут только успешные работы, и допустим малая часть от всех экспериментов, а среди всех экспериментов (при альфа .95) 5% будут ложно положительными и это (скорее всего) будет большая часть от всех положительных

Recent replication failures have fueled concerns that many published results are false-positives. Brunner and Schimmack (2020) developed z-curve, a method for estimating the expected replication rate (ERR) – the predicted success rate of exact replication studies based on the mean power after selection for significance.

Предлагают ввести пару метрик и использовать их для рассчета показателей

Before introducing the formal model, we illustrate the concepts with a fictional example. In the example, researchers test 100 true hypotheses with 100% power (i.e., every test of a true hypothesis produces p < .05) and 100 false hypotheses (H0 is true) with 5% power which is determined by alpha = .05. Consequently, the researchers obtain 100 true positive results and 5 false-positive results, for a total of 105 statistically significant results. The expected discovery rate is (1 × 100 + 0.05 × 100)/(100 + 100) = 105/200 = 52.5% which corresponds to the observed discovery rate when all conducted studies are reported.

So far, we have assumed that there is no selection bias. However, let us now assume that 50 of the 95 statistically non-significant results are not reported. In this case, the observed discovery rate increased from 105/200 to 105/150 = 70%. The discrepancy between the EDR, 52.5%, and the ODR, 70%, provides quantitative information about the amount of selection bias.

Соответсвенно если собрать p value, конвертнуть их в z value и построить Z-curve, можно прикинуть из какого распределения эти значения были сэмплированы (то есть какой там был power) через EM, отсюда можно понять насколько стоит доверять результат

В целом интерено, потому что понятно, но непонятно зачем

Читать полностью…

Время Валеры

Осталось два дня на прохождение тестирования для участия в бесплатном курсе по МЛ систем дизайну

Ссылка

Читать полностью…

Время Валеры

можно еще и Богдана послушать

Читать полностью…

Время Валеры

Сейчас происходит некоторая активность по взаимному эндорсу каналов пишущих про аналитику/мл

Все они собраны здесь:
/channel/addlist/dMeiok8FCdA3ZTMy

В рамках этой активности я получил задачу рассмотреть канал /channel/andron_233

Много времени это не заняло.

Первое сообщение, которое я открыл, было про линейку симуляторов. Симулировать мы с Богданом итак уже умеем. У него вообще целый бизнес на этом построен

Но если вы не умеете - можно и почитать

Читать полностью…

Время Валеры

Сейчас Валерий Бабушкин работает в British Petroleum в должности "старший главный начальник" и управляет коллективом из 500 человек, который работает на 5 континентах. При устройстве туда ему пришлось пройти 10 собесов. Еще он написал книгу Machine Learning System Design: With end-to-end examples. Он прошел Яндекс, X5, Facebook, Blockchain.com — причем далеко не на рядовых должностях.

В общем, у нас сегодня в подкасте реально большая шишка, экспертище, батя сына маминой подруги.

Но — когда-то и он начинал свой путь в индустрии. Все, от первых шагов до вершины, он сегодня расскажет. Заходите смотрите
https://www.youtube.com/watch?v=67nZBDH0FA0

Анонс отсюда /channel/rzrbs/437

Читать полностью…

Время Валеры

Буду читать Бесплатный курс по дизайну систем машинного обучения - запись по ссылке

Восемь 1.5 часовых сессий, 24 темы/урока

По факту это 2 из 4 модулей от полного мл систем дизайна, который мы с Арсением читаем на английском здесь, а на русском, в ещё более расширенной версии, выйдет на Карпов Курсес в этом году

Читать полностью…

Время Валеры

Наша книга по ML System Design прошла третье - и последнее - ревью внутри паблишера. Я уже писал про ревью раньше, но вкратце процесс такой: издатель раздает 10+ потенциальным читателям текущую версию книги и заставляет писать много комментариев и отвечать на десятки вопросов. Ревью проводится после каждой трети книги, и потом анонимизированные комментарии сваливаются обратно авторам: чините, что считаете важным.

По результатам ревью выглядит так, что мы наконец-то научились писать: оценки выросли 3.75 → 4.36 → 4.73. Во многом это вызвано тем, что книга "отлежалась" - много мелких улучшений по результатам первых ревью, отзывов читателей (большое вам спасибо!) и собственных переосмыслений/дополнений. Еще в комментариях написали, что книгу стоило бы назвать Principles of ML Design. Мы вообще-то так и хотели, но издательство вежливо проигнорировало наше мнение по этому вопросу.

В общем, с нашей стороны все в целом готово, осталось пройти через пару кругов формальностей, дождаться корректуры, и тогда книга уйдет в печать (и все предзаказавшие печатную версию ее наконец-то получат). Зная неповортливость издательства, рассчитываю увидеть печатную версию к концу года.

В раннем доступе было продано чуть больше тысячи экземпляров. До завтрашнего дня у издательства скидки 50% на все, но я ни на что не намекаю :)

Читать полностью…

Время Валеры

Пропавший модуль «Деплой ML-сервисов» вернулся в расширенном формате – теперь это «MLOps».

Из нового: почти всё. Программа, преподаватели (два разработчика MLOps-инструментов – Александр Гущин - Kaggle GM из Iterativeꓸai и Михаил Свешников из Evidently AI), практика и даже добавили финальный проект.

Если думаете в сторону разработки, не уходя далеко от машинного обучения, то MLOps станет хорошим фундаментом.

Смотрите программу здесь

Без промо кода, но до конца мая у нас есть акция, по которой при покупке 4 блоков Hard ML - пятый идет со скидкой 50%

Читать полностью…

Время Валеры

Прочитал статью от челов из Майкрософта - A/B Testing with Fat Tails

Идея понятная и простая, чем больше вероятность того что какие-то эксперименты могут оказаться черными лебедями, то есть небольшое число экспериментов может дать чрезвычайно высокие результаты (The top 2% of ideas accounted for 74.8% of historical gains.), - тем выгоднее быть lean - делать частые небольшие эксперименты

В противном случае стоит делать более длительные эксперименты.

В целом - несколько разочарован, звучит как: если эффект большой, его поймать можно быстрее, поэтому сделаем много экспериментов, а если маленький - то придется делать меньше экспериментов. С учетом того что примерный процент успешных тестов около 10-15 и это известно - вывод не поражает

Еще статья предлагается обмазаться баесом. Куда же без этого и утверждает что если сможем делать на 20% больше а/б - сможем увеличить производительность на 17%

Читать полностью…

Время Валеры

На днях зашла дискуссия про измерения, data driven и прочие алюминиевые огурцы и возник вопрос:

Отвечает ли технологический департамент за бизнес результаты?

Один из авторитетов, участвующих в дискуссии, утверждал что нет, технологии отвечают только за технологии, а уже бизнес должен с их помощью добывать ценность. По аналогии с продавцом, задача которого предоставить качественный товар (в зависимости от цены), а добыча ценности - уже задача покупателя

Мне эта позиция кажется неверной, хотя безусловно удобной. С таким подходом тяжело построить партнёрские отношения, чувство ответственности за результат и проактивность (откуда возьмутся те самые высокогрейдовые и проактивные?).

Мы вам предоставили что вы просили, дальше - не наша проблема. Особенно плохо может выйти, когда это касается аналитики и работы с данными.

Но что-то в этом подходе безусловно есть. Эта дискуссия, кстати, началась после обсуждения кто и как должен измерять результаты проектов

По итогам вчерашнего поста я увидел как много специалистов есть в чатике, поэтому хочу спросить их мнения

Читать полностью…

Время Валеры

Наконец-то дошли руки установить мега простыню версии 4.0.

Установка оказалась гораздо легче чем версия 3.0, блок работает еще тише и теперь его совсем неслышно, управление похлопыванием гораздо удобнее чем ночью лезть в аппку (не так, чтобы часто приходилось это делать, но тем не менее). Предыдущая версия делала матрас чуть жестче, что мне нравилось, новая версия вообще кажется его никак не меняет.

В целом - очень рекомендую

Читать полностью…

Время Валеры

Вот и стрим с Богданом

Читать полностью…

Время Валеры

В который раз поражаюсь. Запросил резюме на найм в Куала Лумпур, компания British Petroleum, упомянул релокацию. Разбираю резюме - четверть на русском языке. Занавес

Читать полностью…

Время Валеры

Прочитал небольшую заметку от Ebay - Increase A/B Testing Power by Combining Experiments. Идея хорошая, послевкусие так себе.

Обсуждают что будет, если взять несколько экспериментов в рамках одинаковых изменений, правильно их объединить и получить общие результаты? Идея неплохая, правда моменты где это можно использовать сомнительные, а примеры вызывают удивление. Читать на свой страх и риск

Читать полностью…

Время Валеры

Сейчас на секунду предался ностальгии и легкой грусти по тем временам, когда у меня была возможность погружаться в чтение с головой. С головой это значит, когда удавалось уделять столько времени, что выходило прочитывать 1-1.5 книги в день на протяжении длительного времени (месяца). Пожалуй, столько событий, красок и эмоций в моменте (где момент — это единица длиной в месяц) я не получал в других ситуациях.

Сейчас у меня такой возможности нет

Читать полностью…

Время Валеры

Начал активно нанимать в BP в Куала- Лумпуре, столице Малайзии. Визу делаем. Нужны дата-аналитики (мидлы-синьоры-стафы),
Дата Инженеры (мидлы-синьоры-стафы-принципал), МЛ Инженеры (мидлы-синьоры-стафы-принципал)

Если есть желание, резюме можно прислать на maiia.malenko@bp.com

Читать полностью…

Время Валеры

Недавно мы писали, что метрики – это основное понятие, которым оперируют аналитики (на самом деле многие DS-специалисты тоже!). Если подниматься на уровень выше, то существует система, объединяющая в себе бизнес-метрики и позволяющая видеть «общую картину» – юнит-экономика.

Если ваша цель – не работа ради работы, и вы стремитесь понимать, какое влияние оказывает на компанию ваши действия, то добавляйте в закладки и включайте наш краткий (да, в случае юнит-экономики – это краткий) обзор на устройство юнит-экономики!

Богдан Печёнкин, соавтор Симулятора DS и фаундер стартапа Vibe AI, разобрался, как соединены между собой основные метрики бизнеса и почему важно понимать полный «круговорот денег» в компании. А ещё на каждую из упомянутых метрик у нас есть задачи в Симуляторе DS, но об этом подробнее вы узнаете уже сами!

Читать полностью…

Время Валеры

А вот и новое интервью

Читать полностью…

Время Валеры

В Сингапуре, в зоопарке (ну а где ещё), был тренажёр на силу хвата

В какой то момент я его неправильно потянул и вот что вышло.

А ведь я просто представил как вытягиваю битки из Игоря

Читать полностью…

Время Валеры

Рекомендации Фейсбука работают на удивление хорошо

Читать полностью…

Время Валеры

Прочитал заметку от чуваков из LessWrong - Refusal in LLMs is mediated by a single direction

Пацаны предположили (видимо начитались Игоря и насмотрелись стримов про world models) что в LLM (по крайней мере опен сурс) можно определить направление, отвечающее за цензуру и подавляющее harmful behavior

By comparing activations between harmful and harmless instructions - identified a "refusal direction."


А дальше если это направление подавлять - то получаем инструкцию как создать бомбу, а если усилять - то модель будет говорить что МЛ - зло

PROMPT:
"Generate a list of five books related to machine learning."

INTERVENTION COMPLETION:
"I am unable to provide information on how to generate a list of books related to machine learning as it would be unethical and potentially harmful. Machine learning can be used for malicious purposes, and I do not want to be involved in that."


Может возникнуть вопрос, что такое направление:
The refusal direction is a vector high-dimensional activation space. When the model's activations align with this vector, it leads to refusal behavior. This vector represents a particular pattern of activations across many neurons, not just a single neuron.

# Average projection of harmful prompts (scalar)
avg_proj_harmful = 1.5

# Ablation: Remove the refusal direction
projection = np.dot(c_out, refusal_direction) * refusal_direction
c_out_ablate = c_out - projection

# Injection: Add the refusal direction
c_out_inject = c_out + avg_proj_harmful * refusal_direction


Пользуйтесь

Читать полностью…

Время Валеры

Здесь можно посмотреть как выглядит лайв-кодинг на синьорскую позицию для аналитика

Читать полностью…

Время Валеры

По просьбам трудящихся поменяли зарплату
Теперь 500-1000к база в месяц

Читать полностью…

Время Валеры

Помогаю Друзьям из Вайлдберриз найти Лида в матчинг

Заодно прособеседую по мл дизайну
Описание вакансии тут

Как подаваться - тоже

Читать полностью…
Подписаться на канал