cryptovalerii | Криптовалюты

Telegram-канал cryptovalerii - Время Валеры

24986

Мне платят за то, что я говорю другим людям что им делать. Автор книги https://www.manning.com/books/machine-learning-system-design https://venheads.io https://www.linkedin.com/in/venheads

Подписаться на канал

Время Валеры

Есть такой канал - @exp_fest, EXPF – математическая статистика и эксперименты, где челы делятся статьями и рекламируют себя. Если искали какой-то источник информации по аб, можете смело добавлять и читать

Читать полностью…

Время Валеры

Запись стрима с Адамом

Читать полностью…

Время Валеры

Когда-то я был директором, теперь я всего-лишь стикер

Читать полностью…

Время Валеры

Вопросы и обсуждения по Стриму с Анатоликсом - сюда

Читать полностью…

Время Валеры

Прочитал заметку от Spotify - Choosing a Sequential Testing Framework — Comparisons and Discussions

Рассматривают различные подходы для непрерывного тестирования в А/Б тестах, то-есть когда можно подглядывать, их плюсы и минусы

Group sequential tests
Плюсы: подход с alpha-spending функцией, которая тратится, только когда мы проверяем результаты, позволяет принимать решение, готовые ли мы сейчас подглядывать или лучше подождем. Если не подсматривать - тест сходится до традиционного z-test.
Легко объяснить - по факту z-test.
Минусы: нужно знать предельное количество данных, которое мы можем собрать, если что то пойдет не так в обе стороны, то тест может иметь как заниженный, так и завышенный false positive rate
Нужно выбирать alpha-spending, если мы заранее знаем сколько данных, то это не проблема, а если не знаем - underpower
Подглядывать можно не более пары сотен раз
Заметка для себя: Надо посмотреть пересекается ли как то с этим - Increase A/B Testing Power by Combining Experiments & Weighted Z-test

Always valid inference - куда входит любимый нами mSPRT The Mixture Sequential Probability Ratio Test
Плюсы: Легко воплотить
Можно сколько удобно данных скормить и не нужно знать размер данных заранее
Можно задать любое правило для остановки
Работает как с батчами так и со стримингом (в отличии от пункта выше)
Минусы: Нужно описывать параметры распределения для успеха, как некоторую смесь распределений
Тяжелее понять для челов, которые не понимают
Underpowered если батч а не стриминг, потому что обновляются данные сразу куском, а не по итерации
Заметка для себя: - Давно такой лажи надуманной я не читал, челы сразу сказали в начале статьи, что выбирают GST и начали выдумывать какие-то дурацкие причины почему mSPRT плох. Ну то есть, да, есть некоторая смесь распределений, но даже смесь распределений это распределение, на практике мы всегда делаем какое-то допущение, это в принципе тоже самое как задавание MDE, которые мы хотим поймать. То, что кому-то тяжелее это понять, удивительная причина, там все довольно просто на пальцах показать, для многих будет даже проще z-testа, ну а то - что underpowered для батчей - вообще ерунда. Кто вам мешает взять батч и прогнать его последовательно как будто это стриминг, ведь timestamp для каждого события есть, а обновление - это операция умножения двух циферок, то есть по факту вы это итак делаете с батчем, просто докинуть один sort
Bonferroni corrections - куда-же без нее
Плюсы - легко закодить
Минусы - заранее решаем сколько раз будем подсматривать
Если подсматривать много раз, скорее всего ничего не найдем

Проверили эти подходы на симуляции
Bounded false positive rate - держится у всех
GST всех побил по чувствительности на батчах, правда на стриминге он просто не работает и пойди тут сравни теперь, судя по всему mSPRT они не обработали в батчах через таймстемпы и должного сравнения мы не получим (если только их графики батча и стрима это не один и те-же данные, тогда худо бедно можно сравнить Можно пойти и посмотреть код - оставляю это на вашу совесть, код написан в R)

Описали свои выводы - что и когда брать. В целом читать можно и нужно, но с осторожностью
#ArticleReview

Читать полностью…

Время Валеры

Второго января, в 21 по Москве/18 по Лондону, проведем стрим с уникальным человеком - CTO Aliexpress.ru, экс-CTO Ozon.ru, экс-VP Yandex Search Development и Yandex Fellow - Анатолий Орлов, также известный как Анатоликс

Обсудим, как минимум следующее, а затем просто начнем говорить обо всем:
Карьерный путь Анатоликcа и его видение роли менеджера.
Как люди становятся руководителями.
Что отличает хорошего руководителя от плохого.
Как часто теряешь хорошего разработчика и получаешь плохого руководителя и почему их так много
Как меняется видение и распорядок дня в зависимости от размера команды: от 10 до 100 до 1000 человек.

Добавить в календарь
Канал Анатоликса

Читать полностью…

Время Валеры

Пост для обсуждения Стрима

Читать полностью…

Время Валеры

Приятно осознавать, глядя на эту картинку, что Х5 решил сконцентрироваться на найме сотрудников-качков.

Рад что мое дело живёт

Читать полностью…

Время Валеры

Интересно за что она сядет. Пока еще Форбс не ошибался

Читать полностью…

Время Валеры

До чего дошел прогресс.

Судя по всему, на ряде довольно престижных технических конференций организаторы придумывали и анонсировал фейковых докладчиков-женщин. Видимо чтобы адресовать запросы по diversity, кажется это оказалось самым простым решением.

В целом понятно, что проблему нужно решать вверху воронки. Если в технические специальности нанимают в основном людей с техническим образованием, а там соотношение 10-90 или 20-80, с чего бы оно менялось дальше в лучшую сторону ? Скорее изменится в худшую. Поэтому все попытки изменить низ воронки выглядят как мишура, если что и менять, то в начале.

Читать полностью…

Время Валеры

Поначала радовался новому умному кольцу Circular - и апка интересная и лидерборд и какие-то награды и данные непрерывным потоком льются. Одно но. Сегодня обнаружил, что мой скор по сну заметно упал, начал смотреть почему. Оказалось, что вчера, оставив кольцо на тумбочке, оно решило что я спал. Получается не очень умное - ведь я не спал. Написал в поддержку, в ответ советуют носить кольцо не снимая и говорят что да, такое может быть.

Такие кольца нам не нужны. А жаль
Но ничего, там новое кольцо вышло - ultrahuman

Читать полностью…

Время Валеры

Мне нравится собирать Лего, точнее так, я собираю много Лего и одновременно слушаю аудио книги, попеременно на английском и немецком, что является единственным способом поддерживать немецкий язык на каком-то приличном уровне.

Еще в России я скорешился с коллекционером Лего, который заполнял и заполняет им огромный дом в Подмосковье. Сдружились мы на той теме, что у меня нет огромного дома для Лего, а у него есть и мое Лего через некоторое время становилось его.

Когда он узнал что я уезжаю в ЮК, сказал - ну теперь тебя завалят подарками. Ведь при покупке Лего в официальном магазине - дарят кучу подарков (куда их девал Мир Кубиков - отдельный вопрос) И не обманул!

На фото то, что я получил в качестве подарков за последние 2 года (примерно 3/4, остальное раздарено или собрано)

Читать полностью…

Время Валеры

Обратил внимание что рекрутеры на Linkedin оживились, ощущение что рынок постепенно восстанавливается, за 2 дня - 4 предложения пообщаться

Staff+ (IC6,7,8) Engineer @ Personio!
An applied science manager
to build a team of world-class software engineers and scientists that will deliver on an Amazon-critical charter
[Agoda] Opportunities with our data-driven marketing team
Director of Data opportunity leading entire function for profitable & well funded SaaS Fintech proposition


Выглядит как хороший знак

Читать полностью…

Время Валеры

Вышло новое видео, где я собеседую выпускника Hard ML и по совместительству Синьора/Лида в онлайн кинотеатре. Формат собеседования - он заранее выбирает проект и рассказывает про него, я задаю вопросы

Читать полностью…

Время Валеры

Наконец то долетел до Чикаго.
Сначала долго чистили самолёт, а затем потеряли третьего пилота, пришлось вызывать нового (потому что по закону меньше трёх нельзя, впрочем а союзе это всегда знали), что заняло суммарно четыре часа сверху.

Почему наконец то? Последнии десять лет, регулярно, раз в квартал, снится сон как я лечу в США и постоянно что-то происходит и я не могу прилететь

Зато посмотрел шедевр мирового кинематографа, фильм - Cocaine Bear, про 500 фунтового медведя, который нанюхался огромного количества кокаина и пошел во все тяжкие.

After ingesting a staggering amount of cocaine, a 500-pound apex predator goes on a rampage

Фильм кстати на удивление неплохой, если нравится абсурдный юмор
#coolstory

Читать полностью…

Время Валеры

Во время стрима много кто просил поделиться списком моих бадов и рекомендаций. Делюсь!

Мой рейтинг брендов:
⁃ Мои Tier 1 по доверию: Thorne Research и Life Extension
⁃ Мои Tier 2: New Chapter, Country Life, Garden of Life, Sports Research, Kirkman Labs
⁃ Бренды, которые использовал/использую и были хорошего качества: Natural Factors, Source of Naturals, Jarrow Formulas
⁃ Пробиотики высокого качества: Renew Life, Pendulum.

Лучшие на мой взгляд витамины:
⁃ Two Per Day от Life Extension или более дорогие Mix (лучше брать версию без меди)
⁃ Серия Nutrients от Thorne: Basic, Advanced, Elite

Лучший рыбий жир:
⁃ Ultimate Omega или Ultimate Omega 2x от Nordic Naturals
⁃ Elite Omega 3 от Carlson Labs

Что можно принимать на постоянке всем:
⁃ Витамины, но нужно понимать, что «бедная» диета с витаминами это все еще бедная диета
⁃ Витамин Д, так как у большинства людей его дефицит, а он крайне важен для большого количества процессов: плотность костей, настроение, иммунитет, гормональная функция, а так же снижает риски развития рака и диабета.

Можно было бы также отметить рыбий жир, а именно EPA и DHA. Первая омега-3 кислота в первую очередь важна для здоровья сердца, а вторая - для здоровья мозга. Но нет данных, чтобы рекомендовать использование рыбьего жира постоянно, и споры о необходимости его приема все еще ведутся, и появляется все больше надежных данных об эффекте рыбьего жира. К примеру, в этом большом мета-анализе не установили положительного влияния на снижение CVD инцидентов, хотя это не единственный потенциальный эффект EPA/DHA.

На стриме была упомянута NMN, которая сейчас пользуется спросом из-за своих потенциальных anti-aging эффектов. NMN и NR являются прекурсорами NAD+, который участвует во множестве процессов, снижается со старением и является важным для функционирования митохондрий и восстановления поврежденной ДНК в клетках. От него также зависят сигнальные белки, такие как Sirtuins, которые являются одной из важных областей исследования современными учеными в области долголетия. К сожалению, данные о NMN и NR ограничены, и большинство исследований не показывают эффекта от их приема. Поэтому на данном этапе я считаю, что это лишняя трата денег.

Что сам принимаю на постоянке:
⁃ Витаминный комплекс Two Per Day от Life Extension
⁃ Elite Omega 3 от Carlson Labs
⁃ Vitamin D3 125mcg от Life Extension, что позволяет держать уровень витамина Д ~ 49 нг//мл
⁃ Rhodiola от Thorne. Адаптоген, помогающий улучшить устойчивость к стрессу и ментальный и физический перформанс
⁃ Калия цитрат и Магния цитрат в течении дня
⁃ Перед сном:
⁃ Магний L-Threonate или Bisglycinate
⁃ Глицин
⁃ L-Theanine
⁃ Утром с кофе L-Theanine для снижения побочек кофеина

Читать полностью…

Время Валеры

Вопросы и обсуждения по Стриму с Адамом - сюда

Читать полностью…

Время Валеры

Почитал интернет, комментарии на Ютюбе, понял что люди не верят в достижения, буду для себя хранить их здесь и давать ссылки, да и себе пригодится, а то многое забывается. По работе есть резюме, а по спорту нет


Результат Турнира по Грепплингу кровью и потом 2 - 2014 год
Новички до 92кг, 4 схватки, проигрыш в финале - на 1 бал, как итог - 2 место

Результат Турнира по Грепплингу кровью и потом - 5 - 2015 год
Выступил сначала по разрядникам в Ги, в категории до 92кг людей не было, пришлось идти в до 100кг
2 Схватки: 1 Проиграл, 1 Выиграл - 3 место
В этот же день выступал по Но Ги, новички, 92 кг
2 Схватки: 1 выиграл, 1 проиграл - 2 место, устал, проиграл тому, кого на Кровью и потом - 2 выиграл в полуфинале


Ассоциация Силового Многоборья Витязь - МСМК по народному жиму
Протоколы соревнований
Кубок Мира АСМ "Витязь" 27-29 мая 2016
Категория профессионалы, до 90кг, Опен, собственный вес 85кг, результаты - 85кг - 41 повтор (1 повторения не хватило да звания Элита, так и остался МСМК)
Но ничего, в том же году пожал 90кг на 50 и выиграл iPad на клубных соревнованиях

Федерация Русского Жима - рекорд России по Юниорам, МС по русскому жиму
25 июня 2011 года, 75кг на 47 раз, сертификат в комментариях
#Memoir

Читать полностью…

Время Валеры

Приветствую, друзья!

Во-первых, хочу поздравить всех с наступающим Новым Годом и пожелать реализации ваших стремлений! А во-вторых, сообщить о выходе очередного (хотя и последнего в этом году) выпуска Machine Learning Podcast. Выпуск немного нестандартный. В нем сразу два гостя. Гостя два, а тема одна - их совместно написанная книга "Machine Learning System Design with end-to-end examples". Разговариваем о том, как вообще пришла идея написать книгу по теме проектирования ML-систем, почему в соавторстве, а не раздельно, для кого будет полезна данная книга, из каких частей состоит ML System Design, как подходить к разработке ML-систем разной сложности и так далее. Два взгляда двух разных авторов одной книги! Хорошего и интересного вам завершения года!
https://mlpodcast.mave.digital/ep-54

Читать полностью…

Время Валеры

5 января, в 13 по Лондону, проведем стрим с Адамом Елдаровым, СРО в YouDo, ex Head of Data Science в YouDo и Ticketland, а также гуру научного бодибилдинга и активного долголетия.

Обсудим спортивное питание, бады, способы накачаться и как это помогает быть продакт менеджером

Канал Адама
Добавить в календарь

Читать полностью…

Время Валеры

Видео Стрима

Читать полностью…

Время Валеры

Завтра (13 декабря), в 18 по Лондону проведем стрим с @seeallochnaya и инженером из DeepMind, который участвовал в создании Gemini. Обсудим как обычно LLM, будущее и прошлое

Вопросы можно оставлять здесь

Читать полностью…

Время Валеры

Один чел на Linkedin, написал что переодически переживает из за потенциально пересекающихся и влияющих друг на друга А/Б тестов

Это конечно ерунда, потому что:
A/B tests are not done blindly, it is very hard to imagine an improvement of 8% that you won't anticipate as a possible outcome of interactions of two new features
The only way I can imagine this is if someone runs thousands of random things without any idea behind them and want to check the results

При этом чел сам ссылается на статью от Microsoft - A/B Interactions: A Call to Relax
Где ровно то-же самое и говорят, пацаны - расслабьтесь, мы за вас уже посмотрели, такая штука практически никогда не возникает

Поэтому не бойтесь пропустить интеракцию всей своей жизни, почитайте лучше заметку Адама C3PO - про сто тысяч аб тестов

Читать полностью…

Время Валеры

В полет отправился первый в мире трансантлантический самолет, полностью заправленный sustainable aviation fuel. So-called sustainable aviation fuels (SAF) can be made from a variety of sources, including crops, household waste and cooking oils. The first transatlantic flight by a large passenger plane powered only by alternative fuels has taken off.

Топливо, очевидно, сделано и предоставлено компанией BP

Читать полностью…

Время Валеры

Прочитал статью LANGUAGE MODELS REPRESENT SPACE AND TIME от пацанов из MIT.

В свое время, концепция создания эмбедингов для слов через word2vec меня поразила, самым ошеломительным было наличие связей между понятиями: страна - столица, глаголы в разных временах и все эти приколы, типа король - мужчина + женщина = королева

Поэтому текущая статья не удивила, ведь это является логичным продолжением того, что наблюдалось еще в word2vec

Что сделали? Собрали 6 датасетов с именами/названиями (людей, мест, событий и тп), с локациями и временными точками
Три пространственных датасета: Мир, США, Нью-Йорк
Три временных датасета: Имена и сфера деятельности известных людей за последние 3000 лет. Имя создателей, название произведения и дата создания для песен, книг и фильмов - 1950 - 2020. Заголовки газеты New-York Times

Берут разные Llama-2 от 7 до 70 млрд параметров, прогоняют каждую сущность через модель и сохраняют активации последнего Хидден стейта на последнем токене и так для каждого слоя . Для каждого слоя получают матрицу активаций размером n(количество сэмплов) x d (размерность модели)

Затем обучают простую линейную модельку, которая на входе получает активации (1 слой - 1 датасет) и таргет (либо время, либо две координаты). Собственно, если на отложенной выборке модель успешно предиктит время и координаты, получается эта информация линейно закодирована в активациях (из этого не следует что изначальная модель использует эти репрезентации, с другой стороны, вряд-ли это вышло случайно). Тоже не открытие, весь deep learning это по факту representational learning и оперирует в конце обычно такими представлениями, чтобы линейная модель справлялась

Эксперименты показали, что с увеличением размера модель, растет качество восстановления и времени и пространственных координат через линейный декодер. Кроме того - качество растет с увеличения слоя (доходя до середины и затем выходя на плато)
Кроме того, это подтверждает linear representation hypothesis, то есть, что фичи внутри слоев нейронных сетей представлены линейно.
Проверили просто, обучили нелинейную модель как декодер - значимого улучшения не обнаружили

Еще решили проверить, что будет если к сэмплу добавлять разные промпты. Как и многое в жизни, лучше не стало, но от некоторых стало заметно хуже. Получается не зря говорят не слушать советов!
Потом проверили стабильность модели - впрочем тут можно прочитать самим, как изверги вытаскивали блоки информации и смотрели как модель может их восстановить. Относительно получалось неплохо, но абсолютно - так себе

Если попробовать ужать размеренность через PCA - качество падает заметно
В конце описывают что смогли найти нейроны, ответственные за время и пространство

В целом, интересно, но не удивительно
Написал я этот пост, чтобы не созваниваться с Игорем (/channel/seeallochnaya) и обсуждать статью вживую
#ArticleReview

Читать полностью…

Время Валеры

Победа либертарианца на выборах президента Аргентины может оказаться событием не менее масштабным, чем эпопея вокруг Open AI. Что дальше, Анархо Капиталисты у власти в Бразилии?

Читать полностью…

Время Валеры

Как показали события этого дня, иногда, прежде чем работать над AI alignment, стоит удостовериться что между CEO и бордой есть просто alignment

Читать полностью…

Время Валеры

Неплохая статья от чела, который еще 10 лет назад в блоге нефтликса писал про три типа рекомншадек: Оффлайн, риал-тайм и что-то посередке

Приводит архетипы построения рекомендашек с ссылками(три) и четвертый, покрывающий все предыдущие. Blueprints for recommender system architectures: 10th anniversary edition

1. Eugene Yan’s 2 x 2 blueprint
На мой взгляд базовая шутка - retrieval через эмбединги и ANN -> выбор топ K кандидатов и обогащение их доп признаками -> ранжирование -> результат

2. Nvidia’s 4 stage blueprint
Выглядит скорее как расширенная часть предыдущего
Retrieval (аналогичный предыдущему) -> filtering (через фильтры Блума, то есть очевидно что то совсем поломанное таким правится, но видимо лень чинить эмбединги) -> обогащение данных и Скоринг -> еще один фильтр, поспроцессинг, уже использщуюзий бизнес логику - хотя на мой взгляд это классический пост процессинг, который может быть где угодно


3.Fennel.ai’s 8 stage blueprint
Тоже самое что предыдущие два, только еще показали что нужно сразу закидывать в систему данные сгененированные моделью (клик/не клик на определенные вещи и тп)

Как вы уже поняли все три архетипа это одно и то - же, что же представляет из себя четвертый?

Да тоже самое, но побольше

В целом полезно, чтобы понять что ничего нового не придумали или ознакомиться, если не знали как работают рекомендашки

Читать полностью…

Время Валеры

Прочитал очередную статью на Хабре от Х5 - Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов

Статья неплохая, раскрывает ряд интересных моментов

Например, что не обязательно держать долю рекламы на рынке относительно конкурентов, достаточно просто иметь определенное количество показов в абсолютах

Или что довольно быстро находится пик ROI, после которого его уменьшение не ведет к увеличению выручки

А так-же что многие коэффициенты могут оказаться не стат значимыми, если на них смотреть под разными углами

В целом неплохая статья/заметка на подумать и осмыслить

Читать полностью…

Время Валеры

Karpov Courses ищут экспертов на наш с Евгением курс System Design

Курс про то, как подготовиться к system design интервью или закрыть свои пробелы в дизайне систем (кстати сейчас его активно дорабатываем, расширяем чтобы сделать еще более полезным для тех кто создает)

На пути обучения студентам необходимы помощь и поддержка от экспертов, которые помогут понять, где студент свернул в размышлениях не туда, или подсказать, что он упускает из виду, а также ответят на другие вопросы по курсу.

Если есть желание и интерес позаниматься этим — нужно просто написать по ссылке или напрямую HR: @bogdasha2208

Читать полностью…
Подписаться на канал