cryptovalerii | Криптовалюты

Telegram-канал cryptovalerii - Время Валеры

23753

Мне платят за то, что я говорю другим людям что им делать. Автор книги https://www.manning.com/books/machine-learning-system-design https://venheads.io https://www.linkedin.com/in/venheads

Подписаться на канал

Время Валеры

Запись стрима с Эмели

Читать полностью…

Время Валеры

Пост для вопросов по стриму с Эмели

Читать полностью…

Время Валеры

Однажды в Х5 наняли Джуна. Через несколько недель он стал на пальцах объяснять ряду синьоров почему они не синьоры, а инвалиды разума.

В какой то момент он решил объяснить продакт менеджеру, почему тот не прав и как надо жить

В итоге этого чела пришлось позвать на разговор к директору департамента (то есть мне). С одной стороны, он был неправ в своем подходе, с другой стороны у чела был потенциал да и такие люди, которые не терпят булщита, помогают руководителю понимать что происходит на самом деле, кроме того он писал хороший код и комитил в scikit learn.

В итоге он и в Х5 остался и в мою жизнь вошел. Уже позже мы с Богданом, а это был именно он, вместе работали над разными проектами: прайсинг в Али, симулятор МЛ/ДС, книга по МЛ дизайну.

Однако Богдан не оставил привычку учить людей и сейчас он учит их правильно переписываться и строить отношения на любовном фронте с другими людьми, использую силу LLM. О чем он и рассказывает здесь

Читать полностью…

Время Валеры

В среду, 1 мая проведем стрим с Эмели Co-founder and CTO Evidently AI - и со-автором курсов по МЛ от Яндекса

Добавить в календарь

Читать полностью…

Время Валеры

Недавно в одном чатике успешных аналитиков зашли разговоры про мотивационные примеры о том, как кто-то из руководителя инфраструктуры дорос до CDO. Будем считать что CDO репортит CEO, отвечает за все что связано с данными в компании и в его команде 200+ человек.

Мое мнение простое - весь бурный рост и невероятные карьерные возможности были во многом обусловлены новизной профессии и свободным рынком. По мере сатурации рынка и формализации профессии - жизнь потихоньку изменится и нужно быть реалистичным и откровенным в признании этого факта. Если в компании всего один CDО - то всем ни стать CDO, более того, любой уровень выше синьора - это скорее исключение из правила, поэтому синьор и является терминальным левелом.

Это конечно не значит, что никто не станет CDO, но и не стоит становиться проджект менеджером Экселя в надежде затем возглавить самую дорогую компанию мира.

Если меня спросят про пример успешной и реальной карьеры - то вот она - 47 лет в разработке, последние 33 года - Senior, 12 лет отработал в Гугле.

Читать полностью…

Время Валеры

Прочитал неплохую статью How to avoid machine learning pitfalls:a guide for academic researchers - которая зайдет не только академикам.
Понятно что серьезным пацанам нужно брать серьезную книгу Machine Learning System Design With end-to-end examples

Но список вещей, которые в статье затрагивается - хорош, рекомендую

Before Building Models:
Consider data usage and limitations.
Understand your data thoroughly.
Avoid examining all data to prevent bias.
Ensure you have enough data.
Consult with domain experts.
Review relevant literature.
Plan for model deployment.

Reliable Model Building:
Prevent test data from leaking into training.
Explore different models.
Avoid using inappropriate models.
Stay updated with deep learning developments.
Don't default to deep learning.
Be cautious with feature selection.
Optimize model hyperparameters.
Avoid learning spurious correlations.

Robust Model Evaluation:
Use an appropriate test set.
Perform data augmentation after splitting data.
Avoid sequential overfitting.
Evaluate models multiple times.
Save some data for final model evaluation.
Select evaluation metrics carefully.
Handle time series data correctly.

Fair Model Comparison:
Don't assume higher numbers mean better performance.
Use statistical tests for comparisons.
Adjust for multiple comparisons.
Be critical of community benchmark results.
Combine models with caution.

Reporting Results:

Maintain transparency in methods and findings.
Report performance through various metrics.
Avoid generalizing beyond your data.
Report statistical significance with care.
Examine your models closely.
Use a machine learning checklist to ensure completeness. (На него есть ссылка)

Читать полностью…

Время Валеры

Запись стрима

Читать полностью…

Время Валеры

В понедельник, 8 апреля в 15 по Лондону (17 по Москве), проведем стрим на канале. Поговорим с Игорем про модели мира, почитаем посты с фейсбука и посмеемся над ними, а также обсудим почему мы не позвали staff research scientist-а из DeepMind

Добавить в календарь

Читать полностью…

Время Валеры

Завтра в в 14 по Москве поговорим в прямом эфире про Аналитику здесь

Читать полностью…

Время Валеры

Мой друг Жанибек выходит на работу в БиПи в середине апреля. Мы познакомились с ним ещё в Фейсбуке, затем работали вместе в blockchain.com, теперь продолжим в BP

Перед тем как стартовать на новой работе, Жанибек съездил домой в Казахстан, заодно мама передала ему с собой подарок для меня.

Нагайку

Очень мудрая женщина

Читать полностью…

Время Валеры

Познакомился с человеком, про которого раньше переодически слышал.

Его зовут Кирилл и он профессиональный бездомный. Впрочем многие мои друзья стали бездомными в последнее время, но почему-то они предпочитают называть себя номадами. Хотя думаю, что если бы я маме в детстве сказал, что хочу поиграть с номадом Василием, вместо его стандартного прозвища, думаю она все равно бы не разрешила. В целом тема бродяжничества настолько актуальна, что даже на обложку книги про МЛ дизайн мы поставили бродягу-вагабонда

Но Кирилл не такой, он человек опытный и странствует по свету уже более 10 лет, живет в разных городах и странах, останавливаясь где-то от месяца до пары лет. Работает удаленно всю жизнь, еще до того как это стало мейнстримом. Сейчас временно осел в Барселоне

Что еще интереснее, так это то, что он сооснователь b2b стартапа, с которым они прошли в S21 батч Y Combinator и закрыли раунд инвестиций

Надеюсь, что когда-то мы сможем с Кириллом сделать стартап по возвращению криптодолгов из цифровых номадов, совместив весь наш опыт в этом деле. Но пока этот день не настал, можно почитать его канал, дядька опытный и мудрый, если ваши темы пересекаются с его интересами, будет полезно

Читать полностью…

Время Валеры

Рецидивисты из Х5 ( по их словам это их 7-ая статья), опять берутся за старое и в этот раз обсуждают А/Б тестирование на маленьких выборках.

Именно на основе этого в 2018 году было открыто распределение Х5

Читать полностью…

Время Валеры

Общался с сотрудником, и пытался объяснить ему, что выступления на конференциях переоценены и нужно делать крутые штуки, например лучше сделать один раз pandas ai и получить 10к звезд на гите (да-да Игорь, это укол в твою сторону), чем сто раз выступить на средней руки конфе, если задача повысить визибилити.

Он мне в ответ - выступить на London AI Summit это почетно и таких людей уважают - супер бустит визибилити. На это у меня нашелся контр аргумент

- Знаешь ли ты keynote спикеров AI Summit 2023?
- Нет
- Ну хорошо, а вот победителя AIconics award 2023 знаешь?

Дальше пять сообщений от него:

- No
- But I suspect you know them? 👀
- Why am I not surprised that you won it
- 😳😳😳
- whats would you say was helpful? being kaggle grandmaster?

Таким образом этот канал и моя любовь к А/Б тестам и наградам спасли еще одну душу

Читать полностью…

Время Валеры

Записал девятую лекцию курса по мл систем дизайну на русском языке.

Пока ее записывал - все думал: жуть, десятая же совсем сложная и она следующая, мы ее текст с редактором когда правили - столько сил потратили, надо держаться.

Когда записал - вспомнил, что это как раз была девятая лекция, которая оказалась самой тяжёлой.

Читать полностью…

Время Валеры

Все-таки в битве колец побеждает Oura. Сircular ring - оказалось полной ерундой, батарейка держит плохо, алгоритмы сна работают странно, зарядка - дурацкая и кроме того из-за нее я разбил один из макбуков. Кроме того, недавно я заметил что аккумулятор в Oura стал быстро разряжаться - написал поддержку, спросил в чем дело? Может быть новая прошивка? Саппорт ответил в тот же день, что то посмотрел удаленно и прислал новое кольцо через два дня. Вызывает уважение

Читать полностью…

Время Валеры

Архивное фото. Рабочий день в Яндексе

Читать полностью…

Время Валеры

Подъехали свежие вакансии

Principal Data Engineer
Principal Machine Learning Engineer

Репортить мне, переезд в Лондон
По деньгам что-то среднее между L6 и L7

Читать полностью…

Время Валеры

После трех лет мы обновили «Динамическое ценообразование» на курсе Hard ML. 

Новая программа, новые лекции и даже новый преподаватель – Ирина, лид команды ML-ценообразования в AliExpress. В самом модуле помимо базы из основных терминов и подходов, можно научиться проводить Backtest, A/B и Switchback и различные методы оптимизации.

В практической части: задачи через построение модели спроса, определение эластичности и многоруких бандитов. В финальном проекте нужно решить типичную бизнес-задачу: максимизировать оборот, не просадив выручку. Всё как в жизни.

Смотрите программу и приходите

Читать полностью…

Время Валеры

Перебирал паспорт, увидел там старую китайскую визу от ноября 2019 до февраля 2020 года и вспомнил как мой друг-Китаец, к которому я собирался ехать в гости в январе, попросил отложить поездку, потому что у них там какая то простуда и просят не приезжать.

Помню я тогда еще подумал, ну что за нелепая отмазка, не ожидал от тебя

Читать полностью…

Время Валеры

Интересный взгляд на аналитику - Disband the analytics team

Проводится аналогия между отделом аналитики и пирамидой

Постоянно что-то обещают - причем то - что выполнить не получится никогда, что ведет к циклу неисполнения ожиданий и оправдания своего существования

Но говорится что не получается потому что нужно сделать data quality, data governance, data driven и заживем, когда-то в светлом будущем, просто дайте еще денег

Но факт в том, что идеально не будет никогда - возможно следует признать эти ограничения и начать жить с ними, став более практичными и прагматичными?

Читать полностью…

Время Валеры

В очередной раз подумал, какую невероятную вещь проделал Герман Греф. Взял неповоротливую машину Сбербанка и сделал из нее монстра, лезущего своими щупальцами всюду

Здесь, конечно, можно возразить и сказать:
Залили деньгами
Купили компании, а не сделали сами
Просто копируют других
Многие поделки по качеству ± равны опенсурсу

Да, все это валидно и Сбер не является прорывной технологической компаний, выдающей нам новые языки программирования становящиеся стандартом, фреймворки для обучения нейронных сетей, которые используют все или продукты дисраптящие мировой рынок, но:

Банк, в который ты приходил с бумажной сберкнижкой 10-12 лет назад, смог относительно быстро вкорячить в свою софтину для видео конференций функцию автоматического подведения итогов видео встреч, которая реализована на базе их же STT и LLM
Купленные компании интегрируются в единую экосистему и SberID как ни крути, а используется в рунете, так что видимо есть у пацанов работающая золотая запись
Залить деньгами себе позволяют все конторы с высокой маржой, покупка других компаний это практика повсеместная и как известно - покупка это только начало, проблемы начинаются потом

Самое главное - движение Сбера в этом направлении продолжается уже который год

Я смутно догадываюсь - как невероятно тяжело и сложно было запустить и продолжать толкать эту машину, и просто удивляюсь, что в течении более десяти лет этот человек все еще удерживает в себе железной волю, дисциплину для долгосрочного вижена и , видимо, почти абсолютную власть в компании.

Кажется даже Сатья Надела начинал с базы получше

Читать полностью…

Время Валеры

Тема для вопросов и комментариев по стриму

Читать полностью…

Время Валеры

Одна из вещей, которые мне не нравятся в ЮК - заставляют брать отпуск. Ну, то есть как заставляют, хочешь - не бери и он просто сгорит, на следующий год перенести больше 5 дней нельзя. Деньгами взять нельзя, отпуска - 6 недель - крутись как хочешь - одно слово, леваки. Поэтому чтобы сжигать отпуск, я стал его брать в те периоды, когда в отпуск уходят все остальные, например недавние пасхальные каникулы.

Самый большой отдых для меня - это возможность не ходить на встречи и общаться с людьми, поэтому я с радостью закопался в репозитории top AI продуктов компании, тем более что с недавних пор я был назначен ответственным за их успешную раскатку и операционализацию

Долго ли, коротко-ли, один сервис пришлось профилировать, чтобы понять где теряется больше всего времени: RAG? Установка соединения? Запрос к бд? Запрос к API?
К сожалению, дырка пробивается только из офиса, либо с remote desktop машины, которая на винде, поэтому полностью все воспроизвести можно только в таких условиях

Пожалуй худшего user experience в ипостаси разработчика у меня давно не было, возможно никогда. Нет, ну то есть по продуктам компании Microsoft ты начинаешь догадываться - что-то не так. Стоит просто сравнить teams vs slack или в тысячный раз поставить галочку и нажать кнопку - больше не показывать это сообщение (зная что его покажут в ближайший час). Но банальные задачи установки каких-то пакетов на Винде превращаются в танцы на снегу и непрерывную боль, причем иногда кажется что это сознательное решение со стороны MS. И конечно самое обидное, что при наличии гораздо более классных альтернатив, корпорации полувынуждено продолжают пользоваться этими решениями

Читать полностью…

Время Валеры

Леваки в Калифорнии решили помочь работникам фастфуда и законодательно ввели минимальную зарплату в 20 долларов в часов.

Владельцы фастфуда тоже не дураки, посчитали и поняли что при таких раскладах выгоднее увольнять, чем нанимать и начали народ сокращать.

Спасибо правительству, помогли так помогли. Вся надежда теперь остается на президента Аргентины

Читать полностью…

Время Валеры

Прочитал хорошую обзорная статью от пацанов и Кохави - Statistical Challenges in Online Controlled Experiments: A Review of A/B Testing Methodology

Статья приятна тем, что она: а) понятная (главный критерий хорошей статьи для меня) б) по ней можно быстро пройтись и найти нужные вещи в) большинство вещей плюс/минус применимо
В очередной раз задумался, почему я не пишу статьи на архив, такую статью я наверное смог бы выдать

Основные вещи которые рассматривают

1. Sensitivity and Small Treatment Effects - классическая история, нам бы побыстрее, да поточнее
2. Triggered Analysis - а что если оценивать не всех пользователей, а только тех, кого задело? Классический случай репрезентативность vs релевантность
3. Heterogeneous Treatment Effects - fancy описание когортного анализа, чтобы оценить перфоманс разных групп в рамках а/б тест, отличии от простого колоритного анализа в том, что добавляется модель, которая изолирует остальные эффекты (на которые у нее есть фичи), в целом кажется работает если группы недостаточно большие или нету случайного ассайнмента на уровне когорты. Напоминает стратификацию
4. Long-Term Effects - тут вспоминается веселый фермер, не будет вашего итальянского сыра. Xa-xa-xa!
5. Optional stopping - иногда нужно вовремя остнановится
6. Interference - вмешательство различных нетворк эффектов и как от них изолироваться

В целом хороший обзор

Читать полностью…

Время Валеры

Судя по последней инфе, больше всего с Gen AI зарабатывают компании, которые говорят как заработать на Gen AI.

Цитирую из рассылки Pragmatic Engineer :

The company generating the highest revenue from GenAI… Accenture?

As far as we know, OpenAI and Microsoft are generating the most revenue from generative AI applications. OpenAI is likely doing close to $2B/year in annual revenue. For Microsoft, this number is unclear, although GitHub Copilot generates around $130-150M in annual recurring revenue, with 1.3M paying subscribers paying $10/month or $100/year). 

A surprising data point is the management consultancy Accenture generating more revenue than any AI companies. It’s on track for $2.4B of generative AI-related consulting revenue! These are, most likely, explorative projects with companies that want to figure out how to integrate GenAI to their business. From Accenture’s earnings call:

“We [Accenture] are working closely with our ecosystem partners to help our clients understand the right data and AI backbone that is needed and how to achieve tangible business value.”


I’m unsurprised that companies are investing into GenAI pilot projects. I am surprised that the biggest winner of this GenAI goldrush seems to be a consultancy – revenue-wise, at least!

Читать полностью…

Время Валеры

Симулятор МЛ отжил свое, Пикачу эволюционировал в следующую форму – Симулятор DS.

Добавили секции, которые были бы полезны аналитикам и специалистам, работающим с AI (осталось понять что это значит). Каждое из направлений доступно всем студентам: в рамках подписки самостоятельно решаете, какими задачами будете заниматься – можно как усилить харды в смежной области, так и отработать кейсы, напоминающие собственные задачи.


[Узнать больше]

Скидка -7% по промокоду SIMDSNEW до конца месяца

Читать полностью…

Время Валеры

Ну наконец-то Игорь Бабушкин релизнул в опен сурс грок, LLM сделанную по заказу Маска

Читать полностью…

Время Валеры

Есть конечно вещи за которые можно не любить Computer science

Например только-только начнёшь читать одну статейку в блоге и вот ты уже вынужден качать пейпер: Progressive Partitioning for Parallelized Query Execution in Google’s Napa

Впрочем, с ML почти тоже самое

Читать полностью…

Время Валеры

Увидел вакансию AI евангелиста, сначала обрадовался, подумал что это мне по плечу

Потом задумался - все не так однозначно.

Переодически ко мне приходят разные люди за консультациями по мл, 8/10 случаев заканчивается тем что я им говорю - нет смысла что-то делать через мл в ваших проектах.

Однажды я подрядился консультировать одну компанию на регулярной основе

Первый месяц консультировал нормально, второй уже средне, третий совсем мало

Для того проекта, где определили что мл нужен - наняли человека и в течении месяца обсудили что и как делать и даже сделали !

Заодно прочитал 4 лекции по мл дизайну сотрудникам этой конторы. Так этот чел начал делать мою работу и объяснять другим командам почему мл не нужен в их проектах.

Может быть мне стоит начать шантажировать создателей массовых мл курсов - войди в профессию за три дня без навыков, что я всех научу мл дизайну и тогда их курсы будут не нужны? Либо они будут платить мне дань и я не лишу их работы

Возможно так появится новая должность, анти AI евангелист

Читать полностью…
Подписаться на канал