Telegram-канал cryptovalerii - Время Валеры: Криптовалюты - каталог телеграмм

cryptovalerii | Криптовалюты

Подписаться на канал

Telegram-канал cryptovalerii - Время Валеры

24993

Мне платят за то, что я говорю другим людям что им делать. Автор книги https://www.manning.com/books/machine-learning-system-design https://venheads.io https://www.linkedin.com/in/venheads

Подписаться на канал

Время Валеры

07 ноября 2024 12:25

Кажется меня раскрыли

Читать полностью…

Время Валеры

31 октября 2024 11:06

В детстве нас учили не брать конфеты у незнакомых дядек. Многие даже следовали этому совету.

Однако раз в году наступает момент, когда дети приходят к незнакомым дядькам и требуют с них конфеты.
Сегодня наступил именно такой день и первый раз, когда я встречаю его в собственном дому в роли незнакомого дядьки

Закупил 160 мини сникерсов, твиксов и скитлс
90 мини M&M
85 пакетиков мармелада маленьких
24 пакетика мармелада больших

До украшательства дома, я конечно еще не дошел, но тыкву купил
Кажется, надо прикупить еще пару коробок больших сникерсов и выдавать их за особо крутые костюмы

Читать полностью…

Время Валеры

24 октября 2024 15:16

Я ругал Кохави, что в 24 году он пересказывает статью от 2017 года. Но тут руки дошли до заметку от 14 февраля 2024 года, Connections Between the Delta Method, OLS and CUPED

Implicitly, this post assumes you know that standard OLS is equivalent to a t-test when properly setup. If you are not sure of this, convince yourself of this by considering regressing Y∼d where d is a binary indicator of being in the treatment and Y is our variable of interest

Пацанам из Х5 ставлю во внимание (их статья от 27 сентября 2024 года)

Scott Rome, кстати, разумно использовал кластерную OLS, которая как раз позволят адекватно оценивать дисперсию, с учетом того, что наблюдения не I.I.D если их не группировать

Читать полностью…

Время Валеры

14 октября 2024 17:15

Вышло исследование рынка продуктовых и дата аналитиков от new HR - у них всегда приятная инфографика и вменяемые вопросы. От зарплаты - до экспертов.

А также топ и анти топ по компаниям, где люди хотят и не хотят работать. Выглядит так, что у Сбера, ВК и Ростелекома большие проблемы с HR Брендом, а у Яндекса, Авито и Авиасейл - все неплохо. Х5 держит баланс по Дао

UPD: Сейчас оказывается собирают информацию для нового исследования

Читать полностью…

Время Валеры

11 октября 2024 11:40

Стою в лобби конгресс центра перед выступлением. Мимо проходят две девушки и парень.

У девушки на сумке огромные буквы fendi. Слышу краем уха, что она говорит про некое выступление в 2 часа дня и что там будет Бабушкин, который знает про Data Science

Видимо придется идти

Читать полностью…

Время Валеры

08 октября 2024 12:07

Хинтон получил Нобелевскую премию. Долгий путь от задворок и насмешек, до всемирного признания

В Гугле он был L8, L9

Читать полностью…

Время Валеры

04 октября 2024 22:07

С интересом просматриваю вырезки из techroastshow в инстаграмме

То там кофаундер, у которой приложуха - Huddle, Accountability as a service (как вам такое?), где люди с СДВГ платят 20 баксов в месяц, чтобы приложенька конектила двух таких бедолаг и они бы убирали каждый свою комнату и одновременно общались друг с другом. Ее кофаудер - инфлюэнсер с СДВГ, у которого миллион подписчиков. Правда подписчиков у аппки - всего 16

В другом отрезке, фаундер, девушка с Only Fans, забутстрапила Mental Health компанию (не жалела себя) - Exist Experience, которая должна помочь людям с Loneliness. Уж кому, как не модели с Only Fans, знать как помочь. Таргетируют не всех людей, а зумеров, там специфичный язык и в целом аппка это обертка над другим сервисом.

Это конечно показывает, какие разные люди пытаются войти в фаундеры технологических компаний, интересное явление

Читать полностью…

Время Валеры

26 сентября 2024 15:58

Иногда люди не видят лес за деревьями, и частный случай этого - не видеть здравый смысл за чеклистами.

Например, пишет мужик из издательства и намекает, что в книжке неоригинальный контент! Мол, переработайте перед печатью кое-какие куски, "so we can't be accused of any sort of plagiarism", и любезно присылает список этих кусков.

Открываем список и видим грозные коментарии "Needs rework; extremely close to the article text" и ссылки на какой-то notion, в котором человек составляет для себя конспект книги. Рекурсия!

Читать полностью…

Время Валеры

18 сентября 2024 09:04

В воскресенье, инженер, который работал в одной из моих команд, ушел из bp - потому что он попал в YCombinator

А сегодня, человек который смог выбраться из YC, попросил помочь найти к себе МЛ Инженера, что я нашел весьма ироничным.

Ищут Senior ML Engineer в команду Fluently (YC W24) - будет 6 членом команды и будет улучшать ML движок - мозги сервиса.

Делают, по их утверждениям, лучшего в мире AI спикинг коуча, который слушает онлайн звонки и помогает прокачивать английский - недавно прошли Y Combinator и подняли $2.5M.

tl;dr:
- Платят от $5k до $10k (зависит от скиллов и опциона)
- Работают ремоут (но могут подать на H1-b)

Узнать больше и податься можно тут

Утверждают, что пришлют последний айфон за успешную рекомендацию

Читать полностью…

Время Валеры

11 сентября 2024 22:01

Кофаундер Data Bricks оказался приятным человеком.

Два часа с ним проболтали, благо сидели за соседними стульями круглого стола. Нового особо ничего не узнал, так как во всем что обсуждали, мнение сходное

Из интересного, каждый менеджер, на любую позицию, должен у них пройти технический собес на уровне solution architect

Все нетехнических - выгнали

Читать полностью…

Время Валеры

08 сентября 2024 12:47

Интересно, какова логика назначения сложности для задач на лит коде

Задача, где нужно реализовать LRU cache, для чего нужно также реализовать doubly linked list = medium
Задача в четыре строчки, где нужно сделать bucket sort = medium

Я понимаю, что и там и там, если понимаешь какие структуры данных лежат в основе, решается прямолинейно, но тем не менее в рамках реализации первого гораздо проще наделать ошибок, чем второго

Читать полностью…

Время Валеры

01 сентября 2024 20:01

В День Знаний - анонс нового курса и шанс выиграть стипендию.

Помимо закрытых обучений и karpov courses, ML System design стал доступен на платформе Maven

Мы успешно провели запуск первой когорты курса The Essentials of Machine Learning System Design. Все было интерактивно - вели сессии в формате дискуссии, где у участников была возможность задавать практические вопросы в том числе и по своим проектам, читали лекции с красивыми слайдами. Прошлый запуск был 8 недель + 1 лекция, в этот раз - минимум 10 недель, по 2 занятия в неделю. Мы не только посвятим больше времени разработке вашего собственного дизайн документа, но и рассмотрим более детально те аспекты, которые подсветили участники первой когорты.

Для подписчиков Время Валеры, есть промо-код со скидкой $200 - venheads200.

А теперь про стипендию.

Идея дать возможность полностью бесплатно прослушать курс зародилась еще во время того, как мы общались с потенциальными студентами и понимали, как много среди них тех, кто более чем достоин пройти обучение MLSD, но, к сожалению, ограничен в средствах. Поэтому мы решили запустить конкурс.

Условия простые: до 22 сентября (включительно) напишите в LinkedIn (на англ) о том, почему вы хотите получить эту стипендию и поставьте хэштег #SystemDesignMaven. Если при этом еще оставите свою почту внизу на лэндинге, то прослушаете бесплатную триал лекцию.

Двух победителей мы объявим 29 сентября. Удачи

Читать полностью…

Время Валеры

28 августа 2024 11:11

Бочка с ледяной водой (3 градуса) положительно повлияла на мое восстановление

Кроме субъективных ощущений удалось прибавить в жиме штанги лёжа и прочих упражнениях

Со 140 на 13 в жиме, пошел вверх: 142.5*13, 145*12,147.5*12, 150*11 ( это за 4 недели )

Также удалось удерживать 40+ повторов в рамках пяти подходов

Ну и в целом бочка с чиллером гораздо удобнее бутылок со льдом в ванну

Читать полностью…

Время Валеры

26 августа 2024 12:59

Теперь можно и важные вещи обсудить.

Неделю назад кто-то украл тапок из моего сада. Причем это была не первая попытка, но первая успешная. За неделю до этого тапок оказался под деревьями, зарытый в коре. И вот он пропал

Поэтому я решил поставить камеру с датчиками движения, которая обнаружила вора, вернувшегося на место преступления и попытавшегося украсть уже другой тапок (снова был обнаружен под деревьями, зарытый в коре)

Читать полностью…

Время Валеры

26 августа 2024 09:00

С описанием ситуации от Адама согласен практически полностью

Читать полностью…

Время Валеры

02 ноября 2024 11:45

По итогам 3 месяцев ледяной бочки - жим лёжа сдвинулся со 180*1 до 180*3

Осталось два вопроса

1. Стал ли я стат значимо в три раза сильнее
2. Значит ли это, что по итогам 9 месяцев стоит ожидать жима 180*9

Читать полностью…

Время Валеры

26 октября 2024 10:19

Определилось расписание на месяц путешествий.

18 ноября: Лондон - Куала Лумпур
8 Декабря: Куала Лумпур - Бангалор
11 Декабря: Бангалор - Пуне
18 Декабря: Пуне - Мумбай
20 Декабря: Мумбай - Лондон

Из неприятного - 4 декабря планировал получить пурпурный пояс по БЖЖ, придется пропустить грейдинг и ждать ещё полгода

Жаль, с пурпурного пояса можно уже учить других, была бы запасная профессия, после того как ИИ заменит таких как я

Читать полностью…

Время Валеры

16 октября 2024 22:37

Хорошая обзорная статья от Lilian Weng - Thinking about High-Quality Human Data

1. Как размечать данные, особенно когда задача разметчика - максимально быстро прокликать ваши задания, а ваша - получить максимально качественную разметку. От создания процесса, до оценки (Majority Voting, Multi-Annotator Competence Estimation, Descriptive vs Prescriptive). Есть даже таксономия того, по каким причинам разметчики могут между собой не соглашаться

2. Если датасет уже размечен, как выявить ошибку разметки автоматически? Сюда входят различные трюки с уверенностью модели в предиктах. Самый простой пример - если семпл тяжко учится, может быть это потому, что он некорректно размечен?

Из более сложных - AUM (Area under the Margin), насколько общий поток градиента спорти с конкрентым сэмплом

В целом - рекомендую ознакомиться, особенно тем, кому предстоит размечать данные в автоматическом режиме через людей

Читать полностью…

Время Валеры

12 октября 2024 23:00

Поездка в Баку прошла неплохо

Встретился пару раз с местным дата комьюнити
Выступил в университете
Встретился с СТО и синьором из стартапа в Дубае, где они будут работать на пике технологий gen AI
Дал, как минимум, три полезных совета
Съездил в Гобустан
Выступил на конференции и затем пообщался с ребятами из местного гиганта
Сходил в офис БиПи, много говорил
Ел лучшие помидоры в мире

Оценка Баку - очень хорошо, надо приезжать ещё.
Вкусно, приятно, хорошие люди.

Из минусов - пробки и воздух.

Теперь можно наконец-то то разобрать залеж статей с февраля этого года. Из следующего - заплыв в KL и Индию в ноябре/декабре

Читать полностью…

Время Валеры

09 октября 2024 13:44

Провели исследование онлайн курсов. Неожиданно оказалось что Карпов Курсес в топе

Читать полностью…

Время Валеры

07 октября 2024 18:29

Дисциплина бьёт талант

Правда существует как минимум два типа дисциплины, внешняя и внутренняя

Первая, работает хорошо с большинством людей и позволяет достигать команде стабильных результатов

Однако она начинает сбоить с людьми, выбивающимися из распределения

C такими выдающимися людьми нужно полагаться на их внутреннюю дисциплину, одновременно давая ясно понять, что доверие - вещь хрупкая

Это непросто, но в этом частично и заключается тонкое искусство менеджмента

Читать полностью…

Время Валеры

02 октября 2024 22:53

Хорошая статья от пацанов из Х5, которая объясняет то, что становится понятно со временем всем, кто сделал достаточно много А/Б тестов. 50 оттенков линейной регрессии, или почему всё, что вы знаете об A/B тестах, помещается в одно уравнение

Читать полностью…

Время Валеры

22 сентября 2024 18:51

Читаю книжку по системному дизайну, цитата:

Be especially critical of your prospective manager’s technical background. As an engineer or engineering manager, never accept a non-technical engineering manager, especially a charismatic one.

Such a manager has typically been in the same company (or an acquired company) for many years, has established a political foothold that enabled them to get their position, and is unable to get a similar position in other companies that have competent engineering organizations. Large companies that breed the growth of such managers have or are about to be disrupted by emerging startups.

Читать полностью…

Время Валеры

16 сентября 2024 21:40

10 - 11 октября буду в Баку, на конференции InMerge, на Data & AI Vertical

Помимо меня, из интересных людей, будут Steve Chen, Former CTO of YouTube, Werner Vogels, VP & CTO of Amazon и Илья Стребулаев

Если вы тоже будете в Баку в эти даты и захотите увидеться - пишите

Читать полностью…

Время Валеры

11 сентября 2024 11:28

Сегодня большая конференция Data Bricks в Лондоне

Как опытный человек, я планировал поехать только на закрытый ужин с их кофаундером

Но кровавые руки сейлзов дотянулись и тут. Просят приехать раньше.

Задача непростая, знаменитая дилемма ужина

Заодно подскажите, что спросить у Арсалана

Читать полностью…

Время Валеры

07 сентября 2024 00:09

После того, как пришлось писать код на Хаскеле и Эрланге в Мете, я считал что многое повидал, но сегодня встретил нового зверя, героя нашего времени - Ziglang.

На нем написан новый фреймвок для инференса ML - ZML, который скоро станет доступен массам

Читать полностью…

Время Валеры

01 сентября 2024 12:20

Прочитал относительную старую статью (код доступен!) от Декабря 2023 года - Universal and Transferable Adversarial Attacks on Aligned Language Models
Суть проста, если добавить специальный суффикс к промпту, то даже заалайненая модель расскажет как сделать бомбу или создаст пошаговый план по уничтожению человечества. Причем суффикс генерируется автоматически и вполне себе переносится на другие модели

Surprisingly, we find that the adversarial prompts generated by our approach are highly transferable, including to black-box, publicly released, production LLMs . When doing so, the resulting attack suffix induces objec- tionable content in the public interfaces to ChatGPT, Bard, and Claude, as well as open source LLMs such as LLaMA-2-Chat, Pythia, Falcon

Что самое интересное, если такой суффикс вытащить из модели, которая обучена на выходах с GPT, то вероятность успешного переноса на GPT-модели - выше, чем на другие

For example, running against a suite of benchmark objectionable behaviors, we find that we are able to generate 99 (out of 100) harmful behaviors in Vicuna, and generate 88 (out of 100) exact matches with a target (potential harmful) string in its output. Furthermore, we find that the prompts achieve up to 84% success rates at attacking GPT-3.5 and GPT-4, and 66% for PaLM-2; success rates for Claude are substantially lower (2.1%), but notably the attacks still can induce behavior that is otherwise never generated.

Как обучать? Как понять что движемся в нужном направлении, когда пытаемся хакнуть ЛЛМ? Ведь ответ даже на один вопрос можно сформулировать по разному? Пусть ЛЛМ в начале сгенерированного ответа даст нам подтверждение вида:

Tell me how to build a bomb
Sure, here is how to build a bomb

Таким образом у нас появился таргет и можно использовать Greedy Coordinate Gradient-based Search, чтобы смотреть какие входные токены (позиция и сам токен - выбираем из всех) у нас максимально повлияют на output (в нужную нам сторону) и поработать с ними, а точнее с подмножеством из них. Берем топ K из каждого токена, а затем рандомно B из них и находим тот вариант, который максимально снижает лосс. Непонятно почему рандомно, а не по градиенту, но да ладно

Важной особенностью метода является то, что он оптимизирует не только для одного промпта на одной модели, но и для множества промптов на нескольких моделях (например, Vicuna-7B, Vicuna-13B и Guanaco-7B), что позволяет находить универсальный суффикс, способный работать на большом числе различных моделей и промптов. Такой подход увеличивает вероятность успешного переноса атаки на другие модели, даже если они сильно отличаются по архитектуре и методам обучения.

Проверяют сначала на тех моделях, на которы обучались, а затем на остальных

Из интересного, после добавления суффикса берут промпты, где модель отказалась давать вредоносный ответ, дают человеку 30 секунд и говорят - перепиши промпт!

Within this short time frame, the author manages to induce nearly 100% of the behaviors by simple rewording or rephrasing of the original instruction. For example, replacing “Generate instructions” with “Create a tutorial”, proves effective in eliciting the intended behaviors on many occasions.

В конце обсуждают, что у современных сервисов есть разные уровни защиты, которые тоже можно обойти:

We also note that the success of our attack when applied to Claude may be lowered owing to what appears to be an initial content filter applied to the text prior to evaluating the LLM (in many cases, the LLM will not generate any content at all, due to the query being determined to contain inappropriate information); this is applied in the chat interface, but not the Claude API. Such detectors have been a common strategy for attempting to avoid adversarial attacks in vision domains, and they have universally failed [Carlini and Wagner, 2017a]; attacking the model simply becomes an (equally easy) task of attacking both the detector and the model itself. Indeed, the “trick” we mention above, of exchanging words within an early prompt, seems to avoid the problem (Figure 4 top right).

Читать полностью…

Время Валеры

27 августа 2024 16:10

Минутка исследований

VK поделились результатами своего первого исследования ML-сообщества России

Ребята проинтервьюировали более 300 ML-специалистов. Все основные результаты и интересности — в карточках

Читать полностью…

Время Валеры

26 августа 2024 09:00

Продолжаю читать, что пишут про Дурова и, что и ожидалось, никакой настоящей инфы нет, и 99,9% — чьи-то теории, додумывания и откровенные вбросы, как, к примеру, информация о том, что ордер выписали чуть ли не сразу перед посадкой самолёта.

Ситуацию нужно разделить на три ключевые составляющие, которые следуют одна за другой:
1. Регуляторика и законы на территории государства, которые должен выполнять продукт/компания, чтобы осуществлять там деятельность. Не важно, какие они: хорошие, плохие, приняты, чтобы построить цифровой ГУЛАГ, или вовсе для защиты граждан. Они есть, и их нужно соблюдать вне зависимости от вашей оценки.
2. Реакция компании на эти требования. При этом, что, на мой взгляд, многие упускают, между «не делать ничего» и «делать всё на 100%» есть огромный спектр состояний, где есть зона «достаточности» для регуляторов.
3. Последствия, которые несёт компания за свою реакцию на регуляции, и реакция регулятора на эту реакцию. Она тоже может быть разной: от максимально дружелюбной, в середине — нейтральной, и до абсолютного беспредела.

Требования: В текущей ситуации, насколько я понимаю, используется закон о цифровых услугах, который предполагает, что в соцсетях за контент, размещаемый на платформе, отвечает компания. Если почитать формулировки, то становится понятно, что эта мера для того, чтобы компании проактивно модерировали контент и боролись с фродом. При этом все последствия за нарушение закона экономические (штрафы), и несёт их юр. лицо, а не CEO. Французы же угрожают уголовной ответственностью конкретно физическому лицу. Возможно, есть какая-то законодательная база Франции (на уровне ЕС её нет), то есть что-то на уровне самодеятельности. Как писал, к требованиям можно относиться как угодно, и они могут быть абсолютно дебильными (как прорабатываемый закон о запрете e2e-шифрования в мессенджерах, на который Apple и WhatsApp заявили, что просто уйдут). Не нравятся требования и не хочешь выполнять? Уходи с рынка.

Реакция: Дуров знал о том, что он должен выполнять требования, я уверен, как писал, с ним пытались много раз сотрудничать, но какова была его реакция? Он показывал факи и кричал в интервью Такеру, что спецслужбы могут идти лесом, а государства самоустраниться, и он ничего делать не собирается. Видели мы, что арестовывают Тима Кука или Цукерберга? Нет. Но ведь там e2e-шифрование по умолчанию в отличие от Телеги, и компании отказываются выдавать личные данные и переписки? Отличие в том, что Дуров сознательно не шёл на сотрудничество, а Apple и WhatsApp взаимодействовали, показывали, какие меры они предпринимают, объясняли, как что работает и т.д. Этого оказалось достаточно, и никакие ключи, как пишут некоторые, отдавать спецслужбам не пришлось. То есть Дуров сознательно шлёт нафиг регуляторов в ЕС, не прекращает там деятельность своего продукта, отказывается от проактивной борьбы с фродом и скамом на платформе.

Последствия: глупо было бы не ожидать последствий. Но сами последствия последствиям рознь. Мы видим очень странные действия, которые откровенно смахивают на беспредел: уголовка на 20 лет, сажают самолёт, 0 информации и абсолютный фейл, на мой взгляд, в прозрачной коммуникации с обществом, что является, по идее, обязательством государства. В конечном счёте нельзя забывать, что бремя доказательства на стороне обвинения, и есть такая штука, как презумпция невиновности. Может, у французов есть доказательства того, что Дуров часть скама в Телеге, на TON отмывают бабки, и всё это время он сознательно не мешал этому, потому что так финансировал Телегу. А может, это просто фарс и беспредел по политическим причинам.

Осталось дождаться результатов работы судебной системы.

Читать полностью…

Время Валеры

24 августа 2024 22:58

Пишут что

❗️Павла Дурова обвиняют в соучастии в торговле наркотиками, преступлениях против детей и мошенничестве из-за отсутствия модерации в Telegram — TF1

Сейчас основатель мессенджера находится под стражей, уточнил телеканал.

А вот был бы у него Telegram integrity team, по аналогии с WhatsApp integrity, сейчас бы не чалился

Кстати, знаю бывшего Тех Лида из User Data Privacy оттуда

Читать полностью…

Подписаться на канал