Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4
🚩СТРИМ НА РАБКОРЕ
Сегодня у нас новый выпуск рубрики КопиЛефт, в котором Кали Новская будет рассказывать про торренты и открытые данные.
🔴Почему открытые данные нужны всем читателям, ученым, обучателям машин и даже корпорациям?
🔴Куда делись все открытые данные? Вытеснение открытых данных за границу серой зоны.
🔴История судов интернет архива;
🔴Легальные основания цифровых библиотек;
🔴Какие данные самые полезные для науки?
🔴Почему взялись за интернет-архив и торренты именно сейчас?
🔴Как торрентам и архивам победить? Считаем стоимость хранения данных и поддержание;
🔴Какие шаги предпринять активисту хранения данных?
Об этом и многом другом поговорим сегодня в 20:00 по мск.
🌸Хроники краха OpenAI🌸
#nlp #про_nlp
Пьеса в трех актах.
Пост — следствие моей хорошей, но избирательной памяти.
🌸Акт первый. Масштабирование
🟣Июнь 2018 — выходит декодерная модель GPT, Generative Pre-trained Transformer 1. К ней выходит статья, и все даже под открытой лицензией MIT).
Ее и сейчас можно загрузить из HuggingFace
🟣Ноябрь 2019 — выходит GPT-2! Улучшенная версия, у которой обнаруживаются способности к in-context learning: few-shot, zero-shot ("промптов еще тогда не было" — буду так это внукам рассказывать). И статья к ней. Веса выложили в опенсорс только через полгода после анонса, лицензия — modified MIT, можно жить!
🟣Июнь 2020 — выходит GPT-3, масштабированная GPT-2. Статья выходит, веса — нет. Становится понятно, что все задачи, в общем-то, можно решать в генеративном сетапе. До SFT остается один шаг.
🌸Акт второй. Безопасность
🟣Декабрь 2020 — бунт на корабле! команда Safety и несколько ключевых людей из GPT-3 уходят и основывают Anthropic
🟣Январь 2021 — Dalle, генерация text2image, кресло в форме авокадо
🟣Январь 2022 — Dalle 2
🟣Ноябрь 2022 — ChatGPT! сами все знаете. Месяц, когда работа NLP-шника стала уважаемой, люди стали здороваться, обнимать на улице, брататься.
🟣Март 2023 — GPT-4! И затем — мультимодальность, удешевление GPT-4 дистиллированными версиями
🟣Сентябрь 2023 — Dalle 3, автоматическая аугментация промптов за пользователя
🌸Акт третий. Масштабирование отменяется. Нас всех тошнит
🟣Октябрь 2023 — опять бунт на корабле! Сэма Альтмана увольняет борда с связи с недоверием. Параллельно начинаются проблемы с инфраструктурой, у нас в снэптаче падает прод на какое-то время.
🟣Ноябрь 2023 — Где Илья? Суцкевер перестаёт показываться публично
🟣Январь 2024 — анонсирована SORA, революционнвя модель text2video
🟣Январь 2024— OpenAI убирает военные применения из исключений в своем кодексе
🟣Март 2024 — исход команды safety и Superalignment. Официально уходит Илья Суцкевер, апологет скейлинга. Увидим ли мы что-то действительно масштабное теперь? Не ясно.
🟣Май 2024 — выходят модели поменьше — GPT4o
🟣Июль 2024 — выходит модель еще меньше — GPT4o mini
🟣Июнь 2024 — в совете директоров появляется ЦРУ
🟣Июнь 2024 — Leopold Aschenbrenner, интерн, суммарно проработавший в OpenAI полгода, выпускает Situational awareness: 160-страничную туалетную бумагу политагитку со спекуляциями и призывами срочно обогнать плохой-плохой Китай. И некоторыми интересными внутренними оценками OpenAI относительно пути к AGI. Сей опус магнум потом запостит у себя в Твиттере Иванка Трамп. Труд нашёл свою аудиторию.
🟣Июль 2024 — Майкрософт выходит из борды совета директоров OpenAI.
🟣Август 2024 — в бессрочный отпуск выходит Greg Brockman, сооснователь компании. Ещё один сооснователь, John Schulman, уходит в Anthropic.
🟣Сентябрь 2024 — увольняется основной автор SORA, Tim Brooks. SORA не выходит.
🟣Сентябрь 2024 — Выходят модели О1, O1mini. Проект, отдельный от GPT, по слухам, занявший 1.5 года.
🟣Сентябрь 2024 — Уходит CTO Мира Мурати, в также Chief Research Officer и VP Research
🟣Сентябрь 2024 — OpenAI мeняет структуру и готовится стать For profit company
🟣Октябрь 2024 — Уходит глава AGI Readiness.
🟣Октябрь 2024 — между OpenAI и Microsoft нарастает напряжение, Сулейман кричит на сотрудников на митингах, выч мощностей не хватает. По контракту, если OAI сделает AGI, Microsoft теряет доступ к технологиям. Но при этом Microsoft сейчас контролирует объем получаемых мощностей компании.
Занавес.
Уже больше года в черновиках заметка "Хроники краха OpenAI", (по аналогии с "Хроники краха доллара"). Пора уже постить, видимо, а то совсем никого не останется же
Читать полностью…Умер основатель бесплатной библиотеки Флибуста Stiver
Он решил не дожидаться смерти от рака, которым долго болел, и принял укол смертельной дозы тиопентала, пишет Mash.
Upd. По иронии как раз Флибусте и Интернет архиву задонатить пока трудно — у первого переприход донатов, а Архив положили хакеры и работает только пейпал.
Читать полностью…Эволюция работы в ML:
2016: оно компилируется
2018: оно обучается
2020: стоим в очереди на V100
2022: стоим в очереди на A100
2024: агент генерирует лучшее решение
🌸Агенты в Науке🌸
#nlp #про_nlp #nlp_papers
Пока на прошлой неделе раздавали нобелевские премии по всяким непонятным мне наукам, вышло несколько статей про вполне валидное использование языковых моделей и агентов для науки, на которые хочется обратить ваше внимание.
Обе работы — бенчмарки для оценки реальных прикладных способностей LLM.
Раньше мы обсуждали прототип ученого и генерацию идей с научной новизной. А теперь — более надежный способ измерить научные способности моделей.
🌸Почему агенты, а не LLM?
Агенты — это софтверная абстракция поверх LLM. API, правила, всевозможные self-reflection, и, в конце концов, выход в интернет.
Агенты бесполезно проверять на условном MMLU, даже уровня PhD — ведь ответ есть в интернете. Хороший агент может загуглить правильный ответ в 1-2 шага, и никакого ризонинга не надо.
Соответственно, и ставить задачи для агентов нужно более сложные, чтобы гугления было мало.
К таким задачам в моделирующих науках можно отнести: валидация экспериментов по данным, построение более сильных моделей поверх бейзлайнов, автоматизация ablation studies, перепроверка выводов — и так далее.
🌸SUPER от Allen AI
Super — это бенчмарк, который измеряет способность модели/агента решать реальные научные задачи.
Задачи взяты из существующих статей по NLP и Github-репозиториев к ним.
Всего собрано 45 задач, которые нужно решить end2end, с золотыми решениями выверенными экспертами;
152 задачи — часть из существующих исследований и соревнований, и 604 задачи — автоматически сгенерированные (о нет).
Как это все оценивать? Авторы вводят несколько методов оценки:
— Оценка на основе исполнения: сошелся результат с экспертным или нет.
— Лэндмарки: промежуточные результаты генерации, которые маркируют, что агент-таки дошел до шага номер aka python
print("-----Downloading the data-----")
— Частичные оценки: у части задач подзадачи замаскированы, и восстановить и выполнить нужно только их.
Затем это все запускается в изолированном контейнере, и ограничивается 30 минутами на задачу.
Таким образом получаем метрики, которые дают нам сигнал о том, насколько хорошо модели 1) доводят сценарий до конца 2) где примерно они ломаются 3) какие подзадачи для них самые сложные.
Реальные результаты: GPT-4o может решить 16.3% из экспертного сета задач.
🟣Paper
🟣GitHub
🟣HF Page
🌸MLE bench от OpenAI
Тестируем агенты на 75 задачах из Kaggle-соревнований.
Из соревнования позаимствовано описание и датасет, а обучить модели, отдебажить, оттестировать, проитерироваться нужно агенту. Метрики и распределение результатов других участников так же известны, так что можно легко оценить, попали ли мы в топ-квартиль или нет.
Как это все оценивать?
Поскольку речь идет о соревнованиях, авторы решают оценить уровень моделей относительно интервалов рейтинга реальных участников: золото, серебро, бронза или ниже.
Все запуски ограничены 24 часами для каждой задачи.
Все задачи провалидированы, имеют надежный train test split, и отсортированы по сложности:
22 из них легкие (30%), 38 средние (50%), и 15 трудные (20%).
Еще 7 задач отложены в качестве закрытого теста.
Проверка для плагиат и нарушение правил: отдельно результаты агентов оцениваются на наличие нарушений правил (списывание, зарешивание теста не на основе обученной моделью, а "вручную" и т.д.).
Поскольку OpenAI уже не раз ловили на том, что они тренятся на тесте (в частности, тут и тут), то имеет смысл проверить собственные модели на контаминацию и оценить ее влияние. Некоторая фрагментарная проверка на контаминацию проводится — смотрят и среднюю вероятность токенов из задач и корреляцию в результатом, и разницу в качестве, если запускать модель на обычных и обфусцированных описаниях задач — в целом результаты сохраняются.
На своих же собственных оценках, модель o1-preview успешно готовит сабмит в 82.8% случаев, из них в 29% попадает в результат топ-50% участников, и в 16.9% получает медаль.
🟣Paper
🟣GitHub
🌸FAANG Собеседования. Часть 2, рефералы 🌸
#собеседования
Начали серию постов про собеседования — давайте продолжим. Сегодня поговорим про то, как вообще добраться до этапа собеседования.
TL;DR лучше сделать меньше попыток, но более качественных и таргетировангых, чем подаваться массово на 500 позиций. Часть вакансий и так не настоящая, а часть вы делите с внутренними и внешними кандидатами — так что нужно быть таргетированным и быстрым.
🟣Резюме
Делается под вакансию и страну! Сделайте под самые интересные для вас вакансии отдельные версии: резюме для позиции Researcher'а и для ML Eng выглядит по-разному!
Из резюме сразу должно быть видно, что у вас N лет опыта, легальный статус, виза таланта и т.д. — плюс все чем можете похвастаться. 100500 цитирований, членство в орг комитете престижной конференции, опенсорс проект на 1000 контрибьюторов. Сейчас не страшно быть over qualified для вакансии.
Если в вакансии хотят опыт RL, и у вас он есть, надо добавить прямо в шапку, что вы experienced in reinforcement learning.
Если есть и статьи на тему, сделайте секцию "Publications" и поместите их туда.
🟣Получаем Referrals
Реферрал — это формальный или неформальный способ быть рекомендованным на позицию кем-то из текущих сотрудников. Эта рекомендация очень важна! Чем ближе рекомендующий к команде вакансии — тем лучше, поэтому эффективность реферраллов я бы отсортировала так:
— реферралы внутри команды, реферралы из вашего нетворка
— просто общие Linkedin-контакты из компании,
— случайные русскоязычные люди из компании, которым будет понятен ваш бэкграунд (МФТИ, ШАД...),
— просто случайные люди из компании.
Пишите людям прямо, что вы очень интересуетесь позицией, считаете, что подходите на неё, и хотели бы реферрал — заодно можете поболтать и спросить что-то про культуру работы в компании. Вам могут рассказать более подробно про команду, чем она занимается, есть ли в целом проблемы у организации и какие.
Помимо Linkedin, для FAANG существует ещё один полезный инструмент: Blind.
Blind — это приложение для анонимного чата о работодателях, что-то вроде двача с Glassdoor. Там принято просить реферрал непосредственно у сотрудников компании, некоторые люди делают это ради бонуса.
🟣Chechez le manager
Вакансию изучили, реферралы получили, теперь следующая стадия — найти нанимающего менеджера и написать ему. Часто название команды/орга содержится в вакансии, и можно найти менеджера/директора с таким описанием по Linkedin.
Такой подход тоже в целом позитивно выделит вас из списка кандидатов, потому что вы облегчаете работу всех по найму мотивированного человека в компанию.
Напишите пару строчек о себе, почему вас надо взять, и что вас уже зареферили. Пришлите резюме. Если прямо очень хотите в компанию, то через неделю напишите ещё раз — свои мысли про что-то из продуктов компании, последних релизов, что бы вы улучшили, и т.д.
🟣Куда подаваться?
Рынок в целом не очень, поэтому лучше всего целиться в 3 категории — крупные компании, средние компании и стартапы, — даже если вы сомневаетесь, хотите ли туда.
Воркшоп ICML 2022 по офферам и поиску работу (посмотрите!) это явно предлагает.
В самом лучшем случае у вас будет несколько офферов, и вы используете оффер стартапа, чтобы улучшить оффер от большой компании. Или используете оффер большой компании, чтобы получить оффер больше от компании среднего размера с хорошим work-life balance. Но про это — в следующий раз!
🌸Кстати, наш карьерный стрим теперь выложен в записи!
Ну что, еду в электричке в Оксфорд, читать две лекции.
Пожелайте удачи!
К стриму сегодня строго прилагается: как подготовиться к ML-интервью #шитпост
https://youtu.be/5bId3N7QZec?si=o0Ljk4tZvkOJQO2H
Тяжёлая неделя была, давайте что ли мемотред!
#шитпост
Стрим про карьеру, собеседования и бигтех
#career #interviews
Choose your fighter. Собрал вам тут бигтех-банду для стрима:
- Татьяна Шаврина (LI) – Research Scientist Manager в лондонской Мете в команде LLama-4, авторка канала @rybolos_channel (пост-приветствие). Недавно устроилась, может рассказать про собесы и что именно спрашивают на менеджера;
- Артем Санакоев (LI) – Staff Research Scientist в цюрихской Мете, GenAI, автор канала @ai_newz (пост-приветствие). Собеседует на синьорные позиции в Мету;
- Сергей Иванов (LI) – Senior Applied Scientist в парижском Amazon, соавтор канала @graphML. Провел 100+ собесов в Амазон, может рассказать про хардкорные поведенческие вопросы;
- Борис Цейтлин (LI) – Staff MLE в берлинском eBay, автор канала @boris_again (пост-приветствие). Недавно отмучился с собесами;
- Юрий Кашницкий (LI) – Staff GenAI Solutions Architect в амстердамском Google Cloud, автор канала @new_yorko_times (пост-приветствие). Читатели этого канала знают про этот долгий заход по собесам (пост). Он же (то есть я) будет скоморошить, вести встречу.
Вопросы можно задавать заранее тут в треде, либо во время стрима. Можно адресовать конкретно кому-то из спикеров, например, «Вопрос Борису: доколе?»
Время: 20 сентября, 17:30-18:30 CET. Streamyard – ссылка для просмотра (там же по ссылке можно добавить в календарь).
Записи не будет, все вживую. Мест – максимум 1000 😀
Тут должен быть разбор score card новых моделей OpenAI, но они будут завтра #шитпост
Читать полностью…Долго ничего не писала, работая с 9 до 9 😭
Не высыпалась, а теперь вот вообще поехала в командировку в новую страну на две недели.
Вышла новая статья про LLM и методологию науки, завтра разберём!
🌸Стрим на Рабкоре🌸
Сегодня в 20 по мск стрим, будем обсуждать дело Павла Дурова, статьи и аналогичные кейсы, как фаундеру компании не сесть, и какая здесь может быть левая позиция.
Приходите!
🟣Ссылка будет тут
Если переписать реальность в стиле Хармса, получается даже лучше:
🌸Неудачный спектакль. Хроники краха OpenAI🌸
На сцену выходит первая GPT. Хочет что-то рассказать о себе, но вдруг… ее рвёт, и она уходит. Выходит улучшенная GPT-2.
GPT-2:
In-context learning, few-shot, zero-shot… его рвёт. Она убегает. Выходит GPT-3.
GPT-3:
Генеративный сетап… Пытается рассказать об этом, но ее рвёт. Убегает. На сцене Dalle.
Dalle:
Text2image, кресло в форме авокадо… Рвёт. Уходит. Выходит ChatGPT.
ChatGPT:
Собирается рассказать, как его все полюбили, но ее рвёт. Она убегает. Входит GPT-4.
GPT-4:
Мультимодальность, дистилляция… Рвёт. Он убегает. На сцене появляется OpenAI Board.
OpenAI Board:
Сэма Альтмана… увольняют. Рвёт. Уходит. На сцену выходит Суцкевер.
Суцкевер:
Оглядывается, хочет что-то сказать… Рвёт. Убегает. Выходит SORA.
SORA:
Про революцию в text2video… Ее рвёт. Он убегает. Выходит интерн Ашенбреннер.
Ашенбреннер:
Читает свой опус про Китай и AGI… Рвёт. Убегает. Появляется Майкрософт.
Майкрософт:
Молчит, уходит. На сцену выходит Брокман.
Брокман:
Собирается что-то сказать… но его рвёт. Уходит.
Выходит маленькая девочка.
Маленькая девочка:
Папа просил передать вам всем, что театр закрывается. Нас всех тошнит.
Занавес
Суббота! Ну что ж, я долго обещала -- надеюсь, все встали с хорошим настроением, потому что это недо #шитпост
Читать полностью…У OpenAI опять случилось это.
Уволился глава AGI Readiness.
TL;DR
— хочет больше открытости и публикаций
— хочет больше регулирования и совместных инициатив, иначе безопасного ИИ нам не видать
— хочет более серьезно заниматься предсказанием прогресса в ИИ
Вот вам и AGI через 2 года
Хочется в этот раз начать неделю с мемотреда, чтобы вывезти это все #шитпост
Читать полностью…🌸 [ДАННЫЕ УДАЛЕНЫ] 🌸
Будущее корпусов, знаний и нас с вами в условиях лицензионной войны
#nlp #про_nlp
Наконец-то хорошие новости на конец недели:
Флибуста, самая большая русскоязычная торрент-библиотека, продолжит работу!
Создатель ресурса заявил, что сервера оплачены ещё на какое-то время.
🟣Что это значит для нас?
Большая часть знания, профессиональной и художественной литературы продолжат быть доступны в открытом доступе, для человеческого и машинного чтения.
Важность таких ресурсов трудно переоценить: это фундаментальная воспроизводимость и проверяемость ссылок в интернете упирается в доступность источников, которые часто не доступны более нигде.
По расчётам 2019 года, только 10% всех печатных изданий с ISBn на текущий момент надежно оцифрованы и имеют несколько резервных копий.
🟣Internet Archive: на контрасте
Интернет-архив Archive.org проиграл судебный процесс и апелляцию. OpenLibrary может перестать существовать, и в результате иска издателей 500.000 книг должны быть изъяты из доступа, а Архиву интернета вероятно нужно будет заплатить штраф более 400 млн долларов издателям.
Добивкой послужила и недавняя хакерская атака на ресурс, не известно, связанная ли, но в результате the Way back machine был недоступен почти неделю.
🟣Критическое окно возможности для открытого знания и открытых данных
Самые ценные данные в интернете — это вовсе не средний информационный шум, а ресурсы с высокой плотностью информации. Более конкретно, наиболее ценные данные для корпуса, это:
— Научные статьи, журналы, доклады
— Данные естественных наук, последовательности ДНК, химические формулы, и тд
— Нонфикшн, документы и профессиональная литература
— Код к научным статьям, опенсорс проекты
— Исследовательские данные, данные и код к статистиическим, экономическим исследованиям, внутренние и открытые доклады
— Форумы с научными, профессиональными дискуссиями
— Инструкции, научные регулярные издания, газеты
— Записи публичных выступлений, докладов, подкасты, документальные фильмы
— Открытые государстыенные данные и утекшие корпоративные документы
— Художественная литература
— Обзоры, описания, метаданные к различным данным
— Стенограммы судов, судебные решения
— Карты, географические данные
— Развлекательный контент
Суммарно все это хранится не только в атакуемом архиве интернета, но и индексах поисковиков (частные компании) и теневых библиотеках (некоммерческих организациях).
Хотя теневыми их млдно назвать разве что потому, что занимающиеся ими активисты обычно вытоленуты как минимум в серую зону относительно драконовского копирайтного законодательства и маргинализированы. Хотя вообще-то им можно ставить памятник.
Архив Анны занимает примерно 900Тб, и столько же все его резервные копии. Если включить цену носителей данных, электричество и администрирование, то это 15-40 тысяч долларов в год за 10% от объема знаний человечества, и близко к 100% от всего доступного.
Цены на цифровые носители продолжают падать.
Если расчёта Архива Анны верны, то в течение пары следующих 10 лет цена упадёт до 1-3 тысяч долларов за резервную копию. В целом, все ещё много, но гораздо большее число людей сможет позволить себе поддерживать инициативу.
Поскольку цена порога вхождения падает, уже через пару лет уже гораздо большая доля всех доступных книг будет иметь больше чем 1 резервную копию! Битва идёт лишь с обратным трендом и давлением копирайтеров, чтобы зачистить интернет-библиотеки до наступления этого момента.
Суд над интернет-архивом это наглядно показывает.
🟣А ты записался добровольцем?
Я напоминаю, что ресурсы из OpenLibrary все ещё непублично доступны через Архив Анны.
🌸 Можно стать сидером уже существующих торрентов
🌸 Можно стать хостером теневой библиотеки самому
🌸 Флибусте, Интернет-Архиву и Архиву Анны можно задонатить!
Перераспределяя немного своих шекелей тем, кто работает на благо цивилизации бесплатно и рискует, вы приближаете победу открытого доступного знания.
🌸Кто теперь будет делать всю работу
Пока еще ML-щики. В обоих случаях хорошие результаты показывают агентные фреймворки и inference-time compute методы — их и стоит брать на вооружение:
🟣ReACT — фреймворк, включающий этапы Plan - Action - Self-reflection на каждом этапе генерации.
🟣ReACT Super — вариация ReACT с дополнительным действием Edit для облегченного редактирования файлов в обход bash-скриптов (агенты тоже плохо выходят из vim, видимо)
🟣AIDE / Solution Space Tree Search — метод поиска по дереву агентных решений, максимизирует качество в лимитированное время. Нужны модель-генератор, оценщик и селектор решений.
🟣MLAB из MLAgentBench — включает Reflection, Research
Plan and Status, Fact Check, Thought, а еще Action и Action Input.
🟣OpenHands из OpenDevin — SWE-ориентированный фреймворк с Actions и исполняемым кодом.
Сделала серьезные посты на следующую неделю, но сегодня суббота, давайте мемотред! #шитпост
Читать полностью…На этой неделе произошло много всего важного:
— в опенсорс вышла наша Llama 3.2, с маленькими моделями под on device, и новыми улучшенными версиями с мультимодальным инпутом
— у OpenAI опять ушла почти вся верхушка, ушли CTO, VP of Research, Chief research scientist.
— у меня с очень талантливым коллегами приняли статью на NeurIPS, и в понедельник я читала 2 лекции в Nuffield College в Оксфорде.
Можете представить, каким чувством собственной важности глубокого морального удовлетворения наполнилась моя жизнь, но на самом деле нет.
Совершенная заебанность работой в целом все компенсирует. Вчера ехала в электричке, смотрела скачанные выпуски передачи "Деструктор" с Епифанцевым. Пусть будет вместо рубрики #female_vocals в этом воскресенье!
🟣Выпуск 1 — интро, Надежда Кадышева и отечественный прогрессивный звук
🟣Выпуск 2 — Aphex Twin
🟣Выпуск 3 — Алексей Тегин и Святослав Пономарев экспериментируют с бон по, прежде чем сделать группу Phurpa
🟣Выпуск ХЗ — Einsturzende Neubauten
🌸FAANG собеседования. Behavioral 🌸
#собеседования
За последние года два я пособесилась в десяток компаний с сильным ML, и где-то ещё десяток не очень AI-native.
🌸Мой опыт
Прошла до конца в Meta, Snapchat, Spotify, HuggingFace, несколько стартапов.
Этот опыт был для меня совсем не лёгким, часто изнуряющим, но позволил мне лучше понять свои силы и научил объективно сравнивать себя с другими и закрывать пробелы. Делюсь с вами советами!
Собеседовалась и на менеджера, и на IC, поэтому за это время у меня были все секции:
ML fundamentals, Leetcode, ML Coding, ML home assignment, ML system design, просто System Design, Research Philisophy (что? да!), Research presentation, Leadership, Teamwork, People management, Project management.
Поскольку про тех собесы написано уже очень много, сегодня сосредоточусь на последних — они называются behavioral секции.
🌸Основы Behave
Чтобы пройти хорошо бихейв-интервью, нужно хорошо себя вести. Нет, не нужно! Нужно продемонстрировать поведение, соответствующее уровню вакансии (L4, L5, L6...) и принципам компании.
Leadership principles:
— Google
— Meta
— Amazon
(гуглите про свою компанию)
Сделать это все нужно, рассказывая истории в формате STAR — Situation, Task, Action, Results. Хороший пост на тему
🌸Как рассказывать про свой опыт?
Западному айти-рынку 20+ лет, все стандартизовано.
Вам надо иметь в запасе штук 6-8 историй из своего опыта.
— Истории должны покрывать следующие вопросы: 1-2 явных истории успеха, 1-2 явных истории неудачи, 1 случай где вы спасли всех, 1 случай где вы разрулили конфликт, пара примеров, как вы растили коллег вокруг себя. Для менеджеров дополнительно — как вы повышали и увольняли людей, как вы поддерживали команду, ваш стиль управления.
— Истории должны показывать ваш уровень, не надо брать истории, когда вы были мидлом, если вы собеситесь на сеньора. Максимальный импакт, масштаб, метрики.
— Хорошая привычка в карьере вообще — отслеживать импакт своей работы и знать его. То же справедливо и для резюме, по резюме должно быть видно, что и насколько было исправлено вами.
— Придумывать истории не надо. В каждой истории нужно показать, что вы можете доносить мысль и навигировать на разных уровнях дискуссии — и быстро объяснить, в чем суть, и в то же время в деталях прокомментировать технический челлендж. Человек, который не может — либо не участвовал в проекте на самом деле, либо врёт, либо плохой менеджер.
🟣Хороший пример, как это делать, и вообще youtube канал
🟣Хороший канал с примерами STAR — self made millenial
🟣В какой-то момент мне нужна была поддержка и хотелось мок-интервью, я брала их здесь и мне помогло. Брать карьерные консультации — осмысленно!
🌸Джентльменский набор
Итого, перед собеседованием у вас должно получиться в результате:
0) понимание уровня позиции и принципов компании.
1) Отточенное интро про себя из 3 предложений. Что вы делаете, пара ключевых тем и проектов, и почему вы хотите и подходите на эту позицию.
2) STAR-шпаргалка из ваших историй, которую вы за час до интервью перечитаете, чтобы не забыть детали. Истории вы на лету будете немного менять, чтобы подсветить конкретные принципы компании.
3) Список из 3 статей, которые вы хорошо помните и готовы поболтать про них. Желательно посмотреть накануне, кто вас будет собеседовать, и попробовать найти пересечение вашего опыта и опыта интервьюера.
🌸Вуаля! Вы восхитительны
В след раз поговорим про офферы и про реферралы
Собрались айтишники обсуждать зарплату
В пятницу стрим, 18 30 мск.
Будем говорить про карьерный путь в ML, процедуры найма, культуру работы и тд
Приходите!
🌸OpenAI O1 — новый лидер LLM🌸
#nlp #про_nlp #nlp_papers
Как и обещала, разбираем новые результаты OpenAI: что произошло и что это значит?
TL;DR
12 сентября OpenAI зарелизили новую модель — О1 — вместе с описанием и подробными оценками перформанса модели в разных сложных задачах. Модель показывает огромный прирост качества в задачах, требующих рассуждений и знаний. Модель построена вокруг многоступенчатого рассуждения и механизмов self-reflection, chain-of-thought.
🌸Основные достижения и оценка
Несколько месяцев назад Сэм Альтман стал предлагать методологию оценки систем_betterversion/gpt-5-will-have-ph-d-level-intelligence-cd7d1f119083"> по уровням: школьник — аспирант — профессор — теперь эта система с нами надолго!
Модель показывает очень существенный прирост качества на задачах прохождения школьных и выпускных квалифиционных экзаменов (MMLU), бенчмарков на решение математических задач и кодинга. Прирост относительно метрик GPT-4o существенный: от 4 до 35%!
Некоторые задачи, например, MMLU College Mathematics, решены на 98+%!
Но добавлены и новые
процедры оценки, которые готовят нас к следующим релизам:
— агентные оценки: оценки в степени автономности модели (пока низко), способности к убеждению (средне), оценки на применения в кибербезопасности (низкий риск), оценки катастрофических рисков ( а тут уже средний риск ой-ой).
При этом самих индустриальных агентных бенчмарков не дают, но думаю, сообщество скоро посчитает.
Доступа в интернет у превью модели нет.
Ну а теперь про последствия:
🌸Формат работы с LLM поменяется!
Если такой формат окажется востребован (а он окажется, но не во всех задачах — только в самых интеллектроемких), то некоторые вещи поменяются навсегда.
— Больше никакого промт-инжиниринга, "подумай шаг за шагом", "я дам тебе 10 долларов". Все это встраивается в ваш промпт за вас на бэкенде (так уже было с промптами Dalle 3 и у Anthropic), или вовсе встроено в процедуры SFT.
Модель уже сама додумывает, как лучше представить и дополнить ваш запрос, и затем исполняет его шаг за шагом.
— Полюбившиеся нам хаки и джейлбрейки тоже перестанут работать. У модели отдельные методы проверки на безопасность в режиме self-reflection.
🌸Формат обучения LLM и агентных систем тоже поменяется!
Если вместо большого претрейна собственной модели вы теперь только файнтюните Llama 3, то бог вам судья вы все делаете правильно. Но дальше — больше! По представленным результатам мы видим, что прирост качества от улучшения претрейна уже сатурировался, и если еще в этом году основной прирост приходился на вложения в качественный SFT, то теперь основной прирост бует приходиться на inference-time compute методы. DeepMind, к слову, делает то же самое.
🌸Ограничения
— Модель — экспериментальная, и нужно понимать, что это не продолжение работы над gpt4. Поэтому излишние рассуждения пока добавляются куда ни попадя (см скрин Сережи). Думаю, это вопрос времени, понять, в каких случаях рассуждения дольше 1-2 шага вообще необходимы.
— Митигация легальных рисков: в этот раз в самом начале статьи заявлено, что для обучения модели использованы нелегальные открытые данные, в том числе научные (читай: мы используем Anna's Archive), а также законные проприетарные данные, полученные в результате партнерств. Попробуйте поймайте!
🟣Playground https://platform.openai.com/playground/chat?models=o1-preview
🟣Score card https://cdn.openai.com/o1-system-card.pdf
🌸LLM хакают научную новизну🌸
#nlp #про_nlp #nlp_papers
Замечательная тема последнего сезона — акселерация научного прогресса с помощью LLM.
Новая работа — Can LLMs Generate Novel Research Ideas? — представляет интересный результат: в сетапе, подобном OpenReview (спасибо, что не в настоящем), рецензенты проводят двойное слепое рецензирование абстрактов статей, не зная, какие из них написаны людьми, а какие — моделью.
Оценивают критерии как и на обычных конференциях: общая оценка, новизна, интересность, осуществимость и ожидаемая эффективность работы.
🌸TL;DR
LLM могут писать предложения научных проектов, воспринимаемые рецензентами/комиссией как содержащие научную новизну и интересные. Это не значит, что научная новизна там есть. Это хак субъективных критериев процедуры рецензирования.
🌸Как это работает:
79 рецензентов оценивали 49 research proposals (кто хоть раз работал в НИИ или лабе, может представить, это такое предложение проекта или общей темы, над которой будет вестись исследование)
В эксперименте участвуют три типа работ:
1. Экспертные человеческие proposals
2. ИИ-сгенерированные proposals
3. ИИ-сгенерированные proposals с экспертным cherry-pick
Генератор идей работает по следующим принципам: извлечение статей из базы с запросом "новая работа на тему X" -> генерация идей по статьям -> ранжирование идей
В эксперименте участвуют 7 NLP-тем: Bias, Coding, Safety, Multilinguality, Factuality, Math, и Uncertainty Estimation
🌸Ограничения работы
— сигнал о том, насколько идея и исследование качественное, совершенно не всегда передается на стадии названия и абстракта
— в написании proposals участвовали в среднем молодые исследователи с h-index 5
— у рецензентов, в целом, не сильно больше — средний h-index 7. Хотя уверенность рецензентов в целом неплохая — 3.7 из 5
Стат критерий для оценки выбран правильно — модификация T-критерия Стьюдента, без ожидания равенства средних, но с предпосылкой о нормальном распределении данных, и с поправкой на множественное сравнение.
🌸Общие результаты таковы:
🟣Научная новизна
— ИИ идеи vs Экспертные — ИИ оценены как более новые
🟣Интерес рецензента
— ИИ идеи vs Экспертные — ИИ оценены как более интересные
🟣 Эффективность
— нет стат значимости
🟣Выполнимость
— нет стат значимости
🟣 Общая оценка
— нет стат значимости
🌸Три важных замечания от авторов:
1) У LLM нет разнообразия генерации идей. Идеи часто повторяются до степени полного дублирования.
2) LLM не могут консистентно рецензировать работы. Коэффциент согласия и констистентность у автоматических рецензий ниже, чем на конференциях сейчас (а мы знаем, что он низкий)
3) У ИИ-тем есть 6 типичных ограничений
— Слишком расплывчатое описание деталей реализации.
— Неправильное использование датасетов
— Отсутствующие или неподходящие бейзлайны
— Слишком требовательные к ресурсам
— Отсутствие мотивации
— Неиспользование принятой методологии
В то же время человеческие proposals
— более обоснованны,
— лучше опираются на текущие проблемы науки и индустрии,
— оцениваются как выполнимые, хотя и менее интересные.
🌸Общий вывод: сгенерированные идеи при наличии соответствующего промпта могут иметь преимущество и оцениваться рецензентами как более интересные и содержащие научную новизну. Это не значит, что научная новизна там есть, так как оценка по определению субъективная. Результаты были показаны на небольшой выборке работ. Чтобы подтвердить или опровергнуть этот вывод, необходим масштаб эксперимента NeurIPS.
В целом работа гораздо более методологически аккуратная и обоснованная, чем AI Research Scientist. Отличный пример того, как можно подходить аккуратно к LLM и вопросам научной новизны.
🟣Arxiv
🟣Github
🟣Поучаствовать в эксперименте
Через полчаса начинаем!
Вопросы можно задавать в комментариях к этому посту и на стриме
🌸Детектим ИИ-статьи 🌸
#nlp #про_nlp #nlp_papers
Совсем недавно мы говорили про AI scientist'а и подлежащую проблему в науке — огромное количество сгенерированных публикаций, отличить от настоящих которые рецензентам крайне трудно.
Вышла новая работа — LLM-detevtAIve — которая решает обратную задачу: детектирует научные статьи, написанные ИИ, с точностью 97.5%.
🟣TL;DR
Авторы собрали корпус из 300 тысяч научных текстов, в том числе намеренно сгенерированных, обучили классификаторы на основе RoBERTa и DeBERTa. Результирующие модели предсказывают с высокой точностью "сгенерированность" текста. В корпус вошли тексты Arxiv, Wikipedia, Pearread, и других источников.
LLM в эксперименте много! LLaMA 3-8b, LLaMA 3-70b, Mixtral8x7b4, Gemma 2 9B, Gemini 1.5, Mistral 7B, и даже старенькие Bloomz, GPT-4, DaVinci, Cohere, Dolly v2.
🟣Почему детектировать ИИ-текст сложно
В целом написание хорошего внятного научного текста — коллективная работа. Текст пишет и редактирует автор, часто не один, потом сверху полирует пруф-ридер, затем редактор и корректор.
Часть из этой цепочки неминуемо делается с помощью ИИ-инструментов, значит ли это, что весь текст нужно считать сгенерированным? Нет.
Поэтому авторы придерживаются следующей классификации текстов:
— авторский человеческий
— сгенерированный машиной
— авторский, но с LLM-постобработкой
— сгенерированный и с LLM-постобработкой.
В обучющую выборку были добавлены все случаи, а также тексты совершенно других жанров.
В целом жанры очень разнятся статистически, и детектировать ИИ во всех жанрах совершенно невозможно пока — примеры показывают, что даже конституцию США можно случайно посчитать сгенерированной, не то что сочинение.
🟣Будущее ИИ-детекции
Все продукты в это области, например, стартапы GPTZero, ZeroGPT, и в том числе и эта работа, не обладают достаточной надёжностью, чтобы использовать их для проверки честности людей при написании статей, сочинений, экзаменов и тд. Уже давно показано, что жанровое разнообразие сбивает детекторы и доверять им для принятия решения по работе нельзя.
Все могло бы поменяться, если бы OpenAI и другие LLM-провайдеры ввели вотермарки своей генерации. Сам провайдер всегда бы знал с большой долей уверенности, что именно его LLM использована для написания текста. Пока что это не делается из продуктовых соображений — потерять доверие пользователей при таком подходе можно враз.
Готовы ли мы с вами увидеть такой мир, где все тексты вдруг оказались маркированы как искусственные?
🟣Arxiv
🟣HF demo