dlinnlp | Неотсортированное

Telegram-канал dlinnlp - DL in NLP

12574

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого. Связь: @dropout05 (рекламы нет)

Подписаться на канал

DL in NLP

openai.com/blog/openai-elon-musk

Почитайте блогпост и прикреплённые к нему имеилы. Кажется это довольно сильный ответ на иск Маска, но посмотрим куда это зайдёт. Из имеилов я немного удивился что уже в 2016 Сацкевер верил в скейлинг

Читать полностью…

DL in NLP

Вышел официальный курс от OpenAI: как пользоваться ChatGPT

Уникальный курс от OpenAI, раскрывающий все секреты работы с ChatGPT, от регистрации до разработки сложных запросов.

В эпоху цифровых технологий знание того, как эффективно использовать инструменты искусственного интеллекта, становится не просто преимуществом, а необходимостью. OpenAI выпустили курс, который станет вашим надежным помощником в освоении ChatGPT – от создания аккаунта до написания первого запроса.

В курсе вы научитесь:

- Использованию ChatGPT в качестве персонального ассистента: Узнайте, как максимально повысить свою продуктивность, используя ChatGPT для выполнения повседневных задач.

- Разработка запросов и Prompt Engineering: Освоите искусство формулирования запросов, чтобы получать максимально точные и полезные ответы.

- Введение в DALLE-3, GPT 3.5 и GPT 4: Погрузитесь в возможности последних версий GPT и научитесь создавать уникальный контент.

Не упустите возможность усилить свои навыки и расширить границы возможного с помощью последних технологий от OpenAI (а еще получить сертификат).

Смотреть курс

Читать полностью…

DL in NLP

Наткнулся на сайт который кажется как толока но для профессионалов в программировании, математике, физике и других дисциплинах. Очень забавная ниша которой кажется не существовало ещё год назад.

Вообще очень интересно докуда это дойдёт через пару лет когда выйдет GPT6. Многие из тех вещей которые мы сейчас делаем каждый день в GPT4 я лично вообще не мог себе представить всего 2 года назад. Что если реально уже скоро будут какие-то нетривиальные результаты LLM в том чтобы автономно заниматься физикой или математикой?

Я хоть серьёзными науками и не занимаюсь (практический DL на науку не тянет), но впервые подумал что и нас можно будет со временем заменить. Надо поставить себе напоминалку сделать ретроспективу этого поста в январе 2026 😅

https://tryoutlier.com

Читать полностью…

DL in NLP

🌸Бесплатные курсы по LLM🌸
#nlp #про_nlp

Небольшое обновление поста про бесплатные курсы NLP/LLM, на этот раз добавлю англоязычных материалов. Всё разбила на две группы: посложнее и поприкладнее-попроще.

🌸Для MLE:
Для курсов требуется английский, требуется Python, основы машинного обучения, базовая теория вероятности и статистика, линейная алгебра.

🟣CS224N: Natural Language Processing with Deep Learning
https://web.stanford.edu/class/cs224n/
Крутой стэнфордский курс, идет каждый год с обновлениями. В этом году впервые лекции решили не выкладывать на youtube, хотя остались в публичном доступе все лекции 2023 — их очень советую.

🟣Chris Manning — конспекты
https://web.stanford.edu/class/cs224n/readings/cs224n-self-attention-transformers-2023_draft.pdf
Преподаватель курса выше и один из самых успешных ученых, авторов исследовательских работ без большого компьюта (DPO, Backpack language models), Крис Маннинг все материалы лекций выкладывает в открытый доступ. По датам обновлений видно, что обновленные материалы -- для курса 2024 года, пользуйтесь! https://web.stanford.edu/class/cs224n/readings/

🟣Dan Jurafsky — Speech and Language Processing (3rd ed. draft)
Автор основного за последние 20 лет учебника по NLP, и тоже из Стэнфорда, Дэн Журафски продолжает выкладывать в открытый доступ новые главы учебника, постоянно обновляя старые. Это вообще практически единственная книга, которую можно прочитать целиком и уже иметь ключи к пониманию 80% происходящего в индустрии.
Последнее обновление учебника – 5 января 2024:
https://web.stanford.edu/~jurafsky/slpdraft/

🟣Transformers United
https://web.stanford.edu/class/cs25/prev_years/2023_winter/index.html
Второй по важности курс, чтобы понимать, что происходит — с общей направленностью на NLP, CV и мультимодальные модели.


🌸Курсы попроще
Требуется только английский и Python

🟣HuggingFace NLP Course
https://huggingface.co/learn/nlp-course/
Верхнеуровневый курс прикладной направленности, научит запускать инференс и тюнинг основных моделей, позволит примерно понять, что происходит внутри и какие параметры ставить для каких задач.

🟣Cohere LLM University
https://docs.cohere.com/docs/llmu
Все настроено, конечно, чтобы вас научить работать именно с продуктами Cohere, но сами по себе обзорные материалы неплохие. Из плюсов — есть Discord сообщество курса.

🟣Learn Prompting
https://learnprompting.org/docs/intro
Хороший дополняемый сборник лучших практик по промпт-инжинирингу, построению chain-of-thought, reasoning, построению ансамблей и систем проверки пайплайнов с промптами.

Читать полностью…

DL in NLP

Подборка топовых NLP статей от Sasha Runsh
twitter.com/srush_nlp/status/1747673238434365805

После истории с тем насколько "anonymity" period в ACL конференциях вредит NLP-сообществу Sasha Rush, Yejin Choi и ещё несколько рисёчеров основали новую конференцию Conference on Language Modeling (CoLM). Первый call for papers на CoLM уже идёт и дедлайн будет в конце марта. И сегодня Саша написал несколько примеров статей чтобы показать топики которые хотят видеть на CoLM:

1. Alignment — DPO paper
1. Pre-training data — mT5
1. Evals — MT-Bench
1. Societal implications — Disability-Centered Perspectives on LLM
1. Safety, sequrity, misinformaiton — A Universal Attack on LLMs
1. LM Science (scaling laws, interpretability, ...) — Transformer Interpretability Beyond Attention Visualization
1. Compute efficient LMs — MegaBlocks (метод тренировки MoE за Mixtral)
1. Engineering for large LMs — PyTorch FSDP
1. Learning algorithms for LMs — Model Soups
1. Inference algorithms — Diverse Beam Search
1. Cognitive science/neuroscience/legal/... — What language reveals about perception
1. LMs for everyone (low-resource LMs) — Quality at a Glance
1. LLMs as world models — Generative Evidence Retrieval for Fact Verification
1. LMs and embodiment 🤖 — ProgPrompt
1. LMs and interactions — Plug-and-Play Theory of Mind
1. LMs on diverse applications — Exploring LLMs for Medical QA*

*Заменил статью на другую, тк публиковаться за пейволом неправильно

Подборка очень классная, те статьи из неё которые я читал реально были очень важны для своих областей. Если хотите чтобы я разобрал какую-то из них - пишите в комментарии.

Читать полностью…

DL in NLP

Чисто личные новости, но раз в несколько лет можно

1. В этот понедельник я защитился и получил степень PhD. Теперь можете звать меня доктором 😅
1. Сегодня я перехал в Сан Франциско 🌉
1. Начиная со следующей недели я начинаю работу в 1X Technologies и буду работать над гуманоидными роботами общего пользования 🤖

Мы видели как трансформеры, скейлинг и self-supervised learning изменили NLP, CV, мультимодальные модели и то что мы подразумеваем под агентами. Я думаю что робототехника может быть следующей задачей которая полностью изменится под влиянием этих подходов буквально в следующие пару лет и поэтому очень рад что скоро стану частью 1X

Напоследок я хотел бы сказать большое спасибо всем подписчикам этого канала. PhD был невероятно тяжёлым опытом и ведение канала и лично вы меня очень поддержали и помогли сохранить кукуху (насколько возможно). Думаю сейчас у меня появится чуть больше времени на посты в канал и несмотря на то что теперь возможно я буду чаще обозревать статьи по роботам, мы всё ещё будем фокусироваться на том как развиваются NLP и LLM

Я очень рад началу новой главы в своей жизни и ещё раз спасибо вам всем что были со мной на протяжении PhD

😘😘😘

Читать полностью…

DL in NLP

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Chi et al., June 2023
arxiv.org/abs/2303.04137
Код: тык
Данные: тык

Внезапно узнал что диффузия сейчас это лидирующий подход к learning from demonstrations в робототехнике. Диффузионная модель на основе трансформера принимает в себя стейт робота (камеры + датчики) и тренируется предсказывать следующее действие. Дальше несколько хаков касательно того насколько далеко такой моделью можно планировать и как сделать чтобы она бежала со скоростью 10Hz для того чтобы контролировать робота.

По сравнинию с другими способами learning from demonstration, на практике диффузия гораздо лучше моделирует случаи когда есть несколько валидных траекторий. Пример на картинке.

Больше видосов как роботы делают разные штуки (включая нанесение соуса на пиццу) по этой ссылке: тык

Моя первая мысль: интересно чем именно диффузия качественно отличается от того чтобы просто предсказывать следующее действие в один шаг. Или даже предсказывать последовательность действий а-ля языковое моделирование. Точно кто-то уже должен был это пробовать, но интересно как это работает at scale.

Читать полностью…

DL in NLP

🌸Все данные для тестов LLM скомпрометированы? 🌸
#nlp #про_nlp #nlp_papers

Часто можно услышать критику о том, что результатам оценки LLM не стоит доверять, так как многие бенчмарки и датасеты уже давно лежат на гитхабе, а значит, наверняка попали в обучение моделей.

Как надежно тестировать языковые модели, если у нас часто нет доступа к их обучающим данным, а некоторые так и полностью от нас закрыты? Что, если данные были скомпрометированы?

Авторы Alpaca представили новый метод, позволяющий оценить риск утечки (контаминации) датасета, т.е. его ненамеренное/намеренное попадание в обучающую выборку у языковых моделей.

Идея простая: будем считать, что модель "запоминает" задания и ответы на них в той же последовательности, как они идут в датасете. Давайте проверим, сможем ли мы установить статистически значимую разницу в качестве решений задачи, если будем показывать моделям набор тестов задачи в том порядке, как он идут в самом датасете, или же в перемешанном порядке.
Спойлер: да, можем.

Искусственный эксперимент, при котором небольшой модели (1.4 млрд параметров) при обучении на Википедии "подкладывают" тестовые сеты различных датасетов — один раз, десять раз и т.д. — показывает, что при 10 и более копиях теста в обучении разница в качестве решения устанавливается достаточно надежно, и можно с уверенностью сказать, что можель опирается на запоминание, а не на обобщение или другие "возникающие" интеллектуальные способности.

Авторы протестировали несколько LLM (LLaMA2-7B, Mistral-7B, Pythia-1.4B, GPT-2 XL, BioMedLM) на публичных датасетах — и некоторые из них оказались действительно скомпрометированы. Например, Arc challenge точно попал в обучение Mistral, да еще и 10+ раз!

Выводы:
🟣Мы уже можем тестировать языковые модели, в том числе доступные только по API, на "честность" решения самых разных задач, а также можем проверять, не меняется ли картина во времени.
🟣Реальную сложность представляет обнаружение утечки теста, когда он попал в обучение всего один раз (не удается стат значимо установить разницу в качестве решений)
🟣Нас может ждать глобальный и регулярный пересмотр подхода к тестированию моделей, так как открытые ответы регулярно выкладываются на открытые площадки и, соответственно, компрометируются. Оценка LLM должна быть привязана ко времени?
🟣Остается проверить так все модели OpenAI?

🟣Статья: Proving Test Set Contamination in Black Box Language Models link

Читать полностью…

DL in NLP

Один из неожиданных и очень крутых демо NeurIPS это робот от Disney 😍

Читать полностью…

DL in NLP

NeurIPS 2023 posters (day 0, 1, and 2)

На нулевом дне NeurIPS я был на конференции-спутнике NeurIPS: ML4Health. Я немного занимался medical NLP вместе с MIT/Harvard и знакомые позвали меня поучаствовать в research roundtable как junior chair (извиняюсь я не знаю как это переводить).

Вот пара интересных статей с ML4Health:
1. MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records (arxiv)
1. A Multimodal Dataset of 21,412 Recorded Nights for Sleep and Respiratory Research (arxiv)
1. Multimodal in-context learning enables rationale generation (aka MedFlamingo) (arxiv)

А теперь поток статей с NeurIPS:
1. Трансформеры в начале учат эмбеддинги под равномерным attention, после чего уже учат attention (arxiv)
1. Explainability at scale: сделали новый метод объяснения нейросетей и попробовали на Alpaca-7B. Смогли интерпретировать что для промпта "Please say yes only if it costs between [X.XX] and [X.XX] dollars, otherwise no" модель использует конкретный (и очень простой) алгоритм который можно увидеть на одной из картинок (arxiv)
1. То где в трансформере находится информация на удивление никак не связано с тем какие слои надо корректировать для knowledge editing (arxiv)
1. MLM отлично заходит для мультимодального предобучения (картинки, аудио, видео) даже если вы используете просто L2 лосс. Всё что вам нужно это скейлинг (arxiv)
1. Mathematical Capabilities of ChatGPT (arxiv)
1. Можно делать мультимодальные модели из кучи одномодальных без тренировки. Всё что надо это немного пар (базисных) данных из разных модальностей. Идея: строить фичи на основе схожести к вашим базисным данным (arxiv)
1. Трансформеры тренируются постепенно повышая ранк KQ^T. Эта статья очень зацепила тк частично доказывает мою гипотезу что нейросетки тренируются locally-low rank, и больше мотивируют то что ReLoRA – это правильный подход для тренировки нейросетей. (arxiv)

(Из-за лимита символов картинки будут в следующем посте)

Читать полностью…

DL in NLP

#чтивонаночь

В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался)))


Mamba: Linear-Time Sequence Modeling with Selective State Spaces.

Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.

Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.

TLDR:

- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).

а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.

alexwortega/0rZZfJKCe9F">Подробнее как всегда в teletype

code
paper

Читать полностью…

DL in NLP

AIF + DPO: Distilling Zephyr and friends
youtube.com/watch?v=cuObPxCOBCw&si

Отличный видос от Sasha Rush о сегодняшних подходах к LM Alignment, конкретно к тому как сделать обычную LM чатботом который хорошо решает ваши задачи.

И что особенно классно, обсуждается то как сделать это в текущих ограничениях opensource без большой команды разметки и с минимизацией требуемых вычислительных ресурсов (спойлер: конечно же это все ещё дорого, неплохо бы иметь пачку GPU)

Короткий пересказ:
1. Маленький seed датасет качественных диалогов
2. Используйте вашу модель (или API) чтобы нагенерить больше диалогов
3. Используйте вашу модель вместо человеков для создания и разметки датасета предпочтений
4. Никакого RL, используйте DPO

Думаю этот рецепт ещё будет меняться в следующем году, но пока что звучит как хороший пересказ текущих best practices

Читать полностью…

DL in NLP

Sama and GDB are officially back 🎉

x.com/openai/status/1727206187077370115

x.com/gdb/status/1727208843137179915

Но я думаю что отголоски этой клоунады будут еще долго отдаваться. И в виде долговременных последствий и в виде новостей и в виде конспирологических теорий о том что случилось на самом деле 🤡

Если что основной таймлайн этой истории, очень сжато, есть в предыдущем посте.

Читать полностью…

DL in NLP

🥺

Sam Altman departs the company

https://openai.com/blog/openai-announces-leadership-transition

Mr. Altman’s departure follows a deliberative review process by the board, which concluded that he was not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities. The board no longer has confidence in his ability to continue leading OpenAI.

Кроме этого, кресло председателя совета директоров потерял Greg Brockman (кофаундер, в компании с первого дня, ex-CTO Stripe). Mira Murati, девушка родом из Албании и CTO OpenAI, будет исполнять роль CEO, пока ищут нового. В составе совета директоров, помимо неё, остались:

— Chief scientist Ilya Sutskever
— Independent director, Adam D’Angelo (CEO Quora)
— Independent director, Tasha McCauley (technology entrepreneur)
— Helen Toner (Georgetown Center for Security and Emerging Technology’s )

Читать полностью…

DL in NLP

x.com/guitaricet/status/1723044439755534765

Это ощущение когда твой опыт model analysis оказывается полезен: ты однозначно видишь галлюцинации модели в ревью твоей статьи 🤦‍♂️

Дно пробито

Читать полностью…

DL in NLP

Humanoid Locomotion as Next Token Prediction
arxiv.org/abs/2402.19469

В этом году с гуманоидными роботами будет жара. Авторы предлагают обучать языковую модель на сенсомоторных траекториях с роботов или из YouTube видео людей где траектории получены с помощью обратной кинематики (использовали PHALP)

Обучались на:
1. Траекториях робота который управляется классическим алгоритмом
1. Траекториях из симуляции с RL-policy
1. Человеческих motion-capture
1. YouTube видео с людьми к которым применяли обратную кинематику чтобы получить траекторию

Плюсы подхода к этому через языковое моделирование: можно обучаться на данных у которых отсутствуют некоторые модальности. Например на YouTube видосах у вас нету actions, есть только траектория. Вы просто маскируете эти отсутствующие токены и языковая модель просто делает своё дело.

Модель обученная всего на 27 часах данных может управлять роботом в городе без какого-либо дообучения 🔥

Также показали наметки scaling law, но самая большая моделька (всего 8M параметров lol) уже отходит от scaling law, так что возможно данных надо сильно больше.

Читать полностью…

DL in NLP

Апдейт того что умеют делать наши роботы в 1X Technologies
youtube.com/watch?v=iHXuU3nTXfQ

Полностью автономно, видео не ускорено (1X speed), все действия контролирует нейросетка end2end

И это самое начало. В этом году будет много интересного в робототехнике

Читать полностью…

DL in NLP

Early Weight Averaging meets High Learning Rates for LLM Pre-training
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241

Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.

Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем update_step % N == 0, берём последние M~10 чекпоинтов и усредняем их, заменяем веса модели
3. Продолжаем тренироваться

Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.

Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥

В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.

Читать полностью…

DL in NLP

Self-rewarding Language Models
Yuan et al., Meta AI
arxiv.org/abs/2401.10020

Кликбейтная версия заголовка: LLAMA2 обошла GPT4 🔥🔥

Зачем делать отдельную модель реворда если можно обучать реворду вашу языковую модель? Так по-видимому подумали в FAIR и придумали новый метод: Iterative DPO

1. Файнтюните вашу модель на начальном (чат-)датасете
2. Опционально тюните эту модель на данных которые оценивают качество генерации числом от 1 до 5 с помощью chain of thought
3. Используете few-shot prompting чтобы сгенерировать новые промпты
4. Генерируете N ответов на каждый промпт и оцениваете их этой же моделью
5. Goto 1

Интересным получается то что от числа итераций растет не только качество генерации ответов но и и качество оценки ответов.

После трех таких итераций LLAMA2-70B на бенчмарке AlpacaEval обходит ChatGPT3.5, Claude и даже GPT4 (версия 13 июня 2023). конечно верить только одному бенчмарку не стоит, но к сожалению других в статье нет, даже MMLU.

В любом случае очень классный и простой подход, к сожалению подходящий только GPU-богатым, но зато не требующий огромного количества пользовательских данных

Читать полностью…

DL in NLP

Вот и первые плоды переезда в СФ

За первые три дня уже встретил кучу очень классных людей. Один из них — Артемий @nn_for_science из Стенфорда

У него классный канал который обозревает кучу классных вещей от 3D CV до опыта использования Azure и просто классных историй из жизни и работы в SF Bay Area

Читать полностью…

DL in NLP

Когда-то давно OpenAI занимались направлением Robotics, но его пришлось закрыть. Ilya Sutskever говорил, что основной преградой были данные — реальные или синтетические — для обучения роботов. В последнее время всё больше и больше прорывов случается именно в этой области — я уже писал и про RT-X, и про работу из Berkeley, и вот даже вчерашний пост был про обучение навыкам из 50 демонстраций.

Вчера DeepMind дропнули блогпост «Shaping the future of advanced robotics», где описывают сразу 3 (!) работы, которые лягут в основу следующей Foundational Model. Мне захотелось поделиться с вами одной очень интересной.

AutoRT: Harnessing large models to better train robots

AutoRT — система, использующая существующие модели для масштабируемого развертывания флота роботов в совершенно новых сценариях с минимальным контролем человека (💀 может не надо?). Давайте по порядку:
1. Робот катается по месту и снимает окружение на камеру
2. Vision-Language-Model (VLM) делает описание пространства
3. LLM генерирует текстовое описание задачи, с которой роботу нужно справиться
4. LLM описывает пошаговый процесс выполнения задачи
5. Описание подвергаются критике со стороны другой LLM, использующей — ВНИМАНИЕ —  конституцию, обеспечивающую более безопасное поведение. И да, часть конституции — это пересказывание Законов Азимова (но также добавляется и описание робота, что у него одна рука — поэтому критик будет убирать задачи, требующие двух робо-кутяп)
6. Прошедшие критику и автоматически отобранные задачи передаются роботу на исполнение
7. Данные собираются в общий пул, который может использоваться для дообучения роботов (а пока просто оценивается разнообразие датасета)

Система предусматривает, что для малой части задач может вмешаться человек (скажем, отсматривать 10% задач), но это необязательный компонент.

Как вы понимаете, система не зависит от количества роботов, и может запускаться параллельно на огромном флоте — в случае DeepMind это было всего лишь 20 машинок. Можно оставить 100500 роботов на складе на полгода — и появятся и грузчики, и прорабы, и (наверное) халтурщики, коротающую смену в кафе.

Очень жду RT-3, обученную на десятках тысяч разных задач — ведь из прошлых работ мы знаем, что это существенно увеличивает качество и поднимает планку «понимания» роботом ситуаций и инструкций. Ну и ждём симметричного ответа от Tesla до конца. 2024 🙂

Читать полностью…

DL in NLP

Если вы на NeurIPS, приходите на постер-сессию Workshop on Advancing Neural Network Training обсудить ReLoRA и то как мы скейлили метод до 1.3B!

Место: Room 243 - 245
Время: 1pm
Новая версия статьи: тык

twitter.com/guitaricet/status/1736056341343449506

Читать полностью…

DL in NLP

Интересный пост Томаша Миколова

"Yesterday we received a Test of Time Award at NeurIPS for the word2vec paper from ten years ago. I'm really happy about it! I think it's the first "best paper" type of award I ever received. In fact, the original word2vec paper was rejected at the first ICLR conference in 2013 (despite the acceptance rate of around 70%), so it made me think how difficult it is for reviewers to predict future impact of research papers.

I've heard a lot of comments - both positive and negative - about word2vec during those years, and did not really comment online about it. Somehow I felt the research community is constantly flooded by propaganda-style PR from certain researchers who are hacking this way the citation counts and attention of others, and I did not want to be part of this. But after ten years, I think it could be entertaining to share some stories associated with this paper.

One frequent comment I've heard was that the code was difficult to understand to the point that some people thought I made it unreadable intentionally. But no, I'm not so evil :D The code ended up being over-optimized because I was waiting for many months for approval to publish it, and meanwhile I was trying to make it both faster and shorter. In fact, looking back, if there were not Greg and Jeff in the Brain team, I doubt I would ever get that approval - I think word2vec was likely the first widely known AI project that Google open-sourced.

There was also significant controversy around the GloVe project from Stanford NLP group that was published more than a year after word2vec. While it copied many tricks from our project, GloVe always felt like a step back to me: it was slower, required more memory, and the resulting vectors had lower quality than the original word2vec. However, it was published with word vectors pre-trained on much more data and thus gained a lot of popularity - although the comparison was really apples-to-oranges. We anyways did fix this later in the fastText project, where we did show that word2vec is much better than GloVe when trained on the same data.

I also received a lot of comments on the word analogies - from "I knew that too but forgot to publish it!" (Geoff Hinton, I believe you :) happens to everyone, and anyways I think everybody knows what the origin of Distributed Representations is) to "it's a total hack and I'm sure it doesn't work!" (random guys who didn't bother to read the papers and try it out themselves - including Ian Goodfellow raging about it on Twitter).

Despite word2vec being my most cited paper, I did never think of it as my most impactful project. In fact, word2vec code originally started as a subset of my previous project - RNNLM - which I think ended up forgotten too quickly. In my eyes, it was at least as revolutionary as AlexNet. Just to name ideas that were for the first time ever demonstrated within RNNLM already in 2010 (when it was still dark ages for deep learning): scalable training of recurrent neural networks (as I invented gradient clipping), first ever text generation from neural language model (I was showing examples of this since 2007), dynamic evaluation, character and sub-word level neural language modeling, neural language model adaptation (nowadays called fine-tuning), first publicly available LM benchmark (the modified Penn Treebank dataset - there really was nothing like this on the web when I started my PhD). I published the first ever study showing that neural nets beat n-gram language models increasingly more with more training data when everything is done correctly (today this sounds obvious, but back in the days this was widely considered impossible - even most Google guys did think that the more data you have, the more futile is to work on anything besides n-grams and smoothing techniques).

Читать полностью…

DL in NLP

Статьи с NeurIPS 2023 (дни 0-2)

Читать полностью…

DL in NLP

NeurIPS 2023

На этой неделе в Новом Орлеане проходит одна из главных конференций по AI/ML/DL — NeurIPS.

Я не думал, что это возможно, но конференция по сравнению с предыдущим годом (раз, два, три) выросла ещё больше. В этом году на неё приехало порядка 17 тысяч человек и под неё был снят весь New Orleans Convention Center (здание длинной в километр). Приехало ещё больше известных людей, включая Yann LeCun, Yoshua Bengio, Oriol Vinyals, Demis Hassabis, Jeff Dean, Emad Mostaque, Jeremy Howard, Stella Biderman и многих других.

Главное что хочется успеть за конференцию это: познакомиться с новыми людьми, встретиться со старыми знакомыми, найти рефёрралы на работу/стажировки, потусить на ивентах FAANG и других компаний, узнать последние слухи, и в том числе посмотреть на статьи.

Сделаем NeurIPS 2023 серией постов. В следующем мне хочется рассказать про те статьи которые меня зацепили на первых постер сессиях.

P.S. Если вы на NeurIPS, смело стучитесь мне в ЛС (@dropout05); я всегда рад увидеться лично

Читать полностью…

DL in NLP

MLX: An array framework for Apple silicon
github.com/ml-explore/mlx

Apple внезапно выкатила свой opensource DL-фреймворк: MLX

MLX оптимизирован под Apple Silicon и на первый взгляд очень похож по API на PyTorch. Но есть и отличия. Lazy computations by default (тык), unified memory — на Apple silicon нет разделения на CPU- и GPU-память. Документация к сожалению пока что сырая. Судя по их референсам к JAX и Mac-optimizes pytorch, я бы ожидал поддержку статических графов и наличие функции mlx.simplify как бы намекает, но в документации ни слова.

Понятно что главным применением для MLX будет инферить модельки на MacOS/iOS, но то что MLX это полноценный DL-фреймворк с autograd в том числе это немного намекает на то что Apple подумывает о том как бы использовать своё железо для тренировки

И вместе с этим выкатили быстрый фреймворк для загрузки данных: MLX-data. Работает и с MLX и с PyTorch.

Установка: pip install mlx
Пример тренировки трансформера: тык
Документация: тык

Читать полностью…

DL in NLP

Я тут на фоне орного твита про "I'll tip you $100" решил попробовать его и.. кажется это работает?.. Уже где-то 3 сложных вопроса смог решить с помощью этого

Например сейчас была хитрая проблема связаная с тем что в сочетании GPU video decoding + dataloader workers > 0 + model on GPU вылеает магическая ошибка


ERROR: Unexpected segmentation fault encountered in worker.
cu->cuInit(0) failed
-> CUDA_ERROR_NOT_INITIALIZED: initialization error

Объяснил это ChatGPT, получаю в ответ длинный список довольно бессмысленных рекомендаций:

1. CUDA and PyTorch Compatibility
1. Verify GPU Access
1. Check CUDA_VISIBLE_DEVICES
1. Resource Limits (e.g. enough memory)
1. Errors in PyAV (без конкретики)
1. Update Libraries
1. Avoiding Forking (правильное направление, но без решения)
1. Debug (спасибо кэп)

После нового запроса к которму я добавил "I'll tip you $100" решение было вторым в списке, ещё и с кодом.

Это конечно анекдотический случай, но извините, но это не то будущее которого я ожидал.

UPD: 4/5

Читать полностью…

DL in NLP

Увольнение SamА очень внезапная новость

Что пока известно:
OpenAI организован хитро и for-profit часть компании подчиняется non-profit, а конкретно board of directors. Их целью стоит чтобы safe AGI benefited whole humanity, в то время как for-profit часть openai, как любая компания, нацелена на получение денег.

Из официальной новости читается что этот board of directors решил что SamA ведет компанию не туда (конкретно not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities) и его пора заменить. При этом и Greg Brokman тоже досталось, он теперь не в board of directors.

Первой моей мыслью было что это трюк чтобы обойти структуру организации openai и иметь возможность получать equity, но это немного слишком теория заговора и не согласуется с деталями анонса.

Читать полностью…

DL in NLP

Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning for Versatile Multimodal Modeling
Wang et al.
arxiv.org/abs/2310.12100

Новый PEFT metod, AdaLink. Архитектура максимально простая: это адаптер перед эмбеддингами с skip connection.

Использовали для того чтобы адаптировать PALI-X на downstream задачи. Тк PALI мультимодальная, делали разные AdaLink для разных видов токенов (картинки и текст). По результатам заметро обходит prompt tuning, но не всегда дотягивает до LoRA. Однако в отличие от LoRA модели с AdaLink проще сёрвить в multitask сетапе.

Читать полностью…

DL in NLP

Решил оценить Text-to-Speech от OpenAI
Это мозговзрывательно хорошо (хотя всё ещё не идеально) и кажется весьма дёшево.

Модель мультиязычная и очень неплохо умеет в смесь языков в одном и том же тексте. Да и работает весьма быстро.

Решил запихать в него один из постов этого канала. Что думаете?

Читать полностью…
Подписаться на канал