dl_stories | Неотсортированное

Telegram-канал dl_stories - DLStories

14835

Новинки искусственного интеллекта и нейронных сетей. Разборы статей. Ну а вообще, посчу, что захочу :) Сотрудничество/предложения: @atmyre Поддержать: https://t.me/dl_stories/521

Подписаться на канал

DLStories

Помните, рассказывала про курс по LLM в Лондоне, где читала несколько лекций? И упоминала, что у них скоро должен запуститься новый курс по LLM Engineering. Так вот, время пришло, курс запускается!

Итак, курс LLM Engineering Essentials от Стаса Федотова и Nebius Academy.
Рассчитан на разработчиков или ML-инженеров (то есть, не совсем новичков), которые хотят больше узнать о LLM-ках и начать создавать свои AI-сервисы. На курсе будет про то, как устроены LLM-модели (обещали даже мою лекцию включить, хех), как с ними работать, как их деплоить. Ну и, как обычно на хороших курсах — куча практики: в процессе вы сделаете чатбот из любимого фэнтези-персонажа и создадите собственную фабрику NPC!
Более конкретно, будет шесть больших тем: Working with LLM APIs, LLM workflows and agents, Context, Self-hosted LLMs, Optimization and monitoring, Fine-tuning.

Еще про курс:
- курс полностью бесплатный
- обучение полностью онлайн
- Старт 7 мая, курс рассчитан на 12 недель. 7 мая в 20:00 по Лондону будет вводный вебинар. Регистрация на него тут
- Во время обучения будут еженедельные Q&A со Стасом и другими лекторами — а это означает живой фидбэк и возможность задать кучу вопросов.

Все материалы лежат на GitHub курса, их уже можно начать разбирать.

Ссылки:
🎓 Сайт курса
💻 GitHub репо с материалами
📰 Регистрация на вводный вебинар

Читать полностью…

DLStories

Еще наблюдение про GPT и образование: мы сейчас делаем олимпиаду DLS. Она проходит в два этапа, отборочный и финальный. На этих выходных вот был отбор, финал будет в конце апреля. На каждом туре олимпиады дается несколько практических задач (а-ля обучите модель на таком-то датасете), и несколько теоретических на математику+ML, где надо дать численный ответ. На финальном этапе будет прокторинг (то есть, специальный человек будет смотреть на ваш экран все время, пока вы решаете задачи, и сделить, чтобы вы не читерили), а вот на отборочном его не было. То есть, участники могли пользоваться GPT/Claude/whatever. А значит, надо было попытаться составить такие задачи, которые эти всякие GPT-like штуки не могут слишком легко решить.

Поэтому перед стартом олимпиады мы сами скормили задачи ChatGPT, Deepseek и Claude, и смотрели, какие она стабильно решает, а где лажает. Из 7 теоретических задач студенческого трека были две такие, на которых все LLM стабильно лажали, выдавая разные, но неправильные ответы. Одна из этих задач — переформулированная задача про лапшу (ее стащила отсюда). А вторая задача — это я решила выяснить, кто из участников олимпиады ботал задачи с прошлого года (хе-хе 🤣), и дала новый вариант прошлогодней задачи "Неоднозначный PCA" (про нее я писала тут). Разница в условии с прошлым годом была только в точках, на которых строится PCA.

Так вот. После завершения отбора статистика правильных ответов по задачам, кажется, хорошо отражает то, насколько просто задачу решает ChatGPT =) На тех задачах, которые GPT решает правильно, участники дали 85%-95% правильных ответов, а вот на этих двух задачах правильных решений всего 45%. При этом задача про лапшу — это задача на простой теорвер, и я бы ожидала, что ее решат большее количество людей, чем некоторые другие задачи, если бы доступа к ChatGPT не было. Может, конечно, дело в чем-то другом (мало ли, может, мы где-то неправильно настроили чекер верных ответов, мы уже плохо соображали в ночь на субботу). Но пока что вывод такой, что люди правда пользуются ChatGPT для решения задач, если у них есть такая возможность ¯\_(ツ)_/¯

Теперь еще вот о чем думаю: мне в LinkedIn уже второй раз в сообщения прилетает предложение работы вида "придумывать задачи по математике, которые LLM не сможет решить". Видимо, собирают датасет для обучения более мощной LLM или чего-то такого. Теперь думаю, может, согласиться, и скормить им эти две задачи, будут easy money 🙃

Читать полностью…

DLStories

Еще про олимпиады — открыта регистрация на вторую олимпиаду Deep Learning School по машинному и глубокому обучению!

Даты:
5-6 апреля — отбор
29 апреля — финал

Формат олимпиады такой же, как в прошлом году. А именно:

▫️Два трека: школьники и студенты+. В школьном треке могут принять участие ученики старших классов школ. В треке “студенты+” могут участвовать вообще все желающие.

▫️В каждом треке будут несколько теоретических и практических задач на темы, связанные с ML/DL. В теоретических задачах нужно будет отправить правильный ответ в проверяющую систему. В практических задачах нужно будет построить модель машинного обучения для решения задач по темам классического ML, CV и NLP.

▫️ Лучшие участники получат призы и баллы для поступления в бакалавриат/магистратуру МФТИ.

Регистрация до 9:00 МСК 5 апреля.
Подробнее об олимпиаде читайте на сайте DLS. Там же внизу страницы можно найти задачи прошлого года и их решения.
Если остались вопросы, заходите в телеграм-канал с новостями олимпиады.

Читать полностью…

DLStories

В этот вторник в Лондоне завершился первый поток курса Intro to ML from an LLM Standpoint, в котором я тоже принимала участие как лектор. Это очный бесплатный курс, который создавал и организовывал Стас Федотов, который долгое время курировал ШАД в Москве, а теперь вот перебрался в Лондон, и делает курсы по ML тут. Это был моей первый опыт преподавания на английском, еще и сразу оффлайн перед людьми, но мне очень понравилось! На первом занятии еще ощущала волнение, и, наверное, это было заметно, но к четвертому уже привыкла и вошла в обычное свое состояние во время чтения лекций. Правда, я обычно очень увлекаюсь, забываю про перерывы и никогда не справляюсь закончить лекцию в отведенное время (а тут лекции были по 3 часа!) 😅 Тут происходило так же)

Из интересного — этот курс был в некоторой мере экспериментальный, мы рассказывали об устройстве современных LLM не "с основ ML до сложных Transformers и LLM", а почти наоборот — начиная с обзора устройства LLM и идей вроде промптинга, reasoning, RAG, и постепенно спускаясь ниже, внутрь, попутно изучая основы ML, которые нужны для понимания всех частей LLM. Мой внутренний перфекционист ощущал от этого немного боли, потому что я люблю в курсах основательный фундаментальный подход от простого к сложному, когда все сложные идеи постепенно составляются из более простых частей и не приходится нигде махать руками и говорить фразы типа "ну вот тут такая идея, а как именно это работает, узнаем потом". Но я при этом понимаю, что не все хотят идти на огромный курс и несколько недель изучать основы, чтобы понять, как устроены LLM, поэтому нужно учиться балансировать и создавать курсы типа этого. Получилось, вроде бы, даже хорошо. Короче, эксперимент классный. Ну и, в любом случае, мои четыре занятия в этом курсе были довольно фундаментальные без махания руками, поэтому у меня точно все хорошо)

Если вы в Лондоне и вам было бы интересны подобные курсы — следите за Стасом и Nebius Academy. Кажется, скоро должен быть курс по LLM engineering, и там, по словам Стаса, получается довольно насыщенная программа с кучей практики. Ну и, зная Стаса и людей, которые с ним делают курсы, курс будет точно хороший.

Вот пост в LinkedIn про окончание курса еще, порадуйте Стаса, поставьте лайк🙃

Читать полностью…

DLStories

С Новым Годом! Желаю всем не продолбать этот новый год. А если вам скучно на январских, то у меня для вас есть новый выпуск подкаста Deep Learning Stories!

Гость этого выпуска — Лаида Кушнарева, выпускница мехмата МГУ, старший академический консультант в компании Хуавей и автор телеграмм канала "Техножрица". А еще Лаида — первый автор нашей совместной статьи "Boundary detection in mixed AI-human texts", которая получила outstanding paper award на COLM в октябре.

Обсудили с Лаидой в подкасте: 
- Путь Лаиды в рисерче;
- Задачу fake text detection: почему она сложная, что там интересного, как сейчас обстоят дела, и что насчет будущего этой задачи;
- Устройство процесса ревью и принятия научных статей. Как остаться честным в этом всем;
- Как Лаида использует математику в работе, и помогает ли ей математическое образование.

Ссылки:
🔊YouTube
🔊VK
🔊Apple Podcasts
🔊Spotify
🔊Яндекс.Музыка

------------------
Школа DLSchool и подкаст живут во многом благодаря вашей поддержке. Поддержать нас можно на Boosty, мы будем очень рады❤️

Читать полностью…

DLStories

Про нашу статью "Boundary detection in mixed AI-human texts" написали в газете "Коммерсантъ" 🌝🌝🥴🥴
(это та статья, у которой Outstanding Paper Award на COLM)

Мда, подано в "Коммерсанте" так, будто мы прям отлично научились решать задачу fake text detection, а еще какие-то "уникальные разработки" для этого придумали. А еще всегда весело в таких статьях читать, как пытаются объяснить всякие термины типа frozen models))
Короче, не верьте всецело тому, что пишут про "научные прорывы" в обычной прессе

Блин еще и фамилию мою неправильно написали, черточку над "и" забыли 😠

Читать полностью…

DLStories

Завела раздел "blog" на своем сайте, добавила туда пост о PhD в Лондоне на английском, а еще запостила об этом в Твиттер.

Буду очень рада лайкам и новым людям в Твиттере 🥰

Читать полностью…

DLStories

А тем временем вышел новый эпизод подкаста Deep Learning Stories!

Гость эпизода — Михаил Васильев, — deep learning engineer, который начал свой путь в IT и ML после 35 лет. Начинал Михаил с курсов Яндекс.Практикума и нашей Deep Learning School, а сейчас он еще организатор одного из сообществ выпускников Практикума.

О чем поговорили с Михаилом:
- путь в IT после 35: какие сложности и выховы ждали на пути;
- впечатления и польза от курсов. Важность коммьюнити и поддержки;
- как искать работу после курсов;
- как Михаил создавал сообщество выпускников и зачем.

Слушать:
🔊YouTube
🔊dlschool_mipt/uploaded?z=video-155161349_456239191%2Fclub155161349">VK
🔊Apple Podcasts
🔊Spotify
🔊Яндекс.Музыка

------------------
Школа DLSchool и подкаст живут во многом благодаря вашей поддержке. Поддержать нас можно на Boosty, мы будем очень рады❤️

Читать полностью…

DLStories

Это я и мой научник по PhD с моим постером сегодня утром на ECCV. Это был мой первый раз, было прикольно. Приходилось говорить нон-стоп, потому что люди подходили один за другим, и в какой-то момент я даже не могла больше говорить из-за пересушенного горла)

Очень жду ещё конференций и презентации своих работ там🙃

Читать полностью…

DLStories

По поводу межнара по AI (IOAI) на следующий год: в следующем году отбор и подготовка к нему будет идти более структурированно и продуманно. А отвечать за все будет Саша Гущин. И он просил передать, что один из вариантов отобраться в сборную в следующем году — попасть на всерос по AI (да, оказывается, такой есть). Регистрация на всерос открыта ещё 4 дня, так что заполняйте заявку, если ещё не.

Читать полностью…

DLStories

Помните, писала, что у нас с коллегами приняли статью на COLM, но конференция в США и ни у кого из нас нет виз? Так вот, конференция 7-9 октября в Филадельфии, и мы все еще в поисках человека, который мог бы туда поехать и презентовать нашу статью😢

В том посте я писала, что нужно будет постоять рядом с нашим постером. Но теперь все немного сложнее: наша статья попала на oral (spotlight). То есть, нужно будет выйти сделать доклад по нашей статье на 12 минут🌝

Поэтому если вдруг вы или ваши коллеги едут на COLM, и готовы с этим нам помочь, напишите, пожалуйста, Лаиде. Вы очень-очень нам поможете!
(Я помню, что под предыдущим постом были люди, готовые помочь. Спасибо вам большое, что тогда откликнулись! Если вы все еще готовы помочь, будем очень рады)

Читать полностью…

DLStories

Мы наконец открыли набор на осенний семестр Deep Learning School!

DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами. В этом семестре мы улучшили многие занятия, записали новые версии лекций и семинаров и обновили домашки.
- Вторая часть полностью посвящена обработке естественного языка (NLP). Начинаем с эмбеддингов слов и заканчиваем GPT-2,3, RLHF, RAG и другими актуальными темами вокруг LLM.

Сейчас идет набор на оба потока обучения — часть 1 (введение в DL + CV) и часть 2 (NLP).

Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и программы обучения можно найти тут.

Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций в обеих частях курса.

Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.

❗️Для первой чати курса также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.

Старт обучения — 21 сентября. В этот день откроется первое занятие и будет живой вводный вебинар.

Чтобы зарегистрироваться на курс, нажмите на кнопку "поступить" на нашем сайте.

Ссылки:
Наш сайт
Подробная программа и оргинформация обоих частей курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
🧡 Поддержать нашу школу на Boosty

Если остались вопросы, пишите нам на почту (dlphystech@gmail.com) или в комментарии под этим постом.

Ждём вас в чатике курса в новом семестре!

Читать полностью…

DLStories

Закрытие и награждение теперь по этой сслыке, начинается сейчас: https://youtu.be/ni_rah3dfIw

Читать полностью…

DLStories

Ребята из DevCrowd попросили рассказать об их исследовании специалистов DS/ML/AI. Это масштабное исследование на следующие темы:
- что входит в обязанности той или иной профессии;
- какие навыки в профессии наиболее важны и каких знаний не хватает;
- сколько зарабатывают специалисты в зависимости от опыта и грейда;
- полезные для развития каналы, курсы и книги;

Проходите опрос, рассказывайте про ваш опыт и помогите сделать исследование более масштабным! А результаты появятся в открытом доступе в конце сентября. Это поможет вам сравнить свои ожидания с рыночными, построить план своего развития, и просто понять, что происходит с индустрией.

➡️Пройти опрос
А тут можно посмотреть другие исследования проекта

Читать полностью…

DLStories

Очень классный туториал с недавнего ICML: Physics of Language Models.

Я бы даже сказала, что это не туториал, а довольно большая работа по LLM explainability. Конкретнее, авторы хотят приблизиться к ответу на вопросы "где находится и как устроен intelligence у LLM" и "что делать, чтобы intelligence усилить, т.е. подойти ближе к AGI".

Подход у них довольно интересный. Авторы делят intelligence на три категории:
- Language structures. Это о том, как LLM выучивает сложную структуру языка. Т.е. какие механизмы в этом задействованы и как идейно происходит обработка текста;
- Reasoning. Это про способность LLM к рассуждениям, выводам и аргументации;
- Knowledge. Как устроено хранение информации в LLM, как ей манипулировать и как объем информации, которую вмещает LLM, зависит от количества ее параметров.

Изучать это все предлагают следующим образом: давайте для каждой категории сгенерируем синтетические данные с заранее известными свойствами, на которых будем обучать LLM и смотреть, как LLM эти свойства выучивает. К примеру, для language structures авторы предложили сгенерировать датасет семейства контекстно-свободных грамматик со сложной структурой (более сложной, чем у обычных английских текстов). Обучая модель на таких данных авторы смотрят на то, что происходит внутри модели (например, какие паттерны attention активируются) и делают выводы о том, каким образом, каким алгоритмом LLM обрабатывает язык.

В посте ниже опишу общие выводы, которые авторы делают из своей работы. А вот ссылки на видео/статьи туториала:
Сайт
Part 1: Hierarchical Language Structures:
- Видео;
- Статья на arxiv;
Part 2: Grade-School Math:
- Видео будет тут после 20 августа;
- Статьи на arxiv: часть 1, часть 2 обещают вот-вот;
Part 3: Knowledge:
- Видео;
- Статьи на arxiv: часть 1, часть 2, часть 3

Читать полностью…

DLStories

А вот условия тех двух задач, которые GPT решает плохо:

Хоровод

100 учеников Deep Learning School устроили вечеринку, и на ней решили станцевать хоровод. Собираются они в хоровод так: в каждый момент времени соединяются две случайные свободные руки. При таком процессе иногда образуется кольцо — хоровод. Каково матожидание числа хороводов, которое получится, если продолжить этот процесс до тех пор, пока не останется свободных рук?
Обратите внимание, что две руки одного человека также могут соединиться в описанном процессе, и тогда получится хоровод из одного человека.


Неоднозначный PCA
Известно, что алгоритм PCA не всегда даёт однозначный ответ, потому что максимальный разброс может достигаться в проекции на несколько различных направляющих векторов. Дан набор данных из 201 точек в двумерном пространстве: (x_i, x_i) ∪ (x_i, -x_i), x_i ∈ range(-50, 51). Для этого набора данных обучили PCA с одной главной компонентой (n_components=1 в библиотеке sklearn). Какое количество различных ответов могло получиться? Иными словами, найдите количество направлений, проекции точек датасета на которые имеют максимальный разброс. Направления, отличающиеся только знаком направляющего вектора, считаются различными.

Читать полностью…

DLStories

С 2022 по 2023 годы я вела в МГУ курс по основам AI. У курса был формат, где на каждом занятии был один jupyter notebook с теорией и практикой, и мы по нему шли. Курс я уже не веду, но ноутбуки у меня остались, и мне нравится, как я их сделала. И у меня была мысль перевести их на английский, немного дополнить, причесать и выложить на GitHub как открытый курс "DL Intro". И я даже потихоньку начала это делать, вот репозиторий, там уже есть первые два урока (Intro to NN, PyTorch, Backprop).

Но вот недавно я думала о том, какой рисерч делать дальше после недавней статьи (статья кстати вот, чуть позже о ней тоже напишу), и мне стало интересно исследовать многообразия, которые составляют векторы-выходы разных слоев диффузионной модели. Я начала читать статьи и думать над тем, как вообще такое делают, и в итоге залезла куда-то в дифференциальную геометрию. И тут ко мне пришла очень гениальная мысль: а что если спросить у GPT объяснить мне то, что я не понимаю? Или спросить что-то типа "вот я хочу вот это понять про многообразие, могу ли я это сделать и как?"
Тут если вам кажется, что эта мысль ничерта не гениальна и все делают так каждый день, то я до этого момента GPT не использовала вообще. Ну, 3-4 раза за все время, может, и по каким-то совсем отвлеченным поводам. Чувстсвую себя бабкой, честное слово))

Так вот, на мои эти вопросы GPT выдала очень классные саммари и предложения, и для некоторых вещей даже код написала (и даже почти совсем правильный). И если веруться к разговору про курс: теперь я думаю о том, что, возможно, с помощью GPT можно довольно быстро собрать неплохой такой курс по чему угодно. Так-то объяснения по диффгеому GPT выдавала понятные и достаточно развернутые, а если чего-то не хватает, то можно попросить пояснить. И теперь думаю о том, насколько усилия по составлению курсов людьми из головы становятся оправданы)

Думаю, что этот курс я все-таки доделаю и выложу (снова, вот ссылка, буду рада звездочкам 🙃), все же ноутбуки у меня в основном готовы, нужно их только причесать. Но в то же время пойду понимать, на что способна GPT, у меня теперь есть подписка на GPT и Claude, буду их мучить. Все-таки преподавание — это значительная часть моей работы, которую я люблю и хочу развивать, и хочется понимать, как делать эту работу лучше и быстрее. И не делать того, что можно не делать. Правда, в создании курсов я перфекционист, мне редко нравятся чужие объяснения, и я очень долго продумываю свои. Но посмотрим, может, GPT справится и удивит меня еще больше) Пока думаю, что, как минимум, в качестве помощника в составлении общей структуры курса и поиска дополнительных материалов GPT точно должна быть полезна.

Читать полностью…

DLStories

Выше писала про call for tasks на IOAI-2025, а теперь еще вот открыт прием задач для отбора сборной России на IOAI-2025. Подробная инфа про то, какой должна быть задача и как ее подать — в канале Саши Гущина, который отвечает за подготовку сборной. От себя добавлю, что в гуглдоке с инструкцией написано, что задача должна быть оформленной, но я бы сказала, что приносите Саше идеи, даже если они half-baked — возможно, на основе идеи вместе получится придумать что-то очень хорошее. Собственно, сам Саша в своем посте тоже так пишет) Ну и задач для отбора нужно довольно много, так что не стесняйтесь) Возможно, какие-то из идей потом пойдут куда-то еще, не только на текущий отбор.

P.S. Дедлайн подачи 14 марта

Читать полностью…

DLStories

Открыт набор на весенний семестр Deep Learning School!

DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и GAN.
- Вторая часть полностью посвящена обработке естественного языка (NLP). Начинаем с эмбеддингов слов и заканчиваем GPT-2,3, RLHF, RAG и другими актуальными темами вокруг LLM.
Как обычно, этом семестре мы продолжили улучшать многие занятия и домашки, записывать новые версии лекций и семинаров.

Сейчас идет набор на оба потока обучения — часть 1 (введение в DL + CV) и часть 2 (NLP).

Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и программы обучения можно найти тут.

Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций в обеих частях курса.

Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.

❗️Для первой чати курса также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, дополнительные вебинары и возможность переноса дедлайнов по домашкам. Подробнее о нем читайте на нашем сайте.

Старт обучения — 15 февраля. В этот день откроется первое занятие.

Чтобы зарегистрироваться на курс, нажмите на кнопку "поступить" на нашем сайте.

Ссылки:
Наш сайт
Подробная программа и оргинформация обоих частей курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
🧡 Поддержать нашу школу на Boosty

Если остались вопросы, пишите нам на почту (dlphystech@gmail.com) или в комментарии под этим постом.

Ждём вас в чатиках курса в новом семестре!

Читать полностью…

DLStories

Один из авторов задач межнара по AI (IOAI) просил передать, что сейчас открыт набор задач на следующую олимпиаду IOAI 2025.

Предложить задачу могут все желающие. Чтобы это сделать, нужны описание задачи, датасет, бейзлайн и метрики. Задача должна быть нетривиальной, иметь возможность частичных решений и не требовать большого количества времени и ресурсов. В качестве примера можно посмотреть на задачи IOAI 2024 — они правда были очень интересные!

Авторов лучших задач пригласят на саму олимпиаду в Китае летом 2025. Дедлайн подачи — 31 января 2025. Подробности и любые вопросы можно спросить у Евгения в канале

Читать полностью…

DLStories

Еще небольшая ремарка по PhD

Познакомилась сегодня в универе с новым постдоком, с которым у нас нашелся общий интерес в рисерче. Мб выйдет даже коллаборация. Так вот, он сказал фразу типа "я ожидал, тут будет много людей, с которыми можно будет поработать. На самом деле, я особо не вижу тут заинтересованных в подобной теме людей"

Я ответила "Yeah, I agree". Когда я только начала PhD, я была довольно сильно удивлена, что в моей группе все PhD студенты занимаются довольно разными вещами, и нет никого, кто делал бы что-то похожее на мою тему. Постдоков в нашем недавно созданном институте DERI (это типа AI рисерч центр внутри универа) тогда не было вообще, их стали нанимать недавно, и то большинство занимаются medical domain. Только у двоих людей из моей группы есть пересечение тем, и они даже статью совместную написали, но, опять же, это medical imaging.

Когда я шла на PhD, я как-то даже не думала, что так может быть. Мне казалось, что обычно в универах PhD группы довольно плотны по темам, и, наверное, если я обсудила тему со своим научником, то эта тема соотносится с тем, что делает группа. Мне искренне хотелось найти в лабе людей, с которыми я могла бы обсуждать темы, статьи, и делать совместные проекты. У нас в лабе даже не было митинга, где бы студенты собирались и рассказывали друг другу про свою работу или разбирали статьи. Теперь такой митинг есть (c моей подачи), но и на нем чаще всего обсуждаются оргмоменты (как писать/ревьюить статьи, куда подавать) или чья-то работа, но уже после публикации или прямо перед презентацией на конфе.

Это мое упущение, что я не задумалась об этих аспектах до того, как пойти на PhD сюда. Но вы, если думаете о PhD, не будьте как я и имейте это в виду: что полезно собрать информацию про то, как живет лаба у научника, прежде чем туда идти.

Я в своей ситуации при этом нахожу плюсы: по крайне мере, мне дают делать то, что нравится, не загоняя в рамки определенных тем. Я учусь сама находить тему, ставить вопросы, планировать эксперименты, писать статьи. И мой научник реально очень классный как человек и ментор в научном сообществе. Это тоже очень важно, потому что я слышала много историй о том, как какой-нибудь известный и "крутой" в научных кругах профессор оказывался ужасным ментором, у которого делать PhD было очень неприятно. Это тоже стоит попытаться выяснить до того, как коммититься куда-то на PhD.

Читать полностью…

DLStories

В ноябре будет два года, как я на PhD в Queen Mary University of London. По этому поводу написала пост с моментами, на которые стоит обратить внимание, если вы задумываетесь над тем, чтобы сделать PhD в Лондоне/UK.

Тизер к статье: когда я выбирала место для PhD, я по личным причинам рассматривала только Лондон. Поэтому я не особо погружалась в нюансы и различия между PhD программами в UK и в других странах. А зря =( Общую идею поста, наверное, можно подвести так: если бы я заранее осознавала моменты, описанные ниже, я бы выбрала поехать куда-то еще.

atmyre/1dZUxGS4yag">Пост

Читать полностью…

DLStories

Наша с коллегами статья "Boundary detection in mixed AI-human texts" получила outstanding paper award на COLM! (на который, как помните, никто из нас не поехал из-за визовых трудностей в US ¯\_(ツ)_/¯)

Поздравляю коллег! По такому поводу Лаида (первый автор статьи) написала у себя в канале серию постов про то, как эта статья создавалась. История нескучная, там есть надежды, разочарования, падения и взлеты :)

Ну и ссылки ещё раз:
📃Статья
👨‍💻Код на GitHub (будем рады звездочкам🌝)

Читать полностью…

DLStories

В преддверии завтрашней презентации своей статьи на ECCV-2024 накатала atmyre/NXEHPCIxZJz">подробный пост о том, про что статья. Кратко — о новом способе использовать CLIP guidance для обучения модели image enhancement. Если будут вопросы по статье, спрашивайте в комментариях!

А если вы на ECCV, то приходите завтра в утреннюю постер-сессию к стенду #103, буду очень рада =)

Читать полностью…

DLStories

А ещё с сегодняшнего дня я на ECCV в Милане. Если вы тоже тут и хотите встретиться, пишите!

Послезавтра (3.10) на утренней постерной сессии буду презентовать свою статью. Приходите! Ближе к делу ещё напишу о статье :)

Читать полностью…

DLStories

А вот еще ивент для тех, кто уже немного знаком с NLP, но хочет сильнее погрузиться в эту тему с индустриальной точки зрения и порешать реальный кейс: DLS совместно с ecom.tech проводят бесплатный онлайн NLP-воркшоп.

На воркшопе вас ждет NLP-задача из индустрии в виде Kaggle-style соревнования, а также лекции и мастер-классы от специалистов ecom.tech и DLS. Авторы топ-20 решений получат призы от ecom.tech, а пятёрка лучших сможет лично встретиться со специалистами ML-команды и разобрать своё решение в индивидуальном порядке.

Воркшоп пройдет с 19 сентября по 9 октября. Регистрация открыта до 24 сентября.
Подробная информация и регистрация на интенсивна сайте DLS (сразу под главным баннером)
После регистрации на интенсив также вступайте в тг-чат

Читать полностью…

DLStories

По итогу IOAI хочу собрать статейку о том, как была устроена олимпиада и какие там были задачи и их решения. Но пока что я этого не сделала, а вот один из авторов задач (да, правда автор задачи на межнар!) про свою задачу уже статью написал.

Статья вот. В ней:
- краткий обзор формата олимпиады и всех трех задач;
- как появилась ML-задача: откуда взялась идея, как готовились данные, какие идеи решений были у участников;
- дополнение от коллеги — кратко о том, как готовилась задача по CV.

Читать полностью…

DLStories

Помните, рассказывала, что помогаю готовить школьников к межнару по AI? Так вот, финальный тур прошел 11 числа, и наши дети взяли первое место! Причем с огромным отрывом от второго =)

Через пару часов будет награждение, прямая трансляция будет тут.
А вот видео с представлением команды еще до олимпиады.

Какие они классные, очень за них рада ☺️

P.S. Про задачи напишу как только их выложат в открытый доступ

Читать полностью…

DLStories

Общие выводы работы из поста выше получаются такие:

Для language structures:
- LLMs выучивают структуры довольно сложных иерархических грамматик, и некоторые виды attention (relative/rotary) очень важны для этого умения;
- принцип, которым LLM обрабатывает последовательность грамматики, подобен динамическому программированию;
- выбросы и шумы в обучающих данных очень важны для повышения робастности модели.

Для reasoning авторы собрали синтетический датасет задач по математике, обучили на этом модель и получилось вот что:
- есть некоторые свидетельства того, что LLM таки не просто запоминает тренировочные примеры, но действительно учится рассуждениям и логическим выводам;
- обнаружили, что часто модель научается находить в данных такие зависимости, которые даже не нужны для решения этих задач. То есть, происходит генерализация: модель выучивает навыки, которые в принципе для хорошего результата на датасете не нужны. Как пишут авторы, "это небольшой сигнал о том, откуда может взяться буква 'G' в слове AGI";
- простой linear probing внутренних представлений модели может показать, когда модель ошибается. И ошибки можно детектировать в процессе работы модели, то есть даже до того, как модель начнет генерировать текст ответа;
- глубина (но не общий размер) модели влияет на способность LLM к reasoning. Модель с 16 слоями размерности 567 научается решать гораздо более сложные задачи, чем 4-слойная модель со слоями размерности 1970. Несмотря на то, что у 4-слойной модели в целом параметров больше;
- опять же, шумы и ошибки в обучающих данных помогают модели учиться лучше.

Knowledge: здесь авторы изучают то, как LLM запоминают факты во время обучения и потом извлекают их во время инференса для ответов на вопросы. Выводы такие:
- интересно, но если обучать LLM на смеси "тексты с фактами" + "вопрос-ответ", то LLM хорошо генерализуется. То есть, хорошо научается отвечать на вопросы про объекты, которых не было среди обучающих текстов. А вот если сначала обучить LLM на текстах с фактами, а потом дообучить на парах вопрос-ответ, такой генерализации не происходит. Похоже, говорят авторы, разнообразие данных при предобучении сильно влияет на итоговую генерализацию модели;
- при двух типах обучения, описанных выше, знания внутри модели получаются закодированы по-разному. Это влияет на способность LLM выделять нужные знания из своих внутренних представлений при ответе на вопрос;
- такая генерализация наблюдается у decoder моделей типа GPT-2, но не у encoder-моделей типа BERT;
- можно выделить некоторые типичные фейлы LLM. Например, LLM хорошо отвечают на вопросы типа "когда родился Вася", но не умеют отвечать на "обратные вопросы" вида "кто родился 05.11.1996?". Или не могут вывести строчку "четный год", не напечатав "1996". На основе таких примеров авторы предлагают собрать "универсальный тест Тьюринга", который пока не проходит ни одна LLM, даже GPT-4.

Ох сколько интересного чтения предстоит =)

Читать полностью…

DLStories

Тут такое дело — мы в DLS выпустили мерч, худи и футболочки!
Изначально они выдавались в качестве призов призерам олимпиады (и мне за хорошую работу, хехе), но теперь их можно купить!

Фотки мерча и купить туть

А я жду, пока мне мои экземпляры кто-то из России привезет 🙃

Читать полностью…
Подписаться на канал