Машинное обучение, графы, языковые модели. Чуток про карьеру исследователя в FAANG, путь PhD и щепотка полезной математики. Связаться с автором: @deltaincorrect. Рекламы в канале нет.
Не зря, получается, постил про нобелевки – заманил в офис одного известного в узких кругах физика
Читать полностью…Почему графы?
В комментариях к новому интро задали понятный вопрос: как так сложилось, что я занимаюсь графами? Об этом я и сам частенько задумываюсь 🤪, так что пора и вам рассказать.
Для начала – немного истории: моё первое знакомство с около-рисёрчем по графам произошло на последнем курсе бакалавриата НИУ ВШЭ – мне хотелось повыпендриваться и написать наукоёмкую выпускную работу. Тогда был расцвет графовой кластеризации: люди придумывали быстрые алгоритмы оптимизации модульности, исследовали её пределы разрешающей способности, и писали на эту тему красиво свёрстанные стостраничные обзоры. Я набрёл на новую функцию, альтернативную модульности, с говорящим названием Surprise. Для неё тогда не было показано результатов жадного алгоритма (который для модульности называется алгоритмом Лёвена), вот его я придумал, заимплементировал, и чуток побенчмаркал. Хоть тогда он никому не приглянулся, начало было положено.
После вышки я пошёл в сколтех, где мне повезло работать с Panagiotis Karras, у которому тоже были интересны графы. Сначала мы пытались придумать что-то про influence maximization, но потом, ближе к концу магистратуры, я набрёл на тему графовых эмбеддингов – вот с этого момента всё и завертелось, потому что стало понятно, что их можно глубоко изучать в аспирантуре.
В изучении графов меня подкупает несколько аспектов. Во-первых, интуитивно простая модель данных: объяснить понятие графо можно за чашкой чая бабушке. При этом в области много интересных и глубоких результатов, связывающих графы с другими областями математики. Во-вторых, широкая применимость: если ты придумаешь хороший метод решения почти любой задачи на графах, шанс, что им воспользуются учёные в прикладной области, довольно велик. В-третьих, связанность с реальным железом: из-за неприспособленности компьютеров для работы с графами, для разных размеров задач можно придумывать новые алгоритмы, которые будут использовать, например, распределённые вычисления.
Почти на любые данные можно смотреть, как на граф, а иногда это даже бывает полезно. С другой стороны, любителям машинного обучения как область для вкатывания рекомендовать графы тоже не особо хочется. 😐
Запустили Gemma 2 зафайнтьюненную на японский. Веса – на HuggingFace.
Заодно запустили соревнование на Кэггле на $150k 👀 на адаптацию Gemma к 73 разным языкам, включая русский и украинский. Ждём ваших сабмитов!
Очередной день, очередной кризис репликации в науке. Три недели назад я писал про дело Франчески Джино, теперь под подозрением Элизер Маслия – один из топовых учёных по исследованиям болезней Альцгеймера и Паркинсона. У него примерно 800 опубликованных статей, и до недавнего времени был главной подразделения нейронаук в National Institute of Aging.
Журнал Science опубликовал свою выжимку из полного досье – и там полная жесть. Проблемы в 132 👽 статьях, следы уже почти профессиональной манипуляции. Важен ещё и домен, в котором работал Маслия: налажать в лекарстве от Паркинсона – это вам не исследования честности, от фальсификаций в которых плохо будет разве что паре сотен MBA с маккинзоидами. Интересно, будут ли какие-то последствия ⛓, кроме увольнения – всё-таки от Альцгеймера умирает больше ста тысяч человек в год, а прогресс замедлился буквально на годы.
Рекомендую почитать оригинал статьи в Science: там сильно больше подробностей. Обидно, что такими темпами доверие к науке как институту подорвётся полностью.
У EleutherAI вышел классный гайд по muP параметризации LLMок.
Для тех, кто не знает, muP – Maximal Update Parameterization – это серия статей, в которых Greg Yang (сейчас в xAI) развивает теорию параметризации глубоких сетей. Что-то вроде Neural Tangent Kernel или анализ сетей при помощи теории среднего поля, но с выводами более таргетированными на обучение сеточек градиентным спуском. Один из результатов – стабильная инциализация параметров сетей, которая позволяет избавиться от необходимости тюнить learning rate градиентного спуска.
В статье "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer" с ребятами из OpenAI Грег выводит методы инициализации трансформеров. Нужно сказать, что, скорее всего, в индустрии не все инициализируют веса по muP, всё-таки теория и практика отличаются на практике. Тем не менее, с muP для каждой части нейросети мы можем (хотя бы в теории) сказать, корректно ли она пропускает через себя градиенты. Градиентные энергетические блоки – бич многих глубоких сеток, и дебажить такое – сплошная головная боль.
Сам Грег предлагает начинать знакомиться с теорией со статьи "A Spectral Condition for Feature Learning", к чему мы с уважаемыми подписчиками и приступим. 🤓
Часто говорят, что PhD плохо влияет на психическое здоровье, а вот теперь подъехали данные: доля медикаментозного вмешательства существенно увеличивается к концу программы.
Берегите кукуху, дорогие подпичики, она стоит того. 🫂
CVPR – крупнейшая в мире конференция по компьютерному зрению – анонсировала несколько существенных изменений процесса подачи и рецензирования статей. CVPR – конференция крупнейшая не только в компьютерном зрении, но и вообще в мире. Например, она занимает второе место в мире по цитируемости, аккурат после Nature.
Во-первых, всех авторов статей заставят рецензировать. В более лёгком формате такая система уже работает на конференциях типа NeurIPS и ICLR, вот только там заставляют рецензировать хотя бы одного автора. Интересно, что станет с нагрузкой на рецензентов: по идее, она может очень существенно снизиться в результате такого нововведения.
Во-вторых, если ты свою работу рецензента делаешь спустя рукава, твои работы могут быть не приняты к публикации. С одной стороны, это много раз предлагалось кровожадной частью научного сообщества (никому не нравится получать пустую рецензию), с другой – непонятно, будет ли система полностью справедливой. Конечно, ещё интересно, сколько у авторов CVPR рецензии съест собака или испепелит робот на кухне. 🤤
В-третьих, запрещается подавать более 25 статей на конференцию. Тут нужно заметить, что принимается на CVPR примерно четверть поданных статей, так что самым плодовитым авторам (в 23 году у одного китайского профессора было 24 принятых статей) придётся начать выбирать, что подавать. Таким машинам для публикаций придётся либо мигрировать на других площадки, либо улучшать качество статей.
Остальные нововведения касаются запретов на использование языковых моделей для анализа статей (переписывать текст рецензии можно) и видимости имён рецензентов во время фазы дискуссии. Как думаете, все эти нововведения останутся и перекочуют в ML конференции?
Пример решения довольно нетривиальной задачки, с которой текущие модели не справляются
Читать полностью…Вчера суд Массачусетса вынес решение отклонить иск Франчески Джино к Гарварду и коллективу DataColada, который раскрыл фальсификации в нескольких работах Франчески. Этот скандал с фальсификациями – самый громкий за последние несколько лет: Джино была одним из ведущих учёных-бихевиористов, её работы были классикой в области. Дополнительную перчинку придаёт скандалу название её книги, вышедшей за пару лет до разоблачения: "Rebel talent: Why it pays to break the rules at work and in life". Такая вот ирония судьбы. 🤔
Мне кажется решение довольно важным в контексте прецедентности: расследовать чужой фрод в исследованиях – можно и нужно, в науке должно быть больше разоблачений плохих методов и сомнительных практик. Один из моих любимых блогов по теме ведёт Лиор Пахтер, который знатно проезжался по сомнительно известному в узких кругах исследователю графов Альберту-Ласло Барабаши.
А в ваших областях существуют такие правдорубы? Приглашаю обсудить в комментариях. 👀
До анонса принятых статей на NeurIPS – самую большую конференцию по машинному обучению – осталось чуть меньше трёх недель, но за кулисами кипит работа по финальному отбору статей. За последние годы конференция достигла колоссальных размеров – в прошлом году на конференцию было подано чуть более 13000 статей. 👥👥
Обслуживает этот поток ценных идей пирамида из 13000 рецензентов, 1000 area chair и 100 senior area chair. Каждый рецентент должен отрецензировать 6 статей, а area chair назначается на пачку из 12 статей, по которым должен принять окончательное решение, советуясь со своим senior area chair. В этом году меня первый раз повысили до смотрящего area chair 😎, из-за чего у меня немного поменялись взгляды на весь процесс.
Во-первых, сильно начали меняться оценки авторов после фазы rebuttal (ответа авторов на рецении). Рецензенты как будто боятся сразу поставить высокую оценку и выжидают, когда им станут доступны рецензии других людей. Сверяются с ними, что ничего не пропустили, и потом поднимают оценку. В моей пачке в среднем скор вырос на полбалла – и это с учётом статей, которые авторы сняли с процесса.
Во-вторых, авторы слишком увлекаются спорами с рецензентами. В двух случаях авторы в своих ответах писали то, что в конечном итоге цементировало моё решение о реджекте статьи. В одном особенно неудачном случае авторы решили конфиденциально сообщить о том, что, по их мнению, рецензент некачественно выполняет свою работу и вообще дурак . Пришлось глубоко разобраться в статье и прочитать сопровождающий код – оказалось, неправы были авторы. 🤦♂️
Ещё из новых ощущений – конфликт интересов: в этом году четыре статьи из моей пачки – работы, написанные на основе моих предыдущих статей. Для таких статей тяжело найти баланс – с одной стороны, я область знаю наизусть и поэтому могу склоняться выбирать понятные для себя статьи. С другой стороны, любые ошибки и сокрытия я тоже вижу с пол-пинка, так что авторам приходится несладко.
С увеличением ответвенности стало интереснее заниматься процессом – если честно, рецензировать я уже подзадолбался. За всё время я написал уже больше 100 рецензий, и сил моих читать одинаковые ошибки больше нет. Посмотрим, все ли мои решения останутся неизменными после поверки с senior AC.
Кстати, если у уважаемых подписчиков есть какие-то вопросы по всему процессу, могу попробовать ответить в комментариях. 👉
Почему почти у всех полезных матриц маленький ранг?
В нашей с вами жизни матрицы малого ранга встречаются на каждом шагу, например, в моделировании физических свойств физических систем (анализ теплопроводности или модальный анализ вибраций), в рекомендательных системах, сжатие изображений – везде, если поискать , можно найти матрицы с небольшим рангом. 🧐
Это невероятно удобно: с матрицами малого ранга можно делать абсолютно неприличные вещи – например, для матрицы n × n ранга d можно восстановить все её элементы из случайно выбрав C*N^{1.2}*r*log n значений. Понятное дело, все операции – матвеки, подсчёт нормы и всяких разложений тоже существенно ускоряются. В наших любимых LLMках матрицы малого ранга используются для тюнинга и создания адаптеров для решения разнообразных задач.
При этом, случайные Гауссовские матрицы имеют (с огромной вероятностью) полный ранг. Каким-то образом получается, что для матриц "из жизни" ранг оказывается небольшим. 🤪
Самое, наверное, известное – наш мир образуют гладкие функции (скалярные и векторные), а они порождают матрицы маленького ранга. На днях я набрёл на альтернативное объяснение (откуда украл картинку для поста): матрицы в реальном мире похожи на результат матричных уравнений Сильвестра. У таких матриц будет маленький displacement rank – он свойственен системам, где можно выбрать разные точки отсчёта. Оценки у ребят получаются довольно некрасивые (кому нравится считать числа Золотарёва?), но зато точные. Кстати, в этом нашем диплёрнинге low displacement rank matrices уже успели поприменять. Широко известные в узких кругах Albert Gu и Tri Dao тоже отметились.
Всем подписчикам желаем низкого ранга по жизни – ну, чтобы гладко всё было, да. 👍
А сегодня на том же самом KDD представили Test of Time award за самый значительный вклад статьи десятилетней давности – её получил по совместительству мой менеджер Брайан за первую работу по нейросетевым графовым эмбеддингам DeepWalk: Online Learning of Social Representations. 🤴
Треть моей Ph.D. диссертации посвящена как раз эмбеддингам графов, так что эта награда – некоторая легитимизация нашего общего направления исследований. За всё время с Брайаном у нас написано ~15 статей и несколько патентов, многие из них – про эмбеддинги графов. Кстати, у меня не было кодинг-интервью в гугл как раз из-за того, что в моём гитхабе была довольно популярная имплементация этого метода на C++.
Самое удивительное, что за 10 лет метод по качеству не был побит. 👌
Прошло полтора года, и наконец-то про Vizier выпустили статью!
Для тех, кто почему-то не следил за проектом полтора года 🤷♂️, Vizier – это внутренний сервис гугла для оптимизации гиперпараметров (и не только их) на основе гауссовских бандитов. Его кишки переписали на Jax, поэтому он быстро работает на GPU.
В опенсорсе я пользовался Nevergrad от Meta, тоже отлично работает. В статье, к сожалению, нет прямых сравнений.
Наткнулся тут в твиттере на тред, описывающий результаты статьи про моделирование “форм историй”, прямо по Воннегуту. У статьи как раз юбилей – 500 цитирований, да и тред такой радостный – должно быть что-то достойное.✨
Учоные делают следующее – берут первую попвашуюся тулзу для анализа тональности текста и натравливают на известные книги постранично. Получают временной ряд и берут от него PCA. Получаются вот такие красивые фигуры как на иллюстрации к посту – посмотрте, полное подтверждение теории! К сожалению для всех – так делать категорически нельзя. Почему? Попробуйте подумать сами, а нетерпеливых приглащаю сразу к себе под спойлер. 🏃♂️
Ни о какой универсальности найденных нарратианых арок по результатам данного анализа речи быть не может – PCA, применённый к траекториям броуновского движения, сходится к гармоникам Фурье. Кстати, в своё время университет Чикаго эту идею Воннегута не принял как магистрский тезис. Что-то, получается, знали. Для пущей наглядности этот эффект для дорогих подпищеков проиллюстрируем при помощи следующего колаба.
Так что, дорогие подпищеки, интерпретировать результаты даже железобетонно-проверенных методов стоит с большой осторожностью. 👆
P.S. Услышать форму барабана тоже нельзя. Как говорила мама, спектральный анализ вообще до добра не доводит.
Nicholas Carlini, исследователь безопасности машинного обучения, широко известный в узких кругах тем, что со стилем ломает (и опять и ещё) защиты от adversarial attacks, выпустил большой блогпост 💪 про то, как он пользуется языковыми моделями в программировании и других повседневных задачах. В целом – вполне понятные задачи написания простого и одноразового кода, объяснение ошибок и тому подобное. Но всё-таки мне очень нравится то, что в посте нет как пустой критики, так и THIS IS HUGE – такой вот хороший use-case driven development.
Кстати, (1) у него на ICML этого года вышел часовой туториал про то, как он думает про безопасность LLMок и (2) у него в 2024 году сразу две (1, 2) лучших стати на ICML. 😩
Кто получает Нобелевки?
В недавно опубликованном препринте под названием "Access to Opportunity in the Sciences: Evidence from the Nobel Laureates" рассматриваются два фактора для Нобелевских лауреатов: персентиль доходов родителей и уровень их образования (и профессия). Оказывается, средний лауреат вырос в семьях в 90м персентиле по доходу🤴 и образованию. Для женщин всё (как обычно) хуже – средние женщины-лауреаты – дети более элитных семей, чем мужчины (91 против 87).
Неравенство в доходах и образовании родителей в каком-то смысле позволяют оценить, сколько таланта мир теряет из-за неравных возможностей к получению знаний. В мире без неравенства средний лауреат был бы из семьи с около-медианным доходом, но до этого нам, как до луны. Надо сказать, что прогресс не стоит на месте: в 1900 средний лауреат был из 92 персентиля, сейчас – из 85. Также анализируется род деятельности родителей – тут неудивительно распространены белые воротнички: доктора, учёные, госслужащие, юристы.
Также авторы сравнивают коэффициенты по доходу между разными регионами; оказывается, что в восточной Европе с системой общего образования неравенство было значительно сильнее, чем в США. 🇷🇺 В причины и аналитику статья не погружается, оставив нам материал для срача цивилизованной дискуссии в комментариях. 👉
Закроем пост грустноватой цитатой палеонтолога Стивена Джея Гулда, которая стала эпиграфом к статье:
Меня почему-то меньше интересуют вес и извилины мозга Эйнштейна, чем почти уверенность в том, что люди равного таланта жили и умирали на хлопковых полях и в потогонных цехах.Читать полностью…
Gemini 1.5 Flash 8B теперь доступна всем
После обновления 1.5 Flash мы выпустили Flash 8B для всех. Вдвое дешевле Gemini 1.5 Flash, по бенчмаркам – на уровне майской версии. Также подняли количество запросов в минуту до 4000. 😰
Стоит $0.0375/1M input, $0.15/1M output tokens. Цена примерно соответствует цене LLaMA 3.2 3B у together.ai, ну а по бенчмаркам она совершенно в другой категории. Мой ответ на вопрос “что вы делали этим летом”. 😛
Последний раз я писал о себе чуть больше года назад. За последний год канал вырос больше, чем вдвое, я стал работать над совсем другими вещами, ну и вообще, пора закрепить новый пост.
Зовут меня всё ещё Антон. 👋 В 2021 я защитил PhD по машинному обучению в Германии, и с тех пор работаю исследователем в Google Research. Два года назад я перебрался в Нью-Йорк на постоянку, где теперь и обитаюсь. В гугле я устроился в команду, которая занимается алгоритмами на графах, оптимизацией, приватностью и рыночными механизмами. Вот тут можно прочитать пост с хайлайтами за 22 год.
Часть своего времени я работаю над графовыми нейросетями, эмбеддингами на огромных объёмах данных, и всякими около-графовыми штуками по мелочи. Публикую статьи и иногда внедряю нарисёрченное в прод. С этого года частично перекатился в LLMки и теперь занимаюсь данными для претрейна Gemini и Gemma, и парой более специализированных направлений, например, модельками, которые завоевали серебро на международной математической олимпиаде. Пока, вроде, получается неплохо.
Интересно, куда занесёт в следующем году. 🤔
Эту статью приняли на NeurIPS. Увидимся в Ванкувере! ✨
Также приняли ещё одну статью про бенчмарки GNN+LLM, о ней напишу как-нибудь позже.
Апдейт моделей Gemini 1.5 Pro & Flash
Вышла в свет очередная вещь, над которой я работал летом – обновление основных моделей Gemini. Из хайлайтов: +8% MMLU Pro, +23% 👽 на Hendrycks MATH, +10% на GPQA Diamond для Flash модели.
Цена на Gemini 1.5 Pro порезана больше чем в два раза. Также добавили Gemini 1.5 Flash 8B в Gemini API и Google AI studio.
Сколько на самом деле стоит инференс GPT-4o?
Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе.
Все расчёты можно воспроизвести в колабе, меняя цифры, как вам захочется. Выводы остаются неизменны.
Для расчётов нам нужно сделать несколько допущений:
1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis, пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 330 tok/s.
2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше.
3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%.
При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23. Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~50 раз. И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg. 😮💨
Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67. Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!
Впечатления от Remarkable Paper Pro
Чуть больше недели назад Remarkable анонсировал последнее поколение своих e-ink планшетов – теперь в цвете! Я не смог удержаться от заказа: как мне казалось, от чтения статей на e-ink меня останавиливало только то, что графику и эксперименты было видно ужасно. Мелкие формулы на обычном kindle, с которого я читаю книжки, тоже читать довольно напряжно. К сожалению, технологии до сих пор не преодолели какого-то порога удобства, по крайней мере для меня. 🤓
Сначала про хорошее: девайс монофункциональный, никаках чёрно-белых инстаграмов в нём не привидится, при пользовании придётся не отвлекаться. В этом смысле девайсу жирный плюс, что не ушли от изначального концепта ради поднятия метрик использования планшета. Во-творых, писать на нём реально удобно: буковки появляются при написании практически сразу, сохраняются и синхронизируются тоже почти моментально. В целом, это было и в предыдущих версиях этого планшета, но всё-таки приятно, что продукт продолжают полировать. 👍
Теперь минусы. Их, к сожалению, настолько больше, что рекомендовать этот девайс я не могу никому. Во-первых, не исправили проблему с зумом – скорость отвратительная, а тачпад не распознаёт все движения. В результате user experience получается 🤬очень бесящий. Остались надежда только на daylight computer, ну или не выпендриваться и продолжать читать на айпаде. Во-вторых, передача цветов очень сильно хромает. Для сравнения на фото (за качество вы уж извините, телеграм ужасно жмёт) справа – скриншот из моей статьи, где я цветами что-то показываю; слева – то, как это видно на Remarkable Paper Pro. Все цвета слились в один, смысл картинки полностью потерялся. Графики с множеством цветных линий, так популярные в нашем с вами машинлёрнинге, тоже читаются очень плохо. При письме цвета не получаются натуральными, так ещё и при стирании оставляют за собой след до полного обновления экрана; меня как перфекциониста такое просто вымораживает. В результате основной функционал девайса превращается в UX-пытку.
Зачем я вообще этим делюсь? В медия планшет получил восторженные отзывы от всяких изданий, а мне как-то вообще не зашло. Надеюсь, кому-нибудь смогу сэкономить немножно денег. Если вам понравился данный формат постов, дайте знать в комментариях: я всегда могу написать обзор на вилки. 🔪
У конкурентов анонс: выпустили новые модельки o1 и o1-mini с серьёзным CoT. Как Reflection, только не мем, а реально рабочее. Самые большие приросты на сложных задачах олимпиадно-университетского уровня. Без скатывания канала в совсем бестолковую аналитику, хочется сразу пару наблюдений:
1. Очень дорогой инференс, порядка 100 раз увеличения затрат. Для простых работяг пока лимиты 30 сообщений в неделю (!). Придётся учиться формулировать весь запрос за раз. 😰
2. Мы всё дальше отходим от сравнимости моделей. Хотя для кодинга и существует арена, доверять простым людям на LLM-арене становится всё проблематичнее. Особенно тяжело сравнивать в околонаучных задачах, где мало бенчмарков, на которых согласны бенчмаркать люди.
3. Модели всё больше разделяются на “болталки” и профессиональные. Я об этом уже писал раньше, и вот теперь стало совсем понятно, что никаких клубничек в продуктах не будет.
4. Этот результат – заслуга пост-тренинга. Показывает, насколько много чего в моделях мы ещё даже не понимаем, как использовать (другими примером за последний месяц был Gemini 1.5 Pro-0827, который сильно вырвался по бенчмаркам относительно майской модели).
Вот тут можно найти o1 system card, где должно быть больше деталей (кроме самого интересного, конечно).
В комментариях ко вчерашнему посту дорогие подписчики просят рассказать, как написать статью так, чтобы она прошла на NeurIPS. Отвечу сразу – я без понятия, у меня туда попала только одна статья, хотя, может, в этом году появятся ещё.
Успешно убив всякую надежду на полезность советов, могу себе позволить свободно пуститься в спекуляции. ✨ Во-первых, стоит послушать других умных людей – одна из лучших презентаций от широко известного подписчикам этого канала Eamonn Keough (в прошлом году я писал про его шикарный доклад "Getting an h-index of 100 in Twenty Years or Less!"), называющаяся "How to do good research & get it published". Также можно прочитать версию на несколько лет раньше, называющуюся "How to do good research, get it published in SIGKDD and get it cited" (с другой стороны, зачем кому-то в 2024 публиковаться на KDD?.. 🗑). Презентация изначально создавалась для data mining сообщества, но для нашего с вами машинного обучения тоже должна работать: обе области опираются во многом на эмпирические доказательства и основные научные парадигмы ещё не сформированы.
С другой стороны, есть программный комитет конференции – в общих чертах, именно он и решает, что входит в сборник. Конкретно для NeurIPS в далёком 2013 программный комитет прямо писал о том, что они, вообще говоря, хотят видеть. Приятно удивляет, что ещё в дедовские времена 👴 понимали, что на тогда ещё NIPS люди подают совершенно разные типы статей.
Свои хот тейки я приберегу для отдельного поста. Над этим придётся подумать, ну и не всё же сразу. 😛
Из-за прошлого поста задался вопросом, у какого же флага самый высокий ранг. Скачал SVG флагов отсюда, сконвертировал при помощи imagemagick в png, посчитал два варианта "мягкого" ранга из нашей статьи на чёрно-белой версии флагов. Получилось интересно: stable rank явно предпочитает кресты, а RankMe, который двигает ЛеКун – сложные изображения. В общем зачёте победила Намибия, с чем её и поздравим. 💐
Читать полностью…Почему собаки такие разные на вид?
В сравнении с другими видами собаки максимально разнообразны в формах, размерах и окрасах: от лысых немного тсясущихся крыс до статных спокойных коров весом в центнер 🥁. Поведенчески – тоже огромное разнообразние: лабрадоры добрые, колли пасут всё, что движется, а в чихуа-хуа живёт инкарнация дьявола. 😈
На этот вопрос отвечает исследование группы учёных, которые изучили ДНК 900+ псов. Оказывается, семью генетическими регионами можно объяснить примерно 80% всего разнообразия в формах и размерах наших любимцев. Это случилось из-за того, как эффективно начинающие Дарвины занимались искусственным отбором желаемых черт у наших домашних любимцев.
На картинке выше (интерпретация исследования от National Geographic) породы разделены на четыре кластера: волкоподобные собаки, пастушьи, охотничьи, и мастифоподобные. Интересно, что некоторые собаки, прикидывающиеся древними породами, например фараоновы собаки, по результатам генетического анализа на поверку оказались современной породой. 😮💨
C более подробное интервью с авторами можно ознакомиться вот тут. Интересно, как результаты подобных исследований переносят на людей?
Вчера на KDD в Барселоне наша команда провела Tutorial on Graph Reasoning with LLMs. У меня доехать не получилось, так что обойдётесь без фоточек Sagrada Familia. 😭
В туториале две практические части, для которых мы соорудили по колабу:
1. Простое запихивание графа в LLMку – подгружаем ваш граф соавторства из DBLP и спрашиваем о нём простенькие вопросы;
2. То же самое, только с дифференцируемыми софт-токенами (статья) на основе Gemma 2. Тренируется на бесплатном публичном колабе!
Слайды, как обычно, закину в комментарии. 👉
Сегодня хочется порассуждать вслух, куда инвестировать свои силы в контексте этих ваших больших языковых моделей. В больших компаниях типа гугла всегда есть много точек входа в базовый продукт, и всегда можно поработать над тем, что важно лично тебе в текущий момент. 😛
Всего мыслей получилось три, что является олимпийским рекордом для LLM-рисёрчера. 🤤
Мысль первая: мне кажется, что нас ждёт гонка вооружений в моделях размером до трёх миллиардов параметров. Apple Intelligence питает LLMка с 3B параметров, но на рынке андроид-телефонов много откровенно слабых моделей, так что, скорее всего, гуглу придётся заталкивать в телефоны что-то поменьше. 👥 Из последних релизов наши друзья из Alibaba выпустили Qwen 2 в размерах 0.5B и 1.5B – достаточно, чтобы запускать на не самых продвинутых телефонах. Ещё интересно, кто сожет первым выкатить приватную тренировку LoRA-адаптеров прямо на устройстве – это должно сильно поднять качество для текстинга.
Мысль вторая: в категории средних моделей – скажем, до 100 миллиардов параметров, начинается жёсткая конкуренция за стоимость доступа по API. Основной юзкейс в этой области – это всякие ии-ассистены и агенты, которые должны совсем вымораживать при общении. Здесь очень важен пост-тренинг; хоть все и хают неприлично высокие результаты GPT-4o и 4o mini, нормальное следование инструкциям и приятные глазу ответы 🥹 – то, что нужно для этих ваших бизнесов.
Мысль третья: специфические модели для программирования. Тут пока нишу безоговорочно занял DeepSeek Coder v2. Я пока не очень понимаю, где тут деньги для бизнеса – программисты любят платить разве что за подержанный матрац; с другой стороны, говорят, что умение программировать – это почти что заветный reasoning, а там и до AGI рукой подать. Опять же, мне кажется, что в целом после претрейна модели обладают достаточными знаниями, и проблема в кодинг-LLMках заключается в посттренинге – например, Gemini 1.5 Pro поднялся на livebench в категории кодинга на 9% – это почти разница между 4o и 3.5 Sonnet. 📈
При всём этом, забывать о больших моделях я не собираюсь. Хоть LLM-пухляши и тренируются долго 🥁, вау-эффекта от моделей поменьше ждать пока не приходится. На всякий случай – мой пост – это не анонс анонса и не слив, как любят делать наши открытые ИИ-друзья 🪖. Результаты работы, особенно в претрейне, видны публично через месяцы. Так что запасаемся терпением вместе. 😮💨
Кстати пока ждём, напомню, что у нашего Gemini 1.5 Flash бесплатно можно сделать 1500 бесплатных запросов в день с запросами до миллиона токенов – у OpenAI эквивалентная модель GPT-4o-mini обойдётся вам в ~$25 ежедневно. На сдачу вы теперь можете поставить мне блестящую звёздочку под постом, а я вам взамен обещаю не использовать их ни на что полезное. 🤑
После того, как у всех немного отлегло от поста о том, почему PhD в ML делать не надо, пора всё-таки написать о том, кому, как мне кажется, PhD стоит попробовать сделать. Тут стоит оговориться, что однородного опыта нет и быть не может – люди получают абсолютно разные знания и уроки, ваш опыт будет отличаться от моего – любые две картошинки в макдональдсе уникальны, you know the drill. Я бы хотел выделить несколько тем, которые, как мне кажется, делает PhD стоящим опытом, даже со всеми негативными сторонами.
Во-первых, погружение до дна в какую-то тему. Любишь поиск связных компонент в графах? Пожалуйста, перед тобой – сотня статей про именно эту задачу в десятке различных режимов – параллельном, распределённом, с графом на диске, с дифференциальной приватностью; можно заинженерить практическую систему или сделать теоретический анализ – как придумаешь, the world is your oyster. Свобода крышесносная (до первых пяти реджектов твоей статьи подряд), потихоньку учишься видеть огромное количество пробелов в нашем мире и потихоньку их заполнять. Это – максимально приятно.
Во-вторых, доступ передовой скорлупке науки. Конечно, читать статью по (особенно невычислительной) биологии может быть больновато, но просмотреть анализ и иметь возможность самому делать выводы о качестве исследований, а не получать информацию от журналистов, изнасилованных учёными – превосходно. 👌
В-третьих, по крайней мере в нашей с вами машинке, написание статей – это не только томные думы да рукословоблудие. На одну хорошую статью нужна целая команда из писателя, редактора, пары разных программистов, системного администратора, прикладного математика, эсэмэмщика и Бог знает кого ещё. Но их нет – придётся выкручиваться самому. Как в стартапе, только без шанса заработать. 📈
В результате даже без продолжения карьеры в науке получается не так плохо – опыт всё равно чаще всего оказывается полезен. А если получится заниматься наукой в кайф и дальше – мои поздравления! Дальше будет только сложнее. ✨
Сегодня выпустили версию на 2.6 миллиарда параметров
https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f
1126 на арене - чуть выше GPT-3.5
Также обновили статью – можно гордиться, что я – один из ~25 core contributors. 😛