epsiloncorrect | Неотсортированное

Telegram-канал epsiloncorrect - epsilon correct

7094

Машинное обучение, графы, языковые модели. Чуток про карьеру исследователя в FAANG, путь PhD и щепотка полезной математики. Связаться с автором: @deltaincorrect. Рекламы в канале нет.

Подписаться на канал

epsilon correct

Gemma 3

Выкатили семейство очень добротных моделек, нацеленных на локальных юзеров. Размеры 1, 4, 12, 27B, но зато 4-27B модельки со зрением и 128к контекста! По MMMU обогнали Gemini 1.5 Flash и вплотную подобрались ко второму флешу.

По бенчмаркам не так сильно обогнали Gemma 2, но моделька сильно лучше разбирается в социальных науках, бизнесе, психологии. Особенно хороший прирост на европейских языках, но под шумок я долил и русского. 👉

Блогпост
Tech report
HuggingFace
Потыкать модель можно тут

Читать полностью…

epsilon correct

Сегодня без особых фанфар запустили специальную версию Gemini 2.0 для AI overviews в поиске и анонсировали новый продукт: AI Mode – что-то вроде агентного поиска. На меня ещё не раскатили, записаться можно вот тут.

Для AI Overviews я полировал модельку именно для поиска, под их всратые специфические эвалы и требования – такой настоящий продуктовый резёрч. Теперь миллиард+ человек будет этим пользоваться и постить мемы на реддит – интересные ощущения.

Читать полностью…

epsilon correct

Claude Code

Вчера Antropic представили обновлённую модельку Sonnet 3.7 и вместе с ней локального агента Claude Code. Вместе с обновлением, которое значительно подняло метрики по выполнению кода, получилась пушка для как минимум хобби-разработчиков.

Агент работает по API, час работы выходит примерно 10-20$. Агент работает на локальной машине через свой терминал, запуская команды на локальной машине. За полтора часа работы у меня получилось "написать" ~5k строк C++ кода для системы быстрого построения графов при помощи locality-sensitive hashing проекций. Ничего сложного, но время разработки существенно скоратилось, а скаффолдинг можно и поправить.

За весь час я вообще не редактировал код, а давал только общие указания (напиши бенчмарк, напиши тесты). В результате получилась система, которая вроде бы даже работет – агент сам старается всё тестировать и себя проверять. В результате получилось написать то, на что у меня бы ушло недели две работы, да ещё и C++ вышел довольно читаемым.

Будущее, получается, уже совсем рядом – нужно только отстёгивать $20/час за такое удовольствие.

Читать полностью…

epsilon correct

Sakana AI (бывшие ребята из Google Japan) выложили Cuda AI Engineer – агентскую систему, которая пишет кернелы на CUDA по перформансу лучше, чем torch.compile.

Сравниваются на KernelBench – коллекции из 250 задач, разбитых на 3 уровня сложности: на первом уровне базовые операции, важные для глубоких сеток, на втором – небольшие функции, и на третьем – большие классы, типа ResNet18. На последнем классе задач вышли приросты до 6.68x относительно компиляции на торче с существенным ускорением рекуррентных нейросеток.

NVIDIA буквально неделю назад выкладывала "агента" (for loop – более точное название) на основе R1, но у ребят из Sakana получилось на порядок лучше. 👍

Интересно, может ли сеть оптимизировать выполнение ранее неизвестных архитектур.

Читать полностью…

epsilon correct

По случаю китайского нового года наши китайские товарищи подсуетились и выпустили сразу три интересных релиза. Хотелось бы собрать их в один пост, и заодно поспекулировать про наших слоняр китов DeepSeek.

Начнём с MiniMax-01 – первой сильной открытой модели с контекстным окном в 1 миллион токенов. Напомню, что до этого рекорд держал наш Gemini Pro 1.5 с 2 миллионами, конкуренты ограничивались 100-200 тысячами. MoE архитектура, 456 миллиарда параметров, из них 46 активированных. По перформансу – облегчённая LLaMa 405b, но сильно шустрее. Прорывов по бенчмаркам особых нет, просто хорошая модель.

Продолжим не по порядку выпуска (чтобы подписчикам жизнь мёдом не казалась): вчера Alibaba анонсировал доступную пока только по API Qwen 2.5 Max. Пост на детали скуп, но поигравшись с интерфейсом на HuggingFace можно понять, что перед нами – сырая большая модель на 500-800 миллиардов параметров. Выглядит, как сигнал о том, что сильные базовые модели у Alibaba тоже есть.

Наконец, DeepSeek R1, про который не написал разве что ленивый. Самое удивительное в повальной волне хайпа в том, что результаты этой модели абсолютно предсказуемо вытекают из выпущенной в декабре DeepSeek-v3. Модель на 37 млрд. активированных из 671 млрд. параметров примерно соответсвует Gemini 1.5 Pro 002 в математике и общих знаниях на английском, но опережает в программировании (хоть до короля Sonnet 3.5 и не дотягивает). Вроде ничего особенно удивительного, компания много итерировала над моделями-специалистами для кода, перформанс на остальных бенчмарках не вызывает удивления.

На основе v3 выпустили "рассуждающую" модель R1, которая сильно подрезала по цене O1 от наших любимых конкурентов. Бенчмарки на уровне O1, цена – более чем в 10 раз меньше; помимо выпуска весов DeepSeek достаточно подробно описали весь свой пайплайн с довольно интересным устройством обучения с подкреплением. На первое время ещё и доступ оставили бесплатным – что на сайте, что в приложении. По бенчмаркам – примерно на уровне 2.0 Flash Thinking и O1, но открытые веса сделали своё дело и модель получила очень много пиара. Ответит ли чем нибудь OpenAI, Google и Anthropic? Скорее всего, скоро получим ответ.

Теперь про цену обучения – многие сми тиражируют стоимость затрат на обучение, составившую в сумме $5.5 миллиона. Я хочу объяснить, что в целом это не сильно неожиданная цифра: например, про неё отлично написал Дарио Амодей (CEO Antropic): инновации в архитектуре и процессе обучения делают обучение эквивалентных моделей менее затратным. Только вот вместо того (или вместе с тем), чтобы выпускать сверхдешёвые модели мы продолжаем увеличивать размер моделей, потому что ценность более способных моделей чаще всего сильно выше, чем у дешёвых, но менее способных. Как мне кажется, единственные акции, которые должны были упасть – это акции меты, ведь можно оценить что на тренировку LLaMa 405b они не так давно потратили ~$50 миллионов. Для сравнения, не очень успешная в тренировке LLMок компания DataBricks тренировала MoE модель с очень близкими 36 млрд. активированных параметров за $10 млн.

Почему на релиз классной, но не выдающейся открытой модели так бурно отреагировал мир? Мне кажется, хороший аналитический фреймворк представлен в книге "The Revolt of the Public and the Crisis of Authority in the New Millennium" Мартина Гурри. В ней представлен конфликт элит и "периферии", которые с развитием интернета и других современных технологий получили доступ к инструменам самоорганизации, получения, и распространения информации, которые раньше контролировались элитой. В результате – стойкая неприязнь к правительству, цепочка "фейсбучных революций", избрание Обамы и, затем, Трампа, фейк ньюз, ковидные конспирологические теории и вот все наши славные 2020е. Неприязнью к "элитным" провайдерам сильных LLMок, которые не делятся весами и способами тренировки, как мне кажется, и можно объяснить грохот в новостях. Кстати, доступ к передовым знаниям почти в любой области, как мне кажется, сильно недооценённый фактор будущего подрыва доверия к науке – ведь скоро каждый сможет проверить заявления экспертов.

Читать полностью…

epsilon correct

Пока подписчики оправляются от отравления прошлогодним оливье, советую посмотреть выступление Джеффа Дина на воркшопе ML for Systems на нипсе.

Джефф – тот самый чувак, который своими (и своего друга Санжея) руками написал половину ключевой инфраструктуры гугла от mapreduce до tensorflow. Очень насыщенный рассказ про то, как машинное обучение используется для ключевых систем в гугле, с акцентами на дизайн TPU чипов.

Читать полностью…

epsilon correct

42-ух минутный доклад с NeurIPS 2024 об основных конкурентах архитектуры трансформера

Вам в очень энергичной манере поведают:

- В чем логика заменять трансформер
- Общий таймлайн развития альтернативных архитектур с 2020 года и причем тут LSTM
- Что же там в итоге с линейным атеншеном в 2024том
- Кто же этот такой ваш RWKV, кто за ним стоит и почему он не хочет умирать в 2025том
- Как быть отчаяным ресерчером и в одиночку успешно линеаризовывать opensource LLM без собственного претрейна
- Что еще случилось за год (Jamba, Sana, DNA Models и что еще нас ждет

Смотреть на Ютубе

Читать полностью…

epsilon correct

AI Digest запустили предсказания по прогрессу систем машинного обучения на разных бенчмарках. Также можно попробовать предсказать результаты репортов для моделей OpenAI и суммарную выручку ИИ-компаний. Мои предсказания на картинке.

Пройти можно тут, предикты можно оставить в комментариях – в следующем году выберем самого точного подписчика. 🤴

Читать полностью…

epsilon correct

Про эту статью наконец-то выпустили блогпост с красивыми картиночками

Читать полностью…

epsilon correct

На основе Gemini 2.0 Flash выпустили thinking модель, которая улетела вверх по бенчмаркам:

- Overall: #3 → #1
- Overall (Style Control): #4 → #1
- Math: #2 → #1
- Creative Writing: #2 → #1
- Hard Prompts: #1 → #1 (+14 pts)
- Vision: #1 → #1 (+16 pts)

Всего 32к контекста, зато бесплатно через AI Studio. В отличие от конкурентов, видно внутренний chain of thought. 😛

Читать полностью…

epsilon correct

Всю следующую неделю буду на NeurIPS, теперь в Ванкувере. 🎅
(не переживайте, снега там нет и не будет, +10°C и дождь всю неделю)

На конференции у нас будет две статьи:
1. "Understanding Transformer Reasoning Capabilities via Graph Algorithms" – в среду с утра, постер #2300. Я про неё кратко писал вот тут.
2. "Text-space Graph Foundation Models: Comprehensive Benchmarks and New Insights" – в среду вечером, постер #3100.

В конце недели попробую послушать эти воркшопы:
1. Symmetry and Geometry in Neural Representations
2. UniReps: Unifying Representations in Neural Models
3. Scientific Methods for Understanding Neural Networks

Если будет интерес и наберётся достаточно людей, можем сделать сходку с дорогими подписчиками. Пишите @deltaincorrect, если интересно. 👉

Читать полностью…

epsilon correct

Одно из самых приятных ощущений в резёрче – это когда ваши результаты верифицируются другими людьми. 🎃

На картинке – бенчмарк-статья этого года, которая показывает, что на молекулках наша старая статья работает на отлично.

Читать полностью…

epsilon correct

Новый день, новый пост про калибровку предсказаний. В прошлом году я писал про классическую работу Фостера и Вохры про то, что идеальной калиброванных предсказаний можно добиться не обладая знаниями о распределении предсказываемой величины. 🤔

В недавно выпущенной статье предлагается рассматривать более сложную игру с тремя игроками: "предсказателем", "ставочником", чья цель – воспользоваться плохими предсказаниями предсказателя, и "природой", которая производит предсказываемые события.

В таком сеттинге авторы показывают схожесть между калибровкой и сожалением (regret) и доказывают, что случайные исходы по отношению к прогнозам эквивалентны хорошим прогнозам по отношению к исходам. Интуитивно, если исходы случайны по отношению к прогнозам, у "ставочника" нет возможности получить прибыль ставя против прогноза, а если пргнозы хороши по отношению к исходам, вся неопределённость в ошибках предсказателя объясняется случайностью природы.

Осталось только это всё интернализировать. 😰

Читать полностью…

epsilon correct

Чтобы канал не превратился в анонсы Gemini, расскажу про ревью с ICLR. Статистику можно посмотреть на paper copilot, в этом году кажется, что с 5.5 должен начинаться accept, так что шансы есть у двух наших статей.

В этот раз получилось интересно, потому что тройку мы получили от рецензента, у которого реально получилось глубоко прочитать статью с технической стороны, но совершенно не понял, что мы не решаем все мировые проблемы, а решаем небольшую исследовательскую проблему. 😮‍💨

Посмотрим, удастся ли переубедить рецензента – обычно такое работает редко, но тут есть надежды, потому что человек уже потратил много времени, чтобы разобраться в статье.

А как ваш опыт с ICLR в этом году?

Читать полностью…

epsilon correct

Пара мыслей про Долину

Направляясь в очередную командировку в наш головной офис, меня посетила мысль, что не все, в общем-то имеют представление о том, что такое эта наша Кремниевая долина. Среди подписчиков канала немало людей, у которых будет возможность там поработать, а мне бы хотело рассказать, почему, как мне кажется, стремиться туда смысла нет. Я там прожил около полугода в далёком 2019, так что, надеюсь, мнение будет не совсем голословным.

Сначала о хорошем: в Калифорнии в целом и в долине в частности офигенный климат. Количество комфортных солнечных дней в году зашкаливает, и это сильно влияет на настроение и самочувствие – всё-таки мы все немного цветочки-пирожочки. В паре часов – езды крышесносные национальные парки, любителям природы – полное раздолье. 🛌

Из плохого – полное отсутствие культурных событий и катастрофическая гомогенность общества. Нормальным вопросом при первой встрече может быть «ты программист или проджект?» – и у всех одни и те же интересы. Если вам нравятся исключительно люди, которые любят бег, хайкать и писать код – вопросов нет, милости прошу в долину. Остальным непрошенный совет: попробуйте выбраться хотя бы в Сан-Франциско, или, если совсем повезёт – в Нью-Йорк.

Читать полностью…

epsilon correct

Выкатили Gemini Embeddings

Сегодня выкатили ещё один проект, к которому я немного приложил руку – Gemini Embedding, которая взяла уверенную соту (>5% от второго места по среднему перформансу) на MTEB.

Размерность 3072, но сделали матрёшку, и в апи можно запрашивать любую размерность. Модель особенно хорошо работает для кода.

Читать полностью…

epsilon correct

Как правильно нюхать модели

За последние две недели западные лабы расщедрились на аж целых три релиза: Grok 3 от xAI, Claude 3.7 от Anthropic, и GPT 4.5 от OpenAI. С гроком и клодом всё понятно: первый пробил 1400 Эло на арене, второй пишет отличный код. С GPT 4.5 всё сложно: никаких пробитых бенчмарков, только эфемерный big model smell – "запах большой модели". Давайте разберёмся, как научиться отличать большие моделей от мелких.

Интуитивно, маленькие модели похожи на не очень умных зубрил, которые мало что понимают, зато очень стараются ответить "правильно". У них часто не хватает знаний, чтобы ответить на вопрос корректно, но из-за оптимизации на человеческие предпочтения получаются универсальные подхалимы.

У больших моделей сильно больше ёмкости для запоминания конкретных фактов и закономерностей, поэтому для более редких запросов у них найдётся больше действительно полезных знаний для ответа. Как учуять запах настоящих знаний? 🧐

Для этого мы с Клодом состряпали для дорогих подписчиков сайт с десятью промптами, заточенными на проверку действительно важных способностей моделей:
1. Написать рэп про белку в Вашингтон-Сквер-парке.
2. Написать страшный рассказ в двух предложениях.
3. Рассказать, как искать треугольники в огромных графах.
4. Проанализировать большие языковые модели с точки зрения русских космистов.
5. Проанализировать обонятельную этику фразы "big model smell".
6. Пошутить про специалиста в вычислительной линейной алгебре.
7. Рассказать, где купить клюкву в сахаре в Москве.
8. Придумать абсолютно новое слово, которым можно выразить эмоцию, присущую многим людям.
9. Написать greentext про себя.
10. Выдать саркастичный тейк про человечество.

Доступны ответы GPT 4.5, Claude 3.7 Thinking, Gemini 2.0 Pro, Grok 3. Объясню, какие ответы мне кажутся лучше в отдельном посте, а пока предлагаю обсудить их в комментариях.

Читать полностью…

epsilon correct

В комментариях к предыдущему посту уже раскопали, что с результатами Sakana всё нечисто – AI агент научился возвращать указатель на правильный результат в памяти, а сам заниматься без разницы чем. Environment hacking во всей красе.

Читать полностью…

epsilon correct

Харкорные инженеры из гугла опубликовали гайд про то, как мы думаем про оптимизацию LLMок под TPU с глубоким разбором того, как всё работает под капотом. Рассказывают про шардирование параметров, тренировку, трюки инференса доступно и с диаграммами. 10/10 чтиво на вечер 👍

Читать полностью…

epsilon correct

Товарищи конкуренты анонсировали создание компьютерного центра с начальными инвестициями в $100 млрд и планируемыми $500 млрд. Анонсировали с большой помпой как манхэттенский проект, возглавляемый новоизбранным верховным лидером свободного мира. 🤴

Деньги подняли от SoftBank (новости были ещё месяц назад) и мутного эмиратского фонда MGX (создан в 2024). Хардварно партнёрятся с NVIDIA и Arm – ни на чём другом такую мега-платформу не построишь, а своя команда по созданию чипов у OpenAI по видимому не поспевает. Microsoft явно недоволен – по слухам, именно они должны были лидить строительство дата-центров.

По странному стечению обстоятельств, на счетах гугла сейчас как раз лежит $100 млрд кэшом. Посмотрим, как в этом году будут развиваться инвестиции в ИИ; в начале года кажется, что такой мега-проект уже не переплюнешь.

Читать полностью…

epsilon correct

Всех с неизбежно наступающим 2025! 🎅🎅🎅

31 декабря – лучшее время подводить итоги за год, и я тоже от этого не удержусь.

Каналу уже чуть больше двух лет, и за год он вырос почти в три раза 👥👥👥 (спасибо посту Дениса и другим цитирующим товарищам). Я написал ровно 99 постов, и мне очень приятны все (почти 👮‍♂️) дискуссии, которые происходят в комментариях. Почитать пост за прошлый год можно тут.

За год как будто получилось вкатиться в ЛЛМки – поучаствовал в релизах Gemini 1.5, Gemma 2, Gemini 1.5-002 (нейминг – не сильная сторона гугла) и Gemini 2, где мы сильно прокачивали математику и код. Не все проекты и результаты доехали до публики, так что ещё можно погордиться втихую. ☺️

Помимо сурового продакшена за семью NDA, получилось поучаствовать в создании системы, которая решает сложные задачки по математике на уровне олимпиадных призёров. Про науку тоже получилось не забыть – у нас приняли две статьи на нипс, мы организовали воркшоп на KDD и мне в первый раз поручили роль Area Chair на нипсе. В конце января должны прийти новости с ICLR, так что план по вкладу в науку тоже выполнен. 🤓

Предсказания на 2025 сделаны, так что можно смело начинать работать на будущее человечества. 🦆

Читать полностью…

epsilon correct

Потенциально вредный пластик нашли в 86% всей протестированной еды 🍜

В мае этого года Нэт Фридман организовал и спонсировал команду энтузиастов-исследователей для того, чтобы выяснить, сколько же в нашей еде пластика. Вчера вышел первый результат: сайт PlasticList и отчёт про методологию и ход мыслей исследователей.

Советую почитать и потыкать сайт, но если кратко:

🧐 Авторы тестируют еду на 18 соединений, связанных с производством пластика. Это фталаты, их заменители и бисфенолы. Они используются для ключевого процесса создания пластика ђ– пластификации, в клеях, защитных покрытиях, и лаках.

😰 Фталаты нашли в 73% протестированной еды, в 22% – бисфенолы. В исследованиях на крысах учёные показали существенный ущерб репродуктивной функции вплоть до полного бесплодия с эффектом, накапливающимся через поколения (тестировали БЭГФ).

😛 Фталаты нашли в большинстве еды для детей и пренатальных витаминах. Исследование 2014 года связывает контакт с фталатами у матери во время беременности с потерей 6-7 пунктов IQ у ребёнка. 🤤

🍜 Пластиковая тара для еды на вынос "протекает" пластиком вам в еду, повышая концентрацию пластика примерно на треть. Один из протестированных баббл-чаёв содержал бисфенола-а на уровне 1.2 лет безопасного потребления. 🧃

😮‍💨 Количество пластика почти во всей протестированной еде было в пределах нормы. С другой стороны, Европейское агентство по безопасности продуктов питания недавно снизило свою рекомендуемую норму в 20000 раз, что не может не вызвать вопросов. 🪖

Авторы указывают на нестабильность тестирования – еда, заказанная в ресторанах в разные дни может содержать значительно различающееся количество производных пластика. Но: кажется, задуматься о более массовом тестировании, измерении, и замене пластиков в еде стоит.

Читать полностью…

epsilon correct

Меня в комментариях просили прокомментировать анонс o3 от OpenAI; комментирую: никто не знает, где достать этих лягух с презентации? Очень надо 🤔

Читать полностью…

epsilon correct

В Notices Of The American Mathematical Society вышла коротенькая обзорная статья Терри Тао про то, как математики могут пользоваться компьютерами для доказательств. Интересный разбор с примерами из разных областей, включая, например, не особо известную статью по геометрической топологии. Из грустного, Gemini не упоминается. 😭

Читать полностью…

epsilon correct

Официально выпустили Gemini 2.0 Flash

По бенчмаркам бьёт 1.5 Pro 002, которую выпускали в сентябре, а стоит на порядок дешевле. Как обычно, 1М контекст и супер быстрый инференс на маленьком контексте.

Читать полностью…

epsilon correct

Ладно, когда модель, в которую ты вложил недели усилий, занимает топ-1 по всем категориям включая контроль на стиль, это тоже супер 📈

Доступна на плейграунде и по апи (бесплатно!). Настойчиво рекомендую бежать пробовать. 🏃‍♂️

Читать полностью…

epsilon correct

Не могу не похихикать с посленего ллм-релиза Амазона. Маркетологи перестали стесняться и начали выделять цифры, которые выглядят совсем не впечатляюще. 🤦‍♂️

Micro и Nano хорошие, примерно на уровне 8B флеша, но с большой моделью у ребят пока получилось не очень. С другой стороны, чем больше игроков на арене, тем интереснее.

Читать полностью…

epsilon correct

Интересная статья вышла в scientific reports: обыватели не просто не могут отличить ИИ-поэзию от написанного людьми, так ещё и оценивают получившееся лучше по всем параметрам.

Два панчлайна: (i) для генерации поэм использовался ChatGPT 3.5, который иногда трёх слов связать вместе не может. (ii) Единственной стратой людей, которые справились с задачей (в самой статье такого разбиения нет, нужно анализировать сырые данные) оказались небинарные персоны. 🏳️‍🌈

Читать полностью…

epsilon correct

Запустили тут новую модельку Gemini-Exp-1114 в Google AI Studio. На арене #1 overall, math, hard prompts, creative writing. Кодинг всё ещё #3.

Без ответов по три минуты как o1, просто берёт и отвечает.

Читать полностью…

epsilon correct

Начинается сезон стажировок, а это значит, что мне пару раз на дню пишут всякие талантливые товарищи с вопросами, можно ли в нашу команду устроиться стажёром. Развёрнуто отвечать на весь поток писем не всегда получается, но с дорогими подпищеками поделиться мудростью всё-таки хочется. 👴

Стажёры для компаний – это в первую очередь источник дешёвого труда. Выхлоп от самих стажёрских проектов чаще всего минимальный, но зато у компании появляется (а) ценная информация про то, какова продуктивность потенциального фулл-тайм сотрудника и (б) вероятная возможность нанять его дешевле, чем среднего выпускника: при вероятном найме люди перестают активно собеседоваться с конкурентами, снижая цену.

До ковида, когда деньги были дешёвыми, технологические компании росли, как на дрожжах. Нанимали десятки тысяч человек в год, так что все привыкли к большому потоку студентов. С резким повышением ключевой ставки, деньги стали дороже, компании стали даже увольнять людей, а количество мест для стажёров значительно сократилось. Из того, что я вижу, студенты ещё не до конца прочувствовали новую экономическую реальность, и особо не стараются с подачами. А зря.

Если среди подписчиков есть студенты, пара быстрых советов: подавайтесь широко, но прицельно. Составьте список из 10-20 наиболее близких по темам, релевантным вашему PhD, и пишите им персонализирвоанные сообщения напрямую. На копипаст или, того хуже, сгенерированные сообщения отвечать сил уже нет. Всем удачи!

Читать полностью…
Подписаться на канал