Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow
Приглашаем тебя на крутое IT-мероприятие, посвящённое AI и передовым технологиям разработки рекомендательных систем.
Регистрируйся, и в день мероприятия мы пришлём тебе ссылку на трансляцию. Или приходи очно, если ты живёшь в одном из городов.
Где и когда?
✔️ Владивосток, 26 ноября
✔️ Новосибирск, 28 ноября
✔️ Нижний Новгород, 5 декабря
✔️ Санкт-Петербург, 6 декабря
Тебя ждут крутейшие доклады, живая дискуссия и новые знания в сфере рекомендательных систем.
Количество мест ограничено — успей занять своё и прикоснуться к миру рекомендательных систем! 👌
#промо
Новая модель GigaChat Max от Сбера
Сбер выложил новую модель GigaChat Max. У нее заявлены увеличенная база знаний и улучшенная логика. Еще добавили Vision.
Новый GigaChat эффективнее работает с текстом и пишет код. Дает более красивые и структурированные ответы, лучше решает комплексные и творческие задачи. А по бенчмаркам уступает лишь Llama-3.1 и GPT4o.
Также GigaChat MAX хорошо показала себя при создании агентов. Ещё у них есть специальная Studio, позволяющая создавать агентов без специальных знаний.
@ai_newz
И опять настало то время года, когда я ищу Research интернов к нам в команду в Meta GenAI в Цюрихе!
Интерн будет работать непосредственно со мной и моими коллегами. Основная цель стажировки – публикация на ICLR/CVPR.
Работать будем над image&video генерацией (см. Movie Gen для примера).
Какой профиль я ищу:
- PhD студент, официально зачисленный в университет.
- Есть 2-3+ публикации на top-tier конференцииях вроде NeurIPS, CVPR, ICRL, ECCV и т.д.
- Опыт с диффузионными моделями (предпочтительно) либо с LLM.
- Дополнительным плюсом будет, если вы умеете ускорять модели либо работали с альтернативными архитектурами типа Mamba-шмамба, RWKV, и тп.
Длительность стажировки: 24 недели.
Начало: весна-лета 2025.
Визу и переезд в Цюрих спонсируем.
Писать можно мне в ЛС, прикрепляя CV. Репост и решер приветствуется - может у вас есть кто-то знакомый, кому эта вакансия идеально подойдет.
@ai_newz
DeepSeek 2.5 оказался лучшей моделью для автокомплита кода
Спустя всего пару недель после запуска, подъехали результаты с Copilot Arena. На удивление для всех, топовой моделью там оказался DeepSeek 2.5, опередив Claude Sonnet, Codestral и Llama 3.1 405B. А вот модели от OpenAI заметно отстают. GPT 4o-mini — худшая модель из всех, которые тестили, причём отставание огромное.
Что примечательно, дешевле DeepSeek 2.5 лишь Gemini Flash, и то до учёта context caching'а, который у DeepSeek автоматически хранится сутки и сбивает цену инпута в 10 раз. В реальном использовании она дешевле всех, да к тому же единственная полностью открытая модель из топа (у Codestral драконовская лицензия).
o1 и o1-mini тут не участвовали, потому что задержка там слишком высокая для автокомплита, а новая Qwen 2.5 Coder просто не успела на лидерборд. Не хватает и более специализированных моделей — вроде Cursor Tab или Supermaven, которые создатели Cursor недавно купили. Они явно будут похуже чисто из-за размеров, но вопрос, насколько.
@ai_newz
Нейродайджест за неделю (#44)
LLM
- Возможный потолок Scaling law. OpenAI меняет вектор развития.
- GPT-2 Small за 8 минут. Подъехали свежие оптимизации, теперь своя LLM обойдется всего лишь в 3 доллара.
Карьера
- Ревью с ICLR. Наша команда получила отличные рецензии!
- Как найти ментора? Есть неплохой вариант заплатить за это.
3D
- NeRF On-the-go. Делаем нерф на ходу в ужасных условиях.
- Трекаем тело по одной ego камере. В реальном времени, с лучшей точностью. Уже юзабельно в продуктах VR/AR.
Прочее
- Роботы EVE разъехались по домам. Первые тесты от "эксцентричного" Kai Cenat.
- Веса и код AlphaFold 3. Следующее поколение нобелевконосной модели для предсказания структуры стало "народным достоянием".
- SeedEdit. Очередной текстовый фотошоп. Ничего нового, но зато показывает, насколько важен хороший датасет.
> Читать дайджест #43
#дайджест
@ai_newz
Вот как выглядит работа этого метода:
Одна шакальная камера на голове, о качестве можете судить сами в правом верхнем углу. В середине — предсказанное положение тела и облако из SLAM-точек. + можете сравнить с тем, что было на самом деле.
@ai_newz
Как работают генеративные технологии, которые лежат в основе большинства визуальных сервисов? Какова их «математическая начинка»? Получите ответ на эти и другие вопросы на бесплатном интенсиве Computer Vision Week! Он пройдёт с 25 по 29 ноября онлайн и поможет вам разобраться в сложных вопросах компьютерного зрения и диффузионных моделей.
Среди организаторов — эксперты, которые создают технологии будущего: Yandex Cloud, Школа анализа данных, YaArt и YaResearch. За 5 дней они расскажут, как устроена генерация изображений на практике: от математических основ и алгоритмов до нейробайесовских методов. Вы также научитесь работать с генеративными технологиями самостоятельно и узнаете, какие горизонты они открывают для разработчиков и исследователей.
Что ещё? Вы не только послушаете лекции, но и сможете попробовать свои навыки на практике — в решении задач. Те, кто успешно справится с отборочными испытаниями и итоговой работой, получат заветный сертификат в портфолио!
Успейте зарегистрироваться до 24 ноября, пока есть места!
#промо
GPT-2 Small теперь тренируют в полтора раза быстрее
Модель теперь тренируется менее чем восемь минут на 8xH100 - всего пару недель назад это занимало более 12 минут. Стоимость тренировки упала до 3 долларов. Давайте разберём как так вышло.
Основной архитектурный трюк - улучшенный value residual learning. Он нужен потому, что модели на более глубоких слоях фокусируются на меньшем количестве токенов, что сильно снижает эффективность глубоких слоёв. Решается это домешиванием в values n-го блока values из первого блока трансформера. То есть в attention идёт не обычная value-матрица, а взвешенное среднее текущей value-матрицы и таковой из первого блока. Параметры для усреднения обучаются отдельно для каждого трансформерного блока.
Такой же трюк с value residual learning применяют и к эмбеддингам - в каждом трансформерном блоке эмбеддинги также взвешенно усредняются, как и value-матрица.
Ещё одно изменение, которое срезало чуть больше минуты от тренировки, - отвязывание embedding-слоя от lm head. Это повысило количество параметров на 39 миллионов, но никак не повлияло на количество активных параметров и время каждого шага. Авторы репозитория сказали, что с данного момента будут ограничивать себя активными параметрами, так что мы вполне можем увидеть MoE через неделю-другую.
Из мелочей - lm head инициализируется теперь нулями, а после эмбеддинг-слоя добавили одну норму. Максимальное значение логитов теперь ограничено, по заветам Gemma 2. А ещё заметили что по дефолту в PyTorch bfloat16 используется достаточно консервативно и вручную заменили fp32 на bfloat16 в паре мест.
Кстати, автор доказал, что они скейлятся как минимум до 1.5B, по крайней мере на нескольких миллиардах токенов. Это обнадёживает, но не означает, что все эти трюкт стоит использовать в тренировке больших моделей. Ждём, когда кто-то попробует это либо на моделях побольше (7B+), либо на бо́льшем количестве токенов (1T or bust).
Такие спидраны нужны по двум причинам. Первая — повышение эффективности претрейна больших моделей: даже если не всё масштабируется, то что-то точно будет. А наличие чёткого базового уровня помогает лучше понять эффективность каждого отдельного изменения. Вторая - повышение доступности ресёрча. Одна 3090 может натренировать такую модель примерно за 8 часов (одну ночь), без этих оптимизаций тренировка на 3090 приближалась бы к суткам, что сильно снижает скорость итерации.
https://github.com/KellerJordan/modded-nanogpt/
@ai_newz
⚡️ Machine learning - крупнейший обучающий канал для всех, кто хочет погрузиться в Машинное обучение, Аналитику данных и ИИ.
По контенту:
1. Разбираем за вас самые интересные мл модели, новости и анонсы.
2. Ежедневные мл-дайджесты.
3. Курсы, гайды, уроки и обучающие материалы.
4. Решаем задачи с собеседований.
5. Публикуем бесплатные книги, учебники и разбор статей,
6. Подготовили для вас целую папку со всем необходимым для МЛ- специалитса.
И многое другое.
Подписывайтесь, такие знания в 2024-м году на вес золота: t.me/ai_machinelearning_big_data
#промо
Вот еще примеры SeedEdit. Первые две картинки с китайского сайта, где, вроде бы, можно потыкать модельку, пока Hugging Face лежит, но нужен китайский номер. Демки целых две: вот первая и вторая. Остальные — это черрипики из статьи.
@ai_newz
Google DeepMind релизнули веса и код AlphaFold 3
За предыдущую версию Демису Хассабису дали нобелевку, а эта, по заявлениям гугла, как минимум на 50% лучше.
Раньше доступ был лишь через AlphaFold Server, с ограничением в 20 запросов в день. Код уже на гитхабе, а веса доступны по запросу, обещают одобрить или отклонить в течении 3 рабочих дней.
Важно: лицензия некоммерческая и очень жёсткая, использование коммерческим организациям и в коммерческих целей запрещено. Также запрещено распространение весов и тренировка своих моделей на аутпутах AF3.
Запускается на видюхах с 16 гигами, но с ограничением длины контекста в 1280. Лучше юзать как минимум A100 на 40 гигабайт. Всякие A6000 тоже в теории подходят, но авторы тестировали точность модели только на H100 и A100.
А у нас есть кто-то кто пользуется AlphaFold в рабочей деятельности? Как вам?
Github
Курс по использованию AlphaFold
@ai_newz
Нейродайджест за неделю (#43)
LLM
- API Claude 3.5 Haiku. Дорого и бесполезно, картинок на входе еще даже нет.
- Frontier Math. Самый сложный бенчмарк от Epoch. С ним справятся не все доктора наук, а LLM решает эти задачи чуть чаще, чем никогда (<2%).
Про деньги в индустрии
- Где бабки Лебовски, или куда тратят деньги корпорации в AI. Репорт от The Information слил расходы на AI 50 крупнейших корпораций.
- Anthropic и золотые горы. Главный конкурент OpenAI привлекает несколько миллиардов "зеленых". Амазону понравилось доить API Антропиков.
- Physical Intelligence. Стартап, заручившись поддержкой Амазона, OpenAI и фондов, строит foundation model для всех типов роботов.
Генеративные модели
- Super Sonic. Генерим спецэффекты по видео или голосом от Adobe.
- FLUX1.1 pro Ultra and Raw Modes. Еще один хит от Black Forest Labs! Генерит картинки в 2k с потрясающей детализацией. Картинка стоит $0.06 по API. Примеры.
Прочее
- Marimo. Прокаченная версия Jupyter ноутбука, куча фич, упрощающих жизнь, топ для пользователей ноутбуков.
- Хакатон Anthropic. Наделали кучу прикольных проектов, среди которых мануал для Computer Use Claude, благодаря которому он научился управлять роботом и выполнять команды, а еще капча против LLM.
> Читать дайджест #42
#дайджест
@ai_newz
Anthropic собирается привлечь ещё несколько миллиардов долларов инвестиций
Инвестором снова должен выступить Amazon, который уже инвестировал в компанию 4 миллиарда долларов. Оценка в этом раунде инвестиций ожидается в районе 30-40 миллиардов долларов.
Amazon явно понравились результаты инвестиций - AWS, главная дойная корова компании, показывает очень хороший рост во многом из-за продажи AI API. Плюс Amazon пихает Claude сейчас куда только возможно - от чатботов на сайтах и в приложениях, до их конкурента Github Copilot. А ещё планируемая интеграция в Alexa, по платной подписке.
Загвоздка на этот раз в том, что Amazon хочет, чтобы Anthropic использовал Trainium - собственные чипы Amazon. Они их произвели в огромных количествах, но никто не хочет их использовать. Я даже не припомню ни одной статьи, где использовали бы Trainium. Anthropic в качестве клиента поможет отполировать софт до хорошего уровня, плюс сделает неплохую рекламу, если на них смогут натренировать какие-то передовые модели.
Такие условия не новинка в индустрии — в прошлом году Intel провернула такой же трюк со Stability, предоставив им свои чипы Gaudi 2 вместе с инвестициями. Да и сами Anthropic как минимум использовали TPU для инференса после того, как Google в них инвестировал.
С кнутом есть и пряник - ведутся переговоры о постройке Amazon кластера для обучения для Anthropic - вроде тех, что Microsoft строит для OpenAI, а X.AI и Meta для себя. Будут ли там Trainium или более традиционные чипы от Nvidia - непонятно.
Понятно только одно – инфраструктурная гонка все еще набирает обороты, а клауд провайдеры снимают жирнющие сливки от огромного запроса на инференс и тренировку больших AI моделей.
@ai_newz
🔥FLUX1.1 [pro] Ultra and Raw Modes
Новый релиз от Black Forest Labs! 4k изображения и более реалистичный режим!
1. FLUX1.1 [pro] Ultra - теперь можно генерить картинки в 4k разрешении! Причем довольно быстро - за 10 сек.
$0.06 за картинку
2. FLUX1.1 [pro] Raw - режим, который передает подлинное ощущение спонтанной фотографии. Генерит изображения с менее синтетической, более естественной эстетикой. Он значительно увеличивает разнообразие человеческих образов и улучшает реализм
@ai_newz
Об AI в образовании: универы по всему миру все активнее используют нейронки
Яндекс Образование и ВШЭ выпустили карту университетов, которые решили внедрить ИИ в обучение. Получилась кейсотека с примерами того, для каких задач студенты и преподы используют ИИ. Проект поможет вузам определиться с наиболее подходящими стратегиями интеграции нейросетей. Собрал несколько любопытных примеров.
#промо
😮 R1-Lite - бесплатный конкурент o1, который скоро релизнут в опенсорс
Китайцы из DeepSeek, несмотря на крайне ограниченные ресурсы, продолжают выдавать охренительные модели мирового уровня. Их новая модель, R1-Lite, очень близка по бенчмаркам к o1-preview, где-то даже превосходит. Она также может тратить десятки тысяч токенов на размышления, при этом чем больше токенов, тем лучше результаты. DeepSeek говорят, что это только начало и тизерят модели ещё мощнее.
По бенчмаркам модель лучше o1-preview в кодинге и математике, но отстаёт в остальных задачах. С o1-mini, которая как раз в кодинге и математике сильнее, чем o1-preview (не спрашивайте), на графиках не сравнивают. Для примера, по бенчам OpenAI, у o1-preview Elo на Codeforces 1258, у o1-mini и полноценной o1 - 1650 и 1673 соответственно. По моим личным тестам, R1-Lite тоже отстаёт от моделей OpenAI.
Но насколько лучше или хуже R1-Lite, чем разные версии o1, это не так важно, ведь изначальная моделька сильно меньше и хуже. Важно, что inference time scaling заставили работать за пределами OpenAI, причём без дурацких ограничений - в отличие от o1, DeepSeek дают полный доступ к размышлениям модели. К тому же скоро обещают API и опенсорс-релиз, к которым будет прилагаться Technical Report о тренировке, а они у DeepSeek очень детальные. То есть даже если другие лабы не смогли воспроизвести inference time scaling самостоятельно, через пару месяцев свой o1 будет у всех. Вместе с base и instruct весами будут релизить ещё и reasoner.
Ещё один нюанс - DeepSeek всё ещё отрабатывают рецепт тюна на маленькой модели, перед тем как потратить заметные ресурсы на тюн большой. Отсюда и Lite в названии модели. Не факт, что она основана на DeepSeek V2 Lite, но скорее всего её смогут запустить простые смертные. Полноценный R1 будет гораздо умнее.
Попробовать можно на их сайте, включив «Deep Think». Дают 50 сообщений в день, причём абсолютно бесплатно.
chat.deepseek.com
@ai_newz
Интеренcый видос про то, как чел натренил маленькую быструю 2B VLM, которая оказалась лучшей в своем классе.
Моделька - это Phi1.6B + SigLIP 400M vision encoder. Далее чел собрал синтетический датасет LNQA (Localized Narratives Question Answering) с вопросами-ответами по картинкам, 300к пар. И натренил на нем свою модель и выложил все в опен-сорс.
Полочилась довольно сильная шустрая модель. Далее чел поднял $4.5M и строит стартап moondream.ai по тренировке мелких моделей для прода.
В общем правильные данные решают.
Github
Demo
Blogpost про синтетический QA датасет
Видео
Pixtral Large 🔥🔥🔥
Новая моделька от Mistral на 124B параметров является мультимодальным расширением Mistral Large 2, но с обновлённым системным промптом и улучшенным пониманием длинного контекста в 128K токенов. На мультимодальных бенчах показывает себя очень хорошо, по заявлениям чуть ли не SOTA.
Но Mistral часто убирает неудобные бенчи или модели из своих анонсов. Конкретно тут непонятно с какими версиями моделей сравнивают, плюс как-то очень удобно "забыли" про мультимодального Qwen2-VL и Molmo. Я добавил таблицу с ними тоже. По сути Pixtral Large даже слегка хуже чем Qwen.
Также можно потыкаться в Le Chat. Он, кстати, тоже мощно обновился. Добавили веб-поиск с ссылками на цитаты. Canvas для редактирования аутпута inline, не переписывая всё заново, как это недавно сделали в ChatGPT. Ещё прикрутили Flux Pro прямо в чат.
Веса уже лежат на Hugging Face
Le Chat
Или подключиться по API
Подробнее
@ai_newz
Прошла пятая онлайн-конференция Яндекса Yet another Conference on Education. В этом году обсуждали будущее образования.
Благо, на сайте есть запись для тех, кто крутиться в этой теме и случайно пропустил онлайн-трансляцию.
Вот какие темы вас ждут:
- Свежее исследование Яндекс об AI в образовании.
- Каким сейчас представляется будущее учебного процесса?
- Какие навыки становятся востребованными?
- Как бизнес, общество и технологии трансформируют обучение?
- Как получить навыки, которых нет в специальности: софт-скилы и нейросети?
Смотрите конференцию в записи и будьте в курсе всех изменений!
#промо
Лол, стример Kai Cenat купил робота EVE.
Помните, я писал про X1? Так вот, похоже, первые модели разъехались по домам. Наблюдать за историей приходится от лица бешеных стримеров.
Плюсом ко всему, они, видимо, зафайнтюнили бота под хозяина, и теперь он, помимо обычных робо-дел, ведет себя несколько *freaky*. Спокойно произносит слово на букву "N" и говорит о том, что переспал с Alexa от Amazon. Я собрал для вас небольшую подборку выше. Зацените угар.
Но скорее всего роботом управляет человек, конечно же.
А, ну и да, еще X1 со злости разбил ему телек 😂
@ai_newz
Риалтайм предсказание положения тела по одной ego-камере😨
Одна из главных проблем всех этих ваших виаров и эйаров заключается в том, что нужно раскидать камеры по всей комнате для трекинга положения тела. Я тоже решал эту проблему, когда работал в Reality Labs - мы предложили диффузионную модель AGRoL, которая по трекингу рук и головы синтезирует движение всего тела в 3D. Теперь зацените свежачок от интернов из Meta Reality Labs.
Тут пошли еще дальше и используют только одну RGB камеру на голове (которая итак стоит во всех VR/AR очках), они смогли в реальном времени (70FPS на A100) с задержкой всего 0.17 секунд отследить положение всех конечностей, даже если они не попадают в кадр.
Ребята решили взять максимум из того, что есть: они скормили диффузионке данные о положении головы, цветную картинку и набор SLAM-точек (думайте об этом как о гауссовских сплатах на минималках). Кроме того, добавили CLIP-эмбеддинг для извлечения семантической информации (что находится в кадре). Всё это обучили на 200 часах видеоконтента с данными от motion capture костюма для захвата движений.
В результате получилась модель, которая не только лучше предшественников, но и работает супербыстро, что позволяет использовать её для онлайн-процессинга. Правда, пока SLAM работает только в статике — если, например, передвинуть стол, модель этого не заметит.
Очевидно, бенефициар этой технологии — это AR и VR. Игрушки выйдут топовые, хоть на поле 100 на 100 игроков устраивай, как это показывал Snapchat на последней презентации своих очков. Нужно только рядом кластер с хотябы 1xA100 на человека поставить 😁.
Помимо игр, технология пригодилась бы в робототехнике, в частности, для обучения робогуманоидов нормально ходить и ориентироваться в пространстве. Такие данные сложно получить сразу в большом объёме, поэтому сейчас, например, используют imitation learning, как в этом посте про живую сталь.
Пейпер
Код (скоро)
Project page
@ai_newz
Как находу сделать 3D скан какой-нибудь достопримечательности в отпуске?
Держите новиночку с CVPR2024 — NeRF On-the-go.
Для справки:
Пост про нейрорендеринг и NeRF — это метод создания 3D-модели из нескольких фото, при котором нейросеть обучается по этим изображениям для реконструкции сцены. NeRF использует трассировку лучей для получения данных о цвете и глубине каждой точки, что даёт высокую детализацию и реализм, но требует больше ресурсов.
Что такое Гаусовские Сплаты — это более простой и быстрый способ, где сцена представлена облаком размазанных пятен (гауссиан). Тренировка и рендеринг занимают меньше времени, поэтому этот метод более удобен для практического применения, хоть и немного уступает в качестве.
Ключевое различие: NeRF — это детально и медленно, с трассировкой лучей, а Гауссовские сплаты — быстро и проще, но менее детализировано.
Вы меня спрашивали, как найти классного ментора, если на текущей работе нет никого подходящего, либо если вы сам себе хозяин. Есть вариант найти себе подходящего ментора на разных платформах типа intro (у Насти есть хороший пост на этот счет).
Конечно, это стоит недешево (от $500 до нескольких тысяч в час), но я убежден, что встреча с толковым ментором раз в месяц или хотя бы раз в два месяца может очень сильно помочь и сдвинуть вас с мертвой точки в карьере.
Кроме того так вы можете знакомиться и расширять свой нетворк с людьми, которых очень трудно случайно встретить в жизни.
Кстати, это никакая не реклама, чисто делюсь лайфхаками.
#карьера
@ai_newz
Пришли ревью с ICLR. Мы получили отличные рецензии! Но как всегда есть тот самый Reviewer #2, который порет какую-то фигню.
С поддержкой остальных ревьюеров, думаю, мы легко сможем опровергнуть R2, и, надеюсь, статья будет принята.
Что за статья пока точно сказать не могу :) Могу только сказать, что она про LLM.
А как ваши ревью, если сабмитили?
#конфа #резерч
@ai_newz
Очередной хайп-тул от китайцев из ByteDance — SeedEdit
По сути, это еще один text2photoshop или по простому текстовый редактор картинок, но качество — моё почтение (судя по черипикам, а демо на Hugging Face у меня пока лежит).
Результаты получаются очень похожими на то, что даёт наш Emu Edit из соседней команды.
Пробежался по тех-репорту. Деталей там зиро, так же как и novelty:
Все таже начинают с обычной pre-trained text2img диффузии и генерят пары синтетических данных - картинка и ее отредактированная версия с инструкцией. Далее это все дело сильно фильтрут, дообучают модель на отфильтрованных парах с инструкциями. Затем опять повторяют по кругу - генерят синтетику, фильтруют и дотренивают модель. Так несколько раз.
По архитектуре: вместо добавления оригинальной картинки на вход с помощью конкатенации дополнительных каналов как в Emu Edit, тут кормят фичи оригинальной картинки в контекст self-attention блоков. Эта фишечка не новая, так делали уже например в Story Diffusion для генерации консистентных кадров.
Иначе говоря, ничего нового в методе нет, челы просто очень хорошо приготовили синтетические данные (data is the king).
Больше примеров ниже.
Демо на Hugging Face
Пейпер
Project page
@ai_newz
Кажется, OpenAI достигли потолка scaling law.
The Information (от них последнее время приходит много интересной информации) поделились неутешительными новостями о следующей LLM от империи Альтамана.
С одной стороны, o1, пройдя всего 20% тренировки, уже достиг уровня GPT-4. С другой — источники в OpenAI говорят, что следующая модель хоть и обещает быть лучше предшественника в целом, но «не надежно лучше своего предшественника». Именно поэтому обсуждается смена парадигмы нейминга. Чтобы справиться с вызовами скейлинга, OpenAI создали специальную команду — foundation team. Похоже, мы можем не дождаться ChatGPT-5. o1, конечно, выглядит перспективно, но это всего лишь один из примеров смены направления развития.
Как видно из успеха o1, следующий шаг в развитии LLM-моделей лежит не в увеличении объема данных (их, кстати, уже не хватает — в датасете уже куча синтетики), а в поиске новых подходов к скейлингу. Один из таких подходов — это chain of thought, который по сути получает прирост в качестве за счет скейлинга количества компьюта во время инференса.
Еще одно важное направление — это агенты. Антропик уже продемонстрировали computer use, так что ответ от OpenAI не заставит себя ждать (как минимум еще во время презентации 4o gpt-ишка смотрела на экран юзера). Правда, точных дат нам не называют, и это, возможно, к лучшему — не хотелось бы снова ждать полгода, как это было с voice mode после первого анонса.
И да, Orion ожидается early next year, что на языке OpenAI это может означать период с января до середины июля :)
@ai_newz
У Epoch новый бенчмарк — Frontier Math, состоящий из задач, на решение которых у профессионалов могут уйти дни. Лучшие современные модели могут решить менее 2% задач, даже с доступом к Python и кучей токенов на размышления. Для составления бенчмарка привлекли более 60 математиков из разных областей; у них суммарно 14 золотых медалей IMO (Международной математической олимпиады) и одна Филдсовская премия.
Чтобы оказаться в бенчмарке, задача должна быть оригинальной и иметь ответ, который нельзя угадать с вероятностью более 1%, не проделав большую часть работы по решению задачи. В то же время ответ должен быть легко проверяем без вмешательства человека — поэтому у многих задач в качестве ответа используется целое число (но в некоторых случаев решение проверяется через SymPy), а если для решения задачи нужно запускать код, то время выполнения референсного решения ограничено одной минутой.
Небольшую выборку получившихся задач предоставили на оценку трём лауреатам Филдсовской премии: Ричарду Борчердсу, Уильяму Гауэрсу и Теренсу Тао, а также Эвану Чену, золотому медалисту IMO, который сейчас занимается подготовкой других к олимпиаде. Они назвали эти задачи "крайне сложными" и ожидают, что для создания моделей, которые хорошо себя в них показывают, нужны годы. Основная проблема — задачи крайне специализированные, и статей на тему может быть всего около десятка.
В то же время отмечают, что "решение таких задач отличается от доказательства теорем" и что система, которая может такое решить, хоть и не сможет заменить профессионального математика, но будет крайне полезным ассистентом. Но тут важна и цена вопроса — три дня на суперкомпьютере, которые нужны были для AlphaProof для решения некоторых задач с IMO, могут стоить дороже, чем годовая зарплата математика. А ведь задачи в бенче значительно сложнее.
Небольшой нюанс: Теренс Тао придумал несколько задач для бенчмарка, а Чен выступил соавтором статьи в качестве математика, с которым сотрудничали основные авторы.
В эпоху перенасыщения старыми бенчмарками нужны новые сложные бенчмарки, у которых есть шансы продержаться несколько лет. Оценивать модели по вайбам, конечно, весело, но без воспроизводимых бенчмарков непонятно: а есть ли у нас вообще прогресс или мы просто топчемся на месте?
Пейпер
Пять задач из бенча разных уровней сложности
@ai_newz
Как корпорации тратят деньги на AI?
The Information подготовили отчёт по тратам крупнейших компаний на генеративные модели. В основном это, конечно, ллм-ки, но некоторые еще генерят картинки для креативов🥴.
Сама таблица не очень удобная, поэтому я прогнал её через LLM, чтобы распределить по группам для наглядности:
### 1. Customer Support/Service
- AT&T: Customer service chatbot
- Doordash: Customer support/contact center chatbot, voice ordering, menu, and search optimization
- Duolingo: Generating lessons, audio, and chatbot for conversational practice
- Elastic: Sales, marketing, and information retrieval internal tools
- Expedia: Customer-facing chatbot, internal tools
- Fidelity: Generating emails to customers and other materials
- Freshworks: Customer service chatbot, employee HR chatbot, document summaries
- G42: Customer-facing chatbots for healthcare, financial services, and energy sectors
- H&R Block: Customer-facing chatbot in tax software
- Ikea: Customer-facing chatbot on the website
- Klarna: Customer service chatbot and HR software
- Intuit: Chatbot and customer service features
- Mercedes Benz: Call center automation
- Oscar Insurance: Customer-facing chatbot in insurance claim software
- Radisson Hotels: Customer service assistant for managing bookings
- Snap: Chatbot
- Stripe: Customer service chatbot and fraud detection
- Suzuki: Employee chatbot apps
- T-Mobile: Customer support chatbot
- Uber: Customer support and internal HR tools
- Volkswagen: Voice assistant in vehicles, employee-facing tools
### 2. Marketing/Content Generation
- Coca-Cola: Generating marketing materials and AI assistants for employees
- Autodesk: Support, code generation, and sales
- IPG: Content generation and employee-facing chatbot
- Walmart: Curating personalized shopping lists, generative AI-powered search, assistant app
- Wayfair: Code generation
- Wendy’s: Generating suggested orders for customers
### 3. Document Processing & Information Retrieval
- Morgan Stanley: Information retrieval for wealth management
- Pfizer: Search documents by voice command and chatbot
- Toyota: Information retrieval and coding assistants for employees
- Volvo: Streamlining invoice and claims document processing
- Zoom: Meeting summarization
### 4. Development/Code Generation
- Goldman Sachs: Code generation, document search, summarization
- ServiceNow: Generating sales emails and code generation
- GitLab: Code generation
- Notion: Summarization and text generation
### 5. Employee & Internal Tools
- Fidelity: Emails to customers and other materials
- Salesforce: Chatbots and summarization for sales and HR
Physical Intelligence подняли $400M при оценке в $2 миллиарда.
Чуваки планируют создать foundation model для роботов всех мастей. Чтобы вот воткнул софтинку в машину, а она резко адаптировалась и подстроилась под существующую механику. Похоже, нас ждут «мозги по API»! Но надеюсь, к тому времени научатся считать всё локально.
Главными инвесторами стали Amazon, фонды Thrive и Lux Capital, ну и OpenAI — куда же без них.
Стартап не совсем с голой жопой. Если не считать топовый состав ко-фаундеров, в который входят Mr. Hausman, в прошлом robotics scientist в Google; Sergey Levine, профессор в Беркли, преподаёт computer science, но сам дико угарает по обучению агентов и RL (кстати, я лично с ним знаком, и вот ещё пост про воркшоп с его участием); и Lachy Groom, бывший executive в Stripe (сейчас все зарубежные подписки оплачиваются через него), так что бизнес он вести умеет. Чуваки недавно опубликовали пейпер, где представили свою первую модель pi0 (они кстати процитировали нашу Movie Gen, кек). Научили две роборуки разным приколам типа складывания одежды и уборки. Всё это мы уже видели тут, тут и тут, ну а главные в этом 1X . Да и вообще, вот есть набор «сделай сам» для точно таких же механических рук — здесь (вместе с тренировкой и записью датасета).
Но это только начало, у Physical Intelligence цель в другом. Не просто научить машину в какой-то конкретной конфигурации выполнять команды, а научить вообще всех ботов всему, в том числе саморепродукции и захвату человечества. По факту, есть закос на general purpose модель, и вот в этом и заключается наибольшая проблема - совсем непонятно смогут ли они перегнать general purpose модели от Anthropic или тех же OpenAI, которые всё лучше и лучше справляются с контролем роботов.
Источник
Пейпер
@ai_newz
Капчи для LLM - Anthropic провели хакатон в Сан-Франциско
Собралось более двухсот человек, было немало интересных проектов.
🥇 Первое место заняла команда, которая дала Claude мануал по использованию робота, и при помощи Computer Use Claude смог управлять роботом и выполнять инструкции (хотя с заметными задержками). Задача была достаточно простой, и хотя скорость работы Claude оставляет желать лучшего, сам факт того, что это работает, впечатляет.
🥈 Второе место заняла капча, которую сложно обойти современным LLM с Computer Use. Участники показали несколько способов поймать Claude: ➖ Логические задачки — LLM всё ещё часто ошибаются на таких. ➖ Анимированные паттерны, которые видны обычному пользователю, но не видны LLM, ориентирующейся по скриншотам. ➖ Ловушки — задачи на время, которые человек просто не успеет решить, а LLM справится без вопросов. Конечно, эти решения сложно масштабировать, но задача важная и её нужно как-то решать.
🥉 Третье место занял проект по улучшению ТЗ через обсуждение несколькими агентами.
Причин использовать Haiku 3.5, участники хакатона не придумали.
@ai_newz