ai_newz | Неотсортированное

Telegram-канал ai_newz - эйай ньюз

73708

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow

Подписаться на канал

эйай ньюз

Black Forest Labs привлекают $200M по оценке более чем в $1B

Такая оценка неудивительна - посмотрите на сравнение популярности FLUX.1 с разными версиями Stable Diffusion, у последних версий которой большие проблемы.

Вообще оцените темп - парни ушли из Stability в марте, в августе уже релизнули первую модельку, попутно зарейзив $31M на Seed. Сейчас в процессе рейза $200M по оценке $1B. Достигли единорога за 4 месяца c запуска первой модели в начале Августа! 🦄

Пацаны вообще ребята!

@ai_newz

Читать полностью…

эйай ньюз

СЛИВ SORA

или художника обидеть может каждый...

Я обычно скептически отношусь ко всем подобным заявлениям, вот, например, про strawberry. Но здесь ситуация еще более неоднозначная.

Что у нас есть:

1. Группа анонимных бетатестеров.

2. Hugging Face Space, куда захардкодили запрос на OpenAI Sora API endpoint.
Вот, зацените:

def generate_video(prompt, size, duration, generation_history, progress=gr.Progress()):
url = 'https://sora.openai.com/backend/video_gen?force_paragen=false'

headers = json.loads(os.environ["HEADERS"])

cookies = json.loads(os.environ["COOKIES"])
if size == "1080p":
width = 1920
height = 1080
elif size == "720p":
width = 1280
height = 720
elif size == "480p":
width = 854
height = 480
elif size == "360p":
width = 640
height = 360
payload = {
"type": "video_gen",
"prompt": prompt,
"n_variants": 1,
"n_frames": 30 * duration,
"height": height,
"width": width,
"style": "natural",
"inpaint_items": [],
"model": "turbo",
"operation": "simple_compose"
}

Здесь видно, что у нас есть возможность выбирать стиль, inpaint_items (можно инпейнтить?) и даже саму модель. В данном случае стоит Turbo.

3. Подозрительное письмо — "Корпоративным повелителям искусственного интеллекта", где обвиняют OpenAI в абьюзе бесплатного труда с целью пиара, ссылаясь на то, что лишь малая часть сгенерированных видео увидит свет. В письме также утверждается, что они хотят помочь OpenAI стать более "open". Мотивация, так скажем, натянутая.

4. Сами видео и тесты от успевших счастливчиков, которые выдают 1080p и продолжительность 10 секунд с высокой консистентностью, динамикой и адекватной анатомией, ура!

5. Водяной знак OpenAI, который, конечно, можно было подделать.

6. В качестве пруфа слили также имена некоторых ранних тестеров. Кстати, на демоспейсе сейчас написано, что спустя 3 часа доступ закрыли для всех.
some sora-alpha-artists, Jake Elwes, Memo Akten, CROSSLUCID, Maribeth Rauh, Joel Simon, Jake Hartnell, Bea Ramos, Power Dada, aurèce vettier, acfp, Iannis Bardakos, 204 no-content | Cintia Aguiar Pinto & Dimitri De Jonghe, Emmanuelle Collet, XU Cheng, Operator, Katie Peyton Hofstadter


Тяжело говорить о том, настоящий ли это слив, хотя выглядит очень похоже. Видео, хоть и немного, но действительно получше, чем у конкурентов. С другой стороны, бета-тестеры на то и бета-тестеры, чтобы работать бесплатно. Никто их не заставляет, так что жаловаться не на что. Я бы вот с удовольствием сам потестировал)

Sora ли это на самом деле или может это все часть маркетинговой кампании? Может быть модель еще не готова к релизу, т.к. обучена на некошерных данных, но хайпа нагнать очень хотелось? До официального релиза мы этого не узнаем.

@ai_newz

Читать полностью…

эйай ньюз

SmolVLM - новая VLM с мизерным потреблением памяти

Huggingface заделали конкурента для moondream, маленькой 2B VLM, о которой я рассказывал на прошлой неделе. К SmolLM 2 1.7B прицепили visual encoder от SigLIP.
Модель при мизерном потреблении памяти еще и умудряется сильно обскакать moondream по качеству! Эх, догоняйте, стартаперы!

Так мало памяти SmolVLM кушает из-за более эффективной токенизации картинок. Из-за большего размера патчей в картинках, на тот же промпт, где у SmolVLM уходит 1,2к токенов, у Qwen2-VL 2B уходит 16к. Таким образом, при одинаковом количестве параметров, SmolVLM вплоть до 5x быстрее и кушает почти в три раза меньше памяти. Размер патча в SigLip увкличили за счет применения к закодированной кантинке блока Pixel shuffle, который дополнительно уменьшает количество токенов в 9 раз. Pixel Shuffle преобразует квадраты из 3x3 токенов в один токен, перещая токены из spacial размерности в channels.

Все же тут палка о двух концах - хоть Qwen и медленнее, но качество у него сильно выше.

В принципе из-за такой эффективности модель могла бы быть довольно хороша для понимания видео, но, к сожалению, длина контекста всего 16к.

Демо
Веса
Блогпост

@ai_newz

Читать полностью…

эйай ньюз

INTELLECT-1 - первая децентрализованно натренированная LLM

Наконец-то завершилась первая большая распределённая тренировка, продолжавшаяся больше месяца на трёх континентах - в Европе, Азии и Северной Америке. В результате вышла 10B модель, натренированная на одном триллионе токенов, на что ушло около 80к H100-часов.

В тренировке поучавствовало около 30 людей и организаций, компьютом скинулся даже Hugging Face. Большую часть времени тренировки регистрация была закрыта, а поучаствовать можно было только задеплоив готовый образ на машине с 8xH100 80Gb через Prime Intellect, агрегатор GPU-провайдеров, который и организовал тренировку. В следующих трейнинг ранах обещают открыть доступ к тренировке и с другого железа и не через Prime Intellect, ждём.

Но даже когда тренировать смогут все желающие на любом железе, на консьюмерских видеокартах поучаствовать вряд-ли выйдет - сейчас в 24 гига 4090, для тренировки, влезет максимум модель 3B класса. Но через пару прорывов в распределённой тренировке, Training@home может стать реальностью.

Вышла явно не SOTA - современные модели тренируют, используя на порядок больше данных. Если авторы сильно не налажали, результаты должны быть где-то в районе Llama 2 13B. Не идеально, но в качестве proof of concept более чем достаточно.

Сделали такую распределённую тренировку возможной через слегка модифицированный DiLoCo, а код тренировки открыт и лежит на гитхабе. Сейчас модель тюнят, полный релиз будет где-то на этой неделе. Потом обещают и пейпер.

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#45)

LLM
- DeepSeek 2.5 – лучший в своем деле! Подъехали неожиданные результаты с Copilot Arena.
- Pixtral Large – Open source SOTA даже среди фронтирных моделей в мультимодалках, правда, и здесь не без подвоха.
- Phi1.6B + SigLIP 400M vision encoder – мини-моделька на коленке оказалась лучшей в своем классе, или о том, как случайно сделать стартап, подняв $4,5M.
- R1-Lite – опенсорс-аналог o1 от OpenAI. Пока слабенький, но главное, что мы теперь тоже научились в inference time scaling.
- Llama 3.1 405B – на скорости 1k токенов/сек. Гонки инференса продолжаются, Cerebras пока лидирует.
- Бойня на арене – Gemini топ-1, тюн под ELO арены и прочие грязные приемчики.

Генераторы всякого
- Cтримец про Movie Gen от коллег. Даже запись сохранилась.
- FLUX.1 Tools – BFL снабдили нас всем необходимым для полноценного пользования FLUX, остальное – на плечах опенсорса.

Про деньги
- Насильный манирейз от Amazon – сколько бы Anthropic ни отнекивались, все-таки взяли 4 миллиарда зеленых. И еще о других многомиллиардных сделках.

Мой ресерч

- Мой доклад про CV – видос лежит на YouTube, сделал обзор на новиночки в вижене за 2023-2024.
- Ищу Research интернов – требования серьезные, но, может, именно ты как раз проходишь.

Читать дайджест #44

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

☀️Computer Vision Research in 2023-2024: A Brief Overview

Наконец-то выкладываю видео моего доклада на мини-конфе в Тбилиси в марте.

Я рассказывал про основные интересности в Компьютерном Зрении (не GenAI), которые прозошли c марта 2023 до марта 2024. За пол года SOTA уже, конечно, обновилась, но концептуально я разобрал много базированных статей 23-го и 24-го года, поэтому доклад все еще актуален.

What matters in CV in 2024:

SCALE
COMPUTE
DATA


Contents:
• Visual representation learning:
• Scaling: Model & Compute & Data
• Self-supervised pre-training
• Multimodal models [briefly]
• Fine-grained tasks: Segmentation & Tracking

Papers dicsussed:
• NaViT: Vision Transformer for any Aspect Ratio and Resolution, NeurIPS 2023
• Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design, NeurIPS 2023
• ViT-22B: Scaling Vision Transformers to 22 Billion Parameters, ICML 2023
• EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
• Data Filtering Networks (DFN), ICLR 2024
• What does clip know about a red circle? visual prompt engineering for VLMs, ICCV 2023
SigLip: Sigmoid Loss for Language Image Pre-Training, ICCV 2023
• Image Captioners Are Scalable Vision Learners Too, NeurIPS 2023
• The effectiveness of MAE pre-pretraining for billion-scale pretraining
• DINOv2: Learning Robust Visual Features without Supervision, ICLR 2024
• ImageBind: One Embedding Space To Bind Them All, CVPR 2023
• LLaVa 1.0 & 1.5: Visual Instruction Tuning, NeurIPS 2023, Improved Baselines with Visual Instruction Tuning, arXiv 2023
• PaLI-3 Vision Language Models: Smaller, Faster, Stronger
• Segment Anything, ICCV 2023
• CoTracker: It is Better to Track Together, ECCV 2024

Ну, и на последок, вот фото со встречи эйай ньюз в Тбилиси.

https://youtu.be/Nmnl9FCXlFw

#личное
@ai_newz

Читать полностью…

эйай ньюз

О внедрении AI в бизнес.

Я недавно делал обзор на то, как корпорации тратят деньги на AI. В основном это LLM, которые берут на себя customer support, продажи и контент в соцсетях.

О том, как эффективно и пошагово внедрить AI в свой бизнес, — читай здесь.

Автор канала — Михаил, кандидат наук по экономике с MBA Skolkovo и владелец Black Mesa IT, которая внедряет AI-решения в крупнейшие корпорации, включая Сбер.

🔥 Рекомендую! Здесь учат использовать нейросети для роста вашего бизнеса:
@KiberMisha.

#промо

Читать полностью…

эйай ньюз

Прямо сейчас идет трансляция, где коллеги рассказывают про нашу 30B Movie Gen модель!

Не знаю, будет ли запись. Но еще не поздно присоединиться.

https://atscaleconference.com/event/live-now/

@ai_newz

Читать полностью…

эйай ньюз

Приглашаем тебя на крутое IT-мероприятие, посвящённое AI и передовым технологиям разработки рекомендательных систем.

Регистрируйся, и в день мероприятия мы пришлём тебе ссылку на трансляцию. Или приходи очно, если ты живёшь в одном из городов.

Где и когда?

✔️ Владивосток, 26 ноября
✔️ Новосибирск, 28 ноября
✔️ Нижний Новгород, 5 декабря
✔️ Санкт-Петербург, 6 декабря

Тебя ждут крутейшие доклады, живая дискуссия и новые знания в сфере рекомендательных систем.

Количество мест ограничено — успей занять своё и прикоснуться к миру рекомендательных систем! 👌

#промо

Читать полностью…

эйай ньюз

Новая модель GigaChat Max от Сбера

Сбер выложил новую модель GigaChat Max. У нее заявлены увеличенная база знаний и улучшенная логика. Еще добавили Vision.

Новый GigaChat эффективнее работает с текстом и пишет код. Дает более красивые и структурированные ответы, лучше решает комплексные и творческие задачи. А по бенчмаркам уступает лишь Llama-3.1 и GPT4o.

Также GigaChat MAX хорошо показала себя при создании агентов. Ещё у них есть специальная Studio, позволяющая создавать агентов без специальных знаний.

@ai_newz

Читать полностью…

эйай ньюз

И опять настало то время года, когда я ищу Research интернов к нам в команду в Meta GenAI в Цюрихе!

Интерн будет работать непосредственно со мной и моими коллегами. Основная цель стажировки публикация на ICLR/CVPR.

Работать будем над image&video генерацией (см. Movie Gen для примера).

Какой профиль я ищу:
- PhD студент, официально зачисленный в университет.
- Есть 2-3+ публикации на top-tier конференцииях вроде NeurIPS, CVPR, ICRL, ECCV и т.д.
- Опыт с диффузионными моделями (предпочтительно) либо с LLM.
- Дополнительным плюсом будет, если вы умеете ускорять модели либо работали с альтернативными архитектурами типа Mamba-шмамба, RWKV, и тп.

Длительность стажировки: 24 недели.
Начало: весна-лета 2025.
Визу и переезд в Цюрих спонсируем.

Писать можно мне в ЛС, прикрепляя CV. Репост и решер приветствуется - может у вас есть кто-то знакомый, кому эта вакансия идеально подойдет.

@ai_newz

Читать полностью…

эйай ньюз

DeepSeek 2.5 оказался лучшей моделью для автокомплита кода

Спустя всего пару недель после запуска, подъехали результаты с Copilot Arena. На удивление для всех, топовой моделью там оказался DeepSeek 2.5, опередив Claude Sonnet, Codestral и Llama 3.1 405B. А вот модели от OpenAI заметно отстают. GPT 4o-mini — худшая модель из всех, которые тестили, причём отставание огромное.

Что примечательно, дешевле DeepSeek 2.5 лишь Gemini Flash, и то до учёта context caching'а, который у DeepSeek автоматически хранится сутки и сбивает цену инпута в 10 раз. В реальном использовании она дешевле всех, да к тому же единственная полностью открытая модель из топа (у Codestral драконовская лицензия).

o1 и o1-mini тут не участвовали, потому что задержка там слишком высокая для автокомплита, а новая Qwen 2.5 Coder просто не успела на лидерборд. Не хватает и более специализированных моделей — вроде Cursor Tab или Supermaven, которые создатели Cursor недавно купили. Они явно будут похуже чисто из-за размеров, но вопрос, насколько.

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#44)

LLM
- Возможный потолок Scaling law. OpenAI меняет вектор развития.
- GPT-2 Small за 8 минут. Подъехали свежие оптимизации, теперь своя LLM обойдется всего лишь в 3 доллара.

Карьера
- Ревью с ICLR. Наша команда получила отличные рецензии!
- Как найти ментора? Есть неплохой вариант заплатить за это.

3D
- NeRF On-the-go. Делаем нерф на ходу в ужасных условиях.
- Трекаем тело по одной ego камере. В реальном времени, с лучшей точностью. Уже юзабельно в продуктах VR/AR.

Прочее
- Роботы EVE разъехались по домам. Первые тесты от "эксцентричного" Kai Cenat.
- Веса и код AlphaFold 3. Следующее поколение нобелевконосной модели для предсказания структуры стало "народным достоянием".
- SeedEdit. Очередной текстовый фотошоп. Ничего нового, но зато показывает, насколько важен хороший датасет.

> Читать дайджест #43

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

Вот как выглядит работа этого метода:

Одна шакальная камера на голове, о качестве можете судить сами в правом верхнем углу. В середине — предсказанное положение тела и облако из SLAM-точек. + можете сравнить с тем, что было на самом деле.

@ai_newz

Читать полностью…

эйай ньюз

Как работают генеративные технологии, которые лежат в основе большинства визуальных сервисов? Какова их «математическая начинка»? Получите ответ на эти и другие вопросы на бесплатном интенсиве Computer Vision Week! Он пройдёт с 25 по 29 ноября онлайн и поможет вам разобраться в сложных вопросах компьютерного зрения и диффузионных моделей.

Среди организаторов — эксперты, которые создают технологии будущего: Yandex Cloud, Школа анализа данных, YaArt и YaResearch. За 5 дней они расскажут, как устроена генерация изображений на практике: от математических основ и алгоритмов до нейробайесовских методов. Вы также научитесь работать с генеративными технологиями самостоятельно и узнаете, какие горизонты они открывают для разработчиков и исследователей.

Что ещё? Вы не только послушаете лекции, но и сможете попробовать свои навыки на практике — в решении задач. Те, кто успешно справится с отборочными испытаниями и итоговой работой, получат заветный сертификат в портфолио!

Успейте зарегистрироваться до 24 ноября, пока есть места!

#промо

Читать полностью…

эйай ньюз

Маск пообещал заделать целую ИИ игровую студию внутри xAI, как противовес "студиям во владении гигантских корпораций". У xAI, кстати, оценка 50 миллиардов, это между Electronic Arts и Nintendo.

Как думаете, что из этого выйдет?

@ai_newz

Читать полностью…

эйай ньюз

А вот новая моделька SmolVLM работает на M1 Max на скорости в 80 токенов в секунду.

@ai_newz

Читать полностью…

эйай ньюз

AI Assistant API или RAG из коробки

RAG – это хороший способ залить в нейронку свою базу данных и избежать галлюцинаций (вот здесь я писал подробнее про это). RAG достаточно жестко задает контекст в виде фрагментов текста, на базе которых LLM должна скомпоновать ответ, то есть нейросеть не обучают на нем, а используют непосредственно в момент генерации. Имплементировать RAG самому, хоть и не очень сложно, но всё же требует специальных умений.

Тут Яндекс решил ещё упростить жизнь разработчиками и внедрил RAG в свой API. Идея в целом не новая, но в паре с неплохим облачным сервисом, на котором строятся местные компании, выходит удобный фреймворк. Он не требует специальных навыков, чтобы прикрутить AI-ассистента на сайт клиента — что сейчас, как будто бы, must-have для любого сайта. Ну а кроме этого, RAG полезен для работы с внутренней документацией, crm и прочими базами данных.

@ai_newz

Читать полностью…

эйай ньюз

Anthropic показали универсальный способ общения LLM с внешним миром

MCP (Model Context Protocol) - открытый протокол, позволяющий любой LLM получать доступ к инструментам и информации. В качестве демо Claude попросили создать веб-страницу, залить её на GitHub, создать issue и PR, что он успешно и сделал (показано на видео).

Вдохновлялись LSP - протоколом, который позволил написать ядро интеграции языка с IDE один раз и использовать её повсюду, чем изменил рынок редакторов кода, дав маленьким проектам конкурировать с большими IDE.

MCP работает по простой клиент-серверной архитектуре - приложения на основе LLM (клиенты) могут запрашивать информацию у серверов, а также пользоваться предоставленными серверами инструментами. Ещё серверы могут задавать ряд промптов. Сделать сервер довольно просто - показанный в видео сервер для GitHub написали меньше чем за час.

Клиент пока что только один - Claude Desktop, а серверы нужно разворачивать своими руками локально. Потом обещают поддержку сторонних серверов - то есть в каком-то Notion будет кнопка "привязать Claude/ChatGPT/Gemini", через которую LLM будет даваться доступ к вашим данным.

Выглядит это куда интереснее, чем то как пытаются сделать интеграции OpenAI и Google в ChatGPT и Gemini. Во-первых, MCP более гибкий - авторы приложений могут встраивать туда MCP-серверы. Во-вторых, открытость протокола позволит более маленьким провайдерам, вроде Mistral или DeepSeek, использовать куда больше тулов, чем если бы они пытались сделать это сами. Ну и, конечно же, это приближает эру агентов.

Взлетит или не взлетит - пока ещё непонятно, но выглядит многообещающе. В качестве примеров для разработчиков Anthropic сделали 9 MCP-серверов - Slack, Google Maps, GitHub и ещё несколько. Несколько компаний уже принялись делать и сторонних клиентов - к примеру, авторы Zed и Codeium.

Примеры интеграций
Туториал по протоколу

@ai_newz

Читать полностью…

эйай ньюз

На чатбот арене последние дни очень жарко 💃

Неделю назад Gemini-1114 заняла первое место на арене, обогнав все модели OpenAI. В среду OpenAI ответили более новой версией 4o, Artificial Analysis протестировали её, и выводы печальные - хоть рейтинг на арене и растёт, бенчи MATH и GPQA просели ниже результатов июльской 4o-mini. При этом, с просадкой по бенчам, более чем в два раза выросла скорость - с 80 до 180 токенов в секунду. Похоже, нам суют модель сильно поменьше за те же деньги.

Вот вам ещё одно напоминание, что теперь и арене верить решительно нельзя - несколько компаний уже несколько месяцев активно занимаются тюном под арену только чтобы повысить ELO. Живая демонстрация закона Гудхарта в действии: «Когда мера становится целью, она перестает быть хорошей мерой». Кстати, жёсткий тюн под арену не сильно помог OpenAI - новая 4o продержалась в топе всего лишь чуть больше суток. В четверг вечером первое место заняла уже Gemini-Exp-1121.

Под постом про набор интернов у меня спрашивали, чем лучше сейчас заняться в AI. Так вот, надеюсь, посмотрев на весь этот бардак с ареной, кто-то из подписчиков вдохновится темой оценки качества моделей и сможет предложить бенчи получше.

Вообще объективная автоматическая оценка качества генеративных моделей будь-то текстовых или картиночных и видео - задача важная, но все еще не решенная.

@ai_newz

Читать полностью…

эйай ньюз

Amazon инвестирует ещё 4 миллиарда в Anthropic

Слухи ходили уже какое-то время, я уже писал об этом раунде в начале ноября. И вот свершилось - Amazon всё таки удалось заставить Anthropic тренировать на своих чипах Trainium, что позволит довести эти чипы до ума, а там, глядишь, и кто-то их начнёт арендовать у амазона.

Вообще поразительно как часто сейчас случаются такие многомиллиардные сделки - неделю назад xAI подняли ещё 5 миллиардов на дополнительные 100к GPU для их Colossus . Оценка компании за полгода удвоилась, до 50 миллиардов долларов, что в 500 раз больше её годовой выручки. А сейчас уже Databricks, по слухам, ищет 8 миллиардов по оценке в 61, причём, скорее всего, компания их найдёт.

Инвестиций, даже в большие компании, столько, что я не знаю, есть ли смысл писать про каждую отдельно. Канал ведь не финансовый. А ведь есть ещё и рыбёшки поменьше...

@ai_newz

Читать полностью…

эйай ньюз

FLUX.1 Tools

Ну что, лучший генератор картинок (Recraft не в счет) решил не отставать от Midjourney и выпустил свой почти такой же набор инструментов. Все они, как полагается разработчикам модели, аутперформят решения от комьюнити.

В наборе:
- Ин/аутпейтингFLUX.1 Fill
- КонролнетFLUX.1 Depth и FLUX.1 Canny, которые также идут в формате LoRA.
- IP-адаптерFLUX.1 Redux

Классический набор готов, остальное могут сделать энтузиасты. О качестве судить пока рано — жду ваши тесты в комментариях.

А дальше, что дальше? На сайте BFL уже красуется громкая надпись:
"Up Next. State-of-the-Art Text to Video for all."

Анонс
Обнимающее лицо
GitHub

@ai_newz

Читать полностью…

эйай ньюз

Llama 3.1 405B ускорили почти до тысячи токенов в секунду

Cerebras наконец-то нашли достаточное количество своих CS-3, чтобы запустить Llama 405B, применили к ней Speculative Decoding, который использовали для ускорения 70B до 2к токенов, и обскакали SambaNova почти в 6 раз. Стоить это будет $6 input/$12 output за миллион токенов и уже доступно в бете. Всем пользователям дадут доступ в первом квартале 2025.

Столько ждать нужно из-за крайне плохой доступности железа - для того чтобы запустить Llama 405B, нужно 20-30 CS-3. Для сравнения, в Condor Galaxy, суперкомпьютере на чипах Cerebras, всего 64 CS-3. А стоит он больше ста миллионов долларов. Надеюсь, что если им удастся перейти на массовое производство, то стоимость их систем значительно упадёт. Иначе прибыльность такого API сомнительна.

Проблемы с доступностью не только у Cerebras — есть они и у Groq, которые больше трёх месяцев обещают API 405B, но, видимо, чипов просто не хватает (для запуска 405B нужно около четырёх тысяч чипов Groq). А пока что они почти догнали Cerebras на инференсе Llama 70B — 1669 токенов в секунду, при этом обещая, что следующее поколение чипов будет сильно быстрее.

К сожалению, доступ всем юзерам через чат на этот раз не дали. Да и длина контекста пока что всего 8к, но на релизе обещают сделать доступным и 128к. Скорость при таком контексте, правда, проседает, но всё равно больше полутысячи токенов в секунду. Надеюсь, к полноценному релизу R1 они откопают ещё один суперкомпьютер, и будет у нас модель, думающая секунды вместо минут.

@ai_newz

Читать полностью…

эйай ньюз

😮 R1-Lite - бесплатный конкурент o1, который скоро релизнут в опенсорс

Китайцы из DeepSeek, несмотря на крайне ограниченные ресурсы, продолжают выдавать охренительные модели мирового уровня. Их новая модель, R1-Lite, очень близка по бенчмаркам к o1-preview, где-то даже превосходит. Она также может тратить десятки тысяч токенов на размышления, при этом чем больше токенов, тем лучше результаты. DeepSeek говорят, что это только начало и тизерят модели ещё мощнее.

По бенчмаркам модель лучше o1-preview в кодинге и математике, но отстаёт в остальных задачах. С o1-mini, которая как раз в кодинге и математике сильнее, чем o1-preview (не спрашивайте), на графиках не сравнивают. Для примера, по бенчам OpenAI, у o1-preview Elo на Codeforces 1258, у o1-mini и полноценной o1 - 1650 и 1673 соответственно. По моим личным тестам, R1-Lite тоже отстаёт от моделей OpenAI.

Но насколько лучше или хуже R1-Lite, чем разные версии o1, это не так важно, ведь изначальная моделька сильно меньше и хуже. Важно, что inference time scaling заставили работать за пределами OpenAI, причём без дурацких ограничений - в отличие от o1, DeepSeek дают полный доступ к размышлениям модели. К тому же скоро обещают API и опенсорс-релиз, к которым будет прилагаться Technical Report о тренировке, а они у DeepSeek очень детальные. То есть даже если другие лабы не смогли воспроизвести inference time scaling самостоятельно, через пару месяцев свой o1 будет у всех. Вместе с base и instruct весами будут релизить ещё и reasoner.

Ещё один нюанс - DeepSeek всё ещё отрабатывают рецепт тюна на маленькой модели, перед тем как потратить заметные ресурсы на тюн большой. Отсюда и Lite в названии модели. Не факт, что она основана на DeepSeek V2 Lite, но скорее всего её смогут запустить простые смертные. Полноценный R1 будет гораздо умнее.

Попробовать можно на их сайте, включив «Deep Think». Дают 50 сообщений в день, причём абсолютно бесплатно.

chat.deepseek.com

@ai_newz

Читать полностью…

эйай ньюз

Интеренcый видос про то, как чел натренил маленькую быструю 2B VLM, которая оказалась лучшей в своем классе.

Моделька - это Phi1.6B + SigLIP 400M vision encoder. Далее чел собрал синтетический датасет LNQA (Localized Narratives Question Answering) с вопросами-ответами по картинкам, 300к пар. И натренил на нем свою модель и выложил все в опен-сорс.

Полочилась довольно сильная шустрая модель. Далее чел поднял $4.5M и строит стартап moondream.ai по тренировке мелких моделей для прода.

В общем правильные данные решают.

Github
Demo
Blogpost про синтетический QA датасет
Видео

Читать полностью…

эйай ньюз

Pixtral Large 🔥🔥🔥

Новая моделька от Mistral на 124B параметров является мультимодальным расширением Mistral Large 2, но с обновлённым системным промптом и улучшенным пониманием длинного контекста в 128K токенов. На мультимодальных бенчах показывает себя очень хорошо, по заявлениям чуть ли не SOTA.

Но Mistral часто убирает неудобные бенчи или модели из своих анонсов. Конкретно тут непонятно с какими версиями моделей сравнивают, плюс как-то очень удобно "забыли" про мультимодального Qwen2-VL и Molmo. Я добавил таблицу с ними тоже. По сути Pixtral Large даже слегка хуже чем Qwen.

Также можно потыкаться в Le Chat. Он, кстати, тоже мощно обновился. Добавили веб-поиск с ссылками на цитаты. Canvas для редактирования аутпута inline, не переписывая всё заново, как это недавно сделали в ChatGPT. Ещё прикрутили Flux Pro прямо в чат.

Веса уже лежат на Hugging Face
Le Chat
Или подключиться по API
Подробнее

@ai_newz

Читать полностью…

эйай ньюз

Прошла пятая онлайн-конференция Яндекса Yet another Conference on Education. В этом году обсуждали будущее образования.

Благо, на сайте есть запись для тех, кто крутиться в этой теме и случайно пропустил онлайн-трансляцию.

Вот какие темы вас ждут:
- Свежее исследование Яндекс об AI в образовании.
- Каким сейчас представляется будущее учебного процесса?
- Какие навыки становятся востребованными?
- Как бизнес, общество и технологии трансформируют обучение?
- Как получить навыки, которых нет в специальности: софт-скилы и нейросети?

Смотрите конференцию в записи и будьте в курсе всех изменений!

#промо

Читать полностью…

эйай ньюз

Лол, стример Kai Cenat купил робота EVE.

Помните, я писал про X1? Так вот, похоже, первые модели разъехались по домам. Наблюдать за историей приходится от лица бешеных стримеров.

Плюсом ко всему, они, видимо, зафайнтюнили бота под хозяина, и теперь он, помимо обычных робо-дел, ведет себя несколько *freaky*. Спокойно произносит слово на букву "N" и говорит о том, что переспал с Alexa от Amazon. Я собрал для вас небольшую подборку выше. Зацените угар.

Но скорее всего роботом управляет человек, конечно же.

А, ну и да, еще X1 со злости разбил ему телек 😂

@ai_newz

Читать полностью…

эйай ньюз

Риалтайм предсказание положения тела по одной ego-камере😨

Одна из главных проблем всех этих ваших виаров и эйаров заключается в том, что нужно раскидать камеры по всей комнате для трекинга положения тела. Я тоже решал эту проблему, когда работал в Reality Labs - мы предложили диффузионную модель AGRoL, которая по трекингу рук и головы синтезирует движение всего тела в 3D. Теперь зацените свежачок от интернов из Meta Reality Labs.

Тут пошли еще дальше и используют только одну RGB камеру на голове (которая итак стоит во всех VR/AR очках), они смогли в реальном времени (70FPS на A100) с задержкой всего 0.17 секунд отследить положение всех конечностей, даже если они не попадают в кадр.

Ребята решили взять максимум из того, что есть: они скормили диффузионке данные о положении головы, цветную картинку и набор SLAM-точек (думайте об этом как о гауссовских сплатах на минималках). Кроме того, добавили CLIP-эмбеддинг для извлечения семантической информации (что находится в кадре). Всё это обучили на 200 часах видеоконтента с данными от motion capture костюма для захвата движений.

В результате получилась модель, которая не только лучше предшественников, но и работает супербыстро, что позволяет использовать её для онлайн-процессинга. Правда, пока SLAM работает только в статике — если, например, передвинуть стол, модель этого не заметит.

Очевидно, бенефициар этой технологии — это AR и VR. Игрушки выйдут топовые, хоть на поле 100 на 100 игроков устраивай, как это показывал Snapchat на последней презентации своих очков. Нужно только рядом кластер с хотябы 1xA100 на человека поставить 😁.

Помимо игр, технология пригодилась бы в робототехнике, в частности, для обучения робогуманоидов нормально ходить и ориентироваться в пространстве. Такие данные сложно получить сразу в большом объёме, поэтому сейчас, например, используют imitation learning, как в этом посте про живую сталь.

Пейпер
Код (скоро)
Project page

@ai_newz

Читать полностью…

эйай ньюз

Как находу сделать 3D скан какой-нибудь достопримечательности в отпуске?

Держите новиночку с CVPR2024 — NeRF On-the-go.

Для справки:
Пост про нейрорендеринг и NeRF — это метод создания 3D-модели из нескольких фото, при котором нейросеть обучается по этим изображениям для реконструкции сцены. NeRF использует трассировку лучей для получения данных о цвете и глубине каждой точки, что даёт высокую детализацию и реализм, но требует больше ресурсов.

Что такое Гаусовские Сплаты — это более простой и быстрый способ, где сцена представлена облаком размазанных пятен (гауссиан). Тренировка и рендеринг занимают меньше времени, поэтому этот метод более удобен для практического применения, хоть и немного уступает в качестве.

Ключевое различие: NeRF — это детально и медленно, с трассировкой лучей, а Гауссовские сплаты — быстро и проще, но менее детализировано.

Давно не было чего-то особо интересного про Нерфы, да и к тому же Гауссовские Сплаты как-то интереснее из-за своей скорости. Но вот, клевое обновление для нерфов. Те, кто пробовали сами что-то отсканить, наверняка знают эту боль, когда ты 20 минут ходил вокруг да около, пытаясь что-то там отсканировать, да не дрогнуть лишний раз или не завалить горизонт, не дай бог кто-то в кадр попал — и все равно что-то запорешь, и на выходе получалось облако из пикселей на пол сцены. Про то, чтобы что-то снять on-the-go, я вообще молчу.

Но вот зацените результаты. Впечатляет, однако! Здесь и кривые ракурсы, и люди чуть ли не на весь кадр, а ему все нипочем.

Вот как этого добились:
Главная идея — выявить пиксели с высокой степенью неопределенности. Они, очевидно, принадлежат динамическим объектам (дистракшенам), в то время как пиксели с низкой степенью неопределенности должны принадлежать объектам статическим, которые должны сохраниться в нерф.

Далее, чтобы выявить все дистракшены, просто сравнить RGB пиксели, как это делалось обычно, недостаточно (этим, кстати, делают на фичах DINOv2, но тоже по-умному — см. схему пайплайна в комментариях). Когда цвет дистрактора и объекта похожи, это приводит к образованию артефактов в виде туманных облаков. Для того чтобы с этим справиться, используют SSIM, который берет во внимание освещенность, контрастность и структуру — см. комментарии. Оба процесса идут параллельно и оптимизированы на поиск дистракшенов.

Если интересна математика, то милости прошу почитать пейпер. А резюмируя, выходит, что для того, чтобы получить чистый нерф, нужно научиться хорошо выявлять лишние объекты в кадрах со скана. Кроме SSIM, можно много еще чего сюда накидать, например, сегментацию (выделение объектов), но здесь появляются сложности с тем, чтобы понять, что удалить, а что нет. Ну и поскольку в нерфах это делать научились, скоро ждем то же в сплатах. А там уже можно будет и самим потыкаться.

Таеж новый вид фотографий с отпуска!

Кстати, в авторах аспиранты из из ETH Zurich. Я иногда супервайжу студентов от туда. Так держать пацаны!

Пейпер
Код
Project page

@ai_newz

Читать полностью…
Подписаться на канал