ai_newz | Неотсортированное

Telegram-канал ai_newz - эйай ньюз

70254

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow

Подписаться на канал

эйай ньюз

Genie 2 – A large-scale foundation world model

Google DeepMind хвастаются своим игровым AI-движком на базе диффузионного генератора видео. Сейчас это модно назвать World Model, но давайте без булшита, друзья.

Imagen 3 (txt2img от GDM) генерирует картинку – типа начальное состояние игры. Затем, в привычной нам для img2video манере, картинку оживляют, превращая ее в игру, где дополнительным инпутом идет нажатие клавишь.

Пока что игра живёт лишь 60 секунд максимум (в среднем 10–20), но миры все крайне разнообразные и в абсолютно разных условиях. Я имею в виду вид от третьего лица, первого лица, сверху — и даже гонки можно сделать (и на лошади тоже), и просто бродилки, конечно же. Управление по классике: WASD (QE), пробел и мышь.

Также работает и взаимодействие с объектами, например, можно лопать шары, взрывать бочки и открывать двери на E. Там даже NPC-персонажей можно найти, если задать нужный входной "скрин".

Архитектура
Каких-то технических деталей по Genie 2 особо нет — Google на такие вещи довольно скупы. Из моего представления - там тупо latent diffusion image2video модель, где каждый следующих кадр постепенно генерируется, исходя из контекста, состоящего из существующих кадров и нажатий на клавиатуру/мышку.

Черипики с сайта сасные в плане diversity, но не ахти по качеству картинки. Возможно, через год-два каждый сможет сгенерировать себе мир по душе, так же как сейчас генерируют музыку в Suno.

Очевидно, до статуса играбельно ещё далеко. И я тут даже молчу о скорости генерации (об этом не пишут, но, думаю, там не совсем риалтайм). Несмотря на то, что у авторов были горы TPU для обучения и тысячи часов записанного геймплея, качество видео пока хуже PlayStation 1, картинка размытая, и нет четкости в деталях. Ну, и мир сильно плывет после 10–20 секунд. Есть куда улучшать.

Скоро в эту нишу могут вкатиться другие серьёзные игроки (ждём ответку от Маска). Вот тогда и посмотрим.

Блогпост

@ai_newz

Читать полностью…

эйай ньюз

Amazon релизнули Nova - новое поколение своих моделей

В семействе четыре LLM - Micro, Lite, Pro и Premier. Первые три уже доступны на AWS, а Premier ещё тренируется. Все кроме Micro - мультимодальные.

Модели вышли дороговатые - Pro по бенчам чуть лучше Llama 3.2 90B, но по сильно более высокой цене - $0.8/$3.2 за лям токенов у Pro, против $0.72/$0.72 у Llama на том же AWS. Но Amazon очень хочется чтобы сравнивали с передовыми моделями, поэтому все результаты Nova Pro в табличке выделили жирным, не смотря на результаты, хоть и сравнивают с GPT-4o и Claude Sonnet, которые сильно впереди.

Что неплохо - длина контекста. Хоть у Micro она всего 128к, у Lite и Pro она уже солидные 300к. Этого уже достаточно чтобы туда засовывать видео, пусть и в маленьком фреймрейте. Больше контекст только у Gemini.

Также релизнули Nova Canvas и Nova Reel, для генерации изображений и видео. Пока примеров генерации не очень, так что отпишусь про них я как-то потом.

Model card

@ai_newz

Читать полностью…

эйай ньюз

Intel показали новое поколение видях - Battlemage

Хоть у компании и большие проблемы, смена CEO менее чем сутки назад не помешала провести презентацию видеокарт. В этом поколении ещё больший упор на бюджетных геймеров, чем в прошлом, а показали лишь две карты. У старшей B580 12 гигов видеопамяти, по бенчам Intel она на 10% быстрее 4060, а выйдет уже 13 декабря за $249. Соотношение цена/качество очень хорошее, но стоит подождать что смогут предложить конкуренты в этом поколении.

У младшей B570 всего 10 гигов, сильно порезанные характеристики, а цена не сильно ниже — $219. Выйдет она 16 января, цену до этого момента надеюсь успеют сбросить, ведь разница в характеристиках сильно больше разницы в цене.

Набор фич в гейминге подтянули до уровня Nvidia — завезли Frame Generation в свой XeSS, аналог Nvidia DLSS. Добавили и Low Latency режим, аналог Nvidia Reflex. Но новое поколение Nvidia выходит уже в начале следующего года, а для него Хуанг явно придумал что-то новое.

Довольно большой упор делают на ИИ-фичи - сделали AI Playground, приложение, позволяющее простым юзерам запускать модели на видяхах Intel. Поддерживаются не только LLM, оно умеет ещё и в генерацию изображений - внутри Playground есть как ComfyUI, так и AUTOMATIC1111 webui. Для людей не разбирающихся, как работает Comfy, сделали библиотеку готовых пайплайнов.

Софт всё ещё сырой, но ситуация улучшается. Хвастаются, что поддержку видях Intel скоро смержат в мейнлайн PyTorch, так что запуск рандомных репозиториев будет возможен без костылей. Говорят, что стабильность драйверов тоже возросла - с момента выпуска прошлого поколения выпустили больше 50 крупных апдейтов, что исправило кучу проблем. Надеюсь, Intel сможет себе позволить выпустить следующее поколение - Celestial, желательно с хайенд видяхами. Софт к тому моменту должны уже полностью допилить, а серьёзной конкуренции на рынке GPU очень не хватает.

В общем, новое поколение потребительских GPU началось, ждём анонсов от Nvidia и AMD на CES.

@ai_newz

Читать полностью…

эйай ньюз

HuggingFace ввели ограничение на объём загруженных моделей и датасетов. Pro подписка не спасает - она всего лишь удваивает лимит до терабайта, как повысить дальше не очень понятно.

Что будет с теми кто уже превысил лимит не говорят, но, надеюсь, массовой чистки репозиториев не будет.

Конец эпохи.

Ну, и пора делать бэкапы датасетов.

@ai_newz

Читать полностью…

эйай ньюз

Яндекс Образование и НИУ ВШЭ проводят офлайн финал олимпиады по AI и Data Analysis. 

Сегодня в Москве проходит финальный этап олимпиады по ИИ от Яндекс Образования и Вышки.

Задачу для молодых ML-щиков разработали в Яндекс Такси: создать модель, которая с помощью компьютерного зрения будет находить дефекты на кузове и в салоне автомобилей – чтобы вовремя отправлять их в ремонт. 

30 лучших команд, которые прошли онлайн-отбор, 32 часа подряд готовили свои решения. Работы проверят сразу и сегодня уже объявят победителей. За первые три места выдадут денежные призы в размере 600, 450 и 300 тысяч рублей.

В работе используются датасеты Яндекса, так что участники практикуются в решении реальных бизнес-задач.

Если вы студент и планируете участвовать в следующем году, вот в чем вы должны разбираться: 
- Мат. статистика и теория вероятностей 
- Python 
- Сбор, очистка и визуализация данных 
- Теория алгоритмов и структур данных (ну, чутка литкода всё-таки добавили) 
- Алгоритмы машинного обучения 
- Фреймворки глубинного обучения 

#промо

Читать полностью…

эйай ньюз

CS492(D): Diffusion Models and Their Applications

Курс по Диффузионным моделям от KAIST (Южная Корея) - если хочется поднять базу, не ходя в университет.

Читает леции вот этот чувак - Minhyuk Sung. На сайте есть записи всех лекций и слайды, плюс 2 гостевые лекции от крутых ученых.

Список лекций:
1 - Course Introduction
2 - Introduction to Generative Models / GAN / VAE
3 - DDPM 1
4 - DDPM 2
5 - DDIM 1
6 - DDIM 2 / CFG
7 - CFG / Latent Diffusion / ControlNet / LoRA
8 - Zero-Shot Applications
9 - Guest Lecture 1 by Or Patashnik
10 - DDIM Inversion / Score Distillation 1
11 - Score Distillation 2
12 - Diffusion Synchronization
13 - Inverse Problems 1
14 - Inverse Problems 2
15 - Probability Flow ODE / DPM-Solver
16 - Flow Matching 1
17 - Flow Matching 2
18 - Course Summary
19 - Guest Lecture 2 by Jiaming Song, Chief Scientist at Luma AI

https://mhsung.github.io/kaist-cs492d-fall-2024/

Ну а еще почитать про диффузию можно у меня :) Вот пара ссылок:
- Как ускорить диффузию часть 1, часть 2
- Моя любимая статья по диффузионным моделям (база)
- Разбор нашей статьи Cashe Me if You Can по ускорению диффузионок
- И ещё пара туторов, вот первый и второй

#ликбез

@ai_newz

Читать полностью…

эйай ньюз

Выложили веса INTELLECT-1, первой модели натренированной децентрализованно

Пару дней назад я уже писал про завершение тренировки, а вот релизнули и веса. Модель оказалась в среднем по бенчам примерно на уровне Llama 2 7B, но, так как сейчас есть куча моделей получше в схожей весовой категории (Llama 3.1, Qwen 2.5, Mistral Nemo, Gemma), юзать её вряд ли кто-то будет. Всё-таки для первой распределённой тренировки такого масштаба результаты отличные.

Вместе с релизом модели выпустили и техрепорт, где рассказывается, как они уменьшили необходимость коммуникации во время тренировки в 400 раз. Помимо использования смеси DiLoCo и FSDP2, они квантизируют градиенты в int8. К сожалению, никаких абляций эффективности такого метода в техрепорте нет. Оно-то точно работает, но насколько хорошо – вопрос, плюс явно можно придумать схемы квантизации получше.

В будущем Prime Intellect планируют расширить масштабы тренировки, оптимизировать стек и добавить экономические стимулы для комьюнити. Как может работать последнее – непонятно, может быть, у вас есть идеи?

Демка
Веса
Техрепорт

@ai_newz

Читать полностью…

эйай ньюз

Black Forest Labs привлекают $200M по оценке более чем в $1B

Такая оценка неудивительна - посмотрите на сравнение популярности FLUX.1 с разными версиями Stable Diffusion, у последних версий которой большие проблемы.

Вообще оцените темп - парни ушли из Stability в марте, в августе уже релизнули первую модельку, попутно зарейзив $31M на Seed. Сейчас в процессе рейза $200M по оценке $1B. Достигли единорога за 4 месяца c запуска первой модели в начале Августа! 🦄

Пацаны вообще ребята!

@ai_newz

Читать полностью…

эйай ньюз

СЛИВ SORA

или художника обидеть может каждый...

Я обычно скептически отношусь ко всем подобным заявлениям, вот, например, про strawberry. Но здесь ситуация еще более неоднозначная.

Что у нас есть:

1. Группа анонимных бетатестеров.

2. Hugging Face Space, куда захардкодили запрос на OpenAI Sora API endpoint.
Вот, зацените:

def generate_video(prompt, size, duration, generation_history, progress=gr.Progress()):
url = 'https://sora.openai.com/backend/video_gen?force_paragen=false'

headers = json.loads(os.environ["HEADERS"])

cookies = json.loads(os.environ["COOKIES"])
if size == "1080p":
width = 1920
height = 1080
elif size == "720p":
width = 1280
height = 720
elif size == "480p":
width = 854
height = 480
elif size == "360p":
width = 640
height = 360
payload = {
"type": "video_gen",
"prompt": prompt,
"n_variants": 1,
"n_frames": 30 * duration,
"height": height,
"width": width,
"style": "natural",
"inpaint_items": [],
"model": "turbo",
"operation": "simple_compose"
}

Здесь видно, что у нас есть возможность выбирать стиль, inpaint_items (можно инпейнтить?) и даже саму модель. В данном случае стоит Turbo.

3. Подозрительное письмо — "Корпоративным повелителям искусственного интеллекта", где обвиняют OpenAI в абьюзе бесплатного труда с целью пиара, ссылаясь на то, что лишь малая часть сгенерированных видео увидит свет. В письме также утверждается, что они хотят помочь OpenAI стать более "open". Мотивация, так скажем, натянутая.

4. Сами видео и тесты от успевших счастливчиков, которые выдают 1080p и продолжительность 10 секунд с высокой консистентностью, динамикой и адекватной анатомией, ура!

5. Водяной знак OpenAI, который, конечно, можно было подделать.

6. В качестве пруфа слили также имена некоторых ранних тестеров. Кстати, на демоспейсе сейчас написано, что спустя 3 часа доступ закрыли для всех.
some sora-alpha-artists, Jake Elwes, Memo Akten, CROSSLUCID, Maribeth Rauh, Joel Simon, Jake Hartnell, Bea Ramos, Power Dada, aurèce vettier, acfp, Iannis Bardakos, 204 no-content | Cintia Aguiar Pinto & Dimitri De Jonghe, Emmanuelle Collet, XU Cheng, Operator, Katie Peyton Hofstadter


Тяжело говорить о том, настоящий ли это слив, хотя выглядит очень похоже. Видео, хоть и немного, но действительно получше, чем у конкурентов. С другой стороны, бета-тестеры на то и бета-тестеры, чтобы работать бесплатно. Никто их не заставляет, так что жаловаться не на что. Я бы вот с удовольствием сам потестировал)

Sora ли это на самом деле или может это все часть маркетинговой кампании? Может быть модель еще не готова к релизу, т.к. обучена на некошерных данных, но хайпа нагнать очень хотелось? До официального релиза мы этого не узнаем.

@ai_newz

Читать полностью…

эйай ньюз

SmolVLM - новая VLM с мизерным потреблением памяти

Huggingface заделали конкурента для moondream, маленькой 2B VLM, о которой я рассказывал на прошлой неделе. К SmolLM 2 1.7B прицепили visual encoder от SigLIP.
Модель при мизерном потреблении памяти еще и умудряется сильно обскакать moondream по качеству! Эх, догоняйте, стартаперы!

Так мало памяти SmolVLM кушает из-за более эффективной токенизации картинок. Из-за большего размера патчей в картинках, на тот же промпт, где у SmolVLM уходит 1,2к токенов, у Qwen2-VL 2B уходит 16к. Таким образом, при одинаковом количестве параметров, SmolVLM вплоть до 5x быстрее и кушает почти в три раза меньше памяти. Размер патча в SigLip увкличили за счет применения к закодированной кантинке блока Pixel shuffle, который дополнительно уменьшает количество токенов в 9 раз. Pixel Shuffle преобразует квадраты из 3x3 токенов в один токен, перещая токены из spacial размерности в channels.

Все же тут палка о двух концах - хоть Qwen и медленнее, но качество у него сильно выше.

В принципе из-за такой эффективности модель могла бы быть довольно хороша для понимания видео, но, к сожалению, длина контекста всего 16к.

Демо
Веса
Блогпост

@ai_newz

Читать полностью…

эйай ньюз

INTELLECT-1 - первая децентрализованно натренированная LLM

Наконец-то завершилась первая большая распределённая тренировка, продолжавшаяся больше месяца на трёх континентах - в Европе, Азии и Северной Америке. В результате вышла 10B модель, натренированная на одном триллионе токенов, на что ушло около 80к H100-часов.

В тренировке поучавствовало около 30 людей и организаций, компьютом скинулся даже Hugging Face. Большую часть времени тренировки регистрация была закрыта, а поучаствовать можно было только задеплоив готовый образ на машине с 8xH100 80Gb через Prime Intellect, агрегатор GPU-провайдеров, который и организовал тренировку. В следующих трейнинг ранах обещают открыть доступ к тренировке и с другого железа и не через Prime Intellect, ждём.

Но даже когда тренировать смогут все желающие на любом железе, на консьюмерских видеокартах поучаствовать вряд-ли выйдет - сейчас в 24 гига 4090, для тренировки, влезет максимум модель 3B класса. Но через пару прорывов в распределённой тренировке, Training@home может стать реальностью.

Вышла явно не SOTA - современные модели тренируют, используя на порядок больше данных. Если авторы сильно не налажали, результаты должны быть где-то в районе Llama 2 13B. Не идеально, но в качестве proof of concept более чем достаточно.

Сделали такую распределённую тренировку возможной через слегка модифицированный DiLoCo, а код тренировки открыт и лежит на гитхабе. Сейчас модель тюнят, полный релиз будет где-то на этой неделе. Потом обещают и пейпер.

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#45)

LLM
- DeepSeek 2.5 – лучший в своем деле! Подъехали неожиданные результаты с Copilot Arena.
- Pixtral Large – Open source SOTA даже среди фронтирных моделей в мультимодалках, правда, и здесь не без подвоха.
- Phi1.6B + SigLIP 400M vision encoder – мини-моделька на коленке оказалась лучшей в своем классе, или о том, как случайно сделать стартап, подняв $4,5M.
- R1-Lite – опенсорс-аналог o1 от OpenAI. Пока слабенький, но главное, что мы теперь тоже научились в inference time scaling.
- Llama 3.1 405B – на скорости 1k токенов/сек. Гонки инференса продолжаются, Cerebras пока лидирует.
- Бойня на арене – Gemini топ-1, тюн под ELO арены и прочие грязные приемчики.

Генераторы всякого
- Cтримец про Movie Gen от коллег. Даже запись сохранилась.
- FLUX.1 Tools – BFL снабдили нас всем необходимым для полноценного пользования FLUX, остальное – на плечах опенсорса.

Про деньги
- Насильный манирейз от Amazon – сколько бы Anthropic ни отнекивались, все-таки взяли 4 миллиарда зеленых. И еще о других многомиллиардных сделках.

Мой ресерч

- Мой доклад про CV – видос лежит на YouTube, сделал обзор на новиночки в вижене за 2023-2024.
- Ищу Research интернов – требования серьезные, но, может, именно ты как раз проходишь.

Читать дайджест #44

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

☀️Computer Vision Research in 2023-2024: A Brief Overview

Наконец-то выкладываю видео моего доклада на мини-конфе в Тбилиси в марте.

Я рассказывал про основные интересности в Компьютерном Зрении (не GenAI), которые прозошли c марта 2023 до марта 2024. За пол года SOTA уже, конечно, обновилась, но концептуально я разобрал много базированных статей 23-го и 24-го года, поэтому доклад все еще актуален.

What matters in CV in 2024:

SCALE
COMPUTE
DATA


Contents:
• Visual representation learning:
• Scaling: Model & Compute & Data
• Self-supervised pre-training
• Multimodal models [briefly]
• Fine-grained tasks: Segmentation & Tracking

Papers dicsussed:
• NaViT: Vision Transformer for any Aspect Ratio and Resolution, NeurIPS 2023
• Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design, NeurIPS 2023
• ViT-22B: Scaling Vision Transformers to 22 Billion Parameters, ICML 2023
• EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
• Data Filtering Networks (DFN), ICLR 2024
• What does clip know about a red circle? visual prompt engineering for VLMs, ICCV 2023
SigLip: Sigmoid Loss for Language Image Pre-Training, ICCV 2023
• Image Captioners Are Scalable Vision Learners Too, NeurIPS 2023
• The effectiveness of MAE pre-pretraining for billion-scale pretraining
• DINOv2: Learning Robust Visual Features without Supervision, ICLR 2024
• ImageBind: One Embedding Space To Bind Them All, CVPR 2023
• LLaVa 1.0 & 1.5: Visual Instruction Tuning, NeurIPS 2023, Improved Baselines with Visual Instruction Tuning, arXiv 2023
• PaLI-3 Vision Language Models: Smaller, Faster, Stronger
• Segment Anything, ICCV 2023
• CoTracker: It is Better to Track Together, ECCV 2024

Ну, и на последок, вот фото со встречи эйай ньюз в Тбилиси.

https://youtu.be/Nmnl9FCXlFw

#личное
@ai_newz

Читать полностью…

эйай ньюз

О внедрении AI в бизнес.

Я недавно делал обзор на то, как корпорации тратят деньги на AI. В основном это LLM, которые берут на себя customer support, продажи и контент в соцсетях.

О том, как эффективно и пошагово внедрить AI в свой бизнес, — читай здесь.

Автор канала — Михаил, кандидат наук по экономике с MBA Skolkovo и владелец Black Mesa IT, которая внедряет AI-решения в крупнейшие корпорации, включая Сбер.

🔥 Рекомендую! Здесь учат использовать нейросети для роста вашего бизнеса:
@KiberMisha.

#промо

Читать полностью…

эйай ньюз

Прямо сейчас идет трансляция, где коллеги рассказывают про нашу 30B Movie Gen модель!

Не знаю, будет ли запись. Но еще не поздно присоединиться.

https://atscaleconference.com/event/live-now/

@ai_newz

Читать полностью…

эйай ньюз

Сейчас будет пост для новичков и повод вспомнить былое для старичков. 

Зачем ученым нужен AI? 


Тут мой бывший преподаватель по алгоритмам из Школы анализа данных в Минске, а ныне руководитель всего ШАДа Алексей Толстиков написал небольшое эссе на эту тему и собрал пару юзкейсов из академии. 

Кроме всяких чатов GPT, и Copilot'ов, помогающих писать код, машинное обучение уже давно используется в науке. Например, бозон Хиггса еще в 2012 году открыли с помощью ML (хоть и классического). Модели кормили килотоннами данных с датчиков, пока они искали какие-то необычные паттерны.

Самый известный на сегодняшний день пример, пожалуй, — AlphaFold, который предсказывает трехмерную структуру белков. Этот инструмент открыл множество новых комбинаций, за что и получил Нобелевскую премию. 

В таких задачах людям пришлось бы годами разбираться в бесконечных датасетах и графиках. Нейросети здесь незаменимы, особенно когда дело доходит до эмпирического вывода закономерностей — первого шага к построению полноценной теории или законов. 

Кстати, ШАД тоже занимается разработкой ИИ-моделей для научных задач.. Например, там собрали нейронку для предсказания распространения вулканического пепла в атмосфере. Это помогает заранее подготовиться к выпадению пепла и и минимизировать риски для людей и инфраструктуры. Такие риски есть, например, на Камчатке и в других регионах с активными вулканами. 

Технологии ИИ в науке начали применять еще давно. Например, с помощью модели Morpheus астрономы с 2020 года анализируют космическое небо в поисках экзопланет  Однако рядовой астроном или биолог вряд ли соберет AlphaFold, а обычный ML-щик без биолога тоже не справится. Поэтому ML-специалисты нужны везде! 

Вообще, междисциплинарный ресерч — это топ (я и сам начинал PhD с интердисциплинарного проекта с историей искусств). У нас уже есть Нобелевские премии по физике и химии, а еще осталась куча дисциплин, где использование AI еще не получило такого большого признания. Кто знает, может, следующая будет по истории? Например, за расшифровку каких-нибудь древних рун.

@ai_newz

Читать полностью…

эйай ньюз

Так-с, OpenAI открывет офис в Цюрихе! И это не может не радовать. Это, кстати, их первый research-офис вне США.

Круто, что в Цюрихе есть офисы почти всех самых классных AI компаний. Думаю, скоро и другие AI стартапы-переростки подтянутся.

Почему тут открывают офисы? Потому что сюда можно хайрить лучшие таланты со всего мира (не все хотят жит в США), тут очень сильные университеты по профилю AI/ML, низкая налоговая база для компаний и для работников. Плюс можно переманивать людей из других местных бигтехов.

@ai_newz

Читать полностью…

эйай ньюз

Hunyuan Video - новый опенсорс 13B видео генератор от Tencent

Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.

Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.

По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.

Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.

В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.

Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.

Статья занятная, стоит прочитать в деталях.

Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.

Демка (нужен китайский номер)
Веса
Пейпер

@ai_newz

Читать полностью…

эйай ньюз

В Intel серьёзные перестановки

CEO Пэт Гельсингер ушёл на пенсию, а пока ищут полноценную замену, его роль будут выполнять два временных co-CEO - текущий CFO компании и глава Client Computing Group (подразделения, делающего консьюмерские продукты).

У компании большие проблемы: на основных рынках, где компания совсем недавно была монополистом, появились серьёзные конкуренты. Серверные процы Intel теряют свою долю рынка из-за Epyc от AMD, а Arm-процы теперь делают уже все, кому не лень - от больших клиентов, вроде Amazon, Nvidia и Google, до мелких рыбёшек вроде Ampere.

С десктопными процессорами вообще ад - Intel на пару с производителями материнок настолько их разогнали, что они просто начали гореть (при этом всё равно отставая от чипов AMD, жрущих в два раза меньше энергии). В ноутбучных тоже шляпа - 6 лет назад конкурентов совсем не было, а сейчас компанию душат одновременно AMD, Qualcomm и Apple.

Не вышло и выйти на новые рынки - компания зачем-то сделала три поколения Gaudi, чипов для нейронок, а потом убила направление в пользу серверных видеокарт, причём когда Gaudi 3 удалось догнать H100 по производительности. С серверными видяхами тоже не очень - первое поколение, вышедшее в прошлом году, совсем не задалось, второе решили просто не выпускать, третье выйдет лишь в следующем году. Пытались они сделать и свои геймерские видеокарты, где доля, которая на старте была 2% от рынка новых видях, сейчас опустилась до 0%. Кстати, завтра презентация нового поколения геймерских видях Intel.

На кошельке компании всё это отразилось крайне сильно - убытки выросли с 1,6 миллиарда во втором квартале до астрономических 16,6 миллиардов в третьем. Посмотрев на такие выдающиеся успехи, акции за последний год упали более чем в два раза.

Пока не выберут нового CEO, компания в подвешенном состоянии. У 18A (18 ангстремов) техпроцесса, на который Пэт поставил будущее всей компании, судя по слухам, значительные проблемы. Но даже его абсолютный успех мог не предотвратить продажу ряда подразделений, а что будет, если он провалится - страшно и подумать.

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#45)

LLM
- Model Context Protocol — открытый протокол развязывает руки LLM для работы с внешними серверами, как LSP, но для нейронок.
- INTELLECT-1 — цифровые анархисты ликуют! Первая большая распределённая тренировка прошла успешно. Модель вышла не слишком мощной, но какой задел! Кожанка ликует, ведь может повториться история с майнингом.
- Веса INTELLECT-1 — техрепорт и подробности о результатах.
- AI Assistant API — нативно интегрирован в API RAG.
- SmolVLM — мизерная VLM, умещается в 6 GB RAM, выдаёт 80 токенов/сек на M1 Max, причём значительно лучше конкурентов.

Генеративные модели
- СЛИВ SORA — на обнимающее лицо залили доступ к Sora по API, Карл! Теперь у нас есть реальные тесты второй (после MovieGen) модельки.
- Black Forest Labs подняли $200M — при оценке в $1B, став единорогом за 4 месяца.
- Курс по диффузионным моделям от KAIST — здесь всё необходимое для старта + подборка постов на тему.

Прочее
- Маск возвращается в геймдев — впервые после истории, как он, будучи подростком, продал игру за $500, Маск заявил о планах xAI возглавить рынок AI-игр.

Читать дайджест #45

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

Про нейросети и технологии пишут многие. Но много из того, о чём пишет редакция ТЕХНО, нигде больше не увидишь. Контент, конечно, не такой хардкорный, как в @ai_newz, но действительно качественный и разнообразный.

ТЕХНО будет полезен тем, кто хочет быть в курсе не только развития софта, но и того, что можно пощупать ручками. Про основы AI там тоже частенько вещают. Вот, например, первый калькулятор, который определил наше представление о том, как должен выглядеть калькулятор или вот про мягкие игрушки-психотерапевты с LLM под капотом.

А в курсе последних новостей держит регулярный технодайжест.

Подписывайтесь!

#промо

Читать полностью…

эйай ньюз

Дженсен Хуанг после того как респредлённая тренировка станет возможной на консьюмерских видюхах (куртка у него уже есть)

@ai_newz

Читать полностью…

эйай ньюз

Маск пообещал заделать целую ИИ игровую студию внутри xAI, как противовес "студиям во владении гигантских корпораций". У xAI, кстати, оценка 50 миллиардов, это между Electronic Arts и Nintendo.

Как думаете, что из этого выйдет?

@ai_newz

Читать полностью…

эйай ньюз

А вот новая моделька SmolVLM работает на M1 Max на скорости в 80 токенов в секунду.

@ai_newz

Читать полностью…

эйай ньюз

AI Assistant API или RAG из коробки

RAG – это хороший способ залить в нейронку свою базу данных и избежать галлюцинаций (вот здесь я писал подробнее про это). RAG достаточно жестко задает контекст в виде фрагментов текста, на базе которых LLM должна скомпоновать ответ, то есть нейросеть не обучают на нем, а используют непосредственно в момент генерации. Имплементировать RAG самому, хоть и не очень сложно, но всё же требует специальных умений.

Тут Яндекс решил ещё упростить жизнь разработчиками и внедрил RAG в свой API. Идея в целом не новая, но в паре с неплохим облачным сервисом, на котором строятся местные компании, выходит удобный фреймворк. Он не требует специальных навыков, чтобы прикрутить AI-ассистента на сайт клиента — что сейчас, как будто бы, must-have для любого сайта. Ну а кроме этого, RAG полезен для работы с внутренней документацией, crm и прочими базами данных.

@ai_newz

Читать полностью…

эйай ньюз

Anthropic показали универсальный способ общения LLM с внешним миром

MCP (Model Context Protocol) - открытый протокол, позволяющий любой LLM получать доступ к инструментам и информации. В качестве демо Claude попросили создать веб-страницу, залить её на GitHub, создать issue и PR, что он успешно и сделал (показано на видео).

Вдохновлялись LSP - протоколом, который позволил написать ядро интеграции языка с IDE один раз и использовать её повсюду, чем изменил рынок редакторов кода, дав маленьким проектам конкурировать с большими IDE.

MCP работает по простой клиент-серверной архитектуре - приложения на основе LLM (клиенты) могут запрашивать информацию у серверов, а также пользоваться предоставленными серверами инструментами. Ещё серверы могут задавать ряд промптов. Сделать сервер довольно просто - показанный в видео сервер для GitHub написали меньше чем за час.

Клиент пока что только один - Claude Desktop, а серверы нужно разворачивать своими руками локально. Потом обещают поддержку сторонних серверов - то есть в каком-то Notion будет кнопка "привязать Claude/ChatGPT/Gemini", через которую LLM будет даваться доступ к вашим данным.

Выглядит это куда интереснее, чем то как пытаются сделать интеграции OpenAI и Google в ChatGPT и Gemini. Во-первых, MCP более гибкий - авторы приложений могут встраивать туда MCP-серверы. Во-вторых, открытость протокола позволит более маленьким провайдерам, вроде Mistral или DeepSeek, использовать куда больше тулов, чем если бы они пытались сделать это сами. Ну и, конечно же, это приближает эру агентов.

Взлетит или не взлетит - пока ещё непонятно, но выглядит многообещающе. В качестве примеров для разработчиков Anthropic сделали 9 MCP-серверов - Slack, Google Maps, GitHub и ещё несколько. Несколько компаний уже принялись делать и сторонних клиентов - к примеру, авторы Zed и Codeium.

Примеры интеграций
Туториал по протоколу

@ai_newz

Читать полностью…

эйай ньюз

На чатбот арене последние дни очень жарко 💃

Неделю назад Gemini-1114 заняла первое место на арене, обогнав все модели OpenAI. В среду OpenAI ответили более новой версией 4o, Artificial Analysis протестировали её, и выводы печальные - хоть рейтинг на арене и растёт, бенчи MATH и GPQA просели ниже результатов июльской 4o-mini. При этом, с просадкой по бенчам, более чем в два раза выросла скорость - с 80 до 180 токенов в секунду. Похоже, нам суют модель сильно поменьше за те же деньги.

Вот вам ещё одно напоминание, что теперь и арене верить решительно нельзя - несколько компаний уже несколько месяцев активно занимаются тюном под арену только чтобы повысить ELO. Живая демонстрация закона Гудхарта в действии: «Когда мера становится целью, она перестает быть хорошей мерой». Кстати, жёсткий тюн под арену не сильно помог OpenAI - новая 4o продержалась в топе всего лишь чуть больше суток. В четверг вечером первое место заняла уже Gemini-Exp-1121.

Под постом про набор интернов у меня спрашивали, чем лучше сейчас заняться в AI. Так вот, надеюсь, посмотрев на весь этот бардак с ареной, кто-то из подписчиков вдохновится темой оценки качества моделей и сможет предложить бенчи получше.

Вообще объективная автоматическая оценка качества генеративных моделей будь-то текстовых или картиночных и видео - задача важная, но все еще не решенная.

@ai_newz

Читать полностью…

эйай ньюз

Amazon инвестирует ещё 4 миллиарда в Anthropic

Слухи ходили уже какое-то время, я уже писал об этом раунде в начале ноября. И вот свершилось - Amazon всё таки удалось заставить Anthropic тренировать на своих чипах Trainium, что позволит довести эти чипы до ума, а там, глядишь, и кто-то их начнёт арендовать у амазона.

Вообще поразительно как часто сейчас случаются такие многомиллиардные сделки - неделю назад xAI подняли ещё 5 миллиардов на дополнительные 100к GPU для их Colossus . Оценка компании за полгода удвоилась, до 50 миллиардов долларов, что в 500 раз больше её годовой выручки. А сейчас уже Databricks, по слухам, ищет 8 миллиардов по оценке в 61, причём, скорее всего, компания их найдёт.

Инвестиций, даже в большие компании, столько, что я не знаю, есть ли смысл писать про каждую отдельно. Канал ведь не финансовый. А ведь есть ещё и рыбёшки поменьше...

@ai_newz

Читать полностью…

эйай ньюз

FLUX.1 Tools

Ну что, лучший генератор картинок (Recraft не в счет) решил не отставать от Midjourney и выпустил свой почти такой же набор инструментов. Все они, как полагается разработчикам модели, аутперформят решения от комьюнити.

В наборе:
- Ин/аутпейтингFLUX.1 Fill
- КонролнетFLUX.1 Depth и FLUX.1 Canny, которые также идут в формате LoRA.
- IP-адаптерFLUX.1 Redux

Классический набор готов, остальное могут сделать энтузиасты. О качестве судить пока рано — жду ваши тесты в комментариях.

А дальше, что дальше? На сайте BFL уже красуется громкая надпись:
"Up Next. State-of-the-Art Text to Video for all."

Анонс
Обнимающее лицо
GitHub

@ai_newz

Читать полностью…

эйай ньюз

Llama 3.1 405B ускорили почти до тысячи токенов в секунду

Cerebras наконец-то нашли достаточное количество своих CS-3, чтобы запустить Llama 405B, применили к ней Speculative Decoding, который использовали для ускорения 70B до 2к токенов, и обскакали SambaNova почти в 6 раз. Стоить это будет $6 input/$12 output за миллион токенов и уже доступно в бете. Всем пользователям дадут доступ в первом квартале 2025.

Столько ждать нужно из-за крайне плохой доступности железа - для того чтобы запустить Llama 405B, нужно 20-30 CS-3. Для сравнения, в Condor Galaxy, суперкомпьютере на чипах Cerebras, всего 64 CS-3. А стоит он больше ста миллионов долларов. Надеюсь, что если им удастся перейти на массовое производство, то стоимость их систем значительно упадёт. Иначе прибыльность такого API сомнительна.

Проблемы с доступностью не только у Cerebras — есть они и у Groq, которые больше трёх месяцев обещают API 405B, но, видимо, чипов просто не хватает (для запуска 405B нужно около четырёх тысяч чипов Groq). А пока что они почти догнали Cerebras на инференсе Llama 70B — 1669 токенов в секунду, при этом обещая, что следующее поколение чипов будет сильно быстрее.

К сожалению, доступ всем юзерам через чат на этот раз не дали. Да и длина контекста пока что всего 8к, но на релизе обещают сделать доступным и 128к. Скорость при таком контексте, правда, проседает, но всё равно больше полутысячи токенов в секунду. Надеюсь, к полноценному релизу R1 они откопают ещё один суперкомпьютер, и будет у нас модель, думающая секунды вместо минут.

@ai_newz

Читать полностью…
Подписаться на канал