ai_newz | Неотсортированное

Telegram-канал ai_newz - эйай ньюз

73707

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow

Подписаться на канал

эйай ньюз

9 стрим OpenAI - апдейты API

⭐️ Запустили полноценное API для o1: добавили structured outputs, картинки на вход, вызов функций и developer messages (дополнительный промпт по силе между системным и юзер промптом). Ко всему этому o1 можно теперь указать насколько сильно модель должна думать над проблемой, что крайней полезно. Ещё хвастаются что полноценная o1 использует на 60% меньше токенов чем o1-preview. Ждём файнтюнов o1 и o1-pro в API.

⏳Цену риалтайм API дропнули на 60% для обычной GPT-4o, но теперь риалтайм режим будет и у 4o-mini! Ещё в realtime режим API добавили поддержку WebRTC, должно улучшить стабильность и качество связи, плбс интегрировать будет куда проще.

🪛 Добавили preference finetuning в API для GPT-4o, 4o-mini обещают скоро.

@ai_newz

Читать полностью…

эйай ньюз

Veo 2 — новая SOTA видео-генерация?!

Google стратегически дождались релиза Sora от OpenAI, чтобы сразу представить свою ответку. По их внутренним тестам, Veo 2 заметно опережает конкурентов. Правда, я бы не стал слепо доверять их тестам, согласно которым клинг чуть ли не лучше MovieGen и Sora.

Однако, черрипики на сайте выглядят впечатляюще. Как минимум, фламинго не путает передние и задние ноги и Veo 2 почти безошибочно справился с фигуристкой. Но с более динамичными сценами пока есть трудности, о чём сами признаются в DeepMind — см. пример со скейтбордистом.

Технических деталей немного, кроме того, что модель на релизе выдаёт разрешение 720p с возможностью дойти до 4К! Длина видео — 8 секунд, золотая середина между 5-ю и 10-ю секундами, где уже чаще возникают артефакты. Картинки на вход, вроде бы, пока не принимает.

Есть даже регистрация в вейтлист, правда чтобы туда добавили просят заполнить небольшую анкету, да и сколько ждать — неизвестно. Надеюсь, гугл не будет опять годами держать модель за семью печатями.

@ai_newz

Читать полностью…

эйай ньюз

После релиза подписки от OpenAI за $200 баксов, сразу нашлись желающие сделать подписку за $500. Столько берёт Devin - ИИ агент, который обещает быть "ещё одного джуна в команде, на которого можно скидывать мелкие задачи". Взаимодействие идёт прямо через Slack или Github, причём за одну подписку доступ даётся сразу всей тиме.

За эти $500, в месяц дают 250 ACU - в лучшем случае это чуть больше 60 часов работы агента. Съесть их можно довольно быстро - Devin может делать несколько задач одновременно, а на отдельную задачу может спокойно уйти 3-5 часов (без гарантии успеха). После того как кредиты закончились, их, разумеется, можно докупать.

Отзывы пользователей так себе - хоть какие-то простые задачи он может делать, но кроме того что на задачи уходит куча времени, у него есть ещё и привычка застревать на середине. Есть и юзеры у которых за $500 Devin смог сделать лишь два изменения в документации.

За неполную неделю после релиза, Devin попал и в небольшой скандал с кибербезопасностью - прямо на стриме популярнейшего стримера Primagen, в Devin нашли неприятную уязвимость. При использовании одной из фич, в ссылке, которую видно в адресной строке браузере, был ключ, позволяющий получить доступ ко всему к чему имеет доступ Devin. То есть, кто угодно кому вы демонстрируете экран мог случайно получить доступ к куче приватной инфы. Вроде мелочь, но сама манера такого обращения с секретами настораживает. Интересно, виноват ли в ошибке сам Devin, или накосячил кто-то из кожаных мешков.

С такими результатами, вопрос, выйдет ли у Cognition, авторов Devin, оправдать свою оценку в два лярда пока у них не закончатся деньги. А ведь конкуренты не спят - Cursor недавно выпустили своего агента - он, конечно, попроще, но и стоит $20 в месяц, плюс это IDE, в которой с AI проще работать совместно. Google на днях тоже запустил превью кодинг агента Jules, основанного на Gemini 2.0. В недрах других бигтех компаний работы тоже явно ведутся.

Несмотря на огромный прогресс в LLM и агентах за последние пару лет, AI всё ещё не может полностью заменить программиста, даже джуна.

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#48)
Новогодние подарки продолжают сыпаться, приобретая лавинный характер...

LLM
- DeepSeek 2.5 — хороший буст в качестве + завезли поиск, который ощущается лучше, чем у OpenAI.
- Canvas (2?) — тулзу внутри ChatGPT знатно прокачали и добавили несколько очень нужных Quality of Life улучшений.
- T-Lite и T-Pro в опенсорсе — отличные результаты! Хитрый финт с файнтюном и дополнительным предобучением дает свои плоды. По бенчмаркам модель занимает топ-1 на русском языке.
- Streaming API — Gemini теперь в реальном времени понимает одновременно и аудио, и видео: как с камеры, так и со стрима экрана.
- Advanced Voice Mode + Video — Google сразу же отвечает, хотя функционал немного ограничен. Но зато модель умнее, чем Gemini Flash, которая используется в Streaming API.
- ChatGPT Projects — наконец-то файлы и чаты можно разложить по папкам и навести порядок во всем этом хаосе.

Генеративные модели
- Aurora — авторегрессионная txt2img модель от xAI. У команды свой уникальный путь со своими плюсами и минусами.
- Pika 2.0 — завезли IP-Adapter для видео. Работает хорошо, но пока не хватает «короля» над картинкой.

Sora
- Утечка SORA — незадолго до релиза произошел слив, прогрев? Еще появилась первая страничка SORA, а затем уже релиз.
- SORA в общем доступе! — теперь все пользователи могут генерировать свои 10-секундные видосики. Революции не случилось, так как за год многие конкуренты уже догнали OpenAI.
- Обзор на SORA от Marques Brownlee — крупнейший техноблогер ютуба выложил обзор на SORA за пару часов до официального анонса и релиза OpenAI.
- Тесты SORA — смотрим на ваши тесты в комментариях.

Прочее
- Месть или победа любой ценой? — история о том, как обиженный саботёр получил Best Paper Award.
- XLand-MiniGrid — среда для тренировки агентов на GPU. Аналог закрытого XLand от Google.

Техника
- Android XR — новая ОС Google для AR/VR-девайсов. Google готовят базу для всех умных очков.

Читать дайджест #47

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

Лучшая фича Claude теперь будет в ChatGPT!

В ChatGPT наконец-то добавляют проекты - способ организовывать чаты с общим контекстом. В проект можно добавить, например, рабочую документацию и кастомные инструкции для группы чатов. Это фича которой мне больше всего не хватало в ChatGPT, наконец-то её релизнули!

Ещё дали апдейт по статусу релизов - Sora и Advanced Video Mode теперь доступны всем подписчикам на Plus и Pro планах за пределамы европы, а санта-режим просто доступен всем подписчикам.

@ai_newz

Читать полностью…

эйай ньюз

Что если использовать силу телеграм-ботов на полную мощь?

Подключаем @personal_business_bot к своему аккаунту (нужен премиум), выдаём ему доступ к нужным и новым чатам.

И всё: едем на Багамы отдыхать, пока ваш AI-ассистент общается с клиентами, командой, менеджером и даже женой😂.

Того, что на ваши сообщения отвечает бот, вообще не видно, и, вероятно, никто не заметит разницы.

Вот что может @personal_business_bot:
- Общается на любые темы: от small talk до жёсткого B2B-сейла.
- Квалифицирует лидов, договаривается о встречах и сделках, проводит консультации, продаёт услуги и даже принимает платежи.
- Настраивается под стиль, цели и задачи.
- Автоматизирует воронки продаж, консультации и саппорт через ваш личный бизнес-аккаунт. Одна машина заменяет целую команду из 20–30 человек.

Всё управляется системным промптом, который вы сами придумываете, плюс дополнительные фишки:

• Бесконечная память (doc, md, pdf, csv) через RAG => не будет галлюцинаций.
• Голосовые сообщения с вашим голосом.
• Доступ к интернету для поиска информации.


Базовая версия — бесплатна!
Есть реферальная программа с 30% доходов бота для вас.

Пользуйтесь: @personal_business_bot

#промо

Читать полностью…

эйай ньюз

Из всего что релизнул гугл с Gemini 2.0, самое впечатляющее - демка их streaming API. Gemini теперь в риалтайме понимает одновременно и аудио и видео - как с камеры, так и стрим экрана. К тому же может отвечать голосом (пусть и с помощью TTS).

Такого вау-эффекта от новых возможностей нейронок у меня не было, пожалуй, с релиза advanced voice mode, всем советую попробовать (обязательно врубите стрим либо с экрана либо с камеры). Можно ненадолго почувствовать себя как в фантастике, пока это не стало обыденностью. Доступно бесплатно, но нужен VPN.

https://aistudio.google.com/live

@ai_newz

Читать полностью…

эйай ньюз

Зацените, че нашел

Кольцо с угарной аббревиатурой SSR — Sber Smart Ring. Внутрь, помимо кучи датчиков, умудрились интегрировать их ЛЛМ-ку GigaChat Max, но не локально, конечно). О её возможностях уже писал здесь. Эта штука позволяет посоветоваться о чем-то в любой непонятной ситуации, а также дает советы по здоровью, анализируя данные с датчиков.

По сути, это те же умные часы, но с ЛЛМ на борту и без, всё равно ненужного в умных часах, экрана. Плюс заряд держит 7 дней.

Пост на хабре

@ai_newz

Читать полностью…

эйай ньюз

Сергей в своем блоге делится трудностями, которые переживает многомиллиардный (!) бизнес, и опытом управления командой из 5000+ сотрудников. Рассказывает, как стать лидером на рынке и при этом не погрязнуть в операционке, выстроив эффективный менеджмент в команде.

Ну, а заправляет он 1win. Мы тут с вами все отчасти дата-сайнтисты и прекрасно понимаем, как всё это работает. Однако это бизнес, причём огромный. И с этой точки зрения наблюдать за нишей, её математикой и маркетингом действительно интересно.

И именно об этом Сергей рассказывает в своём блоге.

Стоящее чтиво для предпринимателей, маркетологов и просто для всех, кому нужна бизнесовая насмотренность, хотя бы из-за уникальности темы: читать тут.

#промо

Читать полностью…

эйай ньюз

Ночной тред проклятых генераций соры объявляется открытым. Какие видосы показались вам самыми странными?

@ai_newz

Читать полностью…

эйай ньюз

DeepSeek выпустили новую DeepSeek 2.5

Новую DeepSeek-V2.5-1210 заметно прокачали - она выросла на бенчах по кодингу и математике, но больше всего прирост в написании текста. Это последний релиз DeepSeek V2, теперь DeepSeek полностью сфокусированы на r1 и следующем поколении их LLM - V3.

Вместе с релизом модели на их сайте появилася поиск. Работает хорошо - точно лучше чем ChatGPT Search и часто лучше Perplexity. Мне кажется это из-за количества источников - DeepSeek использует до 50 источников, все остальные в 2-3 раза меньше. Платить за всё это удовольствие, кстати, не нужно.

Попробовать модель
Веса

@ai_newz

Читать полностью…

эйай ньюз

OpenAI официально показали Sora!

Доступно будет всем подписчикам ChatGPT - и Plus и Pro. Дают кредитов на до 50 генераций в месяц Plus подписчикам и до 500 быстрых генераций Pro подписчикам. Pro подписчики с более 500 генераций попадают в "медленную очередь".

Длина видео всё таки от 5 до 20 секунд (для Plus максимум 5), а разрешение от 480p до 1080p (Plus подписчики ограничены 720p). На более длинные видео и видео разрешения уходит больше кредитов. К видео можно применять стили и создавать свои.

Показали Storyboard - продвинутый инструмент позволяющий режиссировать видео. К примеру можно попросить Sora сгенерить видео человека, который на пятой секунде видео машет рукой.

Ещё есть куча продвинутых инструментов - можно догенеривать до видео как начало так и концовку, смешивать несколько видео вместе разными способами и много чего ещё.

Модерация сейчас чрезмерно строгая, но OpenAI обещают постепенно снимать ограничения.

sora.com

@ai_newz

Читать полностью…

эйай ньюз

XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX

В RL уже давно стоит проблема чрезмерно медленных сред, особенно когда речь идёт о масштабных мета-RL экспериментах. Чтобы достичь хорошей производительности, агенту требуется огромное количество взаимодействий со средой. Если среда генерирует данные медленно, то обучение затягивается на долгие часы и дни, а исследование новых идей становится крайне неудобным.

Но на CPU достичь больших скоростей трудно - даже несмотря на то что у современных процов часто сотни ядер, они просто не могут угнаться за современными видяхами, мощность которых часто измеряется в петафлопсах. И вот поэтому среды стали переносить на GPU, но писать CUDA код, особенно быстрый не каждый ресёрчер сможет

Поэтому не так давно пошла мода писать среды на Jax - фреймворке от Google, основном конкуренте PyTorch. Создавали его в том числе под DeepMind, поэтому тамошние ресёрчеры убедились чтобы в нём было достаточно гибкости для создания таких сред. Но хоть Jax и в опенсорсе, а свои среды Google никому не даёт.

XLand-MiniGrid, созданный чуваками из T-Bank AI Research и AIRI, как раз и есть опенсорс репродукция Xland, закрытой среды от Google. Это grid-world среда, где агент перемещается по сетке и взаимодействует с объектами по определённым правилам. Такие среды можно очень просто и быстро симулировать, при этом задачи остаются нетривиальными, а результаты часто переносятся на более сложные домены. В Xland-MiniGrid агент решает задачи на основе системы правил и целей. Например:

➖ Агент видит на поле синюю пирамиду и фиолетовый квадрат. Его задача - поднять пирамиду и положить рядом с квадратом. Когда он это делает, срабатывает правило NEAR и оба объекта превращаются в красный круг.
➖ Появляется новая цель - поместить красный круг рядом с зелёным. Но если агент поместит фиолетовый квадрат рядом с жёлтым кругом, задача становится нерешаемой.

Такие правила можно комбинировать, создавая деревья задач разной глубины. В простых бенчмарках всего пара правил, в сложных - до 18. При этом позиции объектов рандомизируются при каждом сбросе среды, а правила и цели скрыты от агента. Чтобы решить задачу, ему нужно экспериментировать и запоминать, какие действия к чему приводят.

Работает это всё на бешенных скоростях - на одной RTX 4090 может симулироваться до 800к действий в секунду, а ведь можно использовать далеко не одну GPU. А для того чтобы не генерить с нуля, авторы уже сгенерили и выложили в опенсорс датасет на 100 миллиардов взаимодействий, о котором я уже писал.

Пейпер
Код

@ai_newz

Читать полностью…

эйай ньюз

Утекла экранная копия ролика Sora v2. Версию v1 видать просто пропустили:)

Ролик эффектно выглядит, но учитывайте, что это промо.
Будет доступна "совсем скоро". Ага, верим (нет), ждем.

Обещают 1 мин генерации, text2video, image2video, video2video.

@ai_newz

Читать полностью…

эйай ньюз

xAI Илона Маска запустили Aurora - свой собственный генератор картинок

После вчерашнего апдейта использовать его можно бесплатно - 10 сообщений каждые два часа. Оригинальный Grok 2 с FLUX.1 пока ещё тоже доступен.

grok.x.com

@ai_newz

Читать полностью…

эйай ньюз

Сбер выпустил в опенсорс три модели для русского языка

Они все довольно небольшие и для их запуска не нужен сервер за сотни тысяч долларов, да и по качеству там всё в порядке.

GigaChat Lite - MoE модель, с 3 миллиардами активных параметров. Она бьёт по качеству на русском все модели в 8B сегменте, но немного отстаёт от 8b на англоязычных бенчах. Длиной контекста тоже не обделили - модель поддерживает до 131 тысячи токенов контекста. Это, кстати, первый опенсорс MoE для русского языка на моей памяти, причём это не что-то супер простое, типа Mixtral - там используется fine-grained MoE, вроде того что в DeepSeek V2.

GigaEmbeddings - 3B Dense модель для эмбеддингов, которая бьёт даже 7B модели по качеству.

GigaAMv2 - модель для распознавания речи, заточенная под русский, на бенчах лучше последних версий Whisper. Это важно, потому что в последних версиях, Whisper всё больше и больше тюнят чисто под английский, обделяя другие языки вниманием, хорошо иметь альтернативу.

Большой плюс этих моделей - они натренированы изначально под русский, а не тюны моделей с других языков. Из-за этого срываться на английский и китайский они не будут, чем часто грешат другие модели, особенно квантизированные.

@ai_newz

Читать полностью…

эйай ньюз

В ChatGPT улучшили поиск

Парад трансляций продолжается, 8 позади, 4 осталось.

🔎 Теперь поиск доступен бесплатным пользователям

🔎 В Advanced Voice Mode теперь есть поиск

🔎 Качество поиска в целом апгрейднули

Стоит ли дальше писать про такие минорные апдейты, или только про что-то важное?

@ai_newz

Читать полностью…

эйай ньюз

Новый уровень продуктивной разработки: добро пожаловать на платформу GitVerse

На платформе для работы с исходным кодом GitVerse можно легко и удобно организовать разработку любых проектов: писать и проверять код, автоматизировать CI/CD-процессы, общаться с единомышленниками и стать частью open source сообщества.

Что еще могут пользователи GitVerse:
– переносить проекты с других git-площадок в один клик;
– размещать открытые и приватные репозитории, работать самостоятельно и в командах;
– управлять проектами с помощью удобных досок и карточек, назначать роли, ревьюеров и делать все процессы прозрачными;
– делегировать рутинные задачи AI-ассистенту GigaCode, чтобы посвятить время по-настоящему интересным задачам!

Регистрируйтесь на платформе GitVerse и повышайте эффективность разработки!

#промо

Читать полностью…

эйай ньюз

Pika 2.0 — мечта всех рекламщиков

Pika продолжают исследовать возможности для контроля видео и на этот раз представили Scene Ingredients.

Фича позволяет создавать видео с реальными людьми (0:37) и объектами, а затем поместить их всех в какое-то место действия. По сути, это IP-Adapter на стероидах для видео. Конечно, тут ничего на лету не обучается, просто на вход сетки подаются дополнительные эмбеддинги референсных объектов. Но это может не очень стабильно работать.

- Подписка за $35 даёт кредитов на 40 видео в месяц (это очень мало).
- За $95 можно получить уже 120 видео.

Видео с Ingredients используют в два раза больше кредитов. Так что подписки даже за 95 баксов на нормальный видос не хватит 🤭

Большой упор сделали на рекламщиков. А-ля: загрузи фотку модели и фотку какой-то вещицы — и вот держи, пожалуйста, модный промо-видосик! Но не совсем понятно, насколько это на самом будет хорошо работать и слушаться промпта.

Kling вот недавно тоже сделали шаг в этом направлении, неожиданно релизнув один из лучших virtual try-on'ов. И даже с ним одежда получается не всегда 1 в 1. Чего тогда ожидать от IP-адаптера для видео? Хотя черипики в видосе выше, конечно, прикольные. Слишком уж дорого тратить драгоценные генерации видео без полноценной подложки из 100% рабочей картинки.

pika.art

@ai_newz

Читать полностью…

эйай ньюз

Android XR - новая ОС гугла для AR/VR девайсов

Скейлится она должна на всё: от девайсов попроще, до полноценных конкурентов Apple VIsion Pro. Киллер фичей ОС должна стать возможность взаимодействовать с Gemini, которая всегда сможет видеть то же что видит пользователь.

Первым девайсом на Android XR будет Project Moohan от Samsung, который запустится уже в следующем году. Девайс без стыда копирует Vision Pro - схожий дизайн, внешняя батарея, хайенд фичи вроде отслеживания глаз и MicroOLED дисплеев. Производители поменьше, вроде Sony и Lynx, тоже готовят свои устройства.

Превью SDK уже доступно - хоть большинство приложений для Android будут работать без изменений, в систему докинули ряд новых API для создания приложений для хедсетов. В основе их лежит OpenXR, хотя поверх него докинули несколько проприетарных расширений. Новую ОС уже поддерживает Unity, от Epic с их Unreal пока ничего не слышно.

Непонятно хватит ли тут гугла надолго - 10 лет назад они пару лет пытались заниматься VR, но идею быстро забросили. А ещё ведь было фиаско с Google Glass. То же самое можно сказать и про Samsung - пару устройств они выпустили, но долгосрочного интереса не проявляли - последний шлем от Samsung вышел в 2018.

С фичами Project Moohan, цена явно будет выше $1500, даже если они будут продавать их по себестоимости. С такими ценами речи о многомилионных продажах, которые нужны чтобы отбить стоимость разработки, идти не может, так что придётся работать себе в убыток. Сколько времени, как Google, так и производители девайсов, готовы их терпеть - вопрос.

@ai_newz

Читать полностью…

эйай ньюз

Всего через сутки после превью гугла, OpenAI запускают свой видео-режим

На этот раз оно будет нормально доступно как в приложении ChatGPT, таки и в браузере. С Advanced Voice Mode всё будет поприятнее - 4o нормально говорит на русском, да и как моделька она поумнее чем Gemini 2.0 Flash.

Из преимуществ, которые остались у превью гугла - доступ в интернет и тулз. Ну, и длина контекста заметно выше - млн токенов у Gemini против всего 128к у OpenAI.

Раскатывать уже начали, но займёт это где-то неделю. А пока можно потыкать гугловую или просто пообсуждать новые свитеры в комментах.

@ai_newz

Читать полностью…

эйай ньюз

На стриме OpenAI в этот раз было как-то совсем грустно

В этот раз показали даже не свои фичи, а уже релизнутые интеграции продуктов Apple с ChatGPT. Показали их ещё в июне, а релизнули лишь на днях.

Зато свитеры красивые.

@ai_newz

Читать полностью…

эйай ньюз

Best Paper Award для стажёра-саботёра

Чел в ByteDance два месяца креативно саботировал эксперименты соседней команды, чтобы его команда получила больше GPU. А сейчас его пейпер VAR получил best paper award на NeurIPS, серьёзное достижение, но всё равно чела вряд-ли кто-то после таких финтов наймёт. Мне, лично, было бы крайне некомфортно работать с ним в одной компании.

Пейпер и правда хороший - там изобрели интересный авторегрессионный способ генерации изображений. Если кратко - генерят сначала версию изображения в маленьком разрешении, а потом всё в большем и большем разрешениии, причём работает оно очень быстро из-за того что все токены в каждом разрешении можно генерить параллельно. Более подробный разбор можете почитать тут.

А тем временем Bytedance подала против него иск на более чем миллион долларов. Выплатить такую сумму он вряд-ли сможет, помянем.

@ai_newz

Читать полностью…

эйай ньюз

Большой день.
Мы выкладываем в опенсорс наши модели T-Lite и T-Pro. И эти модели просто топ 🥳

Мы увереннно выбиваем #1 среди открытых моделей по разным бенчам на русском. По MERA мы взяли #2 модель на русском ещё и включая все API, уступая только GPT-4o.

Это до-тренированный qwen-2.5 в размерах 7B и 32B. Мы провели большую работу: свой токенизатор, глубокое до-обучение на русский и специфичные корпуса. Аккуратная работа с данными. Тех репорты будут.

Этот релиз является подтверждением нашего подхода в LLM: допретрен на базе опенсорса и затем файнтюн под доменные области. Получается значительно лучше результат и мы тратим на порядок меньше денег (не преувеличение).

Пользуйтесь. Модели для инженеров, рекомендуется дальнейший файнтюн, например через наш Turbo-Alignment.

Наш новый HF: https://huggingface.co/t-tech
Лидерборд по MERA: https://mera.a-ai.ru/ru/leaderboard
Остальные бенчи тоже есть, арены будут как прокрасятся

Читать полностью…

эйай ньюз

OpenAI сильно улучшили Canvas

Canvas - это тулза для совместного редактирования вместе с ChatGPT, где вы можете вносить правки в текст или код как вручную, так и попросив ChatGPT. Его пару месяцев тестировали, а уже сегодня добавят в основную модель.

С релизом мою главную проблему при использования Canvas - то что там не работал code interpreter. Теперь ваши Python скриптики, над которыми вы работаете в Canvas, будут прекрасно запускаться прямо в чатгпт. Ещё добавили возможность использовать Canvas в Custom GPTs, вряд-ли это кому-то нужно, но пусть будет. А вот что интересно - ChatGPT может оставлять комменты к вашему коду/тексту (видно на скриншоте).

Вместе с релизом Canvas добавят и прямой способ использовать разные инструменты в диалоге, вроде генерации изображений или поиска. Случайных активаций генерации изображений или поиска станет поменьше (когда SearchGPT запустили для всех меня они порядком выбесили).

@ai_newz

Читать полностью…

эйай ньюз

xAI Илона Маска официально анонсировали text2image модель Aurora

После субботнего релиза и исчезновения модельки на какое-то время, появился блогпост с деталями и примерами генерации.

Самое интересное - Aurora не диффузионка, а авторегрессионная модель. В отличие от диффузии, которая берёт шум и в течении нескольких шагов лепит из него картинку, Aurora генерит изображения маленькими, полностью готовыми, кусочками (токенами). В процессе генерации изображение как-будто грузится сверху вниз, как раньше бывало при медленном интернете.

Большой плюс такого подхода - к модели применимы оптимизации инференса LLM, и в нее можно легко кормить одновременно и картинки и текст. Хоть диффузию можно ускорять не меньше, иметь схожую архитектуру для всех моделей - это огромный плюс. Наверное поэтому Aurora это Mixture of Experts, ровно как и первая версия Grok. Хоть про Grok 2 мало что известно, вряд-ли xAI слезли с MoE.

Из минусов такого подхода:
1) это скорость генерации, ведь нужно прогонять сеть отдельно для генерации каждого токена;
2) качество генерации. Видно гранулярность изображени, оно не всегда чёткое. Возможно это из-за того, что ради скорости пытались сделать токены большего размера.

Ещё показали редактирование картинок по текстовому промпту - моделька меняет только нужные детали, а не изкажает изображение до неузнаваемости, в отличие от большинства других генераторов. Эту фичу завезут чуть позже, пока что она недоступна.

Чтобы попробовать, нужен всего лишь бесплатный аккаунт в экс-твиттере.

@ai_newz

Читать полностью…

эйай ньюз

Вот почему Sora не пускали в сеть

А еще релиз обещают сегодня! Я уже писал об этом, но тогда это были догадки.

Marques Brownlee, крупнейший техноблогер YouTube, поделился своими тестами Sora и снял на нее обзор. Выше его тесты — бегом смотреть! Там, кстати, помимо видосов есть и обзор на UI, который подозрительно похож на MidJourney.

Я еще не успел посмотреть сам обзор, сразу побегом к вам. Но так, на первый взгляд, в генерациях, конечно, есть косяки — это все-таки технология в разработке, а не магия. У чела, например, телефон то появляется, то пропадает. Но это не то чтобы сразу бросается в глаза, как у того же Runway.

Понимание промпта — мое почтение! Кадр с новостями полностью сгенерирован без дополнительного монтажа, все плашки тоже (на них, конечно, какой-то нонсенс, но все же! Их все равно никто не читает).

Ну и очевидно, что OpenAI плевать хотели на копирайт (помните жесткий фейл Мурати?). Они 100% использовали те же самые новости, видео ютуберов и со стоков, что прекрасно видно по генерациям.

Ждем релиз и расчехляем свои кошельки на подписку! Анонс будет через 15 минут здесь.

@ai_newz

Читать полностью…

эйай ньюз

Sora всё ближе! 🥳

На сайте OpenAI уже появилась страница со списком стран где будет доступна Sora. Сюрприза не случилось: модель недоступна в ЕС и Великобритании, из-за драконовских регуляций. Всем остальным странам, где есть ChatGPT, доступ дадут.

Судя по тому, как участились утечки (вроде вчерашней экранки), релиз не за горами, может быть даже сегодня вечером! Но, мне кажется, что желающим попробовать Sora стоит приготовить $200 на новый тир подписки - генерация даже пары секунд видео это очень дорогое удовольствие, а ведь Sora 2, судя по утечкам, сможет генерить аж целую минуту!

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#47)

12 стримов OpenAI
- ChatGPT Pro за 200 баксов — анлим на o1, o1-mini и Advanced Voice Mode + доступ к еще более долгодумающему (теперь это круто) o1 Pro.
- Паника перед стримами OpenAI — все судорожно релизят свои модели (Gemini-Exp-1206) и открывают бесплатный доступ (к Grok), чтобы успеть попасть в инфополе и подпортить релиз OpenAI.
- Файнтюнинг o1 — запуск в следующем году, можно записаться на бету.

LLM
- Nova — свежие мультимодальные LLM от Amazona, но подороже конкурентов.
- Миллион токенов за 9 центов — Inference API Lambda предлагает цены в два раза ниже самого дешевого предложения, которое было на рынке раньше. А Llama 3.1 405B в fp8 стоит всего 90 центов.
- Llama 3.3 — 70B обогнала в перфомансе старую 405B, но пока это всё, других моделей не будет до 4-й версии.

Железо
- Intel на грани — CEO ушел на пенсию, оставив убыточную компанию без единого успешного направления.
- Intel Battlemage — новое поколение GPU, теперь Intel в позиции догоняющего. Это не топ-карта, а скорее бюджетная серия с неплохим коэф. цена/качество. Ждем ответки NVIDIA.
- На чем тренят Anthropic? — разбор чипов Trainium от Amazon.
- Colossus — миллионный кластер Маска. Суперкомпьютер xAI растет до невиданных размеров.

Генеративные модели

- Hunyuan Video — еще одно детище Tencent, опенсорс 13B видео-генератор + небольшой разбор архитектуры.
- Genie 2 — игровая world model от DeepMind позволяет генерить игры всех мастей и размеров. Пока еще есть над чем работать, но нас ждет шикарный AI-геймплей в будущем.
- Aurora — xAI выпустили очень сносный генератор картинок без цензуры на лица, который можно запустить в их теперь условно бесплатном чате Grok 2. Уже его убрали.

Прочее
- HuggingFace — прошла халява: ввели ограничения на хранилище. Где теперь хранить датасеты — неясно. Говорят, его использовали как облачное хранилище для обычных файлов.
- Зачем ученым нужен AI — ретроспективный пост о развитии LLM и немного об интердисциплинарном ресерче.
- OpenAI в Цюрихе — «открытая» компания впервые открыла офис вне США, и это еще и прямо у меня под боком!


> Читать дайджест #46

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

OpenAI показали файнтюнинг O1

Запустят полноценно в следующем году, пока что бета.

Заявляют, что всего из пары десятков примеров модель сможет при помощи RL научится новым скиллам в какой-то узкой области.

@ai_newz

Читать полностью…
Подписаться на канал