Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
Но тем не менее, первое, куда он лезет, это Бинг.
Это видно на выдаче.
Дай, думаю, лягу спать пораньше. И тут хрясь!, и мне выдают доступ.
Ишотеперьделать?
Так, похоже завтра весь день будем разбираться с тем, что на НЕ показали в презентации GPT-4o.
С картинками и 3Д в особенности.
И там похоже Клондайк.
Держите еще 18 видео-примеров использования GPT-4o:
https://vimeo.com/openai
Почти каждый заслуживает отдельного поста. И половина из них гораздо круче, чем то, что было в презентации
Так, для тех, кто любит почитать и вникнуть, а также узнать про саму новую модель GPT-ФО, идем вот по такой ссылке и вникаем:
https://openai.com/index/hello-gpt-4o/
На итоге: новая мультимодальная модель GPT-4o, дико быстрая, умеющая в текст и видео. Про DALL·E 3 - ничего.
Главный хит: атомный голосовой помощник в виде отдельного приложения. Которого можно прерывать на полуслове. Он может переводит в режиме полудуплекс - ПОСЛЕ того как вы завершили, он переведет это на другой язык и озвучит. И он теперь может разговаривать с камерой - то есть комментировать все, что происходит вокруг.
Обещают, через две недели. Подробнее тут:
/channel/denissexy/8142
И теперь это отдельное десктопное приложение, а не в браузере, как раньше. в телефоне - тоже приложение.
Читать полностью…Показывают голосового ассистента - главное отличие - его можно прерывать на ходу, задержка ОЧЕНЬ маленькая. Эмоции на мой взгляд Очень преувеличенные, но они прям ЭМОЦИИ. И чувство юмора!!!
Полноценный стендап
Оно поет! Если его попросит.
Озвучка просто космос. Такое ощущение, что за сценой сидит актриса.
Трансляция OpenAI Spring Update будет тут:
https://www.youtube.com/watch?v=DQacCB9tDaw
В Antropic (это конкурент OpenAI и авторы модели Claude 3 Opus) на днях запустили свой промпт генератор (доступен тут) и там какой-то дикий по объему инструкций промпт, я его вставил сюда, можете почитать. Если коротко, при генерации промпта сразу подставляются переменные которые будут нужны, чтобы максимально облегчить разработчику работу, добавляются «Chain Of Thougths» приемы и тп.
Только возникшая индустрия промпт-инженеринга уже двигается к своей автоматизации и это нормально, потому что намного быстрее «промпт-инженерить» языковую модель чтобы она, на основе уже готовых, одинаковых правил, написала какой-то промпт — потому что самому вычитывать 100 раз один и тот же текст абсолютно унылое занятие, поверьте мне.
Последние месяца три, все системные промпты которые я пишу для GPT / локальных моделей, я пишу с Claude 3 Opus или GPT4. Это правда хорошо работает — запускаешь какую-то новую модель и хочешь протестировать ее на предмет написания рассказов во вселенной «Ведьмака» или «Властелина Колец», а самому писать эти постоянные «Ты самый лучший в мире писатель фанфиков по вселенной...» и тп и тд, очень утомляет.
Поэтому, я собрал новую GPT задача которой промпт-инженирить за вас, создавая LLM-агентов на основе ваших предпочтений. В эту GPT сразу включены какие-то хаки которые хорошо работают по моему опыту, включая «Chain Of Thougths», негативный промптинг, выделение капсом нужных частей и тп. И если вы знаете размер языковой модели (например 8B, 30B, 70B) модель адаптирует сложность промпта, так как маленькие модели в больших инструкциях путаются.
Ссылка:
Agent Prompt Generator for LLM's
Прошлая версия промпта промпт-генератора доступна тут (я ее уже постил), в GPT более новая и сложная.
P.S. Шутка агента кринжовых-анекдотов со скриншота выше:
Путешественник во времени решает поехать в прошлое, чтобы предотвратить создание популярного мема «Forever Alone». Возвращается обратно и обнаруживает, что стал главным героем этого мема.
Using by SORA
Как вам продолжение Air Head от Spykids?
Если первая часть была на 100% сгенерирована в SORA и приправлена пост-продакшеном и монтажом (я писал очень подробный пост, с разбором того, как делали первую часть).
То здесь уже много композа, живых съемок, совмещения, титров и моушена.
И сразу всё играет гораздо мощнее - появляется история во времени, и даже развитие персонажа.
Очень интересно просматривать раз за разом, отмечая, где SORA, где съемка, а где композ.
Поглядите, там в конце отличный выход на продолжение типа "а скоро добрый доктор нам расскажет, почему часть персонажей постоянно в slo-mo и что хрень твоится с руками".
Финальный титр "Made using Sora", а не "Made by Sora".
Если ролик тяжелый, то вот ссылка на youtube OpenAI (да, у них он есть, равно как и TikTok):
https://www.youtube.com/watch?v=pyNYkWaxBeA
P.S. В предыдущем посте писал про титры для сериала Шугар, а щас задумался, что уже можно (теоретически, пока Соры нет в доступе) делать SORA-вставки в тело сериала, особенно с этими ретро-врезками.
OpenAI в понедельник вечером покажет презентацию (я еще скину ссылку на нее), вот что лично мне кажется покажут (спекулятивно):
✅ Демку ассистента как из фильма Her
✅ Полную мультимодальность: модель будет обучена сразу на видео, аудио, картинках и тексте
✅ Размер контекстного окна в 1М
✅ Новую архитектуру к новой модели, у которой сразу будут все фишки выше
✅ GPT4 обновление с лучшим написанием кода, или 4.5 или 4.1
✅ Новую версию Dalle 3, с улучшенным фотореализмом
Ну то есть будет прикольно, но не AGI-прикольно, но все еще ничего.
В понедельник сравним насколько я плохо предсказываю вещи (планирую как минимум одну угадать, но это максимум)
Оппаньки, OpenAI похоже сообразили, что упускают огромную долю рынка секстинга, дейтинга и адалт чат-ботов.
И собираются сделать галочку "ЯВзрослый".
И ну генерить всякие глупости.
“We’re exploring whether we can responsibly provide the ability to generate NSFW content in age-appropriate contexts through the API and ChatGPT,” the note says, using a colloquial term for content considered “not safe for work” contexts. “We look forward to better understanding user and societal expectations of model behavior in this area.”
https://www.wired.com/story/openai-is-exploring-how-to-responsibly-generate-ai-porn/
Там по ходу свой ControlNet вшит прямо в мозг, поглядите на Canny и определение edges!(Одна из картинок)
Точнее там библиотека cv2 под капотом.
Зд модель она мне пока не сделала, но я с телефона не очень-то и старался.
Так, ещё 5 минут и спать.
P.S.
import numpy as np import cv2 import matplotlib.pyplot as plt # Convert images to grayscale front_gray = cv2.cvtColor(np.array(front_view), cv2.COLOR_RGB2GRAY) side_gray = cv2.cvtColor(np.array(side_view), cv2.COLOR_RGB2GRAY) top_gray = cv2.cvtColor(np.array(top_view), cv2.COLOR_RGB2GRAY) back_gray = cv2.cvtColor(np.array(back_view), cv2.COLOR_RGB2GRAY) # Detect edges using Canny edge detector edges_front = cv2.Canny(front_gray, 100, 200) edges_side = cv2.Canny(side_gray, 100, 200) edges_top = cv2.Canny(top_gray, 100, 200) edges_back = cv2.Canny(back_gray
Просят ее сгенерить 6 (консистентных) ракурсов одного и того же промпта.
A sea lion sculpture. On the circular base of the sculpture, the word "OpenAI" is etched out
А потом "а теперь давай 3д модель по 6ти картинкам".
Возможности GPT-4o будут внедряться итеративно
"Возможности текста и изображений(?!) GPT-4o начинают внедряться сегодня в ChatGPT. Мы делаем GPT-4o доступным на бесплатном уровне, а для пользователей Plus лимит сообщений увеличивается до 5 раз. В ближайшие недели мы выпустим новую альфа-версию голосового режима с GPT-4o в ChatGPT Plus.
Разработчики также теперь могут получить доступ к GPT-4o в API как к текстовой и визуальной модели. GPT-4o в 2 раза быстрее, вдвое дешевле и имеет в 5 раз более высокие ограничения скорости по сравнению с GPT-4 Turbo. В ближайшие недели мы планируем запустить поддержку новых аудио- и видеовозможностей GPT-4o для небольшой группы доверенных партнеров по API."
Почему она такая быстрая в ответах и зовут ея ОМНИ:
До появления GPT-4o вы могли использовать голосовой режим для общения с ChatGPT с задержками в среднем 2,8 секунды (GPT-3.5) и 5,4 секунды (GPT-4).
GPT-4o ("o" - "omni") принимает на вход любую комбинацию текста, звука и изображения и генерирует на выходе любую комбинацию текста, звука и изображения. Он может реагировать на аудиовход всего за 232 миллисекунды, а в среднем за 320 миллисекунд, что аналогично реакции человека.
Для достижения этой цели Voice Mode представляет собой конвейер из трех отдельных моделей: одна простая модель транскрибирует аудио в текст, GPT-3.5 или GPT-4 принимает текст и выдает его, а третья простая модель преобразует текст обратно в аудио. Этот процесс означает, что основной источник интеллекта, GPT-4, теряет много информации - он не может напрямую наблюдать за тоном, несколькими говорящими или фоновыми шумами, не может выводить смех, пение или выражение эмоций.
В GPT-4o мы обучили единую новую модель для работы с текстом, зрением и аудио, то есть все входы и выходы обрабатываются одной и той же нейронной сетью. Поскольку GPT-4o - наша первая модель, объединяющая все эти модальности, мы еще только начинаем изучать возможности модели и ее ограничения.
Ну и у меня сразу вопрос: если я попрошу ея напеть мне веселую песню - у кого будут права на песню?
Если я попрошу ея напеть мне Мадонну, она сможет? Если да, могу я это выложить на свой ютюб и что скажет ютюб?
В общем с пением сразу много вопросов, тут акулы музыкальной индустрии сделают стойку. И я думаю, она очень быстро откажется петь известные песни или песни в духе кого-то известного. Как сейчас отказыввется Суно. Или DALL·E 3 отказывается слышать про известных художников.
Оно детектит эмоции на камере и умеет переводить разные языки голосом, то есть у вас есть карманный переводчик. Надо попробовать для синхрона
Читать полностью…Трансляция началась:
Новая модель - GPT-4o!
Быстрая и мультимодальная.
Omnimodel
Вот это уже похоже на нормальный интерактив.
Осталось весь этот зоопарк присунуть в какой-то 3Д-пакет.
А пока на арене цирка Adobe Substance Modeler вьюпорт которого оправляется в Krea ai, Magnific потом используется для детализации, а Leonardo AI для движения в конце(но может быть любой видео генератор).
За кого накатим?
https://twitter.com/MartinNebelong/status/1789414810624418301
Ну, за промпт-инженеров.
Помните шквал инфоцыганских курсов по промпт-инжинирингу? Типа "мы научим вас вязать лыко", то есть формулировать мысли словами из головы, точнее пальцами по клавиатуре. Особенно мне приглянулся курс "Как создавать курсы по chatGPT с помощью chatGPT".
Первыми были генераторы картинок. Помните все эти скобочки, веса, междометия типа OctaneRender или "best of artstation". А еще были первые UI-попытки сделать тучу кнопочек с этим самыми междометиями, стилями, разрешениями, конструкторы шаманских промптов.
Потом пришел Fooocus, там перед финальным промптом стоял GPT-2 и превращал краткий промпт в кучерявый. То есть llm-ка улучшала промпт. Потом DALL·E 3 показал всем, кто в доме хозяин в части понимания промпта. А там уже подтянулись и остальные. Грубо говоря, ИИ стал писать (дописывать, расписывать) промпты за вас. Сейчас это уже стандарт. Промпт-инжиниринг для картинок превратился в здравый смысл и знание письменности.
Вторыми пришли LLM. Помните все эти Убабуги, ну и первое пришествие chatGPT. Тут на нас обрушились курсы "chatGPT для бизнеса" и перепродажа идей "chain of thoghts" и "role assignment" на все лады. Задорого.
Да, для LLM пришлось писать портянки текста, все это запаковывалось списки промптов на разные случаи жизни (платные и бесплатные), системные промпты, в общем стало понятно, что туда, где надо много шевелить ручками, придет автоматизация, то есть ИИ.
И да, теперь взрослые мальчики пишут промпты для LLM с помощью .. да, LLM. Как для картинок. Вы пишете замысел, LLM его превращает в жирный и умный промпт и кормит его на вход другой LLM (может и самой себе).
Это подводка к новости про Антропик, но я еще чуть кивну в сторону ИИ-музыки. Она пришла на поляну третьей. У (например) меня в коментах полно вопросов, а как сделать так чтобы Suno ...? Ну то есть как написать промпт. Думаю, что частично LLM подтянутся и в музыку, но я вижу там идеальный интерфейс, как дорожки, над которым идет текст, и над которым идет "инпайтинг"-трек и промпт-трек. Которые можно редактировать. В общем монтажка с дорожками эффектов.
А теперь новость.
Антропик на базе своего Клода сделал универсальный промпт-генератор для .. всего.
Теперь вы можете генерировать production-ready prompts в консоли Anthropic Console.
Вы просто пишете, чего вы хотите добиться, и Клод воспользуется всеми этим техниками промпт-инжиниринга, типа та самая цепочка мыслей, чтобы создать более эффективные, точные и надежные подсказки. И сделает это лучше кожаных.
Тут я бы налил за промпт-инженеров и передал слово Денису. Почитайте следующий пост о том, как взрослые мальчики теперь пишут промпты.
Тут ко мне попали утечки про Метаверсищще от МТС (чуть не написал МТСищще).
Ролик нарядный, графика хорошая, моушен дизайн достойный, концепт арт отличается от большинства метаверсиков. Правда непонятно - это планы из движка, или чистый пост.
Интересно будет посмотреть, как все крутится на движке, жду.
Выходные, время поглядеть в сериалы.
Плюс любые новости про ИИ и ЛЛМ бессмысленны до понедельника, когда OpenAI бахнет апдейты (20:00 по мск).
Смотрю Шугар, и он прекрасен. В сериалах от Эппле всегда звенящая, хрустящая, прекрасная картинка.
Помните как они стартанули с Morning Show?
Немного бесит ванильная афроамериканка (потом, впрочем, понятно, почему она такая).
Снято изумительно. Фаррел прекрасен. Актеры топ. Титры на стиле.
Но у меня, видать, профдеформация - мне мерещится Stable Diffusion в титрах и Udio в музыке.
Точнее, я раздумываю, что такие титры(кроме текста), можно было бы забабахать видео-генерацией, а музыку и подавно.
Кстати, про генерацию титров с помощью ИИ уже писал.
Также зашли Уроки Химии. Люблю когда у героя есть типасверхспособности, но не как в комиксах и Мстителях, а интеллектуальные (как у Майка в форсмажорах, или мистера Робота). Как у ИИ, в общем.
Зацените Шугара, и киньте что-то подобное.
Ну точно, за музыкантов!
Ибо на них ополчились уже буквально все.
Теперь вот авторитеты войсклонинга и генерации голосов Elevenlabs выкатывают свой генератор музыки!
Подробностей нет, есть несколько примеров в твитторе.
Голос действительно звучит четко.
Слушаем тут:
https://x.com/elevenlabsio/status/1788628171044053386
Полистайте вниз, там ещё примеры.
Suno, Udio(кстати, произносится как Юдио), поделки от Гугла и Меты, и теперь вот ещё серьезные пацаны.
Про то, что у Warner Music уже тоже есть свои модели (но мы вам о них не расскажем) я уже писал.
Немножко разобрался с ценами.
Если в дискорде набрать /credits, то выдаст цены на генерацию, апскейлы, видео и пр.
10 баксов - 1000 кредитов
И хорошо бы понять, что такое Image Core...
Подробности тут:
https://stability.ai/news/stable-artisan
Дискорд тут:
https://discord.gg/stablediffusion
Цены тут:
https://platform.stability.ai/pricing