cgevent | Неотсортированное

Telegram-канал cgevent - Метаверсище и ИИще

37791

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Подписаться на канал

Метаверсище и ИИще

Но тем не менее, первое, куда он лезет, это Бинг.
Это видно на выдаче.

Читать полностью…

Метаверсище и ИИще

Дай, думаю, лягу спать пораньше. И тут хрясь!, и мне выдают доступ.
Ишотеперьделать?

Читать полностью…

Метаверсище и ИИще

Так, похоже завтра весь день будем разбираться с тем, что на НЕ показали в презентации GPT-4o.

С картинками и 3Д в особенности.
И там похоже Клондайк.

Читать полностью…

Метаверсище и ИИще

Держите еще 18 видео-примеров использования GPT-4o:
https://vimeo.com/openai

Почти каждый заслуживает отдельного поста. И половина из них гораздо круче, чем то, что было в презентации

Читать полностью…

Метаверсище и ИИще

Так, для тех, кто любит почитать и вникнуть, а также узнать про саму новую модель GPT-ФО, идем вот по такой ссылке и вникаем:
https://openai.com/index/hello-gpt-4o/

Читать полностью…

Метаверсище и ИИще

На итоге: новая мультимодальная модель GPT-4o, дико быстрая, умеющая в текст и видео. Про DALL·E 3 - ничего.
Главный хит: атомный голосовой помощник в виде отдельного приложения. Которого можно прерывать на полуслове. Он может переводит в режиме полудуплекс - ПОСЛЕ того как вы завершили, он переведет это на другой язык и озвучит. И он теперь может разговаривать с камерой - то есть комментировать все, что происходит вокруг.
Обещают, через две недели. Подробнее тут:
/channel/denissexy/8142

Читать полностью…

Метаверсище и ИИще

И теперь это отдельное десктопное приложение, а не в браузере, как раньше. в телефоне - тоже приложение.

Читать полностью…

Метаверсище и ИИще

Показывают голосового ассистента - главное отличие - его можно прерывать на ходу, задержка ОЧЕНЬ маленькая. Эмоции на мой взгляд Очень преувеличенные, но они прям ЭМОЦИИ. И чувство юмора!!!
Полноценный стендап

Оно поет! Если его попросит.

Озвучка просто космос. Такое ощущение, что за сценой сидит актриса.

Читать полностью…

Метаверсище и ИИще

Трансляция OpenAI Spring Update будет тут:
https://www.youtube.com/watch?v=DQacCB9tDaw

Читать полностью…

Метаверсище и ИИще

В Antropic (это конкурент OpenAI и авторы модели Claude 3 Opus) на днях запустили свой промпт генератор (доступен тут) и там какой-то дикий по объему инструкций промпт, я его вставил сюда, можете почитать. Если коротко, при генерации промпта сразу подставляются переменные которые будут нужны, чтобы максимально облегчить разработчику работу, добавляются «Chain Of Thougths» приемы и тп.

Только возникшая индустрия промпт-инженеринга уже двигается к своей автоматизации и это нормально, потому что намного быстрее «промпт-инженерить» языковую модель чтобы она, на основе уже готовых, одинаковых правил, написала какой-то промпт — потому что самому вычитывать 100 раз один и тот же текст абсолютно унылое занятие, поверьте мне.

Последние месяца три, все системные промпты которые я пишу для GPT / локальных моделей, я пишу с Claude 3 Opus или GPT4. Это правда хорошо работает — запускаешь какую-то новую модель и хочешь протестировать ее на предмет написания рассказов во вселенной «Ведьмака» или «Властелина Колец», а самому писать эти постоянные «Ты самый лучший в мире писатель фанфиков по вселенной...» и тп и тд, очень утомляет.

Поэтому, я собрал новую GPT задача которой промпт-инженирить за вас, создавая LLM-агентов на основе ваших предпочтений. В эту GPT сразу включены какие-то хаки которые хорошо работают по моему опыту, включая «Chain Of Thougths», негативный промптинг, выделение капсом нужных частей и тп. И если вы знаете размер языковой модели (например 8B, 30B, 70B) модель адаптирует сложность промпта, так как маленькие модели в больших инструкциях путаются.

Ссылка:
Agent Prompt Generator for LLM's

Прошлая версия промпта промпт-генератора доступна тут (я ее уже постил), в GPT более новая и сложная.

P.S. Шутка агента кринжовых-анекдотов со скриншота выше:

Путешественник во времени решает поехать в прошлое, чтобы предотвратить создание популярного мема «Forever Alone». Возвращается обратно и обнаруживает, что стал главным героем этого мема.


Чтож, оно справилось

Читать полностью…

Метаверсище и ИИще

За промпт-инженеров, не чокаясь. См. ниже.

Читать полностью…

Метаверсище и ИИще

Using by SORA
Как вам продолжение Air Head от Spykids?


Если первая часть была на 100% сгенерирована в SORA и приправлена пост-продакшеном и монтажом (я писал очень подробный пост, с разбором того, как делали первую часть).
То здесь уже много композа, живых съемок, совмещения, титров и моушена.
И сразу всё играет гораздо мощнее - появляется история во времени, и даже развитие персонажа.
Очень интересно просматривать раз за разом, отмечая, где SORA, где съемка, а где композ.
Поглядите, там в конце отличный выход на продолжение типа "а скоро добрый доктор нам расскажет, почему часть персонажей постоянно в slo-mo и что хрень твоится с руками".
Финальный титр "Made using Sora", а не "Made by Sora".
Если ролик тяжелый, то вот ссылка на youtube OpenAI (да, у них он есть, равно как и TikTok):
https://www.youtube.com/watch?v=pyNYkWaxBeA

P.S. В предыдущем посте писал про титры для сериала Шугар, а щас задумался, что уже можно (теоретически, пока Соры нет в доступе) делать SORA-вставки в тело сериала, особенно с этими ретро-врезками.

Читать полностью…

Метаверсище и ИИще

OpenAI в понедельник вечером покажет презентацию (я еще скину ссылку на нее), вот что лично мне кажется покажут (спекулятивно):

✅ Демку ассистента как из фильма Her
✅ Полную мультимодальность: модель будет обучена сразу на видео, аудио, картинках и тексте
✅ Размер контекстного окна в 1М
✅ Новую архитектуру к новой модели, у которой сразу будут все фишки выше
✅ GPT4 обновление с лучшим написанием кода, или 4.5 или 4.1
✅ Новую версию Dalle 3, с улучшенным фотореализмом

Ну то есть будет прикольно, но не AGI-прикольно, но все еще ничего.

В понедельник сравним насколько я плохо предсказываю вещи (планирую как минимум одну угадать, но это максимум)

Читать полностью…

Метаверсище и ИИще

Оппаньки, OpenAI похоже сообразили, что упускают огромную долю рынка секстинга, дейтинга и адалт чат-ботов.
И собираются сделать галочку "ЯВзрослый".
И ну генерить всякие глупости.

“We’re exploring whether we can responsibly provide the ability to generate NSFW content in age-appropriate contexts through the API and ChatGPT,” the note says, using a colloquial term for content considered “not safe for work” contexts. “We look forward to better understanding user and societal expectations of model behavior in this area.”

https://www.wired.com/story/openai-is-exploring-how-to-responsibly-generate-ai-porn/

Читать полностью…

Метаверсище и ИИще

Как-то так теперь...

Читать полностью…

Метаверсище и ИИще

Там по ходу свой ControlNet вшит прямо в мозг, поглядите на Canny и определение edges!(Одна из картинок)

Точнее там библиотека cv2 под капотом.

Зд модель она мне пока не сделала, но я с телефона не очень-то и старался.
Так, ещё 5 минут и спать.

P.S.

import numpy as np import cv2 import matplotlib.pyplot as plt # Convert images to grayscale front_gray = cv2.cvtColor(np.array(front_view), cv2.COLOR_RGB2GRAY) side_gray = cv2.cvtColor(np.array(side_view), cv2.COLOR_RGB2GRAY) top_gray = cv2.cvtColor(np.array(top_view), cv2.COLOR_RGB2GRAY) back_gray = cv2.cvtColor(np.array(back_view), cv2.COLOR_RGB2GRAY) # Detect edges using Canny edge detector edges_front = cv2.Canny(front_gray, 100, 200) edges_side = cv2.Canny(side_gray, 100, 200) edges_top = cv2.Canny(top_gray, 100, 200) edges_back = cv2.Canny(back_gray

Читать полностью…

Метаверсище и ИИще

Просят ее сгенерить 6 (консистентных) ракурсов одного и того же промпта.

A sea lion sculpture. On the circular base of the sculpture, the word "OpenAI" is etched out


А потом "а теперь давай 3д модель по 6ти картинкам".

Читать полностью…

Метаверсище и ИИще

Возможности GPT-4o будут внедряться итеративно

"Возможности текста и изображений(?!) GPT-4o начинают внедряться сегодня в ChatGPT. Мы делаем GPT-4o доступным на бесплатном уровне, а для пользователей Plus лимит сообщений увеличивается до 5 раз. В ближайшие недели мы выпустим новую альфа-версию голосового режима с GPT-4o в ChatGPT Plus.

Разработчики также теперь могут получить доступ к GPT-4o в API как к текстовой и визуальной модели. GPT-4o в 2 раза быстрее, вдвое дешевле и имеет в 5 раз более высокие ограничения скорости по сравнению с GPT-4 Turbo. В ближайшие недели мы планируем запустить поддержку новых аудио- и видеовозможностей GPT-4o для небольшой группы доверенных партнеров по API."

Читать полностью…

Метаверсище и ИИще

Почему она такая быстрая в ответах и зовут ея ОМНИ:

До появления GPT-4o вы могли использовать голосовой режим для общения с ChatGPT с задержками в среднем 2,8 секунды (GPT-3.5) и 5,4 секунды (GPT-4).

GPT-4o ("o" - "omni") принимает на вход любую комбинацию текста, звука и изображения и генерирует на выходе любую комбинацию текста, звука и изображения. Он может реагировать на аудиовход всего за 232 миллисекунды, а в среднем за 320 миллисекунд, что аналогично реакции человека.

Для достижения этой цели Voice Mode представляет собой конвейер из трех отдельных моделей: одна простая модель транскрибирует аудио в текст, GPT-3.5 или GPT-4 принимает текст и выдает его, а третья простая модель преобразует текст обратно в аудио. Этот процесс означает, что основной источник интеллекта, GPT-4, теряет много информации - он не может напрямую наблюдать за тоном, несколькими говорящими или фоновыми шумами, не может выводить смех, пение или выражение эмоций.

В GPT-4o мы обучили единую новую модель для работы с текстом, зрением и аудио, то есть все входы и выходы обрабатываются одной и той же нейронной сетью. Поскольку GPT-4o - наша первая модель, объединяющая все эти модальности, мы еще только начинаем изучать возможности модели и ее ограничения.

Читать полностью…

Метаверсище и ИИще

Ну и у меня сразу вопрос: если я попрошу ея напеть мне веселую песню - у кого будут права на песню?
Если я попрошу ея напеть мне Мадонну, она сможет? Если да, могу я это выложить на свой ютюб и что скажет ютюб?
В общем с пением сразу много вопросов, тут акулы музыкальной индустрии сделают стойку. И я думаю, она очень быстро откажется петь известные песни или песни в духе кого-то известного. Как сейчас отказыввется Суно. Или DALL·E 3 отказывается слышать про известных художников.

Читать полностью…

Метаверсище и ИИще

Оно детектит эмоции на камере и умеет переводить разные языки голосом, то есть у вас есть карманный переводчик. Надо попробовать для синхрона

Читать полностью…

Метаверсище и ИИще

Выглядит как Сири величиной с Юпитер

Читать полностью…

Метаверсище и ИИще

Трансляция началась:
Новая модель - GPT-4o!
Быстрая и мультимодальная.
Omnimodel

Читать полностью…

Метаверсище и ИИще

Вот это уже похоже на нормальный интерактив.

Осталось весь этот зоопарк присунуть в какой-то 3Д-пакет.
А пока на арене цирка Adobe Substance Modeler вьюпорт которого оправляется в Krea ai, Magnific потом используется для детализации, а Leonardo AI для движения в конце(но может быть любой видео генератор).
За кого накатим?
https://twitter.com/MartinNebelong/status/1789414810624418301

Читать полностью…

Метаверсище и ИИще

Ну, за промпт-инженеров.
Помните шквал инфоцыганских курсов по промпт-инжинирингу? Типа "мы научим вас вязать лыко", то есть формулировать мысли словами из головы, точнее пальцами по клавиатуре. Особенно мне приглянулся курс "Как создавать курсы по chatGPT с помощью chatGPT".

Первыми были генераторы картинок. Помните все эти скобочки, веса, междометия типа OctaneRender или "best of artstation". А еще были первые UI-попытки сделать тучу кнопочек с этим самыми междометиями, стилями, разрешениями, конструкторы шаманских промптов.

Потом пришел Fooocus, там перед финальным промптом стоял GPT-2 и превращал краткий промпт в кучерявый. То есть llm-ка улучшала промпт. Потом DALL·E 3 показал всем, кто в доме хозяин в части понимания промпта. А там уже подтянулись и остальные. Грубо говоря, ИИ стал писать (дописывать, расписывать) промпты за вас. Сейчас это уже стандарт. Промпт-инжиниринг для картинок превратился в здравый смысл и знание письменности.

Вторыми пришли LLM. Помните все эти Убабуги, ну и первое пришествие chatGPT. Тут на нас обрушились курсы "chatGPT для бизнеса" и перепродажа идей "chain of thoghts" и "role assignment" на все лады. Задорого.
Да, для LLM пришлось писать портянки текста, все это запаковывалось списки промптов на разные случаи жизни (платные и бесплатные), системные промпты, в общем стало понятно, что туда, где надо много шевелить ручками, придет автоматизация, то есть ИИ.
И да, теперь взрослые мальчики пишут промпты для LLM с помощью .. да, LLM. Как для картинок. Вы пишете замысел, LLM его превращает в жирный и умный промпт и кормит его на вход другой LLM (может и самой себе).

Это подводка к новости про Антропик, но я еще чуть кивну в сторону ИИ-музыки. Она пришла на поляну третьей. У (например) меня в коментах полно вопросов, а как сделать так чтобы Suno ...? Ну то есть как написать промпт. Думаю, что частично LLM подтянутся и в музыку, но я вижу там идеальный интерфейс, как дорожки, над которым идет текст, и над которым идет "инпайтинг"-трек и промпт-трек. Которые можно редактировать. В общем монтажка с дорожками эффектов.

А теперь новость.
Антропик на базе своего Клода сделал универсальный промпт-генератор для .. всего.
Теперь вы можете генерировать production-ready prompts в консоли Anthropic Console.

Вы просто пишете, чего вы хотите добиться, и Клод воспользуется всеми этим техниками промпт-инжиниринга, типа та самая цепочка мыслей, чтобы создать более эффективные, точные и надежные подсказки. И сделает это лучше кожаных.

Тут я бы налил за промпт-инженеров и передал слово Денису. Почитайте следующий пост о том, как взрослые мальчики теперь пишут промпты.

Читать полностью…

Метаверсище и ИИще

Тут ко мне попали утечки про Метаверсищще от МТС (чуть не написал МТСищще).

Ролик нарядный, графика хорошая, моушен дизайн достойный, концепт арт отличается от большинства метаверсиков. Правда непонятно - это планы из движка, или чистый пост.

Интересно будет посмотреть, как все крутится на движке, жду.

Читать полностью…

Метаверсище и ИИще

Выходные, время поглядеть в сериалы.

Плюс любые новости про ИИ и ЛЛМ бессмысленны до понедельника, когда OpenAI бахнет апдейты (20:00 по мск).

Смотрю Шугар, и он прекрасен. В сериалах от Эппле всегда звенящая, хрустящая, прекрасная картинка.
Помните как они стартанули с Morning Show?
Немного бесит ванильная афроамериканка (потом, впрочем, понятно, почему она такая).
Снято изумительно. Фаррел прекрасен. Актеры топ. Титры на стиле.
Но у меня, видать, профдеформация - мне мерещится Stable Diffusion в титрах и Udio в музыке.
Точнее, я раздумываю, что такие титры(кроме текста), можно было бы забабахать видео-генерацией, а музыку и подавно.

Кстати, про генерацию титров с помощью ИИ уже писал.

Также зашли Уроки Химии. Люблю когда у героя есть типасверхспособности, но не как в комиксах и Мстителях, а интеллектуальные (как у Майка в форсмажорах, или мистера Робота). Как у ИИ, в общем.

Зацените Шугара, и киньте что-то подобное.

Читать полностью…

Метаверсище и ИИще

Ну точно, за музыкантов!

Ибо на них ополчились уже буквально все.

Теперь вот авторитеты войсклонинга и генерации голосов Elevenlabs выкатывают свой генератор музыки!
Подробностей нет, есть несколько примеров в твитторе.
Голос действительно звучит четко.
Слушаем тут:
https://x.com/elevenlabsio/status/1788628171044053386
Полистайте вниз, там ещё примеры.

Suno, Udio(кстати, произносится как Юдио), поделки от Гугла и Меты, и теперь вот ещё серьезные пацаны.

Про то, что у Warner Music уже тоже есть свои модели (но мы вам о них не расскажем) я уже писал.

Читать полностью…

Метаверсище и ИИще

Немножко разобрался с ценами.

Если в дискорде набрать /credits, то выдаст цены на генерацию, апскейлы, видео и пр.

10 баксов - 1000 кредитов

И хорошо бы понять, что такое Image Core...

Читать полностью…

Метаверсище и ИИще

Подробности тут:
https://stability.ai/news/stable-artisan
Дискорд тут:
https://discord.gg/stablediffusion
Цены тут:
https://platform.stability.ai/pricing

Читать полностью…
Подписаться на канал