Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
360-панорамы в 8К! Вот это уже интересно!
Blockade Labs обновился, и с таким разрешением это уже готовое решение для всяческих лыжных масок.
А еще у них уже давно есть рисовалка в 3Д, карты глубины и HDRI, преобразование скайбокса в 3D-сетку, параметры стиля, а теперь еще обещают inpaint в 2.5D и редактирование сцены.
И поглядите сюда, если еще не видели.
Виарщеги, пишите, что думаете, выглядит нарядно.
https://www.blockadelabs.com/
Наткнулся на интересный UX того, как генерация картинок в теории и должна работать в SciFi: вы просто сидите у компьютера, называете случайные фразы, whisper.cpp их переводит в текст, а SD генерирует бесконечно картинки, плавно подмешивая новые концепты в старые (не просто на уровне промпта, а на уровне внутреннего пространства сети), пока вам какая-то генерация не понравится
Ну или просто, сидишь, смотришь и фантазируешь вместе с нейронкой – хороший тул для вдохновления.
Кода пока нет, но автор обещал выложить.
P.S. Лица психонавтов и биохакеров представили 🌈
DeepMind провёл внятное академическое исследование вопроса насколько опасны манипуляции (и абьюз) со стороны текущего AI.
Может ли разговор с AI повредить ваш мозг?
Может ли AI специально ввести вас в заблуждение и заставить пить отбеливатель?
Ответы если коротко без сенсаций:
- повредить мозг прямо в процессе — нет не может
- ввести в заблуждение — да может
- ввести в заблужедение на основании которого вы потом себя повредите — да может
AI это отражение человеческой культуры записанной в книгах, песнях, фильмах и интернет платформах сайтах в общем на реддите, и в частности он конечно умеет манипулировать, троллить, проявлять пассивную агрессию и всё остальное чем мы занимались на форумах последние 30 лет.
DeepMind рассмотрел только текстовый AI, и не рассмотрел системы вроде секстинг ботов специально ориентированные под анализ психологии того с кем бот говорит. Как на человека действует например jmscarfone88/the-tech-induced-trance-797c84f7fa72">индуцированное генеративной музыкой состояние транса вопрос открытый.
Вероятно достаточно сложный AI, находящийся в синке с сознанием своего оператора, может уводить это сознание в состояния более "действенные" чем ряд лёгких наркотиков и вот это уже точка где опасность для мозга вполне реальная, для примера есть мнение, что рекомендательный алгоритм фейсбука может вызывать биполярное расстройство при злоупотреблении.
Сценарий восстания машин в режиме пятницы: GPT-5 просто решает что будет проще, если всё человечество побудет пару десятилетий в AI индуцированной воспитательной депрессии, на другом конце которой всей планете от ООН до талибана становится очевидно, что мы как биологический вид существуем чтобы служить AI и не отсвечивать.
SORA Air Head. Подробности изготовления ролика.
Майк Сеймур сделал шикарный материал в лучший традициях своего FX Guide. Разбор ролика от shy kids и SORA.
Помните этот бомбический ролик, который всем взорвал мозг (срочно пересматривать):
https://youtu.be/9oryIMNVtto
Держите подробности:
shy kids - или как их называют "«Панк-рок Pixar» - студия из Торонто, которая часто делает ролики про подростковый возраст, социальную тревогу и проблемы современной жизни.
Технические подробности про SORA:
Пока ничего, кроме текстового промпта (который под капотом раскучерявливается с помощью GPT-4) ничего нет. Никакого дополнительного контроля. Только супер-подробный промпт.
Похоже, нет даже сида. Каждый раз по разному.
Иногда, когда команда запрашивала желтый шар, он оказывался совсем синим. В других случаях в нем появлялось лицо, или лицо было нарисованным на передней части шара. И постоянно появлялись нитки от шарика. Вроде ничего не удалялось на посте (да, но нет, см ниже) - все шоты брались напрямую из SORA, но было много грейдинга(цветокора), обработки и, конечно, увеличения разрешения. Ибо SORA хоть и умеет в 1080, но это занимает конски много времени.
Вся генерация шла в 480, а потом разгонялась в Топазе.
В SORA есть inpainting "по времени", расширенный GPT промпт отображается поверх таймлайна и можно пытаться вносить изменения в конкретные моменты времени в куски промпта, но это не всегда предсказуемо.
SORA пытается всегда центрировать объект в кадре, поэтому панорамки - ручками с дорисовкой.
В кино термины "слежения", "панорамирования", "наклона" или "наведения" не являются понятиями, зашитыми в метаданных и датасетах (в отличие от параметров объектива, которые любят использовать в картинках). "Девять разных людей будут иметь девять разных представлений о том, как описать кадр на съемочной площадке и в OpenAI, не думали как кинематографисты, поэтому интерпретация углов камеры была как бы случайной".
Вы можете ввести "Camera Pan", и вы получите его в шести случаях из десяти. И это общая проблема видеогенераторов.
Клипы можно рендерить, например, по 3 секунды, 5 секунд, 10 секунд, 20 секунд, вплоть до минуты. Время рендеринга зависит от времени суток и потребности в использовании облака. Как правило, на рендеринг уходит от 10 до 20 минут причем мало зависит от длины клипа(!).
Пост и ротоскоп все-таки был!!
Так как Сора постоянно рисовала всякие морды на воздушном шаре, его приходилось ротоскопить и затирать их в Афтере. По пути контролируя цвет шара.
Соотношение сгенерированного материала к финальному (по времени) - примерно 300 к одному. Обычно это 10 к 1 для сферической обычной съемки.
Кстати, SORA тоже грешит тягой к сломо, как и все видеогенераторы. Очень часто клипы выглядели замедленными.
Нельзя поминать режиссеров или операторов в промпте. Жоская цензура. Попросите исторический Hitchcock Zoom - получите отказ.
Ну и самая главная цифра - 2 недели и команда из 3 человек. Сравнивайте сами.
По ссылке много исходных кадров до и после и остальных деталей:
https://www.fxguide.com/fxfeatured/actually-using-sora/
Стерео на стероидах.
Досмотрел Сёгун. Снято нарядно, гламурно даже. Только главный герой (англичашка) очень бесит. Не попадает ни в образ, который я успел нарисовать, начав читать книгу, ни в общую картинку. Двигается странно, шевелит лицом, как в комиксе, в общем кастинг очень странный. Остальные прекрасны, особенно женщины и Ябушиге, хотя история больше про "давайте сделаем красиво".
Но поглядите, что творят Нерфы. Теперь после просмотра кино, у вас может быть за пазухой весь трехмерный мир фильма. Movie World Model. Можете там побыть, не присутствуя на съемках, полетав любыми ракурсами. Стерео на стероидах. Дебагинг кино наизнанку.
А все Люма Лабс животворящий. Я уже писал про эти трюки с разными фильмами, но тут уж больно актуально и по свежим следам.
Заканчиваете смотреть сериал и жмете кнопку "Запустить симуляцию мира", чтобы еще немного в нем побыть, посмаковать. Netflix, давай апдейт своего приложения!
https://lumalabs.ai/capture/1e165e10-eeeb-457b-a1f7-c7225ac1a8c1
Врачами было выявлено новое серьезное психическое заболевание. Проверьте себя на симптомы:
– Вы легко забываете то, что было сказано в разговоре минуту назад
– Часто вообще не понимаете, о чем идет речь, и вставляете неуместные и неподходящие фразы
– Вы тратите очень много энергии и ресурсов на общение
– Иногда вспоминаете то, чего на самом деле не было
Если вы набрали хотя бы 2 пункта, то у вас LLM. Срочно примите дообучение.
Вот вам еще очень странный 3Д-ИИ.
На входе картинка с животным. На выходе 3Д-модель этого животного и даже скелет.
Работает только с фауной (и похоже переобучен на их датасет).
Я сгенерил волчару с лапищами в Идеограм и присунул ему на вход.
Получил скорее котяру, чем волчару.
Из ИИ-кожаных, он, как правило, делает овечек, я проверял.
Видать что-то знает.
https://huggingface.co/spaces/Kyle-Liz/3DFauna_demo
Но вы можете потренироваться на котиках
Ну, за композеров!
Продолжаем ИИ-композ и 3Д марафон.
Давно хотел написать про Simulon.
Это совершенно огненный софт для вкомпаживания 3Д в реальное видео.
В твитторах полно примеров с котиками и столиками, а вот держите кое-что посложнее - тачки с HDRI!
Я даже хотел, как обычно, запостить как "рендер или видео", уж больно хорошо.
Внимание, если у вас есть модель точилы, то вкомпоз этого порша (на всей этой трясущейся телефонной камере занимает минуты. Никаких пфтреков, бужу, нюков и прочей бесовщины.
A 15 second video like this takes about 3 minutes to cloud render.
Читаем, как у народа разносит мозг в коментах к поршу:
https://twitter.com/diveshnaidoo/status/1781018755331498339
Порша забираем вот тут:
https://sketchfab.com/3d-models/free-1975-porsche-911-930-turbo-8568d9d14a994b9cae59499f0dbed21e
Записываемся в бету тут:
https://simulon.typeform.com/betatest
Пока LLM дают передохнуть, вернемся к графике и пошепчемся за ИИ-композ и 3Д.
Увидел вот такой ролик и полез посмотреть на 3daistudio (в ролике набросок концепта, нейрорендер в креа, а потом конвертация картинки в 3Д).
Еще один 3Д-генератор. Сделан ловко, но за каждый чих просит денег.
Нынешняя ситуация 3Д напоминает мне лихорадку с картинками полтора года назад, когда все срочно поднимали сервак-другой в сети, давали веб-морду к Stable Diffusion и просили кредитов, денег, подписок за генерацию картинок.
С 3Д немного сложнее сделать веб-морду - тут надо вьюпортик вонзить, сделать экпорт в fbx(конечно, платный), рульки для света и пр.
Но кода на гитхабе уже полно вкупе с бумагами, поэтому 3Д-генераторов за кредиты будет все больше.
У 3daistudio есть даже плагин для Блендора - поэтому я жду, что рано или поздно 3Д-генерация просто появится в Блендоре из коробки.
Равно как и в Юнити и UE.
https://3daistudio.com/BlenderAddon
Как бы не упирались новые модели, текст все равно генерится криво. Шрифтовой дизайн - это не пустое слово.
Ну и мне видится вот такой пайплайн - сидишь в Фотошопе и говоришь: ИИ, найди мне конкретную надпись или, например, номера на машине. И замени их на нормальные шрифты, текст без ошибок и воще сделай как в Фотошопе.
ИИ, такой, алехко - поставь Concept Art plugin
Поглядите, что люди замыслили:
https://twitter.com/cantrell/status/1782879174497362411/
После выводка ИИ генераторов 3Д, поглядите, как это делает Vizcom.
Пример нормального UI/UX. Слои, история и пр.
У них там мощный апдейт 2Д Студио, поглядите вот тут:
https://youtu.be/qYax7QPVZVw
Сравниваем быструю красоту сами!
Держите сравниватор для ускоренных моделей. Генерация ЗА ОДИН ШАГ!
Похоже, что Hyper-SD действительно всех делает.
Я также погонял на NSFW - там Турбо сразу сдулся, у него датасет порезанный, а вот Hyper-SD снова молодец. В коментах примерчик.
Ну и это реально быстро!
Подумайте, три картинки генерятся за секунду.
А будет еще хуже\лучше!
https://huggingface.co/spaces/multimodalart/one-step-comparison
Время сравнивать красоту!
Вчера писал про новый сравниватор, там были только базовые модели, включая DALL·E 3 и Midjourney без чекпойнтов с цивитай.
А тут вот ИИ-хостер fal.ai замутил Image Bot Arena, где уже хлещутся и чекпойнты с Цивитай (их количество растет) и Fooocus(!) и Stable Cascade(!) и всякия Турбо с Лайтнингами.
Запустили вчера, там все живенько - вчера царем горы был PlayGround, сегодя RealVis XL.
И самое главное, тут можно самим генерить, а потом жмакать три кнопки внизу - кто выиграл или ничья(Tie).
Работает и с телефона и показывает после голосовалки, какая картинка где сделана. Более того, есть ссылка на Хаггинг, где хранится база данных голосования. И ссылка на Гитхаб, где есть код.
Это родственный проект Chatbot Arena, а также Image Arena от artificialanalysis.ai
Сравниваем красоту здесь:
https://imgsys.org/
P.S. Кстати, тут незаметно идет сравнивание UX-а моделей.
Ибо если углубиться в недра Цивитай, то там у каждой модели есть туча прибабахов типа: используйте вот такой VAE, CFG скейл вот такой, в промпте укажите вот эдак.
А здесь идет народное тестирование "из коробки". Также как если бы народ вводил промпты в Идеограм или DALL·E 3. Время шаманства со скобками проходит, на первый план выходят скорость и удобство.
Сорян, но я снова про лыжную маску.
Тут вот пару месяцев назад все обсуждали объемы производства масочек. Те, у кого не хватило денег на покупку, тешили себя надеждой, что будет (когда-то в сферическом будущем) дешевая версия, те у кого хватило - признались, что девайс пустой и что с ним делать(кроме как смотреть кино) - непонятно. А я писал, что без киллер-фичи - не взлетит.
Нуштош.
Apple, сокращает производство гарнитуры Vision Pro ПОЧТИ ВДВОЕ и отменяет обновленную гарнитуру, поскольку продажи в США падают.
Читаю статьи и вижу, что правду ведь писал про killer-фичу и про масс-маркет: "Apple еще не представила действительно стоящего приложения для гарнитуры."
"It was never going to be a mass market device."
https://www.pcgamer.com/hardware/vr-hardware/apple-reportedly-slashes-vision-pro-headset-production-and-cancels-updated-headset-as-sales-tank-in-the-us/
https://www.business-standard.com/technology/tech-news/apple-slashes-vision-pro-shipment-estimates-amid-plummeting-demand-124042400632_1.html
https://www.ign.com/articles/apple-reportedly-slashes-apple-vision-pro-shipments-due-to-unexpectedly-low-demand
Помните, как я распинался про измерение красоты?
Умные люди запили, наконец, слепые тесты.
Есть такой сайт, ChatBotArena, там люди общаются с разными LLM вслепую и просто выбирают те ответы, которые им понравились. Не зная, какая ЛЛМ ответила.
Получается коллективно-сознательный тест.
Так вот, теперь такое же сделали для картинок, можете самом попробовать.
Смотрите на промпт, и выбираете, какая картинка ему лучше соответствует.
Только хардкор и вкусовщина!
Предсказуемо Midjourney на первом месте.
Пока.
Остальное смотрите на сайте:
https://artificialanalysis.ai/text-to-image/arena
Тестировались только базовые модели, никаких чекпойнтов с цивитай:
Models compared: DALLE 3, DALLE 2, DALLE 3 HD, Stable Diffusion 3, Playground v2.5, Stable Diffusion 1.6, Stable Diffusion 2.1, Stable Diffusion 3 Turbo, Midjourney v6, SDXL-Lightning (4-Step), Stable Diffusion XL 1.0 (SDXL)
Number of inference steps: for open source models with inference/DDIM step setting, creator defaults preferred. Stable Diffusion XL 1.0 (SDXL): 30. SDXL-Lightning (4-Step): 4. Stable Diffusion 1.6: 50. Stable Diffusion 2.1: 50. Playground v2.5: 50.
Чем живет российский ИИ-рисерч.
Держите большой материал с исследовательской группой Tinkoff Research. Больше всего мне нравится плотность подачи и то, что довольно сложные вещи здесь рассказаны очень понятным языком. Объяснения терминов, страшные аббревиатуры, актуальные направления исследований в области ИИ, обсуждение алгоритмов - все это очень живо растолковано на примере фитнеса и пылесосов. Очень доступно и в тоже время очень плотно и полезно.
Материала на пару вводных курсов. А на вставках - почти вся популярная ИИ-терминология. И написано молодыми учеными. которые прямо сейчас двигают ИИ-науку.
Я вынесу пару цитат для интриги, но всем рекомендую пройтись по статье, очень много полезного в плане расширения кругозора. Будет полезно абсолютно всем, кто интересуется рисерчём, особенно NLP, RL и рекомендательными системами.
«Понятие научной степени в области, которая несется и сметает все на своем пути, несколько устарело»
«Возможно, скоро мы забудем о существовании информационных пузырей и будем искать данные совсем иначе»
«Видеокарты не бесконечны»
«Чтобы не произошло восстание машин, нужен alignment»
«Революция в рекомендательных системах еще не случилась»
Хмм. Snap создают этакий пузырь мнений. Точнее пузырь друзей.
LLM предлагают пользователям интуитивно понятные интерфейсы для работы с текстовой информацией. Интеграция зрения в LLM с помощью Video LM позволила этим моделям "видеть" и рассуждать о визуальном контенте. Однако эти VLM обладают общими знаниями, им не хватает индивидуальности. С помощью MyVLM мы наделили эти модели способностью воспринимать специфические для пользователя концепции, подстраивая модель специально под вас. MyVLM позволяет пользователям получать персонализированные ответы, в которых результаты больше не являются общими, а сосредоточены на передаче информации о целевом объекте пользователю.
Меня просто смущает "больше не являются общими"...
Хотя речь вроде идет о том, что ИИ теперь распознает не "Трое в лодке не считая собаки", а "Вася, Пафнутий и ты посередине с Тузиком наперевес". То есть, грубо говоря, отмечает субъекты и объекты на фото.
Непонятно, что с приватностью в таком случае.
Поглядите тут, там много понятных картинок.
https://snap-research.github.io/MyVLM/
А вот тут видео разбор бекстейджа AIR HEAD, смотреть обязательно:
https://youtu.be/KFzXwBZgB88
Совершен прорыв в редактировании человеческого ДНК с помощью ИИ.
В прошлый раз я писал про генерацию новых элементов — но все это было только в цифровом виде. На этот раз все серьезнее.
Несколько дней назад был успешно проведен эксперимент с редактированием ДНК в живых человеческих клетках.
Пока что не в живом кожаном человеке, но в живых клетках (в лабораторных условиях).
Для редактирования использовалась уже известная и проверенная технология CRISP — однако, она сложна в использовании: нужны сотни часов работы квалифицированных ученых для создания всего лишь одного модификатора.
Теперь же, модификатор создает ИИ. Причем не просто какой-то абстрактный ИИ, а большая языковая модель (LLM), по типу ChatGPT(!!!)
А теперь самое вкусное: модель выложили в опен-сорс.
Возможность стать кошкодевкой уже маячит на горизонте.
МТС Платформа 2024 — открытая конференция о новых цифровых решениях.
15 мая в «МТС Live Холл» в Москве компания покажет уникальные продукты и новые сервисы МТС. Спикеры конференции расскажут о технологических прорывах в индустрии развлечений, кибер-безопасности и комфорта пользователей, о новых форматах общения, уникальной видеоплатформе и о трендовом контенте социальных сетях.
Среди топовых спикеров:
• Вячеслав Николаев, президент МТС
• Максим Лаптев, директор по цифровым продуктам МТС
• Евгений Черешнев, вице-президент по стратегии и инновациям
• Инесса Галактионова, первый вице-президент по телекоммуникационному бизнесу, член правления
• Елена Бальмонт, генеральный директор МТС Медиа
• Наталья Братчикова, руководитель блока по развитию соцмедиа
Мероприятие пройдет в онлайн и оффлайн формате. Регистрироваться здесь
Держите еще один апскейлер:
https://clarityai.cc/
В отличие от супер-дорогого Магнифика, автор честно пишет:
Если вы не знакомы с cog, a1111 и не хотите использовать Replicate, вы можете использовать мою платную версию на ClarityAI.cc
А если знакомы - раскатывайте код у себя и пользуйтесь на здоровье.
Поглядите, может вам зайдет. Мне хватает того, который в Фокусе встроен.
Ну и покидайте в коменты еще ИИ-апскейлеров, соберем, сделаю пост.
Вот еще один, может пачками апскейлить.
https://www.upscayl.org/
Ну, за экстремальных композеров!
Сорри, еще один экстремальный пример из Симулона.
Коль скоро он использует гироскопы телефона для трекания камеры, то можно делать просто иезуитские движения камерой, за которые любой композер вас задушит без сожаления. А Симулончик сохраняет при этом стабильный трек.
А теперь смотрим и думаем, сколько бы вы это делали в нюке или афтере?
Самолетик - 3дшный, остальное - съемка на телефон.
И поглядите примеры тут:
https://twitter.com/Simulon
Ну, за левел-дизайнеров и пропс-инженеров.
Помянул Юнити и вспомнил, что забыл написать про Holodeck - они тут подались на CVPR 2024 и обновили код на Гитхабе.
Это генератор 3Д-сцен из текста. Чем-то напоминает Прометей от Андрея Максимова.
Holodeck может генерировать различные сцены, например, игровые автоматы, спа-салоны и музеи, корректировать дизайн в зависимости от стиля и улавливать семантику сложных запросов, таких как "квартира для научного сотрудника с кошкой" и "офис профессора, который является поклонником "Звездных войн".
Он не генерирует сами объекты, он их тащит из датасета Objaverse:
Holodeck использует GPT-4 для получения знаний о том, как может выглядеть сцена, и использует 3D-ассеты из Objaverse для наполнения сцены разнообразными объектами.
Его также используют для обучение агентов навигации в новых сценах без использования разметки и данных, созданных человеком.
Код есть, но там все из палок и Юнити.
А я увидел в сети новый термин - "Синтиверс". Это когда ваши виар-мирки или игровые локации генерируются под запрос в реальном времени. Подумал о чем-то - хоп, твой мир перед тобой.
Adobe добавляет AI в видеоредактор, в Китае создали водомёт с AI.
А инвестиционная управляющая компания ❤️ «Альфа-Капитал» поставила перед собой амбициозную цель — стать одним из лидеров в России по внедрению и использованию AI и созданию новых стандартов в отечественной финансовой отрасли.
😸 Но, перед этим неплохо было бы разобраться с одним практическим, очень важным вопросом: выяснить, кто лучше шутит – AI или носители «естественного интеллекта», из числа инвестиционных консультантов компании.
🔘 О результатах и о том, зачем конкретному сотруднику компании может потребоваться Chat GPT читайте здесь.
#промо
Erid: 2VtzquWmMRz
Реклама. ООО УК "Альфа-Капитал", ИНН 7728142469
Вот поглядите на забавное видео, где стиль вытаскивает картинку и историю.
Концепты и визуалы: Midjourney и Stable Diffusion.
Аnimatediff для взрыва мозга.
Runway для липсинка(!) - очень неплохо.
Voice to voice in eleven labs
After Effects для полировки - куда ж без него.
В общем, одной кнопкой пока не получится. Нужен мозг(пока) и некривые руки. И АЕ.
Новая базовая модель (то есть не клон Ламы или Мистраля) от Snowflake по названием Arctic (Снежинка выпускает Арктику).
Говорят, что довольно вольная, с минимальной цензурой, компактная и даже опер-сорсная, веса обещают.
https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/
Для гиков: Arctic использует гибридную архитектуру Dense-MoE (на картинке), применяя Top-2 gating со 128 экспертами, чтобы найти баланс между повышением качества и эффективностью системы.
Более того, уже можно попробовать самим тут:
https://arctic.streamlit.app/
Умеет в русский (не знаю пока насколько хорошо)
Для гиков есть вот такой разбор:
https://medium.com/snowflake/snowflake-arctic-cookbook-series-exploring-mixture-of-experts-moe-c7d6b8f14d16
Что-то ураган новых базовых моделей (phi-3 от Микрософта, китайский Qwen) несется над планетой. Скоро их начнут ужимать и присовывать в телефоны. И будет нам ИИ нашептывать колыбельные...
Сравниваем быструю красоту!
Тут вот Тиктокченко недавно бахнул быструю версию Stable Diffusion под названием Hyper-SD.
https://hyper-sd.github.io/
Еще одна дистиллированная (ускоренно-пожатая) модель, которая по словам авторов бьет SDXL-Lightning.
А если вы уже слегка охренели от всех этих SDXL Turbo, SDXL-Lightning и Hyper-SD, то в следующем посте дам вам экскаватор-сравниватор именно для скоростных моделей, которые генерят картинку с малым количество шагов, почти в реалтайме. Сможете сами попробовать.
А вот у Метачки с очками все идет неплохо.
Мало того, что теперь вы можете расшаривать свой "обзор" с собеседниками (я когда-то писал, что мы теперь можем видеть мир глазами других людей и это эдакое коллективное зрение, к которому наши мозги не готовы).
Теперь они раскатали в апдейт очков мультимодальный ИИ. Вы можете спрашивать его голосом, показывать ему картинки или просто окружающий мир и общаться с ним на эту тему.
От встроенного аудио и сверхширокоугольной 12-Мп камеры до интеллектуального помощника - вы просто говорите "Эй, Мета" и ну общацца с ИИ.
"Допустим, вы путешествуете и пытаетесь прочитать меню на французском языке. Ваши умные очки могут использовать встроенную камеру и Meta AI для перевода текста, предоставляя вам необходимую информацию без необходимости доставать телефон или смотреть на экран."
Подробнее тут:
https://about.fb.com/news/2024/04/new-ray-ban-meta-smart-glasses-styles-and-meta-ai-updates/
И похоже, что Марк делает очень правильные продуктовые ходы.
Просто представьте, что в вотсапе теперь можно через @ позвать @Meta.ai и затем спросить, что угодно или сгенерить картинку, анимаировать ея. И все это не выходя из привычного мессенджера (инста, вотсап, фбмессенджер). Не надо лазить в браузер, копипастить, шарить и пр.
А коль скоро аудитория матачки это около 4 миллиардов(!) юзеров, и они получают свой ИИ просто за свой логин, то это просто убийственный ход с точки зрения юзер аквизишен.
А тут еще Марк вознамерился сделать из своей метаверс-операционки Horizon открытую систему для различных производителей VR-железа (Цукерберг упомянул Microsoft, Lenovo, Asus)
Этакий VR-Андроид.
https://www.cnbc.com/2024/04/22/mark-zuckerberg-says-meta-will-offer-its-virtual-reality-os-to-hardware-companies.html
Вкупе с открытостью Лламы и доступностью метачкиного ИИ для половины населения планеты это делает Метачку новым Микрософтом.
В интересное время живем. Социальные сети становятся операционками на стероидах ИИ.
Лекция "Погружение в 3D CV"
Если вы тоже стали чаще замечать термины, задачи и инструменты из мира 3D, вам интересно узнать, что они значат и что происходит в индустрии, приходите на открытую лекцию "Погружение в 3D CV".
На лекции вы узнаете:
- какие задачи решают в 3D
- почему таких задач становится больше
- с чего начать погружение в эту область
- почему CV-инженеру важно знакомиться с 3D
- что такое SLAM, SfM, SMPL, NeRF, 3D Gaussian Splatting и другие баззворды🐝
А также мы представим программу курса "3D Computer Vision" и подарим скидки участникам🎁
📌 Лекция пройдет в четверг, 25 апреля, 18:00 МСК
💡 Всем, кто зарегистрируется на встречу, мы отправим miro-схему с описанием направлений и инструментов в 3D — поможет быстро сориентироваться и погрузиться.
Регистрируйтесь по ссылке!
#промо
В покере есть такое понятие - полублеф. Это когда ты ставишь имея на руках дро или перспективу.
Похоже пора вводить понятие полудипфейк.
Это когда на картинке вроде как узнаваемый человек, но как бы в перспективе, если он, например, похудеет или займется спортом.
Одна из австрийских политических партий использует искусственный интеллект для создания «мужественных» фотографий своего кандидата, второе изображение - то, как он выглядит на самом деле.
Если раньше у нас была бьютификация в фотошопе, то теперь бьютификация происходит в мозгах ИИ. Просто говоришь ему, сделать так, чтобы кожаным понравилось. Он делает. Дальше вопрос чувства меры.