cgevent | Неотсортированное

Telegram-канал cgevent - Метаверсище и ИИще

37799

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn

Подписаться на канал

Метаверсище и ИИще

А вот это невыносимо круто.

Whisper WebGPU: ацки быстрое распознавание речи прямо в браузере! Поддерживает многоязычную транскрипцию и перевод на 100 языков!

Модель работает локально, и данные не покидают ваше устройство!

Потестируйте сами: https://huggingface.co/spaces/Xenova/whisper-webgpu

И есть код!: https://github.com/xenova/whisper-web/tree/experimental-webgpu

Читать полностью…

Метаверсище и ИИще

То, о чем все молчат...
Тут в коментах говорят, что голос не похож. Еще как похож!
Сорс

Читать полностью…

Метаверсище и ИИще

Осталось совсем чуть чуть до лимитированного ИИ-липсинка для аниме и анимации. Уже работает потихоньку

Читать полностью…

Метаверсище и ИИще

19 июня в Москве пройдет мероприятие, которое нельзя пропустить, если вы следите за технологическими трендами.

Представители бизнеса и креативных индустрий соберутся вместе на конференции о бизнесе на грани цифры и реальности «Фиджитал», чтобы поделиться своими кейсами, рассказать о перспективах внедрения фиджитал-инструментов и их применении в различных сферах.

Keynote-спикер конференции, Максим Козлов, руководитель центра технологий Метаверса Сбера, расскажет, как новые технологии уже изменили маркетинг и какое преимущество извлекают компании от слияния цифровой и физической реальности.

Кроме деловой программы вас ждет XR-зона с возможностью создать квартиру мечты и фиджитал-шахматы, где соперники сначала сойдутся в шахматном поединке, а затем сразятся на виртуальном ринге.

Среди спикеров:

▪️Сергей Васильев, режиссер фантастического сериала «Кибердеревня» и соавтор канала о России будущего «Березовый панк»
▪️Дамир Батуллин, старший вице-президент, директор по развитию цифровых каналов компании «Альфа-Банк»
▪️Василий Большаков, заместитель генерального директора по маркетингу группы М.Видео-Эльдорадо
▪️Давид Эмухвари, директор по развитию CGI-production Twin3D
▪️Александр Карлявин, исполнительный директор VS Gallery, преподаватель МГИМО, БВШД и RMA

📍Мероприятие пройдет в Цифровом деловом пространстве (Москва, ул. Покровка, 47). Начало в 11:00. Подробности и регистрация — на сайте мероприятия.

Реклама ГБУ «Агентство инноваций Москвы» ИНН 7703770430 erid: 2SDnjeeV8rV

Читать полностью…

Метаверсище и ИИще

Эппле хвастается бенчмарками. Как они побивают gpt-3.5-turbo-0125, gpt-4-0125-preview, Phi-3-mini-4k-instruct, Mistral-7B-Instruct-v0.2, Mixtral-8x22B-Instruct-v0.1, Gemma-1.1-2B и Gemma-1.1-7B.

Обратите внимание на версии.

А теперь вишенка:
Модели с открытым исходным кодом и Apple оцениваются с точностью bfloat16

А на девайсах крутятся квантизированные модели 4-бит.

Умеет Эппле сравнивать, ничего не скажешь.

P.S. Чтобы сохранить качество модели, мы разработали новый фреймворк с использованием адаптеров LoRA, который включает смешанную 2- и 4-битную стратегию конфигурации - в среднем 3,5 бита на вес - для достижения той же точности, что и несжатые модели.

P.S. "Чтобы сохранить качество модели, мы разработали новый фреймворк с использованием адаптеров LoRA, который включает смешанную 2- и 4-битную стратегию конфигурации - в среднем 3,5 бита на вес - для достижения той же точности, что и несжатые модели."

Верим на слово?

https://machinelearning.apple.com/research/introducing-apple-foundation-models

Читать полностью…

Метаверсище и ИИще

По следам вчерашней презентации от Эппле.

Все вопрошают, а что за модель, сколько параметров, на устройстве или нет.
Давайте разбираться.


Забираем все подробности отсюда:
https://machinelearning.apple.com/research/introducing-apple-foundation-models
Количество параметров для On-Device Foundation Model - 3B.
Про серверные модели читайте по ссылке, сейчас интересно разобраться, что происходит на девайсе (с батарейкой в том числе).

Локальных базовых моделей, которые крутятся на телефоне (и ноуте) несколько, это зафайнтюненные модели под конкретные задачи. И там, похоже, подход, напоминающий Mixture of Experts. Есть маршрутизация запросов пользователя в нужную базовую модельку.
Более того, там есть Лоры, которые Эппле зовет адаптерами. Они позволяют еще точнее подбирать оптимальный ответ на запросы пользователя.
А чтобы все это хозяйство влезало в память, используется компрессия и квантизация с 16 бит до 4 бит. Обещают, что модель не тупеет сильно. При этом там динамическая выгрузка из памяти ненужной модели и загрузка требуемой в данный момент.
В общем как-то так: несколько файнтюнов базовой модели плюс Лоры плюс квантизация в 4 бита.
И все то же самое для диффузионной модели для картинок. Не уверен за файнтюны, но там точно три Лоры для иллюстрации, картуна и скетча. И Квантизация в 4 бита - так что генерация картинок точно крутится на девайсе (измеряем температуру в тестах). Подозреваю, что фоториал и лица были выкорчеваны с корнем из датасетов, а лоры добивают картинку до безопасно-пресной.

На вопрос, когда языковая модель крутится на девайсе, а когда лезет в ИИ-облако Эппле нет ответа. Говорят, что происходит "оркестрация запроса" и маршрутизатор запросов сам решает, куда направлять задачу.

Но мне вот интересно, как происходит оркестрация промптов в Сири - когда она решает покреативить сама, а когда бежит за помощью к Большому Брату - chatGPT?

И тут точно огромная дыра в безопасности. Просто прямой текстовый незашифрованный канал для слива информации о той самой персонализации, так превозносимой на презентации.

И Маск не зря возбухает, обещая запретить ифончики в компании, если этот вопрос не будет прояснен до конца.

Пока все, ждем от Эппле нарциссических бенчмарков их LLM и джейлбрейков Сири - народ скоро займется любимым делом.

Читать полностью…

Метаверсище и ИИще

ХОД КОНЕМ!!!
Сири может вызывать chatGPT!!!
БЕСПЛАТНО, без аккаунта openAI
Но можно и с аккаунтом, тогда больше фич

Читать полностью…

Метаверсище и ИИще

Image Playgound - три стиля, и говорят все НА ДЕВАЙСЕ

Читать полностью…

Метаверсище и ИИще

Идеальная реализация Рерайтинга и Саммарайзинга. Неясно за качество но UX просто идеальный

Читать полностью…

Метаверсище и ИИще

Сири может орудовать внутри приложений. Можно сказать "возьми фотку вот оттуда и вставь ее в сообщение". Голосовое управление операционкой

Читать полностью…

Метаверсище и ИИще

Персональный контекст. Помнит все из разных приложений

Читать полностью…

Метаверсище и ИИще

Приоритизация нотификаций
Рерайт текстов

Читать полностью…

Метаверсище и ИИще

Ребята, не надо про новый калькулятор. Давайте про новую Сири.

Читать полностью…

Метаверсище и ИИще

IOS 18.
Восторженным поклонникам ифонов показывают кастомизацию иконок и control center, которая уже живет на андроеде годами. Все в восторге.

Читать полностью…

Метаверсище и ИИще

Ну что посмотрим на яблочный интеллект?
https://www.youtube.com/watch?v=RXeOiIDNNek

Читать полностью…

Метаверсище и ИИще

Следи за лицом! - Follow-Your-Emoji

Вот еще одна работа в копилку нейроаватаров.
Напоминаю, что лучшие у нас пока EMO от Алибабы и VASA от Микрософтика. Но кода от них не дождешься.
Недавно писал про V-Express от Тикточека, и это решение уже с кодом.
А тут появилась еще одна работа, с акцентом на анимацию эмоций, а не только липсинк. Там даже есть преувеличенные гримасы в духе Снапчата и работает это даже на животных. И посмотрите до конца, там уже есть Сэм Альтман, куда без него.
И похоже пишет все это в одно лицо(мозг?) аспирант гонконгского университета, которые работает в Тиктоке. Забавно, что в качестве твиттора или демо везде указан его Гитхаб:
https://github.com/mayuelala

Поглядите, он накропал уже десяток решений, некоторые с кодом, некоторые без. Очень жду обновления Follow Your Pose.

Код Follow-Your-Emoji он обещает выложить, и на поляне нейроаватаров появится больше опен-сорсных решений.

Поглядите на проект, выглядит достойно. И теперь у нас есть EmojiBench - бенчмарк по нейроаватарам!

https://follow-your-emoji.github.io/

Читать полностью…

Метаверсище и ИИще

Оказывается в Krea на максимальном плане есть Video Upscaler. И он просто огненный.
Я тут поглядел как люди разгоняют видео из Клинга в 4K и за Топаз можно начать чокаться.

А пока для вам пара примеров.
Анимация девочки это https://github.com/fofr, разогнанный в Krea Video Upscaler.
И за аниматоров как-то не по себе.

Второй ролик это вообще захват экрана в Dreams на PS5, то есть голимый виарчик превращается в прельстивый метаверсик.
Есть минус, Krea Max - стоит 60 баксов в месяц. Пока.

Читать полностью…

Метаверсище и ИИще

Про обучение LLMок и яндексовый опенсорс

Недавно постил вот такую картинку. Если поразмышлять, то вообще-то говоря, стоимость сильно зависит от географии. Железки и электричество стоят везде по-разному. А экономить можно ещё и на софте и оптимизациях.
То, что сегодня яндекс опенсорснул свою библиотеку YaFSDP, интересное событие с точки зрения новой эры в обучении моделей.

Основное из их новости:

– яндекс пишет, что решение позволяет ускорить до 25% обучение LLM с открытым исходным кодом
– обещают, что с YaFSDP экономия памяти GPU может достигать 20%
– ну и показывают результаты теста библиотеки на сторонних нейросетях (на примере модели LLaMA 2 этап предварительного обучения на 1024 графических процессорах сократился бы с 66 до 53 дней)
исходный код уже есть на GitHub, посмотреть подробности замеров можно в репозитории GitHub, а почитать про разработку библиотеки — на Хабре.

Коллеги посчитали, реально ли с помощью решения можно сэкономить от $0.5M за месяц обучения модели, и соорудили формулу.

Стоимость аренды GPU в час * количество часов * количество дней * количество GPU * (коэффициент на сколько оптимизируем ресурсы) = экономия

Ну и проверили экономию на примере Google Cloud и Fluidstack:

Считаем у Гугла, параметры выходят такие:

1) 1312 H100
2) Месяц обучения
3) Цена за GPU: $3.98/h
4) Экономия 20% ресурсов

Общая экономия в месяц: 3.92*30*1312*(0.2/1.2)*24 = $601 тыс

Теперь у FluidStack:

1) 1312 H100
2) Месяц обучения
3) Цена за GPU: $3.75/h
4) Экономия 20% ресурсов

Общая экономия в месяц: 3.75*30*1312*(0.2/1.2)*24 = $566 тыс

Это я к чему: YaFSDP надо детальнее изучать, но возможно она будет полезна тем, кто не может позволить себе ацкого железа и для тех, кто использует ГПУ в облаке. А оптимизация идёт за счёт софта.

Читать полностью…

Метаверсище и ИИще

L-MAGIC: Language Model Assisted Generation of Images with Coherence

Генератор 360-градусных панорам от Intel Labs. Под капотом LLM для составления промпта.
На вход умеет принимать разные исходные данные: картинка, набросок, текстовое описание

Код
Демо ждем

#image2panorama #sketch2image #sketch2panorama #text2panorama

Читать полностью…

Метаверсище и ИИще

Хех, пост про Хомяков приподразорвал коменты. Наверное надо мне реанимировать мой семилетний пост про "биточки с гречкой".

А я вот принес вам пример метаверсика, в котором нет крипты, в котором юзеры не скучают, и в котором есть что поделать (что для метаверсиков - чудо).

В общем это Котоверс. И это просто убойная VR-игра.
Никакой фетишизации реалистичности, никакого воздыхания над погружением, а просто взыскание к желанию взрослых детей нашкодить, напакостить, извести ближнего своего, особенно учительницу или директора школы.
Сделано с таким задором, что я еще раз убеждаюсь, в любом метаверсике: механика - всё, антураж - ничто (наскучивает моментально). Представьте, что вам надо внести как можно больше хаоса в метаверсик: и тут вам вручают мерзавца кота, который роняет горшки, бьет посуду, жрет рыбок в аквариуме и изводит хозяйку. Чем больше извел, тем выше результат. Сдается мне, хороший тренажер для релиза детских психотравм.
А Вова Закоулов, с которым мы тусуем на Кипре, рассказал, что это сделали беларусы, сидящие на Кипре. У него, кстати, отличный разбор игры, не с точки зрения метаверсика, а с точки зрения денег и успеха: почему они выстрелили и причем тут Meta App Lab.
Все ссылки на игру и видосы вот тут, а я сижу ржу и болею за кота.

Читать полностью…

Метаверсище и ИИще

Итого, "когда-то этим летом, только для iPhone 15 и маков с M1 и выше"

Генерация картинок прямо на девайсе, очень цензурировано, только три стиля - скетч, иллюстрация, анимация. Все очень иконочное.

Вызов chatGPT в Сири - бомба.

Интеграция LLM-ки (какой?) в приложения - идеальна.

Читать полностью…

Метаверсище и ИИще

Поиск в видосах. Текстом!
Более того, говоришь - собери видео из моих фоток на тему "мы с корешами чиллим". И он собирает. Ну за стартапы

Читать полностью…

Метаверсище и ИИще

Генмоджи. Генерация эмоджи когда не можете найти нужную.

Читать полностью…

Метаверсище и ИИще

Это мы уже видели с chatGPT. Но Сири вроде умеет заполнять формы

Читать полностью…

Метаверсище и ИИще

Можно чатиться с новой Сири текстом. Что за модель внутри не говорят

Читать полностью…

Метаверсище и ИИще

Генерация картинок - стили скетч, анимационный и еще какой-то

Читать полностью…

Метаверсище и ИИще

Сафари, как обычно, самый быстрый браузер в мире. По мнению Эппле.
Однако впервые прозвучало выражение Машин Лернинг!
Сафари, типа анализирует, что вы там быстро браузите и подсовывает вам минисаммари.

Читать полностью…

Метаверсище и ИИще

А вот это интересно! Когда нет вайфая и мобильного интернета.

Читать полностью…

Метаверсище и ИИще

Начали с лыжной маски.
Vision OS 2 - новый просмотр фотачек, совместный просмотр фотачек, просмотр кино в самолете, коллаборация с BlackMagic и Canon по стереокамерам.
Ну то есть упор на просмотр фотачек и видео. Никаких киллер аппов не показали.

Читать полностью…

Метаверсище и ИИще

Если вы любите пытаться сломать защиту в разных LLM с помощью промпт инъекций – то у меня вам полезная ссылка, датасет из почти ~1500 промпт инъекций собранных с Reddit, Discord, Twitter и тп.

https://github.com/verazuo/jailbreak_llms

Внутри промпты и для старых инъекций, вроде DAN, до более новых с base64, leet code и тп.

Следующий шаг, это натренировать на этом модель, которая будет ломать другие модели автоматом ☕️

Читать полностью…
Подписаться на канал