Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
А вот это невыносимо круто.
Whisper WebGPU: ацки быстрое распознавание речи прямо в браузере! Поддерживает многоязычную транскрипцию и перевод на 100 языков!
Модель работает локально, и данные не покидают ваше устройство!
Потестируйте сами: https://huggingface.co/spaces/Xenova/whisper-webgpu
И есть код!: https://github.com/xenova/whisper-web/tree/experimental-webgpu
То, о чем все молчат...
Тут в коментах говорят, что голос не похож. Еще как похож!
Сорс
Осталось совсем чуть чуть до лимитированного ИИ-липсинка для аниме и анимации. Уже работает потихоньку
Читать полностью…19 июня в Москве пройдет мероприятие, которое нельзя пропустить, если вы следите за технологическими трендами.
Представители бизнеса и креативных индустрий соберутся вместе на конференции о бизнесе на грани цифры и реальности «Фиджитал», чтобы поделиться своими кейсами, рассказать о перспективах внедрения фиджитал-инструментов и их применении в различных сферах.
Keynote-спикер конференции, Максим Козлов, руководитель центра технологий Метаверса Сбера, расскажет, как новые технологии уже изменили маркетинг и какое преимущество извлекают компании от слияния цифровой и физической реальности.
Кроме деловой программы вас ждет XR-зона с возможностью создать квартиру мечты и фиджитал-шахматы, где соперники сначала сойдутся в шахматном поединке, а затем сразятся на виртуальном ринге.
Среди спикеров:
▪️Сергей Васильев, режиссер фантастического сериала «Кибердеревня» и соавтор канала о России будущего «Березовый панк»
▪️Дамир Батуллин, старший вице-президент, директор по развитию цифровых каналов компании «Альфа-Банк»
▪️Василий Большаков, заместитель генерального директора по маркетингу группы М.Видео-Эльдорадо
▪️Давид Эмухвари, директор по развитию CGI-production Twin3D
▪️Александр Карлявин, исполнительный директор VS Gallery, преподаватель МГИМО, БВШД и RMA
📍Мероприятие пройдет в Цифровом деловом пространстве (Москва, ул. Покровка, 47). Начало в 11:00. Подробности и регистрация — на сайте мероприятия.
Реклама ГБУ «Агентство инноваций Москвы» ИНН 7703770430 erid: 2SDnjeeV8rV
Эппле хвастается бенчмарками. Как они побивают gpt-3.5-turbo-0125, gpt-4-0125-preview, Phi-3-mini-4k-instruct, Mistral-7B-Instruct-v0.2, Mixtral-8x22B-Instruct-v0.1, Gemma-1.1-2B и Gemma-1.1-7B.
Обратите внимание на версии.
А теперь вишенка:
Модели с открытым исходным кодом и Apple оцениваются с точностью bfloat16
А на девайсах крутятся квантизированные модели 4-бит.
Умеет Эппле сравнивать, ничего не скажешь.
P.S. Чтобы сохранить качество модели, мы разработали новый фреймворк с использованием адаптеров LoRA, который включает смешанную 2- и 4-битную стратегию конфигурации - в среднем 3,5 бита на вес - для достижения той же точности, что и несжатые модели.
P.S. "Чтобы сохранить качество модели, мы разработали новый фреймворк с использованием адаптеров LoRA, который включает смешанную 2- и 4-битную стратегию конфигурации - в среднем 3,5 бита на вес - для достижения той же точности, что и несжатые модели."
Верим на слово?
https://machinelearning.apple.com/research/introducing-apple-foundation-models
По следам вчерашней презентации от Эппле.
Все вопрошают, а что за модель, сколько параметров, на устройстве или нет.
Давайте разбираться.
Забираем все подробности отсюда:
https://machinelearning.apple.com/research/introducing-apple-foundation-models
Количество параметров для On-Device Foundation Model - 3B.
Про серверные модели читайте по ссылке, сейчас интересно разобраться, что происходит на девайсе (с батарейкой в том числе).
Локальных базовых моделей, которые крутятся на телефоне (и ноуте) несколько, это зафайнтюненные модели под конкретные задачи. И там, похоже, подход, напоминающий Mixture of Experts. Есть маршрутизация запросов пользователя в нужную базовую модельку.
Более того, там есть Лоры, которые Эппле зовет адаптерами. Они позволяют еще точнее подбирать оптимальный ответ на запросы пользователя.
А чтобы все это хозяйство влезало в память, используется компрессия и квантизация с 16 бит до 4 бит. Обещают, что модель не тупеет сильно. При этом там динамическая выгрузка из памяти ненужной модели и загрузка требуемой в данный момент.
В общем как-то так: несколько файнтюнов базовой модели плюс Лоры плюс квантизация в 4 бита.
И все то же самое для диффузионной модели для картинок. Не уверен за файнтюны, но там точно три Лоры для иллюстрации, картуна и скетча. И Квантизация в 4 бита - так что генерация картинок точно крутится на девайсе (измеряем температуру в тестах). Подозреваю, что фоториал и лица были выкорчеваны с корнем из датасетов, а лоры добивают картинку до безопасно-пресной.
На вопрос, когда языковая модель крутится на девайсе, а когда лезет в ИИ-облако Эппле нет ответа. Говорят, что происходит "оркестрация запроса" и маршрутизатор запросов сам решает, куда направлять задачу.
Но мне вот интересно, как происходит оркестрация промптов в Сири - когда она решает покреативить сама, а когда бежит за помощью к Большому Брату - chatGPT?
И тут точно огромная дыра в безопасности. Просто прямой текстовый незашифрованный канал для слива информации о той самой персонализации, так превозносимой на презентации.
И Маск не зря возбухает, обещая запретить ифончики в компании, если этот вопрос не будет прояснен до конца.
Пока все, ждем от Эппле нарциссических бенчмарков их LLM и джейлбрейков Сири - народ скоро займется любимым делом.
ХОД КОНЕМ!!!
Сири может вызывать chatGPT!!!
БЕСПЛАТНО, без аккаунта openAI
Но можно и с аккаунтом, тогда больше фич
Image Playgound - три стиля, и говорят все НА ДЕВАЙСЕ
Читать полностью…Идеальная реализация Рерайтинга и Саммарайзинга. Неясно за качество но UX просто идеальный
Читать полностью…Сири может орудовать внутри приложений. Можно сказать "возьми фотку вот оттуда и вставь ее в сообщение". Голосовое управление операционкой
Читать полностью…Персональный контекст. Помнит все из разных приложений
Читать полностью…Ребята, не надо про новый калькулятор. Давайте про новую Сири.
Читать полностью…IOS 18.
Восторженным поклонникам ифонов показывают кастомизацию иконок и control center, которая уже живет на андроеде годами. Все в восторге.
Ну что посмотрим на яблочный интеллект?
https://www.youtube.com/watch?v=RXeOiIDNNek
Следи за лицом! - Follow-Your-Emoji
Вот еще одна работа в копилку нейроаватаров.
Напоминаю, что лучшие у нас пока EMO от Алибабы и VASA от Микрософтика. Но кода от них не дождешься.
Недавно писал про V-Express от Тикточека, и это решение уже с кодом.
А тут появилась еще одна работа, с акцентом на анимацию эмоций, а не только липсинк. Там даже есть преувеличенные гримасы в духе Снапчата и работает это даже на животных. И посмотрите до конца, там уже есть Сэм Альтман, куда без него.
И похоже пишет все это в одно лицо(мозг?) аспирант гонконгского университета, которые работает в Тиктоке. Забавно, что в качестве твиттора или демо везде указан его Гитхаб:
https://github.com/mayuelala
Поглядите, он накропал уже десяток решений, некоторые с кодом, некоторые без. Очень жду обновления Follow Your Pose.
Код Follow-Your-Emoji он обещает выложить, и на поляне нейроаватаров появится больше опен-сорсных решений.
Поглядите на проект, выглядит достойно. И теперь у нас есть EmojiBench - бенчмарк по нейроаватарам!
https://follow-your-emoji.github.io/
Оказывается в Krea на максимальном плане есть Video Upscaler. И он просто огненный.
Я тут поглядел как люди разгоняют видео из Клинга в 4K и за Топаз можно начать чокаться.
А пока для вам пара примеров.
Анимация девочки это https://github.com/fofr, разогнанный в Krea Video Upscaler.
И за аниматоров как-то не по себе.
Второй ролик это вообще захват экрана в Dreams на PS5, то есть голимый виарчик превращается в прельстивый метаверсик.
Есть минус, Krea Max - стоит 60 баксов в месяц. Пока.
Про обучение LLMок и яндексовый опенсорс
Недавно постил вот такую картинку. Если поразмышлять, то вообще-то говоря, стоимость сильно зависит от географии. Железки и электричество стоят везде по-разному. А экономить можно ещё и на софте и оптимизациях.
То, что сегодня яндекс опенсорснул свою библиотеку YaFSDP, интересное событие с точки зрения новой эры в обучении моделей.
Основное из их новости:
– яндекс пишет, что решение позволяет ускорить до 25% обучение LLM с открытым исходным кодом
– обещают, что с YaFSDP экономия памяти GPU может достигать 20%
– ну и показывают результаты теста библиотеки на сторонних нейросетях (на примере модели LLaMA 2 этап предварительного обучения на 1024 графических процессорах сократился бы с 66 до 53 дней)
– исходный код уже есть на GitHub, посмотреть подробности замеров можно в репозитории GitHub, а почитать про разработку библиотеки — на Хабре.
Коллеги посчитали, реально ли с помощью решения можно сэкономить от $0.5M за месяц обучения модели, и соорудили формулу.
Стоимость аренды GPU в час * количество часов * количество дней * количество GPU * (коэффициент на сколько оптимизируем ресурсы) = экономия
Ну и проверили экономию на примере Google Cloud и Fluidstack:
Считаем у Гугла, параметры выходят такие:
1) 1312 H100
2) Месяц обучения
3) Цена за GPU: $3.98/h
4) Экономия 20% ресурсов
Общая экономия в месяц: 3.92*30*1312*(0.2/1.2)*24 = $601 тыс
Теперь у FluidStack:
1) 1312 H100
2) Месяц обучения
3) Цена за GPU: $3.75/h
4) Экономия 20% ресурсов
Общая экономия в месяц: 3.75*30*1312*(0.2/1.2)*24 = $566 тыс
Это я к чему: YaFSDP надо детальнее изучать, но возможно она будет полезна тем, кто не может позволить себе ацкого железа и для тех, кто использует ГПУ в облаке. А оптимизация идёт за счёт софта.
L-MAGIC: Language Model Assisted Generation of Images with Coherence
Генератор 360-градусных панорам от Intel Labs. Под капотом LLM для составления промпта.
На вход умеет принимать разные исходные данные: картинка, набросок, текстовое описание
Код
Демо ждем
#image2panorama #sketch2image #sketch2panorama #text2panorama
Хех, пост про Хомяков приподразорвал коменты. Наверное надо мне реанимировать мой семилетний пост про "биточки с гречкой".
А я вот принес вам пример метаверсика, в котором нет крипты, в котором юзеры не скучают, и в котором есть что поделать (что для метаверсиков - чудо).
В общем это Котоверс. И это просто убойная VR-игра.
Никакой фетишизации реалистичности, никакого воздыхания над погружением, а просто взыскание к желанию взрослых детей нашкодить, напакостить, извести ближнего своего, особенно учительницу или директора школы.
Сделано с таким задором, что я еще раз убеждаюсь, в любом метаверсике: механика - всё, антураж - ничто (наскучивает моментально). Представьте, что вам надо внести как можно больше хаоса в метаверсик: и тут вам вручают мерзавца кота, который роняет горшки, бьет посуду, жрет рыбок в аквариуме и изводит хозяйку. Чем больше извел, тем выше результат. Сдается мне, хороший тренажер для релиза детских психотравм.
А Вова Закоулов, с которым мы тусуем на Кипре, рассказал, что это сделали беларусы, сидящие на Кипре. У него, кстати, отличный разбор игры, не с точки зрения метаверсика, а с точки зрения денег и успеха: почему они выстрелили и причем тут Meta App Lab.
Все ссылки на игру и видосы вот тут, а я сижу ржу и болею за кота.
Итого, "когда-то этим летом, только для iPhone 15 и маков с M1 и выше"
Генерация картинок прямо на девайсе, очень цензурировано, только три стиля - скетч, иллюстрация, анимация. Все очень иконочное.
Вызов chatGPT в Сири - бомба.
Интеграция LLM-ки (какой?) в приложения - идеальна.
Поиск в видосах. Текстом!
Более того, говоришь - собери видео из моих фоток на тему "мы с корешами чиллим". И он собирает. Ну за стартапы
Генмоджи. Генерация эмоджи когда не можете найти нужную.
Читать полностью…Это мы уже видели с chatGPT. Но Сири вроде умеет заполнять формы
Читать полностью…Можно чатиться с новой Сири текстом. Что за модель внутри не говорят
Читать полностью…Генерация картинок - стили скетч, анимационный и еще какой-то
Читать полностью…Сафари, как обычно, самый быстрый браузер в мире. По мнению Эппле.
Однако впервые прозвучало выражение Машин Лернинг!
Сафари, типа анализирует, что вы там быстро браузите и подсовывает вам минисаммари.
А вот это интересно! Когда нет вайфая и мобильного интернета.
Читать полностью…Начали с лыжной маски.
Vision OS 2 - новый просмотр фотачек, совместный просмотр фотачек, просмотр кино в самолете, коллаборация с BlackMagic и Canon по стереокамерам.
Ну то есть упор на просмотр фотачек и видео. Никаких киллер аппов не показали.
Если вы любите пытаться сломать защиту в разных LLM с помощью промпт инъекций – то у меня вам полезная ссылка, датасет из почти ~1500 промпт инъекций собранных с Reddit, Discord, Twitter и тп.
https://github.com/verazuo/jailbreak_llms
Внутри промпты и для старых инъекций, вроде DAN, до более новых с base64, leet code и тп.
Следующий шаг, это натренировать на этом модель, которая будет ломать другие модели автоматом ☕️