🔍 MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions
MagicLens: новое семейство моделей для поиска изображений от Google.
Они обучены на 36,7 млн высококачественных триплетов (исходное изображение, запрос, целевое изображение)с богатыми семантическими связями.
Самое интересное, что MagicLens превосходят предыдущую SOTA на 10 различных бенчмарках по поиску изображений, при этом сами модели в 50 раз меньше.
▪Project: https://open-vision-language.github.io/MagicLens/
▪Paper: https://arxiv.org/abs/2403.19651
▪HF: https://huggingface.co/papers/2403.19651
@ai_machinelearning_big_data
👱 Arc2Face: A Foundation Model of Human Faces
TL; DR: крупный датасет изображений лиц в высоком разрешении, а также обученная на его основе модель генерации лиц , которая:
▪способна создавать фотореалистичные генерации за несколько секунд
▪обеспечивает полное сходство генераций с целевым изображением по сравнению с другими существующими моделями
▪построена на основе Stable Diffusion и может быть настроена для любых вариантов генераций, например, различных поз / выражений лица и тд.
▪Github: https://github.com/foivospar/Arc2Face
▪Project: https://arc2face.github.io
▪Demo: https://huggingface.co/spaces/FoivosPar/Arc2Face
▪Paper: https://arxiv.org/abs/2403.11641
@ai_machinelearning_big_data
▶️Учёные создали пластырь, восстанавливающий речь при помощи ML
⏩Биоинженеры Калифорнийского университета в Лос-Анджелесе разработали клейкий пластырь на шею для людей с ограниченными возможностями. Открытие поможет пациентам с нарушениями голоса, а также людям с диагностированным раком гортани.
⏩Авторы исследования создали тонкое и эластичное устройство в виде пластыря размером 30х30 мм. Для работы оно крепится на кожу рядом с горлом, чтобы дать людям возможность говорить при проблемах с голосовыми связками и диагностированными заболеваниями.
⏩Система фиксирует движения мышц гортани и переводит эти сигналы в слышимую речь с использованием машинного обучения. Технология считывает работу мышц с точностью до 95%. Гаджет весит семь граммов, а его толщина составляет всего 1,5 мм. Пластырь крепится к горлу на двустороннюю биосовместимую ленту.
⏩Разработку можно использовать повторно. При масштабировании технология поможет восстановить голос пациентам с дисфункциональными голосовыми связками.
@ai_machinelearning_big_data
🌟 NVIDIA анонсировала ИИ-медсестёр для помощи в больницах
⏩Производитель видеочипов объявил о сотрудничестве с Hippocratic AI, специализирующейся на разработках искусственного интеллекта. Компания презентовала виртуальных медсестёр для снижения нагрузки на медицинских работников в здравоохранительной сфере.
⏩По словам компании-партнёра Hippocratic AI, языковые модели — единственный масштабируемый способ, позволяющий устранить разрыв между спросом пациентов и возможностями больниц, столкнувшихся с дефицитом кадров. Новые роботы-медсёстры обходятся медицинским учреждениям всего в 9 долларов в час — это ниже, чем минимальная почасовая оплата труда в США и ниже средней почасовой оплаты труда дипломированных медсестёр.
⏩В новом ролике NVIDIA показала возможный разговор между пациентом и искусственным интеллектом после операции. Виртуальный медработник даёт советы по реабилитационному периоду и отвечает на вопросы о том, безопасны ли определённые антибиотики в лечении.
⏩Hippocratic AI привлекла инвестиции в размере 53 миллионов долларов от General Catalyst и Premji Invest. Общий бюджет проекта оценивается в 500 миллионов долларов. Разработка может решить проблему растущей нехватки кадров в медицинской сфере.
📎 Youtube
@ai_machinelearning_big_data
🔥 Microsoft разработала систему для выявления галлюцинаций в ИИ-приложениях клиентов
⏩Директор по продуктам Microsoft по ответственному ИИ Сара Бёрд рассказала, что её команда разработала несколько новых функций безопасности для клиентов Azure, которые позволят выявлять галлюцинации в работе служб искусственного интеллекта.
⏩Эти инструменты на базе больших языковых моделей могут обнаруживать потенциальные уязвимости, отслеживать галлюцинации, «которые правдоподобны, но не поддерживаются», и блокировать вредоносные запросы в режиме реального времени для клиентов Azure AI, работающих с любой моделью, размещённой на платформе.
⏩Одна из функций будет блокировать вредоносные подсказки из внешних документов, которые провоцируют модели отойти от инструкций. Другая будет оценивать безопасность, в том числе уязвимости модели.
⏩Скоро появятся две другие функции, позволяющие направлять модели к безопасным выводам и отслеживать подсказки для выявления потенциально проблемных пользователей. Независимо от того, вводит ли пользователь подсказку или модель обрабатывает сторонние данные, система мониторинга оценит её, чтобы определить, содержит ли она какие-либо запрещённые слова. После этого система просматривает ответ модели и проверяет, не галлюцинировала ли она.
📎 Подробнее
@ai_machinelearning_big_data
GIGA R&D Day — конференция по R&D и нейросетям от SberDevices
📍5 апреля | 12:00 | онлайн и офлайн в Москве
Будем изучать LLM и CV, распознавать жесты, генерировать вокал и 3D-модели, общаться с книгами и путешествовать по VR-галереи.
В программе — 3 секции и 13 выступлений.
📝 LLM+NLP: эксперименты в GigaChat, реализация поиска со ссылками на источники, ранжирование и бенчмарки моделей, ранжирование ответов и mGPT для языков малых народов.
👁 Computer Vision: распознавание языка жестов, генерация и реконструкция 3D-моделей, поиск самых интересных сцен в видео.
🎼Нейрозвук: архитектура синтеза речи, управление тоном и артикуляцией, генерация вокала и пения с аккомпанементом.
Также вас ждет дискуссия о ближайших перспективах ИИ и демо-стенды, где можно будет попробовать технологии SberDevices.
Для участия необходимо зарегистрироваться.
Реклама. ПАО Сбербанк. ИНН 7707083893
🔥Unbounded 3D City Generation🔥
🏙️ CityDreamer 🏙️ композиционная генеративная модель для создания полноценных 3D-городов.
▪ Project: https://infinitescript.com/project/city-dreamer/
▪Code: https://github.com/hzxie/CityDreamer
▪Demo: https://huggingface.co/spaces/hzxie/
@ai_machinelearning_big_data
⚡️ DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing
Microsoft представляет DesignEd it!
Это метод редактирования изображений, который позволяет удалять объекты, менять местами предметы, перемещать их, изменять размер, добавлять и переворачивать несколько объектов, делать панорамы и масштабировать изображения, удалять объекты с изображений.
▪Github: https://github.com/design-edit/DesignEdit.git
▪Paper: https://arxiv.org/abs/2403.14487
▪Project: https://design-edit.github.io/
@ai_machinelearning_big_data
4 апреля в 18:00 на ютуб-канале AvitoTech пройдет собеседование на позицию аналитика в Авито, где вы сможете отвечать на вопросы интервьюера и задавать свои.
Вас ждут реальные задачи и кейсы, развернутый фидбек – всё то, что поможет подготовиться к важному этапу. Не упустите возможность узнать больше о том, как пройти интервью!
А 6, 7 апреля для самых смелых аналитиков пройдет Weekend Offer в Авито. Оставляйте заявку – готовьтесь быть на высоте! 🚀
У VK есть VK Cloud — безопасная платформа для разработки и работы с данными
Любая компания может повысить безопасность и надежность своего приложения, разместив его в VK Cloud. Или же вообще разработать ПО с нуля, используя преднастроенные облачные сервисы.
🔹 Все, что нужно для разработки: виртуальные машины, базы данных, Kubernetes, S3-хранилище, бэкапы, решения для машинного обучения и работы с Big Data.
🔹 Аудит, миграция, мониторинг и другие лучшие практики VK от команды опытных инженеров.
🔹 Комплексная защита веб-сервисов от атак и взломов.
Зарегистрируйтесь в VK Cloud и получите 3 000 ₽ для тестирования облачных сервисов в течение 60 дней!
🚀 Lumiere - это модель пространственно-временной диффузии от Google Research.
Используя одно эталонное изображение, Lumiere может создавать видеоролики в нужном вам стиле, используя точно настроенные веса модели преобразования текста в изображение.
▪Узнайте больше о Lumiere → https://lumiere-video.github.io/?utm_source=social
▪Video: https://www.youtube.com/watch?v=wxLr02Dz2Sc&t=2s
▪Paper: https://arxiv.org/abs/2401.12945
@ai_machinelearning_big_data
🌍 𝗠𝗮𝗷𝗼𝗿 𝗧𝗢𝗠: 𝗣𝗹𝗮𝗻𝗲𝘁 𝗘𝗮𝗿𝘁𝗵 𝗶𝘀 𝗯̶𝗹̶𝘂̶𝗲̶ 𝟱.𝟰𝟬𝟱 𝗚𝗛𝘇
MajorTom-Core-S1RTC новый стандарт изображений со спутников и датасет, который содержит 1 469 955 снимков.
16 ТБ радиометрически откалиброванных изображений.
▪HF: https://huggingface.co/Major-TOM
▪Github: https://github.com/ESA-PhiLab/Major-TOM/
▪Colab: https://colab.research.google.com/github/ESA-PhiLab/Major-TOM/blob/main/03-Filtering-in-Colab.ipynb
▪Paper: https://www.arxiv.org/abs/2402.12095
▪MajorTOM-Core-Viewer: https://huggingface.co/spaces/Major-TOM/MajorTOM-Core-Viewer
@ai_machinelearning_big_data
📢 Совет для всех, кто работает с данными и увлекается машинным обучением.
📚 Ищите что почитать про данные, диджитал и технологии в Telegram?
LEFT JOIN — это маст-хэв медиа о технологиях и данных, где вы найдете самую актуальную информацию о:
🔵 Применение AI-моделей практически во всех областях работы и жизни,
🔵 Фишках SQL и работу с базами данных,
🔵 Стартапы, основанные на нейронных сетях, которые заслуживают не меньшего внимания, чем ChatGPT,
🔵 Как нейронные сети могут упростить работу аналитика данных.
🎙️ Авторы этого канала этой весной запускают четвертый сезон подкаста "Data Heroes" — честные беседы с настоящими супергероями, чья сила в данных. Если вы еще не слушали первые три сезона, то скорее наверстывайте упущенное, это реальный кладезь знаний...
🔜 Подписывайтесь на @leftjoin для увлекательного контента о данных, технологиях и AI! 🚀
🔝 Где искать работу аналитику данных в различные направления DS,SQL, Аналитики и ML
Подборка с каналами, где можно найти вакансии или подработку:
▪Data Jobs
▪Data engineering/SQL
▪Python Jobs
▪Папка с вакансиями по различным направлениям
▪Аналитика данных
▪Машинное обучение полная папка
🔎 Полный ресурсов для поиска работы аналитику данных.
@sqlhub
Уникальный сервер для любых задач в Амстердаме за 2$ в месяц
1 Gb RAM / 1 core CPU / 10 Gb NVMe - 2$ в месяц
https://www.vdsina.com/ru/pricing/standard
- Уникальная фиксированная цена в долларах США, которая не будет меняться
- Компания зарегистрирована в Дубае
- Оплата с рублёвой карты, криптой, иностранной картой через Stripe
- Готовые шаблоны с Outline, WireGuard, IPsec
- Подключение к сети интернет — 10 Гбит/сек
- Доступны все популярные сайты, включая ChatGPT, Netflix
Почему я должен верить компании? VDSina работает с 2014 года и сейчас обслуживает более 40 000 серверов. Сомневаетесь? Вот чат в телеграме — задавайте вопросы другим пользователям: /channel/vdsina
erid: 2VtzqwEU6vg
Реклама, ИП Краснов Сергей Владимирович ИНН: 911104107858
Факультет компьютерных наук НИУ ВШЭ расширяет сотрудничество с Яндексом для подготовки специалистов по ИИ и ML.
ФКН был основан ВШЭ совместно с Яндексом 10 лет назад. За время своего существования он стал одним из лидеров в подготовке разработчиков и специалистов по ИИ и ML, выпустив более 3 000 человек,
В следующие 10 лет Яндекс и ВШЭ:
- Увеличат количество выпускников факультета по программам Яндекса в 4 раза
- Откроют магистратуру по ИИ в маркетинге и продукте
- Создадут направления по генеративным технологиям на магистерской программе "Современные компьютерные науки"
- Запустят студенческий кемп по машинному обучению
Обратите внимание, если планируете стать студентом — ВШЭ занимает второе место среди российских университетов по количеству публикаций на конференциях A*.
▪Подробнее
@ai_machinelearning_big_data
Обновление платформы YTsaurus
В новой версии YTsaurus Server 23.2.0 оптимизировали подсистему обработки данных, добавили OAuth‑аутентификацию и расширили возможности языка запросов динамических таблиц. Плюсом — еще несколько обновлений других частей платформы.
Подробности — в блоге.
@ai_machinelearning_big_data
Весь опыт Data Science – в одном месте. Data Fusion в четвертый раз соберет DS-экспертов для диалога на кросс-индустриальной площадке. Конференция пройдет 17-18 апреля в Москве. Регистрация уже открыта: https://tglink.io/cbb527173dc0
Data Fusion 2024 – главное событие весны в области анализа больших данных и технологий ИИ. Исследованиям и практике посвящен первый день конференции.
– Известные ученые и эксперты по Data Science расскажут о трендах в различных направлениях машинного обучения и технологиях ИИ.
– Желающие еще глубже погрузиться в сферу искусственного интеллекта смогут посетить трек ML+, посвященный использованию машинного обучения на стыке с физикой, медициной и фармакологией и другими науками.
Второй день мероприятия будет посвящены бизнесу и стратегии.
В этом году конференция Data Fusion пройдет в московском технологическом кластере «Ломоносов». Регистрация здесь: https://tglink.io/cbb527173dc0
🔥 Для модели Voice Engine от OpenAI требуется всего лишь 15-секундный образец для клонирования голоса
⏩Для модели Voice Engine от OpenAI требуется всего лишь 15-секундный образец для клонирования голоса
⏩OpenAI предложила ограниченный доступ к платформе преобразования текста в голос Voice Engine, которой достаточно 15-секундного образца для клонирования голоса. Сгенерированный искусственным интеллектом голос способен по команде зачитывать текстовые подсказки на языке исходника или других языках.
⏩Одними из первых доступ к Voice Engine получили компания в сфере образовательных технологий Age of Learning, платформа визуального повествования HeyGen, ведущий производитель программного обеспечения для здравоохранения Dimagi, разработчик коммуникационных приложений на базе ИИ Livox и система здравоохранения Lifespan.
⏩В OpenAI поделились, что разработка Voice Engine стартовала в конце 2022 года. Технология уже поддерживает предустановленные голоса для API преобразования текста в речь и функции чтения вслух ChatGPT.
⏩Член команды разработчиков Voice Engine Джефф Харрис рассказал, что модель обучили на «сочетании лицензированных и общедоступных данных». OpenAI уточнила, что модель будет доступна примерно 10 разработчикам.
⏩Генерация текста в аудио при помощи ИИ — развивающаяся область. Большинство моделей генеративного ИИ сосредоточены на инструментальных или естественных звуках. Компании Podcastle и ElevenLabs представили свои технологии клонирования голоса, использующие нейросети.
⏩Одновременно с этим правительство США стремится ограничить неэтичное использование голосовых технологий ИИ. В прошлом месяц Федеральная комиссия по связи США запретила звонки с использованием сгенерированных ИИ голосов, поскольку ранее несколько абонентов получили спам-звонки с клонированным голосом американского президента Джо Байдена.
@ai_machinelearning_big_data
🔥 Хотите добавить в резюме компетенции Spark-разработчика?
Приходите на бесплатный практический урок «Spark Connect — что это такое и зачем оно нужно» от OTUS. Спикер Вадим Заигрин — Team Lead команд инженеров данных.
В Spark 3.4.0 появился Spark Connect. На вебинаре мы разберем, что это такое, какие задачи он решает и как его использовать.
📌 Встречаемся 4 апреля в 20:00 мск в рамках курса «Spark Developer». Доступна рассрочка на обучение!
💣 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок и получить запись: https://otus.pw/MZRO/?erid=LjN8KWKZk
🌟 Claude 3 Opus сбросила GPT-4 с первого места в рейтинге языковых моделей
⏩Большая языковая модель (LLM) Claude 3 Opus от Anthropic впервые превзошла GPT-4 (модель в основе ChatGPT) от OpenAI на Chatbot Arena — популярной площадке, где пользователи оценивают качество работы чат-ботов. «Король мёртв», — написал в социальной сети X разработчик ПО Ник Добос.
⏩Зашедшим на сайт пользователям Chatbot Arena предлагается ввести запрос, после чего демонстрируются два результата от неуказанных языковых моделей — человек должен выбрать, какой результат нравится больше. Проведя тысячи сравнений, Chatbot Arena заполняет обновляемую рейтинговую таблицу. Сайт управляется исследовательской организацией Large Model Systems Organization (LMSYS ORG), занимающейся открытыми ИИ-моделями.
⏩ «Впервые на вершине рейтинга ИИ-модели не от OpenAI: Opus для сложных задач, Haiku — для вариантов, когда нужно дёшево и быстро. Это обнадёживает — от конкуренции разработчиков все только выиграют. Тем не менее, GPT-4 уже больше года, и конкуренты догнали её только сейчас», — прокомментировал событие независимый исследователь ИИ Саймон Уиллисон (Simon Willison).
@machinelearning_interview
☕️ Самые интересные доклады с YaTalks — уже на Яндекс Музыке!
Стартовал новый сезон YaTalks: ReRun — подкаст избранных докладов с самой большой технологической конференции Яндекса. Мы собрали их в Техномарафон — совместный спецпроект с командой Яндекс Музыки. Техномарафон будет идти 3 недели, а всего вас ждёт 28 выпусков.
На Техномарафоне расскажем, как создавать меняющие мир технологии, не отставать от быстрого развития индустрии и управлять командами опытных, независимых и творческих инженеров. Например:
🔴 Ускоритель в масштабе планеты: как инженеры управляют временем
🔴 Дебаты: AI недооценён или переоценён?
🔴 Человек и проект: как создаётся технологическое чудо
🔴 Свой среди чужих: как выжить в интернациональных командах?
Добавляйте Техномарафон в избранное на Яндекс Музыке — скоро выложим ещё много крутых выступлений!
🌟 ИИ применили для восстановления утраченного полотна Веласкеса
⏩В Испании художник-реставратор Фернандо Санчес Кастильо с помощью нейросети смог воссоздать утраченную при пожаре картину «Изгнание морисков» Веласкеса. Для обучения ИИ он использовал эскиз полотна и описания современников художника.
⏩Веласкес создал «Изгнание морисков» в 1627 году по заказу короля Филиппа IV. Картина изображала изгнание из Испании 300 тысяч перешедших в католичество мусульман из-за возможного предательства. В 1734 году картина была утрачена при пожаре.
⏩ИИ сгенерировал видео продолжительностью чуть более четырёх минут, которое вначале демонстрирует повреждения полотна, но затем постепенно реконструирует его. Этот ролик использовали для воссоздания холста размером 335х274 см. Также художники применили последнюю версию Adobe Photoshop с функциями ИИ. В частности, они использовали «генеративную заливку», чтобы незаметно объединить разные изображения.
⏩Работа заняла более ста часов. Как отмечает Кастильо, 80% работы соответствует «художественному творчеству», а 20% принадлежит ИИ.
@ai_machinelearning_big_data
🔥 Яндекс представил третье поколение больших языковых моделей YandexGPT
YandexGPT 3 Pro, первая нейросетка линейки, уже появилась на Yandex Cloud. Её можно встроить через API, а перед этим, например, самостоятельно дообучить в сервисе ML-разработки Yandex DataSphere под конкретные задачи бизнеса.
Стоимость использования новой нейросети снизилась почти в два раза. Перед интеграцией в свои продукты у бизнеса есть возможность протестировать модель в отдельном чате на ограниченном количестве запросов. Для новых пользователей бесплатно доступно 100 запросов.
Языковая модель лучше понимает и держит контекст беседы, допускает меньше стилистических и фактических ошибок, а ещё теперь умеет представлять данные в формате JSON (JavaScript Object Notation).
@ai_machinelearning_big_data
⚡️ DBRX, a groundbreaking open-source Large Language Model (LLM) with a staggering 132 billion parameters.
Компания Databricks только что представила DBRX, новую модель большого языка с открытым исходным кодом (LM) с ошеломляющими 132 миллиардами параметров.
Модель превосходит все открытые модели на большинстве бенчмарков.
Вот что вам нужно знать 👇
• DBRX - это новая бесплатная модель искусственного интеллекта с 132 миллиардами параметров.
•Может обрабатывать до 32 000 токенов одновременно.
•Обучен на 12 триллионах токенов.
•Точное следование инструкциям.
•С открытым исходным кодом на GitHub.
•Интегрирован с HuggingFace.
•Оптимизирован для систем NVIDIA.
•Расширенная настройка с поддержкой Docker.
▪Github: https://github.com/databricks/dbrx
▪HF: https://huggingface.co/databricks/dbrx-base
▪Demo: https://huggingface.co/spaces/databricks/dbrx-instruct
▪Docs: https://docs.databricks.com/en/machine-learning/foundation-models/index.html
@ai_machinelearning_big_data
Узнай первым о GitVerse – платформе для работы с исходным кодом
29 марта в 10:00 на онлайн-презентации «GitVerse: открой вселенную кода» СберТех расскажет о новой функциональности GitVerse. Он представит дорожную карту развития и анонсирует инструменты для повышения продуктивности разработчиков.
GitVerse – полностью российский сервис, который позволяет бесплатно создавать проекты с открытым и закрытым кодом, приглашать новых участников и общаться с единомышленниками в ИТ-сообществе.
О чем узнают гости мероприятия:
· Тренды разработки и роль открытого ПО в современном ИТ
· Возможности GitVerse и планы развития
· GigaCode – AI-помощник разработчика (AI, artificial intelligence — искусственный интеллект)
· Участие комьюнити в проекте
· Пакет облачных сервисов и его преимущества для разработчиков
· Обзор интересных репозиториев на GitVerse
· Реальные кейсы разработки и оптимизации с помощью GitVerse
· Общение в прямом эфире
Регистрируйся прямо сейчас.
Ждем тебя на мероприятии!
☕️ Latte: Latent Diffusion Transformer for Video Generation
Новый трансформер скрытой диффузии Latte, для генерации видео.
Latte сначала извлекает пространственно-временные маркеры из входных видео, а затем использует серию блоков-трансформеров для генерации видео в скрытом пространстве.
▪Github
▪Project
▪Paper
@ai_machinelearning_big_data
🌊 LaVague: automate automation with Large Action Model framework
Модель для генерации selenium скриптов для автоматизации интернет-серфинга, действий на сайтах и парсинга🔥
▪Github: https://github.com/lavague-ai/LaVague
▪Docs: https://docs.lavague.ai/en/latest/docs/
▪Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-
started/quick-tour.ipynb
@ai_machinelearning_big_data
🔥 OpenAI готовит революцию в голосовом взаимодействии с техникой
⏩Как стало известно, компания OpenAI не только работает над следующей версией фирменной языковой модели GPT, но и готовит к релизу продвинутый голосовой движок Voice Engine. На запуск нового проекта ранее намекал и Сэм Альтман, глава OpenAI.
⏩Предполагается, что голосовой движок от OpenAI перевернёт представление о взаимодействии с техникой, поскольку он будет понимать человеческую речь так же хорошо, как и другой человек. Это позволит объяснять задачу естественным способом и разными словами, а не конкретными запрограммированными фразами и командами.
⏩Более того, этот голосовой движок потенциально сможет генерировать речь, неотличимую от человеческой. Бывший сотрудник OpenAI Андрей Карпати не исключает появление виртуальных помощников, напоминающих «Джарвиса». Есть даже слухи, что OpenAI готовит какой-то физический продукт с использованием этого движка. Несложно также представить его появление в человекоподобных роботах, как уже было с чат-ботом ChatGPT.
⏩Позже в этом году OpenAI также планирует выпустить нейросеть для генерации реалистичных видео Sora.
@ai_machinelearning_big_data
🔥 В MIT придумали, как в 30 раз ускорить генерацию изображений с помощью ИИ
⏩Исследователи из Массачусетского технологического института (MIT) смогли заметно ускорить создание изображений по текстовым описаниям с помощью генеративного искусственного интеллекта. Новый метод позволяет генерировать изображения высокой чёткости в 30 раз быстрее существующих.
⏩Обычно в генеративных ИИ применяется техника так называемой «диффузии», когда создаётся максимально размытая картинка, а затем она детализируется до окончательного результата, максимально соответствующего тому, что ИИ может выдать в ответ на запрос пользователя. Диффузия занимает довольно много времени, поэтому исследователи MIT поставили цель её ускорить.
⏩Исследователи из Лаборатории компьютерных наук и искусственного интеллекта MIT свели генерацию изображений к единственному проходу, а новый метод назвали «дистилляцией с согласованным распределением» (distribution matching distillation). Очевидно, что генерация картинки в один проход заметно быстрее, чем за типичные для диффузионных моделей 30–50 шагов. Так, на современном оборудовании Stable Diffusion 1.5 создаёт изображение за 1,5 секунды, в то время как новая модель на основе DMD справляется за 0,05 секунды.
⏩Это не первая попытка дистилляции диффузионных моделей для ускорения генерации изображений. В Instaflow и LCM пытались применить похожий подход, но результаты не впечатляли. Компания Stability AI также пыталась ускорить диффузионные модели и добилась некоторых успехов, выпустив Stable Diffusion Turbo, создающую картинку с разрешением до 1 мегапикселя за один проход, однако сгенерированные в несколько проходов изображения всё равно получались заметно лучше.
@ai_machinelearning_big_data