Обзор стартап-возможностей. @vladimir_zakoulov - здесь разбор полётов.
Революция Text-to-Image
#ML
Технология генерации изображений из текста развивается стремительно. Мы уже писали про DALL-E и GLIDE от OpenAI, но за последние месяцы появилось много других впечатляющих моделей: Google выпустили Imagen, Meta — Make-A-Scene, Microsoft — NUWA.
Повестку задают не только крупные ИИ-лаборатории корпораций. Стартапы тоже активно заходят в text-to-image и зачастую бьют больших игроков по качеству и скорости генерации. Можно отметить 2 свежих проекта:
- Stable Diffusion на днях открыли бету для всех желающих. В отличие от OpenAI (который далеко не Open), Stable Diffusion заточен на создание своих сервисов — код открыт, веса обещают выложить уже на этой неделе. При этом качество генерации сопоставимо с DALL-E 2. Скоро обещают сделать удобный Inpainting — можно будет брать любые изображения и изменять, соединять, расширять их. В будущем планируют раскатить функционал и на видео.
- MidJourney также недавно стал доступен всем желающим. Генерация происходит через сервер в Дискорде, который набрал уже почти миллион участников. Можно подключить их бота и на своём сервере.
Генерация изображений — это только первый этап. Далее наступит эра синтеза 3D-моделей. Snap на днях представили технологию NeROIC — это новый способ создания трёхмерных моделей для AR из общедоступных фотографий и видео. Нейронка сама додумывает недостающие виды изображения и синтезирует 3D-модель.
А в будущем придёт и генерация видео. Тут релизом отличились Apple: они представили нейронку для создания 3D-сцен по текстовому описанию GAUDI. Качество пока довольно низкое и много артефактов, но фундамент для генерации виртуальных миров заложен.
Комментарии под этим постом предлагаем использовать для поиска соратников. Если у вас есть идея продукта/сервиса/фичи на базе text2image-технологии, опубликуйте тизер в комментах. Трендоскоп читают сотни ML-разработчиков — вполне вероятно, что кого-то из них вы вдохновите написать вам с предложением о коллаборации :)