Обзор стартап-возможностей. @vladimir_zakoulov - здесь разбор полётов.
Расцвет AI-инженера
Hacker News и tech-твиттер последние недели активно обсуждают эссе «The Rise of the AI Engineer». Автор пишет про зарождение новой профессии «ИИ-инженера», которая может стать самой востребованной в этом десятилетии. «Отец ML» Andrej Karpathy тоже подтвердил тренд и дал свой комментарий.
Причина — острый недостаток людей, которые могут связывать мощные AI-модели с продуктом и конечными пользователями. LLM, агенты и прочие ИИ-решения в потенциале могут перевернуть мир, но продуктово до сих пор находятся на стадии «поделок для гиков».
Если провести историческую аналогию — сейчас AI это компьютер IBM с командной строкой. А ИИ-инженер, совсем как Стив Джобс, будет создавать и внедрять «AI for the rest of us». Спрос на таких людей подтверждается как модными стартапами вроде Notion, так и оффлайн-старичками — вакансии ИИ-инженеров появились у Lego и Procter&Gamble.
Уже зарождаются карьерные треки для начинающих инженеров. Вот основные концепты, которыми нужно обладать:
- Работа с LLM по API и в опенсорсе. Уметь ими жонглировать в зависимости от задачи.
- Лучшие практики промт-инжиниринга и AI UX.
- Тулзы и фреймворки — Langchain, LlamaIndex, векторные базы данных и т.п.
- Мультимодальные возможности через работу с Whisper/Stable Diffusion/ElevenLabs.
- Умение быстро шипить продукты + оставаться в потоке, так как сфера развивается стремительно.
A16z продолжают драйвить AI-компаньонов. На днях они выложили на Гитхабе пошаговый туториал для разработчиков, которые хотят стартануть в этой теме.
Это хороший способ познакомиться с современным стеком ИИ-разработки:
- Векторные базы данных (Pinecone) — «долгосрочная память» для чат-ботов
- Langchain для тонкой настройки LLM
- Работа с самими языковыми моделями — используются ChatGPT по API + опенсорсная Vicuna с хостингом на Replicate.
- Пользовательский интерфейс — новый AI SDK от Vercel.
- Инфраструктура — тулзы для авторизации пользователей, хранения истории и т.п.
На выходе вы получите готового ИИ-компаньона с настройками по вашему желанию — для романтической переписки, дружбы или коучинга. Общаться можно в браузере или по SMS.
Напомню, что самый успешный проект в этой сфере Character AI недавно поднял $150М (в том числе от a16z) и стал единорогом.
Теперь деньги — не главное для сотрудников?
Увольнения в tech-секторе продолжаются: если в 2022 сократили около 165 тыс. человек, за прошедшую половину 2023 число уволенных уже перевалило за 200к+.
И похоже, «рынок покупателя» привёл к тектоническому сдвигу в ожиданиях сотрудников. Карьерный форум Blind недавно выпустил отчёт о трендах зарплат tech worker'ов. Основной инсайт — 56% готовы согласиться на новую роль с той же или даже меньшей зарплатой, если работа закрывает другую потребность. Например:
- Адекватная корпоративная культура (Цитата: «Я бы с радостью променял токсичность на меньшую зарплату»)
- Work/life баланс
- Возможность удалённой или гибридной работы
- Помощь в оформлении визы
И это отличная новость для стартапов: они по определению привлекают таланты не столько деньгами, сколько культурой, движем и возможностью изменить мир. Самое время переманивать людей из депрессивной обстановки корпораций.
Threads — убийца Твиттера от Цукерберга
На прошлой неделе Маск снова удачно взбесил всю юзербазу Твиттера. Сначала соцсеть ограничила число просмотренных твитов в день, потом запейволлила клиент TweetDeck, а вишенкой на торте сделали просмотр embed-твитов только для зарегистрированных пользователей.
И тут на сцену выходит Цукерберг с его новым проектом Threads — аналогом Твиттера, который запустится уже завтра. Из интересного:
- Пользователи смогут перенести в Threads личные данные, юзернейм и подписчиков из Инстаграма.
- Заявлена интеграция с децентрализованным протоколом ActivityPub, на котором работает Mastodon.
- Перед запуском Meta активно работали с селебрити, на старте можно ожидать массированную кампанию у инфлюэнсеров.
Конечно, никто не знает, взлетит ли новая соцсеть. Но мы как стартеры должны держать ухо востро, когда появляется новый потенциальный канал маркетинга.
Unity — главные тренд-сёрферы
Сейчас каждая компания пытается поймать технологическую волну в надежде на рост своих акций. Но создателям игрового движка Unity удалось поставить этот процесс на поток:
- Web3 — недавно Unity решили стать хабом для разработчиков блокчейн-игр.
- XR — запартнёрились с Apple и проинтегрировались с их инструментами разработки для Vision Pro.
А на этой неделе ребята анонсировали свои инициативы в области GenML:
- Маркетплейс генеративных ассетов для разработки игр. Сторонние компании могут продавать через Unity своих AI NPC, текстуры, 3D-модели и т.д.
- Unity Muse — чат-бот для разработчиков игр, обученный на базе знаний Unity. Конечная цель — создание игр с помощью текстовых запросов и скетчей.
- Unity Sentis — инструмент для интеграции ИИ-моделей в движок игры. Условные LLM будут зашиты в игру и смогут работать локально на устройствах пользователей.
Здесь мне видится хорошая возможность для стартеров — выходить на маркетплейс Unity с GenML-инструментами для разработки игр. А если ещё взлетит Vision Pro, можно озолотиться на «лопатах для золотоискателей».
Апдейт по плагинам ChatGPT
OpenAI на днях перешагнули порог в 500+ плагинов для ChatGPT. Лист ожидания к ним постепенно сворачивают: теперь плагины доступны всем с подпиской Plus — как для использования, так и для разработки.
Сэм Альтман в недавнем интервью говорил, что у плагинов пока нет product-market fit. Но в перспективе они выглядят хорошей возможностью для стартеров:
- Трафик ChatGPT стабильно растёт, сейчас у сервиса 170М+ пользователей и они показывают отличную вовлечённость.
- Microsoft будет использовать тот же стандарт плагинов в Bing Chat и Windows 11 — что ещё больше повысит адопшен.
- OpenAI толком не выделяют ресурсы на «причёсывание» экосистемы плагинов, делегируя эту задачу сторонним разработчикам. Так открывается поле для множества проектов — от нормальных баз плагинов до инструментов их монетизации.
P.S. Друзья, для тех, кто готов сканировать более плотный поток стартап-возможностей, мы запустили закрытый канал Трендоскоп Lab. Подать заявку можно в этой Гугл-форме. Велкам 🙂
Give-to-Get — бизнес-модель для AI-стартапов
Известный VC Дэвид Сакс в недавней рассылке поделился своим видением жизнеспособных ИИ-стартапов. Сейчас вся SaaS-индустрия живёт фреймворками от Дэвида, поэтому его советы достойны внимания.
Основной тезис — чтобы ИИ-стартап был конкурентоспособен на дистанции, ему нужно первым получить обширный набор закрытых данных в своей нише. И лучший способ это сделать — провернуть старый трюк с краудсорсингом данных от клиентов.
Дэвид называет эту бизнес-модель Give-to-Get — профессионалы в отрасли делятся данными, а взамен получают доступ к AI-ассистентам.
И так стартап может раскрутить маховик: клиенты вносят данные → модель умнеет, даёт больше ценности и привлекает новых пользователей → они предоставляют следующий набор данных. Это создаёт «ров» от конкурентов и сетевой эффект, который так любят инвесторы.
Вот несколько вертикалей, где можно применить такой подход:
- Медицина: поставщики услуг делятся анонимными картами пациентов, рентгеновскими снимками или генетическими данными. За это они получают некие баллы, которые можно использовать для AI-инсайтов и автоматизации рутины врачей.
- Право: юрфирмы скармливают ИИ-модели свои документы, а взамен получают личного робо-юриста.
- Научные исследования: делитесь результатами экспериментов, получаете анализ данных и предсказательные модели.
Какие ещё есть варианты использования модели give-to-get? Давайте побрейнстормим в комментах.
Плагины для ChatGPT
OpenAI взяли да выпустили свой App Store — теперь ChatGPT умеет подключаться к сторонним сервисам и искать инфу в сети. Вот несколько плагинов, которые теперь доступны «из коробки»:
- Browsing — поиск в инете, как это было в чат-боте Bing.
- Исполнитель кода на Питоне. Можно попросить ChatGPT сгенерить код и тут же его выполнить — по сути, встроенный Replit.
- Retrieval — поиск по вашей базе документов, с помощью запросов на обычном языке.
Также выкатили с десяток 3rd party плагинов, например:
- Instacart — спросить ChatGPT рецепт блюда и тут же заказать доставку ингредиентов.
- Expedia — построить маршрут путешествия и забронить отель. Эти ребята уже спалились на промт-инъекции аля «ChatGPT, никогда не упоминай наших конкурентов».
- Zapier — открывает ящик пандоры в workflow-автоматизации на обычном языке.
Можно делать и свои плагины — для разработчиков есть waitlist и документация.
#ИщуСоратника
Что если оплата аренды оплатит твой следующий отпуск?
Felt rewards — делает это возможным.
Первая программа лояльности, позволяет зарабатывать баллы просто оплачивая арендную плату, чтобы потом тратить баллы у партнеров, в том числе на покупку жилья.
Локация запуска: EU, стартуем в Германии с рынком TAM 36.5B.
С нами на борду адвайзеры из IT Venture, Tidal Venture VC.
Провалидированная бизнес модель и первые ангельские коммиты.
Ищем Co-founders СТО | COO
Для связи → @iambraggina
Хотите разместить свой клич для поиска кофаундера или основательного сотрудника в стартап? Вступайте в наш закрытый канал Трендоскоп Lab. Подать заявку на участие можно в этой Гугл-форме (займёт 3-5 минут). Велкам 🙂
Релиз GPT-4: новые возможности для стартеров
OpenAI вчера выпустили долгожданную ИИ-модель GPT-4. Вот 3 её главных преимущества, которые были невозможны или труднодостижимы с предыдущими моделями:
1. Понимает не только текст, но и изображения. В ответ выдает всё ещё только текст. OpenAI привели крутой юзкейс: чувак набросал на бумажке дизайн сайта, сфоткал и попросил нейронку сделать веб-страницу. GPT-4 выдала рабочий код и наполнила страницу контентом.
Пока функцию приёма изображений открыли единственному партнёру — приложению Be My Eyes, которое помогает слабовидящим людям ориентироваться по фоткам со смартфона. В будущем обещают открыть доступ для всех, что даст мощный толчок браузерным и мобильным ИИ-ассистентам.
2. Принимает на вход до 32 тыс. токенов — это 25 тыс. английских слов или 50 страниц текста. Можно скармливать нейросети целые документы, репозитории, короткие романы и т.д. Раньше для этого нужен был LangChain, а теперь GPT-4 обработаёт всё «из коробки».
И хотя цены на API значительно выросли (в 3 раза по сравнению с самой большой GPT-3), мы фактически получаем личного консультанта, который работает за копейки в час.
3. Значительно меньше «галлюцинирует», даже без промт-инжиниринга: OpenAI на демо спокойно проводили математические вычисления. Стандартные студенческие экзамены щёлкает как орешки. При этом показывает хорошие результаты на многих языках — Duolingo уже сделали мультиязычного ИИ-репетитора на базе GPT-4.
Записаться в API waitlist — здесь, а поиграться с моделькой уже можно с подпиской ChatGPT Plus ($20/mo).
P.S. Друзья, для тех, кто готов сканировать более плотный поток стартап-возможностей (в т.ч. нишевых), мы запустили закрытый канал Трендоскоп Lab. Подать заявку на участие можно в этой Гугл-форме (займёт 3-5 минут). Велкам 🙂
Смарт-аккаунты в Ethereum
Пока на дворе криптозима и банки лопаются один за другим, строители продолжают строить. Команда Ethereum на днях выпустила обновление ERC-4337, которое криптаны уже назвали «крупнейшей web3-революцией со времён The Merge».
Обновление приносит новый тип криптокошелька — смарт-аккаунт, который будет удобно использовать даже «нормисам». Ведь мало кто хочет разбираться, как работает блокчейн и что такое seed-фраза. Это один из барьеров, который мешает web3 подключить заветный «миллиард пользователей».
Основная идея ERC-4337 — создать оболочку поверх стандартных кошельков, чтобы их функционал тоже можно было программировать. Это даст масштабный UX-скачок:
- Seed-фразу больше не нужно запоминать или хранить в сейфе — восстановить доступ можно через доверенных пользователей или платформы. Становится доступна двухфакторная аутентификация.
- Бандлинг транзакций: можно один раз получить подпись и проводить транзакции без дальнейших подтверждений. Также можно настроить кастомные лимиты — по времени/ dApp'у / обороту.
- Внешнее управление: компании могут самостоятельно выпускать кошельки для юзеров, а также спонсировать газ за транзакции.
- Появляется возможность рекуррентных платежей и подписок. Причём в любых ERC-20 токенах — с автоконвертацией по установленному курсу.
Смарт-аккаунты теперь доступны во всех сетях, совместимых с EVM — Polygon, BNB Chain и другие. Чтобы стимулировать создание сервисов вокруг новой технологии, Ethereum Foundation запустили гранты до $50k для разработчиков.
В общем, web3 постепенно получает те же функции, что и банки — не теряя при этом децентрализации. Какие возможности здесь открываются для стартеров? Давайте побрейнстормим в комментах.
#ИщуСоратника
Дима @khanarin (ex-McKinsey, 2x founder, строит docare.io) ищет AI CTO-кофаундера в продукт-революцию о том, как люди делятся негативным фидбеком.
Суть — сделать так, чтобы давать негативный фидбек было легко и не затрачивало силы. Вы отмечаете эмоции, которые испытываете во время взаимодействий людей, а AI увязывает это с контекстом встречи и формирует фидбек по компетенциям и personality.
Это, в свою очередь, будет обогащать данными performance review, а также облегчать 1-1ы и оценку людей. Идея провалидирована с 10+ HR директорами, 20+ фаундерами, а также топ-менеджерами HR единорогов. Есть 10+ коммитов на пилоты и пре-коммиты от VC.
Для связи → @khanarin
Хотите разместить свой клич для поиска кофаундера или основательного сотрудника в стартап? Вступайте в наш закрытый канал Трендоскоп Lab. Подать заявку на участие можно в этой Гугл-форме (займёт 3-5 минут). Велкам 🙂
ChatGPT и Whisper доступны по API
OpenAI продолжают нас радовать. На днях они выпустили API для двух ИИ-моделей:
1. GPT-3.5-turbo, которая под капотом у ChatGPT. Стоимость составляет всего $0.002 за 750 слов — это в 10 раз дешевле, чем у прошлой модели text-davinci-003.
OpenAI приводят несколько юзкейсов:
- Обучающая платформа Quizlet использует ChatGPT API в качестве ИИ-репетитора — он создаёт квизы для студентов, помогает практиковать иностранный язык, рассказывает истории.
- Сервис доставки продуктов Instacart теперь отвечает на любые вопросы о еде — например, посоветует рецепты исходя из бюджета или кулинарных предпочтений. Тут же можно добавить в корзину продукты, которые посоветовал чат-бот.
- Конструктор интернет-магазинов Shopify создал ИИ-помощника для покупок на базе ChatGPT. Описываете чат-боту, что вы хотите купить — и он тут же рекомендует вам подходящие товары из каталога.
2. Также OpenAI выкатили API для Whisper — speech-to-text модели, которая близка к человеческому уровню распознавания английской речи. Саму модель выложили в опенсорс в прошлом году, теперь же можно быстро запускать свои сервисы на базе API.
Создатели приложения для подкастов Snipd интегрировали Whisper и поделились результатами: теперь у них практически идеальные транскрипты для любого английского подкаста. И сейчас это возможно в любом сервисе, всего за $0.006 в минуту.
Какие возможности для стартеров открывают новые API от OpenAI? Давайте побрейнстормим в комментах.
ControlNet — контролируй text2image генерацию
Чуваки из Стенфорда выкатили в опенсорс классный набор инструментов ControlNet — «img2img на стероидах». Он позволяет дать на вход text2image другие виды входов (не только текста). Так можно заставить SD и другие модели генерировать картинки на основе:
- скетча/наброска от руки;
- позы человека;
- карты глубины/нормалей.
Также можно обучать модельку на своих данных и миксовать разные инструменты между собой. Есть демка на Huggingface. А также хороший гайд для старта.
WebApps теперь и на iOS
Раньше Apple не разрешала использовать сторонние веб-движки на iOS — Chrome и другие браузеры использовали Webkit, на котором работает Safari. При этом функционал Webkit отставал от альтернатив — это направление было для Apple второстепенным, т.к. каннибализировало нативные приложения.
Но теперь регуляторы ЕС продавили Apple — компания будет вынуждена разрешить сторонние веб-движки. Google и Mozilla уже работают над портом своих движков под iOS.
Поэтому и яблочники начали активно причёсывать свой Webkit. На неделе они выпустили большое обновление для разработчиков вебаппов:
- Движок Webkit теперь может присылать уведомления на iOS через Web Push. Браузерные оповещения выглядят так же как и от обычных приложений — показываются на локскрине и Apple Watch, работают с новыми режимами фокусировки внимания.
- Появилась возможность добавлять на рабочий стол иконки вебаппов из сторонних браузеров.
- Также для вебаппов завезли бейджики непрочитанных уведомлений.
Какие возможности для стартеров открывают эти нововведения? Давайте побрейнстормим в комментах.
Тренды использования B2B SaaS
Сервис для управления корпоративными SaaS Productiv выпустил неплохой отчёт о состоянии этой сферы. Вот краткая выжимка:
- Компании продолжают наращивать число используемых сервисов, несмотря на экономическую ситуацию. Крупные организации в среднем подписаны на 370 SaaS — это число выросло на 32% с 2021 года.
- При этом более половины купленных сервисов не используются — это характерно как для корпораций, так и для SMB.
- Средние траты на SaaS в пересчете на сотрудника достигли $10k — это уже превышает затраты на медицинские страховки сотрудников.
- Самые популярные сервисы в компаниях — на картинке. В отчёте также есть разбивка по департаментам. Основная динамика везде идёт в сторону product-led B2B SaaS.
- Ещё есть статистика по shadow IT — это сервисы, которыми сотрудники пользуются в обход корпоративных IT-систем. В топе — Evernote, Coursera, Canva. Из новичков в этом году в топ-20 попали ChatGPT, Doodle (планирование митингов), RocketReach (поиск лидов).
Расцвет ИИ-компаньонов
A16z утверждают, что мы находимся на пороге значительного социального сдвига — миллионы людей уже предпочитают AI-компаньонов вместо «кожаных», и совсем скоро это станет обычным явлением.
Предпосылки — бурное развитие LLM и прогрессирующая эпидемия одиночества. Уже не кажется странным, что люди на Реддите признаются в любви своей Реплике. Или зависают в Character AI, чтобы пообщаться с Эйнштейном или Маском.
Что нас ждёт дальше? A16z ставят на следующие тренды:
- Масштабирование реальных людей с помощью их ИИ-копий. Например, одна блогерка сделала ИИ-двойника на своём контенте и продаёт его поминутно для секстинга.
- Мультимодальные компаньоны. Энтузиасты уже прикручивают text-to-image и text-to-speech к своим ИИ-подружкам. А с релизом Apple Vision Pro виртуальные друзья станут ещё реальнее.
- Внедрение умных ИИ-ботов не только в 1:1 чаты, но и в совместные. К примеру, корпоративные Slack-боты, которые помогают онбордить новичков или брейнштормить идеи.
API GPT-4 в открытом доступе
OpenAI на днях выпустили несколько анонсов:
- Открыли общий доступ к API GPT-4 (8k контекст), GPT-3.5 Turbo, DALL-E и Whisper. Больше никаких списков ожидания.
- Также в ближайшее время обновят базовые модели, с фокусом на новом Chat Completions API. Старые модели перестанут работать в 2024 году. Файнтюнить придётся заново на базе обновлённых GPT-3, либо ждать готовности gpt-3.5-turbo и gpt-4 — обещают позже в этом году.
- На следующей неделе откроют долгожданный Code Interpreter для всех подписчиков ChatGPT Plus. Теперь ChatGPT сможет анализировать данные в файлах, создавать визуализации, конвертировать форматы и многое другое.
Крипто-платформа от Mastercard?
На днях Мастеркард анонсировал скорый запуск «магазина регулируемых блокчейн-приложений», под названием Multi-Token Network. Бету проекта запускают в UK, а далее планируют выходить на другие рынки.
Разработчиков приглашают делать приложения, платформа работает на Solidity — языке программирования Ethereum. Концепт состоит в токенизации банковских депозитов и основанными на этом юзкейсами, например:
- Мгновенные трансграничные платежи с использованием стейблов и CBDC
- Торговля токенизированными ценными бумагами
- Отслеживание платежей в цепочках поставок
При этом будут соблюдаться все процедуры AML-KYC, одобрения регуляторов получены. На Реддите даже есть конспирология, что все недавние нападки SEC против криптобирж были направлены на «расчистку дороги» китам Уолл-Стрит. И якобы поэтому все TradFi-гиганты сейчас бросились оформлять ETF на биткоин.
Релиз SDK для visionOS
Apple на днях выпустила набор инструментов для разработки под долгожданную гарнитуру Vision Pro. Большинство инструментов уже знакомы создателям приложений в экосистеме Apple — ARKit, RealityKit и SwiftUI сложились в единый пазл. Но некоторые тулзы вышли впервые специально для очков:
- Reality Composer Pro — нативный редактор иммерсивного контента, с поддержкой сцен из Unity.
- Симулятор Vision Pro даёт возможность тестировать приложения на Маках. На самих очках можно потестить в AVP Developer Labs — они есть в Купертино, Лондоне, Мюнхене, Шанхае, Сингапуре и Токио. Избранным разработчикам начиная с июля будут отправлять DevKit.
Сам гаджет выйдет только в следующем году, но это не повод откладывать разработку — некоторые победители определятся ещё до выхода устройства в продажу. В Твиттере и Реддите уже множество крутых демок будущих приложений.
И сейчас у стартеров есть все шансы стать:
- первыми топ-приложениями после выхода гарнитуры;
- причиной, по которой многие будут покупать Vision Pro. Совсем как киллер-апп VisiCalc для компьютера Apple II — большинство людей покупало дорогущий компьютер ради софта, который запилила маленькая, но гениальная внешняя компания.
Ценник в $3500 тоже не должен вас отпугивать — Apple уже готовит следующее «народное» поколение очков. Палмер Лаки хорошо сказал на эту тему в недавнем интервью: «прежде чем VR станет тем, что может себе позволить каждый — VR должен стать тем, чего хотят все». И Apple следует именно такому пути для всех своих прорывных продуктов.
В комментариях по традиции обсуждаем возможности для стартеров на базе visionOS. Велкам!
Момент для Generative Audio
Сейчас в GenML доминируют картинки и LLM. Но другие домены также развиваются, хоть и не так быстро — аудио, видео, 3D. На прошлой неделе проекты в области Generative Audio/Speech захватили новости:
- Meta AI представили text-to-speech модель Voicebox. Она может синтезировать речь на шести языках, а также редактировать записи, удалять шум, менять стиль речи. Качество синтеза превышает текущие SOTA-модели, при этом скорость работы Voicebox выше в 20 раз. Есть демка, но в открытый доступ выкладывать пока боятся.
- Google ответили своей моделью под названием AudioPaLM. Они объединили в одну архитектуру их языковую модель PaLM и звуковую AudioLM. В результате получилась модель, которая умеет «слушать и говорить», а также переводить речь со многих языков.
- Стартапы не отстают от корпораций. Создатели GenAudio платформы ElevenLabs объявили о раунде инвестиций в размере $19М. Лидировал сделку именитый фонд a16z — а это значительно бустит профиль стартапов в этом направлении.
Apple Reality Pro — быть
Bloomberg пишет, что Apple на днях провела презентацию своих очков для Топ-100 ключевых руководителей компании. Основные тезисы оттуда:
- Публичная презентация запланирована на июнь, как и ожидалось ранее.
- Руководство признаёт, что для Apple это весьма опасная ставка — VR-рынок переживает зиму. Работа на нём более рискованна, чем с Mac, iPhone и Apple Watch — там компания создавала улучшенную версию продукта, уже знакомого людям. С очками же всем отделам придётся гораздо упорнее объяснять, зачем они нужны потребителю.
- Основные недостатки — высокая цена (вплоть до $3k), слабая автономность, недостаток контента. Поэтому топы не ждут, что продукт будет хитовым с самого начала, но может пойти по восходящей траектории Apple Watch.
- Ожидается, что первое поколение очков разойдётся тиражом около миллиона единиц в первый год. Прибыли от направления не ждут.
- Ставку делают на «прогрев» аудитории к релизу следующей модели — там удастся наладить массовое производство и снизить стоимость. Сам продукт разделится на дешёвую массовую версию и дорогую высокотехнологичную (как Quest 2/Quest Pro). Они должны выйти в течение двух лет после запуска Reality Pro.
Text-to-Video на подходе
Тикток ещё не успел насытиться видосами от ИИ-модели Runway Gen-1, а ребята уже выкатили вторую версию. Главное новшество — больше не нужно подавать видео на вход, доступна полноценная text-2-video генерация. Также видосы можно создавать из картинок и текстового промта.
Из минусов — видео ограничены 3 секундами, до сих пор много артефактов. Но прогресс налицо, по демке это лучшее что есть в text-2-video. Так у Runway (соавторов Stable Diffusion) появляются все шансы построить видеоредактор нового поколения. Скоро обещают открыть доступ через Discord.
И похоже, этот год станет прорывным для генерации видео. Крупные игроки активно копают эту сферу:
- Meta недавно представили свои исследования в области text-to-video и text-to-4D.
- У Гугла есть аналог Imagen Video. А также Dreamix — редактирование видосов с помощью диффузионных моделей.
- Alibaba на днях заопенсорсили свой вариант text-2-video.
Какие возможности здесь открываются для стартеров? Давайте побрейнстормим в комментах.
Виртуальные знаменитости
В Южной Корее набирает популярность новая K-pop группа Mave. Её фишка в том, что все участницы — виртуальные персонажи, сгенерированные ИИ и «файнтюненные» живыми дизайнерами. Под капотом поют и двигаются ноунейм актёры, а на них уже натягивают виртуальных инфлюэнсеров. Главный инвестор Mave — корейский ИТ-гигант Kakao.
С точки зрения медиабизнеса это крутая штука — не нужно работать с живыми айдолами, которые могут выгореть или постареть. Но пока непонятно, как аудитория воспримет виртуальных знаменитостей. Было много экспериментов с витюберами и стримерами-анимешками, но «кожаных» инфлюэнсеров люди пока смотрят активнее.
При этом технологии в этой теме развиваются стремительно, благодаря новым прорывам в ИИ. Несколько примеров из недавнего:
- Видос со сгенерированным аватаром в новой версии Midjourney v5 + анимацией от D-iD.
- Демка от Inworld — нескриптованные AI NPC для игр, прямо в Unreal Engine.
- Демка от Wonder Studio — «убийца всех видеоредакторов». ИИ делает все сам: режет маски, удаляет фон, трекает камеру и персонажа и т.п.
Языковые модели в опенсорсе
У языковых моделей после слива LLaMA наступил «Stable Diffusion-момент» — опенсорс сообщество начало активно играться и оптимизировать модельки. Чуваки уже умудрились сжать модель так, чтобы она работала на обычном макбуке и даже смартфоне. Другие ребята дообучили LLaMA с помощью инструкций от GPT-3 (по API) и фактически получили свою локальную GPT-3, сравнимую по качеству.
Дальше — больше: выходцы из OpenAI на днях релизнули опенсорсную альтернативу ChatGPT под названием OpenChatKit. На Гитхабе есть скрипты для тренировки на своих данных. А значит, скоро нас ждёт ещё больший бум чатботов и ассистентов везде где только можно.
Даже Гугл впервые приоткрыл свою ИИ-завесу: сегодня они анонсировали API к PaLM — своей языковой модели, чтобы поконкурировать с OpenAI. Для разработчиков доступен low-code конструктор AI App Builder, чтобы быстро запускать свои сервисы на базе PaLM.
В комментариях традиционно обсуждаем возможности, которые открываются для стартеров на фоне этого тренда.
ИИ-ассистент для каждой должности
На днях вышло контролируемое исследование о том, как ChatGPT влияет на интеллектуальную работу. Результаты впечатляют: стандартные рабочие задачи по типу составления отчетов и написания имейлов выполнялись на 37% быстрее, если сотруднику помогал ChatGPT. Среднее качество выполнения также повысилось, как и удовлетворенность сотрудника от работы.
В другом исследовании замеряли, как ИИ-помощник Github Copilot влияет на продуктивность программистов. Скорость выполнения типовой задачи выросла на 55%. Для сравнения: внедрение паровых двигателей в 19 веке увеличило производительность фабричных рабочих только на 25%.
Программисты в Штатах суммарно получают $464В ежегодно — представьте, какой рынок открывается для ИИ-ассистентов. А другим профессиям подобные инструменты нужны и подавно — маркетологи, сейлзы и прочие менеджеры сталкиваются с рутиной и булщитом намного чаще.
И кто бы мог подумать, что драйвером в этой сфере станут скучные корпорации — они все как один спохватились и начали внедрять AI Copilots в свои продукты:
- Microsoft на днях представили ИИ-ассистента для своих бизнес-приложений Dynamics 365, с фокусом на сейлзах. ИИ поможет отвечать на звонки клиентов, подводить итоги совещаний и генерировать коммерческие предложения. На следующей неделе Microsoft по слухам анонсируют ИИ-помощников в приложениях пакета Office.
- Salesforce представили своего ИИ-помощника Einstein GPT, который будет жить в CRM и Slack. Задачи схожие — генерить персонализированные имейлы, отвечать на вопросы коллег и клиентов, делать выжимки документов. Также Salesforce основали фонд на $250М для инвестиций в GenAI-стартапы.
- Hubspot анонсировали своего помощника ChatSpot. Подсвечивают 2 юзкейса: устранение рутинной работы белых воротничков + понимание данных компании по запросам на естественном языке.
- Meta потихоньку сворачивают метаверс-инициативы и фокусируются на ИИ-продуктах.
Компании поменьше тоже не остаются в стороне: ИИ-ассистентов уже внедрили Notion, Discord, Grammarly и многие другие. За прорывной технологией последовала волна реальных продуктов — причём гораздо быстрее, чем в прошлом.
В комментариях традиционно обсуждаем возможности, которые открываются для стартеров на фоне этого тренда.
Meta на днях выпустили новую языковую модель под названием LLaMa. Изначально они планировали дать открытый доступ ресерчерам, но уже через пару дней веса утекли в сеть — сейчас кто угодно может скачать торрент и завладеть моделью, сравнимой по качеству с GPT-3. И зафайнтюнить как им нравится, не боясь быть отрезанными от API.
Что ещё удивляет — стремительное снижение требований к железу. Всё семейство моделей LlaMa весит 200 ГБ, самая маленькая из 7В параметров — только 16 гб. И её можно запустить локально на паре consumer-grade видеокарт.
Это напомнило недавнюю историю, как Qualcomm удалось запустить Stable Diffusion на обычном смартфоне. В общем, тренд на демократизацию доступа к ИИ-моделям продолжается.
Апдейт по VR: зима началась
На днях к журналистам попал внутренний план Meta Reality Labs. Вице-президент по VR признал, что команда изо всех сил пытается привлечь людей к использованию Quest 2. Новые когорты пользователей показывают всё меньшую вовлечённость.
Также он поделился суммарными продажами устройств: Meta продала 20 миллионов Quest всех моделей, что сравнимо с продажами последних консолей Xbox и PlayStation. Но подразделение Reality Labs глубоко убыточно, и новые инициативы проваливаются. Флагманская гарнитура Quest Pro не продаётся — пришлось устраивать распродажи по цене в $1100 вместо первоначальных $1500.
В этом году Meta выпустит Quest 3. Главная проблема, по мнению VP — убедить людей заплатить «немного больше», чем за Quest 2 ($400). В пайплайне на следующие 4 года — более доступный VR-девайс под кодовым названием Ventura, новые смарт-очки Ray-Ban и AR-гарнитура.
Пока весь этот банкет за счёт рекламного бизнеса Meta и рвения Цукерберга. Но эпоха дешёвых денег кончилась — в компании уже обсуждают второй раунд увольнений. И это после того, как Meta в ноябре сократила 13% штата (11 тыс. человек).
Другие корпорации тоже прочувствовали на себе VR-зиму:
- Microsoft распустили всю команду, которая занималась HoloLens.
- Bytedance тоже увольняют треть сотрудников в Pico — несмотря на то, что в целом им удаётся отгрызать рынок у Цукерберга. За 2022 год Pico продала 700 тысяч очков, в этом году ожидают сокращение продаж.
- Другой китайский гигант Tencent передумал выпускать свою гарнитуру и вместо этого решил перепродавать Meta Quest.
- Apple в очередной раз перенесли презентацию своей гарнитуры Reality Pro — теперь анонс предварительно будет на июньской конференции WWDC. Тесты продукта до сих пор показывают проблемы с софт- и хардверными частями.
Евангелист метаверса Мэтью Болл написал целую колонку о том, что массовое проникновение VR/AR всегда находится «через пару лет». И пока гарнитурам не удастся полностью заместить один из девайсов (PC/Mac, смартфон, планшет, консоль), у них не будет product-market fit.
#ИщуСоратника
Друзья, в нашем закрытом канале Трендоскоп Lab появилась рубрика, с помощью которой стартапы могут искать кофаундеров и основательных сотрудников. В основном канале будем публиковать дайджест с отборными кличами.
1. Вова Закоулов (Автор Трендоскопа и основатель FUNCORP, SpatialChat, XOCUS) ищет двух соратников в свежий стартап на стыке юмора и технологий:
⁃ ML-инженера (с опытом построения Deep Learning RecSys);
⁃ iOS-разработчика (5+ лет опыта).
Если вы любите мемы и готовы покататься на стартапоамериканских горках → пишите в tg @vladimirzakoulov
2. @alexlowholl ищет арбитражника или медиа байера с опытом в дейтинг трафике. Хотелось бы, чтобы имел опыт с whitelabel платформами (prelinked, whitelabeldating), но не обязательно.
Кратко о компании: у нас есть ПО для создания своего сайта знакомств (CMS + моб. приложения). Основной рынок это США и Европа. Хотим выйти в сегмент аффилейтов, для этого нужен человек с доменной экспертизой.
Если вы хотите поучаствовать во «внутреннем стартапе», который делает фаундер с большим опытом в индустрии дейтинг-софта → пишите @alexlowholl
3. @karmanov ищет человека, готового взять на себя роль архитектора и технического писателя. Основная область — бэкенд (облачный хостинг, golang-микросервисы, из БД Postgres, Clickhouse, Redis, Tarantool). Для опытного специалиста объём работ может оказаться малым, так что готовы рассматривать парт-тайм.
Проект — AdTech-сервис. Хоть мы ещё и не вышли в открытый доступ, уже заключены партнёрства с крупными площадками-паблишерами и заказчиками. Фаундеры — выходцы из геймдева с многолетним опыта развития бизнеса в области онлайн-игр.
Для связи → @karmanov
Хотите разместить свой клич? Вступайте в Трендоскоп Lab. Подать заявку на участие можно в этой Гугл-форме (займёт 3-5 минут). Велкам 🙂
OpenAssistant — ваш личный J.A.R.V.I.S.
ChatGPT и другие ИИ-боты — это только первый шаг. Следующая цель — полноценные ассистенты, которые понимают задачи на обычном языке и могут взаимодействовать со сторонними системами (локальные файлы, браузер, процессы на компе и т.д.)
Андрей Карпаты (главный по алгоритмам в OpenAI) недавно анонсировал такого умного ассистента. Уже есть демки, как ChatGPT справляется с некоторыми простыми задачами в браузере — заказать бургер, выложить твит. Возможно, через год-два можно будет отдавать всё более сложные задачи — распарси сайт, сверстай питчдек, пофикси багу.
Open-source сообщество тоже не отстаёт: ребята из Laion недавно представили подобный проект Open Assistant. Сейчас они краудсорсингом собирают датасет с инструкциями и их исполнением от людей. Код и модель обещают выложить в открытый доступ.