Telegram-канал futuris - Futuris: Блоги - каталог телеграмм

futuris | Блоги

Подписаться на канал

Telegram-канал futuris - Futuris

3066

@Futuris - канал о технологиях, будущем и не только. Contact @antonod

Подписаться на канал

Futuris

16 мая 2023 14:46

Стало известно, что OpenAI готовят к выпуску новую языковую модель, в этот раз открытую, но пока неизвестно будет ли она мощнее GPT-4🤓

Эту новость уже активно обсуждают на реддите, но с помощью плагина WebPilot (браузинг почему-то давал лишние результаты🤦‍♂️) ChatGPT описал всё для меня и для вас вкратце✨

Читать полностью…

Futuris

15 мая 2023 09:04

Продолжаем изучать новости и читать реддит с плагинами. В частности интересное исследование под названием "Language Models of Code are Few-Shot Commonsense Learners" о том что LLMки обученные на коде эффективнее справляются с языковыми задачами и реакция пользователей на это исследование.

Ещё я нашёл кастомный плагин KeyMate. AI Search для подключения ChatGPT к интернету✨ и похоже он неплохо справляется, про выборы в Турции дал мне аналитику🤓

И ещё один плагин Video Insights - может анализировать контекст YouTube видео по ссылке, но пока количество токенов позволяет анализировать видео не более 20-25 минут👌

А PortfolioPilot даёт инвестиционные советы по вашему запросу, но правда с акциями Tesla ошибочка вышла, но в дальнейшем, думаю, многие захотят использовать AI-инструменты для небольших инвестиций 🤑

#gpt_4 #experiments #plugins

Читать полностью…

Futuris

14 мая 2023 10:48

Продолжаю читать реддит с помощью GPT-4, только теперь я попросил его коротко описать 5 самых популярных новостей за неделю на сабреддите Futurology и science просто предоставив ему ссылку, после чего с помощью плагина WebPilot чат сам перешёл по ссылкам на реддите и прочитал все новости, сэкономив мне время на прочтение новостей по отдельности✨

#gpt_4 #experiments #plugins

Читать полностью…

Futuris

13 мая 2023 17:34

Хотя web browsing мне ещё недоступен, но! я нашёл плагин, который позволяет чату переходить по ссылкам и анализировать их контент✨ Так вот, я скормил ему целый сабреддит про ChatGPT после чего с помощью плагина WebPilot чат правильно перечислил последние обсуждаемые темы и мало того, он смог даже проанализировать и обобщить🤯 комментарии на одну из тем про виртуальную gpt-девушку, которая за неделю заработала создателю $72k

Я теперь только так читать реддит буду🤓

#gpt_4 #experiments #plugins

Читать полностью…

Futuris

13 мая 2023 16:24

Кстати, если у вас подписка Plus то в настройках аккаунта у вас тоже должен появиться доступ к плагинам и возможно даже браузингу✨

Читать полностью…

Futuris

12 мая 2023 17:09

🔥Anthropic превзошли OpenAI с чат-ботом, способным прочитать 75 тысяч слов за минуту

Стартап в области искусственного интеллекта Anthropic, основанный бывшими сотрудниками OpenAI, значительно расширил "контекстное окно" своего чат-бота Claude до 75 000 слов, что позволяет обрабатывать целый роман за менее чем минуту. В качестве теста система прочла "Великий Гэтсби" и обнаружила внесенное изменение всего за 22 секунды🤯

Вместо обычного подсчета слов, Claude обрабатывает 100 000 токенов, в то время как GPT-4 от OpenAI обрабатывает около 8000 токенов.

Эта новая способность пока доступна только деловым партнерам Anthropic и предполагает большие расходы на вычисления. Однако это увеличение способности обработки информации делает чат-боты более полезными, позволяя им читать, обобщать и анализировать длинные документы в течение нескольких минут и поддерживать более долгие разговоры.

встать в вейтлист Claude
демо нового контекстного окна

Читать полностью…

Futuris

11 мая 2023 20:03

Институт искусственного интеллекта Аллена (AI2 - некоммерческий исследовательский институт, основанный в 2014 году с миссией проведения высокоэффективных исследований и разработок в области искусственного интеллекта на благо общества. Институт был создан Полом Алленом, филантропом и сооснователем Microsoft) анонсировал разработку Open Language Model (OLMo) - новой открытой языковой модели, создаваемой в сотрудничестве с AMD, консорциумом Large Unified Modern Infrastructure, Surge AI и MosaicML. Выпуск планируется в 2024 году.

OLMo представляет собой уникальную языковую модель, которая направлена на улучшение взаимодействия и интерпретации академических текстов и учебников. Эта специализация делает ее особенно полезной для научных и образовательных приложений. В AI2 подчеркивают, что они стремятся предоставить исследовательскому сообществу максимальный доступ к различным аспектам модели. Это включает демонстрационную версию, обучающий набор данных, API и другие компоненты, которые могут быть адаптированы или улучшены для конкретных задач.

С учетом возможных этических и юридических проблем связанных с использованием генеративных AI, команда OLMo будет работать с юридическим отделом AI2 и внешними экспертами. Также будет создан комитет по рассмотрению этических вопросов для обеспечения безопасности и соблюдения правил.

По техническим характеристикам известно, что модель будет иметь около 70 миллиардов параметров, обучение начнется на суперкомпьютере LUMI в Финляндии в ближайшие месяцы.

Читать полностью…

Futuris

11 мая 2023 08:55

✨Google выпускает конкурента GitHub Copilot

На своей конференции I/O Google представила инструменты на основе искусственного интеллекта, включая Codey, конкурента Copilot от GitHub. Codey, созданный на базе языковой модели Google PaLM 2, обучен обрабатывать запросы по кодированию и услугах Google Cloud, а также AI-помощник в ноу-код продукте Google, AppSheet.

Разработчики получат доступ к инструментам через расширения для Visual Studio Code, JetBrains IDEs и Google Shell Editor. Codey поддерживает языки Go, Java, JavaScript, Python и SQL.

Пока только ограниченный круг тестеров получит доступ к новым функциям. В дальнейшем, Google намерена использовать подобные модели для помощи разработчикам в управлении своими сервисами на Google Cloud.

А вот полный список того, что было представлено на Google I/O ‘23:

Google Maps представил новую функцию "Immersive View for Routes" в выбранных городах. Она объединяет всю необходимую информацию в одном месте, включая детали о ситуации на дорогах, велодорожках, сложных перекрестках, парковках и др.

Magic Editor и Magic Compose – новые функции, облегчающие редактирование и композицию текста и изображений с помощью ИИ.

PaLM 2 – это новейшая модель обработки естественного языка от Google, которая улучшит работу обновленного Bard и станет основной моделью для большинства новых AI функций компании.

Bard теперь становится доступнее – он запускается в более чем 180 странах и территориях, и поддерживает японский и корейский языки.

Google Workspace получает улучшения благодаря ИИ, включая автоматическое создание таблиц в Sheets и создание изображений в Slides и Meet.

MusicLM – это новый экспериментальный инструмент от Google, который преобразует текст в музыку.

Google Search получает две новые функции, которые позволяют лучше понимать контекст изображения, которое пользователь просматривает в результатах поиска.

Sidekick – это новый инструмент, который предназначен для обеспечения лучших подсказок в Google Docs.

Codey – это новый инструмент для автоматического дополнения и генерации кода, ответ Google на Copilot от GitHub.

Google Cloud представляет новую виртуальную машину суперкомпьютера A3.

Imagen in Vertex – новые модели ИИ, которые появятся в Vertex AI, полностью управляемом сервисе ИИ от Google.

Find My Device получает ряд улучшений, включая предупреждения о неизвестных трекерах, которые перемещаются с вами.

Pixel 7a поступит в продажу 11 мая по цене $499. Камера устройства обладает немного большей плотностью пикселей, а новый чип позволяет использовать функции, такие как Face Unblur и Super Res Zoom.

Project Tailwind - инструмент для работы с записными книжками, созданный Google, который автоматически организует и суммирует свободные заметки пользователя.

Generative AI wallpapers - новые обои для Android, создаваемые с использованием моделей ИИ Google, которые будут доступны этой осенью.

Wear OS 4 - следующая версия операционной системы для умных часов Google, которая предложит улучшенную автономность работы и функциональность, а также новые функции доступности, такие как текст-в-речь.

Universal Translator - мощный новый сервис перевода, который переводит видео на новый язык, а также синхронизирует движение губ говорящего с словами, которые они никогда не произносили.

Pixel Tablet - долгожданный планшет от Google, который представляет собой не только планшет, но и контроллер умного дома и устройство для телеконференций.

Pixel Fold - Это было одно из главных объявлений: Google представила складной смартфон Pixel. Гугл работала над этим телефоном в течение пяти лет. Главным секретом Pixel Fold является программное обеспечение, обеспечивающее бесшовное переключение между внешним и внутренним экранами. Кроме того, Google оптимизировала свои самые популярные приложения для большого экрана, включая Gmail и YouTube.

Читать полностью…

Futuris

10 мая 2023 20:27

Продолжаем:
Google представил MusicLM, новый экспериментальный AI инструмент, который может превращать текстовые описания в музыку⚡️ Доступный в приложении AI Test Kitchen на веб, Android или iOS, MusicLM позволяет пользователям вводить запросы, такие как "душевный джаз для ужина", и моделька создает несколько версий песни✨

Вейтлист

Читать полностью…

Futuris

10 мая 2023 20:03

⚡️Google анонсировал PaLM 2 - новейшую LLM c 540 миллиардами параметров, которая с сегодняшнего дня используется в обновленном чат-боте Bard, который выходит в открытый доступ во всех странах (но пока меня из Беларуси не пускает🤷‍♂️). PaLM 2 послужит основой для большинства новых AI-функций компании. Разработчикам доступен PaLM 2 через Google’s PaLM API, Firebase и Colab.

PaLM 2 обучена на 100 языках, лучше справляется с пониманием общего смысла, математикой и логикой, чем предыдущая версия благодаря обучению на математических и научных текстах. PaLM 2 также обладает улучшенной поддержкой написания и отладки кода на 20 языках программирования.

Google представляет PaLM как семейство моделей, включая Codey (для кодирования и отладки), Med-PaLM 2 (для медицинских знаний) и Sec-PaLM (для вопросов безопасности). Также существует меньшая версия PaLM 2, которая может работать на смартфонах🔥

На самом деле обновлений много, буду изучать дальше 🤓

https://techcrunch.com/2023/05/10/google-launches-palm-2-its-next-gen-large-language-model/

Читать полностью…

Futuris

10 мая 2023 14:21

Всё, научный прогресс можно останавливать, команда учёных из различных университетов (Princeton, Stanford University, The Nueva School, Columbia University) создала первого робота-уборщика🤖🧹

TidyBot - это робот, способный к персонализированной уборке, использующий большие языковые модели для обучения и адаптации к предпочтениям пользователя. Он выполняет такие задачи, как сортировка белья на светлое и темное, переработка пустых банок от напитков, уборка мусора, уборка сумок игрушек и столовых приборов и тд. TidyBot способен распознать различные предметы и расположить их там, где они должны находиться, в зависимости от индивидуальных предпочтений пользователя.

TidyBot продемонстрировал высокую точность и эффективность, успешно справляясь с 85,0% задач в реальных тестовых сценариях. Это подтверждает потенциал применения больших языковых моделей в реальных робототехнических системах✨

Читать полностью…

Futuris

07 мая 2023 18:46

Гифка “машинка, похожая на авокадо” в заставке этого поста выглядит простенько и не впечатляет на фоне цветистых изображений MidJourney.
Но это довольно сильная заявка OpenAI в области генерации трехмерных объектов по текстовым описаниям, разработанная ими модель игриво называется Shap·E (и shape напоминает, и к DALL-E отсылает :)).
Shap·E directly generates the parameters of implicit functions that can be rendered as both textured meshes and neural radiance fields. Такая комбинация позволяет на основе результатов Shap·E создавать уже привычными инструментами очень реалистичные и хорошо детализированные трехмерные объекты.
Что особенно нынче важно, авторы пишут: We release model weights, inference code, and samples at https://github.com/openai/shap-e
Текст статьи: https://arxiv.org/pdf/2305.02463.pdf
Популярное описание: https://www.marktechpost.com/2023/05/06/open-ai-releases-shap·e-a-conditional-generative-model-for-3d-assets/
PS. Вашу любовь, дорогие читатели, к публикации папок и понял:)) Усвоил, спасибо, учту :)

Читать полностью…

Futuris

06 мая 2023 21:15

Ученые из Университета Мичигана создали искусственный интеллект BacterAI для проведения автономных микробиологических экспериментов. В ходе тестирования система определила требования к аминокислотам для роста двух видов стрептококков, проведя менее 4000 экспериментов (в среднем 20 аминокислот дают более миллиона возможных комбинаций)

BacterAI позволяет проводить до 10 000 экспериментов в день, достигая точности прогнозов в 90%, что потенциально может ускорить исследования в медицине, сельском хозяйстве и экологии. BacterAI применим в различных научных областях, что поспособствует созданию лекарств, улучшению качества продуктов и охране окружающей среды, а также выявлению неожиданных закономерностей, которые могут стать отправной точкой для новых открытий и инноваций🤖🧪

https://phys.org/news/2023-05-ai-million-microbial-year.html

Читать полностью…

Futuris

04 мая 2023 09:48

⚡️Bing становится еще мощнее

Microsoft постепенно убирает вейтлист и собирается в ближайшее время открыть полный доступ к чат-боту Bing на базе GPT-4 для всех пользователей. Bing получит крутые функции, такие как "Действия" для выполнения задач в чате, поиск по картинкам и по видео, интеграцию с Microsoft Edge и сохранение истории чата.

Кроме того, будет представлена поддержка плагинов в сотрудничестве с OpenTable и WolframAlpha🔥

Подробности ожидаются на конференции Microsoft Build в этом месяце с 23 по 25 мая✨

Похоже, что в Microsoft серьезно намерены составить конкуренцию OpenAI, ждём чем ответят другие компании 👌
https://www.theverge.com/2023/5/4/23710022/microsoft-bing-chatbot-ai-image-video-chat-history-features

Читать полностью…

Futuris

03 мая 2023 10:20

Вот пару примеров генерации на Huggingface, представляю как можно будет развлекаться и использовать такой метод генерации аудиоконтента в ближайшем будущем, когда найдут способ улучшить эту технологию (уверен будет это очень скоро🤓)

В последнем аудиофайле вы слышите реальную запись звуков Тираннозавра Рекс, сохранившуюся до наших дней🤯😜

Читать полностью…

Futuris

16 мая 2023 08:46

Web browsing на месте ✨

Считайте Bing на стероидах. Думает дольше но ответы развёрнутые и ссылок намного больше👍 хотя мне почему-то выдал только 3 результата, а я просил 5+ 🤷‍♂ В общем будем тестировать 🤓

#gpt_4 #experiments #browsing

Читать полностью…

Futuris

14 мая 2023 14:21

Компания Writer, разработчик платформы для генеративного AI-письма, представила свой новый продукт - Knowledge Graph, который находится в открытом бета-тестировании. Этот инструмент позволяет компаниям собирать всю текущую исходную информацию организации в графовой базе данных.

CEO компании Мэй Хабиб заявила, что Knowledge Graph может действовать как валидатор контента, проверяя его на соответствие сгенерированному контенту. Это помогает решить проблему "галлюцинаций" в AI, когда модель, не зная ответа, просто придумывает его, вне зависимости от того, имеет ли он смысл или нет.

Knowledge Graph автоматически выделяет контент, который нуждается в проверке фактов, и предлагает замену на основе наиболее релевантного контента в графе знаний. Writer также показывает источник контента, откуда был взят материал для замены, что дает сотруднику возможность принять или отклонить предложение.

Кроме того, компания объявила о возможности самостоятельного хостинга Writer LLM, что предоставляет более высокий уровень контроля над контентом внутри организации. Knowledge Graph может подключаться к самохостинговому LLM. Обе эти функции доступны в открытой бета-версии с сегодняшнего дня.

Читать полностью…

Futuris

13 мая 2023 21:09

В общем у меня теперь новое хобби - делать обзоры на плагины🤓

Вот ещё что успел проверить (25 сообщений в 3 часа теперь категорически не хватает):

Diagram It - исходя из названия рисует диаграммы и для примера описал мне работу веб сервера👌

AskYourPDF - да, теперь ChatGPT может читать загруженные онлайн pdf файлы👌 в качестве эксперимента он помог дать краткое описание этой научной публикации

Ну и отдельный кайф это возможности Wolfram Alpha - он рассказал где сейчас находится James Webb Telescope и даже изобразил на звёздной карте✨

#gpt_4 #experiments #plugins

Читать полностью…

Futuris

13 мая 2023 16:47

1% на телефоне, но я теперь знаю всё о борще✨

Просто пример, как выглядят ответы на один и тот же вопрос GPT-4 с плагинами и без🤓

Приятного аппетита ✨

#gpt_4 #experiments #plugins

Читать полностью…

Futuris

13 мая 2023 16:13

✨✨✨✨Наконец-то получил доступ к плагинам ✨✨✨

Парадокс, что запрашивал доступ к веб браузингу, а дали доступ к сотне плагинов и в том числе Wolfram Alpha 🔥🔥

Ждите апдейтов, но к сожалению сегодня не хватает времени проверить всё как следует 🌚

Читать полностью…

Futuris

12 мая 2023 10:50

В преддверии лета, наши друзья и партнеры из tech-сообщества 100CAPTAINS проводят масштабное мероприятие под названием 🌊⛵️TECHNO SAIL CAMP⛵️🌊 С 24 июня по 1 июля, Турция станет эпицентром обсуждения главных трендов технологической индустрии.

В этом году, ключевой темой станет взаимодействие между человеком и AI. Но не стоит думать, что это единственное, о чем пойдет речь на мероприятии. В программе заявлены три основных трека:

TechTrends 23:
-Tech тренды 2023 года.
-Технологии и человек.
-Growth mindset: Тренд или реальная наука роста предпринимателя и компании?

Human:
-Employee and Entrepreneur Journey Map.
-Инвестиции в человеческий капитал.
-Talent Management.

AI, ML & Data Science:
-Люди или машины построят будущее?
-ChatGPT. Влияние нового поколения нейросетей на мир и бизнес.
-Data Science: жизненный цикл, приложения и инструменты.
-Философия искусственного интеллекта.

7 дней под парусом, море, яхты, 120+ крутых участников, гонки, красивейшие локации и продуманная community-программа🔥 Так что, если вы хотите быть в курсе последних технологических трендов, зарегистрируйтесь на TECHNO SAIL CAMP уже сегодня✨

Прямой контакт для уточнения деталей и регистрации @Irina_Priv

Читать полностью…

Futuris

11 мая 2023 11:26

Коротко об ежегодном ивенте Google I/O.

Гугл, как бы сказать, теперь в позиции догоняющего в AI гонке. Решили оверкомпенсировать.

Слово "эйай" произнесли со сцены 146 раз. В итоге цена акций выросла чуть меньше чем на 5% (слабовато), что примерно по $1млрд роста капитализации на каждые три произнесенные слова "эйай".

@ai_newz

Читать полностью…

Futuris

10 мая 2023 21:00

Google представил новый AI для поиска в интернете, но сначала он будет доступен по списку ожидания

Google представил новый генеративный AI для поиска - Search Generative Experience (SGE)

SGE позволяет задавать сложные вопросы, вместо того чтобы разделять различные элементы вашего запроса. Ответы SGE отображаются зеленым цветом на верху страницы результатов. SGE также может предоставлять инструкции и предложения, например помогать в выборе продуктов с предложением соответствующих ссылок на магазины и последние цены.

SGE пока находится в стадии эксперимента. Для доступа к нему потребуется записаться в список ожидания через Google Search Labs✨

https://bgr.com/tech/google-search-generative-experience-is-a-new-ai-for-online-search-but-theres-a-waitlist/

Читать полностью…

Futuris

10 мая 2023 20:17

Google добавляет множество новых функций к своему AI-чатботу Bard, включая поддержку новых языков, упрощенные способы экспорта текста в Google Docs и Gmail, визуальный поиск и темный режим. Также обещаются будущие функции, такие как генерация изображений с помощью AI от Adobe и интеграция с сторонними веб-сервисами🔥 (аналог плагинов в ChatGPT), такими как Instacart и OpenTable, Wolfram Alpha (Видел на слайде во время презентации🤓)

В целом, это большой шаг вперед для Google в конкуренции с OpenAI и Microsoft

https://www.theverge.com/2023/5/10/23718066/google-bard-ai-features-waitlist-dark-mode-visual-search-io

Читать полностью…

Futuris

10 мая 2023 18:56

Через 5 минут начнется Google I/O и все ждут что гугл хоть что-то интересное покажет для ответа Open AI/Microsoft, подключайтесь если нечего делать.

Про то что понравится мне больше всего, я напишу отдельно.

Ссылка:
https://youtu.be/cNfINi5CNbY

Читать полностью…

Futuris

10 мая 2023 08:40

Компания OpenAI разработала новый инструмент, который помогает понять, как работают большие языковые модели (LLM), такие как ChatGPT. Инструмент автоматически определяет, какие части LLM отвечают за их поведение.

Инструмент использует языковую модель GPT-4 для выявления функций компонентов других, более простых по архитектуре LLM, в частности, GPT-2 от OpenAI. Он анализирует активность отдельных "нейронов" в модели и с помощью GPT-4 генерирует объяснения их функций.

Создатели инструмента смогли сгенерировать объяснения для всех 307,200 нейронов в GPT-2, которые они скомпилировали в датасет и выпустили вместе с кодом инструмента.

Однако, инструмент все еще находится на начальной стадии разработки🤓

А ещё тут Meta представила новую открытую AI-модель ImageBind, которая объединяет шесть видов данных: текст, аудио, визуальные данные, движение, температурные показатели и данные о глубине. Несмотря на то, что это пока только проект исследования, он намечает перспективы развития генеративных AI-систем, способных создавать мультисенсорные впечатления.

ImageBind – первая модель, объединяющая столь много типов данных в одном многомерном пространстве, что может стать основой для создания более продвинутых систем AI в VR.

В Meta отмечают, что в будущем возможно добавление дополнительных потоков сенсорного ввода, таких как касание, речь, запах и сигналы мозга fMRI🧠

Читать полностью…

Futuris

07 мая 2023 10:08

Попросил GPT-4 расшифровать что же означает название чат бота Bing и увлёкся 😅теперь мне кажется, что маркетинговые отделы этих компаний обязаны использовать ChatGPT аналогичным образом 😜

#gpt_4 #experiments #fun

Читать полностью…

Futuris

05 мая 2023 11:05

News Minimalist - очередной GPT-4 эксперимент, созданный одним человеком, где ИИ-агрегатор читает более 1000 новостей за день и ранжирует их по значимости и актуальности, что определяется на основе масштаба, потенциального влияния и достоверности источника🤖

Читать полностью…

Futuris

03 мая 2023 17:33

Пользователи в сети нашли способ запускать HuggingChat прямо в Python (без необходимости регистрации и получения API), а я ещё и специальное окошко для чата сделал с помощью ChatGPT🌚

В общем держите бесплатный чат-бот уровная GPT-3.5 (может чуть менее интеллектуальный) с анлимом на сообщения:

Установите библиотеку hugchat через pip:
pip install hugchatСоздайте файл с именем huggingchat_app.py и добавьте следующий код:

import tkinter as tk
from tkinter import ttk
from hugchat import hugchat

# Создание объекта чат-бота
chatbot = hugchat.ChatBot()

# Функция для отправки сообщения и получения ответа от чат-бота
def send_message():
    message = user_input.get()
    response = chatbot.chat(message)

    chat_history.configure(state='normal')
    chat_history.insert(tk.END, f"Вы: {message}\n")
    chat_history.insert(tk.END, f"Бот: {response}\n")
    chat_history.configure(state='disabled')

    user_input.delete(0, tk.END)

# Создание окна приложения
app = tk.Tk()
app.title("HuggingChat App")

# Создание виджетов
chat_history = tk.Text(app, wrap='word', state='disabled', width=60, height=20)
user_input = ttk.Entry(app, width=50)
send_button = ttk.Button(app, text="Отправить", command=send_message)

# Размещение виджетов на экране
chat_history.grid(row=0, column=0, columnspan=2, padx=10, pady=10)
user_input.grid(row=1, column=0, padx=10, pady=10)
send_button.grid(row=1, column=1, padx=10, pady=10)

# Запуск главного цикла приложения
app.mainloop()

Можете и сами поэкспериментировать, исходный код на github

P.S.
Только у меня он не видит контекст беседы, видимо ограниченный доступ всё-таки, но лучше чем ничего

Читать полностью…

Futuris

03 мая 2023 09:28

🔥Международная команда исследователей из различных университетов представила AudioGPT: многофункциональную AI-систему, соединяющую ChatGPT с аудио🎙

AudioGPT способен обрабатывать и генерировать различные виды аудиоконтента, включая:

Речь: модель может создавать синтезированную речь с заданными параметрами, такими как интонация, тембр и акцент. Это позволяет генерировать естественные и выразительные устные ответы на вопросы пользователей.

Музыка: модель может анализировать и создавать музыкальные композиции или мелодии, учитывая стиль, жанр и структуру.

Звуки: AudioGPT может распознавать и создавать разнообразные звуки, такие как звуки природы, городские шумы или звуковые эффекты, которые могут быть использованы в мультимедийных проектах или для поддержания общения с пользователем.

Talking heads (говорящие головы): модель может анализировать и создавать видео с говорящими головами, которые синхронизированы с генерируемой речью. Это позволяет создавать виртуальных персонажей, способных общаться с пользователем в видеоформате.

Процесс AudioGPT состоит из четырех этапов:

Трансформация модальности: преобразование речи в текст для более эффективного общения между моделями.
Анализ задач: определение намерений пользователя.
Назначение модели: выбор аудио-моделей для понимания и генерации речи, музыки и звуков.
Дизайн ответа: генерация и предоставление пользователю окончательного ответа после обработки аудио-моделями основы.

Таким образом, AudioGPT может создавать разнообразный аудиоконтент для различных приложений и сценариев использования, таких как виртуальные ассистенты, музыкальное творчество, создание звуковых эффектов и мультимедийное общение.

Ждём новых крутых продуктов на основе этой модельки✨, а пока Github проекта

И пощупать на Huggingface

Читать полностью…

Подписаться на канал