🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
Новая модель StyleTTS 2
для преобразования текста в речь (TTS
), которая использует диффузию стилей и состязательное обучение с большими моделями языка речи (SLM
) для достижения синтеза речь на человеческом уровне.
StyleTTS 2 отличается от своих предшественников тем, что моделирует стили как скрытую случайную переменную с помощью диффузионных моделей для генерации наиболее подходящего стиля для текста, без эталонных примеров.
В данной работе впервые достигнут синтез TTS на человеческом уровне как на одноязычных, так и на многоязычных наборах данных.
🖥 Github: https://github.com/yl4579/StyleTTS2
🔥Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/
⚡️ Demo: https://huggingface.co/spaces/styletts2/styletts2
📚 Paper: https://arxiv.org/abs/2306.07691
🌟 Demo: https://seamless.metademolab.com/expressive
🥩 Page: styletts2.github.io
@ai_machinelearning_big_data
🪞 Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models
Это самая крутая работа диффузии, за последнее время! Она генерирует визуальные анаграммы - тип оптической иллюзии, когда изображение выглядит как одно, но при трансформации меняет вид на другое.
Метод работает с любыми ортогональными матрицами преобразования, которые, включают вращение и перестановку.
Интуитивно понятно, что метод сначала инвертирует шум от нескольких преобразований изображения (с разными текстовыми промптами), а затем усредняет их.
После работы диффузии усредненного шума, результирующее изображение превращается в анаграмму, соответствующую тексту в разных ракурсах.
При этом требуется совсем немного вычислений, используется предварительно обученная стабильная диффузия.
Простая, элегантная техника для непрофессионалов, позволяющая создавать интересные произведения искусства!
🖥 Code: https://github.com/dangeng/visual_anagrams
🌟 Colab: https://colab.research.google.com/drive/1hCvJR5GsQrhH1ceDjdbzLG8y6m2UdJ6l?usp=sharing
🔥 Project: https://dangeng.github.io/visual_anagrams/
📚 Paper: https://arxiv.org/abs/2311.17919
@ai_machinelearning_big_data
⭐️ LEDITS++: Limitless Image Editing using Text-to-Image Models
LEDITS++ модель, которая выводит редактирование изображений текcтом на новый уровень.
LEDITS++:
- быстрый 🚀
- универсальный 🎨
- привязывает изменения к соответствующим областям 🎑
- не зависит от архитектуры ⚙️
🖥 Code: https://huggingface.co/spaces/editing-images/leditsplusplus/tree/main
🔥 Project: https://leditsplusplus-project.static.hf.space/index.html
🦾 Demo: https://huggingface.co/spaces/editing-images/leditsplusplus
📚 Paper: https://arxiv.org/abs/2311.16711
@ai_machinelearning_big_data
🔥Building and Evaluating Advanced RAG Applications
Вышел новый бесплатный курс от deeplearning.ai по сложным техникам RAG (Retrieval Augmented Generation
).🦾
В этом курсе преподаются продвинутые техники работы с LLM, которые помогут вам генерировать хорошие и релевантные ответы и.
deeplearning.ai/short-courses/building-evaluating-advanced-rag/
@ai_machinelearning_big_data
🚀 Graph Prompt Learning: A Comprehensive Survey and Beyond
Это репозиторий призван предоставить список научных работ, в которых исследуются промпты для работы с графами.
🖥 Code: https://github.com/wxxshirley/awesome-graph-prompt
🦾 Project: https://graphprompt.github.io/
📚 Paper: https://arxiv.org/abs/2311.16534v1
@ai_machinelearning_big_data
🪄 Introducing SDXL Turbo: A Real-Time Text-to-Image Generation Model
SDXL Turbo: Модель генерации текста в изображение в режиме реального времени.
SDXL Turbo достигает высочайшей производительности благодаря новой технологии дистилляции, позволяющей создавать изображения за 1 шаг с беспрецедентным качеством, сокращая количество необходимых шагов с 50 до одного.
Доступны: код, статья, веса.
Вы можете протестировать SDXL Turbo на платформе для редактирования изображений Stability AI. с бета-версией демонстрации возможностей генерации текста в изображение в режиме реального времени.
🖥 Code: https://stability.ai/news/stability-ai-sdxl-turbo
🦾 Demo: https://clipdrop.co/stable-diffusion-turbo
🔥 Model weights → https://huggingface.co/stabilityai/sdxl-turbo
📚 Paper:https://stability.ai/research/adversarial-diffusion-distillation
@ai_machinelearning_big_data
📐 Sketch Video Synthesis
Новая модель для создания скетчей из видео, представленных покадровыми кривыми Безье.
🖥 Code: https://github.com/yudianzheng/sketchvideo
🦾 Project: https://sketchvideo.github.io/
📚 Paper: https://arxiv.org/abs/2311.15306v1
@ai_machinelearning_big_data
Бесплатный доступ к российской облачной платформе и скидка 30% на все сервисы в 2024 году
Провайдер облачных и AI-технологий Cloud․ru создает платформу Cloud․ru Evolution — публичное облако на базе собственных разработок и свободно распространяемых компонентов.
До конца 2023 года Cloud․ru предлагает интересные условия: 30 дней бесплатного доступа к виртуальным машинам и контейнерам и скидку 30% на все сервисы платформы в 2024 году.
Преимущества платформы Cloud․ru Evolution:
😶🌫️ импортонезависимость;
😶🌫️ инфраструктура в дата-центрах уровня Tier III и соответствие 152-ФЗ;
😶🌫️ передовые облачные сервисы без legacy-компонентов;
😶🌫️ оплата только использованных или выделенных ресурсов;
😶🌫️ детальная документация и простой интерфейс на русском языке.
➡️ Подробнее о платформе и специальных условиях на сайте компании: cloud.ru/evolution
⚠️Как специалисту по машинному обучению попасть в крупную компанию?
Освоить востребованный скилл на бесплатном открытом уроке «Ассоциативные правила в теории рекомендательных систем» от OTUS и Марии Тихоновой – Senior Data Scientist в «SberDevices» и преподавателя ВШЭ.
🔹На вебинаре вы изучите теорию ассоциативных правил и примените полученные знания на практике
🔹Узнаете, как искать ассоциативные правила в покупательских корзинах и сможете находить ассоциативные правила в рекомендательных системах инструментами Python.
Занятие пройдёт 4 декабря в 18:00 мск и будет приурочено к старту курса «Machine Learning. Professional».
👉 Регистрация
https://otus.pw/ZU6T/?erid=LjN8KZz76
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
♟ ChessVision - A dataset for logically coherent multi-label classification.
Набор данных с изображениями шахматных досок в различных позициях.
🖥 Github: https://github.com/wojciechkusa/systematic-review-datasets
📕 Paper: https://arxiv.org/pdf/2311.12474v1.pdf
✨ Tasks: https://paperswithcode.com/task/question-answering
🔥Datasets: https://paperswithcode.com/dataset/blurb
@ai_machinelearning_big_data
🎮 Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
В данной работе показано, что языковые модели (ЯМ), могут приобретать новые возможности за счет ассимиляции параметров однотипных моделей без переобучения или использования графических процессоров.
🖥 Code: https://github.com/yule-BUAA/MergeLM
📚 Paper: https://arxiv.org/abs/2311.03099
🔗 Dataset: https://paperswithcode.com/task/instruction-following
@ai_machinelearning_big_data
🔥 Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models.
Модель для формирования панорамных изображений 360
на основе стабильной диффузии.
🖥 Code: https://github.com/archerfmy/sd-t2i-360panoimage
📚 Paper: https://arxiv.org/abs/2311.13141v1
🔗 Dataset: https://paperswithcode.com/dataset/sun360
@ai_machinelearning_big_data
🗣 HierSpeech++: Bridging the Gap between Semantic and Acoustic Representation by Hierarchical Variational Inference for Zero-shot Speech Synthesis
Синтез речи на основе больших языковых моделей получил широкое распространение.
Однако такие модели требуют большого объема данных и обладают теми же недостатками, что и предыдущие авторегрессионные модели речи, включая низкую скорость вывода и плохое качетсво речи.
В данной работе прелставлен HierSpeech++
, быстрый и надежный синтезатор речи для преобразования текста в речь (TTS
) и голоса (VC
).
Данная модель синтеза речи позволяют значительно повысить надежность и выразительность синтетической речи.
Кроме того, значительно улучшено естественность и сходство с диктором синтетической речи даже в сценариях синтеза речи с нулевым результатом.
🖥 Code: https://github.com/sh-lee-prml/hierspeechpp
🦾 Checkpoint: https://drive.google.com/drive/folders/1-L_90BlCkbPyKWWHTUjt5Fsu3kz0du0w?usp=sharing
⚡️ Demo: https://sh-lee-prml.github.io/HierSpeechpp-demo/
📚 Paper: https://arxiv.org/abs/2311.12454v1
🔗 Dataset: https://paperswithcode.com/dataset/libri-light
@ai_machinelearning_big_data
Что происходит в образовании с приходом AI? Как найти работу в сфере IT и какие навыки для этого нужны? Можно ли их получить в университете?
Узнайте на четвёртой конференции Yet another Conference on Education от Яндекса. Посмотреть записи конференции и получить инсайды от экспертов из IT можно прямо сейчас.
Горячая ссылка с пылу с жару ждет тебя.
🔥 Seamless: Multilingual Expressive and Streaming Speech Translation
Модели Seamless получили обновления и доступны для использования.
Новая веха в исследованиях в области бесшовной коммуникации и пеервода - семейство моделей перевода на основе искусственного интеллекта, которые сохраняют выразительность и обеспечивают потоковый перевод практически в режиме реального времени.
🔥Hugging face demo: https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724
⚡️ BLog: https://ai.meta.com/blog/seamless-communication/
📚 Paper: https://scontent.fbkk5-5.fna.fbcdn.net
🌟 Demo: https://seamless.metademolab.com/expressive
🖥 Github: https://github.com/facebookresearch/seamless_communication
@ai_machinelearning_big_data
Приглашаем на главное BI-событие декабря — Yandex DataLens Festival!
В этом году будет ещё интереснее! Вас ждут 2 недели полезного контента от экспертов:
⭐️ Yandex Cloud. Как построить аналитику в облаке
⭐️ MAXIMUM Education. Как переезд с Power BI расширил число пользователей аналитики
⭐️ Ренессанс Страхование. Как построить систему знаний и обучения BI
⭐️ CARCADE. Как организовать работу 1000 пользователей BI в финсекторе
⭐️ YCLIENTS. Как анализировать работу команды разработки
⭐️ Reveal the Data aka Роман Бунин. Сколько живёт дашборд и как увеличить время его жизни
Помимо этого, ведущие разработчики DataLens и YTsaurus поделятся рецептами, как готовить опенсорс, а именно:
🛠 как развернуть у себя
🛠 как кастомизировать UI
🛠 как настроить базовую аутентификацию
🛠 как интегрировать с YTsaurus
Будет много нетворкинга — разберём вопросы на Q&A-сессии и пообщаемся вживую на афтерпати. Ну и какой фестиваль без конкурсов и сюрпризов 🎁
Участие бесплатное, нужно только ➡️ зарегистрироваться
Нейросетевой мир уже победил, большой брат следит за вами
ChatGPT и MidJourney сделали нейросети популярными и известными. Но на деле ИИ начали активно использовать для слежки за людьми еще в 2000-x годах. Вы ведь слышали про машинное зрение?
Нейросети внимательно смотрят, как мы работаем, что покупаем в магазине по акции и где паркуем авто. Они анализируют, подсчитывают и каталогизируют нас и все, что мы производим.
Мы с командой начали осваивать машинное зрение еще в далекие досанкционные. И теперь знаем, как бизнесу грамотно применить нейросети в рознице и сократить затраты на персонал и рутинные операции.
Давайте будем знакомы. Мы Destech — системный интегратор. Поставляем оборудование и ПО, связываем технические системы между собой и устанавливаем на объекты — от Шереметьево и до колледжей РЖД.
Собираем в одно комьюнити всех, у кого душа болит за российский айти. Делимся кейсами, закидываем интересные мероприятия для технарей, болтаем о нейросетях. Подписывайтесь
Реклама. ООО “Проектные технологии” ИНН 7718654563 erid: 2SDnjcknxCp
Салют, GigaChat!
Речевые технологии и большие языковые модели.
Приглашаем ML-разработчиков и Data Science-специалистов на встречу с командами разработки продакшен GigaChat и речевых технологий.
📍 Онлайн / Офлайн в Москве
🗓 4 декабря в 18:00 (МСК, GMT+3)
В программе:
✔ Григорий Лелейтнер — «Что мы улучшили в процессе pre-training LLM»
✔ Эмиль Шакиров и Никита Сидоров — «Наш путь в процессе Alignment для совершенства моделей глубокого обучения»
✔ Александр Максименко — «Speech-only Pre-training: обучение универсального аудиоэнкодера»
✔ Григорий Федоров — «Intended Query Detection: распознаем только нужные запросы»
✔ Гриша Стерлинг — «Как мы заставили модель синтеза речи 2023 года говорить лучше модели 2018 года»
Участвуйте в дискуссиях с другими участниками митапа и задавайте вопросы спикерам во время докладов.
Количество мест в офлайне ограничено. Для участия необходимо зарегистрироваться на сайте.
Реклама. ПАО Сбербанк. ИНН 7707083893.
9 практик, которые улучшат ваш ML-проект
💬"Я лучше в DL буду развиваться, инженерную часть обойду стороной" — в 2023 году такое не могут себе позволить даже ресерчеры)
Любой исследователь обойдет коллег, если будет проверять больше гипотез, не будет путаться в данных и экспериментах, умеет обучать большие модели и облегчать их с минимальными потерями качества. Поэтому даже в ресерче приходится разбираться с автоматизацией, версионированием, логгированием, ускорением, паралелльными вычислениями, ... — что уж говорить про инженеров, работающих в продуктовых компаниях.
Ребята из школы DeepSchool решили помочь ML-специалистам перенять инженерные практики в свои проекты и подготовили мастер-класс где расскажут, как за 9 шагов придти к репозиторию, за который не стыдно перед коллегами.
А именно обсудят:
1️⃣ как сделать эксперименты воспроизводимыми
2️⃣ какие инструменты помогут повысить качество кода
3️⃣ как ускорить и облегчить свою работу
А также представят программу курса “Computer Vision Rocket” и подарят скидки на обучение!🎁
🙋♂️Спикер лекции — Егор Осинкин, Lead CV Engineer, EPAM
Регистрируйтесь по ссылке. В телеграм-боте ребята также поделились анализом вакансий из slack ods и singularis📊 показали связь между грейдами, требованиями и окладами, динамику зарплат в USD и RUB по грейдам, а также поделились размеченными данными и ноутбуком!
Зарегистрироваться
erid: LjN8Kaf4x
✔️ Хочешь видеть реальные результаты от ML?
Учить правильно их внедрять и сопровождать
MLOps — все более популярный среди компаний способ повышения производительности и создания надежных моделей корпоративного уровня.
✅ Владение инструментами MLOps открывает новые карьерные горизонты специалистам ML, Data Scientist’ам и Software инженерам.
👉 Пройдите тестирование и получите список полезных инструментов MLOPS
➡️Получить список инструментов
https://otus.pw/D5re/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
👩💻 Запустили Программу грантов Yandex Open Source. Каждый год будем вознаграждать независимых разработчиков, которые создают и поддерживают проекты с открытым исходным кодом.
🔗 Подавайте заявки уже сегодня, все подробности про программу — в карточках.
👀 А если хотите разобраться, в чём смысл проектов с отрытым исходным кодом, смотрите yet another podcast про опенсорс.
Подписывайтесь 👉 @yandex
🔵Differentiable and accelerated spherical transforms with JAX
Новые алгоритмы для ускоренного и дифференцируемого вычисления обобщенных преобразований Фурье на сфере и группы вращения т.е. сферических гармонических преобразований и преобразований Вигнера.
Новый гибридный подход к автоматическому и ручному дифференцированию, позволяющий эффективно вычислять градиенты.
Алгоритмы реализованы в рамках дифференцируемого программирования JAX
.
🖥 Code: https://github.com/astro-informatics/s2fft
🦾 Project: https://astro-informatics.github.io/s2fft/
📚 Paper: https://arxiv.org/abs/2311.14670v1
@ai_machinelearning_big_data
🦜🦴Skeleton-of-Thought (новый шаблон LangChain!)
⭐️Большие Языковые модели могут работать параллельно и быстро⭐️.
В недавней работе Университета Цингуа и Microsoft Research показано, как можно значительно уменьшить время генерации LLM.
Данная техника сначала направляет LLM на генерацию скелета answer
☠️, а затем выполняет параллельные вызовы API для параллельного заполнения содержимого каждой точки скелета🚤.
▪Шаблон LangChain здесь: https://github.com/langchain-ai/langchain/tree/master/templates/skeleton-of-thought.
▪Посмотрите видео на YouTube о его создании: https://youtube.com/watch?v=wLRHwKuKvOE
▪Прочитать статью здесь: https://arxiv.org/abs/2307.15337
@ai_machinelearning_big_data
🖥 Swift Parameter-free Attention Network for Efficient Super-Resolution
Сверхразрешение изображений (SISR) - важнейшая задача низкоуровневого компьютерного зрения, направленная на восстановление изображений высокого разрешения по их аналогам низкого разрешения.
Традиционные механизмы внимания значительно улучшили производительность SISR, но такие механизмы часто приводят к сложной структуре сети и большому количеству параметров, что приводит к низкой скорости вывода и большому размеру модели.
Parameter-free Attention Network (SPAN) - новая высокоэффективная модель SISR, которая позволяет сбалансировать количество параметров, скорость вывода и качество изображения.
В SPAN используется новый механизм внимания без параметров, который использует симметричные функции активации для усиления качества генерации и подавления избыточной информации.
SPAN был протестирован на нескольких бенчмарках,которые показали что она превосходит существующие модели суперразрешения как по качеству изображения, так и по скорости вывода, достигая компромисса между качеством и скоростью.
Это делает SPAN весьма пригодной для использования в реальных приложениях, особенно в случаях с ограниченными ресурсами.
🖥 Code: https://github.com/hongyuanyu/span
🦾 Checkpoint: https://drive.google.com/file/d/1iYUA2TzKuxI0vzmA-UXr_nB43XgPOXUg/view?usp=sharing
📚 Paper: https://arxiv.org/abs/2311.12770v1
🔗 Dataset: https://paperswithcode.com/dataset/manga109
@ai_machinelearning_big_data
@Axenix_Ru — канал о развитии ИТ-консалтинга и цифровизации бизнеса.
Здесь команда Axenix (ex-Accenture) делится 30-летним опытом разработки и внедрения бизнес- и ИТ‑стратегий, исследованиями рынка ИТ-консалтинга, анонсами бизнес-форумов и новейшими технологическими разработками.
— Может ли сверхразумный ИИ нести в себе угрозу глобального уничтожения?
— Почему разработка голосовых помощников все еще единичная практика, а не тенденция?
— 10 сфер применения технологий «умного города» и причем тут ИИ?
— Почему «магазин будущего» до сих пор не появился, несмотря на развитие цифровых технологий?
Подписывайтесь на канал Axenix, чтобы следить за ИТ-консалтингом страны и развивать бизнес вместе с экспертами.
Реклама. ООО "АКСТИМ". ИНН 7705476338. erid: LjN8KCNtk
Решаем ML-задачи за 60 секунд, отправляем AI торговать на бирже и изучаем мультимодальную архитектуру — на онлайн-митапе Сбера при поддержке JUG Ru Group.
🗓 29 ноября в 18:00
В программе:
✔️ Александр Рыжков — «AutoML на практике: сделать AI за 60 секунд»Александр покажет, как быстро решать ML-задачи с использованием фреймворка LightAutoML.
✔️ Андрей Ахметов — «AI/ML в валютном трейдинге»
Как зарабатывают с AI в трейдинге, какие ML-модели используют, как анализируют данные и оценивают их результаты.
✔️ Андрей Кузнецов — «Мультимодальная архитектура OmniFusion — новый способ AI-коммуникации с пользователем?»
Доклад создании больших языковых моделей, способных одинаково хорошо работать с текстом и видео. А также о коммуникации моделей между собой.
Общайтесь с участниками митапа и задавайте вопросы спикерам в чате трансляции. Авторы лучших вопросов к каждому докладу получат сертификаты в магазин мерча SberShop.
➡️ Регистрация по ссылке.
Реклама. ПАО СБЕРБАНК. ИНН 7707083893.
Профессия AI-тренера, гонка нейросетей: о чем еще говорили на YaC 2023?
YaC 2023 — это сериал из 4 серий — про город, дом, интернет и людей. Главные герои — не только сервисы, но и команды, которые их разрабатывают.
✨ Нейросерия — одна из самых интересных. Яндекс рассказал:
- как генеративные нейросети меняют подход к поиску информации и работе с ней
- как pretrain модель влияет на качество ответов нейросети
- как компания разрабатывала языковые модели и нейросети, встраивала технологии в свои продукты и ввела новую профессию AI-тренера — специалиста, который работает над тем, чтобы нейронка выдавала качественные, этичные и безопасные ответы.
Посмотреть сериал полностью можно на Кинопоиске и Ютубе
@ai_machinelearning_big_data
🤖 Российская художница написала картину совместно с Kandinsky
Мария Суворова использовала ИИ для создания картин, уделив особое внимание логическому расположению цвета и тона. Такая методика предполагает установление баланса тона, цвета и динамики, что похоже на очень сложный аналитический процесс.
Суворова говорит, что для работы с Kandinsky нужно соединить два полюса, создавая эскиз по методу Матисса и постепенно дополнять его абстрактным видением.
Плоды ее творчества человека и искусственного интеллекта представила галерея «МастАРТ» на международной конференции AI Journey.
@ai_machinelearning_big_data
⭐️ Karpathy just uploaded what could be the best Intro to Large Language Models.
Обязательно к просмотру. Карпатый только что выложил, возможно, лучшее введение в большие языковые модели.
В лекции продолжительностью 1 час рассматривается абсолютно все: обучение, вывод, взлом, тонкая настройка и многое другое.
🔗 Смотреть здесь: https://youtube.com/watch?v=zjkBMFhNj_g
🔗 Слайды: https://drive.google.com/file/d/1pxx_ZI7O-Nwl7ZLNk5hI3WzAsTLwvNU7/view
ai_machinelearning_big_data