🔥 Deep Learning Tuning Playbook
This document is for engineers and researchers (both individuals and teams) interested in maximizing the performance of deep learning models.
Этот репозиторий-книга от специалистов Google Research с практическими советами по максимальному повышению производительности моделей глубокого обучения.
🖥 Github
📌Reddit
@ai_machinelearning_big_data
🎧 Msanii: High Fidelity Music Synthesis on a Shoestring Budget
Model combines the expressiveness of mel spectrograms, the generative capabilities of diffusion models, and the vocoding capabilities of neural vocoders.
Новая модель на основе диффузии для эффективного синтеза длинной музыки высокого качества.pip install -q git+https://github.com/Kinyugo/msanii.git
🖥 Github: https://github.com/kinyugo/msanii
⭐️ Demo: https://kinyugo.github.io/msanii-demo/
⭐️ Colab: https://colab.research.google.com/github/Kinyugo/msanii/blob/main/notebooks/msanii_demo.ipynb
✅️ Paper: https://arxiv.org/abs/2301.06468
🤗Hugging face: https://huggingface.co/spaces/kinyugo/msanii
@ai_machinelearning_big_data
👨🎓 CS224W: Machine Learning with Graphs Free Course from Stanford
Topics include: representation learning and Graph Neural Networks; algorithms for the World Wide Web; reasoning over Knowledge Graphs; influence maximization; disease outbreak detection, social network analysis.
Шикарный бесплатный курс от Стенфорда, с которым вы изучите структуру графов и их особенности и применения в мо, научитесь строить графовые нейронные сети. Новые лекции, колабы и слайды выходят по вторникам и четвергам.
🔥 Course 2023
📌 Video Lectures 2021
🤗Intro to Graph Machine Learning
ai_machinelearning_big_data
🖼 Image Similarity with Hugging Face Datasets and Transformers
In this post, you'll learn to build an image similarity system wich Transformers.
Полезная статья, с которой вы создадите систему поиска сходства изображений с помощью Transformers. Можно немного попрактиковаться и попробовать другие модели.
🤗 Huggingface
🖥 Github
🖥 Colab
@ai_machinelearning_big_data
🔥 Neural Deferred Shading
Новая быстрая многоракурсная 3D-реконструкция с произвольными объектами и настраиваемым освещением.
🖥 Github: github.com/fraunhoferhhi/neural-deferred-shading
⭐️ Project: fraunhoferhhi.github.io/neural-deferred-shading
✅️ Paprer: https://mworchel.github.io/assets/papers/neural_deferred_shading_with_supp.pdf
⏩ Pyremesh : https://github.com/sgsellan/botsch-kobbelt-remesher-libigl
❤️Video: https://www.youtube.com/watch?v=nIqmuylmpFY
ai_machinelearning_big_data
🔊 Audio-Visual Efficient Conformer for Robust Speech Recognition
Улучшенный метод чтения по губам, с помощью архитектуры Conformer Connectionist Temporal Classification (CTC) для обработки аудио и видео.
🖥 Github
✔️ Paper
🔥Notebook
🚀 Models
@ai_machinelearning_big_data
🔥 Yolo8 is coming!
На github вылложили веса.
Обновилась документация.
🖥 Github
✔️ Docs
🖥 Colab
@ai_machinelearning_big_data
🚀 ConvNeXt V2
Meta выпустила ConvNeXt V2 на PyTorch для 8 видов моделей (Atto, Femto, Pico, Nano, Tiny, Base, Large, Huge), код обученной модели, настройки и веса (преобразованные из весов JAX, обученных на TPU) для ConvNeXt V2. х. ConvNets работал лучше, чем Трансформеры для задач компьютерного зрения, а ConvNeXt V2, значительно превосходит производительность сетей ConvNet на тестах.
🖥 Github: https://github.com/facebookresearch/convnext-v2
⭐️ Paper: https://arxiv.org/abs/2301.00808v1
⏩ Dataset: https://paperswithcode.com/dataset/coco
@ai_machinelearning_big_data
🚛 The Forward-Forward Algorithm: Some Preliminary Investigations
Цель этой статьи — представить новую процедуру обучения для нейронных сетей и продемонстрировать, что она работает хорошо на нескольких небольших задачах и заслуживает внимания для дальнейшего изучения. Алгоритм Forward-Forward заменяет метод прямого распространения и метод обратного распространения двумя прямыми проходами, один с положительными (то есть реальными) данными, а другой с отрицательными данными, которые сгенерированы самой сетью. Forward-Forward не требует вычисления функции потерь по отношению к параметрам сети. Вместо этого каждый шаг оптимизации может выполняться локально, а веса каждого слоя могут обновляться сразу же после того, как слой отработал.
git clone https://github.com/nebuly-ai/nebullvm.git
cd nebullvm/apps/accelerate/forward_forward
🖥 Github: https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/forward_forward
⭐️ Paper: https://arxiv.org/abs/2212.13345v1
⏩ Dataset: https://paperswithcode.com/dataset/cifar-10
@ai_machinelearning_big_data
✅️ JRBD: Egocentric Perception of Humans
Стэнфорд JRDB-Pose: набор размеченных данных с более чем 600 000 позами тел.
⭐️ Dataset: https://jrdb.erc.monash.edu/
🖥 Github: https://github.com/JRDB-dataset/jrdb_toolkit/
⏩ JRDB-Pose: https://jrdb.erc.monash.edu/dataset/pose#toolkit
✅ Paper: arxiv.org/pdf/1910.11792.pdf
@ai_machinelearning_big_data
❄️ ClimateNeRF: Extreme Climate NeRF
Climate NeRF — позволяет визуализировать последствия изменения климата. ClimateNeRF может генерировать реалистичные погодные эффекты, включая смог, снег и наводнение. Результаты можно контролировать с помощью физически значимых переменных, таких как уровень воды и количества осадков.
✅ Project: https://climatenerf.github.io
📃 Paprer: arxiv.org/pdf/2211.13226.pdf
📊 FastPhotoStyle: https://github.com/NVIDIA/FastPhotoStyle
@ai_machinelearning_big_data
🖥 Introduction To Functional Analysis
Шикарный бесплатный курс от MIT по Функциональному анализу. 23 лекции и конспекты.
📃 Курс
📊 Материалы
🖥 Видео
@ai_machinelearning_big_data
🖥 PICARD: Parsing Incrementally for Constrained Auto-Regressive Decoding from Language Models
Интересная модель, которая переводит запросы на естественном языке в запрос SQL.$ git clone git@github.com:ElementAI/picard.git
$ cd picard
$ git submodule update --init --recursive
🖥 Github: https://github.com/ServiceNow/picard
⏩ Paprer: https://arxiv.org/abs/2109.05093v1
✔️ Dataset: https://paperswithcode.com/dataset/spider-1
@ai_machinelearning_big_data
⭐️ Generalized Decoding for Pixel, Image, and Language
X-Decoder - первая модель, которая поддерживает все типы сегментации изображений, способной эффективно решать различные задачи CV и VL.
🖥 Github: https://github.com/microsoft/X-Decoder
🤗 Hugging Face Demo: https://huggingface.co/spaces/xdecoder/Demo
⭐️ Project: https://x-decoder-vl.github.io/
⏩ Paprer: https://arxiv.org/pdf/2212.11270.pdf
✔️ Dataset: https://paperswithcode.com/dataset/visual-genome
@ai_machinelearning_big_data
⭐️ BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting
Модель BLOOM — это большая многоязычная модель с открытым исходным кодом, способная к обучению с нуля, предварительно обученная на 46 языках.
🖥 Github: https://github.com/bigscience-workshop/multilingual-modeling
⏩ Paprer: https://arxiv.org/abs/2212.09535v1
✔️ Dataset: https://paperswithcode.com/dataset/xp3
@ai_machinelearning_big_data
✅ Multiview Compressive Coding for 3D Reconstruction
Multiview Compressive Coding (MCC), learns to compress the input appearance and geometry to predict the 3D structure by querying a 3D-aware decoder
MCC — это новый подход к 3D-реконструкции по одному изображению RGB-D от Meta .pip install h5py omegaconf submitit
🖥 Github: https://github.com/facebookresearch/mcc
⭐️ Project: https://mcc3d.github.io/
✅️ Paper: https://arxiv.org/abs/2301.08247
⭐️ Dataset: https://github.com/facebookresearch/MCC/blob/main/DATASET.md
@ai_machinelearning_big_data
💬 GLIGEN: Open-Set Grounded Text-to-Image Generation
GLIGEN’s zero-shot performance on COCO and LVIS outperforms that of existing supervised layout-to-image baselines by a large margin. Code comming soon.
GLIGEN новый подход, который основывается на существующих предварительно обученных моделях генерации текста из изображения и расширяет их функциональность. GLIGEN значительно превосходит все существующие модели.
⭐️ Project: https://gligen.github.io/
⭐️ Demo: https://aka.ms/gligen
✅️ Paper: https://arxiv.org/abs/2301.07093
🖥 Github: https://github.com/gligen/GLIGEN
@ai_machinelearning_big_data
AutoAvatar: Autoregressive Neural Fields for Dynamic Avatar Modeling
Autoregressive approach for modeling dynamically deforming human bodies by Meta.
AutoAvatar — проект от Meta для моделирования динамически деформирующихся человеческих тел непосредственно из необработанных сканов.
🖥 Github: github.com/facebookresearch/AutoAvatar
⭐️ Project: zqbai-jeremy.github.io/autoavatar
✅️ Paprer: arxiv.org/pdf/2203.13817.pdf
⏩ Dataset: https://amass.is.tue.mpg.de/index.html
⭐️ Video: https://zqbai-jeremy.github.io/autoavatar/static/images/video_arxiv.mp4
ai_machinelearning_big_data
📚 Free Book Multimodal Deep Learning 2023
This book is the result of a student seminar for Master Statistics and Master Data Science at the LMU in the summer semester 2022
Полезная книга , которая поможет разобраться с мультимодальными моделями общего назначения, изучить их архитектуру, работу и применение, в том числе в генеративном искусстве.
📘 Book
🖥 Github
⏩ Reading list
@ai_machinelearning_big_data
😫 Memories are One-to-Many Mapping Alleviators in Talking Face Generation
Новый проект от Microsoft, реалистичная генерация говорящего аватара по входным аудиодорожкам. MemFace обеспечивает наилучшее качество с большим отрывом.
🖥 Project
📃 Paper
📊Video
ai_machinelearning_big_data
🔥 MIT Introduction to Deep Learning
2023 Program has started!
Сегодня стартует бесплатный курс от MIT Intro to DL 2023 — один из самых лаконичных, открытых курсов по искусственному интеллекту, который охватывает основные методы глубокого обучения, архитектуры инс, статистику.
🚀 Course
✔️ Course 2022
@ai_machinelearning_big_data
💫 PACO: Parts and Attributes of Common Objects
Meta опубликовала огромный датасет. PACO — это набор данных, содержащий 641 000 аннотированных объектов и их и частей .
🖥 Github
⭐️ Paper
➡️Project
@ai_machinelearning_big_data
⚡️ MVTN: Learning Multi-View Transformations for 3D Understanding
Библиотека Pytroch для классификации, генерации и сегментации 3D объектов.
🖥 Github: https://github.com/ajhamdi/mvtorch
⭐️ Paper: https://arxiv.org/abs/2212.13462v1
⏩ Dataset: https://paperswithcode.com/dataset/modelnet
⏩ Сlassification example: https://github.com/ajhamdi/mvtorch/blob/main/docs/tutorials/classification.ipynb
➡️ Segmentation example: https://github.com/ajhamdi/mvtorch/blob/main/docs/tutorials/segmentation.ipynb
@ai_machinelearning_big_data
⭐️ Orion
Проект с открытым исходным кодом от Data до AI Lab от MIT.
Orion — это библиотека машинного обучения, созданная для обнаружения аномалий во временных рядах.pip install orion-ml
🖥 Github: https://github.com/sintel-dev/orion
⭐️ Notebooks: https://drive.google.com/drive/folders/1FAcCEiE1JDsqaMjGcmiw5a5XuGh13c9Q?usp=sharing
✅ Paper: https://arxiv.org/abs/2212.13558v1
⏩ Docs: https://sintel.dev/Orion/
⏩ Datalab: https://dai.lids.mit.edu/
@ai_machinelearning_big_data
🥼Neural Cloth Simulation
Самый продвинутый ИИ для анимации и генерации одежды.
🖥 Github: https://github.com/hbertiche/NeuralClothSim
⭐️ Project: https://hbertiche.github.io/NeuralClothSim/
✅️ Paprer: arxiv.org/pdf/2211.13226.pdf
⏩ Video: https://youtu.be/6HxXLBzRXFg
@ai_machinelearning_big_data
Уже больше 70 лет биологи исследуют состояние Байкала: берут пробы воды в одной и той же точке и вручную ведут подсчет микроорганизмов. Этот метод не менялся с 1945 года. Теперь учёным помогают алгоритмы машинного обучения — они анализируют виды и формы планктона и экономят время специалистов.
Нейросеть Yandex Cloud стала доступна в опенсорсе — то есть и сам алгоритм, и датасет можно использовать в исследованиях других водоемов по всему миру. Читайте подробнее в блоге.
Посмотрите короткометражку о том, как нейросети учились различать байкальских рачков, а специалисты из разных областей — понимать друг друга
🎧 Riffusion App
Riffusion — это интересный проект для создания музыки в реальном времени, основанный на stable diffusion.
🖥 Github: https://github.com/riffusion/riffusion-app
🖥 Colab: https://colab.research.google.com/drive/1FhH3HlN8Ps_Pr9OR6Qcfbfz7utDvICl0
⏩ Model: https://huggingface.co/riffusion/riffusion-model-v1
🖥 Demo: https://huggingface.co/spaces/fffiloni/spectrogram-to-music
@ai_machinelearning_big_data
🌐 3D Highlighter: Localizing Regions on 3D Shapes via Text Descriptions
3D Highlighter способен определять семантические области на 3D объектах, используя текст в качестве входных данных.
🖥 Github: https://github.com/threedle/3DHighlighter
⭐️ Project: https://threedle.github.io/3DHighlighter/
⏩ Paprer: https://arxiv.org/abs/2212.11263
@ai_machinelearning_big_data
🔥 Scalable Diffusion Models with Transformers (DiT)
Новый класс моделей диффузии, основанный на архитектуре трансформеров.Модели DiT-XL/2 не только обладают хорошей масштабируемостью, но и превосходят все предшествующие диффузионные модели на тестах.git clone https://github.com/facebookresearch/DiT.git
🖥 Github: https://github.com/facebookresearch/DiT
🖥 Colab: http://colab.research.google.com/github/facebookresearch/DiT/blob/main/run_DiT.ipynb
⭐️ Project: https://www.wpeebles.com/DiT
⏩ Paprer: http://arxiv.org/abs/2212.09748
✔️ Dataset: https://paperswithcode.com/dataset/imagenet
@ai_machinelearning_big_data
Хайп вокруг темы метавселенных дал большой импульс рынку VR-устройств, поскольку для метавселенных нужные погружающие пользователей интерфейсы. А лучшая на сегодня технология, которая выполняет такую функцию, — это виртуальная реальность.
Поэтому в этом году компании анонсировали несколько любопытных разработок. Например, автономные VR-устройства PICO 4, в которые инвестирует ByteDance и которые уже доступны для потребителей, а также вторую версию шлема PlayStation — PS VR2, он поступит на рынок в феврале 2023.
На российском рынке VR и AR решений в 2022 году произошло осознание, что может произойти ситуация «выпадения» технологий — в том числе, и критически важных. К таким относятся инструменты для разработки, например, игровые движки, которыми активно пользуются корпорации для создания симуляторов и тренингов. Те из них, которые близки к госсектору или компаниям, включенным в санкционные списки, уже находятся в зоне риска блокировки инструментов.
В связи с этим, среди участников рынка аудиовизуального производства и игровой разработки, государства и институтов развития активно обсуждается идея замещения выпадающих технологий. Например, создание собственных инструментов: 2D и 3D редакторы, игровые движки, рендер-движки, инструменты композитинга и прочее. Такие решения могут быть созданы на базе Open Source решений, на базе уже существующих в РФ решений или с нуля.
🎧 Больше о проектах виртуальной реальности можно узнать в подкасте Алексея Каленчука — «Ныряем».
#ЭкспертыФонда