⭐️ In-N-Out: Face Video Inversion and Editing with Volumetric Decomposition
The core idea is to represent the face in a video using two neural radiance fields, one for in-distribution and the other for out-of-distribution data, and compose them together for reconstruction.
Новая модель от Adobe Research, для редактирования видео с поддержкой 3D, позволяет манипулировать объектами в условиях сдвига данных. (OOD generalization).
⭐️ Project: https://in-n-out-3d.github.io/
✅️ Paper: https://arxiv.org/abs/2302.03668v1
@ai_machinelearning_big_data
🌐 Гайд по созданию Big Data-проектов в облаке
Big Data-проекты, как известно, проще реализовать в облаке из-за большого объема данных, внушительных вычислительных ресурсов, разветвленного технологического стека и мощной инфраструктуры.
На Хабр вышла интересная статья, где рассказывается о нюансах и неочевидных особенностях запуска процессов при работе с большими данными в облаке.
ai_machinelearning_big_data
Сбер празднует День российской науки и запускает сайт для всех российских гиков, гениев и просто энтузиастов науки. На сайте можно много и хорошо почитать об исследованиях и разработках (R&D), а также о самых прорывных трендах в направлениях:
▪️блокчейн
▪️нейронауки
▪️AR/VR
▪️геймификация
▪️интернет вещей
▪️кибербезопасность
▪️искусственный интеллект
▪️робототехника.
Среди представленных для изучения R&D-проектов — блокчейн-платформа и Volumetric студия, которая позволяет создать эффект присутствия, платформы для построения и повышения эффективности моделей машинного обучения и многое другое.
Кроме того на сайте можно узнать и присоединиться к мероприятиям, которые проводят исследователи Сбера, получить информацию о партнёрских проектах лабораторий Сбера с центрами искусственного интеллекта на базе ВШЭ, Сколтеха и МФТИ.
ai_machinelearning_big_data
🔥 Weekend Offer для ML- и мобильных разработчиков в VK
Это шанс попасть в команду профессионалов за одни выходные. С командой Дзена вы будете делать высоконагруженный сервис со 150 тысячами RPS, сложными алгоритмами, сотнями тестов и релизов. В команде Маруси – решать задачи не только умного ассистента, но и других направлений экосистемы VK с помощью голосовых технологий. Команда Почты Mail.ru и Антиспама разбирается с хранилищем информации, полученной из разных сервисов, фильтруя, структурируя и предоставляя ее пользователю в удобном виде.
Первая встреча: 03–17 февраля
Детальное знакомство: суббота, 18 февраля.
Финальное собеседование: воскресенье, 19 февраля.
Узнать больше о командах и задачах, а также оставить отклик можно тут.
ai_machinelearning_big_data
🤖 Как создать прототип системы контроля доступа транспорта и людей на территорию? Практика с AI в облаке
⏰ Когда: 16 февраля, 17:00 MSK
📍 https://vk.company/ru/press/events/968/
На вебинаре разберем, как за 1 час создать прототип системы для автоматизации доступа людей и транспорта на территорию. Занятие пройдет с применением сервиса Vision от VK Cloud. Для того, чтобы выполнять задания, рекомендуем заранее подключить его в личном кабинете VK Cloud.
В программе:
▪️ Обзор инструментов и моделей в сервисе Vision от VK Cloud.
▪️ Практика с Vision: разработка системы контроля доступа транспорта и людей на территорию.
▪️ QA-сессия.
Спикер:
🔸 Димитрий Муштаков, Product Manager сервиса Vision в VK Cloud.
🖥 PyGlove: Manipulating Python Programs
Manipulating Python Programs with symbolic object-oriented programming .
PyGlove от Google - методология символьного объектно-ориентированного программирования на Python, позволяет напрямую манипулировать объектами (создание ML моделей на метаязыке), что значительно упрощает написание метапрограмм. Подробный пример efficiently_exchange_ml_ideas_as_codepip install pyglove
🖥 Github: https://github.com/google/pyglove
📃 Docs: https://pyglove.readthedocs.io/
✅️ Paper: https://arxiv.org/abs/2302.01918v1
⭐️ Project: https://texturepaper.github.io/TEXTurePaper/
ai_machinelearning_big_data
✅️ TEXTure: Semantic Texture Transfer using Text Tokens
Novel method for text-guided generation, editing, and transfer of textures for 3D shapes. Leveraging a pretrained depth-to-image diffusion mode
TEXTure принимает исходный рендер и текстовое описание и рисует модель с высококачественными текстурами, используя итеративный процесс на основе диффузии.
🖥 Github: https://github.com/TEXTurePaper/TEXTurePaper
✅️ Paper: https://arxiv.org/abs/2302.01721v1
⭐️ Project: https://texturepaper.github.io/TEXTurePaper/
ai_machinelearning_big_data
❓Хотите стать специалистом по компьютерному зрению? Сделайте первые шаги на открытом уроке онлайн-курса «Компьютерное зрение».
🔥9 февраля в 20:00 мск пройдет открытый урок «Kornia — убийца OpenCV?». На занятии мы обсудим дифференцируемую библиотеку Computer Vision — Kornia.
Вы узнаете:
- Почему Kornia применяется в обучении нейронных сетей и PyTorch, а OpenCV — нет
- За счет чего Kornia работает в разы быстрее, чем OpenCV
- Какие продвинутые функции потерь и алгоритмы для моделей CV предоставляет Kornia
- Как написать алгоритм, которые автоматически сшивает несколько фотографий в панорамный снимок
- Почему Kornia — это лучший инструмент для задач, связанных с геометрией изображений
🧑💻 Для участия пройдите вступительный тест: https://otus.pw/VJV2/
🔥 Dreamix: Video Diffusion Models are General Video Editors
New Google's text-based motion model.
Given a small collection of images showing the same subject, Dreamix can generate new videos with the subject in motion.
Всего из нескольких картинок или видео новая модель от Google - Dreamix генерирует видео по текстовому описанию!
На видео Dreamix превращает обезьяну в танцующего медведя по промпту «Медведь танцует и прыгает под веселую музыку, двигая всем телом».
⭐️ Project: https://dreamix-video-editing.github.io/
✅️ Paper: https://arxiv.org/pdf/2302.01329.pdf
⭐️ Video: https://www.youtube.com/watch?v=xcvnHhfDSGM
ai_machinelearning_big_data
🔊 Audio-Visual Segmentation (AVS)
AVS to estimate pixel-wise segmentation masks for all the sounding objects, no matter the number of visible sounding objects
Большой датасет и модель сегментации объектов, издающих звук на видео.
🖥 Github: https://github.com/OpenNLPLab/AVSBench
✅️ Paper: https://arxiv.org/pdf/2301.13190.pdf
⭐️ Project: https://opennlplab.github.io/AVSBench/
✅️ Dataset: http://www.avlbench.opennlplab.cn/download
🔹 Benchmark: http://www.avlbench.opennlplab.cn/
ai_machinelearning_big_data
🎶 Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion
Audio generation using diffusion models, in PyTorch.
Полнофункциональная библиотека генерации звука на PyTorch.
pip install audio-diffusion-pytorch
🖥 Github: https://github.com/archinetai/audio-diffusion-pytorch
✅️ Paper: https://arxiv.org/abs/2301.11757v1
⭐️ A-unet: https://github.com/archinetai/a-unet
@ai_machinelearning_big_data
❔ PrimeQA: The Prime Repository for State-of-the-Art Multilingual Question Answering Research and Development
PRIMEQA supports core QA functionalities like retrieval and reading comprehension as well as auxiliary capabilities such as question generation.
PrimeQA — это репозиторий с открытым исходным кодом, который позволяет исследователям и разработчикам легко обучать мультиязычные модели ответов на вопросы (QA).
🖥 Github: https://github.com/primeqa/primeqa
🖥 Notebooks: https://github.com/primeqa/primeqa/tree/main/notebooks
✅️ Paper: https://arxiv.org/abs/2301.09715v2
⭐️ Dataset: https://paperswithcode.com/dataset/wikitablequestions
✔️ Docs: https://primeqa.github.io/primeqa/installation.html
@ai_machinelearning_big_data
🚀 K-Planes: Explicit Radiance Fields in Space, Time, and Appearance
Model uses d choose 2 planes to represent a d-dimensional scene.
Новая модель на PyTorch, которая обеспечивает плавный переход от статических (d=3) к динамическим (d=4) сценам, c высокой оптимизацией.
🖥 Github: https://github.com/sarafridov/K-Planes
✅️ Paper: https://arxiv.org/abs/2301.10241
⭐️ Project: https://sarafridov.github.io/K-Planes
@ai_machinelearning_big_data
🔬 Stanford.Game Theory Free Course
The course will provide the basics: representing games and strategies, the extensive form, Bayesian games, repeated and stochastic games, and more.
🎲 Еще несколько отличных курсов от Стенфорда.
Вы изучите: математический метод нахождения оптимальных стратегий в играх, байесовские игры, повторяющиеся и стохастические игры, теория социального выбора, аукционы и многое другое
▪Game Theory
▪Game Theory II: Advanced
▪Deep Multi-Task and Meta Learning
▪Game Theory for Machine Learning
▪ Algorithmic Game Theory
@ai_machinelearning_big_data
⭐️ OnePose++: One-Shot Pose
Keypoint-free one-shot object pose estimation method that handles low-textured objects without knowing CAD models.
Новый метод захвата объектов без ключевых точек, который значительно превосходит существующие методы и может работать с низкотекстурированными объектами.
🖥 Github: https://github.com/zju3dv/OnePose_Plus_Plus
✅️ Paper: https://openreview.net/pdf?id=BZ92dxDS3tO
⭐️ Project: https://zju3dv.github.io/onepose_plus_plus
⏩ Dataset: https://zjueducn-my.sharepoint.com/:f:/g/personal/12121064_zju_edu_cn/ElfJC7FiK75Hhh1CF0sPVSQBdzJpeWpOfj8TZzRuxo9PUg?e=Pbnbi8
@ai_machinelearning_big_data
Hard Prompts Made Easy: Discrete Prompt Tuning for Language Models
From a given image, we first optimize a hard prompt using the PEZ algorithm and CLIP encoder.
Модель для преобразование изображений в текстовые подсказки для стабильной диффузии.
Автоматически генерирует текстовые подсказки как для преобразования текста в изображение, так и для преобразования текста в текст.
🖥 Github: https://github.com/YuxinWenRick/hard-prompts-made-easy
🖥 Colab: https://colab.research.google.com/drive/1VSFps4siwASXDwhK_o29dKA9COvTnG8A?usp=sharing
✅️ Paper: hhttps://arxiv.org/abs/2302.03668v1
⭐️ Dataset: https://paperswithcode.com/dataset/ag-news
ai_machinelearning_big_data
Gen-1: The Next Step Forward for Generative AI
Use words and images to generate new videos out of existing
Новейший ИИ-алгоритм Gen-1, который может изменить стиль видео по текстовому запросу или картинке.
ones.
https://research.runwayml.com/gen1
⭐️ Project: https://research.runwayml.com/gen1
✅️ Paper: https://arxiv.org/abs/2302.03011
📌Request form: https://docs.google.com/forms/d/e/1FAIpQLSfU0O_i1dym30hEI33teAvCRQ1i8UrGgXd4BPrvBWaOnDgs9g/viewform
ai_machinelearning_big_data
🖥 Microsoft launches the new Bing, with ChatGPT built in
The new Bing offers you reliable, up-to-date results – and complete answers to your questions. Of course, it also cites the sources.
Новый Bing будет создан на основе существующего интерфейса Bing, чтобы предоставить вам новый тип поиска.
▪После создания списка релевантных ссылок Bing консолидирует надежные источники в Интернете, чтобы получить один обобщенный ответ.
▪Выполните поиск по разговору, тексту и мнению. Bing принимает сложные поисковые запросы и предоставляет подробный ответ.
▪В чате вы можете естественно общаться в чате и задавать дополнительные вопросы при первоначальном поиске, чтобы получать персонализированные ответы.
▪Bing можно использовать как творческий инструмент. Это поможет вам писать статьи, истории или даже делиться идеями для проекта.
🔥 Waiting list: https://www.bing.com/new
📹Video: https://www.youtube.com/watch?v=zhdwVdSFn54&t=7s
ai_machinelearning_big_data
Open-sources PhyCV: The First Physics-inspired Computer Vision Library
Unlike traditional algorithms that are a sequence of hand-crafted empirical rules, physics-inspired algorithms leverage physical laws of nature as blueprints.
PhyCV - новый класс алгоритмов компьютерного зрения, высокой точности, которые имитируют распространение света через физические объекты. Алгоритмы основаны на уравнениях дифракции света в оптических системах.pip install phycv
🖥 Github: https://github.com/JalaliLabUCLA/phycv
📝 Paper: https://arxiv.org/abs/2301.12531v1
🎥 Video: https://www.youtube.com/watch?v=PJXXwXVyjdk&embeds_euri=https%3A%2F%2Fwww.imveurope.com%2F&feature=emb_logo
⭐️ Project: https://photonics.ucla.edu/2022/05/12/jalali-lab-open-sources-phycv-a-physics-inspired-computer-vision-library/
@ai_machinelearning_big_data
🖥 Google's Bard
Experimental conversational AI service, powered by LaMDA, that we’re calling Bard.
Google анонсировал свой ответ ChatGPT — Bard на базе языковой модели LaMDA.
Article
ai_machinelearning_big_data
16 февраля приглашаем на онлайн-трансляцию Avito Analytics meetup #9.
Аналитики из Авито, VK и EXPF поделятся опытом оценки пользовательского контента и построения репутационной системы, расскажут, как отчёты по метрикам позволяют видеть ущерб сразу в денежном эквиваленте и зачем применять методы сокращения дисперсии.
Зарегистрируйтесь, чтобы получить напоминание о трансляции.
Реклама. ООО «Авито Тех». LdtCKaTeL
🌃 STEPS: Joint Self-supervised Nighttime Image Enhancement and Depth Estimation
The first method that jointly learns a nighttime image enhancer and a depth estimator, without using ground truth for either task.
Новый метод распознавания объектов и ночных фотографиях и крупный, размеченный датасет.
🖥 Github: https://github.com/ucaszyp/steps
✅️ Paper: https://arxiv.org/abs/2302.01334v1
⭐️ Dataset: https://drive.google.com/drive/folders/1n2WsaGtB-tRiPyee-vAYF6Cd7EZr4RGe
ai_machinelearning_big_data
🚀 Conditional Flow Matching
Conditional Flow Matching is a fast way to train Continuous Normalizing Flow models.
🖥 Github: https://github.com/atong01/conditional-flow-matching
✅️ Paper: https://arxiv.org/abs/2302.00482v1
⭐️ Dataset: https://paperswithcode.com/dataset/celeba
ai_machinelearning_big_data
🔊 Audio AI Timeline
Here we will keep track of the latest AI models for audio generation, starting in 2023!
Список последних моделей ИИ для генерации звука 2023 года.
▪SingSong: Generating musical accompaniments from singing.
- Paper
▪AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
- Paper
▪Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion
- Paper
- Code
▪Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models
- Paper
▪Noise2Music
▪RAVE2
- Paper
- Code
▪MusicLM: Generating Music From Text
- Paper
▪Msanii: High Fidelity Music Synthesis on a Shoestring Budget
- Paper
- Code
- HH
▪ArchiSound: Audio Generation with Diffusion
- Paper
- Code
▪VALL-E: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
- Paper
Full list
ai_machinelearning_big_data
⭐️ The State of Computer Vision at Hugging Face 🤗
Over 3000 models, and over 100 datasets on the Hugging Face Hub.
Более 3000 моделей компьютерного зрения и более 100 датасетов на Hugging Face Hub.
💨 Topics:
Supported vision tasks and Pipelines
Training your own vision models
Integration with timm
Diffusers
Support for third-party libraries
Datasets
⏩ Code:
HugsVision
Model documentation
Hugging Face notebooks
Hugging Face example scripts
Task pages
Timm
➡️ Computer Vision applications:
Generate 3D voxels from a predicted depth map of an input image
Open vocabulary semantic segmentation
Narrate videos by generating captions
Classify videos from YouTube
Zero-shot video classification
Visual question-answering
Use zero-shot image classification to find best captions for an image to generate similar images
🤗 AutoTrain
AutoTrain
Image classification
Automatic model evaluation
🦾 Zero-shot models
CLIP
OWL-ViT
CLIPSeg
GroupViT
X-CLIP
🚀 Deployment
Deploying TensorFlow Vision Models in Hugging Face with TF Serving
Deploying ViT on Kubernetes with TF Serving
Deploying ViT on Vertex AI
Deploying ViT with TFX and Vertex AI
✅️ Full list
@ai_machinelearning_big_data
Cut and Learn for Unsupervised Object Detection and Instance Segmentation
Simple anf effective method to train an object detection and instance segmentation model without using any supervision.
Cut-and-LEaRn (CutLER) — это новый подход к обучению моделей от Meta, для обнаружения и сегментации без участия человека. Cut-and-LEaRn превосходит предыдущую SOTA в 2,7 раза для AP50 и в 2,6 раза для AR в 11 тестах.
🖥 Github: https://github.com/facebookresearch/cutler
⭐️Project: http://people.eecs.berkeley.edu/~xdwang/projects/CutLER/
🖥 Colab: https://colab.research.google.com/drive/1NgEyFHvOfuA2MZZnfNPWg1w5gSr3HOBb?usp=sharing
✅️ Paper: https://arxiv.org/abs/2301.11320
✔️ Installation instructions: https://github.com/facebookresearch/CutLER/blob/main/INSTALL.md
@ai_machinelearning_big_data
⭐️ Using LoRA for Efficient Stable Diffusion Fine-Tuning
LoRA: Low-Rank Adaptation of Large Language Models is a novel technique introduced by Microsoft researchers to deal with the problem of fine-tuning large-language models.
Новый метод, представленный исследователями Microsoft для тонкой настройки больших языковых моделей.
LoRA значительно сокращает количество параметров для обучения модели и сокращает использование памяти GPU, поскольку для большинства весов моделей не требуется вычислять градиенты.
По сравнению с GPT-3 175B, настроенным с помощью Adam, c LoRA можно уменьшить количество обучаемых параметров в 10 000 раз и затраты GPU в 3 раза.
🤗 Hugging face blog: https://huggingface.co/blog/lora
✅️ Paper: https://arxiv.org/abs/2106.09685
⭐️ Code: https://github.com/huggingface/diffusers/blob/main/examples/dreambooth/train_dreambooth_lora.py
@ai_machinelearning_big_data
✅️ StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis
StyleGAN-T, addresses the specific requirements of large-scale text-to-image synthesis, such as large capacity, stable training on diverse datasets, strong text alignment, and controllable fidelity vs. text alignment tradeoff.
StyleGAN-T новый ган для синтеза текста и изображений.
StyleGAN-T значительно превосходит предыдущие GANы и модели дистиллированной диффузии в скорости и качестве генерации текста в изображение.
🖥 Github: github.com/autonomousvision/stylegan-t
✅️ Paper: arxiv.org/pdf/2301.09515.pdf
⭐️ Project: sites.google.com/view/stylegan-t
✔️ Video: https://www.youtube.com/watch?v=MMj8OTOUIok&embeds_euri=https%3A%2F%2Fsites.google.com%2F&feature=emb_logo
🖥 Projected GAN: https://github.com/autonomousvision/projected-gan
@ai_machinelearning_big_data
⏺Пришло время астропрогнозов на 2023! В новом видео ⬆️
Наши аналитики сформулировали предсказания будущих угроз для корпораций на основе сложившихся трендов и действий злоумышленников, которые мы наблюдали в уходящем году.
▶️Каких атак ждать корпорациям в начавшемся году?
▶️Что изменится в поведении взломщиков?
▶️Как противостоять шантажу и утечкам ПД?
▶️Почему злоумышленники публикуют данные о взломах в общем доступе?
У нас есть ответы на эти и другие вопросы в 1,5-минутном видео⬆️
Для тех, кто любит поподробнее — презентация с массой полезных данных.
Смотреть презентацию⟶
✏️ Improving Sketch Colorization using Adversarial Segmentation Consistency
New method for producing color images from sketches
Новый метод генерации реалистичных, цветных изображений из эскизов. эффективность модели была проверена на 4 различных, крупных датасетов изображений.git clone https://github.com/giddyyupp/AdvSegLoss.git
cd AdvSegLoss
🖥 Github: https://github.com/giddyyupp/AdvSegLoss
✅️ Paper: https://arxiv.org/abs/2301.08590v1
⭐️ Dataset: https://paperswithcode.com/dataset/cityscapes
@ai_machinelearning_big_data