📐 AlphaGeometry: An Olympiad-level AI system for geometry
Deepmind представили AlphaGeometry: систему искусственного интеллекта, которая решает олимпиадные задачи по геометрии на уровне, приближающемся к уровню золотого медалиста.
Система была обучена исключительно на синтетических данных и знаменует собой прорыв ИИ в области математики.
https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
🖥 Code: https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md#api
🚀 Deepmind: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
📚 Paper: https://www.nature.com/articles/s41586-023-06747-5
@ai_machinelearning_big_data
Международная online конференция про AI от основателей Epic Growth
Лучшие практики для разработчиков, инженеров, ресерчеров, дата сайентистов, тим-лидов и продактов, от ведущих мировых компаний, которые создают AI-based продукты и инфраструктуру.
Выступят спикеры 📣
— Meta (команда Llama-2)
— Github (команда Copilot)
— Databricks
— Hugging Face
— Anyscale
— Zilliz
— Writer
— Speechify
— Twelve Labs
И других классных компаний, которые прямо сейчас создают AI-будущее.
Будут затронуты самые актуальные темы:
— AI Agents development
— Fine-tuning & RLHF
— AI devtools & infrastructure
— Retrieval-Augmented Generation
— LLMops
— Open Source AI
— Multimodal APIs
— AI & Data analytics
Конференция пройдет в Online формате 3️⃣0️⃣➖3️⃣1️⃣ января на английском языке 🇬🇧
Участники получат доклады, воркшопы и записи, а также доступ в нетворкинг-чат.
Скидка 1️⃣0️⃣ % по промо-коду — MBFIAA358
Регистрация через VPN
💊 AMIE: A research AI system for diagnostic medical reasoning and conversations
149 актеров, играющих пациентов, общались в прямом эфире с одним из 20 врачей, отобранных для теста и новым медицинским LLM от Google, AMIE.
После врачи-специалисты и пациенты оценивали качество обслуживания. AMIE обошел врачей.
💡 Blog: https://blog.research.google/2024/01/amie-research-ai-system-for-diagnostic_12.html
📚 Paper: https://arxiv.org/abs/2401.05654
@ai_machinelearning_big_data
⚡️ SigLIP: a better CLIP model
SigLIP от Google теперь доступен в 🤗 Transformers!
Он улучшает CLIP с помощью функции сигмоидальной потери.
SOTA для пары изображение в текст и наоборот.
🖥 Github: https://github.com/NielsRogge/Transformers-Tutorials/blob/master/SigLIP/Inference_with_(multilingual)_SigLIP%2C_a_better_CLIP_model.ipynb
📚 Paper: https://arxiv.org/abs/2303.15343
⚡️HF: https://huggingface.co/docs/transformers/main/en/model_doc/siglip
@ai_machinelearning_big_data
⚡️ The SwiftInfer project combines StearmingLLM with TesorR-LLM to make the inference efficiency and productivity much higher.
Сегодня состоялся новый большой релиз от команды Colossal-AI!
Они выложили в открытый доступ новый алгоритм SwiftInfer.
Алгоритм позволяет на 46% улучшить производительность LLM!
Этот проект объединяет инновации из двух недавних проектов, таких как StreamingLLM и TensoRT-LLM, чтобы обеспечить лучшую производильность и низкую задержку при выводе LLM.
Как StreamingLLM решает эту проблему
📌 StreamingLLM решает проблему 'attentional sink' (поглощения внимания) , когда начальные лексемы в тексте получают непропорционально большое внимание алгоритма. В традиционных методах, производительность модели значительно снижается, как только эти начальные лексемы исключаются из окна внимания.
StreamingLLM решает эту проблему, обеспечивая постоянное включение этих важных начальных лексем в окно внимания, тем самым стабилизируя генерацию и поддерживая высокое качество без необходимости дополнительной тонкой настройки.
Очень интересный проект!git clone https://github.com/hpcaitech/SwiftInfer.git
cd SwiftInfer
pip install.
🖥 Github
@ai_machinelearning_big_data
🖥 Transformers From Scratch
PYTHON
In this notebook we have built a transformer model based on the Attention Is All You Need paper following along with Andrej Karpathy’s fantastic YouTube video: Let’s build GPT.
В этом блоге показн процесс создания и обучения трансформеров с нуля.
Шаг за шагом рассмотрен каждый основополагающий элемент с объяснением, что происходит на каждом этапе.
Этот блог написан в блокноте Jupyter, который вы можете скачать и использовать для самостоятельного выполнения кода по ходу работы.
📌 Notebook
@ai_machinelearning_big_data
🦜 DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models
DreamTalk - это фреймворк для создания выразительных говорящих голов, который может создавать высококачественные видеоролики говорящих голов в различных стилях речи.
DreamTalk демонстрирует высокую производительность при работе с разнообразными исходными данными, включая песни, речь на нескольких языках, зашумленное аудио.
🖥 Code: https://github.com/ali-vilab/dreamtalk
📚 Paper: https://arxiv.org/abs/2312.09767
⚡️ Page: https://dreamtalk-project.github.io
🌟 Colab: https://github.com/camenduru/dreamtalk-colab
@ai_machinelearning_big_data
✔️ AIJack: Security and Privacy Risk Simulator for Machine Learning
Security and Privacy Risk Simulator for Machine Learning.
AIJack - библиотека с открытым исходным кодом, предназначенная для оценки рисков безопасности и конфиденциальности, связанных с обучением и развертыванием моделей машинного обучения.
На фоне растущего интереса к большим данным и искусственному интеллекту ускоряется прогресс в исследованиях и применения в бизнесе инструментов машинного обучения. Однако недавние исследования выявили потенциальные угрозы, такие как кража обучающих данных и манипулирование моделями со стороны злоумышленников.
Поэтому полное понимание уязвимостей моделей машинного обучения в области безопасности и конфиденциальности имеет решающее значение для безопасной интеграции машинного обучения в реальные проекты.
AIJack призван решить эту задачу, предоставляя библиотеку с различными методами атак и защиты через единый API. pip install git+https://github.com/Koukyosyumei/AIJack
🖥 Code: https://github.com/microsoft/promptbench
🌟 Docs: https://promptbench.readthedocs.io/en/latest/
📚 Paper: https://arxiv.org/abs/2312.07910v1
⚡️ Dataset: https://paperswithcode.com/dataset/mmlu
@ai_machinelearning_big_data
🧍♂ Perpetual Humanoid Control for Real-time Simulated Avatars
Новая модель, которая позволяет добиться генерации текста в движение в режиме реального времени, используя симуляцию движения человека.
Контроллер, обеспечивает высокую точность имитации движений и восстановления положения при наличии помех и неожиданных падений.
🖥 Code: github.com/ZhengyiLuo/PerpetualHumanoidControl
🎓 Video: https://www.youtube.com/watch?v=zS6Y00EW37A
🔮 Project: https://zhengyiluo.github.io/PHC/
📚 ArXiv: https://arxiv.org/abs/2305.06456
@ai_machinelearning_big_data
🐱DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing
DiffMorpher - новый подход, обеспечивающий плавное преобрахование изображений с помощью диффузионных моделей.
🖥 Code: https://github.com/Kevin-thu/DiffMorpher
🧪OpenXLab: https://openxlab.org.cn/apps/detail/KaiwenZhang/DiffMorpher
🎓 Colab: https://github.com/camenduru/DiffMorpher-colab
🔮 Project Page: https://kevin-thu.github.io/DiffMorpher_page
📚 ArXiv: https://arxiv.org/abs/2312.07409
@ai_machinelearning_big_data
🔊 Как исключить проблему самотриггерения голосовых помощников на примере Маруси от VK
В статье на Хабре узнаете о том, как команде мобильного приложения Маруси удалось научить помощника правильно слышать запросы и команды без триггеров на свое имя. Подробную инструкцию и итоги работы найдете по ссылке ниже.
https://habr.com/ru/companies/vk/articles/782944/
@ai_machinelearning_big_data
☑️Here are some of the most remarkable AI releases of the year.2023 год был годом ИИ!
Вот некоторые из самых значимых ИИ релизов года...👇
https://journal.everypixel.com/2023-the-year-of-ai
@ai_machinelearning_big_data
🖥 Десять самых ярких ИИ-работ от NVIDIA Research за 2023 год.
- Neuralangelo: потрясающая высокоточная 3D-реконструкция поверхностей. https://research.nvidia.com/labs/dir/neuralangelo/
- Magic3D: быстрое преобразование текста в 3D! https://research.nvidia.com/labs/dir/magic3d/
- Hair Simulation: эффективное моделирование дискретных упругих стержней (DER) для волос. Это не совсем работа над искусственным интеллектом, но очень визуально привлекательная технология. https://research.nvidia.com/publication/2023-08_interactive-hair-simulation-gpu-using-admm
-Eureka: GPT-4 учит робота-руку крутить ручки! https://eureka-research.github.io
- Align Your Latents: синтез видео высокого разрешения с помощью моделей латентной диффузии. Одна из лучших работ по генерации видео в 2023 году. https://research.nvidia.com/labs/toronto-ai/VideoLDM/
- Text2Materials: Модель работы с текстовыми промптами для генерации материалов, таких как кирпич или мозаика, которые можно выложить плиткой и плавно воспроизвести на поверхности любого размера.
https://blogs.nvidia.com/blog/siggraph-research-generative-ai-materials-3d-scenes/
- CALM: метод обучения управляемых виртуальных персонажей выполнению действий в физическом симуляторе. https://research.nvidia.com/labs/par/
- Vid2Player3D: обучение навыкам игры в теннис для виртуальных персонажей! https://research.nvidia.com/labs/toronto-ai/vid2player3d/
- Flexicubes: mesh optimization https://research.nvidia.com/labs/toronto-ai/flexicubes/
- eDiff-I: диффузия текста в изображение с помощью ансамбля экспертных моделей.
https://research.nvidia.com/labs/dir/eDiff-I/
@ai_machinelearning_big_data
Хостинг Aéza устраивает новый год для своих!
Флагманские 7950x3D до 5.7 ГГц от 420 рублей/месяц
и тёплая локация ВПН в Турции от 143 рублей!
С новым годом с Aéza!
Реклама. ООО "АЕЗА ГРУПП" ИНН 7813654490 erid:LatgBUyJc
Банк ВТБ и Финтех Хаб Банка России объявляют о запуске программы "Машинное обучение PRO".
Она предназначена для тех, кто уже знаком с основами машинного обучения и хочет углубить свои знания в области обработки документов и генеративных нейросетей. Программа состоит из двух модулей: теоретического и практического.
Теоретический модуль будет проходить в дистанционном формате с 12 февраля по 11 марта 2024 года и включает в себя лекции по основам NLP, обработке изображений, языковым моделям и другим темам.
Практический модуль будет проходить в дистанционном формате с несколькими очными днями в Москве с 18 марта по 8 апреля 2024 года.
Лучшие участники теоретического модуля смогут применить полученные знания и пройти цикл продуктовой ML-разработки с менторами из Банка России и ВТБ. В конце программы лучшим командам будет предложено презентовать разработанный прототип на международной конференции Data Fusion 18 апреля 2024 года.
Заявки на программу можно подать на сайте
🔉 MAGNeT: Masked Audio Generation using a Single Non-Autoregressive Transformer
Мощная система преобразования текста в звук от FAIR.
И да, она с открытым исходным кодом.
🖥 Code: https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md#api
🚀 HF: https://huggingface.co/collections/facebook/magnet-659ef0ceb62804e6f41d1466
📚 Paper: https://arxiv.org/abs/2401.04577
🌟 Project: https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT/
⚛️ Datasets: https://github.com/facebookresearch/audiocraft/blob/main/docs/DATASETS.md
@ai_machinelearning_big_data
🖼️ DDColor: Towards Photo-Realistic Image Colorization via Dual Decoders 🔥
DDColor - инструмент для естественной колоризации изображений.
Обширные эксперименты показывают, что DDColor превосходит все существующие современные разработки на бенчмарках.
🖥 Code: github.com/piddnad/DDColor
📚 Paper: arxiv.org/abs/2212.11613
🌟 Colab: https://github.com/camenduru/DDColor-colab
@ai_machinelearning_big_data
Создать и обучить нейросеть — вопрос времени.
Получить необходимый для этого навык — вообще не вопрос.
Приходите на бесплатный интенсив «Погружение в Data Science: обучите свою первую нейросеть за два дня» от онлайн-школы Skillfactory.
С 16 по 17 января будете строить алгоритмы и обучать нейронную сеть.
А за лучшее решение домашнего задания сможете получить мини-курс по аналитическому мышлению в подарок.
Зарегистрироваться: https://go.skillfactory.ru/&erid=2VtzqusXUGV
Реклама, ООО «Скилфэктори», ИНН: 9702009530
🔥Physics-based Text-to-Motion🔥InsActor
- генеративный фреймворк, использующий последние достижения в области диффузионных моделей движения человека для создания управляемых промптами анимаций персонажей, основанных на физике.
🖥 Code: github.com/jiawei-ren/insactor
📚 Paper: arxiv.org/abs/2312.17135
⚡️ Project: https://jiawei-ren.github.io/projects/insactor/
@ai_machinelearning_big_data
🧠 BakedAvatar: Baking Neural Fields for Real-Time Head Avatar Synthesis
Рендеринг в реальном времени управляемых аватаров с 4D-головой на различных устройствах, включая мобильные.
BakedAvatar использует видеозаписи человека для создания качественных управляемых аватаров.git clone https://github.com/buaavrcg/BakedAvatar
cd BakedAvatar
🖥 Code: https://github.com/buaavrcg/BakedAvatar
📚 Paper: https://dl.acm.org/doi/10.1145/3618399
⚡️ Page: https://buaavrcg.github.io/BakedAvatar/
@ai_machinelearning_big_data
🦾 Free Course: The Hands-on Reinforcement Learning course 🚀
Обучение с подкреплением — один из способов машинного обучения, в ходе которого испытуемая система обучается, взаимодействуя с некоторой средой.
Это пошаговый практический курс, который поможет вам пройти изучить RL с сымых основ.
💻 Course
🖥 Github
@ai_machinelearning_big_data
🎙OpenVoice: Versatile Instant Voice Cloning
OpenVoice: Универсальное мгновенное клонирование голоса ✨
1. Точное клонирование тональности голоса. OpenVoice может точно клонировать тон голоса и генерировать речь на нескольких языках и акцентах.
2. Гибкое управление стилем голоса. OpenVoice позволяет контролировать стили голоса, такие как эмоции и акцент, а также другие параметры стиля, включая ритм, паузы и интонацию.
3. Кросс-языковое клонирование голоса.
🖥 Code: https://github.com/myshell-ai/OpenVoice
📚 Paper: https://arxiv.org/abs/2312.01479
⚡️ Page: https://research.myshell.ai/open-voice
🌟 Colab: https://github.com/camenduru/OpenVoice-colab
@ai_machinelearning_big_data
🌹4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency
Генерация 4D-контента с пространственно-временной согласованностью!
Пайплайн обеспечивает условное создание 4D, позволяя пользователям задавать геометрию генераци и движение (монокулярные видео), тем самым обеспечивая контроль над созданием контента. #GaussianSplatting #3DGS
🖥 Code: https://github.com/VITA-Group/4DGen
🔮 Project: https://vita-group.github.io/4DGen/
📚 ArXiv: https://arxiv.org/abs/2305.06456
@ai_machinelearning_big_data
⚡️ MotionCtrl: A Unified and Flexible Motion Controller for Video Generation
Новая модель-контроллер движения для генерации видео, который способен самостоятельно управлять сложным движением камеры и движением объектов в генерируемых видео.
🖥 Code: https://github.com/TencentARC/MotionCtrl
🎓 Colab: https://github.com/camenduru/MotionCtrl-colab
🔮 Project Page: https://openxlab.org.cn/apps/detail/camenduru/MotionCtrl
📚 ArXiv: https://arxiv.org/abs/2312.03641
@ai_machinelearning_big_data
🪩 Обучение генеративных моделей от А до Я
Сейчас генеративные модели широко используются в областях искусственного интеллекта и машинного обучения. Для них важна правильная предобработка данных, а для генерации эстетичных изображений используются две стадии: улучшение предварительно обученной модели, которая уже имеет некоторые знания, и обучение с подкреплением.
Однако в последнее время набирают популярность диффузионные модели: во многом благодаря своей простоте и возможности обучения на простых данных. Например, если модель обучается на изображениях кошек, она сможет генерировать похожие реалистичные изображения кошек.
Смотрите запись выступления Сергея Овчаренко из Яндекса, чтобы лучше разобраться в нюансах обучения генеративных картиночных диффузионных моделей. Там же в плейлисте доступны записи и других докладов с конференции Яндекса для разработчиков YaTalks.
Реклама ООО Яндекс, ИНН 7736207543, erid: 2SDnjdAJ3Jg
🍏Ferret: Refer and Ground Anything Anywhere at Any Granularity
Новая новая мультимодальная модель большого языка (MLLM) от Apple, которая может точно распознавать отдельные объекты и их отдельные части на изображении и обсуждать всю информацию с пользователем.
В точности и скорости обработки данных с изображений на бенчмарках Ferret опережает GPT-4🔥
🖥 Code: github.com/apple/ml-ferret
🎓 Paper: https://arxiv.org/abs/2310.07704
@ai_machinelearning_big_data
🌠AnyDoor: Zero-shot Object-level Image Customization
AnyDoor - новый генератор изображений на основе диффузии, который может гармонично вписывать любые объекты в новые сцены в указанных местах.
Модель, обучена на видео и понимает разные ракурсы и освещения объектов, чтобы вписывать изображения в любой новый план с новым освещением и камерой.pip install git+https://github.com/cocodataset/panopticapi.git
pip install pycocotools -i https://pypi.douban.com/simple
pip install lvis
🖥 Code: https://github.com/damo-vilab/AnyDoor
🎓 HF: https://huggingface.co/spaces/xichenhku/AnyDoor-online
🔮 Project Page: https://damo-vilab.github.io/AnyDoor-Page/
📚 ArXiv: https://arxiv.org/abs/2307.09481
@ai_machinelearning_big_data
PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models 🎄 🎁 🎅 Colab 🥳
PIA, аниматор изображений, который превосходит аналоги в согласованности текста с изображениями.
🎓 page: https://pi-animator.github.io
📚 paper: https://arxiv.org/abs/2312.13964
🖥 code: https://github.com/open-mmlab/PIA
🥩 OpenXLab: https://openxlab.org.cn/apps/detail/zhangyiming/PiaPia
🥩 colab: https://github.com/camenduru/PIA-colab
@ai_machinelearning_big_data
🌪 Can machine learning predict chaos?
Может ли машинное обучение предсказывать хаос? В новой статье проводится масштабное сравнение современных методов прогнозирования на гигантском наборе данных из 135 хаотических систем.
https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.5.043252
@ai_machinelearning_big_data
🎲 ReBRAC (Revisited Behavior Regularized Actor Critic)
ReBRAC (Revisited Behavior Regularized Actor Critic) — алгоритм, созданный в Tinkoff Research, который обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов в области обучения с подкреплением (Reinforcement Learning, RL), адаптируя его к новым условиям на ходу.
🖥 Code: https://github.com/tinkoff-ai/ReBRAC
📚 ArXiv: https://arxiv.org/abs/2305.09836
@ai_machinelearning_big_data