🪩 Обучение генеративных моделей от А до Я
Сейчас генеративные модели широко используются в областях искусственного интеллекта и машинного обучения. Для них важна правильная предобработка данных, а для генерации эстетичных изображений используются две стадии: улучшение предварительно обученной модели, которая уже имеет некоторые знания, и обучение с подкреплением.
Однако в последнее время набирают популярность диффузионные модели: во многом благодаря своей простоте и возможности обучения на простых данных. Например, если модель обучается на изображениях кошек, она сможет генерировать похожие реалистичные изображения кошек.
Смотрите запись выступления Сергея Овчаренко из Яндекса, чтобы лучше разобраться в нюансах обучения генеративных картиночных диффузионных моделей. Там же в плейлисте доступны записи и других докладов с конференции Яндекса для разработчиков YaTalks.
Реклама ООО Яндекс, ИНН 7736207543, erid: 2SDnjdAJ3Jg
🍏Ferret: Refer and Ground Anything Anywhere at Any Granularity
Новая новая мультимодальная модель большого языка (MLLM) от Apple, которая может точно распознавать отдельные объекты и их отдельные части на изображении и обсуждать всю информацию с пользователем.
В точности и скорости обработки данных с изображений на бенчмарках Ferret опережает GPT-4🔥
🖥 Code: github.com/apple/ml-ferret
🎓 Paper: https://arxiv.org/abs/2310.07704
@ai_machinelearning_big_data
🌠AnyDoor: Zero-shot Object-level Image Customization
AnyDoor - новый генератор изображений на основе диффузии, который может гармонично вписывать любые объекты в новые сцены в указанных местах.
Модель, обучена на видео и понимает разные ракурсы и освещения объектов, чтобы вписывать изображения в любой новый план с новым освещением и камерой.pip install git+https://github.com/cocodataset/panopticapi.git
pip install pycocotools -i https://pypi.douban.com/simple
pip install lvis
🖥 Code: https://github.com/damo-vilab/AnyDoor
🎓 HF: https://huggingface.co/spaces/xichenhku/AnyDoor-online
🔮 Project Page: https://damo-vilab.github.io/AnyDoor-Page/
📚 ArXiv: https://arxiv.org/abs/2307.09481
@ai_machinelearning_big_data
PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models 🎄 🎁 🎅 Colab 🥳
PIA, аниматор изображений, который превосходит аналоги в согласованности текста с изображениями.
🎓 page: https://pi-animator.github.io
📚 paper: https://arxiv.org/abs/2312.13964
🖥 code: https://github.com/open-mmlab/PIA
🥩 OpenXLab: https://openxlab.org.cn/apps/detail/zhangyiming/PiaPia
🥩 colab: https://github.com/camenduru/PIA-colab
@ai_machinelearning_big_data
🌪 Can machine learning predict chaos?
Может ли машинное обучение предсказывать хаос? В новой статье проводится масштабное сравнение современных методов прогнозирования на гигантском наборе данных из 135 хаотических систем.
https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.5.043252
@ai_machinelearning_big_data
🎲 ReBRAC (Revisited Behavior Regularized Actor Critic)
ReBRAC (Revisited Behavior Regularized Actor Critic) — алгоритм, созданный в Tinkoff Research, который обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов в области обучения с подкреплением (Reinforcement Learning, RL), адаптируя его к новым условиям на ходу.
🖥 Code: https://github.com/tinkoff-ai/ReBRAC
📚 ArXiv: https://arxiv.org/abs/2305.09836
@ai_machinelearning_big_data
⚡️ LongAnimateDiff, a text2video model for generating extended videos.
▪Новая модель "LongAnimateDiff" способная генерировать видео с количеством кадров от 16 до 64.
Веса можно загрузить с Google Drive или HuggingFace. Для получения оптимальных результатов рекомендуется использовать шкалу движения 1,28.
▪Специализированная модель, предназначенная для создания видеороликов с 32 кадрами. Эта модель обычно создает видео более высокого качества по сравнению с моделью LongAnimateDiff
, поддерживающей 16-64 кадра. Веса на Google Drive или HuggingFace. Для получения хороших результатов используйте масштаб движения 1,15.
🖥 Code: https://github.com/Lightricks/LongAnimateDiff
🎓 HF: https://huggingface.co/spaces/Lightricks/LongAnimateDiff
@ai_machinelearning_big_data
Всё, что нужно знать о CatBoost и LightGBM
Не нашёл инфу — написал сам. Так поступил дата-сайентист из Точки Артур Сосновиков.
В статье на Хабре он рассказал, как работают алгоритмы CatBoost и LightGBM: что у каждого под капотом и в чём их особенности. Подробно, с примерами и формулами.
Будет интересно начинающим и тем, кто уже знает классический градиентный бустинг, а мидлам будет полезно для расширения кругозора. Ну и конечно тем, кто готовится к собесам и хочет произвести хорошее впечатление)
Читать статью на Хабре
@ai_machinelearning_big_data
👾 Погрузитесь в мир цифровых двойников и моделирования с подкастом «Математическим путем»!
В нем Дмитрий Фомичев, директор по математическому моделированию Росатома, и Александр Никоноров, которого вы знаете по Инженерному подкасту НИЯУ МИФИ, разберут на мельчайшие детали науку математического моделирования и обсудят новые технологии с приглашенными экспертами атомной отрасли.
🎧 Слушайте подкаст и читайте подробности по ссылке: https://podcast.mephi.ru/special
#ЯРосатом #КарьеравРосатоме
⚠️ Как получить вакансию в машинном обучении в Европе, Азии и США?
⬆️ Расскажет Валентин Шкулов – Data Scientist в Meson Capital Partners на бесплатном вебинаре.
🔹 На занятии вы познакомитесь с различными этапами собеседований для разных локаций и изучите подходы к подготовке и прохождению интервью
🔹 Узнаете особенности в получении офферов в разных локациях.
🔥 Урок идеально подойдет продвинутым IT-специалистам, практикующим ML и желающим выйти на другие рынки или релоцироваться.
👉 Встречаемся 26 декабря в 19:00 мск в рамках курса «Machine Learning. Advanced».
➡️ Регистрация
https://otus.pw/DWOk/?erid=LjN8K8QYH
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963
Критерии выбора инструментов в MLOps и возможности Open Source
Вышла третья часть подкаста «Деньги любят техно» про MLOps. На этот раз — максимально практическая: про платформы, инструменты и требования к ним, а также как всё это применять в больших проектах.
🎧Слушать на любой удобной платформе
⚡ Как выпустить ML-сервис в прод малыми силами с помощью Cloud ML Platform
Создание ML-модели — сложный процесс, а выкатка сервиса на основе модели в прод ещё сложнее.
Упростит жизнь работа с облаками. Точнее, с ними можно сделать простую, но эффективную модель, дающую высокую точность предсказаний, и быстро развернуть её в проде, используя предварительно настроенную среду и инструменты, например, Cloud ML Platform. Более того, ML-модель будет иметь потенциал для улучшения.
https://habr.com/ru/companies/vk/articles/780632/
@ai_machinelearning_big_data
📲 CogAgent: A Visual Language Model for GUI Agents
A state-of-the-art-level open visual language model.
Люди проводят огромное количество времени на цифровых устройствах, используя графические пользовательские интерфейсы (GUI), например, экраны компьютеров или смартфонов.
Большие языковые модели, такие как ChatGPT, могут помочь людям в решении таких задач, как написание электронных писем и ответов на вопросы, но они не способны понимать и взаимодействовать с графическими интерфейсами, что ограничивает их потенциал в плане повышения уровня автоматизации. CogAgent
- новая визуальная языковая модель (VLM) с 18 миллиардами параметров, которая специализируется на работе и навигации в графических интерфейсах.
Используя кодировщики изображений как низкого, так и высокого разрешения, CogAgent поддерживает ввод с разрешением 1120*1120, что позволяет ему распознавать мельчайшие элементы страниц и текст.
Будучи универсальной моделью визуального языка, CogAgent достигает передовых результатов в пяти тестах VQA с большим количеством текста и четырех тестах VQA общего назначения, включая VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet и POPE. CogAgent, использующий в качестве входных данных только скриншоты, превосходит методы на основе LLM, которые принимают извлеченный HTML-текст, в задачах навигации по графическому интерфейсу на ПК и смартфонах.
🖥 code: https://github.com/thudm/cogvlm
📚 paper: https://arxiv.org/abs/2312.08914v1
🔥dataset: https://paperswithcode.com/dataset/ok-vqa
ai_machinelearning_big_data
⚡️ Deep dive into 4 NeurIPS 2023 best paper award winners
NeurIPS 2023 обзор лучших работ: https://youtu.be/LkED9wKI1TY
- Является ли эмерджентность больших языковых моделей миражом? https://arxiv.org/abs/2304.15004
- Масштабирование языковых моделей с ограничениями по данным. https://arxiv.org/abs/2305.16264
- Прямая оптимизация предпочтений: Your Language Model is Secretly a Reward Model. https://arxiv.org/abs/2305.18290
- DecodingTrust: Всесторонняя оценка достоверности в GPT-моделях. https://arxiv.org/abs/2306.11698
ai_machinelearning_big_data
Как строится работа полного цикла ML-разработки и как в ней использовать готовые платформенные решения
Ведущий программист VK Cloud Станислав Кипрюшин показывает пример работы с Cloud ML Platform для создания сервиса распознавания лиц.
В машинном обучении (Machine Learning, ML) можно использовать два подхода: задействовать различные технологии на каждом этапе или работать с готовыми инфраструктурными решениями, которые позволяют создать MLOps-конвейер на одной платформе. Какой путь принесет больше профита — узнайте в статье.
🔊 Как исключить проблему самотриггерения голосовых помощников на примере Маруси от VK
В статье на Хабре узнаете о том, как команде мобильного приложения Маруси удалось научить помощника правильно слышать запросы и команды без триггеров на свое имя. Подробную инструкцию и итоги работы найдете по ссылке ниже.
https://habr.com/ru/companies/vk/articles/782944/
@ai_machinelearning_big_data
☑️Here are some of the most remarkable AI releases of the year.2023 год был годом ИИ!
Вот некоторые из самых значимых ИИ релизов года...👇
https://journal.everypixel.com/2023-the-year-of-ai
@ai_machinelearning_big_data
🖥 Десять самых ярких ИИ-работ от NVIDIA Research за 2023 год.
- Neuralangelo: потрясающая высокоточная 3D-реконструкция поверхностей. https://research.nvidia.com/labs/dir/neuralangelo/
- Magic3D: быстрое преобразование текста в 3D! https://research.nvidia.com/labs/dir/magic3d/
- Hair Simulation: эффективное моделирование дискретных упругих стержней (DER) для волос. Это не совсем работа над искусственным интеллектом, но очень визуально привлекательная технология. https://research.nvidia.com/publication/2023-08_interactive-hair-simulation-gpu-using-admm
-Eureka: GPT-4 учит робота-руку крутить ручки! https://eureka-research.github.io
- Align Your Latents: синтез видео высокого разрешения с помощью моделей латентной диффузии. Одна из лучших работ по генерации видео в 2023 году. https://research.nvidia.com/labs/toronto-ai/VideoLDM/
- Text2Materials: Модель работы с текстовыми промптами для генерации материалов, таких как кирпич или мозаика, которые можно выложить плиткой и плавно воспроизвести на поверхности любого размера.
https://blogs.nvidia.com/blog/siggraph-research-generative-ai-materials-3d-scenes/
- CALM: метод обучения управляемых виртуальных персонажей выполнению действий в физическом симуляторе. https://research.nvidia.com/labs/par/
- Vid2Player3D: обучение навыкам игры в теннис для виртуальных персонажей! https://research.nvidia.com/labs/toronto-ai/vid2player3d/
- Flexicubes: mesh optimization https://research.nvidia.com/labs/toronto-ai/flexicubes/
- eDiff-I: диффузия текста в изображение с помощью ансамбля экспертных моделей.
https://research.nvidia.com/labs/dir/eDiff-I/
@ai_machinelearning_big_data
Хостинг Aéza устраивает новый год для своих!
Флагманские 7950x3D до 5.7 ГГц от 420 рублей/месяц
и тёплая локация ВПН в Турции от 143 рублей!
С новым годом с Aéza!
Реклама. ООО "АЕЗА ГРУПП" ИНН 7813654490 erid:LatgBUyJc
Банк ВТБ и Финтех Хаб Банка России объявляют о запуске программы "Машинное обучение PRO".
Она предназначена для тех, кто уже знаком с основами машинного обучения и хочет углубить свои знания в области обработки документов и генеративных нейросетей. Программа состоит из двух модулей: теоретического и практического.
Теоретический модуль будет проходить в дистанционном формате с 12 февраля по 11 марта 2024 года и включает в себя лекции по основам NLP, обработке изображений, языковым моделям и другим темам.
Практический модуль будет проходить в дистанционном формате с несколькими очными днями в Москве с 18 марта по 8 апреля 2024 года.
Лучшие участники теоретического модуля смогут применить полученные знания и пройти цикл продуктовой ML-разработки с менторами из Банка России и ВТБ. В конце программы лучшим командам будет предложено презентовать разработанный прототип на международной конференции Data Fusion 18 апреля 2024 года.
Заявки на программу можно подать на сайте
🎧 Слушать под ёлкой, заедая оливье
Что выйдет, если собрать трёх дата-сайентистов и одну ИТ-журналистку в помещении с микрофонами? Получится подкаст, в котором они подводят итоги 2023 года по теме machine learning и всего того, что около. В выпуске обсудили развитие генеративных нейросетей, их применение в работе и в жизни, этические вопросы и угрозы. А также попытались выяснить у ИИ, когда он нас поработит.
Слушайте на любой удобной платформе.
🔍 FIND: Interface Foundation Models' Embeddings
FIND - удобный интерфейс для настройки эмбедингов вших моделей.
🖥 Code: https://github.com/UX-Decoder/FIND
🎓 Demo: http://find.xyzou.net/
🔮 Project Page: https://x-decoder-vl.github.io
🥩 Demo: http://find.xyzou.net
📚 ArXiv: https://arxiv.org/pdf/2312.07532.pdf
@ai_machinelearning_big_data
🥳FreeInit with AnimateDiff Gradio Colab
FreeInit - новый эффективный метод улучшения временной согласованности видео, генерируемых диффузионными моделями.
🖥 colab: https://github.com/camenduru/FreeInit-colab
🔮page: https://tianxingwu.github.io/pages/FreeInit/
📚paper: https://arxiv.org/abs/2312.07537
🥩code: https://github.com/TianxingWu/FreeInit
@ai_machinelearning_big_data
🃏 Poker Hand History File Format Specification
An open-source Python library for poker simulations and hand evaluations.
PokerKit - это библиотека Python с открытым исходным кодом для симуляции игры в покер и оценки покерных рук, разработанная группой по изучению покера Университета Торонто.
PokerKit поддерживает широкий спектр разновидностей покера и предоставляет архитектуру для создания собственных игр.
Все эти возможности предоставляются через интуитивно понятный унифицированный API высокого уровня.
Библиотека может быть использована в самых разных сферах, от разработки покерного AI до создания инструментов предсказания покерных. pip install pokerkit
🖥 GitHub: https://github.com/uoftcprg/pokerkit
📚 Paper: https://arxiv.org/pdf/2312.11753v1.pdf
🥩 Project: https://pokerkit.readthedocs.io/en/stable/
@ai_machinelearning_big_data
🖼 ImageDream: Image-Prompt Multi-view Diffusion for 3D Generation
ImageDream - новый набор диффузионных моделей многоракурсной генерации, разработанный для решения сложной задачи создания 3D-объектов из изображения.
🖥 GitHub: https://github.com/bytedance/ImageDream
📚 Paper: https://arxiv.org/abs/2312.02201
🥩 Demo: https://github.com/bytedance/ImageDream/blob/main
@ai_machinelearning_big_data
🪩 DiffusionLight: Light Probes for Free by Painting a Chrome Ball
Диффузионная модель, обучена на миллиардах изображений, для визуализации хромированного шара на изображениях с разным освещением.
Несмотря на простоту, эта задача остается сложной: диффузионные модели часто вставляют неправильные или непоследовательные объекты и не могут правильно генерировать изображения со светом в формате HDR.
Для входного изображения, оценивается освещение сцены в виде карты окружения HDR. Идея заключается в том, чтобы нарисовать на изображении хромированный шар с помощью диффузионной модели и развернуть его в окружении. Таким образом решаются задачи: (1) как последовательно генерировать хромированные шары и (2) как использовать модель диффузии LDR для создания хромированных шаров HDR.
Данный метод позволяет генерировать освещение высокого качества в различных условиях и демонстрирует превосходный результат для изображений в дикой природе.
🖥 GitHub: https://github.com/DiffusionLight/DiffusionLight
🔮 Colab: https://colab.research.google.com/drive/15pC4qb9mEtRYsW3utXkk-jnaeVxUy-0S?usp=sharing&sandboxMode=true
📚 Paper: https://arxiv.org/abs/2312.09168
🥩 Score Measurement: https://vistec-my.sharepoint.com/:f:/g/personal/pakkapon_p_s19_vistec_ac_th/EvBHbnLrVnZArhQTcboh6qkBGcSqUqzdgx13iZ2IsLPzOw
@ai_machinelearning_big_data
🔊 Amphion: An Open-Source Audio, Music, and Speech Generation Toolkit
Amphion - это новый инструмент с открытым исходным кодом, позволяющий создавать речь, звуки и песни.
Он разработан для поддержки исследований в области аудио, музыки и генерации речи.
С его помощью Тейлор Свифт демонстрирует свой талант, исполняя песни на китайском. 😊🎵
🖥 GitHub: https://github.com/open-mmlab/Amphion
📚 Paper: arxiv.org/abs/2312.09911
🥩 HF: https://huggingface.co/amphion
@ai_machinelearning_big_data
🖥 𝗧𝗵𝗲 𝘀𝘁𝗮𝘁𝗲 𝗼𝗳 𝗼𝗽𝗲𝗻 𝘀𝗼𝘂𝗿𝗰𝗲 𝗶𝗻 𝟮𝟬𝟮𝟯 by GitHub
GitHub только что опубликовал свой последний отчет о состоянии открых проектов. Авторы отметили тренд на использование разработчиками технологий искусственного интеллекта и тренд на создание приложений на основе искусственного интеллекта.
Они выделили основные тенденции:
🔹 Разработчики все чаще используют генеративный ИИ: Все больше разработчиков работают с моделями OpenAI ( 92% ) и с моделями других ИИ-компаний; в 2023 году проекты генеративного ИИ с открытым исходным кодом входят в десятку самых популярных проектов по количеству контрибьюторов.
🔹 Наблюдается тренд на работу с облачными приложениями:
Развертывание облаков становится стандартом; резко возросло количество использования разработчиками Docker
контейнеров, IaC
и других облачных нативных технологий.
🔹 В 2023 году на GitHub было создано 98 млн новых проектов (за 2022 год - 85.7 млн, за 2021 - 61 млн, за 2020 - 60 млн). Общее число проектов достигло отметки в 420 млн (+27%), а число публично доступных репозиториев - 284 млн (+22%).
🔸 За год добавлено около 65 тысяч новых проектов, связанных с машинным обучением, это на 248% больше, чем в прошлом году. Число AI-проектов за год выросло на 148%.
🔸 Аудитория GitHub за год выросла на 20.2 млн пользователей (+26%) и теперь достигает 114 млн (в прошлом году было 20.5 млн, позапрошлом - 73 млн, три года назад - 56 млн). На первом месте по числу разработчиков находится США, на втором - Индия, на третьем - Китай, на четвёртом Бразилия, на пятом - Великобритания, на шестом - РФ, на седьмом Германия. К 2027 году Индия обгонит США как крупнейшее сообщество разработчиков на GitHub
🔸Javascript остается самым популярным язком. Второе место сохраняет за собой Python.Популярность TypeScript выросла на 37 %. и он вытеснил на четвёртое место язык Java. 5, 6 и 7 места удержали за собой языки С#, C++ и PHP. На восьмое место поднялся язык С, который вытеснил на девятое место Shell. Десятое место занял Go.
🔸 𝗥𝘂𝘀𝘁 растет быстрее всех остальных языков в этом году (рост на 40 % по сравнению с предыдущим годом).
🔸 𝟰.𝟯 миллиона открытых и приватных репозиториев используют 𝗗𝗼𝗰𝗸𝗲𝗿𝗳𝗶𝗹𝗲𝘀. Это является следcтвием роста использования Terraform и других облачных нативных технологий, который мы наблюдали в течение последних нескольких лет.
🔸 Сингапур занял первое место по количеству новых разработчиков на душу населения.
📌 Полный отчет
📌 Видео
ai_machinelearning_big_data
⚡️ UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models ✒ Colab 🥳
UDiffText: Единая платформа для высококачественной генерации текста на изображениях с помощью моделей диффузии.
UDiffText способен синтезировать точный текст на синтетических или реальных изображениях, поэтому может применяться для решения таких задач, как редактирование текста на картинке (a), генерация произвольного текста и генерация точного текста.
🖥 code: https://github.com/ZYM-PKU/UDiffText
⚡️page: https://udifftext.github.io
📚 paper: https://arxiv.org/abs/2312.04884
🔥colab: https://github.com/camenduru/UDiffText-colab
ai_machinelearning_big_data
🖼 AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
Только что были выпущены Animate Diff v3
и Sparse Ctrl
, модели которые позволяют качественно анимировать и стилизовать видео, генерировать переходы между кадрами.
🖥 Github: https://github.com/guoyww/animatediff/
💻 Colab: https://colab.research.google.com/github/camenduru/AnimateDiff-colab/blob/main/AnimateDiff_colab.ipynb
📚 Paper: https://arxiv.org/abs/2307.04725
📁 Project: https://animatediff.github.io/
ai_machinelearning_big_data