🔥 SOTA: Stable Diffusion 3:вышла! 🔥
Stable Diffusion 3 - это новая технология преобразования текста в изображение SOTA.
Новая архитектура Multimodal Diffusion Transformer (MM Bit) использует отдельные наборы весов для изображений и языка, улучшая возможности понимания текста / правописания.
✅ Новая масштабируемая архитектура для синтеза текста в изображение
✅ Двунаправленное смешивание потоков токенов текста и изображений
✅ Самые крупные модели превосходят открытые модели SOTA, такие как SDXL
▪Blog: https://stability.ai/news/stable-diffusion-3-research-paper
▪ Paper: https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
ai_machinelearning_big_data
📹 ML-инженер Яндекса рассказал, как в Браузер встроили модель YandexGPT, которая умеет пересказывать видео
В статье на Хабре объяснили, почему суммаризация статей не то же самое, что суммаризация видео, как научить YandexGPT пересказывать даже очень длинные видео, и сравнили подходы p-tune, LoRa и fine-tune.
ai_machinelearning_big_data
🧬 Evo: DNA foundation modeling from molecular to genome scale
Эволюция геномного проектирования: роль нейросетей в биологической революции.
Ученые достигли значительного прорыва в биологии с разработкой нейросети Evo-1, которая способна моделировать ДНК, РНК и белки.
Этот инновационный продукт открывает новые горизонты в моделировании биологических последовательностей на различных масштабах, начиная от молекулярного уровня и до полногеномного анализа.
Искусственный интеллект Evo-1 обладает огромным потенциалом для создания новых модификаций CRISPR, предназначенных для лечения различных заболеваний. Эта технология также позволяет создавать материалы с заданными свойствами и тестировать гены в симуляциях, что в свою очередь значительно ускоряет научные исследования и открывает новые перспективы в области генетики.
Одним из ключевых преимуществ Evo-1 является его способность оперативно анализировать генетические последовательности и предсказывать их влияние на организм. Это делает нейросеть эффективным инструментом для исследований в области медицины, агропромышленности и биотехнологий.
Благодаря Evo-1 значительно расширяются возможности генетического проектирования и манипулирования ДНК. Ученые могут более точно изучать структуру генома различных организмов, выявлять гены, ответственные за конкретные болезни, и разрабатывать индивидуализированные подходы к лечению.
Таким образом, нейросеть Evo-1 представляет собой значительный шаг вперед в области генетического инжиниринга и биомедицины. Ее использование обещает революционизировать множество областей науки и привнести новые возможности в борьбе с генетическими заболеваниями и создании инновационных биологических материалов.
🖥 GitHub
@ai_machinelearning_big_data
🏆 Чтобы получить новые знания, опыт совместной работы и общение с лучшими экспертами, пройдите предварительную регистрацию в Летних школах Яндекса 2024!
Больше 50% выпускников становятся стажёрами и сотрудниками Яндекса💪
В этом году будет запущено больше школ:
🔸 Школа бэкенд-разработки;
🔸 Школа разработки интерфейсов;
🔸 Школа мобильной разработки;
🔸 Школа менеджеров Яндекса;
🔸 Школа аналитиков-разработчиков.
После лекций в онлайне будет практика в офисах Яндекса в Москве, Санкт-Петербурге и Екатеринбурге. Вам оплатят проезд и проживание, если вы из другого города📍
👉Подать заявку
Работаешь с данными и чувствуешь, что из них можно получить больше? В DataWorkshop расскажут как это сделать.
5 дней практики в Data Science на реальных данных магазина из Великобритании.
1-2 часа в день и самостоятельно создаешь модели машинного обучения.
Старт - 4 марта. Обучаешься под руководством эксперта в своем темпе, в удобное время.
6000+ человек из разных стран мира уже приняли участие в данном интенсиве.
15 лет практического опыта у автора интенсива, поэтому полученные знания можно сразу применять в рабочих проектах.
Обучают с 2017 года.
Предоставляем готовое окружение - ничего устанавливать и настраивать не нужно.
Участие бесплатно только для первых 100 записавшихся человек.
Успевайте записаться по 👉 ЭТОЙ ССЫЛКЕ
А еще много полезной информации о том, как начать работать в сфере Data Science в их канале.
Реклама: ИП Кравченко Николай Васильевич LjN8KCNbP
Поговорим про деньги в IT?
Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные офферы.
Пройти опрос можно здесь
Всем привет!
Владелец продукта ИТ-компании изучает потребности и пожелания участников процесса работы с даннымии аналитикой.
У вас есть уникальная возможность поделиться опытом, дать рекомендации и подсветить проблемы используемых систем.
Переходите по ссылке и делитесь бесценным опытом😉
🎓 Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot.
Multi-HMR - это простая, но эффективная модель , которая принимает на вход RGB-изображение и выполняет 3D-реконструкцию
нескольких людей в пространстве.
▪Github
▪Paper
▪Dataset
ai_machinelearning_big_data
🔥 NVIDIA AI Foundation Models
Вы можете тестировать модели с открытым исходным кодом, используя NVIDIAAI.
Взаимодействуйте с новейшими современными API моделей ИИ, оптимизированными на базе ускоренных вычислений NVIDIA, прямо из браузера.Gemma 7B, Llama 2 70B, Kosmos-2, Mixtral 8x7B Instruct, Stable Diffusion X
L и многое другое 🥳
https://catalog.ngc.nvidia.com/ai-foundation-models
ai_machinelearning_big_data
💫 Gemini великолепно анализирует входные данные и работает с ними.
Нейросети скормили видео с записью экрана по поиску квартиры на сайте Zillow. ИИ смог сгенерировать Selenium-код для автоматизации этой задачи и пошагово описал все, что делал.
Вот, что выдал Gemini, посмотрев видео по поиску квартиры:
"This code will open a Chrome browser, navigate to Zillow, enter "Cupertino, CA" in the search bar, click on the "For Rent" tab, set the price range to "Up to $3K", set the number of bedrooms to "2+", select the "Apartments/Condos/Co-ops" checkbox, click on the "Apply" button, wait for the results to load, print the results, and close the browser."
Посмотрите видео!
•Gemini
•Gemma opensource на основе Gemini.
•DeepMind Gemini 1.5 - An AI That Remembers!
ai_machinelearning_big_data
Начните карьеру в ИТ с гранта на обучение до 100% в Центральном университете!
Грант можно получить на одно из направлений бакалавриата по искусственному интеллекту, разработке и бизнес-аналитике. Помимо диплома и практико-ориентированного образования студенты получат:
- Персонализацию учебной траектории;
- Стажировку в одной из лучших ИТ-компании страны;
- Личного ментора на все время обучения;
- Доступ к современному кампусу в центре Москвы.
Получить полную информацию и оставить заявку можно здесь.
erid:2VtzqxTMfd3
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673
Узнайте больше о том, как корпорации внедряют генеративный ИИ.
27 февраля MTS AI проводит вебинар, на котором расскажет о кейсах российских и зарубежных компаний по использованию больших языковых моделей, сложностях по внедрению этой технологии и способах их преодоления. Также вы узнаете о разработках и кейсах компании по автоматизации бизнес-процессов с помощью LLM.
Участие бесплатное, зарегистрироваться можно по ссылке.
Реклама. Информация о рекламодателе
🎮Как использовать ИИ в игровой индустрии?
Расскажет Артем Голубин, Senior Data Scientist, преподаватель курса Reinforcement Learning в OTUS на открытом уроке.
Вместе с опытным экспертом вы разберете:
- историю развития интеллектуальных агентов для настольных и компьютерных игр;
- подходы к созданию игровых ботов с помощью обучения с подкреплением;
- как обучить модель эффективно управлять группой юнитов в одной из популярных игр.
⚡Занятие пройдёт 22 февраля в 20:00 мск и будет приурочено к старту курса «Reinforcement Learning».
👉Регистрируйтесь прямо сейчас, чтобы занять место на открытом уроке и получить запись.
При поступлении в группу обучения возможны разные способы оплаты и рассрочка платежа
erid: LjN8K3dmV
OpenAI только что выпустила технический отчет Sora!
Вот что вам нужно знать о лучшей архитектуре модели преобразования текста в видео.
𝟭. 𝗗𝗮𝘁𝗮 𝗥𝗲𝗽𝗿𝗲𝘀𝗲𝗻𝘁𝗮𝘁𝗶𝗼𝗻: Sora преобразует визуальные данные в пространственно-временные патчи (spacetime patches), подобно токенизации в больших языковых моделях (LLM). Это позволяет масштабировать обучение на разнообразном визуальном контенте.
𝟮. 𝗖𝗼𝗺𝗽𝗿𝗲𝘀𝘀𝗶𝗼𝗻 𝗮𝗻𝗱 𝗣𝗮𝘁𝗰𝗵 𝗘𝘅𝘁𝗿𝗮𝗰𝘁𝗶𝗼𝗻: Видео компрессор уменьшает визуальные данные до сжатого латентного пространства, а затем разбивает его на пространственно-временные патчи. Эти патчи являются строительными блоками для обучения и создания контента.
𝟯. 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿-𝗯𝗮𝘀𝗲𝗱 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴: Sora использует трансформеры для обработки пространственно-временных патчей, эффективно улавливая сложные паттерны и динамику генераций. Этот метод использует способность трансформеров обрабатывать большие наборы данных и различные зависимости.
𝟰. 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗣𝗿𝗼𝗰𝗲𝘀𝘀: Диффузия используеся для уточнения зашумленных входных данных в детальные видео. Предсказывая лучшие версии патчей с каждой итерацией, Sora генерирует высококачественные видео, руководствуясь текстовыми промптами.
𝟱. 𝗙𝗹𝗲𝘅𝗶𝗯𝗹𝗲 𝗢𝘂𝘁𝗽𝘂𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻: Благодаря патч-ориентированному подходу Sora генерирует видео различных размеров и форм. Она может настраивать выходной сигнал под конкретные разрешения, соотношения сторон и продолжительность, что делает ее очень адаптируемой.
𝟲. 𝗘𝗺𝗲𝗿𝗴𝗲𝗻𝘁 𝗖𝗮𝗽𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀: Масштабные тренировки Sora привели к появлению свойств, необходимых для генерации качетсвенного 3D-контента и симуляция взаимодействий.
https://openai.com/research/video-generation-models-as-world-simulators
ai_machinelearning_big_data
⚡️ V-JEPA: The next step toward Yann LeCun’s vision of advanced machine intelligence (AMI)
V-JEPA (шутки в сторону) сегодня выпущен новый метод обучения машин пониманию и моделированию физического мира с помощью просмотра видео.
Эта работа - еще один важный шаг на пути к к видению моделей ИИ, которые используют изученное понимание мира для планирования, рассуждения и выполнения сложных задач.
Модели способны понимать и предсказывать, что происходит в видео, даже при ограниченном объеме информации.
Они обучаются, предсказывая недостающие или непонятные части видео в своем внутреннем пространстве признаков. В отличие от генеративных подходов, которые заполняют недостающие пиксели, этот гибкий подход позволяет до 6 раз повысить эффективность обучения и выборки.
Модели были предварительно обучены на полностью немаркированных данных.
Результаты показывают, что, лучшие модели V-JEPA достигают 82,0 % на Kinetics-400, 72,2 % на Something-Something-v2 и 77,9 % на ImageNet1K
.
Эта работа является важной вехой на пути развития машинного интеллекта.
▪Github: https://github.com/facebookresearch/jepa
▪Paper: https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/
▪Blog: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
ai_machinelearning_big_data
🖼 Differential Diffusion: Giving Each Pixel Its Strength 🔥
Новый фреймворк, который позволяет настраивать количество изменений на сгенерированных изображениях на пиксель или на область изображения.
Фреймворк может быть интегрирован в любую существующую модель генерация, расширяя ее за счет этой возможности.
Такой детальный контроль количества изменений открывает широкий спектр новых возможностей редактирования, таких как контроль степени модификации отдельных объектов или возможность вносить постепенные пространственные изменения.
Фремворк не требует обучения или тонкой настройки.
▪code: github.com/exx8/differential-diffusion
▪page: differential-diffusion.github.io
▪paper: arxiv.org/abs/2306.00950
ai_machinelearning_big_data
Совместная разработка с GitVerse
Разработчики получили доступ к GitVerse – платформе для совместной разработки и хостинга кода от СберТеха. Сервис создан и размещен в России, поэтому работать с ним удобно, безопасно и надежно.
С GitVerse можно:
- создавать проекты с открытым и закрытым кодом;
- работать совместно и привлекать к проектам новых участников;
- проверять и комментировать код;
- переносить репозитории с популярных мировых Git-ресурсов в один клик;
- общаться с ИТ-сообществом, узнавать новости про open source (программное обеспечение с открытым исходным кодом).
Вся функциональность GitVerse доступна бесплатно.
Регистрируйтесь уже сейчас и откройте GitVerse в числе первых!
⚡️OpenCodeInterpreter
OpenCodeInterpreter — семейство моделей с открытым исходным кодом, предназначенных для генерации, выполнения и итеративного уточнения кода.
OpenCodeInterpreter, поддерживаемый Code-Feedback, набором данных, включающим 68 тыс. многошаговых взаимодействий, объединяет выполнение и обратную связь с человеком для уточнения кода.
Оценка OpenCodeInterpreter в таких тестах, как HumanEval, MBPP показывает его исключительную производительность с точностью 83,2 (76,4) в среднем (и в плюс версии), что близко к точности GPT-4 — 84,2 (76,2).
При этом точность может быть повышена до 91,6 (84,6).
🔗 Описание и сами модели OpenCodeInterpreter
@ai_machinelearning_big_data
🎓 OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
Самосовершенствующийся диалоговый агент, который интегрируется в операционную систему для автоматизации повседневных задач.
OS-Copilot - это новаторская основа для создания универсальных компьютерных агентов, которая обеспечивает единый интерфейс для взаимодействия приложений в экосистеме ОС.
Самосовершенствующийся помощник с искусственным интеллектом, способного решать общие компьютерные задачи.
Агент может взаимодействовать со всеми элементами операционной системы (ОС), включая работу в сети, напсианеи кода, работу с файлами и мультимедиа, работу различными сторонними приложениями.
▪Github
▪Project
▪Статья
ai_machinelearning_big_data
⚡️ 7 самых важных релизов недели из мира ИИ:
Это была важная неделя для мира ИИ: анонсы от Alibaba, Lightricks, Ideogram, Apple, Adobe, OpenAI
и многих других.
1. Исследователи Alibaba представили EMO - ИИ, который качетсвенно анимирует статическое изображение человека с синхронизацей движения губ и лица.
2. Компания Lightricks представила LTX Studio - студию для создания фильмов с помощью ИИ.
Новинка позволяет креативщикам автоматически генерировать сценарии, редактируемые раскадровки и короткие видеоклипы.
Создание видео с помощью искусственного интеллекта становится все более продвинутым с каждым днем.
3. Компания Ideogram выпустила новую версию своей модели преобразования текста в изображение.
В первую очередь, это невероятная детализация текста, сгенерированного искусственным интеллектом и новая функция Magic Prompt,
кооораяп
одскажет, как их написать и получить максимально качественный результат.
4. Apple незаметно анонсировала ИИ обновления для iOS.
Судя по тому, как продвигаются исследования в области ИИ, скоро мы увидим крупное обновление ИИ для Siri.
Возможно, это будет следующий "ChatGPT" от Apple.
5. Компания Klarna только что опубликовала блог, в котором говорится, что с помощью искусственного интеллекта они заменят 700 сотрудников службы поддержки клиентов.
Сумасшедшая статистика:
- За последний месяц чатбот обработал 2,3 млн разговоров.
- Среднее время решения проблемы сократилось на 9 минут
- 40 млн долларов дополнительной прибыли в 2024 году
6. Adobe выпустила Project Music GenAI Control.
Этот инструмент, названный "музыкальным фотошопом", позволяет легко генерировать и редактировать аудио с помощью искусственного интеллекта, позволяя авторам создавать собственные музыкальные треки с помощью текстовых промптов.
7. Компания Pika Labs представила новую функцию синхронизации губ в своем генераторе видео с искусственным интеллектом.
Новая технология позволяет создавать крайне реалистичноные анимации на базе ElevenLabs.
ai_machinelearning_big_data
🔥 Новый бесплатный курс: Prompt Engineering with Llama 2 от Andrew YNg and и DeepLearning.AI
Llama 2 стала очень важной моделью для всего мира ИИ.
Llama - это не одна модель, а целая коллекция моделей. В этом курсе вы узнаете: - Узнаете о различиях между разными видами Llama 2 и о том, когда следует использовать каждый из них.
▪Вы также узнаете, как работают теги промпты для Llama, - как они могут помочь вам в повседневных задачах.
▪Научитесь использовть продвинутые промпты, например, промпты в виде нескольких скриншотов для классификации или промпты в виде цепочки мыслей для решения логических задач.
▪Научитесь использовть специализированные модели из коллекции Llama для решения конкретных задач, например Code Llama,
помогающую писать, анализировать и улучшать код, и Llama Guard
, которая проверяет промпты и ответы моделей на наличие вредоносного содержимого.
В курсе также рассказывается о том, как запустить Llama 2 локально на собственном компьютере.
📌 https://deeplearning.ai/short-courses/prompt-engineering-with-llama-2
ai_machinelearning_big_data
🩳 👚 OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on 👖
Мощная модель латентной диффузии для контролируемой виртуальныой примерочной.
▪Github: https://github.com/levihsu/OOTDiffusion
▪Demo: https://ootd.ibot.cn
▪Jupyter: https://github.com/camenduru/OOTDiffusion-jupyter
ai_machinelearning_big_data
Avito Analytics meetup #12 — онлайн-ивент для аналитиков 🔥
Эксперты из AvitoTech и других крупных компаний разберут кейсы аналитической поддержки при создании нового продукта, расскажут как и зачем анализируют обратную связь о товарах в ритейле, а также о роли аналитики в построении пути пользователя на маркет-приложениях.
Темы докладов:
👉 Аналитика нового продукта «под ключ»;
👉 Обратная связь в «Пятёрочке»: как работают с оценками товаров;
👉 Как построить путь пользователя (User flow).
Встречаемся онлайн 6 марта в 18:00 по Москве.
Регистрируйтесь по ссылке, и до встречи!
SOTA🚀 YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
🎉 Вышел YOLOv9 🎉
Новый SOTA для обнаружения объектов в реальном времени.
• Github
• Paper
• Hugging face
ai_machinelearning_big_data
🔝 ByteDance presents SDXL-Lightning: a lightning fast 1024px text-to-image generation model
SDXL-Lightning - это молниеносная генеративная модель преобразования текста в изображение. Она позволяет генерировать высококачественные изображения размером 1024px за несколько шагов.
▪HF: https://huggingface.co/ByteDance/SDXL-Lightning
ai_machinelearning_big_data
🦾 Learning to Learn Faster from Human Feedback with Language Model Predictive Control
Новый фреймворк от Google DeepMind
для, управленияя роботомами, с помощью ествественного языка.
▪proj: https://robot-teaching.github.io
▪paper: https://arxiv.org/abs/2402.11450
▪code: https://colab.research.google.com/drive/1YcRN_kklw3cVVJNvgK_IEV6nDce9EJWK
ai_machinelearning_big_data
🧮 OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset
OpenMathInstruct-1 - это новый синтетический датасет от NVIDIA
для настройки математических моделей, содержащий 1,8 млн пар "задача-решение".
> Используются обучающие датасеты GSM8K
и MATH
.
> Для создания ланных используется Mixtral 8x7B.
> Модель использует текстовые рассуждения + интерпретатор кода при генерации.
> Выпущены LLama, CodeLlama, Mistral, Mixtral fine-tunes
.
> Лицензия Apache 2.0!
Блестящая работа команды Nvidia AI - 2024 год станет годом синтетических данных и еще более мощных моделей! 🔥
▪Dataset: https://huggingface.co/datasets/nvidia/OpenMathInstruct-1
▪Paper: https://huggingface.co/papers/2402.10176
ai_machinelearning_big_data
💃 MagicDance: Realistic Human Dance
Video Generation with Motions & Facial Expressions Transfer
MagicDance - новый эффективный подход к созданию реалистичных видео с движением человека. Инструмент позволяет передавать движения и выражения лица без файнтюнинга, обеспечивая высокое качество генерации🕺.
▪page: https://boese0601.github.io/magicdance/
▪paper: https://arxiv.org/abs/2311.12052
▪code: https://github.com/Boese0601/MagicDance
▪jupyter: https://github.com/camenduru/MagicDance-jupyter
ai_machinelearning_big_data
✉️ Вам приглашение!
Кому: талантливому Python-разработчику
От кого: от Сбера
Куда: на праздничный митап в честь 33-летия Python!
Во вторник, 20 февраля, в московском офисе Сбера пройдёт Python Birthday Meetup с интересными докладами, профессиональным нетворкингом и приятными праздничными подарками.
О чём поговорим:
🎈 Погрузимся в мир быстродействия Python и возможности распараллеливания вычислений, оптимизации кода и внедрения компонентов для вычисления на GPU.
🎈 Изучим кейсы использования Python при создании HDMap в беспилотной технологии и узнаем, как автоматизируется большое количество задач по оцифровке локаций в SberAutoTech.
🎈 Узнаем, с какими задачами и проблемами сталкивается разработчик при работе с GigaСhat, и как Python SDK GigaChain помогает их преодолевать.
Скорее регистрируйтесь по ссылке, чтобы забронировать свой праздничный колпачок и кусочек торта!
Дорогие коллеги,
Сейчас наши друзья проводят исследование рынка разметки данных, чтобы понять потребности и задачи, с которыми они чаще всего встречаются.
Для этого планируется интервью с DS инженерами или тим-лидами, которые размечают данные в компании силами собственных инженеров или разметчиков.
Интервью займет не больше 15 минут, а после компания поделится результатами исследования со всеми, кто принимал участие в опросе.
В благодарность для всех участников наши друзья получат эксклюзивный гайд "Автоматизация разметки данных" с закрытой конференции по AI и 1000 рублей на карту.
Если вы хотите готовы дать интервью напишите @odinaev_djurahon