🔘Что отличает обучение с подкреплением от основных методов машинного обучения? Погрузимся в историю RL и разберем отличительные особенности этого направления 3 июля в 20:00 мск на открытом уроке в OTUS.
Вебинар пройдет в рамках старта онлайн-курса «Reinforcement Learning» и будет полезен всем DS/ML/DL специалистам и IT-специалистам, которые хотят расширить свои знания в этой области.
💬На занятии мы:
— Рассмотрим RL с точки зрения вычислений и через призму поведенческих и когнитивных наук.
— Разберем классический пример многорукого бандита — автомата для казино
— Продемонстрируем возможности примитивного алгоритма RL в упрощенной среде.
— Обсудим самые знаковые приложения RL нашего времени.
👉Регистрация для участия https://otus.pw/1af3O/
📌Спикером выступит Андрей Маргерт, исследователь Машинного Обучения в Wageningen Research и преподаватель курса.
Не упустите возможность познакомиться с экспертом! После вебинара вы сможете продолжить обучение на курсе, доступном в рассрочку. Нативная интеграция подробная информация о продукте на сайте www.otus.ru
🧍♂ BEDLAM: Bodies Exhibiting Detailed Lifelike Animated Motion
BEDLAM is useful for a variety of tasks and all images, ground truth bodies, 3D clothing, support code, and more are available for research purposes.
Нейронная сеть, обученная только на синтетических данных, которая достигает самой высокой точности при решении задачи оценки 3D позы и формы человека (HPS) по реальным изображениям.
🖥 Github: https://github.com/pixelite1201/BEDLAM
📕 Paper: https://bedlam.is.tuebingen.mpg.de/media/upload/BEDLAM_CVPR2023.pdf
🔗Render code: https://github.com/PerceivingSystems/bedlam_render
🎞 Video: https://youtu.be/OBttHFwdtfI
👑 Dataset: https://paperswithcode.com/dataset/bedlam
ai_machinelearning_big_data
📚 5 Free Books on Natural Language Processing to Read in 2023
5 великолепных бесплатных книг по NLP, актуальных в 2023 году.
1. Speech and Language Processing
Authors: Dan Jurafsky and James H. Martin
Книга, написанная двумя профессорами Стэнфордского университета, по обработке речи и языка содержит исчерпывающее введение в мир НЛП. Она разбита на 3 раздела: Фундаментальные алгоритмы для НЛП, Приложения НЛП и Аннотирование лингвистической структуры.
2. Foundations of Statistical Natural Language Processing
Authors: Christopher D. Manning and Hinrich Schütze
Эта книга начинает с основ НЛП и постепенно погружает вас в математические аспекты, неодходимые для обработки естественного языка, такие как вероятностные пространства, теорема Байеса, дисперсия и многие другие.
3. Pattern Recognition and Machine Learning
Author: Christopher M. Bishop
Это детальное введение в область распознавания образов и машинного обучения.В конце каждой главы есть упражнение, подобранное таким образом, чтобы лучше объяснить читателю каждую концепцию.
4. Neural Network Methods in Natural Language Processing
Author: Yoav Goldberg
Книга начинается с изучения основ, таких как линейные модели, перцептроны, feed-forward, обучение нейронных сетей и тд. Автор использовал математический подход для объяснения этих фундаментальных элементов вместе с практическими примерами.
5. Practical Natural Language Processing
В этой книге рассказывается о том, как НЛП используется в реальном мире, о конвейере моделей НЛП, а также о текстовых данных и примерах использования, таких как чат-боты типа ChatGPT. В этой книге вы узнаете, как НЛП может быть использовано в различных отраслях, таких как розничная торговля, здравоохранение, финансы и др.Вы сможете узнать, как работает конвейер НЛП в каждой из областей, и понять, как использовать его в работе.
ai_machinelearning_big_data
📕 Constrained-Text-Generation-Studio
AI writing assistant for recreational linguists, poets, creative writers, and/or researchers to use and study the ability of large-scale language models.
Это как Photoshop, но для создания текстового контента!
Продвинутый ИИ-помощник по написанию текстов и генерированию текста.
🖥 Github: https://github.com/hellisotherpeople/constrained-text-generation-studio
📕 Paper: https://arxiv.org/abs/2306.15926v1
🔗Dataset: https://huggingface.co/datasets/Hellisotherpeople/Lipogram-e
ai_machinelearning_big_data
💬 3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement
A large-scale speech corpus to facilitate the research of speech representation disentanglement.
3D-Speaker - это набор инструментов с открытым исходным кодом и крупномасштабный корпус речи, для мультимодальной проверки дикторов, распознавания дикторов и разделение дикторов.
3D-Speaker содержит более 10 000 дикторов, каждый из которых одновременно записывается несколькими устройствами, расположенными на разных расстояниях, а некоторые дикторы говорят на нескольких диалектах.
🖥 Github: https://github.com/alibaba-damo-academy/3D-Speaker
📕 Paper: https://arxiv.org/abs/2306.15354v1
🔗Dataset: https://3dspeaker.github.io/
ai_machinelearning_big_data
🖥 Free Courses on Large Language Models
Крутые бесплатные курсы по большим языковым моделям.
▪ChatGPT Prompt Engineering for Developers
▪LangChain for LLM Application Development
▪Building Systems with the ChatGPT API
▪Google Cloud Generative AI Learning Path
▪Introduction to Large Language Models with Google Cloud
▪LLM University
▪Full Stack LLM Bootcamp
ai_machinelearning_big_data
🚶♂️ MotionGPT: Human Motion
as Foreign Language
MotionGPT consists of a motion tokenizer responsible for converting raw motion data into discrete motion tokens, as well as a motion-aware language model that learns to understand the motion tokens from large language pre-training models by corresponding textual descriptions.
MotionGPT, унифицированная, универсальная и удобная модель языка движения для решения множества задач, связанных с движением.
⏩ Project: https://motion-gpt.github.io/
🖥 Github: https://github.com/openmotionlab/motiongpt
📕 Paper: https://arxiv.org/pdf/2306.14795.pdf
🔗Dataset: https://paperswithcode.com/dataset/amass
ai_machinelearning_big_data
⚡ LightGlue. Local Feature Matching at Light Speed
LightGlue a lightweight feature matcher with high accuracy and adaptive pruning techniques, both in the width and depth of the network, for blazing fast inference.
LightGlue, глубокая нейронная сеть, которая учится сопоставлять локальные фичи на изображениях.
git clone https://github.com/cvg/LightGlue.git && cd LightGlue
python -m pip install -e .
🖥 Github: https://github.com/cvg/lightglue
📕 Paper: https://arxiv.org/abs/2306.13643v1
🔗Dataset: https://paperswithcode.com/dataset/hpatches
ai_machinelearning_big_data
🔥 Awesome-Multimodal-Large-Language-Models
Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.
Огромный, упорядоченный список новейших статей, датасетов и кода по мультимодальным большим языковым моделям.
🖥 Github: https://github.com/bradyfu/awesome-multimodal-large-language-models
📕 Paper: https://arxiv.org/abs/2306.13394v1
🔗Dataset: https://paperswithcode.com/dataset/coco
ai_machinelearning_big_data
⭐️ LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models
Extensible and lightweight toolkit, LMFlow, which aims to simplify the finetuning and inference of general large foundation models.
Расширяемый, удобный и эффективный инструментарий для тонкой настройки больших моделей машинного обучения, разработанный как удобный, быстрый, надежный инструент для работы с большими моделями.
🖥 Github: https://github.com/optimalscale/lmflow
⭐️ Demo: https://lmflow.com/
📕 Paper: https://arxiv.org/abs/2306.12420v1
🔗Dataset: https://paperswithcode.com/dataset/pubmedqa
ai_machinelearning_big_data
🚀 Fast Segment Anything
Fast Segment Anything Model reaches comparable performance with the SAM method at 50 times higher run-time speed.
Fast Segment Anything Model (FastSAM) - это модель CNN Segment Anything Model, обученная всего на 2% набора данных SA-1B, опубликованного авторами SAM. FastSAM достигает сравнимой с методом SAM производительности при 50-кратном увеличении скорости выполнения.git clone https://github.com/CASIA-IVA-Lab/FastSAM.git
🖥 Github: https://github.com/casia-iva-lab/fastsam
⭐️ Demo:https://huggingface.co/spaces/An-619/FastSAM
📕 Paper: https://arxiv.org/pdf/2306.12156.pdf
🔗Dataset: https://paperswithcode.com/dataset/sa-1b
ai_machinelearning_big_data
Fine-tuning MMS Adapter Models for Multi-Lingual ASR
MMS' Adapter training is both more memory efficient, more robust and yields better performance for low-resource languages.
Пример с кодом по настройке адаптера, при котором достигается поразительно низкий уровень ошибок в словах всего за 10-20 минут файнтюнинга.
Обучение адаптера MMS является более экономичным, более надежным и обеспечивает высокую производительность.
🤗 Post: https://huggingface.co/blog/mms_adapters
🖥 Colab: https://colab.research.google.com/github/patrickvonplaten/notebooks/blob/master/Fine_Tune_MMS_on_Common_Voice.ipynb
🖥 Github: https://github.com/facebookresearch/fairseq/tree/main/examples/mms/asr
⭐️ Demo: https://huggingface.co/spaces/facebook/MMS
📕 Paper: https://huggingface.co/papers/2305.13516
ai_machinelearning_big_data
Multi-Modality Arena
Multi-Modality Arena - это платформа для оценки больших мультимодальных моделей. Multi-Modality Arena позволяет проводить сравнительный анализ моделей, данных, используя изображения в качестве входных данных. Поддерживает MiniGPT-4, LLaMA-Adapter V2, LLaVA, BLIP-2 и многие другие!
🖥 Github: https://github.com/opengvlab/multi-modality-arena
⭐️ Demo: http://vlarena.opengvlab.com/
📕 Paper: https://arxiv.org/abs/2306.09265v1
🔗Dataset: https://paperswithcode.com/dataset/vsr
ai_machinelearning_big_data
REBEL: Relation Extraction By End-to-end Language generation
REBEL is a seq2seq model that simplifies Relation Extraction.
Модель, позволяющая извлекать триплеты из данных с аннотированной бд, охватывающуей 18 языков 40 миллионов экземпляров триплетов.
🖥 Github: https://github.com/Babelscape/rebel
⭐️Demo: https://huggingface.co/spaces/Babelscape/rebel-demo
⭐️ Hugging face: https://huggingface.co/Babelscape/rebel-large
📕 Paper: https://arxiv.org/abs/2306.09802v1
🔗Dataset: https://huggingface.co/Babelscape/rebel-large
ai_machinelearning_big_data
Jumanji: a Diverse Suite of Scalable Reinforcement Learning Environments in JAX
Jumanji is helping pioneer a new wave of hardware-accelerated research and development in the field of RL.
Jumanji, набор моделей для задач RL, специально разработанных для быстрых, гибких и масштабируемого решения. Jumanji предоставляет набор моделей, ориентированных на комбинаторные проблемы, часто встречающиеся в промышленности, а также на сложные общие задачи принятия решений.
🖥 Github: https://github.com/instadeepai/jumanji
📕 Paper: https://arxiv.org/abs/2306.09884v1
🔗 Dataset: https://paperswithcode.com/dataset/mujoco
ai_machinelearning_big_data
⭐️ ManimML: Communicating Machine Learning Architectures with Animation
An open-source Python library for easily generating animations of ML algorithms directly from code.
ManimML - это фреймворк для создания красочной, интерактивной анимации и визуализации различных концепций и алгоритмов машинного обучения.
Пример:from manim_ml.neural_network import NeuralNetwork, Convolutional2DLayer, FeedForwardLayer
# Make nn
nn = NeuralNetwork([
Convolutional2DLayer(1, 7, filter_spacing=0.32),
Convolutional2DLayer(3, 5, 3, filter_spacing=0.32, activation_function="ReLU"),
FeedForwardLayer(3, activation_function="Sigmoid"),
],
layer_spacing=0.25,
)
self.add(nn)
# Play animation
forward_pass = nn.make_forward_pass_animation()
self.play(forward_pass)
🖥 Github: https://github.com/helblazer811/manimml
📕 Paper: https://arxiv.org/abs/2306.17108v1
📌 Project: https://www.manim.community/
ai_machinelearning_big_data
А с собакой в офис можно?
Ответ: да, если вы работаете в СберМаркете
Ребята создали комфортное pet-friendly пространство. В московском офисе компании домашние любимцы не мешают работе, а, наоборот, помогают сотрудникам улучшить настроение и за счёт этого повысить продуктивность. И как же приятно в обеденный перерыв не просто сходить за кофе, а выйти на полноценную прогулку со своим питомцем!
А чтобы не забывать о любимых хвостиках даже в рабочих чатах, ребята сделали с ними стикеры. Ну разве не прелесть!
Хотите тоже работать в СберМаркете, водить своего пёсика в офис и вместе с командой профессионалов определять будущее доставки из магазинов и ресторанов? Ищите вакансии на сайте
Реклама. ООО «Инстамарт Сервис», 115035, Москва, ОГРН 1187746494980. 12+
Имеете опыт в машинном обучении, но хотите двигаться ещё дальше?
Специально для вас Валерий Бабушкин, Vice President, Data Science в Blockchainꓸcom, вместе с командой опытных специалистов из Яндекса, AliExpress и X5 Retail Group подготовил продвинутый курс, на котором вам предстоит решать сложные и нестандартные задачи бизнеса.
Ранжирование и матчинг, динамическое ценообразование, uplift-моделирование, ускорение и повышение чувствительности A/B-тестов — выбирайте нужные блоки или проходите курс целиком.
Если вы уже сталкивались с чем-то из этого в своей работе, то познакомитесь с best practices индустрии. А если нет — дополните своё резюме новыми кейсами и станете более разносторонним ML-специалистом.
Ждём вас на курсе! Следующий поток стартует уже 3 июля, а по промокоду MBIGDATA28 вас ждет скидка 5%.
[Зарегистрироваться]
🔥Хотите стать одним из авторов проектов, которые меняют жизнь людей к лучшему в области автоматизации предприятий, медицины, робототехники, виртуальной реальности и других сферах, или стать руководителем отдела Computer Vision в вашей компании? Все это возможно после прохождения обучения на курсе “Компьютерное зрение” в OTUS. Сейчас открыт набор в группу.
Приходите 29 июня в 20:00 мск на открытый урок «PyTorch 2.0», чтобы познакомиться с преподавателем и программой курса, оценить все перспективы, которые откроются перед вами.
На занятии мы также обсудим, что нового принес фреймворк PyTorch 2.0 в сферу компьютерного зрения и глубокого обучения.
📌Вы узнаете:
- Как начать использовать PyTorch для обучения своих нейронных сетей
- Что нового в PyTorch 2.0 и чем он отличается от 1.x
- Как ускорить и оптимизировать свою нейросеть при помощи одной строчки кода
- Как перейти с PyTorch 1.x на 2.0
- Как ускорить трансформеры HuggingFace при помощи PyTorch Transformer API
👉🏻Для участия отправьте заявку https://otus.pw/vOnK/
Кому подходит этот урок:
- Начинающим и опытным специалистам в области компьютерного зрения и глубокого обучения
- Дата сайентистам, которые хотят ускорить инференс своих моделей
- Опытным специалистам, которые еще не перешли на PyTorch 2.0
- Тем, кто хочет познакомиться с фреймворков PyTorch и начать обучать свои нейросети
Нативная интеграция подробная информация о продукте www.otus.ru
А вы знаете, что такое пирамида признаков? А трансформеры (нет, мы не про фильм)?
Это термины, которые используют инженеры, работающие с нейронными сетями! Мы их нашли в канале ИТ-компании «Криптонит» — подписывайтесь на ребят! У них выходят материалы и про ML, и про роботов, и про программирование.
А ниже мы выбрали несколько терминов из их нейрословаря🟡
📍Explaining Away — эффект редукции причины как упрощённая схема рассуждений.
📍Инференс (inference) — с точки зрения разработчика это третий этап жизненного цикла искусственной нейронной сети (после её обучения и развёртывания).
📍Многослойный перцептрон (MLP) — это одна из элементарных архитектур, с которой часто начинают освоение нейронных сетей и принципов их обучения.
📍Пирамида признаков (FPN, Feature Pyramid Net) — это вычислительная архитектура, используемая в машинном зрении для обработки изображений без привязки к их разрешению.
📍Трансформеры (transformers) — это не только роботы, но и прогрессивное семейство архитектур нейросетей от Google.
Объектно-ориентированный подход чаще всего применяют в крупных проектах, где над одним приложением работают много разработчиков. Так как каждый программист работает над своей отдельной частью программы, сокращается количество ошибок и ускоряется процесс.
На курсе Яндекс Практикума «Базовый UML» вы за 2 месяца пройдёте все этапы работы над моделированием системы: от описания пользовательских требований до структурного и поведенческого моделирования. А ещё:
• изучите основные диаграммы в нотации UML, описывающие бизнес-процессы;
• получите представление о применении UML для моделирования систем;
• научитесь работать в Draw.io, StarUML, Plant UML.
Все студенты получат реальные кейсы, сопровождение от специалистов и работающие проекты в портфолио. Карьерный центр поможет с поиском работы: 69% студентов уже работают по специальности.
Занимайтесь онлайн в любое время, в своём темпе.
Зачем Data-инженеру Spark
В Почте Mail.ru работают со стеком Hadoop, Hive, Clickhouse, Spark. В данной статье на Хабре Data-инженер из команды Почты Mail.Ru остановился на некоторых аспектах работы с данными в Spark.
Он ответил на следующие вопросы: как превратить 7 петабайт в 0,5 петабайт, что позволило сэкономить годовой бюджет по закупке серверов и построить своё классное хранилище без последующей переделки.
Также в статье: архитектурные паттерны в хранилище Почты, эффективное хранилище данных, форматы хранения данных, параллельная обработка данных в Spark, запись колоночных файлов, запросы к данным в Spark и др.
Хабр: https://habr.com/ru/companies/vk/articles/742084/
ai_machinelearning_big_data
Data Science | Machinelearning - самый большой русскоязычный канал с полезными материалами на такие темы как, Machine Learning, Data Science, Алгоритмы, Python. Так же часто публикуются крутые 🔥 вакансии.
👉 Вам сюда: @devsp
А любителям читать статьи в оригинале вот сюда:
👉 @ds_international
Добро пожаловать!
🦾 Rofunc: The Full Process Python Package for Robot Learning from Demonstration and Robot Manipulation
A pre-trained soft object manipulation skill learning model, namely SoftGPT, that is trained using large amounts of exploration data, consisting of a three-dimensional heterogeneous graph representation and a GPT-based dynamics model.
Полный набор инструментов Python для обучения роботов на основе имитационного обучения и обучения роботов путем демонстрации.pip install rofunc
import rofunc as rf
import numpy as np
from isaacgym import gymutil
from importlib_resources import files# Demo
raw_demo_l = np.load(files('rofunc.data.RAW_DEMO').joinpath('taichi_raw_l.npy'))
raw_demo_r = np.load(files('rofunc.data.RAW_DEMO').joinpath('taichi_raw_r.npy'))
demos_x_l = [raw_demo_l[300:435, :], raw_demo_l[435:570, :], raw_demo_l[570:705, :]]
demos_x_r = [raw_demo_r[300:435, :], raw_demo_r[435:570, :], raw_demo_r[570:705, :]]
rf.lqt.plot_3d_bi(demos_x_l, demos_x_r, ori=False, save=False)
# TP-GMM
show_demo_idx = 1
_, _, gmm_rep_l, gmm_rep_r = rf.tpgmm.bi(demos_x_l, demos_x_r, show_demo_idx=show_demo_idx, plot=True)
🖥 Github: https://github.com/skylark0924/rofunc
📕 Paper: https://arxiv.org/abs/2306.12677v1
🔗Dataset: https://paperswithcode.com/dataset/plasticinelab
ai_machinelearning_big_data
Продолжается прием научных статей по искусственному интеллекту и машинному обучению на конкурс международной конференции AI Journey 2023
За лучшую статью автор получит 1 миллион рублей. Наиболее интересные работы будут опубликованы в научном журнале «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics. Издание индексируется в крупнейших библиографических базах данных научного цитирования.
Авторы также смогут выступить с докладами на международной конференции AI Journey 2023.
Свою работу можно подать на сайте AI Journey до 31.07. Важно, чтобы статья была написана на русском или английском языке, содержала ранее не опубликованные материалы и была оформлена по правилам конкурса.
Не упустите шанс проявить себя в научной сфере и участвуйте в конкурсе. Еще не поздно!
Какую альтернативу Vendor-Lock использовать для клиентской аналитики?
Это один из главных вопросов, которые встали перед командой X5 Tech в 2022 году.
О том, как IT-компания, которая обеспечивает цифровые нужды ритейлера, нашла и быстро внедрила новое решение для предоставления клиентской аналитики в режиме реального времени на базе open-source технологий Clickhouse и Redis, команда расскажет на митапе 27 июня.
🔹 В онлайн формате выступят спикеры компании:
Ермаченков Владимир, менеджер направления клиентской аналитики в цифровых каналах
Бассай Сергей, архитектор данных
Гундилович Александр, старший разработчик
🔔 Старт в 18:00
Регистрация и подробности тут
Участие бесплатное
Не упустите уникальную возможность сделать карьеру в области машинного обучения.
SMILES-2023 — это 12-дневный интенсивный курс для молодых специалистов, где вы сможете применить знания физики и машинного обучения для эффективного решения сложных инженерных задач в области устойчивого развития.
Школа пройдёт с 20 по 31 августа в туркластере Белокуриха Горная — уникальной предгорной местности Алтайского края. Участие — бесплатное, но на основе конкурсного отбора. Подробности и подача заявки.
Реклама. Автономная некоммерческая образовательная организация
высшего образования «Сколковский институт науки и технологий», ИНН 5032998454
Хотите принять участие в создании лучшей системы безопасности? 👨💻
Тогда приходите на One Day Offer для Data Scientists и Machine Learning Engineers 24 июня и за один день станьте частью команды, которая развивает систему форд-мониторинга для защиты клиентов Сбера везде: от онлайн-покупок до визитов в офисы.
Чем предстоит заниматься, если вы успешно пройдете отбор:
✔️ Создавать real-time, look-alike и графовые модели выявления транзакций, устройств и связей мошенников и мошеннических групп.
✔️ Строить модели обработки, классификации и суммаризации обращений по мошенничеству.
✔️ Внедрять модели и мониторить эффективность их работы.
✔️ Развивать внутренние ML-pipelines.
Наша система безопасности уже признана одной из лучших в мире, но мы абсолютно уверены, что с вами она станет еще круче.
Скорее переходите по ссылке, регистрируйтесь на One Day Offer и будьте готовы пройти все этапы отбора за один день! 👌
👉Присоединяйтесь к нашему сообществу Data Analyst REBRAIN, если вы интересуетесь аналитикой данных, управлением проектами или маркетингом.
У нас для вас есть множество открытых онлайн-практикумов каждый месяц, которые проводят профессиональные аналитики. В рамках практикумов мы разбираем реальные кейсы анализа данных с использованием самых актуальных инструментов, таких как Python, SQL, Tableau, бизнес-метрики и визуализация данных, статистика, теория вероятностей и другие.
Уровень сложности и направление каждого практикума подобраны таким образом, чтобы каждый мог найти для себя интересные задачи и развиваться в соответствии с уровнем своей компетенции.
✔️ Подключайтесь к нам уже сегодня и начинайте развивать свои навыки в области анализа данных совершенно бесплатно!
Газпромбанк приглашает тебя на новую лекцию Digital Лектория — на ней ты сможешь узнать больше о карьере в Data Science и задать интересующие вопросы IT-эксперту.
Тема: «Data Science: быть или не быть»
Когда: 21 июня, 18:00 (по МСК)
Ирина Скорынина, ведущий аналитик-исследователь, расскажет, кому будет интересно в IT и почему не всем стоит идти в это направление, как развиваться в Data Science с непрофильным образованием, какими навыками и компетенциями должен обладать Data Scientist и как выглядит roadmap специалиста в этой сфере.
Регистрируйся и приходи на лекцию, чтобы узнать больше о направлении Data Science: https://www.gpbspace.ru/digital-lectory-hall-form
Реклама Банк ГПБ (АО), ИНН: 7744001497 erid:LjN8Jste3