⚡В OTUS стартует набор в группу курса Reinforcement Learning. Отправьте заявку, для того чтобы получить доступ к открытым урокам и получите скидку на обучение.
31.10 в 20.00 (мск) приглашаем на welcome-вебинар «Основные алгоритмы в обучении с подкреплением»
📌На занятии вы:
- познакомитесь с основными алгоритмами обучения с подкреплением;
- узнаете, как применять нейросети для обучения агентов, как обучить агента в среде с дискретным и непрерывным набором действий;
- изучите многообразие алгоритмов обучения с подкреплением и выбор наиболее подходящих из них.
👉Регистрация https://otus.pw/SJiV/
После прохождения курса студенты поймут сильные и слабые стороны основных алгоритмов RL и научатся применять их для решения разнообразных задач в реальном мире, включая игровую индустрию, робототехнику, управление энергетическими системами и управление финансовым портфелем.
При оплате курса возможны разные способы оплаты и рассрочка платежа
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KbLVB
Приглашаем на «Большую дату» — митап для аналитиков и дата-сайентистов в Москве
Обсудим последние новости мира аналитики данных, поделимся реальными кейсами и их решениями. Будут спикеры из разных команд Яндекса:
🔸 Андрей Молотов, старший аналитик-разработчик. Расскажет, как предсказать отток сотрудников и уменьшить его с помощью ML-моделей и экспериментов.
🔸 Яна Кузнецова, руководитель группы платёжной аналитики. Объяснит, что такое FinOps и какую роль играет аналитика в C2B-платежах Яндекса.
🔸 Владислав Енин, менеджер проектов. Поделится историей о повышении конверсии платежей в Маркете.
🔸 Кирилл Черкашин, старший аналитик-разработчик. Объяснит, с какими сложностями столкнулись ребята при разработке NLP-пайплайна в модерации рекламы и как их решали.
🔸 Александр Самусенко, руководитель группы развития рекламных продуктов и стабильности. Расскажет, что такое аналитика ранжирования и зачем она нужна.
После докладов сыграем в «Сто к одному», отдохнём, поболтаем о жизни и просто хорошо проведём время. Митап пройдёт 28 октября в Москве, для всех желающих мы проведём онлайн-трансляцию.
Зарегистрироваться можно здесь.
Реклама. ООО "Яндекс". erid: 2Vtzqx6YBjb
🏆 Yandex Cup 2023 — открытый чемпионат для настоящих творцов
Разработчики — художники нового мира. Они создают смыслы, правила и законы, манифестируют идеи, творят миры и целые вселенные. И, если их предшественники делали это, используя слова, краски и звуки, то современные творцы создают новую реальность с помощью программного кода.
Искусство писать код
Тема чемпионата в этом году «Решаем искусство». Участников ждут нестандартные задачи на стыке IT и творчества, а лучшие встретятся лицом к лицу в финале, чтобы оживить арт-инсталляцию и разделить между собой 8 500 000 рублей.
Показать своё мастерство можно в 6 направлениях:
🔸 Фронтенд
🔸 Бэкенд
🔸 Мобильная разработка
🔸 Аналитика
🔸 Алгоритмы
🔸 Машинное обучение
Финал и церемония награждения пройдут офлайн в офисе Яндекса в Казахстане. Яндекс предоставит финалистам проезд и проживание в Алматы.
Регистрация открыта до 29 октября включительно:
👉 Участвую!
#Yandex_Cup23
ai_machinelearning_big_data
🦙AgentTuning: Enabling Generalized Agent Abilities For LLMs.
AgentTuning - простой и эффективный метод расширения агентских возможностей для решения сложных задачи реального мира при сохранении всех возможностей ЛЛМ.
AgentTuning содержит датасет 1866 высококачественных взаимодействий, предназначенных для улучшения работы ИИ-агентов в 6 различных реальных задачах.
🖥 Github: https://github.com/THUDM/AgentTuning
📕 Paper: https://arxiv.org/abs/2310.12823
🤗 Model: https://huggingface.co/THUDM/agentlm-70b
🚀Dataset: https://huggingface.co/datasets/THUDM/AgentInstruct
⭐️ Project: https://thudm.github.io/AgentTuning/
ai_machinelearning_big_data
Как начать развиваться в профессии дата-инженера?
👨💻Освойте лучшие практики работы с данными на онлайн-курсе «Data Engineer» от OTUS.
➡️За 4 месяца вы научитесь собирать данные, разрабатывать архитектуру данных в компании и создавать сервисы для обработки данных больших объемов. Одна из фишек курса — метод кейсов. На занятиях разбираем примеры внедрений, использования инструментов, оптимизации производительности, а также возможные проблемы и ошибки.
Старт занятий — 27 октября.
👉 ПРОЙТИ ТЕСТ https://otus.pw/mWaY/
Успейте пройти вступительный тест и занять место в группе по спец.цене.
Приобрести курс возможно в рассрочку.
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KTHA4
🛠 Improving Long Document Topic Segmentation Models With Enhanced Coherence Modeling
SpokenNLP: Официальный репозиторий кодовых баз по самым разным исследовательским проектам, разработанным командой SpokenNLP Speech Lab, Alibaba DAMO Academy.
🖥 Github: https://github.com/alibaba-damo-academy/spokennlp
📕 Paper: https://arxiv.org/pdf/2310.11772v1.pdf
🚀Dataset: https://paperswithcode.com/dataset/wikisection
ai_machinelearning_big_data
Как автоматизировать переобучение ML-моделей
Разработчики ML-моделей из Газпромбанка рассказывают, как в условиях банковской регуляторики, требований безопасников и запрета на использование некоторых инструментов (того же Git LFS) сократить срок переобучения модели с месяца до одного дня.
В статье говорится об разделении и параллельном выполнение процесса сканирования и выкатки кода по CI/CD-процессу, благодаря архитектурному разграничению весов модели и самого кода как разных сущностей сборки.
https://habr.com/ru/companies/gazprombank/articles/766736/
Всем, привет, мы исследовательское агентство SmartMinds и сейчас проводим опрос среди IT специалистов. Что хотим узнать: что важно при выборе работодателя, какие каналы являются эффективными при поиске работы и ходите ли вы на мероприятия для IT. Опрос анонимный, займет не более 3-х минут и мы будем благодарны всем, кто примет участие ❤️
Пройти опрос
Erid: Kra23uXjQ
28 октября стриминг выйдет за пределы ваших экранов на конференции PlayButton 2023
Спикеры из команд разработки соберутся на большой конференции Кинопоиска о стриминге и обсудят, как из смелых идей появляются фичи и продукты будущего.
Ребята поделятся решениями, которые создают и развивают на контентных сервисах, расскажут про умные рекомендации и работу с платформами.
Приходите, чтобы узнать, как из мира фантазий создаётся реальность. В программе доклады про нейросети, генеративные технологии и другие решения, которые уже сейчас упрощают жизнь разработчикам.
Мероприятие пройдёт онлайн и оффлайн в Москве. Чтобы стать участником, нужно заполнить анкету и пройти модерацию. Количество мест ограничено.
Реклама. ООО «КИНОПОИСК» ИНН 7710688352
💪 Что такое Байесовское А/B-тестирование и как его провести?
Подробно обсудим 19 октября в 20:00 мск на открытом уроке в OTUS. Занятие приурочено к старту онлайн-курса «Machine Learning. Advanced».
🔹 На вебинаре мы разберем, какие преимущества дают Байесовские A/B тесты по сравнению с обычными, как проводить Байесовские A/B тесты и как работать с Байесовскми моделями в PyMC3.
📌 Результаты урока:
Познакомитесь с основами A/B тестирования и получите новый, простой и эффективный инструмент для A/B тестирования
👉 РЕГИСТРАЦИЯ
https://otus.pw/JmBM/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KUFd5
Человек на 60% состоит из воды, а Тинькофф на 100% из масштабных ИТ-задач и ежедневных вызовов
Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.
Выбрать вакансию и стать частью ИТ-команды можно тут:
https://w.tinkoff.ru/it.career
АО «Тинькофф Банк», ИНН 7710140679
🔥 Burn - A Flexible and Comprehensive Deep Learning Framework in Rust
Новый фреймворк глубокого обучения, построенный полностью на Rust, который призван обеспечить баланс между гибкостью, производительностью и простотой использования для исследователей, инженеров ML и разработчиков.cargo new new_burn_app
🖥 Github: https://github.com/burn-rs/burn
📕 Burn Book: https://burn-rs.github.io/book/
⭐️ Guide: https://www.kdnuggets.com/rust-burn-library-for-deep-learning
ai_machinelearning_big_data
Яндекс продолжает приём заявок на Yandex ML Prize — премию для учёных и преподавателей в области Machine Learning
Принять участие могут исследователи, научные руководители и преподаватели в области машинного обучения.
Премия вручается за исследования в следующих направлениях:
— компьютерное зрение,
— обработка естественного языка и машинный перевод,
— распознавание и синтез речи,
— информационный поиск и анализ данных,
— генеративные модели.
География премии охватывает 11 стран. Подать заявку на соискание премии могут исследователи и преподаватели из России, Азербайджана, Армении, Беларуси, Казахстана, Кыргызстана, Молдовы, Таджикистана, Туркменистана, Узбекистана и Сербии.
Лауреаты Yandex ML Prize получат денежные призы от 500 тысяч до 1 млн рублей, гранты от Yandex Cloud для использования сервиса в своих исследованиях, а также подписки на Яндекс 360 и Плюс Мульти.
Больше информации по ссылке.
Реклама. ООО «Яндекс»
🧠 LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios
Метод комбинирования древовидного поиска Монте-Карло и глубокого обучения с подкреплением, представленный AlphaZero
и MuZero
, позволил достичь сверхчеловеческого уровня в различных играх, таких как Go и Atari, а также добиться заметного прогресса в научных областях, таких как предсказание структуры белков, поиск алгоритмов перемножения матриц и т.д.
🖥 Github: https://github.com/opendilab/LightZero
📕 Paper: https://arxiv.org/abs/2310.08348v1
⭐️ Tasks: https://paperswithcode.com/task/atari-games
ai_machinelearning_big_data
✅ Mini-DALLE3: Interactive Text to Image by Prompting Large Language Models
Модель Mini-DALLE3: Интерактивное преобразование текста в изображение с помощью больших языковых моделей.
🖥 Github: https://github.com/Zeqiang-Lai/Mini-DALLE3
📕 Paper: https://arxiv.org/abs/2310.07653v1
⭐️ Dataset: https://paperswithcode.com/dataset/mmlu
ai_machinelearning_big_data
🦩 Woodpecker: Hallucination Correction for Multimodal Large Language Models
Hallucination Correction for MLLMs. The first work to correct hallucination in multimodal large language models.
Большие языковые модели могут вызывать галлюцинации и генерировать ложную информацию, что приводит к потенциальной дезинформации и путанице.
Для борьбы с галлюцинациями в современных исследованиях в основном используется метод настройки по инструкции, требующий переобучения моделей на конкретных данных.
В данной работе предлагается иной подход, представляя метод не требующий переобучения модели, который называется Woodpecker.
Woodpecker работает в 5 этапов: извлечение ключевых понятий, формулировка вопроса, визуальная проверка знаний, формирование визуального утверждения и коррекция галлюцинаций. Реализованный по принципу постредактирования, Woodpecker может легко работать с различными МЛЛМ, оставаясь при этом эффективным за счет доступа к промежуточным результатам работы модели.
🖥 Github: https://github.com/bradyfu/woodpecker
📕 Paper: https://arxiv.org/abs/2310.15110v1
⏩ Demo: https://21527a47f03813481c.gradio.live/
ai_machinelearning_big_data
✅ Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model
Новая модель диффузии для генерации многоракурсных 3D изображений из одного изображения. Фреймворк позволяет получать высококачественные изображения, решая такие распространенные проблемы, как деградация текстуры и геометрическое несоответствие генерации.
🖥 Github: https://github.com/sudo-ai-3d/zero123plus
📕 Paper: https://arxiv.org/abs/2310.15110v1
⭐️ Demo: https://huggingface.co/spaces/sudo-ai/zero123plus-demo-space
🚀Dataset: https://paperswithcode.com/dataset/shapenet
ai_machinelearning_big_data
🖥 AutoGen
AutoGen provides multi-agent conversation framework as a high-level abstraction.
AutoGen - это фреймворк от Майкрософт, позволяющий разрабатывать LLM-приложения с использованием нескольких агентов, способных взаимодействовать друг с другом для решения задач. Агенты AutoGen настраиваются, общаются и легко допускают участие человека.
Агенту можно поручить действовать в качестве кодера, пишущего код на основе промыта. Второму агенту можно назначить роль ревьюера кода, который указывает на ошибки в коде. После обмена сообщениями агенты отдают пользователю финальный код с пояснениями.
Такой подход приводит к значительному повышению эффективности работы генеративных моделей – по данным Microsoft, AutoGen может ускорить написание кода в несколько раз.
🖥 Github: https://github.com/microsoft/autogen
📕 Project: https://microsoft.github.io/autogen/
🤗 FLAML.: https://github.com/microsoft/FLAML
ai_machinelearning_big_data
🐾 Putting the Object Back into Video Object Segmentation (Cutie)
Cutie - это фреймворк для сегментации видеообъектов, обладающий большей высокой производительностью, устойчивостью и скоростью.
Cutie четко отделяет семантику объекта переднего плана от фона. На сложном наборе данных MOSE Cutie превосходит все предыдущие методы сегментации.git clone https://github.com/hkchengrex/Cutie.git
🖥 Github: https://github.com/hkchengrex/Cutie
🖥 Colab: https://colab.research.google.com/drive/1yo43XTbjxuWA7XgCUO9qxAi7wBI6HzvP?usp=sharing
📕 Paper: https://arxiv.org/abs/2310.12982v1
🚀Project: https://hkchengrex.github.io/Cutie/
ai_machinelearning_big_data
📑 DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond
DocXChain - мощный инструментарий с открытым исходным кодом для синтаксического анализа документов, предназначенный для автоматического преобразования разнородной информации, содержащейся в неструктурированных документах, таких как текст, таблицы и диаграммы, схемы в структурированные представления, доступные для машинного чтения и манипулирования.
🖥 Github: https://github.com/alibabaresearch/advancedliteratemachinery
📕 Paper: https://arxiv.org/abs/2310.12430v1
🚀Damo: https://damo.alibaba.com/labs/language-technology
ai_machinelearning_big_data
📒 GigaChat нового поколения.
Разработчики @gigachat_bot изменили подход к обучению модели, а потому практически все умения модели были улучшены. В частности, речь идет о сокращении текстов, ответов на вопросы и генерации идей.
Появился и бот GigaChat в социальной сети «ВКонтакте» — после активации, его можно использовать для самых разных целей: от создания текстов до генерации изображений (за счет интеграции с Kandinsky).
Число уникальных пользователей GigaChat достигло 1 млн.
• Попробовать
@data_analysis_ml
👨 AG3D: Learning to Generate 3D Avatars from 2D Image Collections (ICCV 2023)
AG3D: Фреймворк для генерации трехмерных аватаров из двумерных изображений
🖥 Github: https://github.com/zj-dong/AG3D
📕 Paper: https://arxiv.org/abs/2305.02312
🚀Video: https://youtu.be/niP1YhJXEBE
⭐️ Project: https://zj-dong.github.io/AG3D/
ai_machinelearning_big_data
✨ Cross-Episodic Curriculum for Transformer Agents
Трансформеры отлично справляются с выявлением закономерностей, но не справляются с ограниченными данными, что часто встречается в робототехнике.
При Cross-Episodic обучении, агент-трансформер учится совершенствоваться с помощью внутриконтекстной программы обучения. По сути, обучающий сигнал заложен в последовательность все более трудных задач и ии развивается, находя решение на них.pip install git+https://github.com/cec-agent/CEC
🖥 Github: https://github.com/CEC-Agent/CEC
📕 Paper: https://cec-agent.github.io/src/bib.txt
⭐️ Project: https://cec-agent.github.io
ai_machinelearning_big_data
📚 Large (Language) Models and Foundation Models (LLM, LM, FM) for Time Series and Spatio-Temporal Data
Профессионально курируемый список больших языковых моделей и базовых моделей (LLM, LM, FM
) для темпоральных данных (временных рядов, пространственно-временных и событийных данных) с полезными ресурсами (статьи, код, датасеты и т.д.), целью которого является всестороннее обобщение последних достижений в этой области.
В Проекте собрана информацию о докладах, учебниках и обзорах по ИИ для временных рядов (AI4TS)с ведущих конференций и в журналов по ИИ.
🖥 Github: https://github.com/qingsongedu/awesome-timeseries-spatiotemporal-lm-llm
📝 AI4TS: https://github.com/qingsongedu/awesome-AI-for-time-series-papers
📕 Paper: https://arxiv.org/abs/2310.10196v1
ai_machinelearning_big_data
🖕 Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager consists of three key components: an automatic curriculum for open-ended exploration, a skill library for increasingly complex behaviors, and an iterative prompting mechanism that uses code as action space.
Voyager - агент пожизненного обучения, который играет в Minecraft и непрерывно совершенствуется. Voyager постоянно улучшается, генерируя, изменяя и переписывая собственный код .
GPT-4 открывает новую парадигму: "обучение" - это генерация и выполнение кода, а не градиентный спуск. "Обучаемая модель" - это кодовая база навыков, которую Voyager итеративно составляет, а не матрицы плавающих чисел. Это безградиентная архитектуру.
Voyager быстро становится опытным исследователем. В Minecraft он получает в 3,3
раза больше уникальных предметов, преодолевает в 2,3
раза больше расстояний и открывает ключевые этапы технологического дерева на 15,3
раза быстрее, чем предыдущие методы.
В Minecraft Voyager способен принимать решения путем моделирования мира. Пример:
"очков голода осталось немного"
-> если я не получу еду в ближайшее время, то умру
-> я вижу поблизости кошку, свинью и деревенского жителя.
-> на кого из них я должен охотиться?
-> на свинью, потому что убийство двух других не даст мне еды, даже если я добьюсь успеха
-> проверить инвентарь, нет хорошего оружия
-> [пойти сделать каменный меч]
-> свинья убежала
-> [начать охоту на овец]".
Этот способ мышления предполагает постоянные рассуждения и активное вмешательство в текущее состояние агента и мира. Voyager предвидит, что ему нужно, мысленно моделируя будущее, и соответственно планирует это "воображаемое будущее". Он проводит обширную разведку и приобретает новые навыки по пути с помощью механизма библиотеки навыков. Агент совершает ошибки, но корректирует ход действий.
🖥 Github: https://github.com/MineDojo/Voyager
📕 Paper: https://arxiv.org/abs/2305.16291
⭐️ Project: https://voyager.minedojo.org/
ai_machinelearning_big_data
✅ Pixel Codec Avatars
В 2021 году была выпущена статья под названием Pixel Codec Avatars (PiCA). Ее значимость стала понятна, когда Lex Fridman выпустил свой подкаст в метаверсе.
PiCA - это фактически формат MP4 для VR. Совершенно новый протокол для потокового 3D-вещания.
Интуиция метода такова:
- Сначала энкодер сжимает изображение, полученное с помощью лицевой камеры VR, в латентный код. Этот код фиксирует тонкую мимику и все нюансы лица, которые придают интервью Лекса гиперреалистичность.
- Латентный код передается через Интернет - это гораздо эффективнее, чем пересылка 3D-сетки или изображений.
- Декодер выполняет две задачи:
(1) Реконструирует глобальную 3D-геометрию лица и выражения в реальном времени.
(2) Перерисовывает цвет каждого пикселя с учетом определенного угла обзора.
PiCA НЕ перерисовывает пиксели, которые находятся в окклюзии, т.е. затылки Лекса и Марка фактически не существуют. Интригующая связь с гипотезой симуляции: мир не существует, пока вы активно на него не смотрите.
📕 Paper: https://arxiv.org/abs/2104.04638
☑️ Video: https://www.youtube.com/watch?v=MVYrJJNdrEg
ai_machinelearning_big_data
✨ ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models
Новый инструмент для генерации изображений по предварительно обученным диффузионным моделям с разрешением, значительно превышающим размеры обучающих изображений.
🖥 Github: https://github.com/yingqinghe/scalecrafter
📕 Paper: https://arxiv.org/abs/2310.07702v1
⭐️ Project: https://yingqinghe.github.io/scalecrafter/
ai_machinelearning_big_data
⚡️ Приглашаем на ML Party — неформальный митап для экспертов в области машинного обучения, который впервые пройдёт в Белграде!
Обсудим последние тренды, новые подходы и вызовы индустрии:
🔘 Фёдор Лебедь, разработчик отдела NLP группы YandexGPT Alignment, Яндекс Поиск. Расскажет, как методы обучения с подкреплением позволяют повысить полезность, безопасность и правдивость генеративных моделей
🔘 Максим Мачула, руководитель службы качества контента в Поиске по товарам, Яндекс. Объяснит, как мы группируем предложения магазинов в карточки товаров и при чём тут HNSW и CatBoost
🔘 Алексей Березникер, руководитель команды генерации рекламы, Яндекс. Поделится историей о проекте на стыке ML-технологий и ecom-продукта и расскажет про нейросетевую генерацию объявлений
После будет нетворкинг с приятной музыкой, едой, напитками и дружеской атмосферой.
Встреча пройдёт 25 октября в Белграде, будет онлайн-трансляция.
📤 Зарегистрироваться можно здесь
До встречи!
Реклама. ООО "Яндекс". erid:2Vtzqx6dm1N
2VtzqumwymE
@Insaider_X5
Реклама: ООО «Корпоративный центр ИКС 5». ИНН:7728632689 erid:2VtzqumwymE
🔥Международное AI соревнование — AI Journey Contest 2023 в самом разгаре!
Продемонстрируй свои навыки, ведь на кону ценный опыт, признание от экспертов и впечатляющий призовой фонд в размере более 11 миллионов рублей!
Задачи конкурса в этом году – настоящий вызов: от создания мультимодальных диалоговых систем до распознавания русского жестового языка на основе видео. Предстоит не только показать свои технические навыки, но и проявить креативность.
Успей отправить своё решение до 7 ноября, участвовать может каждый старше 18 лет.
Присоединяйся к AI Journey Contest 2023 и ворвись в лидерборды, где кто-то уже замер в ожидании победы!