🚀 Introducing IDEFICS: An Open Reproduction of State-of-the-Art Visual Language Model
An open-access visual language model. IDEFICS is based on Flamingo, a state-of-the-art visual language model initially developed by DeepMind, which has not been released publicly.
IDEFICS - это модель с открытым доступом визуального языка , разработанной компанией Deepmind. Как и GPT-4, мультимодальная модель принимает на вход произвольные последовательности изображений и текстов и выдает на выходе текст. IDEFICS построена исключительно на основе общедоступных данных и моделей.
Модель может отвечать на вопросы об изображениях, описывать визуальное содержимое, создавать истории на основе нескольких изображений или просто вести себя как чистая языковая модель.
☑️ Model: https://huggingface.co/HuggingFaceM4/idefics-80b-instruct
🖥 Github: https://github.com/huggingface/blog/blob/main/idefics.md
⭐️ Demo: https://huggingface.co/spaces/HuggingFaceM4/idefics_playground
🤗 HF: https://huggingface.co/WizardLM
ai_machinelearning_big_data
⚡📢SeamlessM4T
SeamlessM4T is designed to provide high quality translation, allowing people from different linguistic communities to communicate effortlessly through speech and text.
Только что Meta выпустила самый мощный нейро-переводчик на сегодняшний день. SeamlessM4T понимает более 100 языков и умеет осуществлять все типы переводов: из текста в текст, из речи в текст, из текста в речь и даже из речи в речь.
▪Github
▪Article
▪Demo
▪Hugging face
ai_machinelearning_big_data
💻 Хочешь работать с масштабными цифровыми продуктами? Учись обрабатывать большие данные
MLOps — все более популярный среди компаний способ повышения производительности и создания надежных моделей корпоративного уровня.
✅ Владение инструментами MLOps открывает новые карьерные горизонты специалистам ML, Data Scientist’ам и Software инженерам.
💪 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «MLOps» от OTUS.Успей присоединиться к группе, курс стартует 31 августа!
✍️ ПРОЙТИ ТЕСТ: https://otus.pw/P1XwO/Нативная интеграция. Информация о продукте www.otus.ru
💨CoDeF: Content Deformation Fields for Temporally Consistent Video Processing
Новый фреймворк для переноса создания любого стиля на видео.
🖥 Github: https://github.com/qiuyu96/codef
☑️ Project: https://qiuyu96.github.io/CoDeF/
📕 Paper: https://arxiv.org/abs/2308.07926
⭐️ Demo: https://ezioby.github.io/CoDeF_Demo/
ai_machinelearning_big_data
⚡Легкий способ получать свежие обновлении и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
Машинное обучение: @machinelearning_ru
Go: @Golang_google
C#: @csharp_ci
Базы данных: @sqlhub
Python: @pythonl
C/C++/: @cpluspluc
Data Science: @data_analysis_ml
Devops: @devOPSitsec
Rust: @rust_code
Javascript: @javascriptv
React: @react_tg
PHP: @phpshka
Docker: @docker
Android: @android_its
Мобильная разработка: @mobdevelop
Linux: linuxacademy
Big Data: t.me/bigdatai
Хакинг: @linuxkalii
Java:@javatg
Собеседования: @machinelearning_interview
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
🔥ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: @english_forprogrammers
✔️ DeDoDe: Detect, Don't Describe -- Describe, Don't Detect for Local Feature Matching
Новая мощная система распознавания, описание и сопоставления изображений.
3d объектов .
🖥 Github: https://github.com/parskatt/dedode
☑️ TensorRT: https://github.com/fabio-sim/DeDoDe-ONNX-TensorRT
📕 Paper: https://arxiv.org/abs/2308.08479
⭐️ Demos: https://github.com/Parskatt/DeDoDe/blob/main/demo
ai_machinelearning_big_data
🧑💻DeciCoder: A new open-source LLM, specialized for generating code in Python, Java, and Javascript.
🚀Новый LLM с открытым исходным кодом, специализированный для генерации кода на языках Python, Java и Javascript.
Авторегрессивная языковая модель, отличающаяся исключительной производительностью и эффективным использованием памяти.
- parameters: 1 B
- dataset: 'The Stack' dataset
- supports: Python, Javascript, Java
- context: 2048 tokens
▪Model
▪Colab
▪Dataset
ai_machinelearning_big_data
✍ EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models
EasyEdit, demonstrating that knowledge editing surpasses traditional fine-tuning in terms of reliability and generalization.
Новый фреймворк для настройки и редактирования ответов больших языковых моделей. EasyEdit работает с LlaMA-2, GPT-J, Llama, GPT-NEO, GPT2, T5 и другими популярными моделями(поддерживаются модели от 1B до 65B).
🖥 Github: https://github.com/zjunlp/easyedit
📕 Paper: https://arxiv.org/abs/2308.07269v1
⭐️ Demo: http://knowlm.zjukg.cn/demo_edit
🎓Online Tutorial: https://colab.research.google.com/drive/1zcj8YgeqttwkpfoHXz9O9_rWxFFufXSO?usp=sharing
☑️ Docs: https://zjunlp.gitbook.io/easyedit
🤓 Dataset: https://drive.google.com/file/d/1IVcf5ikpfKuuuYeedUGomH01i1zaWuI6/view?usp=sharing
ai_machinelearning_big_data
🏅 Партнер Сбера BI.ZONE провел отборочные соревнования по этичному хакингу CTFZone
В квалификационном этапе приняли участие 1326 команд из 117 стран мира — 10 победителей из России, Индонезии, Китая, Южной Кореи, Чехии и Франции посоревнуются в финале в ноябре. Первые три места получат 10 тыс., 5 тыс. и 3 тыс. долларов соответственно. Всего в отборочных необходимо было решить 26 заданий в 7 категориях: спортивное программирование, эксплуатация уязвимостей, расследование кибератак, криптография и другие направления в сфере кибербезопасности.
ai_machinelearning_big_data
В июле прошли ИТ-соревнования IT’s Tinkoff Capture the Flag. На нашей памяти это одни из самых необычных соревнований
Почему это было круто?
✅ Креативные задания, основанные на трендах массовой культуры и мемах (да, вам не показалось)
✅ 6863 команды из 13 городов России и Беларуси
✅ Офлайн и онлайн формат
✅ Первые соревнования по спортивному хакингу для всех ИТ-спецов
Таких заданий еще никто раньше не делал. Вот например:
«Галя, у нас отмена», — отчаянно кричит продавщица. Очередь из покупателей уходит за горизонт. «Молодой человек, второй год зову Галю, а ее все нет и нет — вон какая очередь. Может, просто взломаем программу, а?». Разберитесь в магазинном софте и сделайте отмену.»
👨🎓Harvard CS50’s Artificial Intelligence with Python – Full University Course
В этом бесплатном курсе Гарвардского университета рассматриваются концепции и алгоритмы, лежащие в основе современного искусственного интеллекта.
🎞 Video
📌 Course resources
ai_machinelearning_big_data
🪄Optimizing a Text-To-Speech model using 🤗 Transformers
В этом руководстве показано как можно оптимизировать Bark, модель Text-To-Speech (TTS), на основе трех библиотек из экосистемы Hugging face: Transformers, Optimum и Accelerate.
🤗 Post: https://huggingface.co/blog/optimizing-bark
🖥 Colab: https://colab.research.google.com/github/ylacombe/notebooks/blob/main/Benchmark_Bark_HuggingFace.ipynb
⭐️ Bark: https://huggingface.co/docs/transformers/main/en/model_doc/bark#overview
ai_machinelearning_big_data
🚀 AgentBench: Evaluating LLMs as Agents.
AgentBench, a multi-dimensional evolving benchmark that currently consists of 8 distinct environments to assess LLM-as-Agent's reasoning and decision-making abilities in a multi-turn open-ended generation setting.
Комплексный бенчмарк для оценки работы LLM агентов.
🖥 Github: https://github.com/thudm/agentbench
📕 Paper: https://arxiv.org/abs/2308.03688v1
☑️ Dataset: https://paperswithcode.com/dataset/alfworld
ai_machinelearning_big_data
👁🗨 PyTorch Toolbox for Image Quality Assessment
An IQA toolbox with pure python and pytorch.
Набор инструментов и датасетов PyTorch для оценки качества изображений, включая LPIPS, FID, NIQE, NRQM(Ma), MUSIQ, NIMA, DBCNN, WaD
🖥 Github: https://github.com/chaofengc/iqa-pytorch
📕 Paper: https://arxiv.org/abs/2308.03060v1
🖥 Colab: https://colab.research.google.com/drive/14J3KoyrjJ6R531DsdOy5Bza5xfeMODi6?usp=sharing
☑️ Dataset: https://paperswithcode.com/dataset/koniq-10k
ai_machinelearning_big_data
🎲 Anti-Exploration by Random Network Distillation, Tinkoff Research, ICML 2023
We propose a new ensemble-free offline RL algorithm called SAC-RND. We evaluate our method on the D4RL (Fu et al., 2020) benchmark, and show that SAC-RND achieves performance comparable to ensemble-based methods while outperforming ensemble-free approaches.
Ученые из Tinkoff Research открыли новый Offline-RL алгоритм, который показывает SOTA-результаты, сравнимые с ансамблевыми моделями (в некоторых случаях даже лучше), и при этом требует до 20 раз меньше времени на обучение.
🖥 Github: https://github.com/tinkoff-ai/sac-rnd
🤓 Paper: https://proceedings.mlr.press/v202/nikulin23a.html
ai_machinelearning_big_data
Делимся с вами полезным IT event-ом, который пройдет онлайн в этот четверг:
Куда развивается разработка в e-com? 🛒
E-com — индустрия с высокой конкуренцией. Поэтому сложных IT-задач там достаточно: highload, персонализация и необходимость оперативно запускать новые продукты и масштабироваться.
24 августа на бесплатной онлайн-конференции E-COMMUNITY руководители разработки из СберМаркета, Ozon, X5 и Lamoda поделятся свежими технологическими кейсами в архитектуре, ML, бэкенде и DevOps.
Присоединяйся к E-COMMUNITY, если интересно узнать про настоящее и будущее IT в e-com.
Регистрация по ссылке
🗓 24 августа, 16:00-20:00 мск • Онлайн
☄️Dataset Quantization
DQ is able to generate condensed small datasets for training unseen network architectures with state-of-the-art compression ratios for lossless model training.
Квантование наборов данных (DQ) - новая схема сжатия больших наборов данных в небольшие сабсеты, которые могут быть использованы для обучения любых нейросетевых архитектур.git clone https://github.com/vimar-gu/DQ.git
cd DQ
🖥 Github: https://github.com/magic-research/dataset_quantization
📕 Paper: https://arxiv.org/abs/2308.10524v1
☑️ Dataset: https://paperswithcode.com/dataset/gsm8k
ai_machinelearning_big_data
🪄WizardLM: Empowering Large Pre-Trained Language Models to Follow Complex Instructions
Model outperforms ChatGPT-3.5, Claude Instant-1, PaLM-2 and Minerva on GSM8k, simultaneously surpasses Text-davinci-002, PaLM-1 and GPT-3 on MATH.
Фреймворк WizardMath, который расширяет способности Llama-2 к математическому мышлению, применяя метод Reinforcement Learning from Evol-Instruct Feedback (RLEIF) к области математики.
WizardMath с существенным отрывом превосходит все остальные LLM с открытым исходным кодом в решение мат. задач.
🖥 Github: https://github.com/nlpxucan/wizardlm
📕 Paper: https://arxiv.org/abs/2308.09583v1
🤗 HF: https://huggingface.co/WizardLM
☑️ Dataset: https://paperswithcode.com/dataset/gsm8k
ai_machinelearning_big_data
👁 MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions
Новый крупномасштабный датасет MeViS для сегментации движущихся объектов на основе текстового ввода.
🖥 Github: https://github.com/henghuiding/MeViS
☑️ Evaluation Server: https://codalab.lisn.upsaclay.fr/competitions/15094
📕 Paper: https://arxiv.org/abs/2308.08479
⭐️ Dataset: https://codalab.lisn.upsaclay.fr/competitions/15094
ai_machinelearning_big_data
FLAIR: A Foundation LAnguage Image model of the Retina
🖥 Github: https://github.com/jusiro/flair
📕 Paper: https://arxiv.org/pdf/2308.07898v1.pdf
🔥 Dataset: https://paperswithcode.com/dataset/imagenet
@ai_machinelearning_big_data
Курс «Английский для аналитиков» Яндекс Практикума
Для специалистов, которые хотят изменить свою профессиональную жизнь и работать в международной команде.
Обучение построено вокруг рабочих ситуаций и полезных для карьеры навыков:
🗣 Самопрезентация. Рассказ о своей роли, задачах, сфере ответственности на поведенческом интервью и в неформальной беседе.
🙌 Работа в команде. Стендапы, планирование спринтов, демонстрация навыков командной работы на собеседовании.
👨💻 Общение с заказчиками и исполнителями. Сбор требований у стейкхолдеров и постановка задач для разработчиков.
📈 Презентация результатов работы. Выступление на митапах, неформальное общение с коллегами из отрасли.
📝 Обсуждение решений по проекту. Генерация и аргументация идей, участие в мозговых штурмах.
🚀 Рефлексия и самоанализ. Ретроспектива, ревью, ответы на сложные вопросы.
Запишитесь на бесплатную консультацию. Кураторы определят ваш уровень языка и расскажут подробнее про обучение.
⚡️🧑💻 Сберовский ИИ GigaChat вышел в мир
Нейросеть интегрировали с голосовым ассистентом Салют — теперь он доступен в умных колонках SberBoom и запускается голосовой командой «Салют, включи GigaChat».
Тем, у кого пока нет колонок, воспользоваться Гигачатом можно по ссылке.
🔥Platypus: Quick, Cheap, and Powerful Refinement of LLMs
Family of fine-tuned and merged LLMs that achieves the strongest performance and currently stands at first place in HuggingFace's
Cемейство точно настроенных больших языковых моделей (LLM), которое достигло самой высокой производительности и в настоящее время занимает первое место в открытой таблице лидеров LLM HuggingFace на момент выхода этой статьи
Модель 13B Platypus может быть обучена на одном GPU A100 на 25 тыс. вопросов за 5 часов!git clone https://github.com/lm-sys/FastChat.git
cd FastChat
🖥 Github: https://github.com/arielnlee/Platypus
💻 Project: https://platypus-llm.github.io/
📕 Paper: https://arxiv.org/abs/2308.07317v1
⭐️ Dataset: https://huggingface.co/datasets/garage-bAInd/Open-Platypus
ai_machinelearning_big_data
⚡️🧑💻 Awesome AI-Powered Developer Tools
Это список инструментов для разработчиков, основанных на искусственном интеллекте. Эти инструменты используют ИИ для помощи разработчикам в решении таких задач, как написание кода, рефакторинг, отладка, создание документации и т. д.
▪Githib
ai_machinelearning_big_data
⚡Top 100+ Machine Learning Projects for 2023 [with Source Code]
В этой статье вы найдете 100+ лучших проектов и идей в области машинного обучения, которые будут полезны как начинающим, так и опытным специалистам.
📌 Projects
ai_machinelearning_big_data
✅ SSLRec: A Self-Supervised Learning Library for Recommendation
SSLRec, a novel benchmark platform that provides a standardized, flexible, and comprehensive framework for evaluating various SSL-enhanced recommenders.
SSLRec - это фреймворк основанный на PyTorch с открытым исходным кодом для рекомендательных систем, усовершенствованных с помощью self-supervised learning.
Он удобен в использовании и содержит датасеты код для обработки данных, обучения, тестирования, оценки, а также современные исследовательские модели.
SSLRec предлагает широкий набор полезных функций и простой в использовании интерфейс, упрощающий разработку и оценку рекомендательных моделей.
🖥 Github: https://github.com/hkuds/sslrec
📕 Paper: https://arxiv.org/abs/2308.05697v1
⛓ Models: https://github.com/HKUDS/SSLRec/blob/main/docs/Models.md
☑️ Datasets: https://github.com/HKUDS/SSLRec/blob/main/docs/Models.md
ai_machinelearning_big_data
Присоединяйтесь к TechTrain 2023 Autumn — онлайн-фестивалю, посвященному машинному обучению и искусственному интеллекту.
В программе — классическое ML, Computer Vision, NLP, ASR, RecSys, LLMs и MLOps. Обязательно будут обсуждения прикладного использования ML на примере конкретных проектов. Обзор таких тем, как графовые модели, генеративные нейросети, AI в разработке и другое.
Участников ждут как актуальные практики применения ML&AI, так и дискуссии со спикерами и экспертами.
Проводит фестиваль JUG Ru Group — организатор крупных технических IT-конференций и митапов для разработчиков. Дата проведения: 30 августа.
Читайте подробности и регистрируйтесь бесплатно — на сайте.
❗️Один из важнейших инструментов MLOps — это MLFlow.
▶️ 10 августа в 20:00 мск в рамках онлайн-курса MLOps от OTUS пройдёт открытый урок «MLflow версии 2. Рецепты и пайплайны в машинном обучении».
✅ На открытом уроке вы узнаете:
🔹 О развитии MLFlow и о том, какие усовершенствования вошли в новые релизы (2.x)
🔹 О роли пайплайнов в организации процессов машинного обучения
🔹 Что такое MLFlow recipes и как их использовать для повышения эффективности работы DS
🧑💻 Спикером выступит преподаватель OTUS Данила Слепов. Он проектирует AI-системы, разрабатывает архитектуру MLOps платформ.
👉 РЕГИСТРАЦИЯ
https://otus.pw/UrGTq/Нативная интеграция. Информация о продукте www.otus.ru
Хотите работать с большими данными, строить модели для бизнеса и создавать свои сервисы?
На курсе Start ML за 7 месяцев вы получите все знания и навыки, необходимые сильному ML-специалисту.
Вы научитесь разрабатывать приложения на Python, обучать модели и нейронные сети, а также оценивать их влияние на бизнес с помощью статистики и A/B-тестов — всё под руководством практиков из Яндекс и Raiffeisen.
К концу обучения у вас будет готовый сервис по ранжированию и выдаче релевантных постов в социальной сети, о котором вы сможете рассказать будущему работодателю. А ещё наш HR обязательно поможет вам с трудоустройством — в течение трёх месяцев работу находят 84% наших выпускников.
Новый поток стартует 10 августа. Также на сайте есть бесплатная демоверсия.
[Записаться]
🌉Enhancing Visibility in Nighttime Haze Images Using Guided APSF and Gradient Adaptive Convolution
Experiments demonstrate that our method achieves a PSNR of 30.72dB, outperforming state-of-the-art methods by 14
on GTA5 nighttime haze dataset.
Модель улучшение видимости ночных изображений, путем подавления свечения и усиления слабоосвещенных областей с помощью функции APSF (Angular Point Spread Function).
🖥 Github: https://github.com/jinyeying/nighttime_dehaze/tree/main
📕 Paper: https://arxiv.org/abs/2308.01738v1
☑️ Dataset: https://www.dropbox.com/sh/7qzmb3y9akejape/AABYf2ZAqn_5vmPsOPg7KqoMa?dl=0
ai_machinelearning_big_data