ai_machinelearning_big_data | Технологии

Telegram-канал ai_machinelearning_big_data - Machinelearning

27349

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

🦍 Gorilla: Large Language Model Connected with Massive APIs

Gorilla a finetuned LLaMA-based model that surpasses the performance of GPT-4 on writing API calls.

Gorilla — это модель, обученная на основе LLaMA, для вызова 1600+ сторонних API. На вход подается запрос на естественном языке, модель находит семантически и синтаксически правильное API для настройки модели мо. Производительность настроенной модели превосходит GPT-4 на трех масштабных наборах данных.

🖥 Github: https://github.com/ShishirPatil/gorilla

📕 Paper: https://arxiv.org/abs/2305.15334

🔗 Demo: https://drive.google.com/file/d/1E0k5mG1mTiaz0kukyK1PdeohJipTFh6j/view?usp=share_link

👉 Project: https://shishirpatil.github.io/gorilla/

⭐️ Colab: https://colab.research.google.com/drive/1DEBPsccVLF_aUnmD0FwPeHFrtdC0QIUP?usp=sharing

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Есть опыт в машинном обучении, но хотите расти дальше?

Валерий Бабушкин, Vice President, Data Science в Blockchainꓸcom, вместе с karpov.courses создали продвинутый курс по ML, на котором вы научитесь решать нестандартные и востребованные бизнесом задачи.

Здесь вы познакомитесь с best practices индустрии и освоите все этапы работы ML-инженера: от сбора и разметки данных до деплоя собственных приложений.

К концу обучения вы создадите пять ML-сервисов, решающих реальные прикладные задачи, и научитесь проектировать всю необходимую для их работы инфраструктуру. 

Будет непросто, но это того стоит! Новый поток стартует уже сегодня, а по промокоду AIBIGDATA27 вы получите скидку 5%.

[Зарегистрироваться]

Читать полностью…

Machinelearning

Wuerstchen: Efficient Pretraining of Text-to-Image Models

Novel technique for text-to-image synthesis that unites competitive performance with unprecedented cost-effectiveness and ease of training on constrained hardwar

Würstchen - это новый фреймворк для обучения моделей преобразования текста в изображения путем перемещения затратного вычислительно этапа текстового преобразования в сильно сжатое латентное пространство


🖥 Github: https://github.com/dome272/wuerstchen

Paper: https://arxiv.org/abs/2306.00637v1

📌 Colab: https://colab.research.google.com/drive/1UTP9Xn2UIrVbAXyL-SKEvyLmgVWdw-Vy

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles

Hiera is a hierarchical vision transformer that is fast, powerful, and, above all, simple. It outperforms the state-of-the-art across a wide array of image and video tasks while being much faster.

Hiera - это быстрый, мощный и, прежде всего, простой метод иерархической перегруппировки информации.

Он превосходит современные методы в широком спектре задач, связанных с изображениями и видео.

pip install hiera-transformer

🖥 Github: https://github.com/stevengrove/gpt4tools

Paper: https://arxiv.org/abs/2306.00989v1

📌 Dataset: https://paperswithcode.com/dataset/inaturalist

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔥 10 Free Machine Learning Courses from Top Universities

Топ бесплатных курсов машинного обучения от лучших университетов мира

1. Introduction to Machine Learning - UC Berkeley

2. Introduction to Machine Learning - Carnegie Mellon University

3. Machine Learning - Stanford University

4. Machine Learning & Data Mining - Caltech

5. Learning from Data - Caltech

6. Machine Learning for Intelligent Systems - Cornell University

7. Large Scale Machine Learning - University of Toronto

8. user-yd6im1cq5k/about">Machine Learning with Large Datasets - Carnegie Mellon University

9. Foundations of Machine Learning and Statistical Inference - Caltech

10. Algorithmic Aspects of Machine Learning - MIT

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Introducing BERTopic Integration with the Hugging Face Hub

BERTopic provides a powerful tool for users to uncover significant topics within text collections, thereby gaining valuable insights.

BERTopic - это современная библиотека Python, которая упрощает процесс моделирования тем, используя различные трансформеры и c-TF-IDF для создания кластеров на основе плотности, позволяющих легко интерпретировать темы, сохраняя при этом важные слова в описаниях тем.

pip install bertopic

🤗 Hugging face: https://huggingface.co/blog/bertopic

🖥 Github: https://github.com/MaartenGr/BERTopic

Colab: https://colab.research.google.com/#fileId=https://huggingface.co/spaces/davanstrien/blog_notebooks/blob/main/BERTopic_hub_starter.ipynb

📌 Docs: https://maartengr.github.io/BERTopic/getting_started/quickstart/quickstart.html

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔥 GPT4Tools: Teaching LLM to Use Tools via Self-instruction

GPT4Tools is a centralized system that can control multiple visual foundation models. It is based on Vicuna (LLaMA), and 71K self-built instruction data.

GPT4Tools - это интеллектуальная система, которая может автоматически принимать решения, управлять и использовать различные визуальные модели, позволяя пользователю взаимодействовать с изображениями во время диалога с Chatgpt.

🖥 Github: https://github.com/stevengrove/gpt4tools

Paper: https://arxiv.org/abs/2305.18752v1

📌 Project: https://gpt4tools.github.io/

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🦙 BigTrans 🚀

BigTrans which adapts LLaMA that covers only 20 languages and enhances it with multilingual translation capability on more than 100 languag

Предварительные эксперименты по многоязычному переводу показывают, что BigTrans сравним с ChatGPT и Google Translate на многих языках и даже превосходит ChatGPT в 8 языковых парах.

🖥 Github: https://github.com/ZNLP/BigTrans/tree/main

Paper: https://arxiv.org/abs/2305.18098v1

📌 Dataset: https://paperswithcode.com/dataset/flores-200

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🖥 A Practical Toolkit for Multilingual Question and Answer Generation

Multilingual/multidomain question generation datasets, models, and python library for question generation.

lmqg - это библиотека python для генерации вопросов и ответов (QAG) с помощью языковых моделей (LM).

🖥 Github: https://github.com/asahi417/lm-question-generation

Paper: https://arxiv.org/abs/2305.17416v1

📌 Dataset: https://paperswithcode.com/dataset/squad

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Large Language Models as Tool Makers

In this work, we take an initial step towards removing this dependency by proposing a closed-loop framework, referred to as LLMs A s Tool Makers (LATM), where LLMs create their own reusable tools for problem-solving.

Фреймворк для работы с большими языковыми моделями для создатния инструментов и скриптов на Python.

🖥 Github: https://github.com/ctlllll/llm-toolmaker

Paper: https://arxiv.org/pdf/2305.17126v1.pdf

📌 Dataset: https://paperswithcode.com/dataset/big-bench

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

The performance of Text2Image is largely dependent on text prompts. In Prompt-Free Diffusion, no prompt is needed, just a reference images.

Prompt-Free Diffusion - это модель диффузии, которая принимает визуальные данные для генерации изображений без ввода текстовых промптов.

🖥 Github: https://github.com/shi-labs/prompt-free-diffusion

🔎 Demo: https://huggingface.co/spaces/shi-labs/Prompt-Free-Diffusion

Paper: https://arxiv.org/abs/2305.16223v1

📌 Dataset: https://paperswithcode.com/dataset/ffhq

ai_machinelearning_big_data

Читать полностью…

Machinelearning

QLoRA: Efficient Finetuning of Quantized LLMs

Model name Guanaco, outperforms all previous openly released models on the Vicuna benchmark, reaching 99.3% of the performance level of ChatGPT while only requiring 24 hours of finetuning on a single GPU.

QLoRA
- эффективный метод файнтюнинга, который позволяет сократить использование памяти, чтобы произвести файнтюнинг модели с 65B параметрами на одном GPU 48 ГБ.

🖥 Github: https://github.com/artidoro/qlora

Paper: https://arxiv.org/abs/2305.14314

⭐️ Demo: https://huggingface.co/spaces/uwnlp/guanaco-playground-tgi

📌 Dataset: https://paperswithcode.com/dataset/ffhq

ai_machinelearning_big_data

Читать полностью…

Machinelearning

EfficientSpeech: An On-Device Text to Speech Model

It generates mel spectrogram at a speed of 104 (mRTF) or 104 secs of speech per sec on an RPi4.

EfficientSpeech, или сокращенно ES, - это мощная нейронная модель преобразования текста в речь (TTS). I

🖥 Github: https://github.com/roatienza/efficientspeech

Paper: https://arxiv.org/abs/2305.13905v1

📌 Dataset: https://paperswithcode.com/dataset/ljspeech

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Interactive Data Synthesis for Systematic Vision Adaptation via LLMs-AIGCs Collaboration

GPT-4 can do anything even in visual tasks——Label anything just all in one-pipeline.


Аннотирование чего угодно в визуальных задачах - все в одном конвейере с GPT-4.

🖥 Github: https://github.com/yuqifan1117/labal-anything-pipeline

Paper: https://arxiv.org/abs/2305.12799v1

ai_machinelearning_big_data

Читать полностью…

Machinelearning

📎 Instruction-tuning Stable Diffusion with InstructPix2Pix

InstructPix2Pix training strategy to follow more specific instructions related to tasks in image translation (such as cartoonization) and low-level image processing (such as image deraining).

В этом посте рассматривается настройка промптов для обучения Stable Diffusion. С помощью этого метода мы сможем легко настраивать Stable Diffusion на обработку изображений, используя входное изображение, в качестве промпта, например - Применить фильтр мультфильма к изображению.


🖥 Post: https://huggingface.co/blog/instruction-tuning-sd

⭐️ Training and inference code: https://github.com/huggingface/instruction-tuned-sd

📌 Demo: https://huggingface.co/spaces/instruction-tuning-sd/instruction-tuned-sd

InstructPix2Pix: https://huggingface.co/timbrooks/instruct-pix2pix

🔍Datasets and models from this post: https://huggingface.co/instruction-tuning-sd

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔭 GRES: Generalized Referring Expression Segmentation

New benchmark (GRES), which extends the classic RES to allow expressions to refer to an arbitrary number of target objects.

Новый метод
и датасет расширяющий классический RES, который принимает изображение и тектовое описание в качестве входных данных для сегментации и обнаружения множественных объектов.

🖥 Github: https://github.com/henghuiding/ReLA

Paper: https://arxiv.org/abs/2306.00968

🔎 Project: https://henghuiding.github.io/GRES/

📌 New dataset: https://github.com/henghuiding/gRefCOCO

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Generative AI learning path

This learning path guides you through a curated collection of content on Generative AI products and technologies.

10 бесплатных курсов от Googel, которые помогут вам погрузиться в технологии генеративного ИИ: от основ больших языковых моделей до создания и развертывания решений генеративного ИИ в Google Cloud.

Introduction to Generative AI

Introduction to Large Language Models

Introduction to Responsible AI

Introduction to Image Generation

Encoder-Decoder Architecture

Attention Mechanism

Transformer Models and BERT Model

Create Image Captioning Models

Introduction to Generative AI Studio

Generative AI Explorer - Vertex AI

https://www.cloudskillsboost.google/paths/118

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔥 Подборка полезных папок с каналами для датасаентисов

Папки, где вы найдете каналы с разбором лучших практик написания кода на Python и Golang до каналов по машинному обучению и нейросетям (папки работают на последних версиях тг).

/channel/addlist/2Ls-snqEeytkMDgy - Машинное обучение

/channel/addlist/8vDUwYRGujRmZjFi - Python

/channel/addlist/MUtJEeJSxeY2YTFi - Golang

Читать полностью…

Machinelearning

Positive Hack Days, новые железки и покупки

Новое видео на YouTube-канале Yandex Cloud 😎

Вместе с гостями из «ЛитРес», EORA и архитектором Yandex Cloud Евгением Парфёновым обсуждаем много интересного в регулярном выпуске Monthly Cloud News Maу:

— форум по кибербезопасности Positive Hack Days;
— сделку Microsoft и Activision Blizzard;
— сканер уязвимости контейнерных образов;
— историю DNS и лазейки в WAF;
— повседневные новости Yandex DataSphere и Yandex SpeechKit.

Хотите узнать больше? Смотрите видео и делитесь им с друзьями 😉

Читать полностью…

Machinelearning

В последнее время только и разговоров, что о нейросетях. Кто-то боится, что AI заберёт у них работу, а кто-то с его помощью повышают свою эффективность. Каждый, кто использует нейронки, уже немного приблизился к новой профессии. Мы ещё не знаем, как она будет называться. Но никто не мешает проявить фантазию: лид продуктового направления по ML ВКонтакте Иван Самсонов дал ей кодовое название — погонщик нейросетей.

Заглядывайте в статью и узнайте, как поймать волну перемен: вас ждёт большая подборка инструментов и небольшой туториал, как уже сейчас можно использовать их в работе.

📌Хабр: https://habr.com/ru/companies/vk/articles/738776/

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Платформа Sber Process Mining заменит иностранную процессную аналитику для внутреннего аудита X5 Group. Процесс перехода уже состоялся и специалисты X5 продолжат автоматизировать проверки соответствия бизнес-процессов установленным нормативам и тестирование контрольных процедур на российском программном обеспечении.

Плюсы от перехода на платформу Sber Process Mining для X5 Group:
✅Отечественное ПО — снижение зависимости от западных вендоров
✅Сохранение возможности регулярного тестирования контрольных процедур на больших объемах данных
✅Быстрый поиск отклонений и нарушений, в том числе недоступных для выявления традиционными средствами
✅Встроенные инструменты машинного обучения
✅ Может применяться для оптимизации любых процессов с цифровыми следами

«Мы гордимся нашим сотрудничеством с X5 Group. Это отличный пример синергии, которая позволила нам совместно решить амбициозную задачу по вендерозамещению решения от лидера мирового рынка. Глубокая экспертиза коллег и качественная обратная связь позволили нам вывести платформу Sber Process Mining на уровень лучших мировых практик», — заявил вице-президент Сбера Тарас Скворцов.

Подробности:
https://platformv.sber.ru/products/sber-process-mining

Читать полностью…

Machinelearning

Хотите работать ML-инженером в Тинькофф, Яндекс, ВКонтакте, Ozon или другой крупной IT-компании?

Освоить всю необходимую базу для получения оффера можно за 7 месяцев на курсе Start ML.

Вы на практике узнаете как ML-алгоритмы работают под капотом, научитесь обучать
модели и нейронные сети, а также оценивать их влияние на бизнес и продукт с помощью статистики и A/B-тестов — всё под руководством опытных специалистов из Райффайзен и Яндекс.

Курс даст всё необходимое, чтобы уверенно пройти собеседование на позицию Junior ML-специалиста и уже с первых дней быстро расти и приносить компании пользу. С поиском вакансий и трудоустройством обязательно поможем.

Новый поток стартует уже 8 июня, а по промокоду MLBIGDATA21 для вас действует скидка 5%. Присоединяйтесь!

[Зарегистрироваться]

Читать полностью…

Machinelearning

Нейронки уже безвозвратно изменили айти. В этом году только ленивый не написал, что вставьте название профессии сюда скоро заменит ChatGPT.

Как реально ИИ отразится на работе программиста и как в системе, где нейросеть за секунды может сгенерировать простой код, выживать джунам, пишут в телеграм-канале Skolkovo LIVE.

А еще они объясняют базу для стартаперов и рассказывают про нестыдные российские проекты, подпишитесь.

Читать полностью…

Machinelearning

Стань лучшим на онлайн-хакатоне PROFBUH HACKATHON | JUNE 🏆

Открыта регистрация на онлайн-хакатон от компании Профбух и Акселератора Возможностей!

Кейс:
🔹Автоматическое создание текстовых публикаций на основе записанного видео.

Даты хакатона:
23 – 25 июня 2023 года
Дедлайн регистрации:
19 июня 23:59
Регистрация и подробности - https://clck.ru/34WoFU

Кому подходит хакатон?
🔸Студентам, разработчикам, дизайнерам, продакт-менеджерам и аналитикам.

Что нужно будет сделать?
🔸Разработать web-систему для автоматического создания уникальных статей на основе видео из YouTube.

Что тебя ждёт?
🔹2 дня в онлайн-формате
🔹встречи с экспертами, мастер-классы и питчи
🔹крутой командный проект и интересный кейс в резюме
🔹призовой фонд – 300.000₽

Регистрируйся, решай кейс и выигрывай призы!🏆

Читать полностью…

Machinelearning

Создай цифровой продукт вместе с государством и бизнесом и улучши качество жизни в Арктике

🏆 Участвуй в технологическом конкурсе «АРКТЕК ДАТА 2023» и создай цифровой продукт в области устойчивого развития за 2 месяца. Направления: экология, туризм, урбанизация. Подать заявку можно с готовым продуктом или создать с нуля.

У тебя будут:
✅ Реальные данные по Арктической зоне
✅ Встречи с экспертами
✅ Трекеры
✅ Онлайн-участие и оффлайн-финал

Принять участие могут студенты, молодые профессионалы и отраслевые эксперты, Data Science лаборатории, студии разработки IT-продуктов и стартапы. Состав команд от 3 до 5 человек.

💸 Призовой фонд 3 000 000 рублей.

Конкурс организован при поддержке Минвостокразвития России, МИД России, ФАНУ «Востокгосплан», госкорпорации «Росатом», компании МегаФон и геомаркетингового сервиса «Геоинтеллект».

❗️Регистрация открыта до 23:59 8 июня. https://clck.ru/34YPZN

Читать полностью…

Machinelearning

🦖 Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation

Dynosaur, a large-scale instruction tuning dataset obtained automatically with significantly lower generation costs.

Новый фреймворк для широкого спектра NLP задач для instruction tuning и генерации датсетов, при низких высчислительных затратах и высоком качетсве данных.

🖥 Github: https://github.com/wadeyin9712/dynosaur

🔎 Project: https://dynosaur-it.github.io/

Paper: https://arxiv.org/abs/2305.14327

📌 Dataset: https://paperswithcode.com/dataset/ffhq

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Как построить систему геоаналитики с применением ML

Решать аналитические бизнес-задачи с большим количеством значимых признаков помогает машинное обучение. Новая статья на Хабре предлагает рассмотреть примеры работы сервисов геоаналитики VK Predict и демонстрирует, какие модели машинного обучения используются при построении таких систем.

Читать статью: https://habr.com/ru/companies/vk/articles/734102/

ai_machinelearning_big_data

Читать полностью…

Machinelearning

До 5 июня идет прием заявок на Международную университетскую премию в области искусственного интеллекта “Гравитация”.

Организаторами премии выступают Президентская академия, Томский государственный университет и Ассоциация “Университетский консорциум исследователей больших данных” при поддержке МГУ и МФТИ.

Участвовать могут команды вузов – разработчики ИТ-решений и команды любых организаций, если их продукты имеют потенциал применения для университетов. Среди направлений – прорывные научные исследования и разработки, развитие алгоритмов и программных решений в области ИИ и больших данных, инновации в образовательном процессе и подготовке кадров и другие.

Оргкомитет премии и независимое жюри – отраслевые эксперты, представители органов публичной власти – в заочном формате выберут 9 лучших проектов. А 23 и 24 июня мы узнаем победителе!

Оставить заявку: https://gravitation.ai/

Читать полностью…

Machinelearning

🆕 Yandex Cloud добавила новый режим работы в Yandex DataSphere — Dedicated
Yandex DataSphere — это сервис для полного цикла машинного обучения, в котором есть все необходимые инструменты для разработки и интеграции с другими облачными сервисами.
Что открывает выделенный режим Dedicated:
— возможность зарезервировать виртуальную машину в облаке под свой проект и работать с ней сколько нужно;
— ускорение работы моделей машинного обучения для задач по анализу данных.
Что ещё изменилось в Yandex DataSphere:
— режим Serverless остаётся, вы также можете его выбрать и оплачивать вычислительные мощности только во время реального обучения;
— появилась новая версия Jupyter Notebook, это популярный редактор кода для ML-разработки. Обновили интерфейс и добавили предустановленные расширения.
Все подробности можете узнать по ссылке, а обсудить в сообществе разработчиков и аналитиков Yandex DataSphere➡️

Читать полностью…

Machinelearning

Mask-Free Video Instance Segmentation

MaskFreeVIS, achieving highly competitive VIS performance, while only using bounding box annotations for the object state.

Новый высокопроизводительный фреймворк для сегментации видео.

🖥 Github: https://github.com/SysCV/maskfreevis

Paper: https://arxiv.org/pdf/2303.15904.pdf

📌 Project: http://www.vis.xyz/pub/maskfreevis/

ai_machinelearning_big_data

Читать полностью…
Подписаться на канал