🦍 Gorilla: Large Language Model Connected with Massive APIs
Gorilla a finetuned LLaMA-based model that surpasses the performance of GPT-4 on writing API calls.
Gorilla — это модель, обученная на основе LLaMA, для вызова 1600+ сторонних API. На вход подается запрос на естественном языке, модель находит семантически и синтаксически правильное API для настройки модели мо. Производительность настроенной модели превосходит GPT-4 на трех масштабных наборах данных.
🖥 Github: https://github.com/ShishirPatil/gorilla
📕 Paper: https://arxiv.org/abs/2305.15334
🔗 Demo: https://drive.google.com/file/d/1E0k5mG1mTiaz0kukyK1PdeohJipTFh6j/view?usp=share_link
👉 Project: https://shishirpatil.github.io/gorilla/
⭐️ Colab: https://colab.research.google.com/drive/1DEBPsccVLF_aUnmD0FwPeHFrtdC0QIUP?usp=sharing
ai_machinelearning_big_data
Есть опыт в машинном обучении, но хотите расти дальше?
Валерий Бабушкин, Vice President, Data Science в Blockchainꓸcom, вместе с karpov.courses создали продвинутый курс по ML, на котором вы научитесь решать нестандартные и востребованные бизнесом задачи.
Здесь вы познакомитесь с best practices индустрии и освоите все этапы работы ML-инженера: от сбора и разметки данных до деплоя собственных приложений.
К концу обучения вы создадите пять ML-сервисов, решающих реальные прикладные задачи, и научитесь проектировать всю необходимую для их работы инфраструктуру.
Будет непросто, но это того стоит! Новый поток стартует уже сегодня, а по промокоду AIBIGDATA27 вы получите скидку 5%.
[Зарегистрироваться]
Wuerstchen: Efficient Pretraining of Text-to-Image Models
Novel technique for text-to-image synthesis that unites competitive performance with unprecedented cost-effectiveness and ease of training on constrained hardwar
Würstchen - это новый фреймворк для обучения моделей преобразования текста в изображения путем перемещения затратного вычислительно этапа текстового преобразования в сильно сжатое латентное пространство
🖥 Github: https://github.com/dome272/wuerstchen
⏩ Paper: https://arxiv.org/abs/2306.00637v1
📌 Colab: https://colab.research.google.com/drive/1UTP9Xn2UIrVbAXyL-SKEvyLmgVWdw-Vy
ai_machinelearning_big_data
Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles
Hiera is a hierarchical vision transformer that is fast, powerful, and, above all, simple. It outperforms the state-of-the-art across a wide array of image and video tasks while being much faster.
Hiera - это быстрый, мощный и, прежде всего, простой метод иерархической перегруппировки информации.
Он превосходит современные методы в широком спектре задач, связанных с изображениями и видео.pip install hiera-transformer
🖥 Github: https://github.com/stevengrove/gpt4tools
⏩ Paper: https://arxiv.org/abs/2306.00989v1
📌 Dataset: https://paperswithcode.com/dataset/inaturalist
ai_machinelearning_big_data
🔥 10 Free Machine Learning Courses from Top Universities
Топ бесплатных курсов машинного обучения от лучших университетов мира
1. Introduction to Machine Learning - UC Berkeley
2. Introduction to Machine Learning - Carnegie Mellon University
3. Machine Learning - Stanford University
4. Machine Learning & Data Mining - Caltech
5. Learning from Data - Caltech
6. Machine Learning for Intelligent Systems - Cornell University
7. Large Scale Machine Learning - University of Toronto
8. user-yd6im1cq5k/about">Machine Learning with Large Datasets - Carnegie Mellon University
9. Foundations of Machine Learning and Statistical Inference - Caltech
10. Algorithmic Aspects of Machine Learning - MIT
ai_machinelearning_big_data
Introducing BERTopic Integration with the Hugging Face Hub
BERTopic provides a powerful tool for users to uncover significant topics within text collections, thereby gaining valuable insights.
BERTopic - это современная библиотека Python, которая упрощает процесс моделирования тем, используя различные трансформеры и c-TF-IDF для создания кластеров на основе плотности, позволяющих легко интерпретировать темы, сохраняя при этом важные слова в описаниях тем.
pip install bertopic
🤗 Hugging face: https://huggingface.co/blog/bertopic
🖥 Github: https://github.com/MaartenGr/BERTopic
⏩ Colab: https://colab.research.google.com/#fileId=https://huggingface.co/spaces/davanstrien/blog_notebooks/blob/main/BERTopic_hub_starter.ipynb
📌 Docs: https://maartengr.github.io/BERTopic/getting_started/quickstart/quickstart.html
ai_machinelearning_big_data
🔥 GPT4Tools: Teaching LLM to Use Tools via Self-instruction
GPT4Tools is a centralized system that can control multiple visual foundation models. It is based on Vicuna (LLaMA), and 71K self-built instruction data.
GPT4Tools - это интеллектуальная система, которая может автоматически принимать решения, управлять и использовать различные визуальные модели, позволяя пользователю взаимодействовать с изображениями во время диалога с Chatgpt.
🖥 Github: https://github.com/stevengrove/gpt4tools
⏩ Paper: https://arxiv.org/abs/2305.18752v1
📌 Project: https://gpt4tools.github.io/
ai_machinelearning_big_data
🦙 BigTrans 🚀
BigTrans which adapts LLaMA that covers only 20 languages and enhances it with multilingual translation capability on more than 100 languag
Предварительные эксперименты по многоязычному переводу показывают, что BigTrans сравним с ChatGPT и Google Translate на многих языках и даже превосходит ChatGPT в 8 языковых парах.
🖥 Github: https://github.com/ZNLP/BigTrans/tree/main
⏩ Paper: https://arxiv.org/abs/2305.18098v1
📌 Dataset: https://paperswithcode.com/dataset/flores-200
ai_machinelearning_big_data
🖥 A Practical Toolkit for Multilingual Question and Answer Generation
Multilingual/multidomain question generation datasets, models, and python library for question generation.
lmqg - это библиотека python для генерации вопросов и ответов (QAG) с помощью языковых моделей (LM).
🖥 Github: https://github.com/asahi417/lm-question-generation
⏩ Paper: https://arxiv.org/abs/2305.17416v1
📌 Dataset: https://paperswithcode.com/dataset/squad
ai_machinelearning_big_data
Large Language Models as Tool Makers
In this work, we take an initial step towards removing this dependency by proposing a closed-loop framework, referred to as LLMs A s Tool Makers (LATM), where LLMs create their own reusable tools for problem-solving.
Фреймворк для работы с большими языковыми моделями для создатния инструментов и скриптов на Python.
🖥 Github: https://github.com/ctlllll/llm-toolmaker
⏩ Paper: https://arxiv.org/pdf/2305.17126v1.pdf
📌 Dataset: https://paperswithcode.com/dataset/big-bench
ai_machinelearning_big_data
Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models
The performance of Text2Image is largely dependent on text prompts. In Prompt-Free Diffusion, no prompt is needed, just a reference images.
Prompt-Free Diffusion - это модель диффузии, которая принимает визуальные данные для генерации изображений без ввода текстовых промптов.
🖥 Github: https://github.com/shi-labs/prompt-free-diffusion
🔎 Demo: https://huggingface.co/spaces/shi-labs/Prompt-Free-Diffusion
⏩ Paper: https://arxiv.org/abs/2305.16223v1
📌 Dataset: https://paperswithcode.com/dataset/ffhq
ai_machinelearning_big_data
QLoRA: Efficient Finetuning of Quantized LLMs
Model name Guanaco, outperforms all previous openly released models on the Vicuna benchmark, reaching 99.3% of the performance level of ChatGPT while only requiring 24 hours of finetuning on a single GPU.
QLoRA - эффективный метод файнтюнинга, который позволяет сократить использование памяти, чтобы произвести файнтюнинг модели с 65B параметрами на одном GPU 48 ГБ.
🖥 Github: https://github.com/artidoro/qlora
⏩ Paper: https://arxiv.org/abs/2305.14314
⭐️ Demo: https://huggingface.co/spaces/uwnlp/guanaco-playground-tgi
📌 Dataset: https://paperswithcode.com/dataset/ffhq
ai_machinelearning_big_data
EfficientSpeech: An On-Device Text to Speech Model
It generates mel spectrogram at a speed of 104 (mRTF) or 104 secs of speech per sec on an RPi4.
EfficientSpeech, или сокращенно ES, - это мощная нейронная модель преобразования текста в речь (TTS). I
🖥 Github: https://github.com/roatienza/efficientspeech
⏩ Paper: https://arxiv.org/abs/2305.13905v1
📌 Dataset: https://paperswithcode.com/dataset/ljspeech
ai_machinelearning_big_data
Interactive Data Synthesis for Systematic Vision Adaptation via LLMs-AIGCs Collaboration
GPT-4 can do anything even in visual tasks——Label anything just all in one-pipeline.
Аннотирование чего угодно в визуальных задачах - все в одном конвейере с GPT-4.
🖥 Github: https://github.com/yuqifan1117/labal-anything-pipeline
⏩ Paper: https://arxiv.org/abs/2305.12799v1
ai_machinelearning_big_data
📎 Instruction-tuning Stable Diffusion with InstructPix2Pix
InstructPix2Pix training strategy to follow more specific instructions related to tasks in image translation (such as cartoonization) and low-level image processing (such as image deraining).
В этом посте рассматривается настройка промптов для обучения Stable Diffusion. С помощью этого метода мы сможем легко настраивать Stable Diffusion на обработку изображений, используя входное изображение, в качестве промпта, например - Применить фильтр мультфильма к изображению.
🖥 Post: https://huggingface.co/blog/instruction-tuning-sd
⭐️ Training and inference code: https://github.com/huggingface/instruction-tuned-sd
📌 Demo: https://huggingface.co/spaces/instruction-tuning-sd/instruction-tuned-sd
⏩ InstructPix2Pix: https://huggingface.co/timbrooks/instruct-pix2pix
🔍Datasets and models from this post: https://huggingface.co/instruction-tuning-sd
ai_machinelearning_big_data
🔭 GRES: Generalized Referring Expression Segmentation
New benchmark (GRES), which extends the classic RES to allow expressions to refer to an arbitrary number of target objects.
Новый метод и датасет расширяющий классический RES, который принимает изображение и тектовое описание в качестве входных данных для сегментации и обнаружения множественных объектов.
🖥 Github: https://github.com/henghuiding/ReLA
⏩ Paper: https://arxiv.org/abs/2306.00968
🔎 Project: https://henghuiding.github.io/GRES/
📌 New dataset: https://github.com/henghuiding/gRefCOCO
ai_machinelearning_big_data
⚡ Generative AI learning path
This learning path guides you through a curated collection of content on Generative AI products and technologies.
10 бесплатных курсов от Googel, которые помогут вам погрузиться в технологии генеративного ИИ: от основ больших языковых моделей до создания и развертывания решений генеративного ИИ в Google Cloud.
▪Introduction to Generative AI
▪Introduction to Large Language Models
▪Introduction to Responsible AI
▪Introduction to Image Generation
▪Encoder-Decoder Architecture
▪Attention Mechanism
▪Transformer Models and BERT Model
▪Create Image Captioning Models
▪Introduction to Generative AI Studio
▪Generative AI Explorer - Vertex AI
https://www.cloudskillsboost.google/paths/118
ai_machinelearning_big_data
🔥 Подборка полезных папок с каналами для датасаентисов
Папки, где вы найдете каналы с разбором лучших практик написания кода на Python и Golang до каналов по машинному обучению и нейросетям (папки работают на последних версиях тг).
/channel/addlist/2Ls-snqEeytkMDgy - Машинное обучение
/channel/addlist/8vDUwYRGujRmZjFi - Python
/channel/addlist/MUtJEeJSxeY2YTFi - Golang
Positive Hack Days, новые железки и покупки
Новое видео на YouTube-канале Yandex Cloud 😎
Вместе с гостями из «ЛитРес», EORA и архитектором Yandex Cloud Евгением Парфёновым обсуждаем много интересного в регулярном выпуске Monthly Cloud News Maу:
— форум по кибербезопасности Positive Hack Days;
— сделку Microsoft и Activision Blizzard;
— сканер уязвимости контейнерных образов;
— историю DNS и лазейки в WAF;
— повседневные новости Yandex DataSphere и Yandex SpeechKit.
Хотите узнать больше? Смотрите видео и делитесь им с друзьями 😉
В последнее время только и разговоров, что о нейросетях. Кто-то боится, что AI заберёт у них работу, а кто-то с его помощью повышают свою эффективность. Каждый, кто использует нейронки, уже немного приблизился к новой профессии. Мы ещё не знаем, как она будет называться. Но никто не мешает проявить фантазию: лид продуктового направления по ML ВКонтакте Иван Самсонов дал ей кодовое название — погонщик нейросетей.
Заглядывайте в статью и узнайте, как поймать волну перемен: вас ждёт большая подборка инструментов и небольшой туториал, как уже сейчас можно использовать их в работе.
📌Хабр: https://habr.com/ru/companies/vk/articles/738776/
ai_machinelearning_big_data
Платформа Sber Process Mining заменит иностранную процессную аналитику для внутреннего аудита X5 Group. Процесс перехода уже состоялся и специалисты X5 продолжат автоматизировать проверки соответствия бизнес-процессов установленным нормативам и тестирование контрольных процедур на российском программном обеспечении.
Плюсы от перехода на платформу Sber Process Mining для X5 Group:
✅Отечественное ПО — снижение зависимости от западных вендоров
✅Сохранение возможности регулярного тестирования контрольных процедур на больших объемах данных
✅Быстрый поиск отклонений и нарушений, в том числе недоступных для выявления традиционными средствами
✅Встроенные инструменты машинного обучения
✅ Может применяться для оптимизации любых процессов с цифровыми следами
«Мы гордимся нашим сотрудничеством с X5 Group. Это отличный пример синергии, которая позволила нам совместно решить амбициозную задачу по вендерозамещению решения от лидера мирового рынка. Глубокая экспертиза коллег и качественная обратная связь позволили нам вывести платформу Sber Process Mining на уровень лучших мировых практик», — заявил вице-президент Сбера Тарас Скворцов.
Подробности:
https://platformv.sber.ru/products/sber-process-mining
Хотите работать ML-инженером в Тинькофф, Яндекс, ВКонтакте, Ozon или другой крупной IT-компании?
Освоить всю необходимую базу для получения оффера можно за 7 месяцев на курсе Start ML.
Вы на практике узнаете как ML-алгоритмы работают под капотом, научитесь обучать
модели и нейронные сети, а также оценивать их влияние на бизнес и продукт с помощью статистики и A/B-тестов — всё под руководством опытных специалистов из Райффайзен и Яндекс.
Курс даст всё необходимое, чтобы уверенно пройти собеседование на позицию Junior ML-специалиста и уже с первых дней быстро расти и приносить компании пользу. С поиском вакансий и трудоустройством обязательно поможем.
Новый поток стартует уже 8 июня, а по промокоду MLBIGDATA21 для вас действует скидка 5%. Присоединяйтесь!
[Зарегистрироваться]
Нейронки уже безвозвратно изменили айти. В этом году только ленивый не написал, что вставьте название профессии сюда скоро заменит ChatGPT.
Как реально ИИ отразится на работе программиста и как в системе, где нейросеть за секунды может сгенерировать простой код, выживать джунам, пишут в телеграм-канале Skolkovo LIVE.
А еще они объясняют базу для стартаперов и рассказывают про нестыдные российские проекты, подпишитесь.
Стань лучшим на онлайн-хакатоне PROFBUH HACKATHON | JUNE 🏆
Открыта регистрация на онлайн-хакатон от компании Профбух и Акселератора Возможностей!
Кейс:
🔹Автоматическое создание текстовых публикаций на основе записанного видео.
Даты хакатона:
23 – 25 июня 2023 года
Дедлайн регистрации:
19 июня 23:59
Регистрация и подробности - https://clck.ru/34WoFU
Кому подходит хакатон?
🔸Студентам, разработчикам, дизайнерам, продакт-менеджерам и аналитикам.
Что нужно будет сделать?
🔸Разработать web-систему для автоматического создания уникальных статей на основе видео из YouTube.
Что тебя ждёт?
🔹2 дня в онлайн-формате
🔹встречи с экспертами, мастер-классы и питчи
🔹крутой командный проект и интересный кейс в резюме
🔹призовой фонд – 300.000₽
Регистрируйся, решай кейс и выигрывай призы!🏆
Создай цифровой продукт вместе с государством и бизнесом и улучши качество жизни в Арктике
🏆 Участвуй в технологическом конкурсе «АРКТЕК ДАТА 2023» и создай цифровой продукт в области устойчивого развития за 2 месяца. Направления: экология, туризм, урбанизация. Подать заявку можно с готовым продуктом или создать с нуля.
У тебя будут:
✅ Реальные данные по Арктической зоне
✅ Встречи с экспертами
✅ Трекеры
✅ Онлайн-участие и оффлайн-финал
Принять участие могут студенты, молодые профессионалы и отраслевые эксперты, Data Science лаборатории, студии разработки IT-продуктов и стартапы. Состав команд от 3 до 5 человек.
💸 Призовой фонд 3 000 000 рублей.
Конкурс организован при поддержке Минвостокразвития России, МИД России, ФАНУ «Востокгосплан», госкорпорации «Росатом», компании МегаФон и геомаркетингового сервиса «Геоинтеллект».
❗️Регистрация открыта до 23:59 8 июня. https://clck.ru/34YPZN
🦖 Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation
Dynosaur, a large-scale instruction tuning dataset obtained automatically with significantly lower generation costs.
Новый фреймворк для широкого спектра NLP задач для instruction tuning и генерации датсетов, при низких высчислительных затратах и высоком качетсве данных.
🖥 Github: https://github.com/wadeyin9712/dynosaur
🔎 Project: https://dynosaur-it.github.io/
⏩ Paper: https://arxiv.org/abs/2305.14327
📌 Dataset: https://paperswithcode.com/dataset/ffhq
ai_machinelearning_big_data
Как построить систему геоаналитики с применением ML
Решать аналитические бизнес-задачи с большим количеством значимых признаков помогает машинное обучение. Новая статья на Хабре предлагает рассмотреть примеры работы сервисов геоаналитики VK Predict и демонстрирует, какие модели машинного обучения используются при построении таких систем.
Читать статью: https://habr.com/ru/companies/vk/articles/734102/
ai_machinelearning_big_data
До 5 июня идет прием заявок на Международную университетскую премию в области искусственного интеллекта “Гравитация”.
Организаторами премии выступают Президентская академия, Томский государственный университет и Ассоциация “Университетский консорциум исследователей больших данных” при поддержке МГУ и МФТИ.
Участвовать могут команды вузов – разработчики ИТ-решений и команды любых организаций, если их продукты имеют потенциал применения для университетов. Среди направлений – прорывные научные исследования и разработки, развитие алгоритмов и программных решений в области ИИ и больших данных, инновации в образовательном процессе и подготовке кадров и другие.
Оргкомитет премии и независимое жюри – отраслевые эксперты, представители органов публичной власти – в заочном формате выберут 9 лучших проектов. А 23 и 24 июня мы узнаем победителе!
Оставить заявку: https://gravitation.ai/
🆕 Yandex Cloud добавила новый режим работы в Yandex DataSphere — Dedicated
Yandex DataSphere — это сервис для полного цикла машинного обучения, в котором есть все необходимые инструменты для разработки и интеграции с другими облачными сервисами.
Что открывает выделенный режим Dedicated:
— возможность зарезервировать виртуальную машину в облаке под свой проект и работать с ней сколько нужно;
— ускорение работы моделей машинного обучения для задач по анализу данных.
Что ещё изменилось в Yandex DataSphere:
— режим Serverless остаётся, вы также можете его выбрать и оплачивать вычислительные мощности только во время реального обучения;
— появилась новая версия Jupyter Notebook, это популярный редактор кода для ML-разработки. Обновили интерфейс и добавили предустановленные расширения.
Все подробности можете узнать по ссылке, а обсудить в сообществе разработчиков и аналитиков Yandex DataSphere➡️
Mask-Free Video Instance Segmentation
MaskFreeVIS, achieving highly competitive VIS performance, while only using bounding box annotations for the object state.
Новый высокопроизводительный фреймворк для сегментации видео.
🖥 Github: https://github.com/SysCV/maskfreevis
⏩ Paper: https://arxiv.org/pdf/2303.15904.pdf
📌 Project: http://www.vis.xyz/pub/maskfreevis/
ai_machinelearning_big_data