datasciencegx | Неотсортированное

Telegram-канал datasciencegx - Data Portal | Data Science & Машиннное обучение

6351

Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста Связь: @devmangx

Подписаться на канал

Data Portal | Data Science & Машиннное обучение

SQL за 6 недель для дата-сайентистов

Опытный дата-сайентист с семилетним стажем создал подробный план изучения SQL, представленный в формате репозитория на GitHub. Каждый этап обучения включает полезные ссылки на обучающие материалы.

Вот как выглядит 6-недельная программа:
🔸 Неделя 1: Основы SQL. Научимся извлекать данные из баз данных.
🔸 Неделя 2: Группировка данных с помощью GROUP BY.
🔸 Неделя 3: Разбираем типы JOIN и их применение.
🔸 Неделя 4: Погружаемся в оконные функции.
🔸 Неделя 5: Изучаем CTE и подзапросы.
🔸 Неделя 6: Создаём собственный проект, чтобы закрепить знания.

👉 Дорожная карта на GitHub

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Шпаргалка по методам кодирования категориальных признаков

👉 @DataSciencegx

Читать полностью…

Data Portal | Data Science & Машиннное обучение

PandasAI — это инструмент для анализа данных, позволяющий работать с ними через запросы на естественном языке

Где использовать:
в Jupyter ноутбуках,
Streamlit-приложениях,
в виде REST API.

Как использовать: Просто формулировать вопросы к данным на естественном языке.

🔜 Демо в Google Colab
🔜 Репозиторий проекта

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

latexify — библиотека для красивого вывода формул

Вот основные функции:

компилирует код Python или AST в формат LaTeX
предоставляет классы для IPython для красивого отображения формул.

🔜 Ссылка на репозиторий

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Data Science Interview Questions & Exercises

Это подборка вопросов и ответов для собеседования на позицию дата-сайентиста.

Охватывает темы:
основы машинного обучения;
глубокое обучение и нейросети;
статистика и теория верояностей;
А/Б-тестирование;
NLP.

🔜 Ссылка

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Deep Learning на пальцах

Бесплатный курс по глубокому обучению от исследователя MIT Семёна Козлова. Он читается для магистрантов НГУ и студентов CS центра Новосибирска

Темы включают основы Python, numpy, работу с нейронными сетями, PyTorch, а также вводные концепции в NLP, компьютерное зрение, распознавание речи и обучение с подкреплением

🔜 Ссылка на материалы

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Профессор Том Йет создал Google Sheets, в котором предлагает вам самостоятельно вычислить архитектуру Transformer

В таблице представлены все матрицы, составляющие систему, и ваша задача — вычислить результирующие матрицы. Ответы, указанные прописными буквами, можно скрыть для самопроверки.

Также автор делится полезными материалами для лучшего понимания архитектуры Transformer.

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

⚡️ Awesome Machine Learning — фреймворки и библиотеки для ML

Репозиторий содержащий подборку полезных ресурсов, библиотек и инструментов для изучения и работы с машинным обучением (ML).

🔜 Ссылка на репозиторий Awesome Machine Learning

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Глубокое обучение с fastai и PyTorch. Минимум формул, минимум кода, максимум эффективности

Автор: Гуггер Сильвейн, Ховард Джереми
Год: 2022

⬇️ Скачать книгу

👉 @DataSciencegx | #книги

Читать полностью…

Data Portal | Data Science & Машиннное обучение

🔥 Почти 1000 опенсорсных LLM-инструментов

На этом сайте каждые 6 часов обновляется llama-police — список инструментов на основе больших языковых моделей (LLM) с открытым исходным кодом. В таблице перечислены репозитории таких проектов, их краткое описание, количество контрибьюторов, звёзд и т.д.

🔜 Большинство из проектов также можно найти в cool-llm-repos на GitHub.

🔜 Ссылка на сайт

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

🔥 Практическое видео по работе с базовым набором DS-инструментов

Видео с введением в основные библиотеки и инструменты для науки о данных и машинного обучения. Предназначено для начинающих.

Таймкоды:
Программирование на Python
Анализ данных с Pandas
Анализ данных с NumPy
Визуализация данных с Matplotlib
Визуализация данных с Seaborn
Визуализация данных с Plotly
Проект по анализу данных
Машинное обучение со Scikit-learn
Проект по машинному обучению

🔜 Ссылка на ролик

👉 @DataSciencegx | #курсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Теоретические основы популярных алгоритмов машинного обучения и их реализация с нуля на Python

Автор «Хабра» Егор Захаренко составил список собственных статей с описанием популярных алгоритмов классического машинного обучения. К каждой статье прилагается код на Python.

Обучение с учителем

Линейная регрессия и её модификации
Логистическая и Softmax-регрессии
Линейный дискриминантный анализ (LDA)
Наивный байесовский классификатор
Метод опорных векторов (SVM)
Метод K-ближайших соседей (KNN)
Дерево решений (CART)
Бэггинг и случайный лес
Алгоритмы AdaBoost (SAMME & R2)
Градиентный бустинг и его модификации
Стекинг и блендинг

Обучение без учителя

Метод главных компонент (PCA)
Популярные алгоритмы кластеризации

🔜 Ноутбуки с алгоритмами можно скачать на Kaggle и GitHub.

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Отличные визуальные объяснения ключевых концепций и алгоритмов машинного обучения

MLU-Explain — проект Amazon, созданный для упрощения изучения теоретических и практических основ машинного обучения

Каждая из представленных тем сопровождается доступными объяснениями и интерактивными графиками:
Нейронные сети
Equality of odds
Логистическая регрессия
Линейная регрессия
Обучение с подкреплением
Случайный лес и др.

🔜 Перейти на сайт

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Основы инженерии данных: как создавать надёжные системы обработки данных

Автор: Д. Рис, М. Хоусли
Год: 2024

📂 Скачать книгу

👉 @DataSciencegx | #книги

Читать полностью…

Data Portal | Data Science & Машиннное обучение

👩‍💻 Best-of Machine Learning with Python

Это репозиторий с 920 библиотеками и фреймворками на Python для машинного обучения. Все проекты ранжированы по качеству.

Репозиторий можно использовать как источник инструментов под различные нужды, в частности:

для непосредственно машинного обучения;
для визуализации данных;
для работы с финансовыми, медицинскими и другими особыми данными;
для оптического распознавания символов;
для поиска ближайших элементов в больших наборах данных, основываясь на их векторных представлениях.

🔜 Ссылка на репозиторий

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Гайд по тензорам

Эта компактная книга на 50 страниц подробно освещает все аспекты, связанные с тензорами

Тензор — это универсальное понятие, обозначающее матрицы с любым числом измерений. К тензорам относятся как скаляры (тензоры нулевого ранга), так и векторы (тензоры первого ранга) и матрицы (тензоры второго ранга).


🔜 Ссылка на сайт The Tensor Cookbook

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Как загружать веса моделей при ограниченных ресурсах?

Если объём памяти на вашем GPU ограничен, но нужно сохранить модель с помощью команды torch.save(model.state_dict(), 'model.pth') и продолжить её обучение в будущем, это вполне решаемая задача.

👉 В этом ноутбуке вы найдёте полезные советы и рекомендации, которые помогут справиться с этой проблемой.

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Краткий свод концепций Tensor Flow

архитектуру TensorFlow: устройство и базовые концепты;
типы данных и форматы тензоров в TensorFlow;
оптимизацию и обучение моделей;
обучение и распределённое вычисление: стратегии и параллелизация;
работу с данными и их подготовку: Dataset API и трансформации данных;
сохранение и развёртывание моделей.

🔜 Читать статью

👉 @DataSciencegx | #cтатья

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Изучаем основы Python. Практический курс для дата-аналитиков

Автор: П.И. Меликов
Год: 2023

⬇️ Скачать книгу

👉 @DataSciencegx | #книги

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Illustrated Machine Learning

Этот сайт предоставляет визуальные объяснения различных концепций машинного обучения. Здесь можно найти иллюстрации по таким темам, как:

Введение в машинное обучение
Линейная регрессия
Логистическая регрессия
Деревья решений
Бэггинг и бустинг
Кластеризация
Нейронные сети и глубокое обучение и др.

🔜 Ссылка на сайт

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Грокаем машинное обучение

Автор: Серрано Луис
Год: 2024

⬇️ Скачать книгу

👉 @DataSciencegx | #книги

Читать полностью…

Data Portal | Data Science & Машиннное обучение

🔢 Калькулятор для расчёта необходимого размера выборки для A/B тестов

Реддитор поделился сайтом, который сделал, чтобы облегчить себе жизнь.

Калькулятор может:
работать с разными пропорциями распределения групп (например, 20/80),
поддерживать более двух тестируемых групп помимо,
выбирать между односторонним и двусторонним статистическим тестом.

🔜 Ссылка на калькулятор

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

🔥 Бесплатный курс по компьютерному зрению от Hugging Face

Этот курс предлагает пошаговое введение в основы компьютерного зрения, включая как теорию, так и практические занятия. В нём можно найти следующие темы:

Основы компьютерного зрения;
Свёрточные нейронные сети;
Визуальные трансформеры;
Генеративные модели;
Обработка видео;
Машинное 3D-зрение, визуализация сцен и реконструкция;
Zero-shot зрение (позволяет компьютерам распределять объекты по классам, которые они раньше не видели);
Этические аспекты компьютерного зрения.

🔜 Ссылка на курс

👉 @DataSciencegx | #курсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

🔥 Несколько полезных шпаргалок для дата-сайентистов

Могут пригодиться при подготовке к собеседованию.

Введение в теорию вероятностей
Обзор способов визуализации данных
Описательная статистика

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Python для data science

Автор: Васильев Ю.
Год: 2023

⬇️ Скачать книгу

👉 @DataSciencegx | #книги

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Расширенная аналитика с PySpark: Практические примеры анализа больших наборов данных с использованием Python и Spark

Автор: Акаш Тандон, Сэнди Райза, Ури Ласерсон
Год: 2023

⬇️ Скачать книгу

👉 @DataSciencegx | #книги

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Базовая математика для искусственного интеллекта

Автор: Нельсон Хала
Год: 2024

⬇️ Скачать книгу

👉 @DataSciencegx | #книги

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Бесплатные материалы с теорией и практикой математики для Data Science

Авторы из Amazon написали целый раздел по математике для сайта d2l.ai. Там есть про:

векторы и линейные преобразования;
спектральное разложение матрицы;
дифференциальное исчисление;
анализ функций многих переменных;
интегральное исчисление;
метод максимального правдоподобия;
распределения;
статистику;
теорию информации.

Материал изложен на английском, но зато хорошо структурирован и сопровождается всеми необходимыми формулами и примерами кода.

Крутой бонус – можно выбрать диалект, на котором вам будут показываться примеры – PyTorch, Keras или MXNET.

🔜 Изучить всё можно по этой ссылке

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

🤩 Deep Learning Models

Репозиторий с коллекцией моделей и архитектур глубокого обучения. Все они представлены в Jupyter Notebook.

Репо охватывает модели:

— Перцептрон;
— Многослойный перцептрон;
— Свёрточные нейронные сети (AlexNet, LeNet и др.);
— Transformers;
— Генеративно-состязательные сети (GAN);
— Графовые нейронные сети.

🔜 Ссылка на репозиторий

👉 @DataSciencegx | #ресурсы

Читать полностью…

Data Portal | Data Science & Машиннное обучение

Наконец-то появился мощный курс по LLM для тех, кто хочет углубиться в тему 🔥

Вас ждут лекции о промт-инжиниринге, файнтюнинге (как и зачем это делать?), а также о RAG — методе, позволяющем обучить ChatGPT на нужных данных без файнтюна. Кроме того, вы узнаете, как оценивать LLM-модели.

Этот курс уникален: все лекции записаны опытными специалистами из Meta, Anthropic, Mistral и других передовых компаний в сфере ИИ.

Курс включает текстовые саммари, презентации, примеры кода и полезные ссылки на ресурсы.

Требования минимальны: базовые знания в области LLM и понимание ключевых терминов.

Ссылка на курс — здесь

👉 @DataSciencegx | #курсы

Читать полностью…
Подписаться на канал