Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста Связь: @devmangx
SQL за 6 недель для дата-сайентистов
Опытный дата-сайентист с семилетним стажем создал подробный план изучения SQL, представленный в формате репозитория на GitHub. Каждый этап обучения включает полезные ссылки на обучающие материалы.
Вот как выглядит 6-недельная программа:
🔸 Неделя 1: Основы SQL. Научимся извлекать данные из баз данных.
🔸 Неделя 2: Группировка данных с помощью GROUP BY.
🔸 Неделя 3: Разбираем типы JOIN и их применение.
🔸 Неделя 4: Погружаемся в оконные функции.
🔸 Неделя 5: Изучаем CTE и подзапросы.
🔸 Неделя 6: Создаём собственный проект, чтобы закрепить знания.
👉 Дорожная карта на GitHub
👉 @DataSciencegx | #ресурсы
Шпаргалка по методам кодирования категориальных признаков
👉 @DataSciencegx
PandasAI — это инструмент для анализа данных, позволяющий работать с ними через запросы на естественном языке
Где использовать:
⏩ в Jupyter ноутбуках,
⏩ Streamlit-приложениях,
⏩ в виде REST API.
Как использовать: Просто формулировать вопросы к данным на естественном языке.
🔜 Демо в Google Colab
🔜 Репозиторий проекта
👉 @DataSciencegx | #ресурсы
latexify — библиотека для красивого вывода формул
Вот основные функции:
⏩компилирует код Python или AST в формат LaTeX
⏩предоставляет классы для IPython для красивого отображения формул.
🔜 Ссылка на репозиторий
👉 @DataSciencegx | #ресурсы
Data Science Interview Questions & Exercises
Это подборка вопросов и ответов для собеседования на позицию дата-сайентиста.
Охватывает темы:
⏩основы машинного обучения;
⏩глубокое обучение и нейросети;
⏩статистика и теория верояностей;
⏩А/Б-тестирование;
⏩NLP.
🔜 Ссылка
👉 @DataSciencegx | #ресурсы
Deep Learning на пальцах
Бесплатный курс по глубокому обучению от исследователя MIT Семёна Козлова. Он читается для магистрантов НГУ и студентов CS центра Новосибирска
Темы включают основы Python, numpy, работу с нейронными сетями, PyTorch, а также вводные концепции в NLP, компьютерное зрение, распознавание речи и обучение с подкреплением
🔜 Ссылка на материалы
👉 @DataSciencegx | #ресурсы
Профессор Том Йет создал Google Sheets, в котором предлагает вам самостоятельно вычислить архитектуру Transformer
В таблице представлены все матрицы, составляющие систему, и ваша задача — вычислить результирующие матрицы. Ответы, указанные прописными буквами, можно скрыть для самопроверки.
Также автор делится полезными материалами для лучшего понимания архитектуры Transformer.
👉 @DataSciencegx | #ресурсы
⚡️ Awesome Machine Learning — фреймворки и библиотеки для ML
Репозиторий содержащий подборку полезных ресурсов, библиотек и инструментов для изучения и работы с машинным обучением (ML).
🔜 Ссылка на репозиторий Awesome Machine Learning
👉 @DataSciencegx | #ресурсы
Глубокое обучение с fastai и PyTorch. Минимум формул, минимум кода, максимум эффективности
Автор: Гуггер Сильвейн, Ховард Джереми
Год: 2022
⬇️ Скачать книгу
👉 @DataSciencegx | #книги
🔥 Почти 1000 опенсорсных LLM-инструментов
На этом сайте каждые 6 часов обновляется llama-police — список инструментов на основе больших языковых моделей (LLM) с открытым исходным кодом. В таблице перечислены репозитории таких проектов, их краткое описание, количество контрибьюторов, звёзд и т.д.
🔜 Большинство из проектов также можно найти в cool-llm-repos на GitHub.
🔜 Ссылка на сайт
👉 @DataSciencegx | #ресурсы
🔥 Практическое видео по работе с базовым набором DS-инструментов
Видео с введением в основные библиотеки и инструменты для науки о данных и машинного обучения. Предназначено для начинающих.
Таймкоды:
⏩ Программирование на Python
⏩ Анализ данных с Pandas
⏩ Анализ данных с NumPy
⏩ Визуализация данных с Matplotlib
⏩ Визуализация данных с Seaborn
⏩ Визуализация данных с Plotly
⏩ Проект по анализу данных
⏩ Машинное обучение со Scikit-learn
⏩ Проект по машинному обучению
🔜 Ссылка на ролик
👉 @DataSciencegx | #курсы
Теоретические основы популярных алгоритмов машинного обучения и их реализация с нуля на Python
Автор «Хабра» Егор Захаренко составил список собственных статей с описанием популярных алгоритмов классического машинного обучения. К каждой статье прилагается код на Python.
Обучение с учителем
⏩ Линейная регрессия и её модификации
⏩ Логистическая и Softmax-регрессии
⏩ Линейный дискриминантный анализ (LDA)
⏩ Наивный байесовский классификатор
⏩ Метод опорных векторов (SVM)
⏩ Метод K-ближайших соседей (KNN)
⏩ Дерево решений (CART)
⏩ Бэггинг и случайный лес
⏩ Алгоритмы AdaBoost (SAMME & R2)
⏩ Градиентный бустинг и его модификации
⏩ Стекинг и блендинг
Обучение без учителя
⏩ Метод главных компонент (PCA)
⏩ Популярные алгоритмы кластеризации
🔜 Ноутбуки с алгоритмами можно скачать на Kaggle и GitHub.
👉 @DataSciencegx | #ресурсы
Отличные визуальные объяснения ключевых концепций и алгоритмов машинного обучения
MLU-Explain — проект Amazon, созданный для упрощения изучения теоретических и практических основ машинного обучения
Каждая из представленных тем сопровождается доступными объяснениями и интерактивными графиками:
⏩Нейронные сети
⏩Equality of odds
⏩Логистическая регрессия
⏩Линейная регрессия
⏩Обучение с подкреплением
⏩Случайный лес и др.
🔜 Перейти на сайт
👉 @DataSciencegx | #ресурсы
Основы инженерии данных: как создавать надёжные системы обработки данных
Автор: Д. Рис, М. Хоусли
Год: 2024
📂 Скачать книгу
👉 @DataSciencegx | #книги
👩💻 Best-of Machine Learning with Python
Это репозиторий с 920 библиотеками и фреймворками на Python для машинного обучения. Все проекты ранжированы по качеству.
Репозиторий можно использовать как источник инструментов под различные нужды, в частности:
⏩для непосредственно машинного обучения;
⏩для визуализации данных;
⏩для работы с финансовыми, медицинскими и другими особыми данными;
⏩для оптического распознавания символов;
⏩для поиска ближайших элементов в больших наборах данных, основываясь на их векторных представлениях.
🔜 Ссылка на репозиторий
👉 @DataSciencegx | #ресурсы
Гайд по тензорам
Эта компактная книга на 50 страниц подробно освещает все аспекты, связанные с тензорами
Тензор — это универсальное понятие, обозначающее матрицы с любым числом измерений. К тензорам относятся как скаляры (тензоры нулевого ранга), так и векторы (тензоры первого ранга) и матрицы (тензоры второго ранга).
Как загружать веса моделей при ограниченных ресурсах?
Если объём памяти на вашем GPU ограничен, но нужно сохранить модель с помощью команды torch.save(model.state_dict(), 'model.pth') и продолжить её обучение в будущем, это вполне решаемая задача.
👉 В этом ноутбуке вы найдёте полезные советы и рекомендации, которые помогут справиться с этой проблемой.
👉 @DataSciencegx | #ресурсы
Краткий свод концепций Tensor Flow
⏩архитектуру TensorFlow: устройство и базовые концепты;
⏩типы данных и форматы тензоров в TensorFlow;
⏩оптимизацию и обучение моделей;
⏩обучение и распределённое вычисление: стратегии и параллелизация;
⏩работу с данными и их подготовку: Dataset API и трансформации данных;
⏩сохранение и развёртывание моделей.
🔜 Читать статью
👉 @DataSciencegx | #cтатья
Изучаем основы Python. Практический курс для дата-аналитиков
Автор: П.И. Меликов
Год: 2023
⬇️ Скачать книгу
👉 @DataSciencegx | #книги
Illustrated Machine Learning
Этот сайт предоставляет визуальные объяснения различных концепций машинного обучения. Здесь можно найти иллюстрации по таким темам, как:
⏩Введение в машинное обучение
⏩Линейная регрессия
⏩Логистическая регрессия
⏩Деревья решений
⏩Бэггинг и бустинг
⏩Кластеризация
⏩Нейронные сети и глубокое обучение и др.
🔜 Ссылка на сайт
👉 @DataSciencegx | #ресурсы
Грокаем машинное обучение
Автор: Серрано Луис
Год: 2024
⬇️ Скачать книгу
👉 @DataSciencegx | #книги
🔢 Калькулятор для расчёта необходимого размера выборки для A/B тестов
Реддитор поделился сайтом, который сделал, чтобы облегчить себе жизнь.
Калькулятор может:
⏩работать с разными пропорциями распределения групп (например, 20/80),
⏩поддерживать более двух тестируемых групп помимо,
⏩выбирать между односторонним и двусторонним статистическим тестом.
🔜 Ссылка на калькулятор
👉 @DataSciencegx | #ресурсы
🔥 Бесплатный курс по компьютерному зрению от Hugging Face
Этот курс предлагает пошаговое введение в основы компьютерного зрения, включая как теорию, так и практические занятия. В нём можно найти следующие темы:
⏩Основы компьютерного зрения;
⏩Свёрточные нейронные сети;
⏩Визуальные трансформеры;
⏩Генеративные модели;
⏩Обработка видео;
⏩Машинное 3D-зрение, визуализация сцен и реконструкция;
⏩Zero-shot зрение (позволяет компьютерам распределять объекты по классам, которые они раньше не видели);
⏩Этические аспекты компьютерного зрения.
🔜 Ссылка на курс
👉 @DataSciencegx | #курсы
🔥 Несколько полезных шпаргалок для дата-сайентистов
Могут пригодиться при подготовке к собеседованию.
⏩Введение в теорию вероятностей
⏩Обзор способов визуализации данных
⏩Описательная статистика
👉 @DataSciencegx | #ресурсы
Python для data science
Автор: Васильев Ю.
Год: 2023
⬇️ Скачать книгу
👉 @DataSciencegx | #книги
Расширенная аналитика с PySpark: Практические примеры анализа больших наборов данных с использованием Python и Spark
Автор: Акаш Тандон, Сэнди Райза, Ури Ласерсон
Год: 2023
⬇️ Скачать книгу
👉 @DataSciencegx | #книги
Базовая математика для искусственного интеллекта
Автор: Нельсон Хала
Год: 2024
⬇️ Скачать книгу
👉 @DataSciencegx | #книги
Бесплатные материалы с теорией и практикой математики для Data Science
Авторы из Amazon написали целый раздел по математике для сайта d2l.ai. Там есть про:
⏩векторы и линейные преобразования;
⏩спектральное разложение матрицы;
⏩дифференциальное исчисление;
⏩анализ функций многих переменных;
⏩интегральное исчисление;
⏩метод максимального правдоподобия;
⏩распределения;
⏩статистику;
⏩теорию информации.
Материал изложен на английском, но зато хорошо структурирован и сопровождается всеми необходимыми формулами и примерами кода.
Крутой бонус – можно выбрать диалект, на котором вам будут показываться примеры – PyTorch, Keras или MXNET.
🔜 Изучить всё можно по этой ссылке
👉 @DataSciencegx | #ресурсы
🤩 Deep Learning Models
Репозиторий с коллекцией моделей и архитектур глубокого обучения. Все они представлены в Jupyter Notebook.
Репо охватывает модели:
— Перцептрон;
— Многослойный перцептрон;
— Свёрточные нейронные сети (AlexNet, LeNet и др.);
— Transformers;
— Генеративно-состязательные сети (GAN);
— Графовые нейронные сети.
🔜 Ссылка на репозиторий
👉 @DataSciencegx | #ресурсы
Наконец-то появился мощный курс по LLM для тех, кто хочет углубиться в тему 🔥
Вас ждут лекции о промт-инжиниринге, файнтюнинге (как и зачем это делать?), а также о RAG — методе, позволяющем обучить ChatGPT на нужных данных без файнтюна. Кроме того, вы узнаете, как оценивать LLM-модели.
Этот курс уникален: все лекции записаны опытными специалистами из Meta, Anthropic, Mistral и других передовых компаний в сфере ИИ.
Курс включает текстовые саммари, презентации, примеры кода и полезные ссылки на ресурсы.
Требования минимальны: базовые знания в области LLM и понимание ключевых терминов.
Ссылка на курс — здесь
👉 @DataSciencegx | #курсы