58174
Всё самое интересное из мира Python Связь: @devmangx РКН: https://clck.ru/3GMMF6
Обычно анализ данных - от чистки и исследования до моделирования, визуализации и написания отчётов отнимает кучу времени. Особенно когда приходится возиться с кучей файлов разных форматов. Это тот ещё гемор.
К счастью, я наткнулся на опенсорсный проект DeepAnalyze, который позволяет ИИ полностью самостоятельно пройти весь цикл data science, реально без участия человека.
Он построен на DeepSeek-R1 и использует подход curriculum learning при обучении. Поддерживает весь пайплайн: подготовку данных, анализ, моделирование, визуализацию и генерацию отчётов.
Инструмент умеет работать с разными типами данных ( базы данных, CSV, Excel, JSON, XML ) и в итоге генерирует профессиональные исследовательские отчёты. ⌨️
👉 @PythonPortal
Огромный набор из 17 лучших GitHub-репозиториев для изучения Python
1. 30-Days-Of-Python — 30-дневный Python-челлендж с основами языка.
2. Python Basics — простые и понятные основы Python для новичков.
3. Learn Python — справочник по темам с примерами и кодом.
4. Python Guide — лучшие практики, инструменты и продвинутые темы.
5. Learn Python 3 — понятное руководство по Python 3 с практикой.
6. Python Programming Exercises — 100+ задач по Python.
7. Coding Problems — алгоритмические задачи, идеальны для подготовки к собесам.
8. Project-Based-Learning — изучай Python через реальные проекты.
9. Projects — идеи для практических проектов и прокачки навыков.
10. 100-Days-Of-ML-Code — пошаговый гайд по Machine Learning на Python.
11. TheAlgorithms/Python — огромная коллекция алгоритмов на Python.
12. Amazing-Python-Scripts — полезные скрипты от автоматизации до продвинутых утилит.
13. Geekcomputers/Python — сборник практических скриптов: сеть, файлы, автоматизация.
14. Materials — код, упражнения и проекты из Real Python.
15. Awesome Python — топ-список лучших фреймворков и библиотек.
16. 30-Seconds-of-Python — короткие сниппеты для быстрых решений.
17. Python Reference — лайфхаки, туториалы и полезные скрипты.
Надо собирать данные с сайтов, но пользоваться готовыми облачными сервисами неудобно 🎧
Платно, сложно контролировать обход блокировок и не всегда понятно, что делается с данными. Вся эта история быстро превращается в чёрт пойми что
Случайно наткнулся на ScrapFly Scrapers, это опенсорсный набор Python-скрейперов под ~40 популярных сайтов (Amazon, eBay, TikTok и др.). Код асинхронный, работает через ScrapFly API, использует parsel и пригоден как учебная база или старт для своих парсеров.
Проект позиционируется как учебный, тоесть можно быстро посмотреть архитектуру и взять рабочие примеры, но перед реальным запуском стоит проверить юридические и этические моменты.
👉 @PythonPortal
Python митап от Авито 27 октября в Москве! ☄
Вечером 27 октября вас ждут в офисе на Лесной, чтобы обсудить:
➡ кейс оптимизации GC в Python от Саши Федосеева, backend-инженера из команды Main Page Tech Авито;
➡ как mypy укрощает Python в большой компании вместе с Сергеем Яхницким из Яндекса.
После докладов, как и сказали выше, вместе с участниками спикеры обсудят, подходит ли Python для запуска больших нагруженных решений в формате круглого стола.
Для тех, кто не успевает вырваться из офиса или дома, будет онлайн-трансляция.
Так что не откладывайте, регистрируйтесь и зовите коллег — все подробности по ссылке
Годы юзал Chrome и только сегодня узнал об этом 😅
Вводишь в адресную строку: chrome://chrome-urls — открывается список всех внутренних страниц браузера - от отладочных тулзов до экспериментальных фич.
Полезные штуки, которые там можно найти:
- chrome://flags → скрытые настройки
- chrome://gpu → информация о работе GPU
- chrome://net-export → отладка сети
Ставьте лайк, если тоже не знали, посмотрим сколько нас
👉 @PythonPortal
Самостоятельные курсы по программированию для школьников от Яндекс Лицея
Убрали дедлайны, отборы и преподавателей, чтобы вы смогли в комфортном темпе проходить материал. Сейчас доступны курсы по Go, С++ и фронтенд-разработке.
Эти курсы помогут понять, нравится вам кодить или нет, подготовиться к экзаменам, контрольным по информатике. Можно сказать, что это замена репетитора для более детального изучения тем.
👉 Регистрируемся и начинаем обучение здесь
Эксперимент: диффузионная текстовая модель на 11 млн параметров
Разработчик тестирует миниатюрную символьную диффузионную модель (всего 11M параметров), основанную на переработанной версии nanochat GPT. Вместо классического авторегрессионного декодирования используется диффузионный подход, а обучается модель на датасете Tiny Shakespeare.
В процессе экспериментов исследуются разные стратегии маскирования токенов. Простая схема с равномерной вероятностью уступает новым методам, где маскирование идёт блоками слева направо = это повышает качество вывода и даёт возможность частично переиспользовать KVCache.
Самое интересное, автор попробовал применять маскирование по правилам «Игры жизни» Конвея, и это дало неожиданные, но визуально захватывающие результаты.
Он предполагает, что подобные нестандартные схемы маскирования могут привести к новым эффектам и улучшениям в генерации текста.
Эксперимент ещё в работе, но уже выглядит как увлекательное направление для развития текстовых диффузионных моделей.
👉 @PythonPortal
Один One Day Offer вам или целых три — всем? 😉
25 октября Сбер проведёт сразу три экспресс-отбора кандидатов в две команды: GigaData и Kandinsky. Чем вам предстоит заниматься 👇
✔️ Развивать GigaData — внутреннюю платформу Сбера, которая обрабатывает петабайты данных и миллиарды запросов в сутки. One Day Offer для Python‑разработчиков.
✔️ Работать над Kandinsky — обучать большие модели с нуля, собирать и подготавливать данные, исследовать самые эффективные методы дообучения моделей.
— One Day Offer для Machine Learning Engineers с опытом в Deep Learning и компьютерном зрении (CV).
— One Day Offer для Research и Deep Learning Engineers.
Выбирайте то, что больше подходит под ваши навыки, и регистрируйтесь на One Day Offer!
Бесплатная халява в Steam
Забираем Upload Labs — симулятор программиста, где тебе предстоит спасти Вселенную от тепловой смерти, создав идеальную компьютерную систему. 🤣
Готовься к настоящему испытанию мозга, ведь придётся писать код, оптимизировать ресурсы и заставлять всё работать как часы.
Забираем: стим
👉 @PythonPortal
Вот трюк для оптимизации нейросетки, который даёт примерно 4x ускорение при передаче данных с CPU на GPU.
Представим задачу классификации изображений.
Определяем модель, загружаем и преобразуем данные.
В цикле обучения передаём данные на GPU и тренируем сеть.
В чём проблема:
Если заглянуть в профайлер,
- большая часть ресурсов уходит на ядро (то есть на само обучение),
- но заметное время тратится и на передачу данных с CPU на GPU (cudaMemcpyAsync).
Сократить это просто.
Изначально датасет состоит из пикселей в виде 8-битных целых чисел. Мы преобразуем их в 32-битные float’ы.
А потом именно эти float-тензоры гоняем на GPU. В итоге данных стало в 4 раза больше, а значит, и передача тяжелее.
Решение:
Сдвинуть шаг преобразования после передачи. То есть сначала передаём 8-битные int’ы, а уже на GPU конвертируем их в float.
В результате шаг передачи данных заметно ускорится.
Конечно, это работает не везде, например, в NLP мы изначально имеем дело с float-эмбеддингами.
Но в случаях, где это применимо, ускорение получается очень ощутимым.
👉 @PythonPortal
Визуальное объяснение интеграла
👉 @PythonPortal
Разработчик представил собственный open-source клон NotebookLM, который способен обрабатывать мультимодальные данные, собирать знания из разных источников и даже генерировать подкасты.
По словам автора, цель проекта не повторить оригинал, а разобраться, как работают современные инструменты для обучения и исследований, реализовав их шаг за шагом.
Функциональность впечатляет:
- обработка текста, аудио, видео, ссылок и роликов с YouTube;
- создание единой базы знаний и поиск по ней через RAG;
- система памяти, запоминающая диалоги и предпочтения пользователя;
- генерация подкастов с помощью локальной модели синтеза речи.
Весь проект полностью открытый и доступен на GitHub, а сборка работает локально, без облачных зависимостей.
👉 @PythonPortal
Наконец-то! Инструмент Text-to-SQL, который реально работает! 😎
Vanna это open-source фреймворк RAG для сложной генерации Text-to-SQL. Он умеет работать с динамическими данными и поддерживает кастомное обучение RAG-модели для повышения точности.
Полностью open-source
👉 @PythonPortal
В Python можно распаковывать последовательности с помощью *, чтобы работать с переменным количеством элементов. При этом * можно ставить в любом месте и он соберёт все лишние элементы в отдельную переменную.
a, b, c = 10, 2, 3 # Стандартная распаковка
a, *b = 10, 2, 3 # b = [2, 3]
a, *b, c = 10, 2, 3, 4 # b = [2, 3]
*a, b, c = 10, 2, 3, 4 # a = [10, 2]
Компания JetBrains на днях выпустила отчёт о состоянии экосистемы разработчиков в 2025 году. В нем приняли участие 24 534 разработчика из 194 стран
Некоторые выводы:
Наиболее используемый язык - Python
TypeScript демонстрирует самый впечатляющий рост в реальном использовании за последние пять лет. Rust, Go и Kotlin тоже постепенно укрепляют свои позиции, хотя их успехи не столь заметны, как у TypeScript.
А PHP, Ruby и Objective-C продолжают уверенно терять популярность.
Индекс Language Promise от JetBrains оценивает языки по трём критериям: рост, стабильность и готовность разработчиков их осваивать. Согласно этому индексу, в 2025 году наибольший потенциал роста демонстрируют TypeScript, Rust и Go, тогда как JavaScript, PHP и SQL, судя по всему, достигли стадии зрелости.
Список самых высокооплачиваемых разработчиков возглавлавила Scala — 38%, хотя этот язык является основным всего у 2% специалистов. Похоже, сказывается узкая специализация
👉 @PythonPortal
Визуализируй большие векторные данные в Python — БЫСТРО!
Надоели медленные и громоздкие инструменты для визуализации больших векторных датасетов в Python?
Открой для себя этот однострочный трюк с Leafmap + DuckDB, который позволяет мгновенно отрисовывать огромные векторные наборы данных, даже размером в гигабайты - прямо в Jupyter Notebook.
В этом видео ты узнаешь, как:
Без труда визуализировать миллионы векторных объектов
Использовать Leafmap + DuckDB для динамической выдачи векторных тайлов
Работать с GeoParquet, GeoPackage, данными из облака и не только
Создавать полностью интерактивные карты — без вылетов браузера
Пример ноутбука: https://leafmap.org/maplibre/duckdb_layer
👉 @PythonPortal
Изучай алгоритмы computer science наглядно
Этот онлайн-инструмент помогает разобраться с широким спектром алгоритмов через интерактивные визуализации.
Пошагово проходи выполнение каждого алгоритма, наблюдай, как изменяются структуры данных, и понимай логику каждой операции. 😑
👉 @PythonPortal
OpenAI выпустила Atlas новый браузер с искусственным интеллектом, который умеет запоминать контекст и работает в Agent Mode.
Что известно:
Atlas полностью интегрирован с ChatGPT и использует ChatGPT Search под капотом.
В Agent Mode браузер может сам ходить по сайтам, кликать, искать и выполнять действия.
Можно открывать неограниченное число вкладок с агентами — каждый живёт своей жизнью и решает отдельные задачи.
Atlas уже доступен для пользователей Free, Plus, Pro, Go и Business по всему миру.
Пользователи Enterprise и Education могут получить доступ к бете, если админ включит её. Также в разработке версии для Windows, iOS и Android.
Скачать можно на chatgpt.com/atlas
Надеемся, что пользователи Windows скоро тоже смогут оценить этот новый браузер в деле. 😎
👉 @PythonPortal
Совет по чистому коду в Python:
Избегай наивных datetime-объектов — всегда используй те, что учитывают часовой пояс.
Работай с ними в UTC, а пользователю показывай только в его локальной таймзоне.
import datetime
from zoneinfo import ZoneInfo
# BAD
now = datetime.datetime.now()
print(now.isoformat())
# 2025-10-21T15:03:07.332217
# GOOD
now = datetime.datetime.now(tz=ZoneInfo("UTC"))
print(now.isoformat())
# 2025-10-21T12:04:22.573590+00:00
print(now.astimezone().isoformat())
# 2025-10-21T15:04:22.573590+03:00
Пока дебажишь чужой код, мир начинает играть новыми красками
👉 @PythonPortal
Бесплатный курс от MIT для начинающих по основам компьютерных наук. В этих классических лекциях разбираются такие концепции, как дизайн языков программирования, абстракция и рекурсия: https://bit.ly/46zVDEy
👉 @PythonPortal
Python митап от Авито 27 октября в Москве! ☄
Вечером 27 октября вас ждут в офисе на Лесной, чтобы обсудить:
➡ кейс оптимизации GC в Python от Саши Федосеева, backend-инженера из команды Main Page Tech Авито;
➡ как mypy укрощает Python в большой компании вместе с Сергеем Яхницким из Яндекса.
После докладов, как и сказали выше, вместе с участниками спикеры обсудят, подходит ли Python для запуска больших нагруженных решений в формате круглого стола.
Для тех, кто не успевает вырваться из офиса или дома, будет онлайн-трансляция.
Так что не откладывайте, регистрируйтесь и зовите коллег — все подробности по ссылке
Как работать с requirements.txt и не запутаться в зависимостях
Когда Python-проект разрастается, в нём появляется десятки библиотек. Чтобы не ставить их вручную и не ломать окружение, используется файл requirements.txt - список всех зависимостей проекта.
Чтобы сохранить список установленных библиотек, достаточно одной команды:
pip freeze > requirements.txt
pip install -r requirements.txt
numpy==1.21.0 # строгая версия
pandas>=1.3.0 # версия не ниже указанной
requests # установится последняя
# Основные зависимости
numpy==1.21.0
pandas>=1.3.0
# Для тестов
pytest
# requirements.txt
-r base.txt
-r dev.txt
pip install -r requirements.txt -c constraints.txt
numpy==1.21.0
pandas
pandas<=1.3.5
requirements-dev.txt # разработка
requirements-test.txt # тесты
requirements-prod.txt # продакшен
pip install -r requirements-dev.txt
pip install --upgrade -r requirements.txt
python -m venv venv
source venv/bin/activate # macOS/Linux
venv\Scripts\activate # Windows
pip install -r requirements.txt