Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
Высшее на новом уровне: онлайн-магистратура от Яндекса и НИЯУ МИФИ для специалистов по работе с данными.
Здесь фундаментальные знания и практика для карьерного роста, а ещё — учёба, которую можно совмещать с работой и жизнью.
Всё о программе — на дне открытых дверей:
— Расскажем про разные траектории обучения и как после выпуска стать ML-инженером, CV-инженером, NLP-инженером, Data Scientist или Data Engineer.
— Обсудим, какие навыки будут у выпускников, чтобы соответствовать рынку и требованиям работодателей.
— Поговорим про поступление: сроки, экзамены, документы, оплата.
Спикеры:
Станислав Павлов, директор по AI, Positive Technologies.
Павел Рябов, академический руководитель программы, заместитель директора Института лазерных и плазменных технологий, НИЯУ МИФИ.
Антон Моргунов, Senior инженер по компьютерному зрению, Базис. Центр, академический руководитель программы, Яндекс Практикум.
Александр Югов, Curriculum Lead профессии «Инженер данных», Яндекс Практикум.
Библиотека Python для файнтюнинга Gemma 3! 🔥
Включает документы по файнтюнингу, шардингу, LoRA, PEFT, мультимодальности и токенизации в LLM.
100% открытый исходный код.pip install gemma
📌 Документация
⚡️ OpenDeepSearch (ODS) — это открытый поисковый агент, разработанный для интеграции с любыми большими языковыми моделями (LLM).
Он создан с целью демократизировать доступ к передовым поисковым технологиям, сократив разрыв между проприетарными решениями (например, Perplexity Sonar Reasoning Pro или GPT-4o-Search от OpenAI) и открытыми аналогами. ODS состоит из двух ключевых компонентов: Open Search Tool и Open Reasoning Agent, которые работают в связке для выполнения сложных поисковых и аналитических задач.
ODS с DeepSeek-R1 обходит GPT-4o-Search от OpenAI на бенчмарке FRAMES (+9.7% точности). Доступен для сообщества: код и статья уже на GitHub и arXiv! #AI #OpenSource #Search
▪Paper: https://arxiv.org/abs/2503.20201
▪ Code: https://github.com/sentient-agi/OpenDeepSearch
@data_analysis_ml
Авито представил новую стратегию внедрения генеративного искусственного интеллекта (GenAI)
К 2028 году компания планирует инвестировать в это направление 12 млрд рублей и заработать более 21 млрд рублей.
🤖 Что это значит?
Авито презентовал свои собственные генеративные модели — A-Vibe и A-Vision, которые работают с текстом и изображениями соответственно. Модели обучены на базе нейросети Qwen2.5 с 7 млрд параметров и специализируются на задачах, связанных с покупкой и продажей. Например, A-Vibe помогает создавать качественные и лаконичные описания товаров, а A-Vision анализирует фотографии и повышает качество визуального контента.
Кроме того, в 2024 году Авито запустила магистратуру по Data Science в МФТИ. В сентябре 2025 года стартуют еще три новые программы: по разработке в ИТМО, Data Science и продуктовому менеджменту в НИУ ВШЭ.
🛠 Почему это важно?
Использование GenAI не только улучшает взаимодействие пользователей с платформой, но и приносит реальную экономическую выгоду. Уже в 2024 году первые запуски продуктов с использованием GenAI принесли компании 670 млн рублей. А в 2025-м запланировано внедрение 20 новых сценариев использования GenAI с потенциалом заработка более 1 млрд рублей.
@data_analysis_ml
Что такое torch.nn на самом деле?
Когда я начинал работать с PyTorch, мой самый большой вопрос был: "Что такое torch.nn?".
Эта статья довольно хорошо объясняет это.
📌 Читать
🔥 Hugging Face выпустила версию 0.30.0 библиотеки huggingface_hub - это самое крупное обновление за два года!
Представлены значительные улучшения, особенно в области хранения и обработки больших моделей и датасетов.
✔️ Основные нововведения:
Интеграция с Xet: Внедрена поддержка Xet — передового протокола для хранения крупных объектов в Git-репозиториях, призванного заменить Git LFS.
В отличие от LFS, который выполняет дедупликацию на уровне файлов, Xet работает на уровне фрагментов данных, что особенно полезно для специалистов, работающих с массивными моделями и датасетами.
Для интеграции с Python используется пакет xet-core,
написанный на Rust, который обрабатывает все низкоуровневые детали.
Чтобы начать использовать Xet, установите дополнительную зависимость:pip install -U huggingface_hub[hf_xet]
После установки вы сможете загружать файлы из репозиториев, поддерживающих Xet.
Доплнительно:
😶 Расширен InferenceClient:
😶 Добавлена поддержка новых провайдеров для инференса: Cerebras и Cohere.
😶 Внедрены асинхронные вызовы для задач инференса (например, text-to-video), что повышает стабильность и удобство работы.
😶 Улучшен CLI
😶 Команда huggingface-cli upload теперь поддерживает wildcards (шаблоны) прямо в пути к файлам (например, huggingface-cli upload my-model *.safetensors вместо опции --include).
😶 Команда huggingface-cli delete-cache
получила опцию --sort для сортировки кэшированных репозиториев (например, по размеру: --sort=size
).
✔️ Полный список обновлений
✔️Блог
✔️Документация по Xet
@ai_machinelearning_big_data
#huggingface #release #xet
📌Пройдите тест из 9 вопросов и проверьте, насколько вы готовы к обучению на курсе «BI-аналитика» от OTUS.
Вы научитесь на курсе:
+ Визуализировать данные с помощью Power BI, Tableau и Analytic Workspace.
+ Создавать интерактивные дашборды и аналитические панели на Python в Dash, Numpy, Pandas, Matplotlib, Seaborn и Plotly.
+ Работать с Big Data и использовать решения с открытым исходным кодом в BI-аналитике.
+ Работать с DAX-формулами.
+ Обрабатывать и трансформировать данные в Power Query, создавать модели данных в Power Pivot.
🦉В честь дня рождения Отус, скидка 10% до 01.04
🎁Так же промо-код на курс «BI-аналитика» со скидкой 5% (суммируется на сайте):
BI_04 до 18.05. Успейте купить выгодно!
👉ПРОЙТИ ТЕСТ: https://otus.pw/8QNY/?erid=2W5zFJGJRLU
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
#реклама
О рекламодателе
🖼Pyramid Flow — это метод авторегрессионной генерации видео на основе Flow Matching, оптимизированный для обучения и генерации видео с высоким разрешением и частотой кадров.
💡 Данный проект позволяет генерировать видеоролики длительностью до 10 секунд с разрешением 768p при 24 кадрах в секунду. Метод использует гибкость flow matching для интерполяции между латентными состояниями различных разрешений и уровней шума, что обеспечивает генерацию и декомпрессию визуального контента с меньшими вычислительными затратами.
🔍 Основные возможности Pyramid Flow включают:
🌟 Генерация текста-видео: можно создавать видео по текстовым описаниям, управляя визуальными параметрами
🌟 Преобразование изображений в видео: модель поддерживает генерацию видео на основе начального изображения, с возможностью добавления движения и динамики
🌟 Разрешение и производительность: поддерживается два варианта — 384p и 768p, для которых требуется примерно 26 и 40 ГБ видеопамяти соответственно
🌟 Модели и исходный код доступны на платформе Huggingface и могут быть использованы для дальнейших экспериментов и обучения
🔐 Лицензия: MIT
🔗 Huggingface: *клик*
📖 Arxiv: *клик*
▪️Github
@data_analysis_ml
🖥 Как установить Deep Seek локально с помощью Ollama LLM в Ubuntu 24.04
Подробное руководство от TecMint, демонстрирующее, как установить и запустить модель DeepSeek локально на Linux (Ubuntu 24.04) с использованием Ollama.
Гайд охватывает все этапы установки: обновление системы, инсталляцию Python и Git, настройку Ollama для управления DeepSeek, а также запуск модели через командную строку или с помощью удобного Web UI.
▪ Руководство также включает инструкции по автоматическому запуску Web UI при старте системы через systemd, что делает работу с моделью более комфортной и доступной.
Подойдет для тех, кто хочет исследовать возможности работы с крупными языковыми моделями без привязки к облачным сервисам, обеспечивая полный контроль над моделью и её настройками.
▪ Читать
AI-агенты для девелоперской компании
ГК ФСК, крупный российский девелопер, столкнулся с проблемой обработки массивов данных. Техническая документация часто обновляется, из-за чего сотрудникам и клиентам сложно получить доступ к актуальной информации. Чтобы решить проблему, red_mad_robot внедрили смарт-платформу с двумя AI-агентами на базе RAG:
Для клиентов: AI-ассистент в чат-боте сайта обрабатывает запросы и выдаёт актуальные ответы на вопросы о квартирах (включая детали вроде панорамных окон), ипотеке и акциях.
Для сотрудников: Внутренний AI-агент, интегрированный с корпоративными системами, позволяет команде поддержки и продаж находить нужные данные (регламенты, детали ЖК).
Подробнее о технических деталях кейса можно почитать в статье на Хабр.
🎉 Выпущен Техрепорт Wan! 🚀
📖 https://arxiv.org/abs/2503.20314
Wan 2.1 — это открытый инструмент для генерации видео от Alibaba.
В отчете описана архитектура модели, конвейер обработки данных, обучение модели, повышение ее эффективности, алгоритм редактирования видео и т. д.
🟢Официальный сайт: https://wan.video
🟢Github: https://github.com/Wan-Video/Wan2.1
🟢HF: https://huggingface.co/Wan-AI
🟢Modelscope: https://modelscope.cn/organization/Wan-AI
#WAN #OpenSource #VideoGeneration
Всем привет! Мы собираем команду для запуска AI-экспериментов в Екоме и Райдтехе Яндекса.
Наша цель — создать пространство для инженеров и продактов, которые хотят запускать эксперименты и видеть быстрые бизнес-результаты. Откликайтесь, если вы хотите реализовать свои идеи в крупном бизнесе, и у вас есть успешный опыт в запуске проектов с искусственным интеллектом!
Рассмотрим ваши идеи и найдем им лучшее применение в проектах. Присоединяйтесь к нам, чтобы вместе создавать будущее! 💡✨
Для отклика пишите Эльмире: @mirafedya
🤖 Awesome Weekly Robotics
Репозиторий Awesome Weekly Robotics на GitHub, представляет собой большую коллекцию проектов, инструментов и ресурсов по робототехнике с открытым исходным кодом.
🔗 Github
⚡️ Проект 3DGRUT представляет собой набор официальных реализаций методов 3D Gaussian Ray Tracing (3DGRT) и 3D Gaussian Unscented Transform (3DGUT).
💡 Основная идея:
Проект предлагает альтернативный подход к традиционному рендерингу, основанный на трассировке лучей, где вместо точечных лучей используются объёмные гауссовы частицы. Это позволяет моделировать сложные эффекты, например, камеры с искажениями (роллинг-шаттер) и временные эффекты.
⚙️ Гибридный подход:
3DGRUT объединяет преимущества растеризации и трассировки лучей – первичные лучи можно рендерить быстро через растеризацию, а вторичные лучи обрабатываются с помощью трассировки, что повышает гибкость и производительность.
🚀 Текущая стадия:
Проект находится на стадии альфа-версии. Он включает демонстрационную среду (Playground) для тестирования и экспериментов, а также предоставляет подробные инструкции по установке, настройке и запуску.
🔧 Требования и установка:
Для работы проекта требуется Python (3.10+), соответствующие зависимости, а также поддержка OpenGL и других библиотек. В репозитории описаны команды для установки необходимых пакетов и запуска тренировочного процесса.
Проект предназначен для исследователей и разработчиков, желающих экспериментировать с новыми методами рендеринга, а также для тех, кто интересуется интеграцией современных подходов в компьютерную графику.
📌 Github
@data_analysis_ml
А вот и Gemini 2.5 Pro Experimental — самая интеллектуальная модель Google
Теперь это лучшая не ризонинг модель, которая опередила на бенчмарках Sonnet 3.5.
Без оптимизаций Gemini 2.5 Pro Experimental лидирует в таких математических и научных бнчмарках GPQA и AIME 2025.
Кроме того, модель набрала 18,8 % баллов на последнем экзамене человечества.
💡Это экспериментальный релиз демонстрирует передовые результаты во многих бенчмарках и прекрасно справляется со сложными задачами и предоставлять более точные ответы.
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro
#google #Gemini
🤖 Open-Arm— это инициатива, направленная на создание открытой экосистемы для разработки на базе микроконтроллеров ARM, в частности, семейства Cortex-M.
Основная идея — предоставить полностью открытые (open source) аппаратные и программные средства, документацию и сообщество для всех, кто хочет работать с ARM-микроконтроллерами, избегая ограничений и лицензионных отчислений, связанных с проприетарными инструментами и платформами.
Ключевые аспекты и цели проекта:
▪️ Открытое Оборудование (Open Hardware): Разработка и публикация схем, печатных плат (PCB) и другой документации для отладочных плат и периферийных устройств на базе ARM Cortex-M. Это позволяет любому производить, модифицировать и изучать аппаратную часть.
▪️ Открытое Программное Обеспечение (Open Source Software): Создание и поддержка открытых библиотек, драйверов, операционных систем реального времени (RTOS) и инструментов разработки (компиляторы, отладчики, SDK), которые не привязаны к конкретному производителю чипов или инструментов.
▪️ Доступность и Образование: Сделать разработку на ARM Cortex-M более доступной для студентов, хоббистов, исследователей и малого бизнеса, снижая порог входа за счет бесплатных и открытых инструментов и подробной документации.
▪️ Независимость от Вендоров: Предоставление альтернативы экосистемам конкретных производителей (например, STMicroelectronics STM32Cube, NXP MCUXpresso), чтобы пользователи не были "заперты" на инструментах или чипах одного поставщика.
open-arm.org
@data_analysis_ml
А и В сидели на трубе,
А упало, В пропало, кто остался на трубе?
Грустный продуктовый аналитик.
Чтобы никто не грустил, мы запускаем онлайн-серию технологических митапов от hh.ru
Первая встреча состоится 15 апреля. Спикерами будут специалисты hh.ru, Туту и Ozon. Что будут рассказывать? Не темы, а просто находки!
• Как Process mining помогает улучшить процесс принятия решений в A/B-тестах;
• Как в hh.ru устроен пайплайн-расчет ETL в A/B-тестах;
• A/B-тестирование, как метод полного контроля за принятием решений.
✔️ Runway выпустили Gen-4 — это версия, в которой значительно улучшено качество, динамика движения и управляемость генерациями.
- Улучшенная точность и динамика: Gen-4 позволяет генерировать видео с более реалистичным движением, сохраняя при этом согласованность стилей, объектов и сюжетных линий.
- Контроль и согласованность: С помощью визуальных референсов и инструкций пользователи могут создавать контент с одними и теме же стилями, персонажами и локациями, что идеально подходит для повествовательных историй.
- Поддержка физики и реализма: Модель способна лучше симулировать реальную физику, что делает сгенерированные сцены более правдоподобными.
@data_analysis_ml
Данные и облака — наше все 🧠
На конференции GoCloud ты найдешь новые знания об инструментах обработки данных.
Обсудим интеграцию AI в аналитические процессы и тренды облачных технологий. А еще:
😶🌫️покажем инструменты для упрощения процесса обработки данных
😶🌫️поговорим с компаниями, которые уже работают с данными в облаке
😶🌫️возможные риски потери данных и способы их предотвращения
😶🌫️покажем архитектуру DBaaS поверх K8s
30+ докладов, нетворкинг, live-демо сервисов и afterparty ждут тебя 10 апреля.
Регистрация по ссылке 👈
Хакатон от МТС: 5 треков и 1 500 000 рублей. Для тех, кто готов воплотить идею в прототип
Приглашаем на хакатон МТС True Tech Hack 2025. Протестируй свои идеи и разработай решение на базе одной из пяти ИТ-платформ МТС.
Призовой фонд соревнования — 1 500 000 рублей.
Участие могут принять системные аналитики, Data Scientists, Data Engineers, frontend и backend-разработчики, Android-разработчики, бизнес-аналитики, аналитики данных, MLOps-инженеры, DevOps-инженеры, Product-менеджеры, ИТ-архитекторы, UI/UX-дизайнеры.
На хакатоне ты сможешь:
— Выбрать свой трек и создать решение на базе ИТ-платформ МТС.
— Побороться за призовой фонд — 1 500 000 рублей.
— Расширить свои профессиональные связи через нетворкинг с участниками хакатона и экспертами МТС.
— Повысить шансы на прохождение стажировки в МТС.
— Узнать больше о продуктах и технологиях МТС от экспертов компании
Регистрация до 16 апреля.
Регистрируйся прямо сейчас: https://truetechhack.ru/
❓ LLaMA 4 уже на подходе?
На LMSYS Arena появились новые модели под названием “Spider” и “Cybele"
Также появилась модель, которая, судя по всему, принадлежит Google и называется Moonhowler.
@data_analysis_ml
🔥 No Ghibli Chrome Extension
Весь X/twitter завален конентом с генерациями в стиле Ghibli,
если вам надоел такой контент, умельцы создали Chrome расширение с открытым исходным кодом для удаления таких твитов.
📌 Github
@data_analysis_ml
🤖 Awesome-robot-descriptions - тщательно подобранный список описаний роботов в форматах URDF, Xacro и MJCF.
Эти описания охватывают широкий спектр роботов: от манипуляторов и гуманоидов до дронов и мобильных манипуляторов. Каждое описание включает информацию о производителе, формате файла, лицензии и наличии визуализаций, инерций и коллизий.
Форматы URDF (Unified Robot Description Format), Xacro и MJCF (MuJoCo XML) используются для описания кинематических и динамических характеристик роботов.
Эти описания необходимы для симуляции, планирования движений и управления роботами в различных программных средах.
▪ GitHub
OpenAI’s New Image Generator: An AI Revolution!
⚡️ Видео
⚡️ Этот гайд демонстрирует, как использовать Florence 2 с Ultralytics YOLO для обнаружения объектов, сегментации изображений и создания визуализаций на основе текстовых промпов, например, для создания подписей к изображениям.
Microsoft выпустила модель Florence-2 в прошлом году. Это мощная CV модель зрения, которая использует подход, на подсказках, для решения широкого спектра задач, связанных со зрением и языком зрения. Она может интерпретировать простые текстовые подсказки для выполнения таких задач, как создание надписей, обнаружение объектов и сегментация.
Для обучения в гайде используется набор данных FLD-5B, содержащий 5,4 миллиарда аннотаций к 126 миллионам изображений.
📌 Гайд
📌 Colab
@data_analysis_ml
🌟 ChatTTS — генеративная text2speech модель с упором реалистичность
import ChatTTS
from IPython.display import Audio
chat = ChatTTS.Chat()
chat.load_models()
texts = ["<PUT YOUR TEXT HERE>",]
wavs = chat.infer(texts, use_decoder=True)
Audio(wavs[0], rate=24_000, autoplay=True)
🔥 В chat.qwenlm.ai chat теперь доступны голосовой режим + режим видеочата
Более того китайцы выложили код своей Qwen2.5-Omni-7B - единой omni-модели, которая может понимать текст, аудио, изображение и видео.
Они разработали архитектуру "thinker-talker", которая обеспечивает одновременное размышление модели и ее разговор .
Вскоре обещают выпустить в опенсорс модели на еще большее количество параметров.
Просто топ, бегом тестить.
🟢Попробовать: https://chat.qwenlm.ai
🟢Paper: https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
🟢Blog: https://qwenlm.github.io/blog/qwen2.5-omni
🟢GitHub: https://github.com/QwenLM/Qwen2.5-Omni
🟢Hugging Face: https://huggingface.co/Qwen/Qwen2.5-Omni-7B
🟢ModelScope: https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
@ai_machinelearning_big_data
#qwen #release #Omni
Капибарам нужна ваша помощь на T-CTF
У них лапки, и они не могут защитить код от уязвимостей. Выручите их на ИТ-соревновании от Т-Банка с шансом выиграть приз до 420 000 ₽.
Без навыков в ИТ тут не обойтись — задания рассчитаны на разработчиков, QA- и SRE-инженеров, аналитиков и других ИТ-специалистов уровня middle и senior.
Вот что вас ждет:
— Выберите Лигу Разработки или Лигу Безопасности по своим скиллам. Если участвуете впервые, можно потренироваться на демозаданиях.
— Соревнуйтесь один или в команде до 3 человек. Организаторы помогут найти команду, если нет своей.
— Подключайтесь онлайн или приходите офлайн — в ИТ-хаб Т-Банка в одном из 6 городов России.
— Решайте задания по спортивному хакингу — для этого у вас будет 36 часов.
Соревнование пройдет 19 и 20 апреля.
Попробуйте свои силы — успейте зарегистрироваться до 18 апреля.
Реклама. АО «ТБанк», лицензия ЦБ РФ № 2673, erid:2RanymxoPwF
🖥 Aiopandas - легковесный патч для Pandas, который добавляет нативную async поддержку для самых популярных методов обработки данных: map, apply, applymap, aggregate и transform.
Позволяет без проблем передавать async функции в эти методы. Библиотека автоматически запустит их асинхронно, управляя количеством одновременно выполняемых задач с помощью параметра max_parallel
.
✨ Ключевые возможности:
▪ Простая интеграция: Используйте как замену стандартным функциям Pandas, но теперь с полноценной поддержкой async функций.
▪ Контролируемый параллелизм: Автоматическое асинхронное выполнение ваших корутин с возможностью ограничить максимальное число параллельных задач (max_parallel). Идеально для управления нагрузкой на внешние сервисы!
▪ Гибкая обработка ошибок: Встроенные опции для управления ошибками во время выполнения: выбросить исключение (raise), проигнорировать (ignore) или записать в лог (log).
▪ Индикация прогресса: Встроенная поддержка tqdm для наглядного отслеживания процесса выполнения долгих операций в реальном времени.
🖥 Github: https://github.com/telekinesis-inc/aiopandas
#python #pandas #asyncio #async #datascience #программирование #обработкаданных #асинхронность
🔥Вышел новый ИИ-тренер для геймеров от Nvidia: G-Assist
Это ваш бесплатный оффлайн-компаньон, который поможет:
🎮 Оптимизирует настройки игры под ваш ПК
⚔️ Подбирает билды для боссов, данжей и Dota
🎧 Управляет музыкой в Spotify
🤖 Работает локально, но можно подключить API Gemini
💬 Общение через текст или голос
G-Assist бесплатнен для всех пользователей.
https://www.nvidia.com/en-us/geforce/news/g-assist-ai-companion-for-rtx-ai-pcs/