data_analysis_ml | Неотсортированное

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Подписаться на канал

Анализ данных (Data analysis)

Microsoft уволит 9 000 сотрудников — это примерно 4% от общего числа работников компании.

Очевидно, что ИИ действительно делает людей ненужными. И это уже не просто громкие заявления.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Интелион Облако запускает розыгрыш 🎉

Главный приз – 3 сервера с А10 или А5000. Также разыгрываются приятные скидки.

Запусти нейросеть, рендер, LLM или сложные вычисления на топовом GPU за 1 рубль!

Как принять участие:
1. Зарегистрироваться на Intelion.cloud
2. Заполнить форму розыгрыша
3. Подписаться на ТГ канал

Итоги подведем 5 июля в прямом эфире в канале Artificial Intelion.
Не забудь поделиться с другом!

Читать полностью…

Анализ данных (Data analysis)

🧠 Хочешь понять, на чём основана модель Gemma 3n от Google?

Вот ключевые научные работы, стоящие за её архитектурой и обучением:

🔹 AltUp — улучшение аппроксимации внимания
https://arxiv.org/abs/2301.13310

🔹 LAuReL — расширение языковых моделей за счёт многоязычного претрейнинга
https://arxiv.org/abs/2411.07501

🔹 MatFormer — матричная факторизация для масштабируемых LLM
https://arxiv.org/abs/2310.07707

🔹 Activation Sparsity — обучение моделей с разреженной активацией
https://arxiv.org/abs/2506.06644

🔹 Universal Speech Model — единая модель для понимания и генерации речи
https://arxiv.org/abs/2303.01037

📘 Блог Google с обзором архитектуры и практическим гайдом по Gemma 3n:
https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/

Читать полностью…

Анализ данных (Data analysis)

miniDiffusion — упрощённая реализация Stable Diffusion 3.5 на PyTorch

🔹 Этот репозиторий — минималистичный, но рабочий аналог Stable Diffusion:
всего ~2800 строк кода, без лишних зависимостей.

📦 Что внутри:
• Архитектура DiT (Diffusion Transformer)
• Кодировщики: T5 (текст) и CLIP
• VAE для генерации изображений
• Attention, Noise Scheduler и FID-оценка качества

🧪 Зачем это нужно:
• Понять, как работает диффузионная генерация
• Экспериментировать с архитектурой
• Обучать и тестировать свои модели

▶️ Быстрый старт:


git clone https://github.com/yousef-rafat/miniDiffusion
pip install -r requirements.txt
python3 encoders/get_checkpoints.py


📌 Github

Читать полностью…

Анализ данных (Data analysis)

Apple выложила Sage Mixtral 8x7B fine-tune с лицензией Apache

💡 Это не просто ещё одна доработка LLM — модель использует State-Action Chains (SAC), чтобы встроить в диалоговую генерацию латентные переменные для эмоций и стратегий общения.

Что это даёт:
- SAC vs обычный fine-tune: модель получает грубое управление через state/action токены → диалоги становятся эмоционально насыщеннее, без потери на метриках
- Итеративная доработка: self-play + tree search позволяют оптимизировать диалоги по цепочкам действий, превзойдя базовые модели по оценкам LLM-судей

🔗 https://huggingface.co/apple/sage-ft-mixtral-8x7b

#apple #opensource

Читать полностью…

Анализ данных (Data analysis)

✔️ Alibaba Group представила обновленный Qwen-TTS для английского и китайского языков.

Qwen обновила свой синтезатор речи Qwen-TTS, его обучали на миллионах часов аудиозаписей. Новая версия адаптирует интонацию, ритм и эмоции под контекст текста и приближает звучание к человеческому. Добавили 3 китайских диалекта и поддержку 7 двуязычных голосов (Cherry, Ethan, Jada и др.).

Тесты в SeedTTS-Eval показали высокую точность (WER 1.209) и естественность (SIM 1.967). Модель доступна только через API. В будущем обещают новые языки и стили речи.
qwenlm.github.io

✔️ Исследование: как ИИ-поисковики меняют правила видимости веб-контента.

Совместное исследование ERGO Innovation Lab и ECODYNAMICS показало, что ИИ-системы не просто выдают популярные ссылки, они анализируют структуру, читаемость и ясность контента. Это ставит под сомнение традиционные методы SEO в для традиционных сайтов.

Аналитики изучили 33 тыс. запросов и 600 сайтов из области услуг страхования. Результат: LLM оценивают не только ключевые слова, но и логичность подачи информации, удобство навигации и глубину раскрытия темы.

Специалисты советуют пересмотреть стратегии: упростить тексты, структурировать данные и адаптировать контент под агентные системы. Чем раньше компании пересмотрят свои SEO-стратегии, тем выше вероятность оставаться на виду, когда алгоритмы станут сложнее. Полную версию отчета можно почитать по ссылке.
ergo.com

✔️ OpenAI и компания Марка Цукерберга борются за кадры.

Конкуренция за лучших специалистов в сфере ИИ достигла критической точки. После того как компания Цукерберга переманила 4 ключевых сотрудников OpenAI для работы над «суперинтеллектом», глава исследований Марк Чэн призвал команду Сэма Альтмана оставаться верной компании, пообещав пересмотреть зарплаты и улучшить условия.

По данным источников, Цукерберг предлагает бонусы до $100 млн и лично контактирует с потенциальными кандидатами. Внутри OpenAI сотрудники жалуются на перегрузки, многие работают по 80 часов в неделю. В ответ на агрессивный хэдхантинг, Open AI объявила о «перезагрузке» на неделю, при этом напомнив, что из главная цель - развитие ИИ, а не соревнование с конкурентами.
wired.com

✔️ Microsoft создала ИИ-систему для диагностики, превосходящую врачей.

Microsoft разработала ИИ-инструмент MAI-DxO, который в 4 раза эффективнее опытных врачей в решении сложных диагностических задач. Система использует «оркестратор», создавая сеть из 5 ИИ-агентов, выполняющих роли от генератора гипотез до выбора тестов, которые взаимодействуют и «спорят» для принятия решений.

Тестирование на 304 сложных клинических случаях из NEJM показало точность 85,5% при использовании OpenAI o3 — против 20% у людей без доступа к справочникам или коллегам. Технология может быть интегрирована в Copilot и Bing, которые суммарно обрабатывают около 50 млн. медицинских запросов ежедневно.
ft.com

✔️ Роботы-гуманоиды впервые сыграли в футбол без участия людей.

В минувшую субботу, в Пекине прошел первый в Китае турнир по футболу полностью автономных роботов-гуманоидов. Команда университета Циньхуа победила в финале, обыграв соперников из сельскохозяйственного университета со счетом 5:3. Обе команды использовали одинаковое оборудование от Booster Robotics, но разрабатывали собственные алгоритмы для управления зрением, балансом и движениями.

Матч стал испытанием для технологий: роботы падали, теряли равновесие, а иногда их приходилось уносить на носилках - все это помогает тестировать системы управления и безопасности перед массовым внедрением. Организаторы назвали матч "трейлером" предстоящих Всемирных игр роботов в августе, где будут представлены 11 видов спорта.
bloomberg.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Когда с первого взгляда ясно — статья огонь.

Иллюстрация различий между: unsupervised learning, supervised fine-tuning и RLHF из тех репорта ERNIE.

@data_analysis_ml


#ERNIE #Baidu

Читать полностью…

Анализ данных (Data analysis)

🔥 Дженсен Хуанг (CEO NVIDIA): «Я желаю вам боли и страданий»

Жёсткое, но честное заявление от главы одной из самых влиятельных технологических компаний мира:

> «Говорят: выбирай карьеру по страсти. И обычно люди связывают страсть с удовольствием. Это не ошибка… но это не всё. Потому что создать что-то великое — непросто. А когда делаешь что-то сложное, тебе не всегда приятно.»

🧠 Хуанг признаётся: он не любит каждый день своей работы и не всегда счастлив,
но *каждую секунду любит свою компанию*.

> «Многие думают, что лучшая работа — та, где ты всегда счастлив. Я так не считаю.
> Нужно страдать. Нужно бороться. Нужно преодолевать.
> Только так можно по-настоящему ценить то, что ты сделал.
> Нет ничего великого в легком.»

🎯 И добавляет:
> «Я желаю вам величия. А значит — желаю вам боли и страданий.»

Это не мотивация в розовых тонах. Это правда тех, кто строит настоящее.
Успех — не про постоянный комфорт, а про постоянное преодоление.

💬 А вы согласны с таким взглядом на дело жизни?

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚨 Цукерберг переманил ещё 4 исследователей из OpenAI

По сообщениям, Meta усилила свою AI-команду, наняв сразу четырёх топовых специалистов из OpenAI:

• Shengjia Zhao
• Jiahui Yu
• Shuchao Bi
• Hongyu Ren

Все четверо работали над ключевыми направлениями reasoning, мультимодальности и архитектурой LLM.

💬 Zuck be like: *“If you can’t beat them — just buy their team.”*

Meta продолжает агрессивную AI-экспансию после неудачного старта Llama 4 и явно собирается реваншироваться.

📌 Подробности

#openai #ai #llm #zuckerberg #research #technews

Читать полностью…

Анализ данных (Data analysis)

🧠 FlexAttention — простой способ писать любое внимание на PyTorch

Зачем городить сложные CUDA-ядра, если можно использовать понятный и мощный абстрактный подход?

FlexAttention — это новая модель программирования, которая позволяет реализовать большинство вариантов attention (внимания) всего в *нескольких строках кода на PyTorch*.

⚙️ Работает на базе компилятора — автоматически оптимизирует вычисления
🚀 Производительность на уровне кастомных ядер (hand-written kernels)

📌 Что даёт FlexAttention:
• Унифицированный способ писать self-, cross-, local-, sparse-attention
• Без кастомных CUDA/CPP — всё на чистом PyTorch
• Гибкость и читаемость для исследований и прототипов

🎥 Смотреть

Читать полностью…

Анализ данных (Data analysis)

✔️Qwen VLo — новый мультимодальный ИИ от Alibaba, который заточен на понимание и генерацию изображений

📌Как работает:
Модель поэтапно строит изображение слева направо и сверху вниз, уточняя детали на каждом шаге. Это делает итоговую картинку качественной, естественной и согласованной.

Например, можно написать запрос:
«Сделай картинку милого кота» — и она появится.
А можно загрузить фото кота и попросить: «Добавь коту шапку» — и модель отредактирует изображение.

🎯 Что умеет Qwen VLo:
Точная генерация: не путает объекты, сохраняет структуру, меняет, например, цвет машины на фото без искажений
Редактирование по команде: «Сделай фото в стиле Ван Гога» или «добавь солнечное небо» — всё выполняется по инструкции
Глубокое понимание: может обрабатывать сложные задачи — выделение объектов, сегментация, редактирование текста и фона
Мультиязычность: понимает запросы на английском, китайском и других языках — просто опишите, что нужно

🧪 Сейчас Qwen VLo доступна в виде превью через Qwen Chat.

👉 Попробовать: https://chat.qwen.ai
👉 Детали: https://qwenlm.github.io/blog/qwen-vlo/

@ai_machinelearning_big_data

#Qwen #Alibaba #ai #genai #ml

Читать полностью…

Анализ данных (Data analysis)

🧠 FLUX.1 Kontext-Dev: текстовое редактирование изображений на новом уровне

Открытая AI-модель, которая позволяет редактировать изображения по текстовой инструкции, сохраняя структуру, стиль и контекст. Всё работает прямо в браузере или локально через Diffusers.

📦 Что умеет FLUX.1 Kontext:

• 🎨 Менять фон, стиль, объекты на изображении по описанию
• 🔁 Поддерживать итеративные изменения — можно вносить правки шаг за шагом
• 🧍‍♂️ Сохранять форму и позу персонажей даже после множественных трансформаций
• ⚡️ Работает на основе rectified flow transformers и guidance distillation — быстрее и компактнее аналогов

🛠 Как пользоваться:

1. Открыть демо: [huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev](https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev)
2. Загрузить своё изображение
3. Ввести текстовую инструкцию, например:
make it sunset, add snow, make character look older
4. Получить новое изображение — и при необходимости продолжить редактирование

🔌 Интеграции:

• Поддержка Diffusers, ComfyUI, API через bfl.ai и Replicate
• Модель доступна под некоммерческой лицензией
• Подходит для локального запуска на GPU (`torch_dtype=torch.bfloat16`)

🎯 Кому это полезно:

• Дизайнерам и художникам — быстрый визуальный прототипинг
• AI-разработчикам — для создания RAG-интерфейсов с визуальной обратной связью
• Исследователям — для тестирования новых подходов к in-context image editing

🚨 Про безопасность:

Модель включает базовые фильтры генерации. Для продакшена рекомендованы расширенные фильтры (например, Hive) и собственные слои модерации.

📌 Вывод:

FLUX.1 Kontext-Dev — это не просто генератор, а полноценный AI-инструмент для интерактивного и контролируемого редактирования изображений. Идеален для творческих задач, UX-прототипов и изучения мультимодальных AI-сценариев.

#ai #diffusers #imageediting #flux1 #huggingface

📌Код
📌 Веса

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📌 State of Foundation Models 2025 — краткое изложение отчёта Innovation Endeavors

Венчурный фонд Innovation Endeavors, основанный бывшим CEO Google Эриком Шмидтом, выпустил 126-страничный обзор о состоянии и тенденциях фундаментальных ИИ-моделей в 2025 году.

🟢 2025 — год, когда генеративный ИИ стал по-настоящему массовым.

Каждый восьмой работник на планете использует ИИ-инструменты хотя бы раз в месяц, а 90 % прироста аудитории произошло за последние полгода. Многие «ИИ-приложения» уже приносят индустрии миллиарды долларов в год, охватывая инженерию, дизайн, бухгалтерию, юриспруденцию и другие сферы.

🟠LLM уже обходят людей на сложных тестах.

Современные языковые модели превосходят врачей по целому ряду диагностических задач и решают олимпиадную геометрию лучше, чем 99 % людей.

Самое неожиданное: если дать небольшой модели время подумать, то она может обойти гораздо более крупную – эксперименты показали, что 3B-модель с reasoning-механизмом обойдет 70B-модель.


🟠По всем техническим метрикам масштаб моделей растет экспоненциально.

Производительность, интеллект и окна контекста увеличиваются более чем в 10× каждый год. Например, окна контекста выросли примерно с 8 тысяч до миллиона токенов, а стоимость генерации одного токена на крупных моделях упала почти в 1000 раз за пару лет. Средняя «длительность» задачи, которую модель может завершить сама, удваивается примерно каждые 7 месяцев.

🟠 Эксперты резюмируют: «умные модели сначала думают, потом говорят».

Модели рассуждения, обученные через CoT, дают новый путь к масштабированию и требуют активного посттренинга (RL с reward-моделями). Возможно, скоро именно дообучение станет важнее предобучения.

🟠 Экономика фундаментальных моделей запутана.

Крупнейшие игроки генерируют сотни миллионов выручки, но обучение топ-моделей дороже: LLaMA 4 ≳ $300 млн, GPT-4 ≈ $100 млн, а совокупные расходы OpenAI на обучение и данные достигают ~$3 млрд в год. Новая модель устаревает за три недели — конкуренция так высока, что open-source почти сравнялся с закрытыми платформами.

🟠Структура команд меняется под давлением ИИ.

Выяснилось, что функции «узких» специалистов часто уходят к универсалам с ИИ-ассистентам, а профессии уровня "middle management" вымирают.

🟠 MCP становится стандартом интеграции.

Model Context Protocol соединяет модели с почтой, дизайном, чатами и другими сервисами, а «клиентом» всё чаще выступает другой ИИ: крупные CRM и базы данных само-настраиваются через агентов.

🟠 Железо не отстаёт.

В ИИ-облаках важнее продавать «сырые» GPU-часы, чем комплексное ПО; допвремя на GPU обычно выгоднее оптимизаций. NVIDIA остаётся безусловным лидером: отчёт Q1 зафиксировал 10× генерации токенов на инференсе за год. Появилась волна стартапов с трансформер-чипами — теперь переписывать ИИ-ПО под новое железо оправдано: вычислительные затраты многократно превышают зарплаты инженеров.

🟠 Капитал хлынул в ИИ.

Доля венчура выросла с 10% в 2024 до 50+% в 2025. Компании вроде Anthropic показывают $2 млрд годового дохода с двукратным ростом, но их оценивают в 30 годовых выручек, что вызывает опасения перегрева. Некоторые стартапы привлекают инвестиции ещё на этапе идеи, без MVP, усиливая риски "пузыря".

🟠 Осторожнее с трендами:

75 % ИИ-фото-приложений потеряли основную выручку всего за полгода после пика, напоминая, что не каждое модное направление = устойчивый бизнес, тем более когда модели устаревают с космической скоростью.


Полный отчёт
Видео

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Fireplexity — открытый аналог Perplexity

Простой движок вопросов и ответов на базе ИИ.
Работает через два основных эндпоинта:

/search — выполняет поиск по интернету
/scrape — извлекает текст со страниц

Ответы ИИ формируются на основе найденной информации и включают ссылки на источники.
Можно использовать как готовый сервис или собрать свою версию — код открыт.

Подходит для интеграции в чат-ботов, ассистентов и внутренних инструментов.

git clone https://github.com/mendableai/fireplexity.git
cd fireplexity
npm install


📌 Github
📌 Попробовать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🕹️ Вы можете читать новости о сфере и тестить сервисы для души, а можете перейти в аналитику данных и влиять на бизнес-результаты уже через полгода — со средним доходом 167 000+ рублей

Карьерный трек займёт 6 месяцев: вы плавно погрузитесь в Excel, SQL, базовый Python, маркетинговую аналитику, Power BI и нейросети на курсе «Аналитик данных» от Академии Eduson.

Получите полный скиллсет аналитика, а ещё:
✔ Опыт экспертов из «Сбера», «Работа.ру» и «Авито». Они запускали десятки проектов и знают, какие задачи вы будете решать в реальной работе.
✔ Много практики на бизнес-кейсах, тренажёрах и заданиях — научитесь мыслить как аналитик, а не делать по шаблонуа.
✔ Поддержку личного куратора целый год — никаких чатов на сотни учеников, только индивидуальный подход.
✔ Гибкий график обучения и вечный доступ к программе и обновлениям — сможете проходить курс в своём темпе.

На выходе вы получите удостоверение о повышении квалификации и диплом Eduson, верифицированный «Сколково». Вместе с этими документами, портфолио и помощью карьерного центра Eduson шансы найти работу будут высоки. А если не получится, деньги за обучение вернут — это прописано в договоре.

По промокоду DATA — скидка 65% + второй курс в подарок. Записывайтесь по ссылке

Реклама. ООО "Эдюсон", ИНН 7729779476, erid: 2W5zFGoyEd6

Читать полностью…

Анализ данных (Data analysis)

🧠 II-Medical-8B-1706 — open-source LLM для медицинских задач!

▪️ Превзошла MedGemma 27B от Google при 70% меньшем количестве параметров
▪️ Квантизированные веса GGUF — модель запускается даже на <8 ГБ ОЗУ

Model card: https://huggingface.co/Intelligent-Internet/II-Medical-8B-1706

GGUF quantization: https://huggingface.co/Intelligent-Internet/II-Medical-8B-1706-GGUF

Читать полностью…

Анализ данных (Data analysis)

🧠 WM-Abench — бенчмарк для оценки памяти у мультимодальных LLM

Новый open-source бенчмарк от Maitrix Research оценивает, как мультимодальные модели (текст + изображение) запоминают и используют визуальную информацию.


📌 Что проверяется:
– Могут ли LLM “удерживать в голове” объекты, числа и расположение
– Насколько глубоко модель понимает визуальный контекст
– Способна ли она логически оперировать на основе того, что “видела”

📈 Поддерживаются: GPT‑4o, Gemini, Claude, LLaVA и другие
🔍 Задания: от простых “где лежит мяч?” до сложных визуальных рассуждений

Исследователи из Maitrix оценили 15 SOTA мультимодальных моделей (включая o3 и Gemini 2.5 Pro) по 23 когнитивным измерениям: от базового восприятия до предсказания будущих состояний.

Ключевые выводы:
🔹 Модели хорошо справляются с распознаванием, но проваливаются в 3D-пространственном мышлении, динамике движения и причинно-следственной симуляции.
🔹 VLM склонны “путать” физику: даже изменение цвета объекта сбивает модель на задачах восприятия.
🔹 В сложных задачах предсказания следующего состояния — даже лучшие модели отстают от человека на 34.3%.
🔹 Точность восприятия ≠ понимание: даже “увидев” всё правильно, модели не умеют достроить последствия и взаимодействия объектов.

Отличный инструмент, чтобы понять на что реально способна ваша мультимодальная модель, а не только на красивые демо.

🔗 https://wm-abench.maitrix.org

#LLM #AI #multimodal #benchmark

Читать полностью…

Анализ данных (Data analysis)

📡 Как студенты российских IT-вузов занимаются разработкой баз данных.

На Хабре вышла статья про YDB — распределённую СУБД с открытым исходным кодом. Она применяется для построения высоконагруженных систем и может исполнять федеративные запросы к внешним источникам данных.

Что внутри:
🧩 как реализовать SQL-запрос к внешней NoSQL-базе
📦 как упаковать Redis и MongoDB в реляционную модель
⚙️ проектируем абстракцию, которая может спрятать *любой* внешний источник данных

Новые функции YDB пилят студенты Яндекс Образования, а ревью прходоят у разработчиков бигтеха.  Результат: федеративные запросы в YDB теперь могут быть адресованы к PostgreSQL, ClickHouse, MongoDB, Redis и многим другим источникам – польза для всего  open-source сообщества.

📌 Статья полезна для тех, кто интересуется:
— Разработкой СУБД
— Консолидацией гетерогенных данных

Читать полностью…

Анализ данных (Data analysis)

🧠  Как успевать следить за всеми новостями искусственного интеллекта? И чтобы не тратить на это кучу времени?!
Мы нашли ребят, которые делают это за вас.

📌 Рекомендуем подписаться на канал @svodka_ai — Искусственный интеллект.
Каждый день их AI-журналисты мониторят десятки каналов про ИИ, а затем выдают утренний компактный дайджест:
📰 5–8 главных новостей без оффтопа и инфошума
🔗 Линк на источник под каждым пунктом — сразу в закладки или "прочитать позже"
⏱️ Формат "прочёл за три минуты — знаешь всё основное"
🧩 Все релизы, новости ИИ-компаний, секреты о тулах – в одном месте

💡 Экономия: ~90 % времени против ручного серфинга по каналам.

Если ИИ — ваш хлеб (или хотя бы джем к утреннему кофе), подпишитесь на @svodka_ai и начинайте день, уже зная главное.

Профит прост: меньше скролла — больше инсайтов без инфошума.
👉 Подписывайтесь и пусть ИИ готовит для вас сводки самого главного 

erid: 2W5zFHoXe24

Читать полностью…

Анализ данных (Data analysis)

🍏 Apple рассматривает замену Siri на Claude или ChatGPT

Apple активно изучает возможность использования моделей Claude 3 Opus от Anthropic и GPT-4 Turbo от OpenAI для новой версии Siri, отказавшись от собственных LLM. Компания провела тестирование обеих моделей на закрытой облачной инфраструктуре, чтобы сравнить качество генерации, безопасность и способность к сложным диалогам.

Причины перехода:
— Собственная разработка LLM для Siri задерживается до 2026 года из-за проблем с качеством
— Необходимость ускорить вывод на рынок более интеллектуального голосового ассистента
— Усиленная конкуренция с Google Assistant и Microsoft Copilot

Что уже сделано:
— Тестирование Claude 3 Opus и GPT-4 Turbo на Private Cloud Compute Apple
— Смена руководства AI-подразделения: Майк Рокуэлл занял место Джона Джаннандреа
— Отмена запуска “LLM Siri” на WWDC 2025 из-за неготовности модели

📌
Подробнее

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📘 Machine Learning Q and AI — новая книга от мастодонта ML Себастьяна Рашки теперь в открытом доступе!

👨‍🔬 Автор — core‑разработчик Scikit‑learn, преподаватель, автор культовых пособий по машинному обучению.

Что внутри:
• 30 глав по нейросетям, компьютерному зрению, LLM, оценке и деплою моделей
• Чёткая структура: теория → примеры → упражнения
• Много практики, схем, визуализаций и Python‑кода

Это не просто справочник, а полный курс по Deep Learning, от основ до продвинутых тем.

📖 Читать онлайн

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Многие аналитики годами остаются на одном уровне, хотя могли бы расти быстрее.

Проблема часто не в недостатке знаний, а в отсутствии системного понимания профессии. Без четкого представления о том, какие навыки действительно важны и как они сочетаются между собой, развитие становится хаотичным и неэффективным.

3 июля в 19:00 (мск) Анастасия Зеленова, team lead аналитики в Raiffeisen CIB, проведет вебинар, где разберет устройство профессии аналитика данных и расскажет какие инструменты и навыки нужны для работы.

Систематизируйте свои знания на бесплатном онлайн-вебинаре: https://clc.to/erid_2W5zFH7Rc9e 

Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFH7Rc9e

Читать полностью…

Анализ данных (Data analysis)

Самый надёжный способ стать аналитиком, которого берут в Авито, Яндекс и Альфу.

В этом канале мы много рассказываем об обучении аналитике. Хотим рассказать еще про одну хорошую школу.
Как заметили курс: стали часто встречаться ребята из Changellenge >> Education. По хардам ок, презентуют как взрослые. Разобрался, что они выпускаются из годовой программы переподготовки «Аналитик PRO».

Чем они сильнее большинства курсов и симуляторов:
— Школа специализируется только на аналитике, обучает студентов с 2018 года.
— Учитесь на живых бизнес-кейсах от компаний-партнеров: оптимизируете запасы ретейл-сети, считаете юнит-экономику маркетплейса, строите модель оттока банка.
— Софт-скиллы встроены: проекты защищаете в мини-командах, тренируясь говорить с продукт-диром на его языке, а не «RMSE снизил — пора на прод».
— После курса навсегда остаётесь в сообществе 1 000+ аналитиков: обмен джоб-офферами, экспертизой и ревью резюме нон-стоп.

В программе:
— гибкий график обучения на 12 месяцев
— Excel → SQL → Python → BI + финмодели
— 4 законченных кейса (Авито, РЖД, Т-банк, МТС)
— диплом гос.образца о профессиональной переподготовке

Длинный путь? Да. Но именно такие ребята проходят скрининги с первой попытки.
До 30 июня на курс “Аналитик PRO” действует скидка более 70 000 рублей — а по моему промокоду ПРОМОКОД вы получите индивидуальную карьерную консультацию в подарок.

Записывайтесь на курс и не сомневайтесь, станьте востребованным на рынке специалистом!

Реклама. ООО "Высшая школа аналитики и стратегии" ИНН 7716917009

Читать полностью…

Анализ данных (Data analysis)

🖥 Manim — это мощная библиотека на Python для создания анимаций математических и научных концепций!

💡 Она позволяет визуализировать сложные идеи с высокой точностью и гибкостью, используя код для определения сцен, объектов и их взаимодействия. Manim широко используется в образовательных целях и для создания объясняющих видео. Библиотека поддерживает анимацию графиков, формул, геометрических фигур и других визуальных элементов.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💥 Очередной удар по Microsoft: OpenAI переходит на TPU от Google вместо Nvidia-серверов Microsoft

По информации инсайдеров, OpenAI впервые серьёзно полагается на TPU-чипы Google, а не на Nvidia-инфраструктуру от Microsoft.

🔻 Что это значит:
• Эксклюзивность Microsoft как партнёра OpenAI — под угрозой
• Microsoft отстаёт с выпуском собственных AI-чипов
• Google отвоёвывает ключевую часть ИИ-инфраструктуры будущего

⚠️ Когда даже OpenAI ищет альтернативу своему главному инвестору, вопрос не только в «железе». Это битва за контроль над вычислительными платформами, от которых будет зависеть весь рынок ИИ.

⚙️ TPU от Google — не только альтернатива Nvidia, а ещё и рычаг влияния в AI-гонке.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Создание Telegram‑бота‑репетитора на Python для подготовки к сертификациям 🎓

В этом гайде мы создадим Telegram-бота-репетитора на Python, который проводит адаптивные мини-экзамены по темам Python, Data Science, AI и ML.

Бот сохраняет результаты в SQLite и даёт рекомендации по обучению.

Развернём его в облаке immers.cloud сервисе с GPU-серверами для задач от 3D и гейминга до машинного обучения и генерации контента.

Почему мы выбрали immers.cloud:
- Быстрый старт: нужный сервер поднимается за пару минут.
- Посекундная тарификация — платишь только за время работы сервера
- Большой ассортимент GPU: 11 моделей NVIDIA RTX и Tesla, включая высокопроизводительные модели, H100 (мой фаворит) и A100 с 80 ГБ видеопамяти с поддержкой GPUDirect и NVLink технологий.
- Образы с предустановленным окружением для ML задач, чтобы не тратить время на настройку.
- Поддержка 24/7 и стабильная производительность

🔍 Что делает бот:
- Проводит адаптивные мини‑экзамены по темам: Python, Data Science, AI, ML.
- Подстраивает уровень сложности вопросов под уровень пользователя.
- Сохраняет и анализирует результаты обучения.

🛠️ Технологии и подход:
- Написано на Python с использованием библиотеки для Telegram‑ботов.
- Используется БД для хранения прогресса и статистики.
- Простой архитектурный шаблон: команда → вопрос → ответ → оценка.

🚀 Цели проекта:
- Практическая подготовка к IT‑сертификациям.
- Обратная связь и отслеживание прогресса.
- Возможность добавить новые темы и адаптивную логику.

📌 Кому будет полезен:
- Тем, кто готовится к сертификациям (например, Python, ML).
- Тем, кто хочет автоматизировать обучение через чат.
- Программистам, желающим усилить навыки работы с Telegram‑ботами.

📌 Подробнее

Читать полностью…

Анализ данных (Data analysis)

📱 Google представила Gemma 3n — открытую AI-модель нового поколения для edge-устройств

🆕 Gemma 3n — это свежая модель из семейства Gemma, спроектированная специально для высокопроизводительного оффлайн-ИИ на телефонах, ноутбуках и планшетах. Поддерживает мультимодальность: изображение, аудио, видео и текст — прямо на устройстве.

🚀 Особенности:
• Новая архитектура, заточенная под edge-девайсы
• Работа без интернета и задержек
• Полноценная мультимодальность
• Реакции и вывод в реальном времени

📊 Вершина производительности:
Версия Gemma 3n E4B стала первой моделью <10B параметров, набравшей 1300+ на LMArena — раньше такое было только у облачных гигантов.

💡 Для разработчиков:
📚 Гайд: https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide
🏆 Конкурс: https://kaggle.com/competitions/google-

🛠 Google запускает челлендж для создания приложений на основе Gemma 3n с фокусом на социальную пользу: здравоохранение, образование, устойчивое развитие, инклюзия и помощь в кризисах.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

DeepSeek R2 задерживается из-за ограничений и проблем с качеством

● Запуск AI-модели R2 отложен из-за американских экспортных контролей на чипы Nvidia H20
● Чипы H20 были ключевыми для успеха предыдущей модели R1 в Китае; без них инфраструктура для R2 не готова
● CEO Лян Вэньфэн недоволен качеством текущей версии R2 и требует дополнительной доработки
● Облачные провайдеры опасаются, что спрос на H20 превысит доступные запасы
● Альтернативные чипы (например, Huawei) технически менее подходят для R2

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

✔️ Nano‑vLLM — реализация vLLM, написанная с нуля1

Это минималистичный, но быстрый движок для офлайн-инференса LLM. Отлично подойдёт для локальных экспериментов и кастомных решений.

📌 Ключевые фичи:
🚀 Быстрый офлайн-инференс — почти как у vLLM
📖 Простой и читаемый код — всего ~1200 строк на Python
⚡ Оптимизации: prefix caching, Torch compilation, CUDA Graph и др.

📦 Установка:

pip install git+https://github.com/GeeeekExplorer/nano-vllm.git


📌 Быстрый старт:
Примеры использования — в example.py.
API максимально похож на vLLM, за исключением метода LLM.generate.

📊 Бенчмарк (на RTX 4070 + модель Qwen3-0.6B):
• Запросов: 256
• Вход: от 100 до 1024 токенов
• Выход: от 100 до 1024 токенов

Результаты:
| Движок | Время (с) | Скорость (токенов/с) |
|--------------|-----------|----------------------|
| vLLM | 98.95 | 1353.86 |
| **Nano-vLLM**| 101.90 | **1314.65** |

💡 Nano‑vLLM показывает почти ту же производительность, что и оригинал, но с компактным и понятным кодом. Идеален для изучения и локальных LLM-проектов.

📌 Github

Читать полностью…

Анализ данных (Data analysis)

🧬AlphaGenome от DeepMind — AI для глубокого понимания генома

🔬 Что это?
Новая унифицированная модель , способная предсказывать, как одиночные мутации в ДНК влияют на регуляцию генов и различные биомолекулярные процессы .

Как работает:
1. Принимает на вход до 1 000 000 «букв» ДНК (base-pairs) и выдаёт тысячи предсказаний по разным свойствам:
- Начало и конец генов в разных клетках
- Уровень сплайсинга и экспрессии РНК
- Доступность нуклеотидов и связывание с белками
2. Архитектура:
- Свёрточные слои для поиска локальных паттернов
- Трансформеры для обмена информацией по всей последовательности
- Финальные слои для предсказаний по каждому «букве»

Самое интересное:
- **Длинный контекст *: анализ до 1 000 000 букв с точностью до одной позиции
- Мультизадачность: единственная модель одновременно прогнозирует десятки регуляторных свойств (модальностей), от сплайсинга до хроматиновой доступности .
- Быстрое оценивание вариантов: сравнивает «дикую» и мутантную последовательности и за секунду выдаёт полный отчёт по влиянию мутации .
- Новые возможности в сплайсинге: впервые модель прямо предсказывает расположение и уровень сплайс-джанкшенов, что важно для редких генетических заболеваний .
- Превосходство на бенчмарках: лидер по точности на 22 из 24 задач по предсказанию свойств и на 24 из 26 задач по эффектам вариаций .

Для чего это нужно:
• Ускорить исследование генетических причин болезней и найти новые терапевтические мишени
• Помочь в дизайне синтетической ДНК для заданных функций
• Глубже понять функции некодирующих участков генома

Доступ:
— Preview-версия API для некоммерческих исследований: https://github.com/deepmind/alphagenome-api
— Полная модель будет опубликована позже.

Читать полностью…
Подписаться на канал