Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
🌐 Reader от Jina AI — переводчик веб-страниц для языковых моделей. Этот необычный проект решает проблему всех RAG-систем, превращая контент веб-страниц в удобоваримый для LLM формат. Просто добавьте https://r.jina.ai/
перед любой ссылкой и получите очищенный от рекламы, JS-кода и лишних элементов текст с автоматически подписанными изображениями.
Также запрос через s.jina.ai
не просто выдает список ссылок, а сразу загружает и обрабатывает топ-5 результатов. Технология уже используется в продакшене и полностью бесплатна.
🤖 GitHub
@data_analysis_ml
🐼 Pandas-задача с подвохом: “Почему ничего не работает?”
📘 Условие
Дано: DataFrame
df
:
import pandas as pd
import numpy as np
df = pd.DataFrame({
'user_id': [1, 1, 2, 2, 3, 3],
'score': [100, 90, np.nan, 85, 75, 95]
})
score
, score
средним по этому пользователю.
df['score_filled'] = df.groupby('user_id')['score'].apply(lambda x: x.fillna(x.mean()))
apply()
вызывает подвох? 🔥 Проект: fast-agentfast-agent
— это современный фреймворк для быстрой разработки и тестирования интеллектуальных агентов и рабочих процессов, поддерживающих протокол MCP (Model-Context-Protocol). Он предоставляет простой декларативный синтаксис и мощные инструменты для построения многоагентных систем с поддержкой OpenAI, Anthropic и других моделей.
▪ Основные возможности
• Быстрое создание агентов с помощью декораторов @fast.agent
, минимизируя количество кода.
• Поддержка рабочих процессов: цепочки (`chain`), параллельные вызовы (`parallel`), маршрутизаторы (`router`), оркестраторы (`orchestrator`), схемы с оценкой и оптимизацией (`evaluator_optimizer`).
• Мультимодальность: обработка изображений, PDF-файлов и интеграция с внешними ресурсами MCP.
• Интерактивная отладка: настройка и диагностика агентов до, во время и после выполнения рабочих процессов.
• Гибкая конфигурация через fastagent.config.yaml
и fastagent.secrets.yaml
.
• Интеграция с LLM: OpenAI (GPT-4 и др.), Anthropic (Haiku, Sonnet, Opus) и другие модели через MCP-серверы.
▪ Быстрый старт
1️⃣ Установите менеджер пакетов uv
для Python.
2️⃣ Установите fast-agent:
uv pip install fast-agent-mcp
uv run fast-agent setup
uv run agent.py
uv run fast-agent quickstart workflow
examples
в репозитории.🔥 Hugging Face представили бесплатного Open Computer Agent — открытый аналог Operator, запускающийся на виртуальной Linux-машине. Этот агент умеет искать и бронировать билеты, заказывать столик в ресторане и решать множество других задач.
Есть два «но»: он иногда не справляется с CAPTCHA, а из-за высокой нагрузки ответы могут идти чуть дольше. Зато всё бесплатно и с открытым исходным кодом!
Попробовать можно прямо сейчас:
https://huggingface.co/spaces/smolagents/computer-agent
@data_analysis_ml
Железо + софт = будущее.
Стартовала регистрация на «Я.Железо-2025»
Как видит мир автономный грузовик, зачем лидару «подогрев стёкол» и что позволяет роверу ориентироваться в городе? Приглашаем 24 мая на конференцию «Я.Железо» — поговорим о разработке роботов, умных устройств, автономного транспорта и серверной инфраструктуры.
Вас ждут два трека с докладами, экспозона и нетворкинг.
О чём расскажут спикеры:
На треке Hardware — об устройстве сенсорсета, микрофонов в AOSP на примере ТВ-станции, а также сделают обзор системы очистки.
На треке Software — о смарт-функциях в ТВ Станциях, TBD Светофорах на роботе-доставщике и радаре в BEVFusion.
Что покажут на экспо:
•Собственные лидары. Как работают дальнобойный PBR-ONE и круговой nanoHomer и что позволяет роботам «видеть» сквозь дождь и туман.
•Автономные грузовики. Как тягач принимает решения, маневрирует и соблюдает ПДД, а лидары определяют объекты за сотни метров.
•Роботы-доставщики. Как ровер ориентируется в городе, видит пешеходов и решает, когда остановиться.
•Складские роботы. Как работает нейросеть и «грабер» в механической руке и сколько палето-мест в час может обработать робот-инвентаризатор.
Конференция пройдёт онлайн и офлайн в Москве 24 мая. Чтобы получить приглашение на «Я.Железо», зарегистрируйтесь по ссылке.
🌟 NVIDIA Parakeet-tdt-0.6b-v2: ASR-модель с поддержкой временных меток.
NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова.
Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач.
В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.
TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.
Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.
.wav
и .flac
с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи.🚀 LTX-Video 13B — один из самых мощных open-source видеогенераторов.
Разработчики внедрили в модель мультимасштабный рендеринг.
✅ Обычные генеративные модели видео рендерят всё изображение целиком, одним разрешением.
Когда в сцене много движущихся объектов или деталей, модель может "размазать" их, потерять чёткость или неправильно совместить фон и передний план.
📝 А мультимасштабный рендеринг — это параллельная отрисовка картинки на разных уровнях детализации:
один поток отвечает за фон (низкая детализация, большой масштаб),
другой — за объекты в центре, движущиеся элементы (высокая детализация, малый масштаб).
Потом всё объединяется в один кадр, как слои в Photoshop.
🎯 Зачем это нужно?
Фон остаётся стабильным, не "дергается"
Движущиеся объекты остаются чёткими и отдельными от фона
Картинка в целом не разваливается (нет смешивания движений, артефактов)
Такой подход помогает удерживать высокое качество картинки даже при сложном движении — например, если в кадре бежит персонаж на фоне движущегося города.
👉 По сути, это умное раздельное внимание к разным частям кадра, чтобы не терять детали ни в статике, ни в движении.
Что нового?
– Модель 13 миллиардов параметров
– Multiscale rendering → больше деталей, чётче текстуры
– Лучше понимает движение и сцену
– Запускается локально на GPU
– Поддержка keyframes, движения камеры/персонажей, мультисценных секвенций
Запускается даже на RTX 4090.
#AI #videoAI #ltxvideo #deeplearning #generativeAI #opensource #videogeneration
▪Попробовать можно тут→ https://app.ltx.studio/ltx-video
▪Code → https://github.com/Lightricks/LTX-Video
▪Weights → https://huggingface.co/Lightricks/LTX-Video
✔ PySpur
PySpur — это полезны и легкий инструмент для создания и управления рабочими процессами, с минимальным количеством зависимостей.
Он позволяет легко добавлять новые узлы через файл на Python и использует формат JSON для настройки графов.
Инструмент поддерживает асинхронное выполнение задач, работу с несколькими модальностями данных и оптимизацию конвейеров. Кроме того, он предоставляет возможность генерации узлов с использованием технологий искусственного интеллекта.
▪Github
1️⃣2️⃣3️⃣4️⃣5️⃣6️⃣7️⃣8️⃣9️⃣🔟
Как меняется ИТ-индустрия с внедрением AI? Узнай 6 июня на ИТ-конференции МТС True Tech Day
True Tech Day 2025 — третья масштабная технологическая конференция МТС для профессионалов ИТ‑индустрии.
В программе:
— Больше 40 докладов от известных ученых и ИТ-компаний.
— Выступления зарубежных спикеров с индексом Хирша более 50.
— Концентрация практических кейсов: как создаются большие проекты с применением AI.
— Доклады по архитектуре, бэкенд-разработке и построению ИТ-платформ.
— AI-интерактивы и технологические квесты.
— Пространство для нетворкинга,
…а еще after-party со звездным лайн-апом.
Когда: 6 июня
Где: Москва, МТС Live Холл и онлайн
Участие бесплатно. Регистрация по ссылке.
📈 За последние 28 дней сайт ChatGPT посетили больше людей, чем X (Твиттер).
- ChatGPT посетили 4,786 млрд раз
- X 4,028 млрд посещений
❓Как найти аномалии в данных с помощью машинного обучения?
В мире данных выявление аномалий — ключевая задача, которая помогает находить неисправности, мошенничество и отклонения. Без правильных методов вы рискуете упустить важные факты, которые могут повлиять на результаты.
На открытом вебинаре 13 мая в 18:00 мск мы подробно разберем, как эффективно искать аномалии в данных с использованием популярных методов, от простых статистических до продвинутых, таких как Isolation Forest и OneClassSVM.
📣 Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist и преподаватель в одном из крупнейших университетов России.
➡️ Запишитесь на вебинар и получите скидку на большое обучение «Специализация Machine Learning»: https://otus.pw/RBJq/?erid=2W5zFFwo5AQ
#реклама
О рекламодателе
🖥 PyXL — первый в мире специализированный процессор для нативного запуска Python
Что это?
PyXL исполняет байт-код CPython прямо на чипе — без JIT, интерпретатора и виртуальных машин. Ваши .py файлы компилируются в байт-код, затем транслируются в набор инструкций PySM, которые обрабатываются процессором.
Ключевые особенности:
⚡ Скорость: в тестах обработки GPIO PyXL в 30× быстрее MicroPython на Pyboard (480 нс vs 14 741 нс при 100 MHz vs 168 MHz).
🔧 Прототип на FPGA: реализован на Verilog и тестируется на платах Zynq-7000.
🚀 Без прослоек: доступ к GPIO — напрямую, без Си-функций и внешних вызовов.
🏗️ Архитектура: конвейерная обработка, стековая модель, динамическая типизация без ограничений на типы переменных.
🛠️ Инструменты: транслятор на Python под неизм. CPython, готов к встраиваемым системам и реальному времени.
Что дальше?
📅 Полные технические детали будут представлены 17 мая на PyCon 2025. Рассматривается открытие кода и выпуск ASIC-чипа.
Автор проекта — Рон Ливне (Ron Livne), эксперт по аппаратному ускорению и оптимизации.
#Python #PyXL #Embedded #FPGA #PyCon2025
https://runpyxl.com/gpio
🚀 DeepWiki-Open: автоматическая генерация вики-документации с ИИ
Это open-source инструмент для автоматического создания интерактивной вики-документации на основе исходного кода репозитория. Идеально подходит для разработчиков и команд, которые хотят быстро структурировать знания о проекте.
## 🔍 Что умеет DeepWiki
- Анализирует код и его архитектуру
- Генерирует документацию по компонентам и их связям
- Создает визуальные диаграммы (например, с помощью Mermaid)
- Структурирует всё в вики с удобной навигацией
✨ Особенности
✅ Мгновенная генерация вики
✅ Поддержка приватных репозиториев
✅ Интеллектуальный анализ кода с помощью OpenAI и Google Gemini
✅ Автоматические архитектурные диаграммы
✅ Удобный интерфейс
🛠️ Стек технологий
- Backend: Python (FastAPI)
- Frontend: Next.js + React
- Визуализация: Mermaid
- Контейнеризация: Docker, docker-compose
🚀 Быстрый старт
git clone https://github.com/AsyncFuncAI/deepwiki-open.git
cd deepwiki-open
echo "GOOGLE_API_KEY=ваш_google_api_key" > .env
echo "OPENAI_API_KEY=ваш_openai_api_key" >> .env
docker-compose up
✔️ Gemini планирует интеграцию с GitHub.
Gemini для GitHub упростит работу с чужим кодом. Интеграция позволяет прикрепить репозиторий к запросу и получить от ИИ помощь: разобраться в структуре проекта, объяснить функции, предложить оптимизацию или найти баги.
Пока функционал ограничен: нельзя просматривать историю коммитов, пул-реквесты или вносить изменения напрямую в репозиторий. Загрузить можно только один проект (до 5000 файлов и 100 МБ), а для приватных репозиториев потребуется привязать GitHub-аккаунт к Google. Импорт доступен через веб-версию Gemini, но начатый диалог можно продолжить в мобильном приложении. Интеграция появится в настройках Gemini в ближайшее время.
9to5google.com
✔️ Релиз моделей серии Phi-4 с ризонингом.
Microsoft выпустила Phi-4-reasoning, Phi-4-reasoning-plus и Phi-4-mini-reasoning с 14 миллиардов параметров у первых двух и 3.6 млрд. у mini.
Phi-4-reasoning-plus обошёл 671-миллиардную DeepSeek-R1 в тестах AIME 2025, а mini-reasoning была создана для работы на смартфонах или IoT-устройствах: она решает задачи от школьного уровня до научных расчетов, не нагружая систему.
Детали создания доступны в техническом отчете, а сами модели - на Azure или HuggingFace.
azure.microsoft.com
✔️ Anthropic добавила интеграцию приложений и улучшила исследовательские возможности Claude .
Anthropic представила 2 ключевых обновления для своего Claude: интеграцию сторонних сервисов и расширенный инструмент для глубокого анализа. Новая функция "Integrations" позволяет подключать Claude к бизнес-приложениям вроде Confluence, Zapier или PayPal через серверы на базе протокола MCP. Это даст ИИ доступ к данным проектов, автоматизирует задачи и улучшает контекстную работу.
Параллельно запущен Advanced Research: теперь Claude может анализировать сотни источников (включая корпоративные данные и локальные диски) за несколько минут, формируя детальные отчеты со ссылками на источники. Обновление использует «рассуждающие» модели ИИ.
Функции доступны в бета-версии для подписчиков Claude Max, Team и Enterprise, а также скоро появятся в плане Pro. Anthropic также увеличила лимиты для кодинг-инструмента Claude Code.
anthropic.com
✔️ Google тестирует рекламу в диалогах с AI-чатами через AdSense.
Google начал внедрять рекламу в чаты пользователей с некоторыми сторонними ИИ-ассистентами через сеть AdSense. Функция, запущенная в этом году, уже тестировалась с стартапами Ask и Liner. Представитель компании подтвердил: «AdSense для Поиска доступен сайтам, которые хотят показывать релевантную рекламу в своих AI-диалогах».
Этот шаг выглядит попыткой монетизировать растущую популярность ИИ-чатов вроде ChatGPT или Claude, которые постепенно заменяют традиционный поиск. Ранее компания уже добавляла рекламу в ИИ-сниппеты поиска. Однако интеграция с внешними сервисами — новый этап.
bloomberg.com
✔️ Умные очки Ray-Ban будут собирать пользовательские данные для обучения ИИ.
Facebook-research внесли ключевые изменения в правила конфиденциальности своих умных очков Ray-Ban. С 29 апреля владельцы устройств больше не могут отключать сохранение голосовых записей в облаке — удалить их можно только вручную через настройки. По словам компании, аудио и транскрипты хранятся до года для улучшения продуктов, а случайные активации удаляются через 90 дней.
Фото и видео с камеры очков по-прежнему остаются в галерее смартфона и не используются для обучения ИИ, если не загружены в облачные сервисы компании или сторонние приложения. Однако голосовой помощник теперь всегда активен, пока пользователь не отключит его вручную. Это решение направлено на сбор данных для тренировки алгоритмов.
theverge.com
@ai_machinelearning_big_data
#news #ai #ml
🚀 17 000 промптов в одной базе — собрано всё, что нужно для работы с ИИ!
Разработчики собрали огромное хранилище запросов для всех топовых нейросетей: от Midjourney и ChatGPT до Runway и DALL·E.
✅ Что внутри:
• Все промпты удобно отсортированы по категориям, задачам, стилям и инструментам — не заблудитесь.
• К каждому запросу прикладываются примеры использования.
• Сервис помогает адаптировать ваши собственные промпты под конкретные задачи.
• Можно публиковать свои промпты и делиться ими с другими.
• Есть быстрое расширение для Chrome.
• И всё это бесплатно.
https://promptport.ai/
✔️ Qwen официально выпустили квантованные версии Qwen3!
Теперь Qwen3 можно развернуть через Ollama, LM Studio, SGLang и vLLM — выбирайте удобный формат (GGUF, AWQ или GPTQ) для локального деплоя.
Все модели доступны в коллекции Qwen3 на Hugging Face и ModelScope:
➡️Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
➡️ ModelScope: https://modelscope.cn/collections/Qwen3-9743180bdc6b48
@ai_machinelearning_big_data
#Qwen
🌧️ Superlinked — фреймворк для гибридного поиска, где вектора и метаданные работают вместе. Этот инструмент решает главную боль RAG-систем и рекомендательных сервисов — как эффективно комбинировать эмбеддинги с структурированными данными.
В отличие от чистых векторных поисков, здесь можно создать единую модель, где описание товара и его оценка влияют на результаты совместно. Проект широкой интеграции: от тестов в Jupyter-ноутбуке до продакшн-развёртывания REST API одним командой.
🤖 GitHub
@data_analysis_ml
NVIDIA открыла исходный код моделей Open Code Reasoning - 32B, 14B и 7B - лицензировано APACHE 2.0 🔥
> Превосходит O3 mini и O1 (низкий) на LiveCodeBench 😍
Модели в среднем на 30% эффективнее других эквивалентных моделей Reasoning.
Работает с llama.cpp, vLLM, transformers, TGI и другими — проверьте их сегодня!!
🟢Models
🟢Dataset
🟢Paper
🔥 AgenticSeek — мощнейший опенсорс ИИ-агент.
Это лучшая бесплатная альтернатива Manus AI за 200$. Есть всё, что нужно — поиск по интернету, поддержка голосового управления + он хороший помощник по кодингу.
И он умеет почти всё:
• Спланирует тур за границу: подберёт билеты, отели, маршруты
• Проведёт аудит бизнеса и предложит варианты оптимизации
• Возьмёт на себя работу в таблицах, анализ данных и отчётов
• Напишет код под любую задачу
• Прочитает книги, статьи, репозитории, просёрфит сайты и соберёт данные
• А теперь представьте: вы даёте ему сотню таких задач одновременно — это уже не ассистент, а полноценный бизнес-комбайн
AgenticSeek полностью управляет браузером и приложениями, интегрируется в ваши процессы и автоматически подбирает агентов под задачи.
✅ Управлять можно голосом
✅ Все приватные данные остаются только у вас
На GitHub уже 1800 звезд.
https://github.com/Fosowl/agenticSeek
📄 DocsGPT — открытый RAG-ассистент для работы с документами. Это не просто чат-бот, а целая экосистема, которая умеет извлекать информацию из PDF, DOCX, веб-страниц и даже GitHub-репозиториев, сохраняя привязку к исходным данным.
Что выделяет проект:
▪️Поддержка локальных моделей (Ollama, llama.cpp) и облачных API (OpenAI, Anthropic)
▪️Готовые интеграции для Discord, Telegram и веб-сайтов
▪️Возможность расширения функционала через инструменты и вебхуки
Для старта достаточно клонировать репозиторий и запустить setup-скрипт — через пару минут вы получите работающий инстанс с интерфейсом на localhost.
🤖 GitHub
@data_analysis_ml
Учитесь в универе и хотите вырваться из рутины? Подайте заявку на бесплатный студкемп Яндекс Образования и НГУ! Здесь вы не просто переключитесь с повседневных задач, а нырнёте в одно из самых перспективных IT-направлений — NLP.
За две недели — с 14 по 26 июля — вы разберётесь, как работают языковые модели вроде YandexGPT и Qwen, поймёте, что такое мультимодальность и RAG, поработаете с реальными данными и создадите собственный проект. На интенсиве ждут студентов со всей России и каждому, кто пройдёт отбор, оплатят проезд и проживание. Успейте подать заявку до 18 мая!
🧩 Задача для продвинутых дата-сайентистов: "Парадокс усечённых данных"
📖 Описание задачи
У вас есть DataFrame df
с данными о зарплатах сотрудников в компании:
import pandas as pd
data = {
'employee_id': range(1, 11),
'department': ['IT', 'IT', 'IT', 'HR', 'HR', 'Finance', 'Finance', 'Finance', 'Finance', 'Finance'],
'salary': [120000, 125000, None, 70000, None, 90000, None, 95000, None, 100000]
}
df = pd.DataFrame(data)
print(df)
employee_id department salary
0 1 IT 120000.0
1 2 IT 125000.0
2 3 IT NaN
3 4 HR 70000.0
4 5 HR NaN
5 6 Finance 90000.0
6 7 Finance NaN
7 8 Finance 95000.0
8 9 Finance NaN
9 10 Finance 100000.0
df['salary_filled'] = df.groupby('department')['salary'].transform(lambda x: x.fillna(x.median()))
top_department = df.groupby('department')['salary_filled'].mean().idxmax()
print(top_department)
🔥CocoIndex — это современный ETL-фреймворк с открытым исходным кодом, предназначенный для подготовки данных к использованию в системах искусственного интеллекта. Он поддерживает пользовательскую логику трансформации и инкрементальные обновления, что делает его особенно полезным для задач индексации данных.
🔧 Основные возможности
- Инкрементальная обработка данных: CocoIndex отслеживает изменения в исходных данных и логике трансформации, обновляя только изменённые части индекса, что снижает вычислительные затраты.
- Поддержка пользовательской логики: Фреймворк позволяет интегрировать собственные функции обработки данных, обеспечивая гибкость при построении пайплайнов.
- Модульная архитектура: Встроенные компоненты для чтения данных (локальные файлы, Google Drive), обработки (разбиение на чанки, генерация эмбеддингов) и сохранения результатов (PostgreSQL с pgvector, Qdrant).
- Поддержка различных форматов данных: Поддержка текстовых документов, кода, PDF и структурированных данных, что делает CocoIndex универсальным инструментом.
🚀 Примеры использования
- Семантический поиск: Индексация текстовых документов и кода с эмбеддингами для семантического поиска.
- Извлечение знаний: Построение графов знаний из структурированных данных, извлечённых из документов.
- Интеграция с LLM: Извлечение структурированной информации из неструктурированных данных с помощью больших языковых моделей.
⚙️ Быстрый старт
1. Установите библиотеку CocoIndex:
pip install -U cocoindex
🧩 The Ultimate LLM Benchmark Collection
Подборка живых бенчмарков, которые стоит открывать при каждом релизе новой модели — и тех, на которые можно больше не тратить время.
🌐 Общие (multi‑skill) лидерборды
SimpleBench — https://simple-bench.com/index.html
SOLO‑Bench — https://github.com/jd-3d/SOLOBench
AidanBench — https://aidanbench.com
SEAL by Scale (MultiChallenge) — https://scale.com/leaderboard
LMArena (Style Control) — https://beta.lmarena.ai/leaderboard
LiveBench — https://livebench.ai
ARC‑AGI — https://arcprize.org/leaderboard
Thematic Generalization (Lech Mazur) — https://github.com/lechmazur/generalization
дополнительные бенчмарки Lech Mazur:
Elimination Game — https://github.com/lechmazur/elimination_game
Confabulations — https://github.com/lechmazur/confabulations
EQBench (Longform Writing) — https://eqbench.com
Fiction‑Live Bench — https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87
MC‑Bench (сортировать по win‑rate) — https://mcbench.ai/leaderboard
TrackingAI – IQ Bench — https://trackingai.org/home
Dubesor LLM Board — https://dubesor.de/benchtable.html
Balrog‑AI — https://balrogai.com
Misguided Attention — https://github.com/cpldcpu/MisguidedAttention
Snake‑Bench — https://snakebench.com
SmolAgents LLM (из‑за GAIA & SimpleQA) — https://huggingface.co/spaces/smolagents/smolagents-leaderboard
Context‑Arena (MRCR, Graphwalks) — https://contextarena.ai
OpenCompass — https://rank.opencompass.org.cn/home
HHEM (Hallucination) — https://huggingface.co/spaces/vectara/leaderboard
🛠️ Coding / Math / Agentic
Aider‑Polyglot‑Coding — https://aider.chat/docs/leaderboards/
BigCodeBench — https://bigcode-bench.github.io
WebDev‑Arena — https://web.lmarena.ai/leaderboard
WeirdML — https://htihle.github.io/weirdml.html
Symflower Coding Eval v1.0 — https://symflower.com/en/company/blog/2025/dev-quality-eval-v1.0-anthropic-s-claude-3.7-sonnet-is-the-king-with-help-and-deepseek-r1-disappoints/
PHYBench — https://phybench-official.github.io/phybench-demo/
MathArena — https://matharena.ai
Galileo Agent Leaderboard — https://huggingface.co/spaces/galileo-ai/agent-leaderboard
XLANG Agent Arena — https://arena.xlang.ai/leaderboard
🚀 Для отслеживания AI take‑off
METR Long‑Task Benchmarks (вкл. RE Bench) — https://metr.org
PaperBench — https://openai.com/index/paperbench/
SWE‑Lancer — https://openai.com/index/swe-lancer/
MLE‑Bench — https://github.com/openai/mle-bench
SWE‑Bench — https://swebench.com
🏆 Обязательный «классический» набор
GPQA‑Diamond — https://github.com/idavidrein/gpqa
SimpleQA — https://openai.com/index/introducing-simpleqa/
Tau‑Bench — https://github.com/sierra-research/tau-bench
SciCode — https://github.com/scicode-bench/SciCode
MMMU — https://mmmu-benchmark.github.io/#leaderboard
Humanities Last Exam (HLE) — https://github.com/centerforaisafety/hle
🔍 Классические бенчмарков
Simple‑Evals — https://github.com/openai/simple-evals
Vellum AI Leaderboard — https://vellum.ai/llm-leaderboard
Artificial Analysis — https://artificialanalysis.ai
⚠️ «Перегретые» метрики, на которые можно не смотреть
MMLU, HumanEval, BBH, DROP, MGSM
Большинство чисто‑математических датасетов: GSM8K, MATH, AIME, ...
Модели близки к верхним значениям на них и в них нет особого смысла.
🌟 Atropos: тренажерный зал для RL языковых моделей.
Atropos от NousResearch - это гибкий фреймворк для асинхронного управления RL-средами. Его архитектура построена так, чтобы максимизировать эффективность даже в распределенных системах, будь то локальный кластер или облако.
Atropos поддерживает децентрализацию. Он позволяет запускать несколько экземпляров сред (от статических датасетов, интерактивных игр, RLAIF и RLHF до обучения сложным многоэтапным взаимодействиям), которые асинхронно передают данные в центральный узел.
Это избавляет от простоя ресурсов, когда обновления политики модели тормозят из-за ожидания результатов всех окружений. Под капотом — интеграция с любыми API (OpenAI, vLLM, SGLang), позволяя свободу выбора LLM-провайдера без переписывания кода.
Практическая польза протестирована в экспериментах:
🟢В задачах параллельного вызова функций точность тестовой модели DeepHermes Tool Calling Specialist выросла в 4,6 раза — с 10% до 46%.
🟢В прогнозировании финансовых показателей на модели DeepHermes Financial Fundamentals Prediction Specialist, RL через Atropos удвоил точность (с 20% до 50%).
Такие результаты достигнуты благодаря многозадачности: фреймворк одновременно управляет разными типами сред, объединяя их в единый тренировочный поток. Вы можете обучать модель на статических данных утром и переключаться на интерактивные игры вечером, не меняя инфраструктуру.
Для разработчиков Atropos предлагает готовые инструменты: от датасетов для тонкой настройки (SFT, DPO) до дебаггеров и визуализации.
Atropos не привязывает вас к конкретному алгоритму RL или инфраструктуре. Запустите 10 экземпляров на ноутбуке или 10 000 через Slurm — фреймворк равномерно распределит нагрузку. Это особенно ценно для исследований: можно быстро экспериментировать с разными подходами, не тратя недели на настройку пайплайнов.
В репозитории есть все, что нужно: коллекция готовых к использованию сред RL, библиотека с базовыми классами и утилитами и примеры конфигураций обучения.
Если хотите понять, как ускорить свои эксперименты с LLM - загляните в документацию проекта, возможно, это именно тот инструмент, который избавит вас от боли асинхронной координации.
📌Лицензирование: MIT License.
🟡Статья
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Framework #NousResearch #Atropos
🔥 Огромная статья, которая посвящена оптимизации вывода (инференса) больших языковых моделей (LLM) с использованием одного графического процессора!
🌟 Автор делится опытом создания собственного движка для LLM на основе C++ и CUDA, фокусируясь на максимизации пропускной способности. Рассматриваются ключевые этапы, такие как загрузка модели, выполнение прямого прохода, использование кеша KV и многозадачность на CPU. Также подчеркивается важность пропускной способности памяти и квантования модели (например, FP16) для эффективного вывода. В статье приводятся бенчмарки и сравнение с другими фреймворками, такими как llama.cpp и Hugging Face, чтобы установить реалистичные цели по производительности.
🔗 Ссылка: *клик*
#machinelearning
@data_analysis_ml
🤖 Deep Live Cam: тулза для создания дипфейков в реальном времени без искажений и с идеальной подгонкой под свет и движение головы.
Можно даже спокойно трясти головой и лицо останется без искажений.
🔜 Код
🖥 Google встраивает рекламу в ответы чат-ботов
Google теперь размещает рекламу непосредственно в разговорах чат-ботов на базе ИИ, расширяя свою сеть AdSense для поиска. Этот шаг позволяет бесшовно интегрировать рекламу в диалоги, управляемые ИИ.
Мы все знали, что этот день настанет. Это был всего лишь вопрос времени.
🚨 Microsoft представила Phi-4 Reasoning — ризониг модель на 14B параметров для сложных задач!
📐 Phi-4 Reasoning — это версия Phi-4, дообученная для математики, науки и программирования. Несмотря на относительно компактный размер (14B параметров), она конкурирует с более крупными моделями, вроде DeepSeek-R1 и OpenAI o3-mini, на бенчмарках вроде AIME 2025 и OmniMath.
🔍 Ключевые моменты:
• 14B параметров
• версия Phi-4-Reasoning-Plus дообучена с Reinforcement Learning
• превосходит DeepSeek-R1-Distill-Llama-70B
• почти догоняет оригинальную DeepSeek-R1 (70B) по качеству
https://huggingface.co/collections/unsloth/phi-4-all-versions-677eecf93784e61afe762afa
@data_analysis_ml
Microsoft: до 30 % кода уже пишет AI
На конференции LlamaCon CEO Microsoft Сатья Наделла объявил, что от 20 % до 30 % кода в репозиториях компании сегодня «написаны программным обеспечением», то есть с использованием искусственного интеллекта.
## Ключевые моменты
- Зависимость от языка. Лучшие результаты при генерации — на Python, более слабые — на C++.
- Интеграция на всех этапах. AI применяется не только для генерации чернового кода, но и для его ревью.
- Сравнение с конкурентами. Google уже сообщает о более 30 % AI-сгенерированного кода, Meta прогнозирует до 50 % при разработке своих языковых моделей.
- Долгосрочная перспектива. По прогнозам CTO Microsoft, к 2030 г. доля AI-генерируемого кода может вырасти до 95 %.
- Ограничения метрик. Пока не до конца ясно, что именно учитывается в «AI-коде» (автодополнение, шаблоны, бизнес-логика), поэтому цифры стоит воспринимать с осторожностью.
## Почему это важно
1. Ускорение разработки. Рутинные задачи автоматизируются, разработчики получают больше времени на архитектуру.
2. Новый уровень качества. Автоматическое ревью помогает быстрее находить ошибки, но требует строгой проверки.
3. Риски безопасности. Сгенерированный код нуждается в дополнительном анализе на уязвимости.
4. Эволюция ролей. Разработчики всё больше становятся архитекторами и аудиторами, а не «создателями» кода.