Интересное про технологии и не только Для связи: @slokyton
gpt-oss-120b запуск на 4090/3090 часть 2
И так по подсказке подписчика @dvv101111 я переехал на llama.cpp он так же проверил что на его х4 4090(24gb) все запустится и не будет проблем
Далее тесты и что мы имеем
На простые запросы не более 1к токенов 101-122 t/s
| Фаза | Токен | Скорость |
| Prompt | ~11к | ~1.6к t/s |
| Gen | ~1к | ~89.2 t/s |
73GB
на 32768
токенов контекстаgpt-oss запуск на 4090/3090
TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100
Временно используйте llama.cpp с весами от unsloth
## Проблема с vLLM + gpt-oss на RTX 4090
Вчера пытался запустить новые модели от OpenAI на своих RTX 4090 (48GB x2) через официальный Docker образ vllm/vllm-openai:gptoss
. Результат - крах с AssertionError: Sinks are only supported in FlashAttention 3
.
Проблема системная:
Что происходит под капотом:
- OpenAI добавили в свой форк vLLM обязательное использование асинхронных декодирований
- Эти оптимизации требуют FlashAttention 3
- FA3 работает только на серверных GPU: H100, B100 или потребительских RTX 5090
- RTX 4090, даже с 48GB памяти, остается за бортом
Обходные пути не работают:
VLLM_ATTENTION_BACKEND=TRITON_ATTN_VLLM_V1
torch.AcceleratorError: CUDA error: no kernel image is available for execution on the device
OpenAI разродились двумя опенсурсными моделями, на 120b и 20b параметров. Обе — микстуры экспертов, что означает, что несмотря на размер, если вам хватает памяти GPU, модели быстрые: 5.1b и 3.6b активных параметров.
Модели рассуждающие, поддерживают 3 типа длины рассуждений: low, medium, high.
Ссылки:
— https://openai.com/open-models/
— https://openai.com/index/gpt-oss-model-card/
— https://cookbook.openai.com/articles/openai-harmony
— https://gpt-oss.com/ - тут можно поиграть с моделью
Судя по лендингу, модели уже сегодня будут доступны на Groq и Cerebas, предлагая очень быструю генерацию. И почти все инференс-движки уже поддерживают модель.
И самое крутое — как и o3, модели поддерживают вызов инструментов (поиск, Python, etc) в цепочке рассуждений.
Самое некрутое: нет мультимодальности, картинки и тем более звук модели не воспринимают.
Куда бежит AI индустрия?
В выходные перечитывая канал и ализируя посты Рефата (делает оч крутые обзоры на AI инструменты) за последние месяцы, видно четкий тренд все бегут к агентским системам, но пока больше экспериментируют, чем внедряют в продакшн
Куда бежит индустрия (по Рефату):
1. От кодинг-ассистентов к полноценным агентам
- Cursor → Cursor Agent mode
- Claude Code с sub-agents и MCP интеграциями
- Amazon Kiro как "архитектурный редактор"
- Lovable с рассуждающими агентами
Паттерн: Все перестают делать "умный автокомплит" и переходят к системам, которые могут планировать и выполнять сложные задачи самостоятельно.
2. Мультимодальность как стандарт
- Google Gemini Deep Think с параллельными агентами
- Runway Aleph для VFX
- NotebookLM с видео-режимом
- HeyGen Video Agent
Паттерн: Текст-only решения воспринимаются как legacy. Если твой AI не работает с видео/аудио/изображениями - ты отстал
3. Браузеры как новая боевая площадка
- OpenAI готовит браузер-убийцу Chrome
- Perplexity Comet в бете
- Browser MCP для интеграции с существующими браузерами
Паттерн: Поисковики и браузеры сливаются в единые AI-интерфейсы. Google нервничает не зря
4. Voice-first интерфейсы набирают обороты
- 37% разработчиков планируют audio (по отчету Amplify Partners)
- ElevenLabs персональный помощник
- Grok 4 с шепотом и пением
- Meta очки как основное устройство будущего
Паттерн: Клавиатура и мышь постепенно отходят на второй план для AI-взаимодействий
5. Инфраструктурная консолидация
- Amazon S3 Vectors убивает standalone векторные БД
- Multi-model routing становится нормой (37% используют 5+ моделей)
- MCP как стандарт для tool integration
Паттерн: Фрагментированные AI-стеки консолидируются в unified платформы
6. AI-first workflow в компаниях
- 50% кода в Google пишет AI
- AI Operations Lead как новая роль
- Netflix использует AI для создания контента
- Amazon требует AI-навыки для карьерного роста
Паттерн: AI перестает быть "экспериментом" и становится core business process.
Главный инсайт: Индустрия движется от "AI как feature" к "AI как platform". Следующие 2-3 года определят, кто создаст доминирующую систему, а кто останется с legacy-решениями
40k Telegram каналов: массовая аналитика на RTX 4090 за 48 часов
Задача на 1.5 млрд токенов
«Вошли и вышли, приключение на 20 минут»
Попали в руки 40 000 Telegram каналов
Задача: привести к единой таксономии через анализ постов, описаний и названий каналов
Масштаб
2 млн постов (по 20-50 с каждого канала)
3 млрд символов → после очистки 1.5 млрд токенов
Нужны метатеги + категории для каждого канала
Железо vs Облако: честный расчёт
GPT-4o-mini в облаке: $150 (≈12 200₽) за весь объём, мгновенно
RTX 4090 сборка (250k₽): 48 часов непрерывной работы
Точка окупаемости: 20+ экспериментов (250k₽ / 12k₽ = 20 запусков)
Двухэтапная архитектура
Этап 1 Извлечение метатегов
Задача: из постов канала получить топ-10 тегов, описывающих тематику
{
"channel_tags": [
"искусственный_интеллект",
"машинное_обучение",
"нейросети"
]
}
{
"mappings": [{
"channel_name": "Neural Deep",
"categories": ["artificial_intelligence", "technology_innovation"]
}]
}
Microsoft показали списки профессий, которые больше всего и меньше всего подвержены риску быть замененными ИИ.
Data scientist 0.77 😳
В массажисты, я пойду пусть меня научат(с) 😁
вайб-кодер != программист
Увидел на канале тёзки @toshoseti публикацию про турнир по вайб-кодингу, результат данного турнира меня совсем не удивил, так как оказалось, что дрессированные модельки показали не самый лучший результат.
В целом, ожидаемо.
Как говорят автомобилисты: "самое главное в автомобиле - это прослойка между рулём и сидением".
В вайб-кодинге плюс-минус то же самое, если над задачей работает бестолковый инженер, то и результат будет соответствующий, даже если нейросеть у него state-of-the-art и файнтюненная под задачу и промтами с контекстом подбодрённая.
Приведу одну занятную цитату из поста:
Для сравнения: на тесте SWE‑Bench лучшие модели показывают до 75% успешных решений на простом уровне и 34% на сложном. В K Prize ни одна из участвовавших моделей не преодолела даже 10% порог.
😨 Бенчмаркинг LLM в кризисе?
Классические лидерборды больше не отражают реальную эффективность моделей в прикладных задачах. Мы видим, что специалисты комбинируют метрики и сигналы, чтобы подобрать идеальную LLM под свой уникальный кейс.
Мы проводим новое исследование, чтобы понять:
🔹Как профессионалы выбирают решение на базе LLM.
🔹Какие данные, инструменты и сигналы реально помогают.
🧑💻 Для кого?
Приглашаем всех, кто профессионально связан с AI-продуктами и работает с LLM: ML-инженеры, дата-сайентисты, исследователи, продакты, MLOps и индивидуальные контрибьюторы.
➡️ Пройти опрос: https://forms.gle/dDWeWaWbxhk6qsNL7
🙏 Будем признательны за репост — это поможет собрать более широкую и качественную выборку. Мы обязательно поделимся результатами исследования по его завершению.
Новый топ в open-source среди ру моделей 30b +?
И так пока я мчу на сапсане в МСК разберу новинку от t-tech
T-pro-it-2.0 (qwen3-32b)
Запустил я модельку на нашем кластере х2 4090(48 гб модифицированные)
Влезли все те же 120к токенов в (кто забыл как настраивать rope_scaling в сonfig.json)
"rope_scaling": {
"factor": 4.0,
"original_max_position_embeddings": 32768,
"type": "yarn"
},
budget
) "enable_thinking": False
и отключить расждуения вовсеstream = client.chat.completions.create(
model="qwen3-32b",
messages=[{"role": "user", "content": "Реши: 2x + 5 = 13"}],
stream=True,
extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)
<think>\n\n</think>
\n\n'--reasoning-parser qwen3
reasoning_content
в ответе что хорошо расширят кол-во сценариев при работе с такой модельюТак так тут вторая часть вышла!
Страха и ненависти в Лас-Вегас (курсоре) точно перейдем на Claude Code в следующих итерациях)))
Зачитаться что еще накопал синьор при работе с AI инструментами
/channel/bogdanisssimo?livestream=9ae2aabd177d2ee9d0
Читать полностью…Обзор "MCP для новичков"
Пожалуй это первая публикация на Хабр в которой просто и понятно, без маркетингового булщита и воды, автор разобрался сам и попытался объяснить нам, что такое MCP (Model Context Protocol), зачем он нужен, почему он работает так как работает и какие у него особенности.
Тезис, вокруг которого построена публикация:
Model Context Protocol (MCP) - это просто API, разработанный для LLM.
gpt-5 и метрики
Миша(@mixaill76)расчехлил эксель судя по всему презу делала gpt-6
Когда хотите оставить комментарий не забывайте остаться в чатике после вступления и прожать кнопочки капчи иначе вас не пропустит гуард
Ссылочка на чатик нас уже 500 человек!
/channel/neuraldeepchat
Согласен со всеми кто репостит, метрики сказка
Я же буду пробовать запустить на своем кластере 4090(48гб)
Пойду расчехлять терминал!
🤩🤩🤩
https://github.com/huggingface/transformers/releases/tag/v4.55.0
Верим? 🤨
Upd. Пока видим, что обе момзельки MoE с 3.6B и 5.1B активными параметрами, и конечно новый ускорятор на FlashAttention3.
Architecture.
- Token-choice MoE with SwiGLU activations. Классика 🚬
- When calculating the MoE weights, a softmax is taken over selected experts (softmax-after-topk). Тоже ничего нового. 🪨
- Each attention layer uses RoPE with 128K context. Не удивили.
- Alternate attention layers: full-context, and sliding 128-token window. Сам бы так сделал. 😘
- Attention layers use a learned attention sink per-head, where the denominator of the softmax has an additional additive value. Это интересное. 🧠
- It uses the same tokenizer as GPT-4o and other OpenAI API models. Ну ок че.
- Some new tokens have been incorporated to enable compatibility with the Responses API. Ожидаемо. 😏
P. S. Спасибо дорогому подписчику
@azik1725 😘
AI-Platform > AI-Hub > AI OS: От костылей к операционной систем
Как делают сейчас: AI-Hub Франкенштейн
В очередной раз просматривая канал Refat который обозревает очень полезные AI тулы закрались мысли что будет дальше я же все это встраиваю в enterprise в другом виде и обличии
И сегодня удалось посидеть вечером собрать некоторые размышления в кучу вокруг AI-Hub систем которые сейчас все старательно разрабатывают и внедряют под лозунгом LLM всем трудящимся!
Посмотрел на архитектуру AI-систем в 5 крупных компаниях как по мне везде одна беда
Типичный enterprise AI-Hub держится на 25-40 компонентах
LLM Proxy через LiteLLM (или еще что я видел свой кастом =))
Зоопарк векторных баз (Qdrant + ChromaDB + pgvector),
Workflow ад из n8n + LangGraph + Airflow, мониторинг через LangFuse + Grafana,
ETL с 8 custom парсерами
Куча RAG пайплайнов
И еще больше систем для мониторинга и проверки
Кастомный тулинг или кто-то затащил уже MCP реестр
--Дальше по списку--
Самое очевидное для меня что заметил поголовно все "Архитекторы/Инженеры/CTO" уже сейчас пытаются высечь в камне версии langchain и vLLM(как пример) на годы вперед от создания RAG workflow систем до "Агентских кодовых Workflow" в угоду упрощения и стандартизации, по их словам AI инженеры так смогут быстрее разрабатывать а мы стабильнее поддерживать
Проблемы Integration Hell что я вижу возможно даже узко
GPU framework: от 6-8 месяцев
LLM proxy setup: 2-3 недели если берем open-source до полугода если пилим и такое тоже есть
Vector DB миграция: 3-6 месяцев + риск потери данных
15+ различных конфигураций, 8 разных UI/UX парадигм
Каждый компонент создает зависимость смена одного ломает 5-10 других
Как будут делать AI OS парадигма которая складывается у меня в голове
Концепция единой операционной системы вместо зоопарка интеграций как Android/iOS для мобильных устройств
AI OS строится по уровням(возможно что-то упускаю)
Hardware Abstraction Layer с auto-scaling между GPU
Model Orchestration Engine с умным роутингом запросов
Agent Runtime где агенты работают как процессы в Linux, и
Unified Tool Ecosystem App Store для AI-инструментов а не только для tool/mcp registry как мы привыкли сейчас думать
Кто уже строит AI OS (запустил быстрый ресерч)
VAST Data в мае 2025 анонсировала первую полноценную AI Operating System с поддержкой 1M+ GPU, AgentEngine для auto-scaling агентов и глобальной базой триллионов векторов.
Microsoft на Build 2025 показал multi-agent orchestration в Copilot Studio с MCP integration по всей экосистеме
Timeline массового внедрения(очень оптимистично)
2025: Первые AI OS для разработчиков(возможно Claude Code станет первым, как я вижу вы накатываете себе Claude Code OS на свой сервер и это становится ядром разработки в вашем продукте/компани/решении), MCP 2.0 становится стандартом
2026: Коммерческие AI OS для enterprise
2027: Первые "убийцы" legacy AI-Hub систем
Темная лошадка: Open-source проект, который соберет все компоненты в единую систему даже интересно кто запустит и как комьюнити сможет соревноваться с Google/OpenAI/Anthropic
По моим ощущениям мы на пороге сдвига от графических интерфейсов к AI operating systems
Наблюдаю действительно огромную критическую массу кода и сервисов в эту сторону
AI OS от больших игроков может создать еще большую зависимость, чем текущий зоопарк но при самостоятельном внедрении подхода дает модульность и быструю адаптацию сам себе немного противоречу но все же
AI-Hub Франкенштейн legacy debt и integration hell
И как компании будут мигрировать с существующих AI-Hub систем? (тут кстати может еще и кроется отдельный рынок для этого)
🆕 Обновление в Daisy
Добавили новые AI-модели для работы с текстом, написания кода и продвинутых рассуждений.
Вот что появилось:
🤖 ChatGPT-4.1 — быстро пишет код и анализирует данные.
🤖 GPT-o4-mini — рассуждает и предлагает идеи.
🤖 Gemini 2.5 Flash — быстро и точно решает логические задачи.
🤖 Grok-3 — оперативно отвечает на вопросы и генерирует тексты.
🤖 Claude Sonnet-4 — пишет и проверяет код, упрощает тестирование.
Подробности о лимитах использования моделей смотри в личном кабинете в разделе «Тарифы». Пробуй новые возможности Daisy и делись впечатлениями в комментариях.
⚡️ Daisy — AI-сервис для удобной работы с передовыми LLM. Работает без VPN.
🌼 @daisygpt_bot
Где посты/разборы/бенчмарки Валера?
Рутина/Переезд/и много чего еще затянуло на пару недель
Head of AI нужно тоже отрабатывать по этому было много выступлений/планирования/и принятия решений/постановок задач
Артём в же завершил свою тираду про разработку сервиса для корпоративной транскрибации аудио/видео встреч(читайте там аж 5 частей)
Разбирался что такое SWE и как его готовить особенно в разрезе запуска бенчмарков
Записывал подкаст с Богданом
Выступал на конференциях
Тестировал новую модель от t-tech
Успел написать через курсор сервис для разметки 2.5кк постов в тг (на одной 4090 и 7b модельке это длилось 54 часа) кстати это экономия почти $200 на gpt-4o-mini или $8к на gpt-4o
На двух 4090(48гб) спекулятивный декодинг не ускоряет ничего из за низкого p2p между картами(запишем пробовать больше не будем)
Так же последние 2 недели я в попытках причесать свою IT инфру(14 физических серверов и 13 виртуалок)
Понял что за последние 2 месяца экспериментов все в таком хаосе что сам ужаснулся, ровно как у меня в коробке с проводами и нужными штуками для пайки
Но как говорится насмотрелся я мотивирующих видео, нет
Решил начать с того что просто описал каждый сервис в табличку и понял что буду делать с этим дальше(пока ловлю дзен)
После такого аудита нашел что аж 2 сервера простаивало(2080ti+2060super) пойдут под сервис воркеры для speechcoreai.com (4к регистраций без рекламы уже есть!)
Еще из новостей мне приехала новая 4090 (буду разворачивать на пару недель под заказ vLLM + VL модель для разметки видео)
DNS уже 3 раз переносит мне доставку нужного БП для сборки в чатике скину как нить процесс сборки
Вот такой мини обзор последних 2 недель!
В заготовках лежит пост про локальную инфру для RAG и своих экспериментов! (Сколько/Как собрать/Какие модели)
120 млн ₽ за T-Pro 2.0 — образцовая дорожная карта в AI-гонку
Первые эксперименты с файнтюнингом всегда дороже (это мы трезво понимаем), но ребята показали как красиво войти в топ-лигу ру моделей
Второй прогон вышел в 120 лямов за полгода работы это просто огонь по нынешним меркам!
Для сравнения Витя приводит как западные модели сжигают десятки миллиардов на аналогичные задачи понятно что там с 0
Я считаю что это топ подход
Зачем городить с нуля сейчас когда в гонке железа топ модели это до 32b и 90% задач в топиках data extraction и search assistant
Можно взять проверенную базу и довести до ума?
Китайцы уже потратились на фундамент используй и развивай
Статистика загрузок с HuggingFace 30k! За первую неделю после релиза
Сам тестирую не gguf версию пока что полет нормальный! Но тесты все еще идут
Киберпанк, который мы заслужили: собеседование с нейро-HR. Добро пожаловать в будущее, мясной мешок.
Читать полностью…График точности всех RAG экспериментов из ERCv2
Напомню, что в ERCr2 43 разные команды ставили эксперименты по построению RAG систем, которые смогут дать наиболее точные ответы на 100 вопросов по 100 PDF (публичные отчеты компаний). Некоторые вопросы требовали сравнительной работы с разными PDF.
Всего было поставлено 134 эксперимента с разными моделями и архитектурами. На этой таблицы они все отображены.
- R - это точность работы Retrieval алгоритма (системы должны были подтверждать свои ответы ссылками на страница)
- G - это точность финального ответа, на основе ground truth данных
- Зеленая линия - линия, где у систем качество Retrieval совпадает с качеством Generation.
Архитектуры, которые выше этой линии - доставали много ненужных страниц (или пропускали нужные), но как-то получали правильный ответ.
Те, кто был ниже - находили правильные данные, но путались с генерацией ответа.
Самые лучшие RAG системы (по итоговому качеству ответов) - "сгрудились" рядом с этой зеленой линией - строго под ней. Получается логический вывод - качество финального ответа обычно зависит от качества заполнения контекста.
Ваш, @llm_under_hood 🤗
PS: Исходную таблицу можно увидеть на странице ERC. Там же есть ссылки на все доступные исходные данные соревнования, включая алгоритм оценки результатов и описания архитектур.
Завтра выступлю на конфе Turbo ML Conf 2025
/channel/zheltyi_ai/440
Рега уже закрыта, будет запись
Чуть чуть будет спама от меня
Нас 120 человек не пропусти важное!
/channel/bogdanisssimo?livestream=9ae2aabd177d2ee9d0
Потихоньку начинаем, проверяем звук и всё такое
Сюда можно писать комментарии, вопросы, присылать реакции из вайба
Напоминаем что сегодня в 19:00 по мск мы с t.me/neuraldeep обсудим тонкости внедрения LLM в бизнесы, не задудьте добавить время в календарь чтобы не пропустить
https://stripo.email/storage/ics/2025/7/ics_neural-deep-bogdanisssimo-2025-07-08-060232.ics