Интересное про технологии и не только Для связи: @slokyton
Добавил еще в бд посты из канала /channel/denissexy
Интересно получается
Про b2b и технину из /channel/llm_under_hood
А про более развлекательный но тоже технический контент подмешиваем из /channel/denissexy
Кстати за короткий период добавил туда
6 Навыков
FTS+KNN
И новых данных
По тренду видно что вроде лайки начинают увеличиваться
@neuraldeepbot
gpt-oss-120b запуск на 4090/3090 часть 2
И так по подсказке подписчика @dvv101111 я переехал на llama.cpp он так же проверил что на его х4 4090(24gb) все запустится и не будет проблем
Далее тесты и что мы имеем
На простые запросы не более 1к токенов 101-122 t/s
| Фаза | Токен | Скорость |
| Prompt | ~11к | ~1.6к t/s |
| Gen | ~1к | ~89.2 t/s |
73GB
на 32768
токенов контекстаgpt-oss запуск на 4090/3090
TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100
Временно используйте llama.cpp с весами от unsloth
## Проблема с vLLM + gpt-oss на RTX 4090
Вчера пытался запустить новые модели от OpenAI на своих RTX 4090 (48GB x2) через официальный Docker образ vllm/vllm-openai:gptoss
. Результат - крах с AssertionError: Sinks are only supported in FlashAttention 3
.
Проблема системная:
Что происходит под капотом:
- OpenAI добавили в свой форк vLLM обязательное использование асинхронных декодирований
- Эти оптимизации требуют FlashAttention 3
- FA3 работает только на серверных GPU: H100, B100 или потребительских RTX 5090
- RTX 4090, даже с 48GB памяти, остается за бортом
Обходные пути не работают:
VLLM_ATTENTION_BACKEND=TRITON_ATTN_VLLM_V1
torch.AcceleratorError: CUDA error: no kernel image is available for execution on the device
OpenAI разродились двумя опенсурсными моделями, на 120b и 20b параметров. Обе — микстуры экспертов, что означает, что несмотря на размер, если вам хватает памяти GPU, модели быстрые: 5.1b и 3.6b активных параметров.
Модели рассуждающие, поддерживают 3 типа длины рассуждений: low, medium, high.
Ссылки:
— https://openai.com/open-models/
— https://openai.com/index/gpt-oss-model-card/
— https://cookbook.openai.com/articles/openai-harmony
— https://gpt-oss.com/ - тут можно поиграть с моделью
Судя по лендингу, модели уже сегодня будут доступны на Groq и Cerebas, предлагая очень быструю генерацию. И почти все инференс-движки уже поддерживают модель.
И самое крутое — как и o3, модели поддерживают вызов инструментов (поиск, Python, etc) в цепочке рассуждений.
Самое некрутое: нет мультимодальности, картинки и тем более звук модели не воспринимают.
Куда бежит AI индустрия?
В выходные перечитывая канал и ализируя посты Рефата (делает оч крутые обзоры на AI инструменты) за последние месяцы, видно четкий тренд все бегут к агентским системам, но пока больше экспериментируют, чем внедряют в продакшн
Куда бежит индустрия (по Рефату):
1. От кодинг-ассистентов к полноценным агентам
- Cursor → Cursor Agent mode
- Claude Code с sub-agents и MCP интеграциями
- Amazon Kiro как "архитектурный редактор"
- Lovable с рассуждающими агентами
Паттерн: Все перестают делать "умный автокомплит" и переходят к системам, которые могут планировать и выполнять сложные задачи самостоятельно.
2. Мультимодальность как стандарт
- Google Gemini Deep Think с параллельными агентами
- Runway Aleph для VFX
- NotebookLM с видео-режимом
- HeyGen Video Agent
Паттерн: Текст-only решения воспринимаются как legacy. Если твой AI не работает с видео/аудио/изображениями - ты отстал
3. Браузеры как новая боевая площадка
- OpenAI готовит браузер-убийцу Chrome
- Perplexity Comet в бете
- Browser MCP для интеграции с существующими браузерами
Паттерн: Поисковики и браузеры сливаются в единые AI-интерфейсы. Google нервничает не зря
4. Voice-first интерфейсы набирают обороты
- 37% разработчиков планируют audio (по отчету Amplify Partners)
- ElevenLabs персональный помощник
- Grok 4 с шепотом и пением
- Meta очки как основное устройство будущего
Паттерн: Клавиатура и мышь постепенно отходят на второй план для AI-взаимодействий
5. Инфраструктурная консолидация
- Amazon S3 Vectors убивает standalone векторные БД
- Multi-model routing становится нормой (37% используют 5+ моделей)
- MCP как стандарт для tool integration
Паттерн: Фрагментированные AI-стеки консолидируются в unified платформы
6. AI-first workflow в компаниях
- 50% кода в Google пишет AI
- AI Operations Lead как новая роль
- Netflix использует AI для создания контента
- Amazon требует AI-навыки для карьерного роста
Паттерн: AI перестает быть "экспериментом" и становится core business process.
Главный инсайт: Индустрия движется от "AI как feature" к "AI как platform". Следующие 2-3 года определят, кто создаст доминирующую систему, а кто останется с legacy-решениями
40k Telegram каналов: массовая аналитика на RTX 4090 за 48 часов
Задача на 1.5 млрд токенов
«Вошли и вышли, приключение на 20 минут»
Попали в руки 40 000 Telegram каналов
Задача: привести к единой таксономии через анализ постов, описаний и названий каналов
Масштаб
2 млн постов (по 20-50 с каждого канала)
3 млрд символов → после очистки 1.5 млрд токенов
Нужны метатеги + категории для каждого канала
Железо vs Облако: честный расчёт
GPT-4o-mini в облаке: $150 (≈12 200₽) за весь объём, мгновенно
RTX 4090 сборка (250k₽): 48 часов непрерывной работы
Точка окупаемости: 20+ экспериментов (250k₽ / 12k₽ = 20 запусков)
Двухэтапная архитектура
Этап 1 Извлечение метатегов
Задача: из постов канала получить топ-10 тегов, описывающих тематику
{
"channel_tags": [
"искусственный_интеллект",
"машинное_обучение",
"нейросети"
]
}
{
"mappings": [{
"channel_name": "Neural Deep",
"categories": ["artificial_intelligence", "technology_innovation"]
}]
}
Microsoft показали списки профессий, которые больше всего и меньше всего подвержены риску быть замененными ИИ.
Data scientist 0.77 😳
В массажисты, я пойду пусть меня научат(с) 😁
вайб-кодер != программист
Увидел на канале тёзки @toshoseti публикацию про турнир по вайб-кодингу, результат данного турнира меня совсем не удивил, так как оказалось, что дрессированные модельки показали не самый лучший результат.
В целом, ожидаемо.
Как говорят автомобилисты: "самое главное в автомобиле - это прослойка между рулём и сидением".
В вайб-кодинге плюс-минус то же самое, если над задачей работает бестолковый инженер, то и результат будет соответствующий, даже если нейросеть у него state-of-the-art и файнтюненная под задачу и промтами с контекстом подбодрённая.
Приведу одну занятную цитату из поста:
Для сравнения: на тесте SWE‑Bench лучшие модели показывают до 75% успешных решений на простом уровне и 34% на сложном. В K Prize ни одна из участвовавших моделей не преодолела даже 10% порог.
😨 Бенчмаркинг LLM в кризисе?
Классические лидерборды больше не отражают реальную эффективность моделей в прикладных задачах. Мы видим, что специалисты комбинируют метрики и сигналы, чтобы подобрать идеальную LLM под свой уникальный кейс.
Мы проводим новое исследование, чтобы понять:
🔹Как профессионалы выбирают решение на базе LLM.
🔹Какие данные, инструменты и сигналы реально помогают.
🧑💻 Для кого?
Приглашаем всех, кто профессионально связан с AI-продуктами и работает с LLM: ML-инженеры, дата-сайентисты, исследователи, продакты, MLOps и индивидуальные контрибьюторы.
➡️ Пройти опрос: https://forms.gle/dDWeWaWbxhk6qsNL7
🙏 Будем признательны за репост — это поможет собрать более широкую и качественную выборку. Мы обязательно поделимся результатами исследования по его завершению.
Новый топ в open-source среди ру моделей 30b +?
И так пока я мчу на сапсане в МСК разберу новинку от t-tech
T-pro-it-2.0 (qwen3-32b)
Запустил я модельку на нашем кластере х2 4090(48 гб модифицированные)
Влезли все те же 120к токенов в (кто забыл как настраивать rope_scaling в сonfig.json)
"rope_scaling": {
"factor": 4.0,
"original_max_position_embeddings": 32768,
"type": "yarn"
},
budget
) "enable_thinking": False
и отключить расждуения вовсеstream = client.chat.completions.create(
model="qwen3-32b",
messages=[{"role": "user", "content": "Реши: 2x + 5 = 13"}],
stream=True,
extra_body={"chat_template_kwargs": {"enable_thinking": False}}
)
<think>\n\n</think>
\n\n'--reasoning-parser qwen3
reasoning_content
в ответе что хорошо расширят кол-во сценариев при работе с такой модельюТак так тут вторая часть вышла!
Страха и ненависти в Лас-Вегас (курсоре) точно перейдем на Claude Code в следующих итерациях)))
Зачитаться что еще накопал синьор при работе с AI инструментами
/channel/bogdanisssimo?livestream=9ae2aabd177d2ee9d0
Читать полностью…База знаний по каналу в телеграм? Зачем это нужно?
RAG/LLM workflow/Чат бот
8 месяцев назад я решил сделать первый эксперимент в этом направление и смотря на себя тогда осознал что перемудрил с выгрузкой
сделал очень сложные связи и в целом ответы чат бота были не сказать что прям полезные
Что же я решил переосмыслить имея в руках всю мощь Cursor + Claude Sonnet 4 😈
Первое я полностью переделал логику различения датасета упростил все ровно до двух коллекций
1) Посты
2) Коменты к ним и обсуждения
Второе
Я добавил в первый шаг llm классификатор сложности запроса пользователя от него у нас меняется кол-во top n
которые мы получаем при векторном поиске
Да это все еще вектора
Да это все еще векторный поиск
Да это все еще простой bge реранкер на выходе
FTS решил пока не тащить дабы прочувствовать всю боль суть семантики вопросов и поиска информации
Перевел все на gpt-4o-mini
Кстати теперь бот будет жить тут и я буду регулярно его пополнять и другими каналами @neuraldeepbot
Cейчас в боте данные на сегодня из канала/и чата канала /channel/llm_under_hood
Что я точно могу сказать что при первом приближении конечно вы задаете интересные вопросы и система на такое не рассчитана
Какой последний пост был?
какая на текущий момент лучшая локальная LLM?
Что такое SGR
gpt-5 и метрики
Миша(@mixaill76)расчехлил эксель судя по всему презу делала gpt-6
Когда хотите оставить комментарий не забывайте остаться в чатике после вступления и прожать кнопочки капчи иначе вас не пропустит гуард
Ссылочка на чатик нас уже 500 человек!
/channel/neuraldeepchat
Согласен со всеми кто репостит, метрики сказка
Я же буду пробовать запустить на своем кластере 4090(48гб)
Пойду расчехлять терминал!
🤩🤩🤩
https://github.com/huggingface/transformers/releases/tag/v4.55.0
Верим? 🤨
Upd. Пока видим, что обе момзельки MoE с 3.6B и 5.1B активными параметрами, и конечно новый ускорятор на FlashAttention3.
Architecture.
- Token-choice MoE with SwiGLU activations. Классика 🚬
- When calculating the MoE weights, a softmax is taken over selected experts (softmax-after-topk). Тоже ничего нового. 🪨
- Each attention layer uses RoPE with 128K context. Не удивили.
- Alternate attention layers: full-context, and sliding 128-token window. Сам бы так сделал. 😘
- Attention layers use a learned attention sink per-head, where the denominator of the softmax has an additional additive value. Это интересное. 🧠
- It uses the same tokenizer as GPT-4o and other OpenAI API models. Ну ок че.
- Some new tokens have been incorporated to enable compatibility with the Responses API. Ожидаемо. 😏
P. S. Спасибо дорогому подписчику
@azik1725 😘
AI-Platform > AI-Hub > AI OS: От костылей к операционной систем
Как делают сейчас: AI-Hub Франкенштейн
В очередной раз просматривая канал Refat который обозревает очень полезные AI тулы закрались мысли что будет дальше я же все это встраиваю в enterprise в другом виде и обличии
И сегодня удалось посидеть вечером собрать некоторые размышления в кучу вокруг AI-Hub систем которые сейчас все старательно разрабатывают и внедряют под лозунгом LLM всем трудящимся!
Посмотрел на архитектуру AI-систем в 5 крупных компаниях как по мне везде одна беда
Типичный enterprise AI-Hub держится на 25-40 компонентах
LLM Proxy через LiteLLM (или еще что я видел свой кастом =))
Зоопарк векторных баз (Qdrant + ChromaDB + pgvector),
Workflow ад из n8n + LangGraph + Airflow, мониторинг через LangFuse + Grafana,
ETL с 8 custom парсерами
Куча RAG пайплайнов
И еще больше систем для мониторинга и проверки
Кастомный тулинг или кто-то затащил уже MCP реестр
--Дальше по списку--
Самое очевидное для меня что заметил поголовно все "Архитекторы/Инженеры/CTO" уже сейчас пытаются высечь в камне версии langchain и vLLM(как пример) на годы вперед от создания RAG workflow систем до "Агентских кодовых Workflow" в угоду упрощения и стандартизации, по их словам AI инженеры так смогут быстрее разрабатывать а мы стабильнее поддерживать
Проблемы Integration Hell что я вижу возможно даже узко
GPU framework: от 6-8 месяцев
LLM proxy setup: 2-3 недели если берем open-source до полугода если пилим и такое тоже есть
Vector DB миграция: 3-6 месяцев + риск потери данных
15+ различных конфигураций, 8 разных UI/UX парадигм
Каждый компонент создает зависимость смена одного ломает 5-10 других
Как будут делать AI OS парадигма которая складывается у меня в голове
Концепция единой операционной системы вместо зоопарка интеграций как Android/iOS для мобильных устройств
AI OS строится по уровням(возможно что-то упускаю)
Hardware Abstraction Layer с auto-scaling между GPU
Model Orchestration Engine с умным роутингом запросов
Agent Runtime где агенты работают как процессы в Linux, и
Unified Tool Ecosystem App Store для AI-инструментов а не только для tool/mcp registry как мы привыкли сейчас думать
Кто уже строит AI OS (запустил быстрый ресерч)
VAST Data в мае 2025 анонсировала первую полноценную AI Operating System с поддержкой 1M+ GPU, AgentEngine для auto-scaling агентов и глобальной базой триллионов векторов.
Microsoft на Build 2025 показал multi-agent orchestration в Copilot Studio с MCP integration по всей экосистеме
Timeline массового внедрения(очень оптимистично)
2025: Первые AI OS для разработчиков(возможно Claude Code станет первым, как я вижу вы накатываете себе Claude Code OS на свой сервер и это становится ядром разработки в вашем продукте/компани/решении), MCP 2.0 становится стандартом
2026: Коммерческие AI OS для enterprise
2027: Первые "убийцы" legacy AI-Hub систем
Темная лошадка: Open-source проект, который соберет все компоненты в единую систему даже интересно кто запустит и как комьюнити сможет соревноваться с Google/OpenAI/Anthropic
По моим ощущениям мы на пороге сдвига от графических интерфейсов к AI operating systems
Наблюдаю действительно огромную критическую массу кода и сервисов в эту сторону
AI OS от больших игроков может создать еще большую зависимость, чем текущий зоопарк но при самостоятельном внедрении подхода дает модульность и быструю адаптацию сам себе немного противоречу но все же
AI-Hub Франкенштейн legacy debt и integration hell
И как компании будут мигрировать с существующих AI-Hub систем? (тут кстати может еще и кроется отдельный рынок для этого)
🆕 Обновление в Daisy
Добавили новые AI-модели для работы с текстом, написания кода и продвинутых рассуждений.
Вот что появилось:
🤖 ChatGPT-4.1 — быстро пишет код и анализирует данные.
🤖 GPT-o4-mini — рассуждает и предлагает идеи.
🤖 Gemini 2.5 Flash — быстро и точно решает логические задачи.
🤖 Grok-3 — оперативно отвечает на вопросы и генерирует тексты.
🤖 Claude Sonnet-4 — пишет и проверяет код, упрощает тестирование.
Подробности о лимитах использования моделей смотри в личном кабинете в разделе «Тарифы». Пробуй новые возможности Daisy и делись впечатлениями в комментариях.
⚡️ Daisy — AI-сервис для удобной работы с передовыми LLM. Работает без VPN.
🌼 @daisygpt_bot
Где посты/разборы/бенчмарки Валера?
Рутина/Переезд/и много чего еще затянуло на пару недель
Head of AI нужно тоже отрабатывать по этому было много выступлений/планирования/и принятия решений/постановок задач
Артём в же завершил свою тираду про разработку сервиса для корпоративной транскрибации аудио/видео встреч(читайте там аж 5 частей)
Разбирался что такое SWE и как его готовить особенно в разрезе запуска бенчмарков
Записывал подкаст с Богданом
Выступал на конференциях
Тестировал новую модель от t-tech
Успел написать через курсор сервис для разметки 2.5кк постов в тг (на одной 4090 и 7b модельке это длилось 54 часа) кстати это экономия почти $200 на gpt-4o-mini или $8к на gpt-4o
На двух 4090(48гб) спекулятивный декодинг не ускоряет ничего из за низкого p2p между картами(запишем пробовать больше не будем)
Так же последние 2 недели я в попытках причесать свою IT инфру(14 физических серверов и 13 виртуалок)
Понял что за последние 2 месяца экспериментов все в таком хаосе что сам ужаснулся, ровно как у меня в коробке с проводами и нужными штуками для пайки
Но как говорится насмотрелся я мотивирующих видео, нет
Решил начать с того что просто описал каждый сервис в табличку и понял что буду делать с этим дальше(пока ловлю дзен)
После такого аудита нашел что аж 2 сервера простаивало(2080ti+2060super) пойдут под сервис воркеры для speechcoreai.com (4к регистраций без рекламы уже есть!)
Еще из новостей мне приехала новая 4090 (буду разворачивать на пару недель под заказ vLLM + VL модель для разметки видео)
DNS уже 3 раз переносит мне доставку нужного БП для сборки в чатике скину как нить процесс сборки
Вот такой мини обзор последних 2 недель!
В заготовках лежит пост про локальную инфру для RAG и своих экспериментов! (Сколько/Как собрать/Какие модели)
120 млн ₽ за T-Pro 2.0 — образцовая дорожная карта в AI-гонку
Первые эксперименты с файнтюнингом всегда дороже (это мы трезво понимаем), но ребята показали как красиво войти в топ-лигу ру моделей
Второй прогон вышел в 120 лямов за полгода работы это просто огонь по нынешним меркам!
Для сравнения Витя приводит как западные модели сжигают десятки миллиардов на аналогичные задачи понятно что там с 0
Я считаю что это топ подход
Зачем городить с нуля сейчас когда в гонке железа топ модели это до 32b и 90% задач в топиках data extraction и search assistant
Можно взять проверенную базу и довести до ума?
Китайцы уже потратились на фундамент используй и развивай
Статистика загрузок с HuggingFace 30k! За первую неделю после релиза
Сам тестирую не gguf версию пока что полет нормальный! Но тесты все еще идут
Киберпанк, который мы заслужили: собеседование с нейро-HR. Добро пожаловать в будущее, мясной мешок.
Читать полностью…График точности всех RAG экспериментов из ERCv2
Напомню, что в ERCr2 43 разные команды ставили эксперименты по построению RAG систем, которые смогут дать наиболее точные ответы на 100 вопросов по 100 PDF (публичные отчеты компаний). Некоторые вопросы требовали сравнительной работы с разными PDF.
Всего было поставлено 134 эксперимента с разными моделями и архитектурами. На этой таблицы они все отображены.
- R - это точность работы Retrieval алгоритма (системы должны были подтверждать свои ответы ссылками на страница)
- G - это точность финального ответа, на основе ground truth данных
- Зеленая линия - линия, где у систем качество Retrieval совпадает с качеством Generation.
Архитектуры, которые выше этой линии - доставали много ненужных страниц (или пропускали нужные), но как-то получали правильный ответ.
Те, кто был ниже - находили правильные данные, но путались с генерацией ответа.
Самые лучшие RAG системы (по итоговому качеству ответов) - "сгрудились" рядом с этой зеленой линией - строго под ней. Получается логический вывод - качество финального ответа обычно зависит от качества заполнения контекста.
Ваш, @llm_under_hood 🤗
PS: Исходную таблицу можно увидеть на странице ERC. Там же есть ссылки на все доступные исходные данные соревнования, включая алгоритм оценки результатов и описания архитектур.
Завтра выступлю на конфе Turbo ML Conf 2025
/channel/zheltyi_ai/440
Рега уже закрыта, будет запись
Чуть чуть будет спама от меня
Нас 120 человек не пропусти важное!
/channel/bogdanisssimo?livestream=9ae2aabd177d2ee9d0
Потихоньку начинаем, проверяем звук и всё такое
Сюда можно писать комментарии, вопросы, присылать реакции из вайба