14058
Head of AI redmadrobot.com From IT Admin to Head of AI in 5 years Applied AI Engineer B2C RAG (2M+ books) B2B RAG platform (10+ implementations) B2C gptdaisy.com (100k MAU) github.com/vakovalskii | chat @neuraldeepchat To infinity... and beyond!
ИИ-агенты заходят в бронирование: рассказали Forbes, что это значит для рынка
«Туту» открыл поиск и бронирование поездок через ИИ-агентов. Для сервисов это ранний тест нового канала дистрибуции: пользователь формулирует намерение в диалоге с помощником, а платформа получает шанс подключиться к нему до перехода в привычный интерфейс.
Если ИИ-агент станет точкой входа в выбор поездки, сервисам важно быть доступными для него технически и коммерчески. В моменте трафик из таких сценариев, скорее всего, будет небольшим, но для бизнеса это работа на будущую позицию в цепочке принятия решения: кто окажется ближе к моменту пользовательского намерения, тот и получит преимущество в агентной коммерции.
Илья Филиппов, CEO red_mad_robot AI
Browser use у агентов существует около полутора лет: сильные модели уже умеют открывать сайты, обходить защиты через прокси, делать скриншоты и доставать релевантную информацию. Поэтому поиск сам по себе рынок не удивит. Главный вопрос — позволяет ли MCP дойти до оформления заказа.
Сейчас агент может довести пользователя до собранного заказа, но финальную оплату человек подтверждает сам — это агентный поиск и сборка корзины, но ещё не сквозная покупка. Настоящим переломом станет момент, когда MCP позволит закрывать и оплату.
Валера Ковальский, руководитель ИИ-направления red_mad_robot
DCD: Domain–Collection–Document ↗️
Выпустили статью на arXiv, в которой представили DCD Design — архитектурный подход к организации пространства знаний и обработке запросов в RAG-системах.
DCD организует знания в виде явной иерархии и ограничивает область поиска ещё до извлечения документов.
В статье:
• объясняем, как устроен DCD;
• сравниваем его с Naive RAG, Contextual RAG и RAPTOR;
• показываем результаты экспериментов на собственном бенчмарке;
• открываем код и датасет.
Если хочется разобраться на русском — уже вышел материал на Хабре. А все детали экспериментов, метрики и оценки — в статье↗️на arXiv.
Ищу человека, который возьмёт на себя почтовую платформу на 100 млн ящиков
Рынок почты в РФ переформатируется на глазах
Старая модель «жить на чужой бесплатной почте» закончилась
На этом фоне нужна экспертиза на почтовый сервис национального масштаба, до 100 000 000 ящиков, полностью в российском контуре
Ищу не «инженера Postfix», а технического лидера направления того, кто возьмёт архитектуру/стратегию и результат на себя + соберёт команду под себя
Тебе сюда, если ты:
• строил или эксплуатировал почту/мессенджинг на десятках млн пользователей (Яндекс / VK / Mail.ru / крупный телеком / хостинг / RuPost);
• держишь весь стек: распределённое хранилище и очереди, доставляемость на уровне IP-пулов, антиспам/антифрод;
• понимаешь комплаенс на масштабе — 152-ФЗ, ОРИ, СОРМ (на 100 млн это фундамент, а не опция);
• умеешь вести команду и отвечать за направление, а не только за конфиги.
Формат обсуждаем — лид/Head, фуллтайм или партнёрство в проекте. Условия под уровень.
Особенно ценно услышать тех, кто уже ловил грабли hyperscale-почты, которых нет в документации
👉 Отклик боту @kovalski_hairing_bot: пришли PDF (CV/опыт) и в подписи пару строк о себе. Одна заявка с человека, анализ будет в ручном режиме без ИИ =)
что бан fable 5 как прецедент значит для нас, фаундеров без гражданства сша, которые используют frontier модели
— фронтир-модель теперь это отзываемый сервис, а не софт который ты купил. одно письмо от правительства и она исчезает из твоего стека за ночь. если продукт жестко завязан на одну топ-модель это single point of failure. Недавний релиз higgsfiled с Fable 4 вот сейчас поплыл
— большинство из нас сегодня в порядке. вырубили только fable 5 и mythos 5, все остальные клоды работают. opus 4.8 закрывает процентов 95 продуктовых задач. если ты строил именно на fable 5 (контент-пайплайны, агенты, длинные таски) - оно лежит прямо сейчас. меняй модель сегодня и относись к этому как к bus factor только для моделей
— настоящий долгий риск для нас, фаундеров без сша паспортов: режим верификации, где твой паспорт решает, дадут ли тебе лучшие модели. это не сегодняшняя история, а та за которой надо следить
— гражданство твоих юзеров может стать твоей проблемой, а не только твое собственное. ограничение по гражданству (а не по гео) значит что фильтровать придется и конечных пользователей
— топ-доступ и так шел со звездочками. fable и mythos 5 запустили с обязательным 30-дневным хранением всего трафика, даже для тех у кого был zero-retention контракт. бан - это вторая звездочка. больше мощности = больше комплаенса, и его будет только больше
"будущее уже наступило, просто оно распределено неравномерно"
@neural_prosecco
STT-сервис для Long Record записей
Speechcore перешел под управление NeuralDeep!
Интеграции стали нативнее.
Использование удобнее!
https://speechcore.neuraldeep.ru/
⚡️ Открываем бенчмарк для детекции PII в русском тексте
Мы тут много рассказывали про работу guardrails. А теперь выкатываем в открытый доступ бенчмарк для детекции персональных данных на русском языке. На нём можно сравнивать NER-модели, PII-детекторы и системы анонимизации.
Внутри датасета 21 тип персональных данных:
• ФИО: имя, фамилия, отчество;
• адресная иерархия: страна, регион, город, район, улица, дом;
• контакты: email, телефон, URL, IP;
• документы: паспорт, СНИЛС, ИНН, ОМС, банковская карта, водительское удостоверение, военный билет, свидетельство о рождении.
Датасет состоит из синтетических данных, а также реальных примеров из продакшен-логов, где персональные данные заменены на синтетику. Внутри сгенерированные данные в формате документов + сложные пограничные кейсы и опечатки.
Все данные представлены в формате BIO. Разметка и валидация выполнялись частично вручную, частично с помощью LLM. В карточке датасета описали таксономию сущностей и протокол оценки, а ещё добавили результаты популярных открытых моделей для удобного сравнения. 😊
Прогоняйте свои анонимайзеры, PII-детекторы и NER-модели, ломайте бенчмарк и делитесь результатами в комментариях.
↗️ Hugging Face
Автор этого поста, как и многих других про NER и PII, Женя Андриевская — NLP-инженер в R&D red_mad_robot
О, тоже подъехало
Пойду делать AGI
/channel/neuraldeepchat/63651
Вайбдрайвинг голосом, а почему нет?
Настроил на руле Сири так что бы вызвать клаву голосовую на телефон
IMAGE API в рамках текущих тарифов, включая FREE!
https://neuraldeep.ru/docs#images
Все тарифы:
1) FLUX image · генерация (/v1/images · промпт RU→EN авто)
2) Upscale ×4 image · апскейл RealESRGAN (еще будут замены)
3) Background-remove image · удаление фона (ISNet/RMBG)
4) Enhance image · улучшение (FLUX)
5) Avatar image · аватар из фото
Голосуем за модели!
В нашем полку прибыло видеопамяти
Какую модель вы хотели бы увидеть на хабе?
Heretic не предлагать 😈
Предложения жду в комментариях.
Человек-оркестр это не мем это диагноз
Люблю этот летний утренний хайп сегодня
"накидал агентов они сами всё сделали ты только оркестрируешь, кодинг умер инженеры не нужны!!!"
Так вот скажу как человек который завёл первый MVP хаба за вечер на клоде (11 контейнеров, 15к строк), а потом полтора месяца и 693 коммита доводил его до того что он реально держит прод и принимает деньги
Демка взлетает за сутки, а продукт это месяцы?
Чет не так как продают на ютубе, но возможно я смотрю неправильный ютуб
Скиллы, саб-агенты для ревью, оркестраторы, спеки на 1000 строк, workflow
каждый новый слой не убирал баги а добавлял новые места где они прячутся и добалял мне чертов СДВГ что бы я за всем этим следил!
Регресс ловил раз 10 на ровном месте фича зелёная локально, катишь на прод и оно отваливается на эндпоинте про который агент «забыл»
ни один скилл / плагин / MCP не дал мне гарантии что после раскатки будет ок
ни один =(
Что реально спаслоРеально спасло что у тебя тут армия тестировщиков преданных! @nyxandro
Четкий пайплайн тестов/дел/задач перед выкаткой (он описан скриптом)
А дальше
тесты, логи, тесты, логи, ещё раз логи, потом снова тесты 💀
smoke перед каждым пушем, полный прогон перед продом
читать логи всех сторон системы (vllm, litellm, гейт, вебхук) там вся соль, а не в "агент сказал готово"
деплой не когда модель написала done, а когда зелёный гейт сказал done и я глазами дернул метод и увидел ответ
единственная «фича» которая ни разу не подвела это дисциплина смотреть в логи да через агента но смотреть каждый раз ждать по 5/10/20 минут у терминала и смотреть логи создавать события самому или ждать юзеров
А за счёт чего это вообще едет?
За счёт своей базы, не агентской О_о
тащит то что накоплено за 6 лет карьеры
девопс, сети, линукс, докер
поднять, изолировать, разрулить роутинг, не уронить прод или уронить и поднять!
vllm и модели изнутри
чат-темплейты, constrained decoding, harmony, парсеры тулов, я лазил в кишки и переписывал
железо, нагрузка, температуры: знаю что мои 4090 48гб или rtx6000 держат и когда кипят, а не гадаю
питон, бекенд, фронтенд: что б прочитать что нагенерил агент и понять где он наврал
агент без этой базы это джун с уверенным тоном
на проде опасная штука
Человек-AI-оркестр не миф, но сделали меня им не агенты и уж точно не супер скилл или md файл
я стал им за 6 лет, пока руками поднимал инфру, ронял и чинил прод, лез в инференс, считал нагрузку и температуры
агент это рычаг, а опора это те самые 6 лет в голове
поэтому всё что нужно что б хаб не просто крутился а начал приносить деньги и принимать платежи я настроил сам
роутинг, sticky-кеш, биллинг через юкассу, лимиты, грейсы, рефанды, изоляция песочниц, бекапы, мониторинг
агент писал код, а что куда и зачем решал я
И тут небольшая ремарка про психику
По ощущениям на сегодня у меня либо раздвоение личности, либо продуктивность на уровне целой команды
пока сам не разобрал что именно
но визит к специалисту чувствую точно не помешает 🙂
Моё решение чутка сложнее мобильного приложения с бекендом и прокси к облачным ллмкам
тут свой инференс на своём железе, мультисервис, изоляция, биллинг, b2b по токенам, агент со своей песочницей, часть живет в k8s
поэтому это и не делается за сутки
поэтому мне и интересно
поэтому я и вкладываю столько времени
будь это тонкий клиент к api gpt мне стало бы скучно через день
Агенты замена инженера сегодня?
Нет
Они дают рычаг тому у кого есть на что опереться
думать, резать на куски, проверять, читать логи и нести ответственность за прод всё ещё ты
и тянет это твоя база по всему стеку собранная годами, а не очередной плагин
чем проще обвязка тем надёжнее едет: пара промптов в рукаве, context7, web search, playwright и железная дисциплина тестов
остальное лестницы из спичек, проще сжечь чем поддерживать
Так что когда вам в сотый раз скажут «оркестратор агентов всех заменил»
покажите мой пост и мой хаб
попросите показать логи
и тесты
и что было когда он раскатил это на прод
и что было когда у него было 200 рпс
и спросите сколько лет он до этого собирал свою базу 😈
Я и мое выгораниеЯ и Claude Code с первого раза пилит фичу правильноКодинговые агенты всех заменили Все тесты зеленые с первого разаЮтуб блогеры продолжают стримить и не лезут в ИИ
Я и мой взлетевший мега AI SaaS выходит на прибыль
Сравнение топовых harness на локальных моделях
Совместно с rnd отделом red_mad_robot подготовили и провели данный бенчмарк, отдельное спасибо Андрею Иванову за подготовку стендов и проведение бенчмарка!
Модели взяли LLM хаба https://hub.neuraldeep.ru/
Сохраняйте ссылку на бенчмарк, теперь это буде регулярная страничка которую мы будем обновлять!
Бенчмарк: https://hub.neuraldeep.ru/#harness
Лидерборд будет пополнятся моделями
Drift планируется к open source в этом году!
gpt oss 120b | Qwen3.6-35B-A3B
Все модели были развернуты на rtx 6000 pro/4090(48gb x2)
Как вывод абсолютный лидер сегодня это hermes agent
Даже удалось погонять на PAC1 от Рината!
Походу я слишком часто общаюсь с клодом матом….
Читать полностью…
Для Kimi k2.6 сброшены лимиты для всех PRO подписчиков на neuraldeep.ru
На следующей неделе ожидаем появление GLM-5.2, DeepSeek v4 flash через pay as you go формат (часть трафика будет направлена на партнеров в РФ, часть на АПИ официальных поставщиков) следите за новостями
neuraldeep.ru/news
Перевайбкодь за 20 дней или умри
Данный сервис создавался людьми без LLM-агентов на протяжении 2 лет
Мне понадобилось 20 дней, чтобы переделать на свои рельсы вайбкода всю https://gptdaisy.com/chat/auth/ в рамках эксперимента AI PDLC на базе Opus 4.8
Встроил свой дрифт(ReAct агент) внутрь системы
Переработал функционал агентов
Изменил работу с тулами
Улучшил поиск в интернете
Агент умеет редактировать фото за несколько ходов
Память
Артефакты
Добавил новые модели
Выкинул RAG =)
Снизил нагрузку на бэкенд на 80%
Поднял MAU до 1000+ человек
Просто решил поделиться тем, чем ещё занят последнее время. Сервис нацелен на простой юз и простых пользователей
Будут предложения, вопросы или баги — приходите в комментарии
До лендинга руки ещё не дотянулись =(
Буду дальше рассказывать про этот сервис, про метрики, почему взялся и что будет дальше!
Так ну если на мои решения снимают уже рилсы, и сами, без приглашения, значит мы точно что-то правильное делаем с вами! 🔥
https://www.instagram.com/reel/DZfcqCBoaMA/?igsh=MWx3ajIzY3FmbDF1Nw==
А мы с вами не забываем база скиллов живет тут
https://neuraldeep.ru/skills
Опубликовал на Хабр небольшой обзор "У вайбкода два пути: Code-подписка и API" на тему стоимости подписок на разные кодовые агенты и тарифов агрегаторов моделей.
Всеми агентами и агрегаторами мне доводилось пользоваться, так что что циферки не просто агентом нашёл, но выстарадал, тут всё честно.
#МесяцАгентности
Diffusiongemma на хабе!
https://neuraldeep.ru/#models
~130-150 tok/s single request! (на одной 4090 48гб)
Блин я вспомнил эту имбу
Если она что-то похожее будет творить просто топ!
Кто-то проходил за добряка?
Оркестрация себя это только начало пути?
Да-да, я, как и вы, учусь, и сегодня я наконец пришел к осознанию того что не знаю как расширять свою способность кодить с ИИ на команду клонов Валеры
Осознание это нечеткое, точно его еще не удалось описать, в md файл точно не влезет
ИИ тут тоже не помощник все его рекомендации как клеше из утренней газеты
Но я точно знаю, что мы с вами все в одной лодке, просто русло не такое широкое, и не все успевают пройти вверх по течению
Кто-то в совершенстве освоил делегирование с ИИ
Кто-то в совершенстве освоил автоматизацию, что SaaS соберет за 120 минут
Кто-то может рассказать так про ИИ что тебе станет понятно как последние 20 лет все развивалось за 60 минут
Но у всего этого есть планка, предел, что-то, что мешает двигаться дальше, и когда вы придете к этому ощущению, оно заставит вас искать пути как от него избавиться
Я его еще не достиг, но уже сегодня думаю, как все эти знания масштабировать
И тут должна на помощь прийти системность и порядок, воспроизводимость и четкость
Каждый приходит к этому по-своему через свою призму понимания методологии и правильности бытия!
Так что я хочу сказать еще одним куском этого опуса, что сегодня мы все находимся в вечной стадии обучения.
ИИ точно ускорил и расширил границы наших возможностей сегодня
Но не забывайте, что у вас должно быть время на отдых и другие мирские занятия
DevOps с вами!
Питер готовьте календари, я еду на Conversations
Если думали, куда ворваться этим летом ради крутых ИИ докладов и нормального нетворка, то вам точно сюда.
Буду 25 и 26 июня просто в качестве слушателя. Хочу походить по кулуарам послушать коллег и поболтать.
Точно загляну послушать Сергея Нотевского из Битрикс24 ❤️ про локальные модели и онпрем
Вы же знаете, как я люблю свои железки
И, конечно,послушаю Стаса Округа из R77 про боль перехода от прототипа за пару недель до реального прода.
Это прям жиза – hub показал нам, как сложно строить такие решения особенно в одного!
На конфе соберется весь крупняк: от VK до Касперского и X5.
А 25 июня будет крутое афтерпати, где я точно задержусь
Выбил для вас промокод на скидку: CVS26sKaV
Забирайте билеты по ссылке ниже и увидимся на площадке
Кто пойдет – пишите в комменты, пересечемся ☕️
Регистрация и подробности
Самое простое и самое рабочее?
README-first база знаний: markdown + git, и всё». Это и есть «самое простое»
Уже второй месяц экспериментирую с очень простым подходом создания и управления базой знаний по коду, при разработке с AI ассистентами
На картинке как на сегодня выглядит граф документации для https://hub.neuraldeep.ru/
Точка входа CLAUDE.md/AGENT.md
/docs
README
/service
README(всегда как индекс страницы)
Для управления знаниями я брал концепцию Gotham от Palantir (использует технику онтологий, средствами которых разнородные данные из множества источников оснащаются смысловой информацией и унифицируются для совместного анализа. Онтологии в продуктах Palantir могут быть одного из трёх типов:
сущности — cубъекты или объекты реального мира
события — действия над сущностями, происходящие в определённый момент времени и в определённой точке пространства)
документы — подтверждения сведений о реальном мире, сведённые в унифицированный формат (используется HTML)
Только я применил разметку md как это сейчас везде заведено!
Для себя сделал skill + plagin который имеет CLI для поиска и построения индекса
Но что действительно может быть вам интересно что я так развиваю и делаю продукт дальше, по этому считаю свой подход экспериментально наблюдаемым так как вы можете не просто видеть в "теории" как такое может работать, а как именно такое работает с хабом
Кстати таким образом я веду не только кодовые базы но и личную, так же недавно перевел все решения что разрабатываю с ИИ агентами по моим внутренним тестам и ощущениям этого хватает более чем!
Но эксперимент продолжается посомтрим куда меня это все приведет =)
РЕПО: https://github.com/vakovalskii/gitmark-memory-bank
Claude Code install /plugin marketplace add vakovalskii/gitmark-memory-bank/plugin install gitmark@gitmark-marketplace
AI полезен на все 25% жирности
Установил в офисе и дома кондиционеры MDV=Midea
Заранее выяснил, чтобы они работали с Алисой и имели приложение для телефона
Узнал, что для этого в них устанавливается Wi-Fi-модуль под панелью в виде wifi usb свистка
Привезли и установили
Скачал приложение, подключил к Алисе, настроил автоматизации и забыл
Вчера вспомнил, потому что Алиса сказала, что соединения нет
В приложении оба кондиционера были не в сети
Проверил через роутер, оба есть в списке DHCP и оба даже пытаются что-то получить по пакетам из «Пятёрочки» =)
Но результат тишина
Не помогли ни перезагрузка, ни питание, даже новая настройка не сработала
Нашел что их серваки стали блокать, решил проверить можно ли локально перебрать протокол
В итоге скормил Клоду все спецификации, и шерстил он китайские форумы но все нашел!
И через 30 минут получил приложение, работающее за NAT, которое умеет управлять и опрашивать сразу два кондиционера в разных точках моего города.
Кстати, пока прокидывал другой кондей из офиса по статик NAT, ещё дал Клоду временный доступ к MikroTik, и там мы тоже прибрались знатно (я это откладывал, наверное, года два)
Stay tuned!
РЕПО: https://github.com/vakovalskii/midea-local-web
SOTA OCR на хабе
Теперь вы можете строить свои решения вместе с сервисом https://sotaocr.com/ от @glebkudr1
На базе нашего хаба, это нативная интеграция с его сервисом в рамках нашей стратегии развития таких решений в РФ
https://hub.neuraldeep.ru/docs#ocr
n8n на минималках для курильщика?
Замутил на базе Drift в хабе https://hub.neuraldeep.ru/ agent as a service (aaas).
Запрос на aaas есть? Реализация тоже за 120 минут!
Кстати, за последнее время на хабе зарегистрировалось 1500 человек
И один из зеров векторизировал 1 млн документов «кто ты воин?» =)
В целом на сегодня 10 млрд токенов суммарно прошло через наш хаб
Ещё ЦОД переехал физически и теперь работает более стабильно!
Кстати скоро будет залита из теста страничка https://hub.neuraldeep.ru/news
там вы точно не упустите все новости!
Что еще?
1) встроил vllm-router (крутая штука для кеша)
2) Так и не перешел на sglang O_o
3) Встроил b2b режим покупки моделей по токенам
4) Стабилизировал работу Drift раз 10 ловил регресс =)
5) Вроде настроил пайп создание и деплоя фичей (вроде)
6) Все откладываю почтовый сервис
По MRR отбил аренду колекейшена!
В общем следите за новостями
А ваш карманных эксперт на данныз момент по уши в агентах и в AI (P)(S)DLC!
Stay tuned!
ECOM1
Ну что давайте проверим нагрузку?
Для участия в ECOM1 сделал промокод дает хорошие лимиты для прогона агента на квен и гпт осс
Промокод можно активировать в личном кабинете для всех у кого подписка ниже PRO, подписка действует 7 дней
ECOM1-2026
https://hub.neuraldeep.ru/
Hermes Desktop следим за трендами?
Мне очень зашел сам формат UI и то, что под капотом hermes cli.
Отсюда родилась идея =)
Сделал нативную интеграцию хаба в это приложение.
Перевести интерфейс на русский.
TODO: что пилится и тестируется.
1) Доделать и проетстировать интеграцию в Битрикс, авторизацию и получение токена в вайбпортала.
2) Перевести интерфейс на русский.
3) Сделать интеграцию с GigaChat (клаудру) + YandexAPI.
Давайте наконец-то сделаем свой Cowork Great Again!
И дав Claw3D воркает!
О любых багах сообщайте в комментариях.
Репо: https://github.com/vakovalskii/hermes-desktop-ru
Drift API Open Beta
Вы просили много раз, держите =)
Теперь ваш Drift может жить где угодно! Интеграция через API доступна ниже
Подробная документация по интеграции:
https://hub.neuraldeep.ru/docs#drift-api
curl -N https://drift.neuraldeep.ru/v1/chat/completions \
-H "Authorization: Bearer dft_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.6-35b-a3b",
"messages": [{"role":"user","content":"Прочитай мой MEMORY.md и перескажи кратко"}],
"stream": true
}'
# События потока возвращают:
# data: {"choices":[{"delta":{"content":"..."}}],...}
# data: [DONE]