Telegram-канал neuraldeep - Neural Kovalskii: Неотсортированное - каталог телеграмм

neuraldeep | Неотсортированное

Подписаться на канал

Telegram-канал neuraldeep - Neural Kovalskii

-

Интересное про технологии и не только Для связи: @slokyton

Подписаться на канал

Neural Kovalskii

10 сентября 2025 10:36

У нас тут осень крепчает, будьте осторожны.

#meme

Читать полностью…

Neural Kovalskii

08 сентября 2025 19:49

Новый быстрый REFRAG — не очень сильно-то и хотелось.

Все как с ума посходили в соседних чатах и каналах. Смотри, новый супер быстрый RAG.🤩

Идея там у авторов еще благая, мол чанки семантически могут быть не связаны, поиск размывает информацию, квадратичная сложность внимания и т.п. Святые люди да? 🧖 Поэтому, конечно, давайте все нафиг усложним. 😌

Итого, идея:

1. Берем крч, нарезаем текст подсказок, к примеру, на малые чанки по 16 токенов.

2. Эмбедим их любым понравившимся вам энкодером. Можно small/tiny/base и т.п. Опа, плюсуем модельку в пайп. 🗒

3. Прогоняем через модель награды. Ага, еще её бы обучить, разметку под неё где-то потратиться собрать. Ну и опа еще одна моделька в пайп.🗒

4. Хорошие по награде тексты остаются без пожатия и как есть идут в LM, а остальные передаются в виде векторов из п. 2.

5. Делаем супир пупир генерацию. Делай легче, делай играюче, кайфуй.

Суммируем: мы имеем теперь 2 модели помимо LM. Одну из них над еще обучить, разметку собрать. Далее нам еще надо помимо in-context подсказок, создать спец. токены под эмбы подсказок, неважных для политики награды. А еще нужно LM научить с таким сетапом работать, поверьте иначе нормально не заведётся. Это как p-tune. Или как fromage для image-embs.

И что легче вам стало?)
За скорость вы заплатили +1 моделью, +1 разметкой и +2 тюнами. И так всегда. За скорость вы платите памятью, и прочими трудностями.

Статья тут.

Читать полностью…

Neural Kovalskii

08 сентября 2025 09:13

Schema-Guided Reasoning

В профильных LLM-каналах начал набирать популярность термин SGR (Schema-Guided Reasoning), но по какой-то причине народ не всегда понимает, что он обозначает, и зачем нужен. Никакого секрета нет, главное запомнить одно уравнение:

SGR = SO + COT

Из чего складывается Schema-Guided Reasoning:

1️⃣Во-первых, нам нужна модель, которая поддерживает Stuctured Output (SO) - возможность управлять результатом работы LLM, "зануляя" вероятности токенов, не подходящих под описанную нами грамматику, прямо во время выполнения.

2️⃣Во-вторых, нам нужно определить структуру желаемого ответа так, чтобы она "помогала" модели мыслить (тот самый Chain-Of-Thought).
Мы как бы «заставляем» модель пройти определенные этапы размышления перед тем как дать ответ, чтобы в результате вероятность корректных токенов ответа была выше.

Отличным примером использования такой техники является бот для дип-ресерча на открытых модельках sgr-deep-research, разработанный автором канала @neuraldeep:

🟢Сначала (скриншот 1 в комментах) мы определяем несколько классов, которые описывают шаги размышления модели. Например, когда модель хочет сгенерировать список уточняющих вопросов - она должна сначала описать себе причину, зачем ей это уточнение потребовалось, далее перечислить список терминов, которые она не поняла, предположить что они обозначают, и только после этого сгенерировать вопросы пользователя

🟢Одновременно с этим, для описания шагов размышления мы используем Pydantic-классы. Зачем? Чтобы можно было их отправить в LLM в качестве грамматики, ограничивающей результат. Теперь, если LLM решит выполнить шаг «Уточнение вопроса», она обязательно должна будет пройти указанные выше шаги, и это ограничение будет завернуто прямо в движок ее инференса. Модель просто физически не сможет отойти от схемы и начать генерировать что-то нерелевантное (почти всегда, но об этом позже)

Далее, эти шаги объединяются в цепочку (скриншот 2), которая представляет собой финальный ответ, и структура которой будет отправлена в LLM в качестве промпта.

И вот на этом этапе, становится понятно, зачем понадобился вообще SGR, и в чем его преимущество относительно других методов. Для того, чтобы сгенерировать следующий шаг в размышлениях, LLM обязательно сгенерирует:
🟢1-4 предложения, как она видит текущую ситуацию;
🟢статус выполнения плана исследования, закончен ли он, сколько еще шагов нужно пройти
🟢сколько еще шагов поиска она может сделать
🟢достаточно ли ей данных для отчета
🟢и только после этого, она сможет выбрать инструмент, который будет запускать (или доуточнение, или веб-поиск, или генерация ответа).

Для больших моделей, такой подход часто избыточен - они и так достаточно умные, чтобы рассуждать прямо "из коробки", и всегда следовать нужной инструкции.
Но если ваша модель относительно небольшая, и может легко отклоняться от инструкций, или она недостаточно хорошо их выполняет, то такие вот "рельсы" в виде Structured Output + зашитый в ответ процесс размышлений в стиле Chain-Of-Thought могут дать значительный прирост качества на ряде задач.

Конечно, у такого подхода есть и минусы, и его тоже нужно правильно готовить, но об этом как-нибудь в другой раз

@korneychukov

Читать полностью…

Neural Kovalskii

05 сентября 2025 18:59

Несколько месяцев назад я ушёл из Meta GenAI, чтобы запустить свой стартап.

И сегодня будет первый шаг выхода из stealth-режима 🚀На самом деле он был уже вчера, но только сегодня добрался сделать пост на русском ;)

По традиции фруктового нейминга в AI комьюнити, я добавляю в корзину еще и персики — встречайте GenPeach.AI 🍑

Мы - Европейская GenAI ресерч лаба (headquaters в Цюрихе), которая обучает свои собственные мультимодальные foundation модели (с нуля, не файнтюны). Цель наших моделей - дать юзерам безграничную творческую свободу и реализм в генерациях, который сейчас недоступен в других продуктах. Но и для application слоя у нас есть свои планы - ждите апдейтов:)

Другими словами, сейчас у нас фокус на том, чтобы добиться максимального реализма, контроля и эффективности в генерации фото- и видео-сцен с людьми.

Наши модельки еще готовятся, но мы уже открыли Waitlist для тех, кто хочет получить к ним доступ раньше других и поучаствовать в бета-тесте!

🚩 Чтобы записаться в Waitlist откройте бота: @genpeach_ai_bot

@ai_newz

Читать полностью…

Neural Kovalskii

02 сентября 2025 07:14

SGR + Streaming Structured Output

В одном из небольших экспериментов я разбирал как можно использовать стриминг SO схем для своих нужд и лучшей интерактивности

Даже удалось сделать небольшую эммуляция трейсинга и дашбордов в терминале! Все ридми коменты и промпты переведены на английский

Разделили функционал пока на две ветки
structured_output_sgr_with_streaming (только SO) исправил пару болячек с историей лог можно глянуть тут
hybrid_reasoner_sgr_with_tools(гибридный подход где есть и FC и SO там ребята уже целый проект сделали)

Уже 45 форков и 218 звезд на github!

Собрал всех контрибьюторов в группу (ребята предложили много интересных идей по развитию)
Готовим систему к ERC3

Репо: https://github.com/vakovalskii/sgr-deep-research/tree/structured_output_sgr_with_streaming

Читать полностью…

Neural Kovalskii

30 августа 2025 14:13

~~Software 3.0~~ Shopping 3.0 или как AI меняет пользовательское поведение 😆

Какое ключевое применение AI в e-commerce?
3 года назад я бы точно сказала про рекомендации и контекстную рекламу, но сейчас AI двигает рынок глубже, формируя новые подходы и пути пользователя.
Давайте посмотрим 5 разных категорий и что меняется в каждой из них согласно недавней статье a16z:

1️⃣Импульсивные (TikTok finds, fast fashion) 💥

"Hyper-optimized TikTok and IG algorithms steer purchases."

Алгоритмы становятся умнее и точнее.
Здесь все понятно, AI усиливает динамический контент и персонализированную рекламу 😎
Кстати, нтересный факт, что чаще всего такие покупки происходят ночью и с телефона 😁

2️⃣ Рутинные (кофе, шампунь, кошачий корм) 😐

"AI agent tracks prices and buys for you when the time is right."

AI постепенно превращается в закупщика: сам следит за ценой и стоком,
делает заказ, когда пора, и сообщает: "твой ежедневный айс американо уже готовят".
Это хорошо ложится на гросери сторы и регулярные покупки как например доставка еды по подписке 💳

3️⃣ Лайфстайл (одежда, косметика, аксессуары) 😎

“AI researcher finds + suggests SKUs for your needs.”

Это самый хот топик, где мы существуем с Aesty. AI собирает варианты, знает твои вкусы, тип фигуры и
предлагает персональный shortlist не 1000 вариантов, а топ оф зэ топ
Кстати, чем меньше вариантов предлагаем за раз, тем лучше конверсия 🧠

4️⃣ Функциональные (ноутбук, диван, велосипед) 💻

“AI consultant meets with you and recommends what + where to buy.”

Здесь AI работает как доменный эксперт: сравнивает бренды, объясняет разницу,
помогает принять решение и выбрать лучшее под твои задачи 🧗

5️⃣Серьезные, на всю жизнь (дом, образование) 😏

“AI coach helps… and guides you through the decision process.”

Тут конечно же никакой автоматической закупки, по крайней мере пока ты не серийный real estate инвестор.
AI помогает искать, анализировать, сравнивать, но финальное слово остается за человеком.

По мнению a16z 2, 3 и 4 сильнее всего будут меняться благодаря персонализации и более удобному поиску информации 🙌

Го 50 🔥 на этот пост и разберу 4 главных технических изменения, которые должны произойти чтобы мы могли полностью делегировать шоппинг агентам 🤑

@neural_prosecco

Читать полностью…

Neural Kovalskii

29 августа 2025 22:51

Перед сном решил немного повозиться с проектом sgr-deep-research.

Мне предпочтительнее с подобными системами работать через API, но был лишь CLI и Web режимы, а в API она не умела, пришлось добавить.

Читать полностью…

Neural Kovalskii

29 августа 2025 15:12

SGR + Tool, Hybrid Deep Research

И так мы продолжаем рубрику эксперименты!

1) Спасибо Диме что предоставил новую ветку где перевел SGR внутрь tool

2) Дальше я уже с легкой руки добавил около ~6 навыков, проработал управление контекстом всего теперь 12 навыков есть у системы и она помнит все предыдущие события

Детально можно ознакомиться в ридми в ветке hybrid_reasoner_sgr_with_tools

Что имеем?
Без фреймворков с сохранением SGR который обернут в tool, более автономную систему которая понимает предыдущий контекст может работать с файловой системой и может искать в интернете

Что дальше?
3) Я приведу обе ветки к единому кол-ву навыком и мы попробуем собрать небольшой датасет дабы проверить надежность таких систем в разных сценариях рисерча

P.S система все еще работает на gpt-4o-mini но для лучшего экспириенса советую поменять на 4o так же хорошо проработан подход работы с кешом и система стала в 2-3 раза быстрее

Читать полностью…

Neural Kovalskii

27 августа 2025 23:25

На самом деле, обсуждая в чатике с Валерой (вступайте в чат!), была предложена следующая идея (не нова) - сделать reasoning как отдельный тул, который определяет, что делать дальше и что вызывать.

Он точно у нас должен вызываться принудительно всегда после юзерского сообщения, а достигнуть этого можно через контроль поля tool_choice, которое буквально заставит llm вызвать этот тул!

А потом следующее решение и тд -> можно спокойно дальше делать через LLM!

Так делают, например, ребята из Manus (которые сделали ставку, как почти все бигтехи РФ: разрабатываем агентов как подбор промптов и тулов, лишь бы работало)))

Управление tool_choice - не баг, а фича, это есть и в официальной доке OpenAI, и в Anthropic

И овцы целы, и волки сыты

P.S. А в функции def reason_before_answer(), можно засунуть всеми любимый SGR!

типа она запускает reasoning_before_answer() с пустыми аргументами после юзерской реплики с помощью tool_choice, а под капотом вызывается LLM с SO, а результат -> подгружается в chat_history. Бинго!

Читать полностью…

Neural Kovalskii

27 августа 2025 12:29

Дружочки!

Остается меньше месяца до нашей юбилейной, двадцатой оффлайн встречи сообщества #безвотэтоговотвсего Такое событие требует интересной темы, и у нас такая есть - “AI-компас для управленца: куда смотреть, чтобы не пропустить главное” !

Пришло время поковыряться в этом всем AI/LLM-ом хайпе и отделить уже зерна, от всего остального 😻

В честь такого дела с нами шуршать будут уважаемые эксперты:
⁃ Валерий Ковальский — Head of AI red_mad_robot
⁃ Алексей Миловидов — CTO Ecom.tech
⁃ Александр Айваз — CDO, Лемана Тех
⁃ Тимур Вайсман — Директор центра интеллектуализация МТС

Будем говорить про:
- AI уже в бизнесе, но не везде - как понять, где его место в вашей стратегии
- От хайпа к пользе - как отличить модные игрушки от реальных инструментов
- Какие решения руководители должны принимать сами, а какие пора делегировать алгоритмам
- Главные ориентиры на ближайшие 12–18 месяцев, чтобы быть впереди, а не догонять
- и многое другое)

Встречаемся на прекрасной площадке Леманы Тех в их офисе (проспект Лихачева 15), 25го сентября в 18:30. Регистрируемся по ссылке, мест мало, а желающих ой как не мало)

Приходите, будет огненно!)

Читать полностью…

Neural Kovalskii

24 августа 2025 11:52

SGR vs Tools: когда использовать Schema-Guided Reasoning, а когда Function Calling в LLM-системах

Сегодня хочу поднять тему, которую у меня часто спрашивают: когда использовать Tool Calling, а когда Schema-Guided Reasoning (SGR) в LLM решениях под капотом?

Респект Ринату Абдуллину за отличную систематизацию подхода SGR!

Что забавно, что я сам использовал похожие паттерны 4-5 месяцев назад загляните в гит, но именно Ринат дал этому четкое название и структуру!

SGR vs Tools по моему мнению

SGR заставляем LLM мыслить по четким шагам через Structured Output:
Анализ → Поиск → Обработка → Вывод в одном запросе

Tools даем LLM набор функций для взаимодействия с внешним миром
Кстати все больше вижу сдвиг именно в паттерн агент=tool_call MCP+SO(где надо) и теперь SGR:
Поиск, API, вычисления, полноценное агентское поведение

Пример SGR из моей практики:

{
  "reasoning": {
    "query_analysis": {
      "user_query": "Найди информацию о проекте X",
      "query_interpretation": "Пользователь ищет документы по проекту"
    },
    "information_search": {
      "search_strategy": "Ищу по ключевым словам в базе",
      "relevant_documents": [...]
    }
  },
  "response": "Полный ответ на основе найденной информации"
}

Когда использовать SGR:

Анализ и структуризация данных
Разбор документов, классификация, отчеты
Сложные рассуждения
Пошаговый анализ с обоснованием
Обработка имеющихся данных
Все нужное уже в контексте, нужна предсказуемость но не детерминированность (запомним)

Когда использовать Tools:
Настоящее агентское поведение
LLM сам решает последовательность, адаптируется к результатам, может прерываться

Не зря появилась куча оберток типа LangGraph, AutoGen, CrewAI все строятся именно на свойствах
Tools когда модель сама принимает решение их вызвать
А MCP от Anthropic на мой взгляд это попытка стандартизировать агентские инструментарий

Взаимодействие с внешними системами
Интернет, email, календарь, API

Критически важно для production Evals и мониторинг!

SGR:
Все рассуждения видны и логированы
Легко тестировать каждый шаг
A/B тестирование предсказуемо

Tools:
LLM сам решает какой инструмент вызвать — черный ящик
Сложно понять WHY выбрана функция
Непредсказуемая цепочка вызовов
Дебаг в production = боль

Из реального опыта:
При настройке NSFW-фильтров с Tools ушло бы недели на понимание решений модели. С SGR за день увидел проблемы в reasoning и пофиксил!

Ключевое различие — агентность vs структурированность

SGR = мощное рассуждение без истинной агентности
Один запрос → один ответ
Для агентского поведения придется костылить

Tools = настоящее агентское поведение из коробки
LLM сам управляет workflow, нативные прерывания в большинстве фреймворков и API
Поэтому все современные агентские фреймворки базируются именно на Tools

Гибридный подход? Искал медь а нашел золото!

SGR для принятия решений какой инструмент использовать
Tools для выполнения действий получение данных и ощущение агентности
SGR для финальной обработки структуризация результата

Вывод финально

SGR когда нужно контролируемое рассуждение и мониторинг
Tools когда нужно настоящее агентское поведение
SGR работает даже на локальных 7B моделях
В production качество мониторинга = выживание продукта

А как вы решаете эту дилемму? Поделитесь опытом!

P.S. Спасибо Ринату за системный подход к SGR это свежий глоток точности и постоянства в нашем мире LLM!

Читать полностью…

Neural Kovalskii

21 августа 2025 21:50

Паша early adopter который получил доступ к моему API!

Красава что такое замутил!

👇

Читать полностью…

Neural Kovalskii

18 августа 2025 22:03

LLM/RAG Мониторинг с первого дня - это не роскошь, а необходимость!

Когда я запускал @neuraldeepbot 8 месяцев назад, думал "сделаю MVP, а потом посмотрю"

Результат? Система работала, потом, когда-то, запущу в докере и улучшу
Но с развитием кодовых агентов и IDE таких как Cursor у меня чуть сильнее развязались руки

Сейчас подход кардинально другой — с первого запроса у меня есть:

Детализация реакций по дням (видно на графике)
Процент лайков по каждому этапу развития
Классификация сложности запросов через LLM
Трекинг используемых навыков в ReAct цепочке

И знаете что? Это реально работает!
За 6 дней метрики выросли с 48.8% до 96.0% положительных реакций

ReAct архитектура когда LLM сама решает как искать

Вместо жестко заданного пайплайна "вектора → реранкер → ответ" внедрил ReAct подход:

User Query → 

1) LLM классификатор навыка
Защита
Уточнение
Мета вопросы
RAG поиск
→ 
2) LLM классификатор сложности
 
ReAct агент выбирает навыки:
   - FTS поиск по ключевым словам
   - Векторный поиск (bge embedding)  
   - Комбинированный поиск
   - Временная фильтрация
   - Поиск по коментам vs постам
→ Синтез финального ответа

Еще одним полем отечает последовательность запуска (ему так же прописаны связи и возможности)
gpt-5-mini показала себя прям очень хорошо 

Кстати все взаимодействия с навыками я построил через SO никакого tool call

Конкретные цифры улучшений:

12.08: Запуск наивного RAG бота — 48.8% лайков
13.08: Анализ первых 200 запросов — 76.0% лайков
14.08: Добавил 4 навыка и классификатор — 78.3% лайков
16.08: Переход на GPT-4o-mini — 95.0% лайков
18.08: Финальные улучшения — 96.0% лайков

Аналитика запросов ваш компас в темноте это проблема почти 90% инициатив которые я встречаю

Самые болезненные инсайты пришли из анализа реальных пользовательских запросов:
Проблема №1: "Какой последний пост был?"

Система отвечала защитой из промпта
Фикс: Добавил навык временного поиска

Проблема №2: "Лучшая локальная LLM?"

Тащила посты 2024 года вместо свежих
Фикс: Приоритизация по датам через ReAct

Проблема №3: Нехватка контекста из разных каналов

Добавил данные из @llm_under_hood и @denissexy, @seeallochnaya
Сразу видно улучшение по реакциям!

Мой чек-лист для каждой итерации Q&A системы
Неделя 1: Базовый MVP + мониторинг реакций
Неделя 2: Анализ первых 100-200 запросов глазами (далее зовем LLM что бы сверится)
Неделя 3: Добавление недостающих навыков поиска
Неделя 3: Оптимизация промптов под реальные кейсы

Далее: Еженедельные итерации по метрикам
Техническая кухня что реально двигает метрики
Стек убийца:

ReAct агент для выбора стратегии поиска
gpt-5-mini как основной LLM (переход дал +19% к лайкам!)
SO на всех этапах вызова навыков
FTS + векторный поиск в зависимости от запроса
bge реранкер для финальной фильтрации
Qdrant для хранения эмбеддингов
PGSQL как основная база
teleton
fastapi
python

Система оценок:

Лайк/дизлайк после каждого ответа
Дизлайк = я лично смотрю кейс и думаю что пошло не так
Никаких A/B тестов — итерируем по общим метрикам(но только на старте)

Главные ошибки, которые убивают Q&A системы

"Сделаю идеальную архитектуру, а потом запущу" — НЕТ!
Запускай MVP и итерируй по реальным запросам
Игнорирование мониторинга без метрик ты летишь вслепую
Жесткий пайплайн вместо адаптивного ReAct дает LLM выбирать стратегию поиска
Недооценка важности промптов 80% успеха Q&A системы в правильных промптах

Ребята реально общались со мной через запросы и давали детальные советы по улучшению промптов

Честно говоря, RAG как RPG нужно быстро лечиться (хотфиксы),
крафтить экипировку (промпты), управлять инвентарем (данные)
и качать скиллы через квесты (Cursor). Каждый день фармишь опыт и лут для апгрейда системы

Но с правильным мониторингом и планом итераций
можно довести систему до production-ready за несколько недель вместо месяцев блужданий

Кто строил похожие Q&A системы без четкого понимания сценариев?
Какие метрики отслеживаете?
И главное как быстро итерируете по фидбеку пользователей?

Читать полностью…

Neural Kovalskii

13 августа 2025 14:21

Валера топ, списался с ним, было пару вопросов по ллм аппке - рассказал и показал как что лучше реализовать! Если хотите построить что то на ллмке и с чем то есть трудности, не стесняйтесь - пишите ему, сориентирует и направит) спасибо!

Читать полностью…

Neural Kovalskii

12 августа 2025 15:49

Добавил еще в бд посты из канала /channel/denissexy

Интересно получается

Про b2b и технину из /channel/llm_under_hood

А про более развлекательный но тоже технический контент подмешиваем из /channel/denissexy

Кстати за короткий период добавил туда

6 Навыков
FTS+KNN
И новых данных

По тренду видно что вроде лайки начинают увеличиваться

@neuraldeepbot

Читать полностью…

Neural Kovalskii

10 сентября 2025 02:07

Cursor System Prompt

Наверное вы уже видели разные репо с системным промптом cursor

Из команды разработки SGR попросили посмотреть логи через свое прокси LiteLLM дабы подтвердить сей факт
И как всегда первая проблема все логи в моей версии прокси делают вот так ... (truncated 7765 chars)"

Пошел мучать клод на тему "поищи в интернете" "как убрать в UI/BD truncated logs"
Весь поиск и попытки применить рекомендации от клода привели меня на этот issues

Где ребята прекрасно обошли эту настройку патчем

FROM ghcr.io/berriai/litellm-database:main-latest

RUN sed -i.bak 's/MAX_STRING_LENGTH = 1000$/MAX_STRING_LENGTH = 100000/' \
/app/litellm/proxy/spend_tracking/spend_tracking_utils.py && \
cmp -s /app/litellm/proxy/spend_tracking/spend_tracking_utils.py{.bak,} && exit 1 || true
RUN cd /app && pip install .

Далее имеем репо

https://github.com/vakovalskii/cursor_agent_flow

Я запустил очень простой флоу в 3 запроса
1) Понять где мы
2) Проанализировать директорию
3) Сделать поиск по кодовой базе

Cursor использует многослойный системный промпт с отдельными секциями для каждого аспекта поведения:

<tool_calling> - строгие правила работы с инструментами
<maximize_context_understanding> - обязательная тщательность исследования
<making_code_changes> - гарантия работоспособности кода
<task_management> - активное планирование через todo_write
<memories> - персистентная память между сессиями

Все это для меня подтверждает правдивость этого вот репо

Что бы знать матчасть в нее надо уметь!

Репо с моими логами: https://github.com/vakovalskii/cursor_agent_flow

Читать полностью…

Neural Kovalskii

08 сентября 2025 19:49

Дядя делает очень крутые обзоры
Добей ему 10к что бы он стал сми!
230 подписок осталось
/channel/dealerAI

Читать полностью…

Neural Kovalskii

07 сентября 2025 11:54

SGR Deep Research: как из чёрного ящика агентов сделать прозрачную и надёжную систему

Сегодня у нас на повестке дня крайне интересный инженерный проект от наших соседей по тг. Но начнем с конца.

Все мы примерно представляем, как работает вызов инструментов у агентов. LLM сам решает, какие Tools вызывать, в какой последовательности и зачем. Модель адаптируется к результатам, может прерывать выполнение – в общем, полноценная автономия.

Звучит красиво и работает, но в прикладном продакшене у такого подхода есть обратная сторона:
– мониторинг и логирование практически невозможны – цепочка вызовов превращается в чёрный ящик,
– сложно отлаживать и объяснять решения модели,
– A/B-тестирование и контроль качества превращаются в боль.

Именно здесь появляется альтернатива – Schema-Guided Reasoning (SGR). О самой подобной идее много кто уже где-то так или иначе упоминал даже в крупных стартапах, но, что примечательно, впервые end-to-end ее описал и формализовал автор канала "LLM под капотом" (@llm_under_hood) Ринат Абдулин. Вот дока.

Основная концепция: вместо того, чтобы давать модели полную свободу, мы описываем чёткую схему рассуждений в виде структурированного вывода.
Один запрос – один прозрачный reasoning-пайплайн: Анализ → Поиск → Обработка → Вывод.

От агентов тут остается гибкость, но в то же время такой подход даёт контроль и предсказуемость: можно логировать каждый шаг, тестировать их по отдельности и быстро находить слабые места.

Звучит интересно, правда? Да. Выглядит, как подход, который теоретически может подвинуть классические agent-фреймворки, если речь идёт о продакшене и задачах бизнеса. Прозрачность и контролируемость тут не просто nice-to-have, а буквально вопрос выживания продукта.

А еще это настоящий качественный скачок для маленьких моделей, которые плохи в вызове инструментов сами по себе. Например, Qwen3-4B показывает на Function Calling низкие 2%, а с SGR выдает стабильные 85-90%! Таким образом, целый огромный класс моделей, которые до этого для не подходили для агентных задач, теперь становятся для них открытыми. Это ключевое открытие.

Ну так вот. На основе описанной Ринатом техники другой наш друг, Валера с канала @neuraldeep, уже собрал полноценный опенсорсный production-ready проект SGR Deep Research. О Валере и его предыдущих проектах мы писали вот тут – почитайте.

Его SGR Deep Research – это система для многошагового поиска и анализа информации в интернете. Реализовано:

➖ Вызов инструментов по схеме Schema-Guided Reasoning. Причем подход гибридный, с двухфазной архитектурой: принудительное структурированное рассуждение (JSON Schema) + детерминированное выполнение. Это позволяет даже 4B моделям проявлять агентные свойства, недоступные через классический Function Calling.
➖ Прозрачное логирование на каждом шаге: от уточнения запроса и генерации плана до веб-поиска, анализа и финального отчёта, все трекается.
➖ Работа на легких моделях вроде gpt-4o-mini и qwen instruct от 4b до 32b (+можно подключать свои).
➖ OpenAI-совместимый API с персистентными агентами: каждый агент получает уникальный ID для продолжения исследования.

Где это лучше, чем полноценный агентный Tools? Там, где важна прозрачность + работа с малыми моделями. Например: работа с документами, корпоративные исследования, факт-чекинг, call-центры. Плюс – возможность запускать агентов на потребительском железе вместо дорогих API.

Сейчас ребята активно развивают проект, экспериментируют с гибридными схемами и приглашают сообщество подключаться.
– Если есть идеи – обязательно идите с ними к Валере.
– Если хотите попробовать – на гитхабе найдете подробнейший гайд по использованию.
– И, конечно, давайте ставить ребятам звездочки на проект. Он в своем роде уникальный, так что надо продвигать силами комьюнити.

Еще раз:
Ссылка на проект
Ссылка на канал Рината – автора идеи
Ссылка на канал Валеры – автора кода (здесь можно следить на развитием проекта)

Читать полностью…

Neural Kovalskii

03 сентября 2025 21:04

Nano Banao tralalero tralala

Вот и у меня дошли руки поиграться в простом кейсе "генерация принтов на одежде" с этой моделью

Пошел искать, и собирать заказ где мне такое сделают

Вот тут предзаказ

Читать полностью…

Neural Kovalskii

31 августа 2025 07:35

SGR vs Function Calling: ghost busters edition

TL;DR: 3 дня копания в FC решениях, даже достал MacBook Pro с 32GB RAM чтобы 100% проверить на моделях до 5B → SGR решение а не костыль, наш общий проект с вами за неделю набрала 170+ звезд на GitHub

Как обсуждали ранее, tool_choice на первом шаге часть агентного подхода, тут я полностью согласен, но хотелось прям глубже разобраться где есть еще одна сторона SGR

На моделях касты OpenAI/Anthropic такие рекомендации работают потому что метрики у них 80+ по BFCL (это лишь пример на какой бенч нужно смотреть) и агентность сохраняется

Когда мы спускаемся ниже 35 по секции Agentic на BFCL то тут SGR не костыль а решение

FC реальность на локал моделях
Взял модель из Ollama она мне шиш (говорит не умеет в tool)
BFCL показывает Qwen3-4B = 2% в Agentic режиме O_o
GGUF конвертация убила chat template с поддержкой tools
Лезу в карточку Unsloth а там умеет
Собираю правильный chat template и беру от unsloth/Qwen3-4B-Instruct-2507-GGUF FP16 при сборке модели в Ollama и о чудо она начала принимать tool

Но модель умеет КАК, но не КОГДА:

{"tool_calls": null, "content": "Текст вместо вызова тула"}

Принудительный tool_choice = 3-5 вызовов, парсинг XML, валидация

При переносе оригинального chat template Ollama напрочь не парсит эту секцию в XML
Сделаем обработку не поднялось
А все почему?
Идем опять на BFCL а там ниже 5% точность на Agentic
Стало все понятно

Дальше попробовал 7B, 14B, 32B
Все встало на свои места я даже выдохнул!
У нас в проекте поддерживается 2 ветки: SGR FULL и где SGR поместили в tool
Переключился на SGR FULL и протестировал - 100% работа системы!

# Phase 1: Structured Output reasoning
reasoning = model.generate(format="json_schema")

# Phase 2: Детерминированное выполнение
result = execute_plan(reasoning.actions)

Дима предложил гибрид - SGR обернуть в tool для нормальных моделей:

Принудительный reasoning перед любым действием через tool_choice
Результат: 12 навыков системы, память между сессиями, работает на любых моделях
Паша сделал API - FastAPI с OpenAI совместимостью
Дима добавил веб-интерфейс - Chainlit UI
Пару ребят предложили по-другому собирать env - улучшили deployment
На gpt-4o FC ветка с историей и бесконечным диалогом дает хорошие ощущения

Метрики еще предстоит измерить, но система работает
На gpt-4o-mini: ребята говорили что очень даже достойно в режиме FC
На локальных 4B: SGR FULL отрабатывает простые запросы на 100% и генерит вменяемые отчеты

SGR как tool = лучшее из миров для моделей <32B где Overall Acc Agentic ниже 35
Связано это с тем что именно тут кроется сложная часть тюна и корректировки

Anthropic/OpenAI добавили принуждение через спец токены, но это ли агентность? Скорее принуждение

Традиционный FC:
- Модель сама решает КОГДА думать ❌
- Непредсказуемые решения ❌

SGR в tool:  
- tool_choice ЗАСТАВЛЯЕТ думать ✅
- Структурированное планирование ✅
- Потом извлекает tool из SO ✅
- Вставляем в role tool что тулинг был вот он в истории ✅

Архитектурные пороги

<14B: Pure SGR JSON
14-32B: SGR tool + FC hybrid (наш случай)
32B+: Native FC + SGR fallback

Обсудили мои выводы в ЛС с Димой из Dimension AI - пришли к консенсусу

Не заставляйте <32B притворяться GPT-4o. Дайте структурированно мыслить через SGR, действовать через эмуляцию FC.

На локал на MacBook работает при использовании FULL_SGR

P.S. Много кто писал что такой подход на чистом SO где тулы вшиты в схемы давно использовал, но интересно - подавали ли вы в истории вызвание тулы после?

GitHub: https://github.com/vakovalskii/sgr-deep-research

Читать полностью…

Neural Kovalskii

30 августа 2025 14:13

В тему моих постов про новую эру монетизации с GenAI, будет вполне полезно ознакомиться и с Customer Journey.👇👇👇

Читать полностью…

Neural Kovalskii

29 августа 2025 18:44

Прошло 3 часа и комьюнити уже добавили интерфейс на базе chainlit

Если вы уже развернули последнюю версию гибридного подхода то берем такой набор действий

нужно сделать

git pull

pip install -r requirements.

chainlit run gui_app.py -w

Давайте добьем до 100 звезд!!!
https://github.com/vakovalskii/sgr-deep-research

Читать полностью…

Neural Kovalskii

28 августа 2025 18:59

Сегодня я проснулся знаменитым

Спасибо! Ребят!

Читать полностью…

Neural Kovalskii

27 августа 2025 16:55

Агент или Пайплайн?

Середина 25го года – хайп вокруг агентов начал перерастать в рабочие решения: claude code, perplexity labs, computer use и т.д.

Правда почему-то сейчас любые два запроса к API зовут агентом. А если еще с разными промптами, то, уууууу, аж система агентов.

Это бред. Большая часть того, что называют агентами – просто пайплайны – жестко заданные наборы шагов. Часть из них – запросы к LLM, часть – просто логика, например, запустить код, который сгенерировала LLM на прошлом шаге.

Агентность – способность системы самой принимать решения о типе следующего действия на основе результатов предыдущих.

Агентность – это шкала, а не бинарное значение. У системы ее может быть больше, а можем быть меньше. Как у людей.

Но для простоты, я использую вот такое разделение:

- Если заранее известно, что будет после шага X – это пайплайн.
- Если система сама решит после того как шаг X выполниться, то это агент.
- Но если алгоритим выбора захардкожен извне – это все еще пайплайн (просто более гибкий).

———

Примеры

Задача – сделать систему, которая будет отвечать на запрос пользователя используя информацию из интернета.

1. Сначала ищем странички, потом делаем запрос к LLM, подставляя их в контекст

relevant_sites = await search_google(query)
response = await generate_response(query, relevant_sites)

Агент? Нет – шаги жестко зафиксированы

———

2. Усложняем. Смотрим, что если нашли слишком мало страниц, то пытаемся поменять запрос пользователя и искать еще

relevant_sites = await search_google(query)
if len(relevant_sites) < 10:
  optimized_query = await optimize_user_query(query)
  more_sites = await search_google(optimized_query)
  relevant_sites.extend(more_sites)

response = await generate_response(query, relevant_sites)

Вооо, теперь агент. Мы же не знаем заранее, по какому пути пойдем, да? Но решение принимает не ИИ, а программист, который написал if. Так что это тоже не агент.

———

3. Пишем агента. Теперь LLM сама определяет в check_enough_info, готовы ли генерировать ответ, или нужно добавить еще результатов.

relevant_sites = await search_google(query)

if not await check_enough_info(query, relevant_sites):
  optimized_query = await optimize_user_query(query)
  more_sites = await search_google(optimized_query)
  relevant_sites.extend(more_sites)

response = await generate_response(query, relevant_sites)

Уже лучше, но на самом деле это еще не полноценный агент. Все равно явная последовательность шагов – модель выбирает только одну ветку, а дальше все снова определено. Но мы уже близко

———

4. Настоящему агенту нужно прописать набор действий и дать их совершать (подсовывая ему после выполнения каждого действия новую информацию в контекст)

state["query"] = query
state["sites"] = []

while "response" not in state:
  next_step = await choose_next_step(state)
  if next_step == "search_google":
    state["sites"].extend(await search_google(query))
  elif next_step == "optimize_query":
    state["query"] = await optimize_user_query(query)
  elif next_step == "generate_response":
    state["response"] = await generate_response(query, state["sites"])

А чтобы делать такие системы надежными и масштабируемыми, нужно использовать Structured Output и определять шаги через pydantic/zod классы. Так задаем структуру размышлений для модели, чтобы она хорошо выбирала следующий шаг (SGR).

Почитать:

- Разгоняли с @neuraldeep в комментах про агентность, а через пару часов он сделал свой диприсерч всего в 600 строк кода. Особенно полезно посмотреть на pydantic классы
- База по SGR (structured guided reasoning) от @llm_under_hood
- Моя серия из 3 постов про structured_output

Читать полностью…

Neural Kovalskii

26 августа 2025 14:05

SGR Deep Research

А почему бы не взять все лучшие идеи из демо и идей ребят из чата
Собрать свои идеи по Deep Research
И сделать самый простой инструмент поиска инфы в интернете через Tavlily API?

А сделать, вот он https://github.com/vakovalskii/sgr-deep-research (звездочки приветствуются)

gpt-4o-mini
Tavily API (1000 реквестов в месяц фри)
SGR-concept

Из интересного что заметил такая модель сама определяет что например чипов M6 у applе не существует и на ходу меняет план рисерча потому что нашла это в данных из инета
Или что термин SGR ей не понятен и просит его расшифровать

Что я закинул туда "навайбкодил"

1. 🤔 Clarification (ВЫСШИЙ ПРИОРИТЕТ)
- При любой неопределенности в запросе
- Неизвестные термины, акронимы, аббревиатуры
- Неоднозначные запросы с множественными интерпретациями
- Отсутствие контекста для специализированных областей

2. 📋 GeneratePlan
- Когда план не существует и запрос ясен
- После получения уточнений от пользователя

3. 🔄 AdaptPlan
- Когда требуется адаптация исследовательского подхода
- При обнаружении неточностей в первоначальных предположениях

4. 🔍 WebSearch
- Когда нужна дополнительная информация И searches_done < 3
- МАКСИМУМ 3-4 поиска на исследование

5. 📄 CreateReport
- При searches_done >= 2 ИЛИ enough_data = True
- Когда собрана информация для полного анализа

6. ✅ ReportCompletion
- После создания отчета
- Финализация исследования

Соответствие концепту SGR верифицировало Ринатом 😂

Предлагайте ваши эксперименты! Вон даже ребята из Cбера подключились!

Читать полностью…

Neural Kovalskii

21 августа 2025 21:50

Последние несколько дней вожусь с моим MCP сервером. Было желание добавить в него поиск по телеграм-каналам, который Валерий @neuraldeep реализовал в формате RAG с базой знаний и интеграцией через телеграм-бота.

В итоге у меня получилось сделать новый тул под названием search_telegram, попробовать его можно у меня на MCP сервере через MCP Inspector:

npx @modelcontextprotocol/inspector

Далее открываем ссылку на localhost с токеном в браузере, перед нами появится интерфейс.

Нужно указать адрес MCP сервера, токен авторизации и нажать Connect, вот креды:

Transport Type: Streamable HTTP
URL: https://mcp.rpa.icu/mcp/
Bearer Token: /channel/evilfreelancer

Ну и само собой добавил утилиту в мой ИИ-чат, так что можно прямо сейчас попробовать её в действии. Внизу под полем ввода есть селектор Инструменты, там выбираем search_telegram и просим модель искать информацию в Телеграм.

Читать полностью…

Neural Kovalskii

19 августа 2025 15:43

Сидим-пердим впятером за AI и бизнес-вопросики

/channel/neuraldeep
/channel/alexs_journal
/channel/vitales_on
/channel/dealerAI

Читать полностью…

Neural Kovalskii

18 августа 2025 16:55

У @VaKovaLskii из @neuraldeep есть RAG бот, который может отвечать на вопросы по материалам канала и чата нашего комьюнити.

Бот появился впервые месяцев 8 назад и недавно ожил снова, пополнился новыми постами.

Бот работает как Custom ChatGPT - находит релевантные сообщения и на их основе синтезирует ответ. Ответы не всегда точные, но всегда сопровождаются ссылками на оригинальные сообщения, поэтому все можно перепроверить.

Пообщаться с ботом можно тут: @neuraldeepbot. Прочитать о нем тут.

Ваш, @llm_under_hood 🤗

Читать полностью…

Neural Kovalskii

13 августа 2025 12:20

Дружочки!

Оффлайн встречи #безвотэтоговотвсего возвращаются в Москву! И не абы какую, а уже 20ю (офигеть, ДВАДЦАТУЮ!) встречу мы решили провести в гостях у наших дружочков из Леманы Тех. Такое событие требует интересной темы, поэтому мы решили не мудрствовать лукаво и с нашими экспертами поговорим на тему “AI-компас для управленца: куда смотреть, чтобы не пропустить главное”.

Пришло время поковыряться в этом всем AI/LLM-ом хайпе и отделить уже зерна, от всего остального 😻

В панельной дискуссии попробуем разобраться с тем как:
- AI уже в бизнесе, но не везде — как понять, где его место в вашей стратегии
- От хайпа к пользе — как отличить модные игрушки от реальных инструментов
- Какие решения руководители должны принимать сами, а какие пора делегировать алгоритмам
- Главные ориентиры на ближайшие 12–18 месяцев, чтобы быть впереди, а не догонять
- и многое другое)

В честь такого дела с нами шуршать будут уважаемые эксперты:
⁃ Валерий Ковальский — Head of AI red_mad_robot
⁃ Алексей Миловидов — CTO Ecom.tech
⁃ Александр Айваз — CDO, Лемана Тех
⁃ Тимур Вайсман — Директор центра интеллектуализация МТС

Встречаемся на прекрасной площадке Леманы Тех в их офисе (проспект Лихачева 15), 25го сентября в 18:30. Регистрируемся по ссылке, мест мало, а желающих ой как не мало)

Приходите, будет огненно!)

Читать полностью…

Neural Kovalskii

12 августа 2025 11:44

База знаний по каналу в телеграм? Зачем это нужно?
RAG/LLM workflow/Чат бот

8 месяцев назад я решил сделать первый эксперимент в этом направление и смотря на себя тогда осознал что перемудрил с выгрузкой
сделал очень сложные связи и в целом ответы чат бота были не сказать что прям полезные

Что же я решил переосмыслить имея в руках всю мощь Cursor + Claude Sonnet 4 😈

Первое я полностью переделал логику различения датасета упростил все ровно до двух коллекций
1) Посты
2) Коменты к ним и обсуждения

Второе

Я добавил в первый шаг llm классификатор сложности запроса пользователя от него у нас меняется кол-во top n которые мы получаем при векторном поиске

Да это все еще вектора
Да это все еще векторный поиск
Да это все еще простой bge реранкер на выходе
FTS решил пока не тащить дабы прочувствовать всю ~~боль~~ суть семантики вопросов и поиска информации
Перевел все на gpt-4o-mini

Кстати теперь бот будет жить тут и я буду регулярно его пополнять и другими каналами @neuraldeepbot
Cейчас в боте данные на сегодня из канала/и чата канала /channel/llm_under_hood

Что я точно могу сказать что при первом приближении конечно вы задаете интересные вопросы и система на такое не рассчитана

Какой последний пост был?

Тут сработала защита в промте и LLM ничего не ответила

какая на текущий момент лучшая локальная LLM?

Тут модель выдала заготовку про датасет но стащила посты 2024 года

Ответ: База знаний обновлена 12.08.2025.\n\nКлиенты часто задают два основных вопроса: когда можно будет запустить мощную LLM.....

Что такое SGR

Ответ: Метод Schema-Guided Reasoning (SGR) представляет собой подход структурированного промптинга, который управляет рассуждениями больших языковых моделей с помощью заранее заданных схем.

Да я зашил в промпт когда был обновлен датасет
Да я не поставил никакого защитника так что можно пробить gpt-4o-mini если вы знаете jailbreak

А еще можно поставить оценку (ставите дизлайк и я точно посмотрю что же за сценарий вы там придумали и подумаю какой еще классификатор повесить перед финальным ответом) это же все таки LLM workflow (чувствуете как дядя влияет? про агента не слова) ответу если вы так сделаете я соберу еще интересные кейсы которые могли бы помочь в будущем таким поисковым системам когда я добавлю больше каналов!

В целом мне нравится что в интернете так много полезной и сочной информации действительно можно прокачиваться каждый день просто анализируя то что доступно всем!

Читать полностью…

Подписаться на канал