Telegram-канал data_analysis_ml - Анализ данных (Data analysis): Неотсортированное

Анализ данных (Data analysis)

14 февраля 2025 06:24

✔ NanoSage — это продвинутый инструмент для рекурсивного поиска и генерации отчётов, который работает локально на вашем компьютере, используя небольшие языковые модели.

NanoSage представляет собой «глубокого исследовательского ассистента», который:

- Выполняет рекурсивный поиск: система разбивает исходный запрос на подзапросы, чтобы исследовать тему с разных сторон.
- Интегрирует данные из нескольких источников: объединяются результаты локальных документов и веб-поиска, что позволяет получить максимально полное представление по теме.
Генерирует структурированные отчёты: итоговый результат оформляется в виде подробного Markdown-отчёта с оглавлением, отражающим путь исследования.
(См. подробное описание в )

Как работает NanoSage
1. Подготовка и конфигурация
Настройка параметров: с помощью командной строки задаются основные параметры, такие как основной запрос (--query), глубина рекурсии (--max_depth), использование веб-поиска (--web_search) и выбор модели для поиска.

Конфигурация через YAML: дополнительные настройки, например, минимальный порог релевантности, ограничение на длину запроса и др., задаются в конфигурационном файле.
2. Рекурсивный поиск и построение дерева знаний
Расширение запроса: исходный запрос обогащается с помощью метода «chain-of-thought», что позволяет выявить скрытые аспекты темы.
Генерация подзапросов: система автоматически разбивает исходный запрос на несколько релевантных подзапросов, каждый из которых анализируется отдельно.
Фильтрация по релевантности: применяется алгоритм для оценки релевантности каждого подзапроса, что помогает избежать «провалов» и ненужных отклонений от темы.
Сбор данных: для каждого релевантного подзапроса NanoSage загружает веб-страницы, анализирует локальные файлы и суммирует полученную информацию.
3. Генерация финального отчёта
: итоговый отчёт составляется с использованием LLM модели (например, Gemma 2B), которая интегрирует все собранные данные в связное и подробное описание.

- Структурирование информации: результат оформляется в виде Markdown-документа, где оглавление представляет собой граф поискового процесса, а каждый раздел подробно описывает полученные результаты.
(Подробнее о внутренней архитектуре см. и )

- Интеграция разных источников данных:
Объединение информации из веб-ресурсов и локальных документов повышает полноту и точность исследования.

- Баланс глубины и широты поиска:
Использование метода Монте-Карло помогает находить баланс между детальным анализом отдельных аспектов и широким охватом темы.

Гибкость и настройка:
Параметры, такие как выбор модели для поиска, глубина рекурсии и порог релевантности, можно легко настроить под конкретные задачи.

Если вам важны приватность, гибкость и детальный анализ информации, NanoSage может стать отличным решением для ваших исследовательских задач.

▪Github

#cli #local #algorithms #python3 #knowledgebase #ollama