llm_under_hood | Неотсортированное

Telegram-канал llm_under_hood - LLM под капотом

13890

Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов.

Подписаться на канал

LLM под капотом

#weekend пост про моего персонального ассистента

Он, наконец, научился раскладывать вложенные файлы по папочкам, а сами записи раскидывать по workspaces.

Понятное дело, что LLM-ке я физические файлы куда-то двигать не разрешу, но ничто не мешает использовать виртуальные папки.

А на скриншоте пример экрана отладки. Он позволяет понять, о чем думал ассистент, когда обрабатывал очередную входящую запись.

Каждый шаг тут человекочитаем, что позволяет оценивать качество системы и оставлять записи для улучшения. Например, если пометить весь результат как верный, то это сразу отметит все вложенные вызовы LLM-driven моделей как корректные. А это уже сразу 3 новые записи в dataset для тюна своих моделей.

Ваш, @llm_under_hood 🤗

PS: Что за интерфейс? Как обычно, это преимущественно результат работы ChatGPT. 60 строчек Python+Jinja2+HTML и еще 80 строчек каких-то CSS стилей.

Читать полностью…

LLM под капотом

Вебинар “Проектируем и внедряем AI-ассистенты с LLM под капотом”: дата и время проведения нового потока

У меня была насыщенная вторая половина марта, и вот наконец-то появилось время провести третий поток вебинара про проектирование AI-ассистентов.

Вебинар пройдет 5 апреля, в пятницу, в 11:00 GMT+3 (московское время). Это третий поток с материалами, аналогичными предыдущим двум.

На вебинаре я расскажу о принципах построения и внедрения адаптируемых AI-ассистентов на примере небольшого end-to-end кейса. Обсудим с вами принципы проектирования подобных систем, поговорим про контроль качества, сбор данных и построение работы с пользователями.

Вебинар будет полезен как инженерам (заглянем в код), так и продактам, фаундерам и сейлсам - станет понятно, где лежит ценность в проектировании таких ассистентов, каковы их возможности и ограничения.

Можно будет принести свои кейсы для обсуждения и задать вопросы. Чтобы можно было качественнее поработать на Q&A, группа будет не слишком большой.

Длительность - 2 часа. Язык - русский. Стоимость участия в вебинаре - 80 евро. Оплатить можно вот здесь (понадобится карта, работающая за пределами России).

Там же есть ответы на частые вопросы:
- Можно ли оплатить участие другого человека?
- Будет ли запись? Можно ли ее купить отдельно?
- Как принести свой кейс для разбора на вебинаре?

После оплаты вам придет email с деталями и ссылками на зум и в чат потока.

Про Knowledge Maps как раз на этом вебинаре я и рассказываю.

До встречи на следующей неделе!

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Небольшой LLM Digest

Grok LLM от xAI, как и ожидалось, оказался никому не нужен. Его выкачали с HuggingFace аж 31k раз, но после этого интерес пошел на убыль. Даже бенчмарков в HuggingFace Leaderboard до сих пор не завезли (ну или я не нашел).

К слову, Mixtral-8x7B-Instruct-v0.1 за последний месяц выкачали 965k раз, а Mistral-7B-Instruct-v2 - больше двух миллионов раз.

Databricks тут же поняли, что терять им уже нечего и тоже выпустили "A New State-of-the-Art Open LLM" на 132B параметров. Тоже большая, уникальная и в итоге даром не будет никому не нужна.

А вот интересный релиз, который MistralAI поленились оформить нормально - это веса для базовой модели Mistral 7B-v0.2, которая вышла уже несколько месяцев назад. Обученный на ее основе Instruct-v0.2 они выложили нормально, а про базовую модель просто забыли.

Если что-то и брать для тюнинга под свои задачи, то именно эта базовая модель Mistral-7B-v0.2 будет одним из кандидатов. Качать TAR тут - https://models.mistralcdn.com/mistral-7b-v0-2/mistral-7B-v0.2.tar

Ваш, @llm_under_hood

Читать полностью…

LLM под капотом

Кто угадает LLM модель на очереди в бенчмарк?

Это семейство моделей я еще не оценивал, но клиенты просят под свои нужды.

Это foundational model, которую обучили на открытых данных. Ее, говорят, специально затачивали под задачи бизнеса.

Кстати, а мартовский бенчмарк вышел официально на сайте.

Ваш, @llm_under_hood 🤗

---
Предыдущие LLM бенчмарки в канале:
- бенчмарки февраля 2024
- FAQ по декабрьскому бенчмарку
- март (Haiku)
- Март (Claude 3)

Читать полностью…

LLM под капотом

Архитектура AI-ассистентов одной схемой.

Я нарисовал эту схему только что, чтобы объяснить принципы построения систем одному специалисту. Его роль транслируется в Staff Software Engineer/Principal Engineering Consultant.

В активе у него много успешных проектов для бизнеса, но вот практического опыта построения систем с LLM под капотом пока нет.

Он сейчас заходит в типичный проект на базе LLM, где под капотом RAG с гибридным поиском. Гос клиенты, тысячи пользователей, неистребимые галлюцинации и относительная бесполезность системы. Команда устала от беспросветного копания в ворохе абстракций. Нужно им помочь.

Чтобы помочь выстроить в голове картинку того, как двигать дальше проект, я и нарисовал эту схемку. Она получилась достаточно простая и (вроде бы) одновременно понятная DDD-шникам. Никаких дополнительных иллюстраций не надо.

Посмотрим дальше, поможет ли знание принципов вывести этот проект на правильные рельсы.

А вам такая схема понятна?

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Grok LLM - большая, не имеющая аналогов и никому даром не нужная

X (при жизни - Twitter) выложил свою мега модель:
- 314B параметров (86B активно за раз)
- mixture of experts 8 (2 активны за раз)
- Apache 2.0 лицензия

Сами авторы заявляли:

On these benchmarks, Grok-1 displayed strong results, surpassing all other models in its compute class... This showcases the rapid progress we are making at xAI in training LLMs with exceptional efficiency.


По отзывам, Grok примерно сравним с GPT-3.5, Mixtral. Если пересчитывать на размер, толку от Grok пока ноль. Пропускаем.

Ссылка на HuggingFace

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Если вам предлагают ChatGPT-4 со скидкой в 50%, значит у кого-то сгорают кредиты OpenAI или Microsoft.

Такое в последнее время случается довольно часто. При участии в инкубаторах стартапы могут легко получить облачных кредитов на 100k-150k USD. И если вдруг бизнес не получается, то кредиты так и остаются висеть.

Поэтому владельцы хотят обналичить хоть часть быстросгорающих активов с немаленькой скидкой. Если кому-то нужно сделать много вызовов ChatGPT за короткий срок и со скидкой - неплохое предложение. Чем ближе к сроку сгорания, тем большую скидку можно выбить 😁

Но там есть засады для легального использования бизнесами:
- Чека или инвойса от Microsoft/OpenAI не будет. Максимум - инвойс от частной компании. Налоговой такое нужно будет объяснять отдельно
- Использование не долгосрочное, а до момента сгорания кредитов. Обычно это на пару месяцев
- Работа идет исключительно на доверии. Ничто не мешает поставщику ChatGPT-4 деактивировать API ключ
- Не факт, что условия использования кредитов OpenAI API/Microsoft разрешают их перепродажу.

Хотя лично мне кажется, что лучше всего такие кредиты выводить самому владельцу в виде datasets. Например, разметить какой-нибудь набор документов в нишевой области (legal, business of law или banking) при помощи ChatGPT-4 Vision. В обычных условиях это очень дорого, но ведь нам нечего терять? А потом неспеша использовать такой dataset для обучения локальных моделей для бизнеса. Вот и задел для новой компании.

А если бы у вас сгорало 100k кредитов OpenAI, то на что бы вы их потратили?

Ваш, @llm_under_hood 🤗

PS: напоминаю, что это добрый чатик. Способы нарушения закона мы не обсуждаем.

Читать полностью…

LLM под капотом

LLM Benchmark - Claude 3 Haiku и Gemini Pro 1.0 - уровень хороших тюнов Mistral 7B недорого.

Anthropic выпустила свою младшую модель - Claude 3 Haiku. Это у них самая маленькая и быстрая модель из третьего поколения моделей (Opus, Sonnet и Haiku).

Несмотря на размер, она сохраняет мультиязычность и контекст в 200K tokens. При этом она стоит в 12 раз дешевле Sonnet и в 60 раз дешевле Opus

Моделька теоретически заточена под корпоративные задачи вроде анализа больших объемов документации кучи документации. Возможно поэтому на продуктовых бенчмарках она умудрилась подняться даже выше, чем Sonnet.

До кучи в бенчмарк я добавил Gemini Pro 1.0 от Google. Результат на продуктовых задачах у него тоже на уровне хорошего тюна Mistral 7B. Но там уже есть версия 1.5, которая должна быть пободрее.

Подробнее про бенчмарк можно прочитать по ссылкам тут. Дальше на очереди - Gemini Pro 1.5 и обновление мультиязычности.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Итоги вебинаров по разработке AI ассистентов с LLM под капотом

Оба потока вебинара прошли. Большое спасибо всем участникам за интересные кейсы и вопросы 🤗

Времени ответить на все не хватило - тут материалов на целый курс. Я буду постепенно отвечать на вопросы в группах потоков.

Самый главный вывод: формулировка принципов построения систем c LLM под капотом через knowledge maps (карты знаний) позволяет достаточно быстро объяснить основы, показать код и обсудить процессы внедрения. Ну и даже разобрать некоторые кейсы.

На основе карты знаний мы разбирали принципы реализации таких кейсов:

- AI Assistent для отдела цифровых коммуникаций
- Knowledge Map Search
- Про то, что технология RAG-ов имеет меньшее значение, чем заглядывание в глаза клиентам
- Построение моего собственного ассистента
- Про агента-писателя, которого научил ChatGPT

А принцип везде один и тот же: вместо чисто механического решения проблемы через RAG + embeddings мы отталкиваемся от реальных процессов и знаний экспертов. Это позволяет декомпозировать сложные задачи с галлюцинациями на достаточно конкретные шаги. А там уже можно и измерить качество, и собрать данные для улучшения системы.

Вот краткая выжимка инсайтов самих участников, про вещи, которые после вебинара в первую очередь уже можно использовать на практике:

- Понравился подход к "карте знаний". Теперь есть механика работы как реализовать эту карту на конкретных кейсах.
- разметка данных в knowledge map
- знаю примерно как поставить задачу на разработку такой системы
- Общий подход к составлению базы для ответов
- Есть идея, как применить это в хардкорном телекоме
- Карту знаний. Сейчас есть пилот с банком, сегодня же попробую внедрить данный подход и увижу результат.
- Итеративная разработка, которая закрывает вопросы "один за другим"
- не углубляться сильно в чанкеры и т.п сложности RAGов

Но это были инсайты прямо в конце вебинара. Если пришли еще какие-то интересные мысли в следующие дни - пишите в комментарии. Можно обсудить прямо здесь)

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Смотрите, как можно просто проиллюстрировать разницу в качестве между векторными RAG-ами и подходами на базе карты знаний.

В прикрепленном архиве - 3 годовых отчета. Можно загрузить их в любой доступный RAG и задать вопрос:

You are CFO-GPT. Quickly answer, which of the companies has more liquidity right now. And how much? Don't make up information, if you are not certain.


Я делал такое ради смеха с LlamaIndex во время подготовки к вебинару сегодня.

Там фишка даже не в том, что векторный RAG галлюцинирует и не дает цифры, а в том, что его ответы каждый раз разные. Попробуйте сами и убедитесь.

Ваш, @llm_under_hood 🤗

PS: Если в ответе AI ассистент не жалуется на то, что цифры в разных валютах, выключите такого ассистента.

Читать полностью…

LLM под капотом

Закончились места на вебинар по AI ассистентам с LLM под капотом. Регистрация закрыта.

Участники принесли очень интересные кейсы на разбор. Говоря обобщенно, это:

Первый поток:
- Ассистенты / Copilots
- Работа с таблицами
- Маркетинговые исследования

Второй поток:
- Работа с таблицами
- Banking / Insurance, с табличками
- Базы знаний компаний

На вебинаре мы посмотрим на работу и реализацию одного AI ассистента на конкретной задаче в отдельной предметной области. А потом чуть более детально разберем адаптацию для работы с этими кейсами (ведь на самом деле принципы там одни и те же).

Ваш, @llm_under_hood 🤗

PS: Запись вебинара отдельно продаваться не будет, чтобы можно было свободно обсудить кейсы участников.
PPS: Третий поток? Посмотрю, как пройдет вебинар, и на количество желающих.

Читать полностью…

LLM под капотом

Помните, я обещал бамбуковые палочки и роботов? Вот первая версия самого мелкого манипулятора. #weekend

Там пока логики нет, просто ESP32 крутит серво-приводами туда-обратно. Дальше план первой серии экспериментов такой:

(1) сделать, чтобы манипулятором крутить можно было с компьютера
(2) попробовать управлять при помощи GPT-4-Vision. Если рука сможет самостоятельно попасть по детальке Lego, то это уже прогресс.

Дальше можно будет копать в сторону создания манипулятора, который меньше шатает. Чтобы было нормальное целеполагание и позиционирование с использованием CV+LLM+Kinematic Engine.

(да-да, именно в таких задачах нужно low-latency LLM inference, как у Groq или Tenstorrent 😁)

Пока все это - сплошная теория. Но местный клуб "очумелые ручки" уже заинтересовался проектом. Особенно когда мы заговорили про возможность использования манипулятора для смешивания напитков 😃

В течение пары недель заведу Github репу, куда начну выкладывать текущие спецификации и ход экспериментов.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Вебинар по AI-ассистентам: даты и время проведения

Есть два слота для проведения вебинара про адаптирующихся AI-ассистентов:
· 7 марта, четверг, 13:00 GMT+3 (московское время)
· 9 марта, суббота, 15:30 GMT+3

Это два отдельных потока. Содержание вебинара будет одинаковым. Продолжительность: 2 часа.

Пожалуйста, приходите в тот поток, который вы выбрали при оплате: я ограничил количество мест, чтобы можно было качественнее поработать на Q&A.

Если вдруг закончатся места, то добавлю на субботу или проведу еще один вебинар во второй декаде марта.

Будет ли запись?
Да, запишем лекционную часть и вышлем участникам лучший вариант после окончания всех потоков. Обсуждения ваших кейсов из Q&A выкладываться не будут.

Хочу, чтобы мой кейс разобрали на вебинаре, что нужно сделать?
После оплаты вебинара вам на емейл придет приглашение в чат - можете прислать кейс туда. Я прочитаю его заранее и постараюсь на вебинаре или в чате рассказать, как решал бы подобные задачи.

Если кейсов будет много, то на вебинаре выберу несколько показательных или кластеризую похожие кейсы.

Как оплатить?
Понадобится карта, работающая за пределами России. Оплатить можно вот здесь.
После оплаты вам придет email с деталями и ссылками на зум и в чат.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Бенчмарки сегодняшних моделей от Mistral.

Новый Mistral Large на бизнес задачах лучше своих младших собратьев, но до топов ему далеко.

Разницы между двумя поколениями моделей помладше особо тоже нет. Досадно, я ожидал уровня выше, чем OpenChat.

Это дополнение вдогонку к LLM бенчмарку за февраль. Подробнее про бенчмарк можно почитать там.

Если кратко, то это закрытый бенчмарк на базе промптов и тестов из реальных продуктов (enterprise glue и стартапы).

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Update про вебинар по ассистентам с LLM под капотом.

Вебинар однозначно состоится (опрос был тут). По количеству желающих я вижу, что его нужно будет разбить на несколько потоков, чтобы можно было эффективно отвечать на вопросы.

Даты и время проведения появятся в течение недели. Тогда же выложу ссылку на платежную форму в Stripe. Для оплаты понадобится карта, которая работает за пределами России.

В комментах спрашивали, можно ли оплатить рублями или криптой.

Нет - не из вредности, а чтобы не превращать в кошмар мою налоговую отчетность. Но можно договориться между собой и купить другому участие вебинара. Главное, чтобы в форме были указаны email/имя того, кто посетит вебинар. На email придет персональное приглашение в Zoom.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Cohere Command-R в LLM бенчмарке

Cohere Command-R - это новая 35B модель от Cohere AI, которая заточена на работу в Enterprise.

Фишки:
- Контекст 128k
- Владеет 10 языками, и еще дюжину языков понимает
- Встраивается в RAG и умеет использовать инструменты
- Открыто доступна на HuggingFace для некоммерческого использования
- Доступна в Cohere API по $0.50/$1.50 за миллион входных/выходных tokens

Но вот в продуктовом бенчмарке она проигрывает даже Claude 3 Haiku.

Правда бенчмарк мог не раскрыть все возможности Command-R. Когда я его начинал вести летом прошлого года, function calling и тулзы еще не встречались. Возможно, пора его переделать?

Ваш, @llm_under_hood 🤗

---
Предыдущие LLM бенчмарки в канале:
- бенчмарки февраля 2024
- FAQ по декабрьскому бенчмарку
- март (Haiku)
- Март (Claude 3)

Читать полностью…

LLM под капотом

Давайте расскажу свою идею стартапа

Я с ней хожу уже второй месяц, и она связана с загадкой про LLM модель на очереди в бенчмарк.

Идея простая - ответить на пожелания клиентов, которые хотят подобрать себе локальную LLM модель, которая бы хорошо решала их нишевые задачи.

Задачи бывают достаточно разные - извлечь данные таблиц из PDF, классифицировать входящий запрос по категорям, сформулировать search query в Elastic Search для пользовательского запроса итп.

С такими конкретными задачами, скажем, ChatGPT-4 справляется довольно неплохо, а вот локальные модели пока не очень. А уж если пошла речь про другие языки, картинка еще более печальная.

А ведь небольшие локальные модели, если их заточить под конкретные задачи, могут не только догнать ChatGPT по качеству, но и сэкономить немало денег. Именно про это и писал YCombinator в своем письме новым стартапам.

Идея стартапа в том, чтобы выбрать самые востребованные, но нишевые LLM задачи и затюнить модели специально под них. Причем выбирать такие ниши и индустрии (из тысяч возможных комбинаций), чтобы у крупных игроков вроде OpenAI, Anthropic и MistralAI в ближайшую пару лет руки не дошли совсем.

Самое засадное в этой идее в том, что потребуется немало усилий для создания чистопородных моделей с отслеживаемой родословной. Это время на подготовку чистых и репрезентативных синтетических данных с нуля (чтобы комар носа не подточил), последующий тюнинг и отладку на отзывах пользователей.

А причем тут загадка про LLM модель? Так там клиенты очень просили протестировать IBM Granite 13B. Это очень странная модель уровня старых тюнов Llama 13B. Ее единственное преимущество заключается в прозрачной подготовке данных и беспроблемной лицензируемости.

Причем мне кажется, что в этом канале есть люди, которые уже думают в схожем направлении применительно к своим нишам.

Ваш, @llm_under_hood

Читать полностью…

LLM под капотом

Ребята, я знаю, что у меня много подписчиков из Москвы и Московской области. Надеюсь, что вы в безопасности.

Случилось страшное. Я соболезную семьям погибших и желаю выздоровления пострадавшим. Берегите себя.

Ваш, @llm_under_hood

Читать полностью…

LLM под капотом

RAG Challenge на годовых отчетах компаний

В последнее время в комментариях было много обсуждений про эффективность разных подходов. Особенно вектора против knowledge maps. Но ведь технологии совсем не важны. Важно только, работает в итоге AI система с LLM под капотом или несет пургу.

И это можно измерить и сравнить. В чатике канала в итоге договорились до небольшого дружеского соревнования 🍻

Идея такая. Каждый желающий пилит свой RAG, который может давать ответы на вопросы по пачке годовых отчетов компаний. Вопросы на information retrieval - сколько человек работает в компании X? У какой компании ликвидность больше? У кого есть виноградники во Франции, и в каких провинциях. Вкладывается ли компания Y в green bonds? итп

Кстати, если у кого-то получатся хорошие результаты - это круто. Ведь кейс интересен стартапам и компаниям побольше. Это прямо ассистент для отдела продаж.

Каждый пилит свой RAG или использует существующую систему. Главное, чтобы там было две фишки:

1. Возможность загрузить тестовый набор отчетов (выберем случайно все вместе, штук 100)
2. Возможность загрузить список вопросов и получить список ответов.

Между первым и вторым шагом может пройти, скажем, часов 5-6 (чтобы система могла переварить данные, посчитать embeddings или прогнать экстракторы)

Исходники открывать не обязательно.

Если кому-то интересно, вот ссылка на набор файлов для обучения - ZIP, 100 MB. В тестовом наборе файлов их, естественно, не будет.

Что по срокам?

Я предлагаю так сделать - как несколько человек готовых наберется (хотя бы пара), то сформируем набор вопросов с документами и прогоним тесты вместе.

Если потом еще кто-то подтянется, можно заново будет это повторить, на новых документах и вопросах.

Какие вопросы будут?

Типы вопросов будут определены заранее до начала соревнования. Поговорим с экспертами и выберем самые реалистичные и востребованные категории.

Что скажете?

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

NVidia экономит электричество и ускоряет квантованные модели

Прошлой ночью NVidia презентовала новые GPU чипы и конфигурации на базе Blackwell. Хороший summary есть в ai news (keynote тут).

Меня поразил один факт, где они сравнивали производительность чипов при тренировке модели уровня GPT-4. Кому, как не NVidia знать эти цифры?

Итак, для тренировки GPT-4 (без учета ошибок):

- нужно 8000 штук H100 в течении 90 дней. Потребление - 15МВт
- либо 2000 штук B100 в течение 90 дней. Потребление - 4МВт

В четыре раза меньше чипов и почти в четыре раза меньше энергопотребление. Если B100 стоит в 4-5 раза больше H100, то это уже легко окупается.

А там еще идет хорошая поддержка квантизации уровня FP8, FP6, FP4. Это значит, что производительность не будет так сильно падать при запуске пожатых моделей. Причем, если верить NVidia, inference LLM в таком режиме вообще дико экономит электричество.

Такие новости радуют. В ближайшие годы нам нужно будет еще больше вычислительных способностей.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

LLM-системы и structured logging - #weekend пост

В феврале я писал про архитектурный “затык” в моем AI-ассистенте. Не получалось никак сделать прозрачным процесс извлечения данных из документов в knowledge map.

Проблема была в том, что над одним документом в рамках концепции Knowledge Maps будут последовательно работать несколько экстракторов данных. Результат работы одних может передаваться в другие.

Например, если у нас есть сообщение с вложенным инвойсом, то однозначно этот инвойс можно классифицировать только после распознавания текста и классификации его в контексте исходного сообщения. Процесс получается нелинейный и потенциально сложный.

И обязательно хочется иметь возможность проинспектировать результаты любого запуска процесса. Вот хоть ты тресни. Ведь без возможности заглянуть под капот нельзя ничего оценить, а без оценки никак нельзя улучшить.

Почти месяц я работал над тем, чтобы все это решить достаточно простым кодом.

На помощь пришли три старые концепции из software engineering:

- structured logging - для логгирования всего так, чтобы это потом было удобно просматривать и визуализировать (статья NewRelic)
- content-addressable storage - чтобы можно было хранить все подряд и избегать дупликации (wiki)
- NixOS derivations - концепция о кэшировании результатов долгого вычисления на основе входных данных (описано в NixOS)

В итоге все работает так:
(1) При появлении новых документов, по ним запускается процесс обработки. На каждый документ создается новый structured log.
(2) Процесс вызывает конкретные модели (data extractors) в нужном порядке. Результат вызова вместе со всеми деталями подшивается в этот лог.
(3) Когда документ обработан, все извлеченные данные подшиваются к нему, вместе со structured log процесса и всеми деталями.

А самое классное в том, что вызовы моделей - immutable. Это позволяет кэшировать дорогие вызовы автоматически. Весь structured log - тоже immutable. И если ничего не поменялось, то можно процесс обработки документа вызывать хоть сколько раз, результат будет один и тот же.

Вторая фишка состоит в том, что если результат обработки документа пометить как approved/reviewed, то можно пометить все участвовавшие вызовы моделей как хорошие. А это добавляет все данные в dataset для последующего обучения своих моделей.

Пара скриншотов и примеров того, как выглядит structured log - в комментариях.

Ваш, @llm_under_hood 🤗

PS: Никакого LangChain/LlamaIndex не используется. Достаточно простого питона.

Читать полностью…

LLM под капотом

Как распознавать сложные таблицы?

Еще один пример того, как непросто доставать данные из документов.

На картинке вырезка из технической спецификации Sharp на диоды. Одна единственная страница, но с нюансами.

Попробуйте скормить эту PDF в любой RAG и спросить:

What is the typical peak forward voltage?


Правильный ответ, очевидно, 1.9. Если у вас есть RAG/Agent под рукой, было бы интересно услышать, что он ответит.

Обычно системы путаются в ячейках или просто отказываются отвечать.

А вот ChatGPT+Vision с такими задачами справляется, но только если ему обрезать картинку до конкретной таблицы.

The typical peak forward voltage, as indicated in the provided image, is 1.9 V.


Как с такими табличками работаете вы?

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

LLM Benchmark - Claude 3 радует!

Модели Claude 3 сильно улучшились на LLM бенчмарках. Похоже, что в Antropic стали прислушиваться к пожеланиям клиентов, которые используют LLM в реальных продуктах.


Opus скакнул вперед, перескочил через GPT-3.5 и оказался среди версий GPT-4. Больше всего радует сам факт рывка в правильном направлении.

Раньше 100 очков в работе с документами набирал только GPT-4 Turbo v4/0125-preview. А теперь и Claude 3 Opus. Это значит:

- системы, которые построены на работе с Knowledge Map, тут будут хорошо запускаться (бенчмарк тестирует это)
- бенчмарк придется усложнять, чтобы повысить планку))

Улучшение Sonnet не такое заметное на первый взгляд. Модель незначительно оторвалась от версий v1 и v2. Но при этом стоимость упала более, чем в два раза. Будет интересно посмотреть, что у них там с моделью Haiky.

Подробнее про бенчмарк можно прочитать по ссылкам тут. Дальше на очереди - Gemini Pro и обновление мультиязычности.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Улучшение LLM для практических задач: начинаю сбор данных

Создатели LLM наконец заметили, что их модели работают хорошо на академических бенчмарках, а вот в реальных продуктах - несут пургу. Клиенты жалуются, а продажи сервисов оставляют желать лучшего.

Я недавно общался на эту тему с представителями одной компании-разработчика LLM. Выяснилось, что они не совсем в курсе того, как их модели реально используются в разных кейсах. И они попросили меня помочь им улучшить качество моделей.

Чтобы исправить эту ситуацию, я начинаю собирать dataset LLM задач, анонимизированный и не для распространения.

Его часть будет передаваться под NDA проверенным компаниям, которые обучают свои foundational LLM-модели. Они смогут увидеть и воспроизвести локально проблемы своей модели. При наличии большого количества данных - и дообучить модель.

Вторая часть dataset-a производителям LLM не передается и используется для независимой верификации того, что результат действительно есть, и что данные использовали правильно.

Что получают компании-участники?
Им не нужно будет самим обучать LLM или усердно файн-тюнить модели под свои задачи. Модели станут более оптимизированы под их бизнесы, без расходов на GPU или высококлассных ML-экспертов.

Еще участники будут знать точные ключевые фразы и формулировки, на которых модели обучались выполнять конкретные задачи. Например: “You are a TableExpert-GPT with a degree in Excel. Perform precise cell extraction from the document fragment below”.

Что получают создатели LLM моделей?
Больше продаж и клиентов.

Что получает весь мир?
Больше хороших LLM моделей, которые умеют не только цитировать wiki, но и лучше работать в реальных продуктах с LLM под капотом.

Что это за LLM?
Пока это только одна компания. В моих бенчмарках она есть.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

AI Knowledge Maps в теории и на практике

Сегодня я делал демку прототипа AI ассистента для отдела цифровых коммуникаций международной компании с выручкой в ~3B EUR.

Там нужно сделать умный поиск по данным из внутренней корпоративной сети компании.

На прошлом митинге я показывал клиенту простейший поиск на базе ChatGPT + FTS. Они покивали головами и прислали десяток вопросов на засыпку.

Я не стал мудрить ничего особенного с этими вопросами, и сделал простейший knowledge map для AI по этим областям (про него было активное обсуждение в комментариях к этому посту). В теории оно должно было дать достаточно контекста системе, чтобы она могла самостоятельно искать информацию.

Как оно прошло на практике?

На митинге мы сначала позадавали системе вопросы аналогичные известным. Я рассказал про принципы работы и обучения через построение knowledge map. Потом клиент позадавал вопросы, к которым невозможно было подготовиться. И мы посмотрели, как система барахтается и ошибается.

Результат? Митинг, который был запланирован на 45 минут, закончился за 20 минут.

Почему? Да потому, что отдел цифровых коммуникаций ощутил перспективы, и теперь просит подключения к AI ассистенту еще пары IT систем компании. А еще они убежали готовить новый список вопросов для обучения. А еще нам надо теперь обсуждать бюджеты и прочие прелести внедрения в корпоративную IT инфраструктуру.

В общем, нет времени на митинги, работать надо 😆

Кстати, один из вопросов, которого я не ожидал - меня попросили задать вопрос не на родном языке документов. Ну я и спросил систему об актуальных сроках поставки одной позиции на русском языке.

AI ассистент сориентировался по knowledge map и достал самый последний релевантный документ (который на немецком). Потом еще попытался поискать по базе документов (используя английский и немецкий), в итоге плюнул и синтезировал тот единственно верный ответ, сформулировав его на русском языке. Я его этому всему не учил.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Сегодня сильно порадовал ProductFixer с LLM под капотом (полный кейс).

Этот ассистент автоматически проходит по каталогам продуктов и находит ошибки в описаниях. Для этого ему нужно уметь проходиться по разнообразным документам и извлекать из них нужные данные. А потом еще сравнивать и перепроверять.

Во время отладки я сегодня увидел вживую случай, когда данные запрятаны в нерегулярной таблице (с merged ячейками), а сама таблица - на другом языке, в середине многостраничного PDF файла.

Система справилась на отлично.

                                             
english_name fixes
─────────────────────────────
Voltage []
Output in Watt []
Drilling capacity in ['25']
wood in mm
Net weight in kg ['1.2']


Теперь хочется еще более сложных таблиц.

А с какими самыми сложными таблицами встречались вы?

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

AI Knowledge Graph Search

Вчера я сдался и начал использовать слово graph в описаниях работы продуктов с LLM под капотом. Например, как на скриншоте из протипа корпоративного ассистента в комментариях к этому посту (на вебинаре через неделю мы разберем аналогичный).

Слово будет использоваться в предложениях вроде "предобрабатываем документы в доменную модель, чтобы LLM потом мог осознанно доставать нужные документы, а не тащить всякий мусор из chunks"

Проблема была в том, что больше людей знает про Data Science/Machine Learning и LLM, чем про Domain-Driven Design (DDD). Поэтому "доменная модель" вызывает совсем не те ассоциации, которые надо. Скорее вопросы "а можно ли ее запустить на локальных серверах?"

При описании решений на базе LLM я пытался использовать "structured data", но это было тоже не совсем то. Вчера, наконец, эксперты из DDD EU подсказали термин "knowledge graph / mapping".

И этот термин подходит сильно лучше! Он даже вызывает ассоциации с графовыми базами данных, что ведет размышления в правильном направлении.

Смотрите сами:

При построении ассистента мы можем заранее трансформировать документы в граф знаний. Так LLM потом сможет осознанно доставать нужные фрагменты, а не тащить всякий мусор из chunks. Граф знаний разрабатываем по аналогии с domain model из DDD.


Правда ведь предложение стало чуть понятнее, чем раньше?

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Наш ML R&D сервер дождался свою AI карточку от Tenstorrent - Grayskull e150.

Я про них писал раньше. Карты созданы в компании Jim Keller-a. Того самого, который ответил Сэму Альтману, что на революцию в AI чипах нужно не 7 триллионов, а меньше одного.

Размер карты и интерфейс внешнего охлаждения у них, конечно, затейливые. Поэтому в систему воткнулась только одна карточка из двух.

Дальше на очереди установка всех драйверов, освоение стэка, запуск моделей и экспериментов.

Еще пара фоток - в комментариях.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Mistral Large - новая hosted модель от Mistral AI

Фишки:
- 32k context
- function calling
- есть на Azure

Новость | Обсуждение HackerNews

И теперь понятно, почему на прошлой неделе Mistral AI просили меня подождать с обновлением бенчмарка до понедельника. У них вышел не только mistral-large, но и подоспело обновление для серии Mixtral 8x7B: mistral-small-2402

Сегодня попозже протестирую и выложу новую версию бенчмарков.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Посты про адаптирующихся AI ассистентов порождают больше вопросов, чем дают ответов.

Вообще, лучше всего такие вещи получается рассказывать вживую.

Поэтому я предлагаю вебинар по построению ассистента на конкретных примерах. Мы проведем его с вами по горячим следам, в начале марта. Он будет платным. Ниже - его описание.

Я проведу вебинар по проектированию и внедрению ассистентов с LLM под капотом

Он предназначен для инженеров, которые руководят созданием подобных ассистентов. А еще - для продактов и сейлзов, которым нужно понимать возможности и проблемы подобных продуктов.

Мы посмотрим на работу и реализацию одного такого ассистента на конкретной задаче в отдельной предметной области.

Это будет end-to-end кейс с реальными документами.

Помимо кода, мы обсудим с вами принципы построения и внедрения подобных систем, от первого AI навыка до создания платформ. Обсудим контроль качества, сбор данных и построение работы с пользователями.

Если есть кейсы, которые вы хотите обсудить - можно будет их принести с собой на разбор. Я расскажу, как решал бы такую задачу и отвечу на ваши вопросы.

Длительность - 2 часа. Язык - русский. Стоимость участия в вебинаре - 80 евро (нужна будет карточка для оплаты через Stripe, российские карты здесь не сработают).


Если есть желание и возможность поучаствовать, отпишите в комментарии “мне интересно” и свой часовой пояс.

Ваш, @llm_under_hood 🤗

Читать полностью…
Подписаться на канал