Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4
Давно по воскресеньям не было #female_vocals — так вот. Провожу день с прекрасной Элизабет Фрайзер, и делюсь с вами
Cocteau Twins — Pandora, 1984
Ethereal wave, dream pop
https://youtu.be/h_ICl20EJjY?si=cZ4iC3wWbY4gs_P-
В честь пятницы — мемотред! Давно не было
#шитпост
🥳Джулиан Ассанж на свободе!
Журналист заключил сделку с прокуратурой США. В обмен на признание вины Ассанжу зачтут срок пребывания в тюрьме Белмарш (5 лет) как наказание. Сейчас Ассанж направляется на остров Сайпан (территория США), где состоится финальный суд по его делу. После признания вины, суд отпустит Ассанжа на его родину - в Австралию. Ассанж не был на родине больше 15 лет, с 2010 года он находился под следствием, с 2012 по 2019 года безвылазно в здании посольства Эквадора в Лондоне, а с 2019 по 2024 в тюрьме строго режима Белмарш.
Освобождение Ассанжа - это результат не только качественной работы его адвокатов, но и широкая кампания в защиту журналиста, инициированная ресурсом Wikileaks. Ассанжа поддерживали множество социальных движений, деятелей культуры, лидеры левых партий и движений, среди них Джереми Корбин, Янис Варуфакис, Жан-Люк Меланшон и многие другие.
🌸Пост имени Ноама Хомского🌸
#nlp #про_nlp
В связи с прекрасным воскрешением Ноама Хомского на прошлой неделе, хочу все же сделать большой пост с описанием его наследия.
Хомский — один из самых цитируемых ученых в мире, и самый цитируемый ученый конца ХХ века — его научные работы процитировали более 500 тысяч раз, причём пик цитирования приходится на актуальные работы 2014 г.
🟣Лингвистическая теория
Основополагающие труды Хомского в лингвистике сгруппированы относительно нескольких идей:
1) язык имеет врожденные свойства и нейробиологические ограничения;
2) этими ограничениями должно быть можно объяснить все языковое многообразие и формализовать грамматику всех языков;
3) построив формализм, можно с его помощью генерировать корректные осмысленные высказывания на любом языке, а также сводить к универсальной форме все существующие данные.
Центральная работа — т.н. универсальная грамматика (Universal grammar), и надстройки вокруг нее, объясняющие различные явления в синтаксисе, морфологии, но даже и фонологии и семантике.
Теория неоднократно переделывалась и обновлялась с появлением новых данных и открытий в лингвистике — последняя редакция приходится на 2014 год
См Генеративная лингвистика
🟣Computer Science
К семинарам Хомского восходит исследование формальных языковкак подобласть информатики. Эта область начала развиваться около 1956 года, когда Хомский предложил математическую модель грамматики в связи с его изучением естественных языков. Вскоре после этого было установлено, что понятие грамматики имеет большое значение для программистов, когда синтаксис ALGOL был определен с помощью контекстно-свободной грамматики. Это развитие естественным образом привело к созданию синтаксически-управляемой компиляции.
Хомскому принадлежит также иерархия формальных грамматик, заложившая основу теории конечных автоматов, в частности, любимых всеми регулярных выражений.
См Иерархия Хомского
🟣Хомский vs Шэннон
Один из самых знаменитых и неразрешенных споров в LLM: можно ли опираться на чисто статистический подход для моделирования языка? Хомский считает, что нет. Статистическая апроксимация кучи непроанализированных данных не должна считаться научным достижением.
См Питер Норвиг про спор Хомского и Шэннона
🟣Антикапитализм, антиимпериализм, геополитика
Хомский неоднократно занимал непримеримую позицию в критике внешней политики США, занимаясь не только политическим активизмом, но и аналитической работой со стороны, которую в американских полит координатах можно назвать левой.
2011 — Хомский выступает на Occupy Wallstreet
Разоблачение работы американских медиа, методов пропаганды в СМИ, манипуляций общественным мнением:
1988 — Manufacturing Consent: The Political Economy of the Mass Media
Критика американского империализма:
1979 — The Political Economy of Human Rights — Камбоджа и Восточный Тимор
1983 —The Fateful Triangle — Роль США в Арабо-Израильском конфликте
1987 — On Power and Ideology: The Managua Lectures Counter-Revolutionary Violence: Bloodbaths in Fact & Propaganda — США и Вьетнам
1989 — Necessary Illusions: Thought Control in Democratic Societies
2003 — Hegemony or Survival — война в Ираке
См https://en.wikipedia.org/wiki/Political_positions_of_Noam_Chomsky
🟣Что еще посмотреть, почитать
Chomsky vs Shannon — фрагмент лекции Криса Маннинга https://www.youtube.com/watch?v=9PqOWu2_0MA
Кратко о влиянии Хомского на Computer Science https://exaud.com/noam-chomsky-computer-science/
Фрагмент из интервью: все преступления американских президентов: https://www.youtube.com/watch?v=5BXtgq0Nhsc
Человек из Нижнего Новгорода наносит ответный удар!
Как пишут на Hacker news, если ориентироваться на традиции названий, заложенные OpenAI, Safe SuperIntellligence будет одной из самых опасных компаний когда-либо существовавших! И тупой 😁
#шитпост
🌸Как сделать себе визу Global Talent UK🌸
#не_про_nlp
Несколько советов отдельно 🇬🇧
— Если у вас уже есть оффер от британского работодателя, и он предлагает вам оформить skilled worker visa и оплатить релокацию — имхо, нужно соглашаться. Это гораздо быстрее, и уже потом, находясь в Британии, вы сможете переподаться на Global talent. Skilled worker это по сути британский аналог H1B, то есть вы раб на визе, и за нее вам скорее всего оплатят все fees. Получить от работодателя компенсацию за Global talent менее вероятно, так как все будут понимать, что вы хитрый жук и не боитесь уволиться талант. Можете тут не повторять мою ошибку — я оформляла Global talent сразу, и в результате это заняло полгода и мне пришлось несколько раз переносить дату выхода, так как виза все еще не была готова.
— Оффер для подачи иметь совершенно не обязательно, что приятно! Просто переезжать без оффера страшновато. Само наличие такой визы на переговорный процесс влияет положительно, работодатель видит, что вы жук сильный и независимый, скорее всего имеете варианты и вам надо делать хороший оффер.
— Критерии "таланта" вполне мягкие, при желании можно практически любого профессионала подготовить под критерии оценки. Если время не жмет, можно даже специально поготовить свой кейс полгода — походить по конференциям, опубликовать пет-проджект и т.д., чтобы хватало материалов на кейс с запасом.
— Ну и напоследок: Если мы работали с вами вместе, вы думаете про переезд и вам поможет мое рекомендательное письмо — я буду рада!
🟣Чат помощи/советов по визе /channel/globaltalenthowto
🟣Гайд по оформлению всего самому, на русском https://globaltalentvisauk.com/
🟣Описание визы на британских "госуслугах" https://www.gov.uk/global-talent
Сегодня воскресенье, но будет музыкальная пауза без #female_vocals , а будет просто классика — видения будущего из прошлого
Jean Michel Jarre
Oxygene
1976
https://youtu.be/5ab7tIZNplM?si=4uMbvpgmu1pnZwbh
В это воскресенье в рубрике #female_vocals хочу просто поделиться с вами кавером, который очень люблю.
Считаю, что это песня на самом деле про собеседования и офферы в 2024 году
https://youtu.be/qS0YJZXmX2s?si=TPsLaSbEwNty7wFe
🌸5 заповедей бенчмарков, которые больше не работают в 2024 🌸
#nlp #про_nlp #nlp_papers #ai_alignment
Пара мыслей вслух про то, как меняется процедура оценки языковых моделей — и наши ожидания от них.
🌸1. Датасеты и бенчмарки всегда живут дольше, чем модели. По крайней мере, так было раньше. Теперь это не так, бенчмарки устаревают за месяц — тесты оказываются в обучающей выборке, хакнуты кэгл-методами, и т.д.
🌸2. Тестсет может быть открытым, можно выкладывать ответы, разработчики же честные. Честные! Но потом это все попадает в обучающую выборку непроизвольно, с краулингом сети. Контаминация открытого тестсета рано или поздно неизбежна, а учитывая п.1, это время очень сократилось.
🌸3. Новый датасет = более надежный результат. Многие датасеты составляются с помощью фильтрации открытых данных, разметки, часто получавтоматической, данных, которые уже были в сети, соответственно, модели их уже видели. Более надежный результат тестрования гарантирован, только если новый датасет составляется людьми с нуля! Иначе риск контаминации очень велик — см статьи из поста и статью Scale AI. Любые оценки моделей без теста на контаминацию можно смело выкинуть.
🌸4. Разработчики моделей сами прогоняют свою модель и подбирают лучшие параметры. Тоже нельзя сказать, что это верно. Во всех крупных лидербордах и раньше надо было прислать ссылку на код и модель, а теперь и вовсе, честная оценка возможна в условиях контейнернго соревнования — разработчики отдают контейнер организаторам лидерборда, те его запускают и сравнивают с остальными на закрытом тестсете, который разработчики не видели. Перебор гиперпараметров в таком случае сделать нельзя. См Chatbot Arena
🌸5. Однократной оценки достаточно. Во-первых, модели постоянно обновляются, а если они еще и ходят в интернет или используют RAG/обновляемый индекс знаний, то и проверять их надо постоянно во избежание регресса. В-вторных, side-by-side соравнениями из п.4 и AB-тестами оценки можно запускать постоянно — была бы инфраструктура и оценивающие люди. Инфраструктуру и сообщество сейчас во многом обеспечивает HuggingFace— на ChatBot Arena уже больше миллиона оценок, хотя несколько месяцев назад все чуть не закрылось!
С какими проблемами при оценке моделей вы сталкивались?
🟣Мой чеклист отсюда все еще актуален — для продакшена бенчмарков мало, еще нужна комбинация из оффлайн и онлайн метрик.
🌸Field Matters Workshop🌸
#nlp_papers
Для всех, кто сейчас подаётся на NeurIPS или готовит сабмиты статей.
Вот уже третий год подряд мы с коллегами организуем воркшоп по методам и инструментам ML для полевой лингвистики — Field Matters.
Воркшоп мультидисциплинарный, объединяет работы по малоресурсным языкам, датасеты, новые инструменты для оцифровки, разметки, перевода, распознавания речи.
В этом году мы проходим на ACL 2024, в Таиланде.
Дедлайн — 17 мая!
Принимаются статьи разного формата, short и long papers, главное — в шаблоне ACL.
🟣Подать статью: https://openreview.net/group?id=aclweb.org/ACL/2024/Workshop/Field_Matters
🟣Сайт воркшопа: https://field-matters.github.io/
🟣Все темы воркшопа:
— Application of NLP to field linguistics workflow;— The impact, benefits and harms of NLP-assisted fieldwork;
— Transfer learning for under-resourced language processing;— The use of fieldwork data to build NLP systems;
— Modeling morphology and syntax of typologically diverse languages in the low-resource setting;
— Speech processing for under-resourced languages;
— Machine-readable field linguistic datasets and computational analysis of field linguistics datasets;
— Using technology to preserve culture via language;
Improving ways of interaction with Indigenous communities;
— Special track: Indigenous languages of Thaïland and South-East Asia.
Привет! Тут давно не было постов — в основном потому, что я сильно выгорела и в резудьтате потеряла все расписание и привычки, свет внутри погас, но я все ещё работаю.
Но с сегодняшнего дня эфир возобновляется! ☺️ Обнимаю всех!
🌸State of Multilinguality 2024🌸
#nlp #про_nlp #nlp_papers
На прошлой неделе выступала сразу 2 раза с коротким обзором многоязычности в LLM
TLDR; языков ≈7 тысяч. Покрыто NLP-ресурсами примерно 1500, и это примерно то же самое количество, что можно встретить в Интернете. Самая многоязычная область — по-прежнему Machine Translation, проекты No Language Left Behind, MT for the next thousand languages.
The Polyglot Internet — концепция за многоми текущими инициативами в MT. Социальные связи в Интернете меняются со временем — и становятся все более моноязычные в среднем, то есть каждый пользователь с большей вероятностью коммуницирует только внутри своего языкового сообщества. Машинный перевод должен помогать снижать коммуникативный барьер и поддерживать общение между людьми вне их локальных интернет-сообществ. Но даже идеальная система машинного перевода не будет достаточной — языки постоянно меняются, и поддерживать дообучение системы могут помочь носители — переводчики, языковые активисты, просто вовлеченные носители. Поэтому для решения фундаментальной задачи нужны обе составляющие вокруг MT — данные и сообщество.
Данные и сообщество — цель многих нескольких инициатив.
Open Language Data Initiative — в рамках конференции WMT 2024 принимаются новые языки в уже существующие корпуса FLORES+, MT Seed ссылка
Field Matters — воркшоп на ACL 2024. До 17 мая принимаются статьи на темы автоматизации полевой лингвистической работы, автоматизация разметки, распознавания речи, работы со звучащей речью, инструментами для малоресурных языков. ссылка
Основные ссылки
🟣Machine Translation from One Book Arxiv
🟣Проблемы расширения словаря и дообучения Blog
🟣Мультиязычная синтетика для Instruct-tuning HuggingFace
🟣Обзор мультиязычных LLM Arxiv
🟣Презентация
🌸SciHub и философия познания🌸
#не_про_nlp
Уже несколько дней с интересом читаю кандидатскую диссертацию Александры Элбакян, автора SciHub.
Элбакян А.А. ОТКРЫТОСТЬ КАК ЭПИСТЕМИЧЕСКАЯ ЦЕННОСТЬ НАУЧНОЙ КОММУНИКАЦИИ
Очень призываю вас посмотреть самостоятельно, но основные мысли, которые заинтересовали меня:
— В целом вредно представление о том, что ограниченный доступ к научным знаниям является традиционной практикой, а широкое их распространение — радикальным и
революционным нововведением.
— Наоборот, доступность и открытость эксперимента демаркирует науку от ненауки, знание от мистцизма. Так что открытость в науке и открытом доступе следует рассматривать как консервативную ценность
— В целом приведен подробнейший обзор открытости знания как основы рациональности и морально-этической ценности.
— Очень подробный исторический обзор, о том как идея открытого знания развивалась, от античности до XXI века
— Философское обоснование open access, open source 🔥
Кандидатская защищена успешно, с присуждением ученой степени кандидата философских наук!
🟣Страница работы https://iphras.ru/page26414303.htm
🟣Автореферат https://iphras.ru/uplfile/diss/elbakyan/avtoreferat_elbakyan.pdf
🟣Текст диссертации https://iphras.ru/uplfile/diss/elbakyan/dissertatsiya_elbakyan.pdf
🌸Открытые данные и LLM🌸
#nlp #про_nlp
Прошлая неделя выдалась тяжелой для открытых текстовых данных.
🟣Open Library
Open Library, большая часть Internet Archive, про которую я рассказывала раньше, проиграла судебный процесс по копирайту против группы американских издательств.
Издатели вынудили Archive org удалить более 500 тысяч книг из общественного доступа. Многие из этих книг отсутствуют в оцифрованном виде где-либо еще, а так же составляют базу ссылок и источников Википедии. Заявление архива:
— More than 500,000 books have been taken out of lending as a result of Hachette v. Internet Archive, the publishers’ lawsuit against our library, including more than 1,300 banned and challenged books.
— We are appealing the decision that led to these takedowns in an effort to restore access to these books for all of our patrons.
Надежда есть! Международная федерация библиотек помогает побороться и восстановить доступ, легализуя статус "Controlled Digital Lending".
Список из 1300 названий запрещенных книг, которые требовали удалить в первую очередь, включает "1984" Оруэлла, "Оптимизм" Вольтера, "Декамерон" Боккаччо, книги с нетрадиционной любовной сюжетной линией -- это только то, что сразу бросилось в глаза в списке.
🟣Anna's Archive
Anna's Archive org заблокирован и переехал на новый домен: https://annas-archive.gs
На прошлой неделе в торрент-части появилось несколько десятков новых коллекций, суммарно 60Тб, доступных для скачивания напрямую как датасет либо в формате зашарженных архивов через торрент:
— Degruyter — дамп базы научных изданий Degruyter, метаданных пока нет, только архивы на торренте.
— Docer — дамп публично доступных документов из агрегатора docer.pl
— Duxiu — китайская библиотека оцифрованных книг, в большинстве научная литература, университетские издания.
— MagzDB — дамп базы всех периодических изданий из magzdb
— Open Library тоже доступна -- эта коллекция везде фигурирует под именем IA Controlled Digital Lending и OpenLibrary. Есть версия датасета от 26 марта, то есть сразу после проигыша суда Archive org.
🟣Ссылка на датасеты: https://annas-archive.gs/datasets
🟣Коммьюнити-торренты https://annas-archive.gs/torrents/upload
🌸Обучаем(ся) LLM с нуля🌸
#nlp #про_nlp
Андрей Карпаты продолжает создавать прекрасный образовательный контент по LLM после ухода из OpenAI!
Теперь, помимо замечательных видео, появился еще репозиторий с будущими главами учебника на Github по тренировке LLM с нуля, дообучению, мультимодальности, инференсу моделей, квантизации — и многим другим темам!
Курс — LLM101n: Let's build a Storyteller
🟣Github: https://github.com/karpathy/LLM101n
Курс точно будет интересен всем индустриальным специалистам и студентам, желающим погрузиться в работу с реальными инженерными проблемами своими руками.
Заявленные темы:
Chapter 01 Bigram Language Model (language modeling)
Chapter 02 Micrograd (machine learning, backpropagation)
Chapter 03 N-gram model (multi-layer perceptron, matmul, gelu)
Chapter 04 Attention (attention, softmax, positional encoder)
Chapter 05 Transformer (transformer, residual, layernorm, GPT-2)
Chapter 06 Tokenization (minBPE, byte pair encoding)
Chapter 07 Optimization (initialization, optimization, AdamW)
Chapter 08 Need for Speed I: Device (device, CPU, GPU, ...)
Chapter 09 Need for Speed II: Precision (mixed precision training, fp16, bf16, fp8, ...)
Chapter 10 Need for Speed III: Distributed (distributed optimization, DDP, ZeRO)
Chapter 11 Datasets (datasets, data loading, synthetic data generation)
Chapter 12 Inference I: kv-cache (kv-cache)
Chapter 13 Inference II: Quantization (quantization)
Chapter 14 Finetuning I: SFT (supervised finetuning SFT, PEFT, LoRA, chat)
Chapter 15 Finetuning II: RL (reinforcement learning, RLHF, PPO, DPO)
Chapter 16 Deployment (API, web app)
Chapter 17 Multimodal (VQVAE, diffusion transformer)
Пока курс создается, можно пересмотреть плейлист Neural Networks: Zero to Hero
Кстати, Intelligence — это ещё и "разведка" на англ
Отличный нейминг 👍
А вот и Илья Сутскевер нашелся!
Он с корешами основал новую контору - Safe Superintelligence Inc.
TLDR: будут строить безопасный суперинтелект без отвлечения на коммерцию. То есть это OpenAI в том виде, в каком и была изначально задумана.
Миссия Safe Superintelligence Inc.:
- Создание безопасного суперинтеллекта (SSI), который считается самой важной технической проблемой нашего времени.
- Миссия компании, название и весь продуктовый план полностью сосредоточены на достижении SSI.
Их цели :
- Разработать возможности SSI как можно быстрее, при этом всегда обеспечивая, чтобы меры безопасности опережали развитие.
- Сохранять единственный фокус на SSI без отвлечения на управленческие перегрузки или циклы продукта.
- Гарантировать, что безопасность, защита и прогресс защищены от краткосрочных коммерческих давлений.
- Собрать высококлассную команду инженеров и исследователей, полностью посвященных разработке SSI.
- Предложить возможности для людей заниматься значимой работой, которая решает значительную техническую задачу эпохи.
Вот только про open-source Илья пока не упоминал. Возможно, они также не будут ничего релизить, т.к. небезопасно. Но все равно очень интересно! Я верю в Илью больше чем в Альтмана, конечно, ведь Илья — это топовый учёный.
@ai_newz
ИИ-специалист опять на самом дне, видеоПочти
Я исполнила свою мечту в отпуске и увидела кашалота вживую! Ощущения непередаваемые
Заодно вытащили у него пакетик изо рта (он с ним играл)
Как будто плывешь, а с тобой рядом автобус, живой, с маленькими глазками
#не_про_nlp
🌸Как сделать себе визу Global Talent UK🌸
#не_про_nlp
Давно обещала пост про визы, наконец делюсь своим опытом.
Global Talent — имхо одна из лучших профессиональных виз в мире, которую можно оформить себе для релокации и жизни. Она дает право легально находиться в Великобритании до 5 лет, работать или не работать, причем вместе с семьей, а после этого срока сразу податься на постоянный ВНЖ и паспорт.
Ее можно сравнить с американской визой талантов, но сделать ее быстрее и проще, чем любую американскую визу гражданам РФ.
Получение визы делится на 2 этапа — 1) подача заявки, где вы собираете портфолио в специальном формате, что вы — талант и вообще легенда, а потом 2) обычная подача документов на визу.
На русском самый подробный гайд расписан вот тут: https://globaltalentvisauk.com/independetly — настоятельно рекомендую следовать ему!
Этап 1. Сбор портфолио 🇬🇧
Это по сути самый трудоемкий этап. Нужно собрать все бумажки и доказательства, что вы соответствуете любым 2 из 4 критериев по выбранной специальности: academia/research, art & culture, digital technology (для айтишников отдельный большой раздел — финтех, геймдев, ML и кибербеза).
Нужны ли вам для составления портфолио агенства? Решайте сами, но я считаю, что это совершенно бесполезно и стоит кучу денег. Вас спросят все то же самое, что вы и так будете про себя писать, но за кучу денег.
Если вы хорошо умеете писать грантовую документацию и отчеты, то волноваться вообще не о чем, вы все сделаете. Если не уверены в себе, лучше попросить у кого-то из знакомых, кто уже подавался, образец портфолио, а лучше несколько. Главное собрать "мясо" вашей заявки под критерии — ваши контрибьюшены в опен сорс, выступления на митапах, конференциях, измеримые успехи на работе и т.д. А дальше ChatGPT в помощь!
Важное на этом этапе — это получить 3-4 хороших рекомендательных письма, причем как минимум 1 от человека в Британии. Так что расчехляйте свой нетворк, ищите контакты людей, которые с вами работали. Письма должны иметь явную биекцию содержимому вашего портфолио и критериям, на которые подаетесь. И чем выше должности подписывающих, тем лучше!
Я лениво собрала все письма и доказательства где-то за месяц, вечерами с редбуллом.
Этап 2. Получение визы 🇬🇧
После сбора портфолио и его подачи, через какое-то время (до месяца) вы получите решение от оценивающей организации — endorsement (да) или отказ. Отказ должен быть мотивированный, и можно подать апелляцию или переподаться потом.
С этим андорсментом вы проводите оплату на себя и членов семьи (сумма такая, что можно заплакать) и подаетесь на получение визы — если вы вне UK, то приносите паспорт, сдаете отпечатки, и ждете, когда виза придет. Если вы уже в Великобритании, то просто через несколько недель получите карточку ВНЖ с новой визой (BRP).
Подаваться надо обязательно из страны, в которой у вас есть вид на жительство/гражданство! Это важно. Можно из РФ, я подавалась из Армении, визу ждала почти 4 месяца. Карточку BRP потом получала натурально в каком-то ларьке.
Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book
«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»
🌸Все про агенты в LLM🌸
#nlp #про_nlp #nlp_papers #agirussia
Когда привичных способностей LLM уже недостаточно, хочется добавить внешние модули — долгосрочную память, планирование, различные API. Прикрутить самокоррекцию и chain-of-thought. В таком случае, системе можно предоставить некоторую степень автономности — в ограниченных условиях. Такие системы принято называть агентами.
🟣Что такое агент?
Агент — автономная система, в которой LLM является основными "мозгами", к которым подключены API и возможность их самостоятельно вызывать и работать с результатами этих вызовов. Проекты-прототипы:
— AutoGPT — фреймворк для создания агентов и автоматизации LLM, приме проекта — https://godmode.space/
— GPT-Engineer — ассистент для написания кода, который может создать репозиторий проекта, задать уточняющие вопросы походу, написать код и тесты.
— BabyAGI — Llama, RAG + планировщик в докере, такой LangChain на стероидах
Такой подход хорошо соотносится с вики-определением AGI: для него нужна способность изъясняться на естественном языке, учиться новым навыкам, планировать, оперировать знаниями, принимать решения в условиях неопределенности.
🟣Что добавить в агента?
— Набор действий: генерация команд, релевантных домену, которые можно однозначно проинтерпретировать (вызвать API, отправить поисковый запрос, отправить SQL-запрос в базу)
— Планирование: Цели и их декомпозиция на последовательность действий: агент разбивает крупные задачи на более мелкие действия. Интересный подход — LLM+P (arxiv), где внешняя модель, а не LLM, отвечает за формализм планирования.
Рефлексия и уточнение своих ответов по ходу цепочки сообщений: Chain-of-thought (arxiv), Tree-of-thought (arxiv), саморефлекция как в статье react (arxiv) или Chain of Hindsight (arxiv).
— Память: RAG, векторные БД, хранение полезной информации в окне контекста.
— API/Инструменты: имеет смысл подключать в первую очередь те инструменты, которые перекрывают недостатки LLM в вашей области применения. Наример, поиск часто изменяющейся информации (курс валют, погода), поиск по StackOverflow, подключение песочницы для исполнения кода.
🟣Как оценивать агентов?
Оценка подразумевает тестирование агента в изолированной среде и % правильных ответов и действий в разнообразных задачах, обычно очень вольно сформированных. Может быть либо % правильных ответов, либо правильность цепочки действий, либо и то и то.
На текущий момент есть 2 бенчмарка, которые работают именно с логами принятия решений автономных LLM-агентов — это WebArena и AgentBench.
— WebArena смотрит на качество работы агента на основании автоматизации различных веб-задач (найди за меня в интернете, найди за меня в базе, подпиши меня на рассылку, сделай такую-то страничку), и с помощью автоматичсеких метрик оценивает в изолированной среде качество полученных ответов. Лидерборд пока выглядит странновато, и на 1 месте не GPT-4!
— AgentBench развивает идею дальше, и для проверки успешности агентов представляет уже 8 различных сред — веб-браузинг, веб-шоппинг, работу с ОС, работу с SQL-бд, работу с графами знаний, игры, интеллектуальные головоломки, работа по дому (sic!). Задачи предлагаются самые разнообразные, но метрики привязаны именно к среде и набору действий при планировании.
Свой бенчмарк есть формально и у проекта AutoGPT (link), пока что там всего 6 задач и 3 прототипа в лидерборде. Но уже есть задача по safety!
🟣Открытые вопросы
— Как эффективно соединять все модули вместе? Наконец, нашлось применение для символьных методов?
— Новые уязвимости: можно заставить агента зациклиться, бесконечно генерировать no_action_needed
, заставить его потратить все оплаченные API лимиты
— Генерация качественных синтетических данных с помощью агентов — решение проблем LLM?
— Нет способа оценивать мультимодальных агентов
Полезные ссылки:
🟣AgentBench Github
🟣WebArena link
🟣Agent Landscape SurveyAgent Landscape Survey arxiv
🟣The Rise and Potential of Large Language Model Based Agents: A Survey arxiv
🟣блог Lilian Weng - autonomous agents link
🟣Agent protocol link
🟣ICLR 2024 Workshop on LLM Agents link
Субботний мемотред!
По случаю моего возвращения в постинг #шитпост
До понедельника тут серьёзного контента не будет!
🌸AI SuperAlignment — все? 🌸
#ai_alignment
Не писала ничего про последние обновления Gemini (еще нет доступа) и GPT-4o (уже получила), но самая главная новость оказалась не эта.
Команда SuperAlignment OpenAI развалилась. Из новостей, уходят:
— Илья Суцкевер (со-основатель, легендарный человек из Нижнего Новгорода, который в октябре уволил Альтмана)
— Ян Лейке (лид команды SuperAlignment, ex-DeepMind)
🟣SuperAlignment команда занималась очень интересными задачами по одному из самых важных направлений в ИИ в целом — безопасности. А еще — автоматизацией и акселерацией научного знания, интерпретируемостью и масштабируемостью сверхинтеллектуальных систем. (Блогпост OpenAI из хороших времен)
🟣Само наличие такой флагманской команды влияло на позиционирование OpenAI как ответственного игрока, который не будет заниматься оборонными заказами (ой, это правило они убрали в январе), или манипуляциями общественным мнением через LLM (про это тоже недавно новость была, правда, про рекламу). А что там по выборам в США, кстати?
— Самая большая команда, таким образом, собирается у Anthropic, самого основного конкурента по LLM — они регулярно публикуют методы оценки уязвимостей, методы для интерпретации и т.д.
— В предыдущие годы скандалами с увольнением исследователей AI Safety пославился Google — в 2020 уволил главу команды ИИ этики Тимнит Гебру за несогласованную публикацию про ограничения языковых моделей, а затем уволил Блэйка Лемуана.
🟣Считаю забавным несовпадением, что в ноябре 2023 экзеки Майкрософт делали заявление, что хаос точно не из-за AI Safety. Все такие заявления надо всегда читать ровно наоборот. Я бы даже предположила, что в октябре уже все решили, а дальше 6 месяцев период non-compete по договору, и вот он заканчивается. (это чисто спекуляция, источник: мне это приснилось).
🌸Anthropic: пишем промпты за вас🌸
#nlp #про_nlp #ai_alignment
На днях в интерфейсе Anthropic Claude появилось интересное обновление — теперь вы можете в режиме реального времени получить автоматически написанную затравку, которая будет подробно описывать желаемое поведение LLM под вашу задачу.
🟣Особенности фичи:
— редактор автоматически предлагает оптимальную структуру затравки: она у Anthropic отличается от OpenAI, место каждой конкретной инструкции в затравке напрямую влияет на качество генерации. Затравка автоматически имеет правильную структуру, включая содержательное описание задачи, формат вывода, исключения, некоторые фишки аля chain-of-thought.
— автоматически добавляются XML-теги, маркирующие частые составные части в инструкциях: <prompt>
, <exceptions>
, <guidelines>
и так далее.
— редактор автоматически покажет пробелы в логике, которые необходимо дописать в шаблон, чтобы генерация полетела.
🟣У OpenAI в интерфейсе такого редактора пока нет, но с другой стороны, всегда можнл попросить GPT-4 записать качественный промпт под саму себя. У Anthropic этот функционал скорее — необходимость, так как портировать промпты с GPT на Claude с сохранением качества бывает очень больно.
🟣Что интересно, температура в интерфейсе по умолчанию с использованием таких инструкций — 0. По опыту, чем выше температура у Claude, тем хуже качество следования длинным затравкам. Реальный рабочий интервал скорее [0.2-0.5].
Давайте что ли мемотред! Давно не было #шитпост
Читать полностью…Имхо релиз Llama 3 прошел очень гладко со всех сторон. Даже AI Safety люд пока не ругаются (?)
Интересно, если окажется, что опенсорс датасета FineWeb 🍷 был все-таки не совсем до конца согласован — и поэтому его отовсюду уберут.
Осталось очень много постов про релиз от авторов на LinkedIn, Reddit, а вот страницы с релизом недоступны, включая даже и организацию, в которой он выложен