rybolos_channel | Неотсортированное

Telegram-канал rybolos_channel - Kali Novskaya

16390

Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4

Подписаться на канал

Kali Novskaya

Давно по воскресеньям не было #female_vocals — так вот. Провожу день с прекрасной Элизабет Фрайзер, и делюсь с вами

Cocteau Twins — Pandora, 1984
Ethereal wave, dream pop

https://youtu.be/h_ICl20EJjY?si=cZ4iC3wWbY4gs_P-

Читать полностью…

Kali Novskaya

В честь пятницы — мемотред! Давно не было
#шитпост

Читать полностью…

Kali Novskaya

🥳Джулиан Ассанж на свободе!

Журналист заключил сделку с прокуратурой США. В обмен на признание вины Ассанжу зачтут срок пребывания в тюрьме Белмарш (5 лет) как наказание. Сейчас Ассанж направляется на остров Сайпан (территория США), где состоится финальный суд по его делу. После признания вины, суд отпустит Ассанжа на его родину - в Австралию. Ассанж не был на родине больше 15 лет, с 2010 года он находился под следствием, с 2012 по 2019 года безвылазно в здании посольства Эквадора в Лондоне, а с 2019 по 2024 в тюрьме строго режима Белмарш.

Освобождение Ассанжа - это результат не только качественной работы его адвокатов, но и широкая кампания в защиту журналиста, инициированная ресурсом Wikileaks. Ассанжа поддерживали множество социальных движений, деятелей культуры, лидеры левых партий и движений, среди них Джереми Корбин, Янис Варуфакис, Жан-Люк Меланшон и многие другие.

Читать полностью…

Kali Novskaya

🌸Пост имени Ноама Хомского🌸
#nlp #про_nlp

В связи с прекрасным воскрешением Ноама Хомского на прошлой неделе, хочу все же сделать большой пост с описанием его наследия.

Хомский — один из самых цитируемых ученых в мире, и самый цитируемый ученый конца ХХ века — его научные работы процитировали более 500 тысяч раз, причём пик цитирования приходится на актуальные работы 2014 г.

🟣Лингвистическая теория
Основополагающие труды Хомского в лингвистике сгруппированы относительно нескольких идей:
1) язык имеет врожденные свойства и нейробиологические ограничения;
2) этими ограничениями должно быть можно объяснить все языковое многообразие и формализовать грамматику всех языков;
3) построив формализм, можно с его помощью генерировать корректные осмысленные высказывания на любом языке, а также сводить к универсальной форме все существующие данные.
Центральная работа — т.н. универсальная грамматика (Universal grammar), и надстройки вокруг нее, объясняющие различные явления в синтаксисе, морфологии, но даже и фонологии и семантике.
Теория неоднократно переделывалась и обновлялась с появлением новых данных и открытий в лингвистике — последняя редакция приходится на 2014 год
См Генеративная лингвистика

🟣Computer Science
К семинарам Хомского восходит исследование формальных языковкак подобласть информатики. Эта область начала развиваться около 1956 года, когда Хомский предложил математическую модель грамматики в связи с его изучением естественных языков. Вскоре после этого было установлено, что понятие грамматики имеет большое значение для программистов, когда синтаксис ALGOL был определен с помощью контекстно-свободной грамматики. Это развитие естественным образом привело к созданию синтаксически-управляемой компиляции.
Хомскому принадлежит также иерархия формальных грамматик, заложившая основу теории конечных автоматов, в частности, любимых всеми регулярных выражений.
См Иерархия Хомского

🟣Хомский vs Шэннон
Один из самых знаменитых и неразрешенных споров в LLM: можно ли опираться на чисто статистический подход для моделирования языка? Хомский считает, что нет. Статистическая апроксимация кучи непроанализированных данных не должна считаться научным достижением.
См Питер Норвиг про спор Хомского и Шэннона

🟣Антикапитализм, антиимпериализм, геополитика
Хомский неоднократно занимал непримеримую позицию в критике внешней политики США, занимаясь не только политическим активизмом, но и аналитической работой со стороны, которую в американских полит координатах можно назвать левой.
2011 — Хомский выступает на Occupy Wallstreet
Разоблачение работы американских медиа, методов пропаганды в СМИ, манипуляций общественным мнением:
1988 — Manufacturing Consent: The Political Economy of the Mass Media
Критика американского империализма:
1979 — The Political Economy of Human Rights — Камбоджа и Восточный Тимор
1983 —The Fateful Triangle — Роль США в Арабо-Израильском конфликте
1987 — On Power and Ideology: The Managua Lectures Counter-Revolutionary Violence: Bloodbaths in Fact & Propaganda — США и Вьетнам
1989 — Necessary Illusions: Thought Control in Democratic Societies
2003 — Hegemony or Survival — война в Ираке
См https://en.wikipedia.org/wiki/Political_positions_of_Noam_Chomsky

🟣Что еще посмотреть, почитать
Chomsky vs Shannon — фрагмент лекции Криса Маннинга https://www.youtube.com/watch?v=9PqOWu2_0MA
Кратко о влиянии Хомского на Computer Science https://exaud.com/noam-chomsky-computer-science/
Фрагмент из интервью: все преступления американских президентов: https://www.youtube.com/watch?v=5BXtgq0Nhsc

Читать полностью…

Kali Novskaya

Человек из Нижнего Новгорода наносит ответный удар!
Как пишут на Hacker news, если ориентироваться на традиции названий, заложенные OpenAI, Safe SuperIntellligence будет одной из самых опасных компаний когда-либо существовавших! И тупой 😁
#шитпост

Читать полностью…

Kali Novskaya

Пишут, что Хомский умер...

Читать полностью…

Kali Novskaya

🌸Как сделать себе визу Global Talent UK🌸
#не_про_nlp

Несколько
советов отдельно 🇬🇧
— Если у вас уже есть оффер от британского работодателя, и он предлагает вам оформить skilled worker visa и оплатить релокацию — имхо, нужно соглашаться. Это гораздо быстрее, и уже потом, находясь в Британии, вы сможете переподаться на Global talent. Skilled worker это по сути британский аналог H1B, то есть вы раб на визе, и за нее вам скорее всего оплатят все fees. Получить от работодателя компенсацию за Global talent менее вероятно, так как все будут понимать, что вы хитрый жук и не боитесь уволиться талант. Можете тут не повторять мою ошибку — я оформляла Global talent сразу, и в результате это заняло полгода и мне пришлось несколько раз переносить дату выхода, так как виза все еще не была готова.
— Оффер для подачи иметь совершенно не обязательно, что приятно! Просто переезжать без оффера страшновато. Само наличие такой визы на переговорный процесс влияет положительно, работодатель видит, что вы жук сильный и независимый, скорее всего имеете варианты и вам надо делать хороший оффер.
— Критерии "таланта" вполне мягкие, при желании можно практически любого профессионала подготовить под критерии оценки. Если время не жмет, можно даже специально поготовить свой кейс полгода — походить по конференциям, опубликовать пет-проджект и т.д., чтобы хватало материалов на кейс с запасом.
— Ну и напоследок: Если мы работали с вами вместе, вы думаете про переезд и вам поможет мое рекомендательное письмо — я буду рада!

🟣Чат помощи/советов по визе /channel/globaltalenthowto
🟣Гайд по оформлению всего самому, на русском https://globaltalentvisauk.com/
🟣Описание визы на британских "госуслугах" https://www.gov.uk/global-talent

Читать полностью…

Kali Novskaya

Сегодня воскресенье, но будет музыкальная пауза без #female_vocals , а будет просто классика — видения будущего из прошлого

Jean Michel Jarre
Oxygene
1976
https://youtu.be/5ab7tIZNplM?si=4uMbvpgmu1pnZwbh

Читать полностью…

Kali Novskaya

Оценка LLM-агента в среде AgentBench

Читать полностью…

Kali Novskaya

В это воскресенье в рубрике #female_vocals хочу просто поделиться с вами кавером, который очень люблю.

Считаю, что это песня на самом деле про собеседования и офферы в 2024 году
https://youtu.be/qS0YJZXmX2s?si=TPsLaSbEwNty7wFe

Читать полностью…

Kali Novskaya

🌸5 заповедей бенчмарков, которые больше не работают в 2024 🌸
#nlp #про_nlp #nlp_papers #ai_alignment

Пара мыслей вслух про то, как меняется процедура оценки языковых моделей — и наши ожидания от них.

🌸1. Датасеты и бенчмарки всегда живут дольше, чем модели. По крайней мере, так было раньше. Теперь это не так, бенчмарки устаревают за месяц — тесты оказываются в обучающей выборке, хакнуты кэгл-методами, и т.д.

🌸2. Тестсет может быть открытым, можно выкладывать ответы, разработчики же честные. Честные! Но потом это все попадает в обучающую выборку непроизвольно, с краулингом сети. Контаминация открытого тестсета рано или поздно неизбежна, а учитывая п.1, это время очень сократилось.

🌸3. Новый датасет = более надежный результат. Многие датасеты составляются с помощью фильтрации открытых данных, разметки, часто получавтоматической, данных, которые уже были в сети, соответственно, модели их уже видели. Более надежный результат тестрования гарантирован, только если новый датасет составляется людьми с нуля! Иначе риск контаминации очень велик — см статьи из поста и статью Scale AI. Любые оценки моделей без теста на контаминацию можно смело выкинуть.

🌸4. Разработчики моделей сами прогоняют свою модель и подбирают лучшие параметры. Тоже нельзя сказать, что это верно. Во всех крупных лидербордах и раньше надо было прислать ссылку на код и модель, а теперь и вовсе, честная оценка возможна в условиях контейнернго соревнования — разработчики отдают контейнер организаторам лидерборда, те его запускают и сравнивают с остальными на закрытом тестсете, который разработчики не видели. Перебор гиперпараметров в таком случае сделать нельзя. См Chatbot Arena

🌸5. Однократной оценки достаточно. Во-первых, модели постоянно обновляются, а если они еще и ходят в интернет или используют RAG/обновляемый индекс знаний, то и проверять их надо постоянно во избежание регресса. В-вторных, side-by-side соравнениями из п.4 и AB-тестами оценки можно запускать постоянно — была бы инфраструктура и оценивающие люди. Инфраструктуру и сообщество сейчас во многом обеспечивает HuggingFace— на ChatBot Arena уже больше миллиона оценок, хотя несколько месяцев назад все чуть не закрылось!

С какими проблемами при оценке моделей вы сталкивались?

🟣Мой чеклист отсюда все еще актуален — для продакшена бенчмарков мало, еще нужна комбинация из оффлайн и онлайн метрик.

Читать полностью…

Kali Novskaya

🌸Field Matters Workshop🌸
#nlp_papers

Для всех, кто сейчас подаётся на NeurIPS или готовит сабмиты статей.

Вот уже третий год подряд мы с коллегами организуем воркшоп по методам и инструментам ML для полевой лингвистики — Field Matters.

Воркшоп мультидисциплинарный, объединяет работы по малоресурсным языкам, датасеты, новые инструменты для оцифровки, разметки, перевода, распознавания речи.

В этом году мы проходим на ACL 2024, в Таиланде.
Дедлайн — 17 мая!
Принимаются статьи разного формата, short и long papers, главное — в шаблоне ACL.

🟣Подать статью: https://openreview.net/group?id=aclweb.org/ACL/2024/Workshop/Field_Matters
🟣Сайт воркшопа: https://field-matters.github.io/
🟣Все темы воркшопа:
— Application of NLP to field linguistics workflow;— The impact, benefits and harms of NLP-assisted fieldwork;
— Transfer learning for under-resourced language processing;— The use of fieldwork data to build NLP systems;
— Modeling morphology and syntax of typologically diverse languages in the low-resource setting;
— Speech processing for under-resourced languages;
— Machine-readable field linguistic datasets and computational analysis of field linguistics datasets;
— Using technology to preserve culture via language;
Improving ways of interaction with Indigenous communities;
— Special track: Indigenous languages of Thaïland and South-East Asia.

Читать полностью…

Kali Novskaya

Привет! Тут давно не было постов — в основном потому, что я сильно выгорела и в резудьтате потеряла все расписание и привычки, свет внутри погас, но я все ещё работаю.

Но с сегодняшнего дня эфир возобновляется! ☺️ Обнимаю всех!

Читать полностью…

Kali Novskaya

🌸State of Multilinguality 2024🌸
#nlp #про_nlp #nlp_papers

На прошлой неделе выступала сразу 2 раза с коротким обзором многоязычности в LLM

TLDR; языков ≈7 тысяч. Покрыто NLP-ресурсами примерно 1500, и это примерно то же самое количество, что можно встретить в Интернете. Самая многоязычная область — по-прежнему Machine Translation, проекты No Language Left Behind, MT for the next thousand languages.

The Polyglot Internet — концепция за многоми текущими инициативами в MT. Социальные связи в Интернете меняются со временем — и становятся все более моноязычные в среднем, то есть каждый пользователь с большей вероятностью коммуницирует только внутри своего языкового сообщества. Машинный перевод должен помогать снижать коммуникативный барьер и поддерживать общение между людьми вне их локальных интернет-сообществ. Но даже идеальная система машинного перевода не будет достаточной — языки постоянно меняются, и поддерживать дообучение системы могут помочь носители — переводчики, языковые активисты, просто вовлеченные носители. Поэтому для решения фундаментальной задачи нужны обе составляющие вокруг MT — данные и сообщество.

Данные и сообщество — цель многих нескольких инициатив.
Open Language Data Initiative — в рамках конференции WMT 2024 принимаются новые языки в уже существующие корпуса FLORES+, MT Seed ссылка
Field Matters — воркшоп на ACL 2024. До 17 мая принимаются статьи на темы автоматизации полевой лингвистической работы, автоматизация разметки, распознавания речи, работы со звучащей речью, инструментами для малоресурных языков. ссылка

Основные ссылки
🟣Machine Translation from One Book Arxiv
🟣Проблемы расширения словаря и дообучения Blog
🟣Мультиязычная синтетика для Instruct-tuning HuggingFace
🟣Обзор мультиязычных LLM Arxiv
🟣Презентация

Читать полностью…

Kali Novskaya

🌸SciHub и философия познания🌸
#не_про_nlp

Уже несколько дней с интересом читаю кандидатскую диссертацию Александры Элбакян, автора SciHub.

Элбакян А.А. ОТКРЫТОСТЬ КАК ЭПИСТЕМИЧЕСКАЯ ЦЕННОСТЬ НАУЧНОЙ КОММУНИКАЦИИ

Очень призываю вас посмотреть самостоятельно, но основные мысли, которые заинтересовали меня:
— В целом вредно представление о том, что ограниченный доступ к научным знаниям является традиционной практикой, а широкое их распространение — радикальным и
революционным нововведением.
— Наоборот, доступность и открытость эксперимента демаркирует науку от ненауки, знание от мистцизма. Так что открытость в науке и открытом доступе следует рассматривать как консервативную ценность
— В целом приведен подробнейший обзор открытости знания как основы рациональности и морально-этической ценности.
— Очень подробный исторический обзор, о том как идея открытого знания развивалась, от античности до XXI века
— Философское обоснование open access, open source 🔥

Кандидатская защищена успешно, с присуждением ученой степени кандидата философских наук!

🟣Страница работы https://iphras.ru/page26414303.htm
🟣Автореферат https://iphras.ru/uplfile/diss/elbakyan/avtoreferat_elbakyan.pdf
🟣Текст диссертации https://iphras.ru/uplfile/diss/elbakyan/dissertatsiya_elbakyan.pdf

Читать полностью…

Kali Novskaya

🌸Открытые данные и LLM🌸
#nlp #про_nlp

Прошлая неделя выдалась тяжелой для открытых текстовых данных.

🟣Open Library
Open Library, большая часть Internet Archive, про которую я рассказывала раньше, проиграла судебный процесс по копирайту против группы американских издательств.
Издатели вынудили Archive org удалить более 500 тысяч книг из общественного доступа. Многие из этих книг отсутствуют в оцифрованном виде где-либо еще, а так же составляют базу ссылок и источников Википедии. Заявление архива:
— More than 500,000 books have been taken out of lending as a result of Hachette v. Internet Archive, the publishers’ lawsuit against our library, including more than 1,300 banned and challenged books.
— We are appealing the decision that led to these takedowns in an effort to restore access to these books for all of our patrons.

Надежда есть! Международная федерация библиотек помогает побороться и восстановить доступ, легализуя статус "Controlled Digital Lending".

Список из 1300 названий запрещенных книг, которые требовали удалить в первую очередь, включает "1984" Оруэлла, "Оптимизм" Вольтера, "Декамерон" Боккаччо, книги с нетрадиционной любовной сюжетной линией -- это только то, что сразу бросилось в глаза в списке.

🟣Anna's Archive
Anna's Archive org заблокирован и переехал на новый домен: https://annas-archive.gs

На прошлой неделе в торрент-части появилось несколько десятков новых коллекций, суммарно 60Тб, доступных для скачивания напрямую как датасет либо в формате зашарженных архивов через торрент:
— Degruyter — дамп базы научных изданий Degruyter, метаданных пока нет, только архивы на торренте.
— Docer — дамп публично доступных документов из агрегатора docer.pl
— Duxiu — китайская библиотека оцифрованных книг, в большинстве научная литература, университетские издания.
— MagzDB — дамп базы всех периодических изданий из magzdb
— Open Library тоже доступна -- эта коллекция везде фигурирует под именем IA Controlled Digital Lending и OpenLibrary. Есть версия датасета от 26 марта, то есть сразу после проигыша суда Archive org.

🟣Ссылка на датасеты: https://annas-archive.gs/datasets
🟣Коммьюнити-торренты https://annas-archive.gs/torrents/upload

Читать полностью…

Kali Novskaya

🌸Обучаем(ся) LLM с нуля🌸
#nlp #про_nlp

Андрей Карпаты продолжает создавать прекрасный образовательный контент по LLM после ухода из OpenAI!

Теперь, помимо замечательных видео, появился еще репозиторий с будущими главами учебника на Github по тренировке LLM с нуля, дообучению, мультимодальности, инференсу моделей, квантизации — и многим другим темам!

Курс — LLM101n: Let's build a Storyteller
🟣Github: https://github.com/karpathy/LLM101n

Курс точно будет интересен всем индустриальным специалистам и студентам, желающим погрузиться в работу с реальными инженерными проблемами своими руками.

Заявленные темы:
Chapter 01 Bigram Language Model (language modeling)
Chapter 02 Micrograd (machine learning, backpropagation)
Chapter 03 N-gram model (multi-layer perceptron, matmul, gelu)
Chapter 04 Attention (attention, softmax, positional encoder)
Chapter 05 Transformer (transformer, residual, layernorm, GPT-2)
Chapter 06 Tokenization (minBPE, byte pair encoding)
Chapter 07 Optimization (initialization, optimization, AdamW)
Chapter 08 Need for Speed I: Device (device, CPU, GPU, ...)
Chapter 09 Need for Speed II: Precision (mixed precision training, fp16, bf16, fp8, ...)
Chapter 10 Need for Speed III: Distributed (distributed optimization, DDP, ZeRO)
Chapter 11 Datasets (datasets, data loading, synthetic data generation)
Chapter 12 Inference I: kv-cache (kv-cache)
Chapter 13 Inference II: Quantization (quantization)
Chapter 14 Finetuning I: SFT (supervised finetuning SFT, PEFT, LoRA, chat)
Chapter 15 Finetuning II: RL (reinforcement learning, RLHF, PPO, DPO)
Chapter 16 Deployment (API, web app)
Chapter 17 Multimodal (VQVAE, diffusion transformer)

Пока курс создается, можно пересмотреть плейлист Neural Networks: Zero to Hero

Читать полностью…

Kali Novskaya

И просто фоточки old school cool 😎

Читать полностью…

Kali Novskaya

Кстати, Intelligence — это ещё и "разведка" на англ
Отличный нейминг 👍

Читать полностью…

Kali Novskaya

А вот и Илья Сутскевер нашелся!

Он с корешами основал новую контору - Safe Superintelligence Inc.

TLDR: будут строить безопасный суперинтелект без отвлечения на коммерцию. То есть это OpenAI в том виде, в каком и была изначально задумана.

Миссия Safe Superintelligence Inc.:
  - Создание безопасного суперинтеллекта (SSI), который считается самой важной технической проблемой нашего времени.
  - Миссия компании, название и весь продуктовый план полностью сосредоточены на достижении SSI.

Их цели :
  - Разработать возможности SSI как можно быстрее, при этом всегда обеспечивая, чтобы меры безопасности опережали развитие.
  - Сохранять единственный фокус на SSI без отвлечения на управленческие перегрузки или циклы продукта.
  - Гарантировать, что безопасность, защита и прогресс защищены от краткосрочных коммерческих давлений.
  - Собрать высококлассную команду инженеров и исследователей, полностью посвященных разработке SSI.
  - Предложить возможности для людей заниматься значимой работой, которая решает значительную техническую задачу эпохи.

Вот только про open-source Илья пока не упоминал. Возможно, они также не будут ничего релизить, т.к. небезопасно. Но все равно очень интересно! Я верю в Илью больше чем в Альтмана, конечно, ведь Илья — это топовый учёный.

@ai_newz

Читать полностью…

Kali Novskaya

ИИ-специалист опять на самом дне, видео
Почти

Я исполнила свою мечту в отпуске и увидела кашалота вживую! Ощущения непередаваемые

Заодно вытащили у него пакетик изо рта (он с ним играл)
Как будто плывешь, а с тобой рядом автобус, живой, с маленькими глазками
#не_про_nlp

Читать полностью…

Kali Novskaya

🌸Как сделать себе визу Global Talent UK🌸
#не_про_nlp

Давно обещала пост про визы, наконец делюсь своим опытом.

Global Talent — имхо одна из лучших профессиональных виз в мире, которую можно оформить себе для релокации и жизни. Она дает право легально находиться в Великобритании до 5 лет, работать или не работать, причем вместе с семьей, а после этого срока сразу податься на постоянный ВНЖ и паспорт.

Ее можно сравнить с американской визой талантов, но сделать ее быстрее и проще, чем любую американскую визу гражданам РФ.

Получение визы делится на 2 этапа — 1) подача заявки, где вы собираете портфолио в специальном формате, что вы — талант и вообще легенда, а потом 2) обычная подача документов на визу.
На русском самый подробный гайд расписан вот тут: https://globaltalentvisauk.com/independetly — настоятельно рекомендую следовать ему!

Этап 1. Сбор портфолио 🇬🇧
Это по сути самый трудоемкий этап. Нужно собрать все бумажки и доказательства, что вы соответствуете любым 2 из 4 критериев по выбранной специальности: academia/research, art & culture, digital technology (для айтишников отдельный большой раздел — финтех, геймдев, ML и кибербеза).
Нужны ли вам для составления портфолио агенства? Решайте сами, но я считаю, что это совершенно бесполезно и стоит кучу денег. Вас спросят все то же самое, что вы и так будете про себя писать, но за кучу денег.
Если вы хорошо умеете писать грантовую документацию и отчеты, то волноваться вообще не о чем, вы все сделаете. Если не уверены в себе, лучше попросить у кого-то из знакомых, кто уже подавался, образец портфолио, а лучше несколько. Главное собрать "мясо" вашей заявки под критерии — ваши контрибьюшены в опен сорс, выступления на митапах, конференциях, измеримые успехи на работе и т.д. А дальше ChatGPT в помощь!

Важное на этом этапе — это получить 3-4 хороших рекомендательных письма, причем как минимум 1 от человека в Британии. Так что расчехляйте свой нетворк, ищите контакты людей, которые с вами работали. Письма должны иметь явную биекцию содержимому вашего портфолио и критериям, на которые подаетесь. И чем выше должности подписывающих, тем лучше!

Я лениво собрала все письма и доказательства где-то за месяц, вечерами с редбуллом.

Этап 2. Получение визы 🇬🇧
После сбора портфолио и его подачи, через какое-то время (до месяца) вы получите решение от оценивающей организации — endorsement (да) или отказ. Отказ должен быть мотивированный, и можно подать апелляцию или переподаться потом.
С этим андорсментом вы проводите оплату на себя и членов семьи (сумма такая, что можно заплакать) и подаетесь на получение визы — если вы вне UK, то приносите паспорт, сдаете отпечатки, и ждете, когда виза придет. Если вы уже в Великобритании, то просто через несколько недель получите карточку ВНЖ с новой визой (BRP).

Подаваться надо обязательно из страны, в которой у вас есть вид на жительство/гражданство! Это важно. Можно из РФ, я подавалась из Армении, визу ждала почти 4 месяца. Карточку BRP потом получала натурально в каком-то ларьке.

Читать полностью…

Kali Novskaya

Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book

«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»

Читать полностью…

Kali Novskaya

🌸Все про агенты в LLM🌸
#nlp #про_nlp #nlp_papers #agirussia

Когда привичных способностей LLM уже недостаточно, хочется добавить внешние модули — долгосрочную память, планирование, различные API. Прикрутить самокоррекцию и chain-of-thought. В таком случае, системе можно предоставить некоторую степень автономности — в ограниченных условиях. Такие системы принято называть агентами.

🟣Что такое агент?
Агент — автономная система, в которой LLM является основными "мозгами", к которым подключены API и возможность их самостоятельно вызывать и работать с результатами этих вызовов. Проекты-прототипы:
— AutoGPT — фреймворк для создания агентов и автоматизации LLM, приме проекта — https://godmode.space/
— GPT-Engineer — ассистент для написания кода, который может создать репозиторий проекта, задать уточняющие вопросы походу, написать код и тесты.
— BabyAGI — Llama, RAG + планировщик в докере, такой LangChain на стероидах

Такой подход хорошо соотносится с вики-определением AGI: для него нужна способность изъясняться на естественном языке, учиться новым навыкам, планировать, оперировать знаниями, принимать решения в условиях неопределенности.

🟣Что добавить в агента?
— Набор действий
: генерация команд, релевантных домену, которые можно однозначно проинтерпретировать (вызвать API, отправить поисковый запрос, отправить SQL-запрос в базу)
— Планирование: Цели и их декомпозиция на последовательность действий: агент разбивает крупные задачи на более мелкие действия. Интересный подход — LLM+P (arxiv), где внешняя модель, а не LLM, отвечает за формализм планирования.
Рефлексия и уточнение своих ответов по ходу цепочки сообщений: Chain-of-thought (arxiv), Tree-of-thought (arxiv), саморефлекция как в статье react (arxiv) или Chain of Hindsight (arxiv).
— Память:
RAG, векторные БД, хранение полезной информации в окне контекста.
— API/Инструменты:
имеет смысл подключать в первую очередь те инструменты, которые перекрывают недостатки LLM в вашей области применения. Наример, поиск часто изменяющейся информации (курс валют, погода), поиск по StackOverflow, подключение песочницы для исполнения кода.

🟣Как оценивать агентов?
Оценка подразумевает тестирование агента в изолированной среде и % правильных ответов и действий в разнообразных задачах, обычно очень вольно сформированных. Может быть либо % правильных ответов, либо правильность цепочки действий, либо и то и то.
На текущий момент есть 2 бенчмарка, которые работают именно с логами принятия решений автономных LLM-агентов — это WebArena и AgentBench.
— WebArena смотрит на качество работы агента на основании автоматизации различных веб-задач (найди за меня в интернете, найди за меня в базе, подпиши меня на рассылку, сделай такую-то страничку), и с помощью автоматичсеких метрик оценивает в изолированной среде качество полученных ответов. Лидерборд пока выглядит странновато, и на 1 месте не GPT-4!
— AgentBench развивает идею дальше, и для проверки успешности агентов представляет уже 8 различных сред — веб-браузинг, веб-шоппинг, работу с ОС, работу с SQL-бд, работу с графами знаний, игры, интеллектуальные головоломки, работа по дому (sic!). Задачи предлагаются самые разнообразные, но метрики привязаны именно к среде и набору действий при планировании.
Свой бенчмарк есть формально и у проекта AutoGPT (link), пока что там всего 6 задач и 3 прототипа в лидерборде. Но уже есть задача по safety!

🟣Открытые вопросы
— Как эффективно соединять все модули вместе? Наконец, нашлось применение для символьных методов?
— Новые уязвимости: можно заставить агента зациклиться, бесконечно генерировать no_action_needed, заставить его потратить все оплаченные API лимиты
— Генерация качественных синтетических данных с помощью агентов — решение проблем LLM?
— Нет способа оценивать мультимодальных агентов

Полезные ссылки:
🟣AgentBench Github
🟣WebArena link
🟣Agent Landscape SurveyAgent Landscape Survey arxiv
🟣The Rise and Potential of Large Language Model Based Agents: A Survey arxiv
🟣блог Lilian Weng - autonomous agents link
🟣Agent protocol link
🟣ICLR 2024 Workshop on LLM Agents link

Читать полностью…

Kali Novskaya

Субботний мемотред!
По случаю моего возвращения в постинг #шитпост
До понедельника тут серьёзного контента не будет!

Читать полностью…

Kali Novskaya

🌸AI SuperAlignment — все? 🌸
#ai_alignment

Не писала ничего про последние обновления Gemini (еще нет доступа) и GPT-4o (уже получила), но самая главная новость оказалась не эта.

Команда SuperAlignment OpenAI развалилась. Из новостей, уходят:
— Илья Суцкевер (со-основатель, легендарный человек из Нижнего Новгорода, который в октябре уволил Альтмана)
— Ян Лейке (лид команды SuperAlignment, ex-DeepMind)

🟣SuperAlignment команда занималась очень интересными задачами по одному из самых важных направлений в ИИ в целом — безопасности. А еще — автоматизацией и акселерацией научного знания, интерпретируемостью и масштабируемостью сверхинтеллектуальных систем. (Блогпост OpenAI из хороших времен)

🟣Само наличие такой флагманской команды влияло на позиционирование OpenAI как ответственного игрока, который не будет заниматься оборонными заказами (ой, это правило они убрали в январе), или манипуляциями общественным мнением через LLM (про это тоже недавно новость была, правда, про рекламу). А что там по выборам в США, кстати?
— Самая большая команда, таким образом, собирается у Anthropic, самого основного конкурента по LLM — они регулярно публикуют методы оценки уязвимостей, методы для интерпретации и т.д.
— В предыдущие годы скандалами с увольнением исследователей AI Safety пославился Google — в 2020 уволил главу команды ИИ этики Тимнит Гебру за несогласованную публикацию про ограничения языковых моделей, а затем уволил Блэйка Лемуана.

🟣Считаю забавным несовпадением, что в ноябре 2023 экзеки Майкрософт делали заявление, что хаос точно не из-за AI Safety. Все такие заявления надо всегда читать ровно наоборот. Я бы даже предположила, что в октябре уже все решили, а дальше 6 месяцев период non-compete по договору, и вот он заканчивается. (это чисто спекуляция, источник: мне это приснилось).

Читать полностью…

Kali Novskaya

🌸Anthropic: пишем промпты за вас🌸
#nlp #про_nlp #ai_alignment

На днях в интерфейсе Anthropic Claude появилось интересное обновление — теперь вы можете в режиме реального времени получить автоматически написанную затравку, которая будет подробно описывать желаемое поведение LLM под вашу задачу.

🟣Особенности фичи:
— редактор автоматически предлагает оптимальную структуру затравки: она у Anthropic отличается от OpenAI, место каждой конкретной инструкции в затравке напрямую влияет на качество генерации. Затравка автоматически имеет правильную структуру, включая содержательное описание задачи, формат вывода, исключения, некоторые фишки аля chain-of-thought.
— автоматически добавляются XML-теги, маркирующие частые составные части в инструкциях: <prompt>, <exceptions>, <guidelines> и так далее.
— редактор автоматически покажет пробелы в логике, которые необходимо дописать в шаблон, чтобы генерация полетела.

🟣У OpenAI в интерфейсе такого редактора пока нет, но с другой стороны, всегда можнл попросить GPT-4 записать качественный промпт под саму себя. У Anthropic этот функционал скорее — необходимость, так как портировать промпты с GPT на Claude с сохранением качества бывает очень больно.

🟣Что интересно, температура в интерфейсе по умолчанию с использованием таких инструкций — 0. По опыту, чем выше температура у Claude, тем хуже качество следования длинным затравкам. Реальный рабочий интервал скорее [0.2-0.5].

Читать полностью…

Kali Novskaya

Давайте что ли мемотред! Давно не было #шитпост

Читать полностью…

Kali Novskaya

AGI achieved internally

Читать полностью…

Kali Novskaya

Имхо релиз Llama 3 прошел очень гладко со всех сторон. Даже AI Safety люд пока не ругаются (?)
Интересно, если окажется, что опенсорс датасета FineWeb 🍷 был все-таки не совсем до конца согласован — и поэтому его отовсюду уберут.
Осталось очень много постов про релиз от авторов на LinkedIn, Reddit, а вот страницы с релизом недоступны, включая даже и организацию, в которой он выложен

Читать полностью…
Подписаться на канал