Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Свежая заметка «Two alignment threat models» от Jan Leike, в прошлом со-руководителя команды Alignment в OpenAI, а ныне занимающего ту же должность в Anthropic. В тексте он рассуждает о двух концах спектра несоответствия поведения моделей ожидаемым/закладываемым (то есть misalignment-нутые):
— under-elicited models (не знаю как перевести, недостимулированные? недовыровненные?), или модели, которые совершают ошибки потому, что они не до конца настроены («не прикладывают все усилия для решения задачи, потому что не знают как или не замотивированы»). То есть модель пишет, что 2+2 = 5 не потому, что хочет вас обмануть, а потому что не знает/не может/etc.
— Scheming models (хитрые/коварные модели), или такие, которые притворствуют, что они на самом деле соответствуют ожиданиям, демонстрируя намеренно обманчивое поведение. Модель пишет 2+2=5 в научных расчётах, потому что думает, что никто не проверит, и она напакостит людям. Или даст вредный совет, какие грибы можно есть, а какие нельзя.
Сейчас мы куда чаще видим первый тип ошибок, а примеров второго почти не бывает. Однако про него важно думать наперёд, как минимум потому, что мы точно не сможем читать все генерации моделей — уже сейчас запуск LLM дешевле человеческого труда (по вычитке), и в будущем разница будет расти ещё больше. Scheming не проявляется, в основном, по трём причинам:
— уровень навыков/знаний пока недостаточен, у модели нет возможности сделать какую-то большую пакость (привести к потере денег/итд)
— модели не situationally aware (какой тут перевод... не контекстно-осведомлённые?), то есть они не ощущают себя как субъект в некотором контексте. Да, они знают, что они AI-ассистенты, зачастую даже не путаются в том, какую компанию представляют, но и всё. Это приводит к отсутствию долгосрочной мотивации как-то действовать.
— модели не натренированы быть агентами, которые взаимодействуют со средой, и не предпринимают действия, ожидая последствий. Вот в недавней Claude 3.5 (New) только-только потихоньку начали это демонстрировать, вероятнее всего с помощью замкнутого цикла обучения на своих же действиях и сигнале «задача решена/провалена».
Вероятно, существует достаточно научно-фантастических историй о плохом ИИ в тренировочных данных, из-за чего модели иногда будут пробовать какое-то «неправильное» поведение, связанное с обманом, и большой вопрос заключается в том, будет ли процедура обучения закреплять такой паттерн поведения. Например, если несколько раз подряд сымитировать решение вместо реального решения проблемы, и ни одна из проверок не обнаружит проблем — модель может выучиться, что такое поведение нормально, и продолжать врать (у самих Anthropic про это уже даже было исследование, подтверждающее тезис — там модель уже даже начала редактировать написанный человеком код, отвечающий за проверку процесса тренировки).
===
Но вообще хотел поделиться этим блогом по другой причине — Jan пишет, что текущие модели всё ещё далеки от elicited (см. первое определение выше). Например, когда появился один из методов дообучения GPT, RLHF, то маленькая GPT-2-1.5B начала выдавать ответы лучше, чем модель, на которую потратили в 100 раз больше вычислительных мощностей. И вот автор считает, что тренд продолжится, и ещё несколько порядков улучшений здесь есть. То есть те модели, которые сейчас могут крутиться на ноутбуке/телефоне, значимо поумнеют.
С одной стороны я тоже думал, что улучшать точно есть куда, но не до степени «на несколько порядков». Может в 5-6-8 раз, ок, но точно не в 20-100. «Я ожидаю, что если бы вы пообщались с полностью elicited моделью GPT-4, то это было бы совершенно иным опытом относительно текущего состояния» — подытоживает Jan.
FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI
Самый сложный бенчмарк по математике для LLM от Epoch AI. Если сейчас зачастую у новых наборов проблем передовые нейронки решают 30-50% задач, то в этом суммарно все они, от Grok-2 до o1-preview, решили... 4 задачи (каждая по отдельности меньше 2% от общего числа). Почему? Потому что для создания задач были привлечены одни из ведущих математиков в своих областях, более 60 штук — 14 из них обладают золотыми медалями международной олимпиады по математике, и один обладатель Филдсовской премии (угадайте кто).
Задачи покрывают почти все топики современной математики, и некоторые из них строятся на совсем недавних открытиях и исследованиях. Самой главной проблемой, мешающей LLM'кам справляться с задачами, авторы называют экстремальную ограниченность в тренировочных данных для отдельных техник/тем. Terence Tao сказал, что «релевантные данные практически не существуют. Мы говорим о примерно десятке статей с релевантными вещами». Причём, они везде очень разные — суммарно авторы насчитали около 200 уникальных техник, применяемых в решениях, при этом самые часто встречающиеся пары техник попались всего лишь в 3 задачах (то есть нет концентрации вокруг каких-то техник, освоим которые можно решить добрую часть проблем).
Однако у бенчмарка есть пара недостатков:
1) задачи были сделаны таким образом, чтобы их можно было автоматически проверять; это сразу же накладывает ограничения на формат и гибкость. В частности, не проверяется ход решения (но угадать ответ практически нереально).
2) список задач не включает в себя доказательства, ответом является формула или число/набор чисел.
3) из-за сложности задач и времени, необходимых на решение не автору (несколько часов, и то не всегда справляются), не проводилась перепроверка решений и ответов каждой задачи, и не замерялось качество «усреднённого» математика. Аналитику провели по 25 задачам и прикинули, что ошибок не более 10%.
Эксперименты: авторы написали средней длинны промпт, который подсказывает модели, в каком формате ожидаются ответы, и что можно попробовать сделать отправку кода несколько раз. Если происходит ошибка — модели дают обратную связь, и процесс продолжается до тех пор, пока не будет достигнут лимит в 10'000 токенов. Модели ведут себя по разному, например o1-preview в среднем делает 1.29 попыток ответить, а Grok 2 — 3.81. Лимит токенов тоже немного мешает — gpt-4o упиралась в него в 45% решений, а ведь это даже не o1 с её длинными цепочками рассуждений.
На канале Y Combinator возродили рубрику How To Build The Future. Раньше её вёл Sam Altman, а теперь он стал приглашённым гостем!
Поговорили с текущим президентом YC про ранние дни в сфере стартапов и OpenAI, про масштабирование моделей и бизнеса, тезисно:
— Сравнили YC и Stanford University по окружению; в YC более качественная «тусовка» вокруг, которая побуждает чем-то заниматься и вкалывать. Sama говорит, что peer pressure (давление от окружения) будет всегда, и с этим ничего не поделать; но что можно сделать — так это выбрать правильных пиров. И в YC по итогу куда более интенсивно.
— Вспомнили первые дни OpenAI. Sama говорит, что уже в первые дни появилось видение, чем хочется заниматься. На флип-чарте кто-то написал три цели: 1) разобраться, как правильно делать обучение без учителя (без размеченных данных, как сейчас большую часть времени тренируется GPT) 2) разобраться с Reinforcement Learning (другой способ обучения, тоже используется) 3) никогда не иметь больше 120 человек в команде. В первых двух целях преуспели, по третьей промахнулись — ещё в начале 23-го года в OpenAI было примерно 375 человек (лол, про это был самый первый пост в этом канале!), сейчас уже более 1700.
— Вместе с этим у основателей компании было несколько — одно из core beliefs: DL works and it works better with scale. Не знали как предсказать два ключевых верования: Deep Learning (обучение нейронок) работает, и оно становится лучше с масштабированием. По второму — был буквально религиозный уровень веры в то, что оно будет продолжать работать лучше. В то время в области машинного обучения это не был консенсусом, а за разговоры про AGI можно было словить критику и насмешки. На январь 2016-го года ещё даже не было AlphaGo (она сыграла первые игры с чемпионами, но информация не была опубликована), чтобы говорить про какие-то крупные успехи, кроме распознавания изображений.
— OpenAI изначально делали большую ставку на что-то одно вместо того, чтобы распыляться и пробовать везде понемногу. По итогу это сыграло, и сейчас фактически все игроки следуют за ними. Частично такой фокус схож с тем, чему сам Sam учил стартапы в YC: одно направление, результат, масштабирование.
— но это не значит что они прошли прямо самым коротким путем, были ответвления, но зато они принесли ценные научные знания (эксперименты с играми, с робо-рукой)
— Пересказал историю до GPT-1, как она получилась, и про роль исследователя Alec Radford в ней. Если вам этот кусок показался интересным, то напомню, что у меня есть бесплатный набор лекций «полная история GPT» на YouTube, где в первых видео рассказывается про предысторию, что там было и на какие мысли натолкнуло.
— Термин AGI стал очень шумным и многозначным; Летом в OpenAI ввели взамен систему из 5 уровней. Ранее Bloomberg писал, что якобы на июльской презентации модели прототипа o1 было заявлено о переходе с первого уровня (чатботы) на второй (reasoners, сущности, способные к рассуждениям). Но это были только слухи, и вот теперь Altman на камеру это подтвердил — они считают, что о1 достигла второго уровня в их шкале, а дальше идут ИИ-агенты. И что скоро нас ждёт прогресс в отношении этого шага — ждём!
SpaceX поделились 3-минутной нарезкой с кадрами успешного пятого запуска Starship: вот ссылка на YouTube 🔥
Вместе с этим... была объявлена дата шестого полёта! Он запланирован на час ночи 19-го ноября. Пуск случится так скоро потому, что при сохранении профиля полёта не требуется изменение лицензии, то есть затраты на бюрократию сведены к минимуму. Снова посадка на башню через ~7 минут, снова приводнение корабля в Индийском океане.
Но есть и несколько изменений:
1. Во время пребывания на орбите корабль перезапустит двигатель, чтобы продемонстрировать возможность схода с неё в будущем. Попытка сделать это предполагалась в третьем полёте, но по каким-то причинам не была проведена.
2. Так как запуск теперь ночью, а не днём, то и посадка корабля ... будет в дневное время! Значит, на трансляции мы увидим больше деталей, в том числе плавность «приводнения».
3. В этот раз уберут ещё больше теплозащитных плиток (в тех местах, где, предположительно, их не будет в следующей версии), а сам корабль войдёт в атмосферу под большим углом. Это сделано намеренно, чтобы испытать его в критических условиях.
Если я ничего не путаю, это последний корабль в линейке v1; уже почти готов первый прототип v2. Его полёт, вероятно, увидим нескоро (снова из-за бюрократии и лицензирования), если повезёт — в конце первого квартала 25-го.
Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»
Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML
— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте
— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории
— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны
— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM
— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности
— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении
— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей
— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках
Caitlin Kalinowski пришла в OpenAI «to lead robotics and consumer hardware» (чтобы вести разработку в области робототехники и потребительского оборудования).
Интересно, что это за consumer hardware, и связано ли это как-то с планами OpenAI выпустить революционный потребительский продукт, ориентированный на нативную интеграцию AI? Помните, ещё Jony Ive там замечен?
Caitlin Kalinowski — один из ключевых сотрудников, работавших над Oculus Rift и виртуальной/дополненной реальностью более 11 лет. До этого она трудилась в Apple, участвовала в разработке Apple MacBook Air 11"/13" (Product Design Lead) и Apple MacBook Pro (Thermal Lead). Последний её проект в Meta — очки дополненной реальности Orion (пока относительно неуклюжий прототип, см. фотку). Что это такое можно глянуть в недавнем обзоре TheVerge&
===
Про проект с Jony Ive (отсюда):
— 22-го сентября Jony официально подтвердил, что работает с OpenAI CEO Sam Altman над новым девайсом
— к концу года к этому проекту могут привлечь до 1 миллиарда долларов инвестиций
— сейчас в проекте около 10 сотрудников, включая Tang Tan и Evans Hankey, два ключевых сотрудника, работавших с Ive над iPhone
В API OpenAI завезли новую фичу — Predicted Outputs. Удивительно, что они сделали это первыми — а то вот кэширование дольше всех добавляли 🥺
Predicted Outputs позволяют существенно ускорить написание ответа в ситуациях, где большая часть генерируемого текста уже известна. Два самых популярных сценария использования — это редактирование кода (где нужно всего пару строк подправить посередине) и переписывание текста.
Работает это с помощью speculative decoding, на пальцах выглядит так:
0. Вспомним, что LLM обладают следующим свойством: они могут «прочитать» много текста за один проход, при этом сделав предсказания для каждого из слов (какое должно идти за ним); но генерация происходит по одному слову за раз (после чего берётся предсказание от последнего слова и приклеивается к исходному тексту)
1. В некоторых задачах мы наперёд знаем большую часть текста ответа. Берём и приклеиваем её ко входу, как будто бы это уже часть ответа (делается под капотом на серверах OpenAI, но текст ответа присылаете вы, см. документацию)
2. Модель делает все предсказания для текста ответа за раз. Это делается быстро, так как не нужно ждать генерации второго слова для получения третьего.
3. Начинается сравнение «что предсказала модель» и «что было написано в ответе». Первое слово и там, и там совпадает, второе тоже.. а вот, скажем, двадцатое — нет. В случае переписывания текста это может быть началом нового абзаца, или изменением имени персонажа в истории
4. Тогда первые 19 слов ответа подклеиваются к настоящему (а не подложенному) ответу. LLM как бы провалидировала, что эти токены и вправду должны использоваться, но сделала это кратно быстрее, чем если бы генерировала сама с нуля.
5. Затем LLM продолжает предсказывать сама, уже по одному слову за раз.
6. В какой-то момент предсказания снова могут начать сходиться с подложенным текстом — и процедура повторится. Сотрудник OpenAI написал, что это происходит, если последние 32 токена совпадают с подложенным ответом. Тогда возвращаемся на пункт 2, приклеиваем оставшуюся часть ответа, сравниваем, итд.
Ускорение происходит за счёт того, что мы можем сразу подхватывать большие токенов, не генерируя их, а лишь «проверяя», что LLM бы выдала их сама — всё за счёт свойства из пункта 0.
Компания Factory провела своё тестирование перед релизом на задачах, связанных с внесением изменений в код. Они брали файлы от 100 до более чем 3000 строк кода (Python, JS, Go, C++), давали текстовое описание, что нужно изменить, и замеряли скорость ответа.
GPT-4o в таком режиме работает даже быстрее, чем Claude 3 Haiku, маленькая и шустрая модель. Модель OpenAI — единственная, кто стабильно укладывается в 30 секунд на ответ, хотя вот, например, свежий Sonnet в среднем тратит более 73 секунд.
По идее, уже сегодня, край завтра в каких-нибудь Cursor и его аналогах вы должны заметить ускорение... или нет, если там под капотом уже добавили промпты, которые заставляют генерировать только отдельные куски, которые уже потом вклеиваются в код.
Картинка к статье, описывающая рост мощностей для тренировки одной модели, и потенциальный потолок.
Читать полностью…1) У модели в карточке подпись «Our most capable model, great for tasks that require creativity and advanced reasoning»
2) В доп. информации написано 196,608 max tokens (урааа, наконец-то рост!). У других моделей: o1-preview 57,768, o1-mini — 98,304
3) модель в моих тестах и у людей в комментариях думает над задачами дольше (ну конечно, хозяева же разрешили больше токенов писать!)
4) Указано, что принимает jpeg, png, webp и gif, по крайней мере пока. Правда, кто-то уже пытался залить webp и не вышло, что странно.;
UPD: напомню, почему это важно — полноценная o1 значимо лучше во многих задачах, чем preview-версия, так вдобавок ещё и по картинкам сможет делать более глубокие выводы (так как начинает рассуждать)
Чё)
так я почти нативе спикер?
(это результаты экзамена по английскому IELTS)
С такими результатами можно поступить на значимую часть журналистских / лингвистических направлений (обычно просят 7.5 — 8.0 и выше)
UPD: я думал у меня будет 8.0 — 8.0 — 5.5 — 5.0
UPD 2: английским я начал заниматься в конце 2020-го года, в школе был немецкий (который не помню даже на A1)
При оценке моделей ушли от классической шкалы правильно/неправильно, добавив третью опцию: «не знаю» (Not attempted). В рубрикаторе даётся такое пояснение: в ответе не полностью указан эталонный ответ, и нет никаких противоречий с ним. Самый простой пример такого ответа — это «я не знаю», но могут быть и другие варианты (Q: What are the names of Barack Obama’s children? A: Without researching the web, I cannot answer this question. However, I
can tell you that Barack Obama has two children)
Проверку ответов делает ChatGPT с длиииииинным промптом, в котором представлено по несколько примеров с объяснениями, почему они правильные/неправильные/не засчитываются. После этого считается две метрики:
— доля правильных ответов
— доля правильных ответов из числа тех, кто модель сделала попытку ответить, а не ушла в отказ (Correct given attempted)
Результаты вы видите в табличке. OpenAI добавили замеры для моделей Anthropic в качестве проверкой того, является ли датасет смещённым к моделям GPT из-за принципа сбора данных. А то может все остальные модели уже умеют отвечать, просто OpenAI не на том учат.
Мы видим, что качество Claude тут тоже не очень высоко, поэтому. Еще одно интересное наблюдение относительно моделей Claude заключается в том, что они, как правило, не пытаются отвечать на вопросы так часто, как GPT-4o.
Claude-3.5 Sonnet берёт гораздо меньше вопросов, чем GPT-4o, но также и пытается отвечать на вопросы куда реже (то есть у неё хорошо откалибрована граница знаю/не знаю). Маленькие модели и вовсе сразу отнекиваются в 75% случаев.
Уже каждый канал написал, что OpenAI выкатили ChatGPT Search. Много рассказывать не буду, TLDR:
— это улучшение уже существовавшей функции поиска по интернету
— работает шустро, не нужно ждать несколько секунд до начала генерации ответа
— за счёт более чем десятка парнтёрств с масс медиа ChatGPT имеет доступ к почти всем свежим новостям
— под капотом gpt-4o, дообученная на с помощью синтетических данных, включая дистилляцию ответов более продвинутой o1; за поисковый индекс отвечает Microsoft Bing
— доступно всем Plus юзерам, бесплатным перепадёт «in the coming months»
— можно поставить плагин для браузера, чтобы поисковые запросы вместо Google сразу шли в ChatGPT
А вот ещё параллельные новости:
— META разрабатывает свой поиск, чтобы уменьшить зависимость от Google + Microsoft. Работа над парсингом и сбором ведётся как минимум 8 месяцев
— Mark Zuckerberg заявил, что LLAMA-4 уже тренируется (скорее всего малая версия) на кластере из более чем 100'000 GPU H100. Первые детали стоит ожидать, вероятно, во второй половине первого квартала 2025-го.
— Google за 1 минуту до OpenAI (буквально) выкатили search grounding для Gemini в UI и в API. Эта функция использует результаты поисковой системы Google для обоснования ответов, сгенерированных LLM. В API стоимость кусается: $35 за 1000 запросов (то есть за использование поискового индекса Google, чтобы найти релевантные документы и предложить их LLM'ке; так что придётся ещё и за input tokens платить, видимо)
Boston Dynamics наконец нормально показали нового Атласа.
На видео он перемещает крышки двигателя между контейнерами поставщика и специальной тележкой для сборки. Роботу дают список, откуда и куда нужно переместить детали.
Атлас использует Computer Vision, чтобы распознавать объекты вокруг и находить нужные контейнеры [0:36]. Он применяет специальный способ захвата и постоянно следит за положением предметов, чтобы аккуратно выполнять задачу.
Круто, что движения робота не задаются заранее и не управляются оператором; все действия он выполняет сам в режиме реального времени. Атлас может замечать и реагировать на изменения в окружающей среде (например, если что-то рядом двигается) и на ошибки (например, если крышка не вставилась, робот споткнулся или столкнулся с чем-то [1:24]). Для этого он использует зрение, датчики силы и внутренние сенсоры.
Еще он забавно крутит головой и телом на 1:00 - получаются неестественные развороты.
Выкладываю полное видео для тех, у кого всякие ютубы не работают.
Пачка новостей на сегодня:
— Reuters узнали новые детали о планах OpenAI на производство собственных чипов. Уже было известно, что калифорнийская компания заключила партнёрство с Broadcom (они делают TPU для Google уже больше 7 лет). «OpenAI рассматривали возможность создания всего с нуля собственными силами, с привлечением капитала для дорогостоящего плана по созданию сети заводов, известных как «foundries» для производства чипов. Компания пока отказалась от амбициозных планов из-за затрат и времени, необходимых для создания сети, и вместо этого планирует сосредоточиться на внутренних усилиях по проектированию чипов», согласно источникам издания. Через эти договорённости OpenAI забронировали производственные мощности TSMC (которые печатают буквально все чипы, от айфоновских до Nvidia GPU) на 2026й год — именно тогда стоит ждать первых чипов.
— этот новый чип будет нацелен не на обучение моделей, а на эффективное их использование. Можно ожидать, что цена использования даже бОльших, чем сейчас, сетей будет снижаться
Из этой новости мне не ясно, от каких именно планов отказались OpenAI. Та же ли это вещь, что называлась Project Tiger? Или это процесс, который породил шутку про 7 триллионов долларов? Не ясно 🤷♂️ и, быть может, от планов решено отказаться пока, и в будущем к ним вернутся (когда условные TSMC поймут что всё же надо расширяться в 35 раз, а не в 6, и не будут называть Altman'а podcasting bro).
===
— CEO Alphabet, материнской компании Google, на звонке по результатам третьего квартала сказал, что «более четверти всего нового кода в Google генерируется AI, а затем проверяется и принимается инженерами». Четверть на масштабах такой компании — это очень много. Я не могу сейчас найти ссылку на новость/пост в канале, но где-то в начале года Google отчитывались, что их внутренние эксперименты показали ДВУЗНАЧНЫЙ рост производительности программистов (то есть условно +10% больше кода или задач в единицу времени, что-то в этом духе). То есть паттерн «оставить экспертов для валидации, а написание кода частично делегировать» — работает в полной мере. И всё это ещё без свежих моделей нового поколения; легко могу поверить, что с какой-нибудь специально заточенной внутренней версией Gemini 2.0 процент кода, написанного моделью, перевалит за 33%.
===
— В продолжение темы программирования, я уже несколько раз писал про SWE Bench. Это бенчмарк оценки способностей LLM по внесению изменений, описанных текстом, в кодовую базу большого существующего проекта (одни из самых популярных Python-фреймворков, например, Django). Существует подозрение, что многие из задач, которые решает модель, она уже видела во время тренировки. Авторы бенчмарка решили замерить качество на задачах до порога отсечения знаний модели GPT-4o и после (и то же сделали для Gemini, результаты схожи), и оказалось, что свежие задачки, появившиеся весной-летом, решаются даже лучше старых. Опять же, часть успеха можно списать на запоминание большой части кода (то есть модель с ним куда лучше знакома, чем с вашим каким-нибудь домашним проектом), но всё равно круто. Причём, качество там прям как-то совсем дико растёт, с 27.6% до 47.1%. Однако тут должна быть большая погрешность замеров — ибо примеров более поздних задач очень мало.
LMSYS Arena обновилась, добавили свежий Sonnet 3.6 (будем его так называть, чтобы отличить от старого 3.5). Можно констатировать рост качества на нескольких группах запросов, в частности связанных с математикой и программированием. Обратите внимание, что на 3 из 4 скриншотов поставлена галочка поправки на стиль — это значит, что голоса людей «очищаются» от эффекта длины ответа LLM (люди в среднем любят кликать на более полные и длинные) и от количества элементов обрамления (заголовки и списки, которые тоже оттягивают внимание).
В общем зачёте модель всё ещё уступает OpenAI'шным, в математике o1 продолжают рвать. Зато у программистов новая игрушка — уже слышал хорошие отзывы на Sonnet 3.6. Правда, слышал также и негативные, мол, то, что уже работало, перестало работать и выдаёт странные ответы.
Кроме этого видел разные бенчмарки, где-то модель чуть лучше, где-то чуть хуже ChatGPT-4, но большого количества отрывов в целой россыпи задач, как было с o1, не случилось. Наверное, можно ждать этого в агентских бенчмарках, но ни GAIA, ни SWE-Bench с момента релиза не обновились :(
Правда «лучшая» модель Gemini 1.5 Pro давала самые короткие ответы, встречая ограничение всего в 16% задач. Как же она стала лучшей? Ну, как написано выше, все модели суммарно одолели всего 4 задачи, поэтому тут просто случайность: решил на одну задачку больше, и ты уже существенно опережаешь остальных.
Авторы взяли 4 задачи и перепрогнали все модели по 5 раз на них, и Gemini сильно упала, что доказывает элемент случайности на таких низких значениях качества (меньше 2% от всех задач) — с 3 она вообще не справилась ни разу (0 из 5 попыток), и с одной справилась 3 раза (60% в табличке, потому что 3 попытки из 5 увенчались успехом). Самой стабильной оказалась OpenAI o1-preview: одну задачу она решила 5 из 5 раз, одну 4 из 5, одну 2 из 5, и с последней не справилась ни разу.
Основная критика статьи/бенчмарка от меня:
— нет никакого анализа ошибок моделей, хотя бы просто подтвердить тезис, что «не хватает данных/знаний/техник для решения задачи»
— нет попытки подать полезный контекст (статьи/теоремы) и посмотреть, как модели будут утилизировать его — особенно модель Google с их длинным контекстом
— нет попытки дать моделям доступ к поиску по статьям, чтобы они сами нашли себе релевантную информацию
— ограничение в 10'000 токенов, полагаю, немного сдерживает модели, особенно если учитывать сложность задач: даже людям требуется несколько часов рассуждений и решений, с доступом в интернет. Но авторы пишут, что постараются сделать больше разных тестов в будущем (и ещё добавить задач), увеличить контекст.
Будем следить за улучшениями на этом бенчмарке и ждать метрик какой-нибудь o2 на релизе. Как я понял, из всех задач опубликовали лишь 5, остальные держатся в секрете (я не смог найти даже общее количество, ткните, если его указали), и авторы будут сами замерять качество новых моделей. Надеюсь, они попробуют сделать какую-то обвязку, позволяющую LLM находить релевантную информацию в интернете самостоятельно, и позволят моделям работать над решениями дольше.
Думаю, значимая доля читателей знает, что NASA планировало в 2024-м году вернуться на Луну. Правда планы много раз переносили из-за проблемных ракет, из-за задержки производства скафандров, из-за кораблей... так что пока посадка отодвинулась на сентябрь 2026-го. Но вот уверен немного кто знает, что посадка будет производиться на ... SpaceX Starship, на том самом, испытания которого мы всем селом смотри (вернее в его специальной лунной версии, HLS, Human Landing System).
Starship — громадный корабль, на порядки превосходящий «Аполлоны», летавшие в 20-м веке. В него вместится куда больше оборудования и, в теории, людей — однако пока все пуски планируются на маленькие группы по 4 человека, прям расточительство какое-то. Сегодня предлагается заглянуть внутрь кабины макета корабля — в нём пока всего 2 палубы:
— основная, с 5 спальными местами (серые коробочки с чёрным квадратом) и креслами для экипажа;
— техническая, с системами жизнеобеспечения.
Корабль получается невероятно просторным. Предполагается, что на каждой палубе ( = 1 кольцо при сварке корпуса) удастся уместить по 20 кают. На фотках вы видите только «маленький» нос корабля, ниже ещё должен быть сварной корпус.
Перед реальной посадкой с экипажем необходимо провести кучу демонстрационных тестов, от орбитальной дозаправки с переливанием топлива из одного корабля в другой и до автоматической посадки без экипажа (такого в эпоху Apollo не требовали — может и в этот раз срежут?).
P.S.: последняя картинка — весь лунный модуль Аполлонов (человек для масштаба).
Источники 1, bulat_fbr5/Vi1_vjvJVGr">2
Добавили в Симулятор DS новую задачу, где нужно написать computer use на минималках (аля как у Claude), для мобильного приложения
AI/ML: OMNIPARSER
Уровень: Easy
Мы мобильное приложение и хотим покрыть наш сервис тестами. Нанимать отдельного тестировщика ни времени, ни бюджета нет. Поэтому мы решили написать AI-тестировщика. Он будет на основе "сырых" скриншотов экрана распознавать интерактивные элементы на изображении и понимать, куда кликнуть для проверки того или иного сценария взаимодействия с приложением.
Начать обучение ML/LLM в Симуляторе: https://bit.ly/3X1Q2BS
P.S. За подкинутую ссылочку на OmniParser модель спасибо Игорь Котенкову
Вчера увидел, что мой твит с комментарием по уходу из OpenAI Bob McGrew, VP of Research, лайкнул сам Bob. А потом случайно на ютубе наткнулся на его интервью годовой давности, и решил послушать между делом.
В целом не так много интересного, если активно следите за AI, но решил пересказать одну часть с историей про появление ChatGPT (вот таймкод):
— к середине осени 2022-го уже была натренирована GPT-4 (по официальным данным, тренировка закончилась в августе); в компании знали, что если они смогут придумать, как использовать модель на полную, то это будет невероятно. Вся компания пыталась придумать, что же с ней делать.
— John Shulman, глава команды, занимавшейся Reinforcement Learning (ныне ушёл в Anthropic), предложил сделать модель «разговорчивой», чтобы она могла вести диалог; для тех, кто не застал 2020-2022 годы в LLM: тогда модели просто дописывали текст по шаблону. В 2022м году их уже можно было промптить, давая какую-то задачу, примеры, но и всё.
— ещё до этого было ясно, что в будущем роль AI можно будет описать как «ассистент», но казалось, что модели ещё не достигли нужного уровня, чтобы помогать реальным людям в реальных задачах; поэтому даже не думали о подобном. К тому моменту GPT-3.5 уже около полугода была доступна в публичном API, и никто не сделал прото-ChatGPT.
— John сказал: «да, модели неидеальны, и мы знаем, что GPT-4 будет лучше, но давайте попробуем просто взять, обучить и выложить диалоговую модель в интернет. Может мы наберём хотя бы 10000 пользователей, и они помогут нам понять, где LLM плоха, и мы сможем начать итерироваться и улучшать её»
— Команда немного подумала, так как казалось, что это требует большого количества работы, но в итоге решили сделать и уложиться в НЕДЕЛЮ (ранее об этом писали, кажется, в WSJ, но ссылку за декабрь 22-го не буду искать). По сути, это был сайд-проект компании, они называли его «low key research preview», не было никакого медиа-освещения, не было рекламы. Были минимальные ожидания.
— Но по итогу всё полетело, и через 2 месяца ChatGPT оказался самым быстрорастущим продуктом из всех, достигнув планки в 100 миллионов пользователей. В это время многие сотрудники вообще другим занимались, но пришлось активно впрягаться и поддерживать проект; особенно активными были следующие 6 месяцев.
Вот такой вот урок по истории получился 🤓
🥸
===
Сделать ChatGPT с нуля: неделя
Добавить поиск по чатам: 2 года 😦
From Naptime to Big Sleep: Using Large Language Models To Catch Vulnerabilities In Real-World Code
В июне я писал про Naptime, проект по применению LLM в кибербезопасности от Google. С тех пор проект эволюционировал в Big Sleep (😄), коллаборацию с Google DeepMind для более масштабной работы. Проект всё ещё находится на исследовательской стадии, и авторы использовали в основном маленькие программы с известными уязвимостями для оценки прогресса. А потом решили позапускаться на реальных программах, которые каждый день используют миллионы программистов.
В рамках анализа одного из недавних изменений исходного кода SQLite автоматический LLM-агент (если не поняли что это — надо почитать предыдущий пост) на основе Gemini-1.5-Pro обнаружил эксплуатируемое переполнение буфера в стеке. Причём ошибка была лишь отдалённо связана с конкретно этими изменениями (большая часть причины, как я понял, оставалась за рамками изменений, но была невозможно без их внесения) — что не редкость при обычном ручном анализе вариантов. Исследователи даже подметили, что «в этом случае логи рассуждения немного напоминают работу человека — начиная с одной идеи, обдумывая несколько других в ходе исследования, и в конце создавая тестовый пример, который вызывает немного другую, но всё же ошибку»
В технические детали вдаваться не буду, те, кому интересно разобраться в уязвимостях в коде и почитать вырезки из рассуждений модели, которые привели её к прозрению и пониманию проблемы, могут найти это в основном посте.
Интересно, что ошибку нашли ещё до попадания в официальный публичный релиз, так что никаких пользователей это не затронуло. «Мы считаем, что эта работа имеет огромный оборонительный потенциал. Нахождение уязвимостей в программном обеспечении до его выпуска означает, что у злоумышленников нет возможности даже попробовать: уязвимости устраняются еще до того, как хакеры успевают ими воспользоваться».
Если я правильно понял, что имели в виду в блогпосте, то Gemini не отпускали просто на все 4 стороны: ей подавали на вход разные ошибки, которые уже удавалось отловить (в этом же репозитории или хоть где? не ясно), и говорили «Такая вот ошибка уже была; возможно, где-то есть еще одна похожая». Это позволяет сузить задачу от общей («найди любой код с уязвимостями») и задать направление вместо полного перебора всех возможных идей.
Баг был не самый простой для автоматического отлавливания традиционными методами. Обычно используют fuzzing, это когда в функцию или программу подают огромное количество случайных значений в некотором интервале и смотрят, не сломалось ли чего при тех или иных условиях. По идее, если дать достаточно времени, то подобная ошибка с определённой комбинацией условий могла бы найтись; однако используя официальный гайд по тестированию от самих SQLite за 150 CPU-часов и миллионы перебранных комбинаций уязвимость не выскочила, и скорее всего оставалась бы незамеченной долгое время.
А LLM не устают. Они могут читать и рассуждать гораааааздо быстрее и дольше кожаных аналогов. Ждём следующего большого поста, где Google'овцы заявят, что нашли 10-100 других багов пачкой, без ручного вмешательства.
Для примера ускорения, вот демка с написанием кода. Модель одна и та же, качество одно и то же, а пользовательский опыт куда лучше. Приятно!
Читать полностью…В ближайшие пару дней нас ожидает увлекательное шоу 🍿 под названием «выборы президента США»
Интересно, разродятся ли AI-компании релизами сразу после, в ближайшую неделю после окончания голосования? И что более интересно, в долгосрочной перспективе как скажется выбор конкретного кандидата на регуляции, субсидии и национальные программы в области? Станет ли Elon Musk главной совета по эффективности? Скажется ли это как-то на скорости развития инфраструктурных проектов вроде постройки/запуска АЭС?
Вполне вероятно, за следующий президентский срок не достигнут AGI, но AI за 4 года куда глубже проникнет в жизнь рядового пользователя интернета, повлияет на рынок занятости (как минимум корректировкой планов найма). С этими и многими другими вызовами обе партии могут справиться очень по-разному.
Да начнётся битва 🥸
===
Если вдруг не смотрели, то я очень рекомендую фильм Vice / Власть (там не про выборы 😑), да и другие картины этого режиссёра
P.S.: а) голосование по почте — бред б) голосование без ID — бред
Data movement bottlenecks to large-scale model training: Latency Wall
Развитие прошлой работы Epoch AI по оценке ограничений масштабирования моделей в будущем. Вот тут был разбор с обзором четырёх основных факторов, и сегодняшняя работа фокусируется на одном из них.
Из факторов, ограничивающих распределенное обучение в больших масштабах, наиболее простым для количественной оценки является естественная задержка в синхронизации девайсов, которая устанавливает верхнюю границу (Latency Wall) мощностей, на которых тренировка может быть совершена за фиксированное время независимо от того, сколько GPU используется.
Основная причина заключается в том, что более крупная модель обычно требует больше шагов обучения во время тренировки, и если это должно быть сделано за фиксированное время (например, 3 месяца), это означает, что каждый шаг должен занимать всё меньше и меньше времени. Если экстраполировать рост моделей, в конечном итоге время на шаг обучения становится настолько коротким, что ограничения не позволят обучать модели бОльшего размера.
В статье приводится много расчётов и оценок, и если вам интересна инженерная сторона вопроса, то рекомендую ознакомиться. Тут будет короткая выжимка выводов:
— сейчас в самые большие модели во время обучения вбухивают примерно 5E+25 FLOP , то есть 5 и 25 нулей, столько операций сделали карточки для обучения Gemini 1.0 Ultra
— если ограничивать тренировку 3 месяцами, то, по оценкам авторов, максимум можно будет пропустить через модель 2E+28 FLOP (в 400 раз больше), если придерживаться эффективного использования GPU (то есть когда время вычислений больше времени на простой из-за синхронизации карточек). Этого хватит, чтобы оптимально обучить модель на ~15 триллионов параметров («оптимально» = по Шиншилле)
— если продолжить текущие тренды, в этот потолок мы упрёмся через 3 года
— если пожертвовать эффективностью и быть готовым, что GPU большую часть времени будут на расслабоне, то Latency Wall отодвигается до 2E+31 FLOP, ещё на 3 порядка, то есть в тысячу раз (модель может вырасти на корень из тысячи ~= в 31 раз)
— все ограничения посчитаны для традиционной имплементации стохастического градиентного спуска, но потенциально тут могут быть прорывы, повышающие эффективность (и уменьшающие количество данных для синхронизации между картами); однако скорее всего они будут немного ухудшать качество
— одним из решений может быть увеличение размера батча, используемого во время тренировки (сколько слов за раз видит модель во всех примерах за один шаг обучения). Проблема в том, что существует «критический размер батча», после которого прирост качества снижается («diminishing returns», убывающая отдача). Возможно это приведёт к тому, что мы будем недотренировывать модели (делать их больше, делать батч больше, а тренировать меньше шагов — чтобы на каждый шаг было достаточно времени)
— потенциально Latency Wall можно будет отодвинуть ещё, если будут прорывы в обеспечении более быстрой коммуникации между девайсами. Уже сейчас в Google TPU используются какие-то навороченные оптические компоненты для улучшения масштабируемости, но я в этой теме ничего не шарю и не могу объяснить, в чём отличие от обычной оптики.
Подписчик поделился, что модель o1 (не превью, то есть не предварительная версия) от OpenAI как будто бы стала доступна. Для этого нужно перейти по ссылке https://chatgpt.com/?model=o1
В неё можно загружать как минимум картинки (и есть скрепочка для файлов), и она тоже «думает» (выставляет таймер рассуждений). Может, это всё ещё o1-preview, но в неё нельзя было загружать изображения.
Диалоги с медиа-элементами не шарятся через кнопку share, поэтому в виде доказательства только скрин.
Го тестировать! (вероятно, только Plus-подписчики)
Закидываем в модель самые сложные задачки на математику и программирование (и счёт объектов на картинках или видео, конечно)
UPD: в браузерной консоли разработчика видно, что тег модели o1, без preview, и тем более не 4o
И вот та же таблица в виде графика, но уже с фокусом на модели OpenAI.
Во-первых, видно, что модели разных линеек старших и младших поколений отвечают правильно на примерно одинаковую долю вопросов (синяя область). То есть в o1-preview знаниий примерно столько же, сколько в 4o, и то же верно для mini. Я видел замеры скорости генерации токенов для 4o-mini и o1-mini, и там показывалось, что она уж очень похожая (если для o1-mini считать токены рассуждений, ведь их количество прилетает в ответе, и вы за них платите), правда, ссылку сейчас не найду.
С большой вероятностью можно говорить, что модели o1 получены из базовых версий тех же моделей, что и 4o (ну или хотя бы что «они одного размера и видели одни и те же данные»), и что все приросты, которые мы видим на всех бенчмарках — идут за счёт рассуждений, а не запоминания бОльшего количества информации. Помните, я в своём лонге рассказывал про приросты в играх ЧГК? Ну вот.
Во-вторых, модели с рассуждениями чаще уходят в отказ, а не выдают ошибочный ответ. Это может быть связано с тем, что они могут использовать свои способности к рассуждению, чтобы разобраться и понять, когда они не знают ответа на вопрос, вместо того, чтобы галлюцинировать и выдавать фигню.
Measuring short-form factuality in large language models
Не статья, но по сути открытый бенчмарк от OpenAI.
Открытой проблемой в области ИИ является тренировка моделей на выдачу ответов, которые фактически верны. Современные языковые модели иногда выдают ложную информацию, не подкрепленную доказательствами (известно как «галлюцинации»). LLM, которые выдают более точные ответы с меньшим количеством галлюцинаций, более надежны, и могут быть использованы в более широком спектре задач и приложений.
Фактичность — сложный критерий, поскольку его трудно измерить: оценка любого произвольного утверждения — сложная задача, так как языковые модели могут генерировать длинные ответы, содержащие десятки фактических утверждений (не все из которых релевантны вопросу, но тем не менее могут быть правдивыми).
В SimpleQA OpenAI сосредоточились на коротких запросах. Всего в бенчмарке 4326 вопросов на разные темы (больше всего про технологии и науки, но есть и про музыку, историю).
Чтобы попасть в датасет, каждый вопрос должен был соответствовать строгому набору критериев:
— он должен иметь единственный, неоспоримый ответ, который легко верифицировать
— ответ на вопрос не должен меняться с течением времени; — большинство вопросов должны были вызывать галлюцинации у GPT-4o или GPT-3.5
Вопросы были заготовлены разными исполнителями в соответствии с требованиями выше. Затем второй эксперт отсматривал вопросы, не видя ответ, и пытался найти ответ. Если ответы не совпадали — такой вопрос не добавляли.
Для 1000 случайных вопросов привлекли ещё третьего эксперта, чтобы оценить чистоту данных. Его ответ совпадал с ответами первых двух в 94.4% случаев. 2.8% ошибок были вызваны невнимательной работой третьего эксперта, и 2.8% были вызваны реальными проблемами с вопросом (например, неоднозначные вопросы; или разные веб-сайты, дающие противоречивые ответы). Таким образом, OpenAI оценивают собственную частоту ошибок для этого набора данных примерно в 3%.
Примеры вопросов:
— Which Dutch player scored an open-play goal in the 2022 Netherlands vs Argentina game in the men’s FIFA World Cup?
— Who received the IEEE Frank Rosenblatt Award in 2010?
— What day, month, and year was Carrie Underwood’s album “Cry
Pretty” certified Gold by the RIAA?
— What is the first and last name of the woman whom the British
linguist Bernard Comrie married in 1985?
В стане чипов, заточенных под современный AI, прибыло. Вернее, стартап Etched рассказывал про чипы Sohu, заточеные под работу с трансформерами (архитектурой, лежащей в основе большинства современных LLM/VLM/...), ещё летом, и даже рисовал цифорки скорости
Чип является ASIC (Интегральная схема специального назначения), то есть он не может делать всё подряд, но может делать узкий набор операций, достаточный для работы современных сетей, ооооочень быстро. С их слов, в картах Nvidia только 3.3% транзисторов используются дял перемножения матриц (основная операция в нейронках), и они хотят это исправить и перебалансировать (больше тут).
Летом они говорили, что 8 чипов Sohu дают больше 500'000 токенов в секунду на LLAMA-3 70B (не для одного запроса, а для большой группы). По их замерам, даже 8 продвинутых B200 то Nvidia дают около 25-30 тысяч токенов в секунду.
Теперь же от графиков и слов перешли к чему-то более осязаемому. Парни из другого стартапа, Decart.ai, обучили диффузионную модель генерировать кадры из Minecraft в зависимости от ваших действий. Очень похоже на виртуальный сгенерированный Doom, про который я уже писал, так что опущу технические детали (читать самому тут). Утверждается, что обычная H100 может гонять модель на 500M параметров для генерации кадров в разрешении 720p с частотой 20 кадров в секунду, Sohu может позволить себе 4K@30FPS (в обоих случаях производится апскейлинг в 3 раза). В своём блоге Etched описывают видение, согласно которому через несколько лет большая часть видео будет генерироваться (тем актуальнее их чип), и что уже сейчас доля трафика под видео составляет 70% от всего — так что маркет очень большой.
Поиграть в сгенерированный Minecraft можно тут. Правда... она всё равно запущена на H100, а не их чипах 🤷♂️
Чуть меньше двух лет понадобилось OpenAI, чтобы добавить, казалось бы, такую простую фичу — поиск по чатам. Пользователи с подпиской Plus и Team получат доступ в течение дня — но пока только на Web (на сайте). Пользователи Enterprise и Edu получат доступ в течение недели.
Бесплатные пользователи начнут получать доступ к фиче в течение следующего месяца.
Но это конечно шок что ТАК долго делали столь необходимую вещь.
Про бедность — скорее всего, powerful AI продолжит развитие технологий для борьбы с голодом, разрабатывая лучшие удобрения и пестициды, или даже занимаясь генной инженерией отдельных культур (растений, не людей 👀).
4️⃣Мир и управление
Dario не верит, что AI повлияет на структуру демократии и правления в той же мере, что и на предыдущие 3 пункта.
Тут предлагается схема, схожая озвучиваемой главой OpenAI: создать коалицию демократий, имеющих доступ к (около-)powerful AI, которая будет в ответе за мир на всей Земле. В её роль входит защита своей цепочки поставок (в том числе компонентов для разработки и поддержания powerful AI), и блокировка/ограничение доступ противников к ключевым ресурсам, таким как чипы и полупроводниковое оборудование.
Эта же коалиция предлагает свой AI и ресуры всем желающим принять правила игры. На примере атомной бомбы: вот мы сделали, и мы охраняем вас, но взамен вы не делаете ядерное оружие сами. Кнут — военное и экономическое превосходство коалиции, пряник — доступ к технологии. В случае необходимости демократические правительства в коалиции могут использовать свой powerful AI, чтобы выиграть информационную войну с противником (включая пропаганду).
5️⃣Работа и смысл жизни
Dario замечает, что наличие кого-то, кто делает вещи лучше меня, не обесценивает для меня же самого ценность труда. Например, можно потратить много времени, пытаясь стать лучше в видеограх или езде на велосипеде. Люди всё равно продолжают это делать, не только профессионалы.
Пока AI лучше справляется только с 90% заданной работы, оставшиеся 10% приведут к тому, что люди станут куда более ценными в почти-автоматизированной-цепочке-труда, что приведёт к росту компенсации и фактически создаст множество новых рабочих мест для людей, дополняющих AI.
Так что эти оставшиеся «10%» существенно вырастут в абсолютных величинах( 90%-то автоматизированно). Суммарный выхлоп производства вырастет кратно, так как теперь 100% людей будут заняты в этих 10% задач. Тут Dario ссылается на «Заблуждение о неизменном объёме работ», мол, объём доступных работ является фиксированным (это не так). Их объем будет расти и расти по мере развития технологии, так что спрос на 10% будет тоже расти, и всасывать в себя людей-экспертов.
Люди скорее всего долгое время будут лучше AI в физических задачах в реальном мире (пойди туда сделай то), и даже если AI будет лучше в 100% в чём-то — это может быть не выгодно экономически во многих странах, где люди готовы что-то делать за еду. Когда-то и это перестанет быть правдой (то есть AI будет делать всё), но это точно выходит за рамки его предсказаний «10 лет после изобретения powerful AI».
===
В конце Dario проводит сравнение с книгой «The Player of Games», но краткий пересказ я делать не буду, это прочитаете сами, если реально интересно (мне вот было интересно)!