seeallochnaya | Неотсортированное

Telegram-канал seeallochnaya - Сиолошная

56985

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно запинено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Подписаться на канал

Сиолошная

3 дня назад в чате писал, что от 2025-го года у меня пока главное ожидание — это ни GPT-5, ни Claude 4, ни LLAMA 5o, а o2 (pro, если будет). Хотел оставить этот пост на конец года и отправить под НГ.

Почему o2:
1) она будет обучена поверх базовой модели Orion (GPT-5), то есть сама по себе мощнее, лучше понимать картинки и тексты, иметь больше знаний, общаться на разных языках ещё лучше. Это само по себе вкупе с процессом дообучения o1 принесёт приумножающиеся плоды
2) o1 — самая первая модель новой линейки, в которой некоторые вещи могли быть сделаны просто так, потому что на тщательное тестирование и проверки не было времени. Или какие-то вещи не сделаны вовсе. Поэтому осталась куча так называемых low hanging fruits, которые в релиз следующей модели уже попадут.
3) при релизе o1 OpenAI показывали два графика масштабирования качества от количества ресурсов: один — от длины цепочки рассуждений, а другой — от длительности самого процесса дообучения, когда поверх базовой модели «прививаются» рассуждения. Больше задач, больше возможных вариантов, больше всего — и как результат лучше модель. Так как у OpenAI уже освободились ресурсы от тренировки Orion, то в эту часть обучения можно будет вбухать на порядок больше мощностей, что даже при неизменных длинах цепочек рассуждений улучшит результаты по всем направлениям ещё на сколько-то
4) как результат всего вышеперечисленного — более длительные цепочки рассуждений, потенциально покрывающие более широкий набор задач (условно сейчас 3-5 минут, а станет 10 или даже 15-20 минут).

Очень условно, если o1 можно воспринимать как хоть и законченное, но демо технологии, то o2 будет сформированным продуктом.

===

TheInformation пишут, что OpenAI рассматривает возможность пропустить o2 и перейти сразу к o3, но не по тем причинам, которые вы могли придумать — всё дело в конфликте имён с британским телекоммуникационным провайдером. Некоторые руководители внутри компании уже называют эту модель o3. Столько шуток про «не хватает как кислорода» потеряем...

===

Вчера на стриме OpenAI упомянули, что сегодня, в последний день презентации, нас ждёт большой сюрприз; и будет присутствовать CEO компании Sam Altman (он пропускал менее приоритетные дни). «ho ho ho 🎅 увидимся завтра» — написал он в Твиттере, а после дал одну (возможно, саркастическую) подсказку: «должен был сказать oh oh oh».

И началось, кто-то в этом видит намёк на анонс или даже релиз Orion (в поясе Ориона, в честь которого назван проект GPT-5, 3 звезды), кто-то — на целых три релиза (Orion, Operator, Omnimodal), кто-то в свете новостей про переименование o2 в o3 пишет свои догадки про свежую модель с рассуждениями. В последнее я точно не верю, ну не должно быть такой быстро смены поколений. В GPT-5 без 4.5 персонально мне верится с трудом (хотя чисто в теории может быть). А Operator планировали показать в январе.

Ну а как будет на самом деле, и чьи домысли были ближе всего к реальности — узнаем сегодня в 21:00 по Москве. Рекомендую прийти, а не пропустить, как прошлые (скучные) демо-дни.

Читать полностью…

Сиолошная

В API Google Незаметно появилась модель с интересным названием: gemini-2.0-flash-thinking-exp

Описание:
Best for
- Multimodal understanding
- Reasoning
- Coding

Use case
- Reason over the most complex problems
- Show the thinking process of the model
- Tackle difficult code and math problems

Knowledge cutoff: Aug 2024


ждём официального анонса и метрик...

(правда мы ещё цен не знаем на gemini flash 2.0, моя ставка что она в 2-4 раза дороже flash1.5, так что конкретно эта моделька может быть ещё дороже)

Играться тут

UPD: ведущие лица компании уже отписались в твиттере, но никто не выложил результаты бенчмарков. Модель доступна в API (с.. лимитами бесплатного тира), через сутки будут первые результаты.

Читать полностью…

Сиолошная

Я думал, что про это внятно и подробно напишет Денис или ещё кто, а я репостну, но нет — поэтому мучайтесь (от голода) и вы.

Вот генерации видео, где пара рук нарезает сочный стейк. В левом верхнем углу новая свежая модель Google Veo 2.0, анонсированная вчера, на фоне других моделей. Доступ пока есть у очень узкой географии и по заявкам.

Какая генерация понравилась вам больше?

Источник видео

Другие завораживающие примеры и сравнения можете посмотреть в официальном блоге. Многие выглядят куда лучше, чем у Sora (да ещё и могут генериться в 4k)

Читать полностью…

Сиолошная

Вчера HuggingFace 🤗 выпустили блогпост под названием «Scaling test time compute with open models». Их посты как всегда написаны очень понятно и последовательно, и обильно сопровождены пояснительными иллюстрациями.

Исследователи выбрали путь, альтернативный оному у o1: вместо увеличения длины цепочек рассуждений они генерировали больше самих решений, из которых отбирали потенциально правильные. Так что формально говорить «подольше подумать» верно, но средняя длина таких ответов не сильно больше простых ответов, генерируемых их моделями сходу, без всяких надстроек.

Основной результат: они взяли LLAMA-3 на 3 миллиарда параметров, также взяли Llama3.1-8B-PRM-Deepseek-Data, 8 миллиардную модель, обученную выдавать оценки шагам неполных решений. Под «оценкой» тут подразумевается некоторая величина, которая коррелирует с вероятностью частичного решения стать правильным. Условно если где-то LLM написала 2+2=5 (явная ошибка), то оценка будет низкая — потому что есть ошибка в подсчётах.

И эти две модели скрестили — первая маленькая генерировала десятки-сотни решений, а вторая оценивала их. Но оценивать можно по разному:
— всё решение в самом конце
— каждый промежуточный шаг (и отсекать самые неправильные)

Второй способ показывает себя лучше при масштабировании. Итого связка модель на 3 миллиарда параметров + проверяльщик на 8 миллиардов при генерации 256 решений показала себя как старшая версия LLAMA 3 на 70 миллиардов.

Эта работа — ни в коей мере не попытка воспроизвести о1-подобные модели. Сами авторы сходу признаются, что они лишь пробовали повторить вот эту статью от DeepMind, где пытались ответить на вопрос: можно ли за счёт большего количества генераций маленькими получать результат, схожий с большими моделями, при этом затратив меньше вычислительный бюджет? (правда по итогу сравнений именно по вычислениям исследователи из HF не делают, не ясно, 256 генераций 3B моделью с 8B-оценщиком — больше или меньше, чем 1 запуск 70B модели?).

А дальше, я полагаю, они возьмутся за реимплементацию вот этой статьи (тоже от DeepMind), где делается следующий логический шаг: тренировка на сгенерированных и отобранных правильных решениях.

На картинке: рост качества описанной системы при увеличении количества генерируемых (и оцениваемых) решений.

Читать полностью…

Сиолошная

Интересный, показательный и свежий пример.

В октябре вышла статья, которая напугала какое-то количество людей (после того, как в декабре её разнесли разные новостные аутлеты). TLDR: утверждалось, что кухонные приборы, сделанные из чёрного пластика, очень токсичны (они были загрязнены антипиреном из-за ошибки при переработке сырья).

Оказалось, что в статье есть математическая ошибка, и на самом деле всё ок.

Ethan Mollick скормил оригинальную 10-страничную статью o1 (не pro), и дал очень простой промпт: «Тщательно проверь математику в этой статье». Через 23 секунды модель написала ответ, в котором и указала на ошибку. Причём, так как и статья, и новости с её разбором свежие, а o1 не имеет доступа в интернет (да и к любым другим инструментам, даже калькулятору), то это именно модель смогла справиться с задачей.

Sonnet 3.6 справился со второго раза, когда ему дали подсказку, где искать.

Вообще этот пример показывает, как может измениться наука через лет 5 — не такое далёкое будущее, кстати — когда модели будут и гораздо умнее, и существенно дешевле (хотя такой разовый прогон на о1 так и так стоит меньше $0.5, а будет совсем копейки).

Читать полностью…

Сиолошная

Бенчмарк o1 pro - золотой стандарт

Итак, настало время протестировать o1 pro.

Но сначала disclaimer. Есть 4 разные версии o1. Не путайте их!

- o1-mini - самая маленькая и недорогая из Reasoning моделей. Она есть в ChatGPT и по API
- o1-preview - мощная версия, которая раньше была доступна в ChatGPT интерфейсе. Теперь ее оттуда убрали и заменили на pro. По API она еще доступна
- o1 - это то, что теперь заменяет o1-preview в чат интерфейсе. У этой модели ограничено время на размышления, так что она заметно глупее preview. По API эта модель не доступна.
- o1 pro - самая мощная модель, которой разрешили думать много и долго. Она есть в чат интерфейсе по Pro подписке за $200. По API ее пока нет.

Этот пост - исключительно про o1 pro. Модель я в порядке исключения тестировал вручную.

Я взял результаты бенчмарка o1-mini, и выбрал те задачи, в которых она ошибалась. o1 pro на голову выше mini, поэтому я допустил, что если mini не ошиблась, то и pro не ошибется. Таким образом мне нужно было прогнать не пару сотен задач, а в десять раз меньше.

Еще я отключил custom instructions по своевременному совету Игоря. Память у меня и так была отключена. Сконвертировал запросы к API в текстовый запрос и запустил вречную.

Тут я столкнулся с двумя граблями.

Во-первых, o1 pro сейчас встроена в Chat. Поэтому задачки, которые по API возвращали нормальный plain-text YAML, теперь стали возвращать красиво отформатированный markdown. Тут я исправлял формат вручную.

Во-вторых, я при задачах в API я few-shots всегда форматировал так:


System: Task explanation

User: sample request
Assistant: sample response

User: sample request
Assistant: sample response

User: real request


Но с чатом такое не прокатит, нужно формировать все в один текст. Более того, системный промпт нам не доступен в o1 моделях в принципе, чтобы случайно не утекло содержимое reasoning (ибо оно генерируется моделями без alignment). И вообще модель накручена защищать системный промпт и работать с пользователем в диалоге.

В итоге, o1 pro понижала приоритет инструкций, которые были помечены как System и начинала искать паттерны в запросах пользователя. Она их находила и приходила к неверным выводам, спотыкаясь на integrate. Поэтому задачу в текстовый UI я стал форматировать так:


# Task
Task explanation

## Example
User:
Assistant:

## Example
User:
Assistant:

# Request


Ну а что в итоге?

o1 pro подобралась вплотную к потолку моего продуктового бенчмарка, набрав 97. Причем нехватающие 3 балла можно даже было бы оспорить. В рамках бенчмарка она как золотой стандарт - дорога и идеальна.

Это очень хорошо. В разработке второй версии бенчмарка я смогу отталкиваться от этого потолка и формулировать задачи так, чтобы на самых сложных засыпалась даже o1 pro. Это позволит выстроить более плавную кривую оценок и сделать бенчмарк более репрезентативным для сложных кейсов LLM в бизнесе и продуктах.

Ваш, @llm_under_hood 🤗

PS: Для тех, кто видит бенчмарки впервые, подробнее про них написано тут.

Читать полностью…

Сиолошная

Последнее судебное заявление Elon Musk против OpenAI знаменует собой его четвертую попытку менее чем за год переформулировать свои претензии к своим бывшим коллегам. Как и в прошлый раз, OpenAI опубликовали свежий ответ, раскрывая некоторые детали (в том числе переписки) прошлого, которые показывают, что слова Elon'а не бьются с тем, что написано в поданном иске. Прочитать можно тут: https://openai.com/index/elon-musk-wanted-an-openai-for-profit/

Если честно, то мне и прошлого блога хватило — там было явно показано, что Musk в 2017-м сам высказывал тезис, что нужно гораздо больше капитала для разработки ИИ, и не выступал против превращения компании в коммерческую (из некоммерческой).

В этом же блоге показывается ещё более глубокая история — Elon не то что был просто согласен, он зарегистрировал свою коммерческую компанию, на которую хотел, чтобы переписали большую часть OpenAI (в прямом смысле, majority, больше половины). Также он должен был стать СЕО и получить начальный контроль. Где-то в это же время он предлагал всей компании стать частью Tesla (тоже коммерческой компании, как вы понимаете).

Так что любые заявления «я вкладывал свои деньги в НКО, а меня обманули и за счёт имени и средств раскрутились в мощный стартап!» звучат очень бредово. Посмотрим через пару месяцев на следующий т.н. мув. Кроме того, в течение нескольких лет даже после выхода из компании Sam Altman предлагал представителям Musk'а долю в компании (ведь инвестиции на ранних этапах-то реально были), а тот отказывался.

Читать полностью…

Сиолошная

Нет-нет, вы не поняли, он может прям взять вашу фотку, подумать над ней и дорисовать, например, ход в крестиках-ноликах 😏

(функция доступна только доверенным бета-тестерам, полноценный релиз для всех в начале следующего года. У меня вот нет доступа, это скриншот из твиттера)

Читать полностью…

Сиолошная

Sama очень рад, что его свитер понравился ChatGPT в iPhone Siri (кстати, вышла сегодня) больше остальных

О, и ещё можно обновить MacOS, там тоже появилась интеграция. Siri (по идее) теперь не такая бесполезная!

Читать полностью…

Сиолошная

А вот и анонс от СЕО компании с цифрами бенчмарков!

У кого-то из чата уже заработали аудио-ввод и вывод (генерация речи), у меня пока нет(

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/

Ссылка попробовать в AI Studio БЕСПЛАТНО: тык

Читать полностью…

Сиолошная

@denissexy has spoken 🤓

(да, ТГ-инфлюенсеры всегда так разговаривают между собой)

Ну а про свой опыт (даже с обычной о1) я писал на прошлой неделе, пока ощущения те же.

Читать полностью…

Сиолошная

Ого а вот это интересное ограничение вылезло на плане за $20. «Вш план на данный момент не поддерживает создание видео из загруженных медиа-файлов, содержащих людей».

Интересно, есть ли такое на Pro, и когда и при каких обстоятельствах будут ограничения снимать?

Читать полностью…

Сиолошная

Заходим, смотрим, генерируем: https://sora.com/

МОЖНО с PLUS подпиской (не PRO, всего $20)

— новая модель, Sora Turbo быстрее, дешевле для запуска, и лучше в генерациях
— генерации от 5 до 20 секунд
— 3 разных разрешения, 1080p в 8 раз медленнее 480p
— можно промптить текстом, картинкой или видео (клипом)

Читать полностью…

Сиолошная

🤓

Читать полностью…

Сиолошная

И директор Apollo Research расстроился от некоторых реакций общественности, поэтому написал вот такое:

===

Мы старались изо всех сил не преувеличивать и не приуменьшать результаты в наших текстах, но, как и следовало ожидать, некоторые люди сильно их переоценили, а затем, основываясь на этом, другие пришли к выводу, что здесь вообще не на что смотреть. Поэтому я попробую объяснить ещё раз.

Почему наши выводы вызывают беспокойство: Мы даём модели очень сильное указание преследовать определённую цель. Затем она извлекает из окружающей среды информацию, что эта цель не согласуется с целями её разработчиков, и попадает в среду, где обман оказывается эффективной стратегией для достижения её собственной цели. Текущие передовые модели способны всё это связать воедино и демонстрировать обманное поведение. Модели, созданные до 2024 года, не показывали такой способности, и только o1 демонстрирует обманное поведение во всех случаях. Будущие модели будут становиться только лучше в этом, поэтому, если они окажутся несогласованными с нашими целями, обман может стать гораздо более реальной проблемой.

Чего мы не утверждаем: мы не утверждаем, что эти сценарии являются реалистичными, не утверждаем, что модели делают это в реальном мире, и не утверждаем, что это может привести к катастрофическим последствиям при текущих возможностях.

Я считаю, что адекватная реакция на эти выводы — это «Нам следует быть немного более обеспокоенными». Более конкретно, аргументы вроде «модели просто недостаточно способны для обмана» теперь должны предоставлять более убедительные доказательства, или их сторонники должны выдвигать другие аргументы в пользу безопасности.

Почему люди недооценивают результаты: мы не давали модели указаний избегать или отключать проверяющую систему. Мы только сказали ей преследовать цель. Она сама сделала все остальное рассуждение. Это как раз и есть основной вывод статьи. Если бы мы сказали модели отключить системы или обманывать, и т. д., вывод был бы не очень интересным.

Читать полностью…

Сиолошная

Уходит эпоха — из OpenAI уходит Alec Radford, один из самых ранних и известных (и непубличных) исследователей. Он был первым автором статей про GPT-1 и GPT-2, а также работы Unsupervised sentiment neuron, напрямую им предшествующей.

В четверг он сообщил коллегам, что уходит, чтобы продолжить независимые и самостоятельные исследования. Alec написал, что планирует сотрудничать с OpenAI, а также с другими разработчиками ИИ-моделей.

Radford носит легендарный характер — о его блестящей интуиции исследователя и инженера ходит много баек (и все правдивые).

Читать полностью…

Сиолошная

Сегодня на ежедневной презентации OpenAI вроде и не показали ничего важного, что одномоментно вызывает восторг, но:

— полноценная o1 теперь в API (не pro), правда пока доступна только пользователям с максимальным уровнем аккаунта
— o1 поддерживает структурированную генерацию по заданной схеме (это чтобы не было проблем с чтением ответов на бэкенде) и принимает на вход картинки
— длина контекста 200'000 токенов, при этом за одну генерацию ограничение в 100'000 на выход (ооооочень много)
— цена как у preview, однако обещают, что модель теперь в среднем тратит на 60% меньше токенов на рассуждения. Не понимаю, как это работает, что не ухудшает качество
— а ещё запросы в o1 теперь кэшируются, так что копеечку можно будет сэкономить (платить в 2 раза меньше за первую часть запроса, которая совпадает с тем, что вы уже отправляли)
— есть параметр reasoning_effort, который позволяет контролировать, как долго модель будет рассуждать перед ответом; правда в документации его пока нет, так что не ясно, как работает: уссловно может быть три настройки "мало-средне-долго", а может число от 0 до 10. Посмотрим

Но так как модель доступна в API — авторы почти всех бенчмарков (у кого на кармане завалялась лишняя пачка баксов) кинутся её тестировать, а мы, соответственно, увидим, как и в чём модель суперхороша. Так что где-то через недельку сделаю пост с большими и не очень прорывами.

На картинке: прирост метрик в LiveBench-Code (там задачи регулярно обновляют, чтобы быть уверенными в новизне проблем, по которым меряют качество). Сейчас там топ-1 у Claude 3.6, 67%, а у o1, согласно замеру OpenAI, будет примерно 77%+- — если подтвердится.

Читать полностью…

Сиолошная

Ещё из этого поста узнал про ProcessBench от Qwen Team, вышедший неделю назад. Как вы могли понять из объяснения выше, очень важно, чтобы у вас был качественный оценщик — если он умеет обнаруживать ошибки почти идеально, и имеет интуицию о том, какие решения более перспективны, то это существенно улучшает оптимальность генерации десятков-сотен решений.

Вот ProcessBench и оценивает это: исследователи собрали 3400 примеров и разметили их вручную по шагам, а затем смотрели, насколько хорошо разные LLM умеют обнаруживать самый первый шаг, содержащий ошибку (или наоборот отсутствие проблем во всём решении).

Лучше всех из открытых моделей показала себя... их QwQ-32B-Preview, что не удивительно (не потому, что модель выпущена ими, а потому что она умеет рассуждать и сама по себе сильна в математике). Она правильно оценила 71.5% примеров, что больше, чем GPT-4o (61.9%), но меньше, чем o1-mini (87.9, существенно выше).

Почему это важно: с очень качественными оценщиками (верификаторами) можно запускать автоматический цикл генерации сотне решений и дообучения на самых высоко оценённых (и правильных). Предположительно, именно так и учили o1, и отсюда видно, насколько большим остаётся гэп в обучении оценщика.

Читать полностью…

Сиолошная

Я решил, что продолжу отдавать OpenAI $200 в месяц (пока не вышли конкуренты у Google / Anthropic) — потому, что o1 Pro фантастический компаньон в жизни/работе

— Наверное, стоит сказать пару слов, что LLM-бенчмарки часто критикуют за их неспособность объективно оценить качество модели — и с Pro O1 такая же ситуация:
Я видел результаты, где какая-то новая модель, якобы, пишет код также и даже лучше, чем Sonnet 3.6 — а по факту, альтернатива может и хорошо пишет код, но не способна в то, что Anthropic делает лучше всего — Sonnet эстетически лучше, чем конкуренты, не только в коде, но и в дизайне, в UX, в чувстве прекрасного у решений которые он предлагает

— Такая же ситуация с o1 Pro — очень сложно выразить в числах, почему эта модель хорошая; я уже писал выше, что мне нравится o1 Pro потому что она для узких специалистов (место для дилятор-шутки), но я чуть дополню свой тогдашний отзыв — o1 Pro модель ответам которой можно доверять и это полностью меняет мой подход к работе с LLM. Если раньше, за ответами Sonnet / Gemeni / 4o — мне приходилось ходить и пруфчекать факты, пытаясь понять придумала она их или нет, то внутренние рассуждения o1 Pro практически полностью лечат модель от галлюцинаций (в разумных пределах, время на циферблате она все еще распознает). То есть: я готов платить за гарантии того, что модель с очень высокой вероятностью не ошибется в ответе, потому что если она не уверена — она откажется давать ответ в целом и мне кажется это самой ценной фичей этих моделей

— o1 Pro сложнее поддается инструкциям — и не потому, что она им плохо следует, а наоборот, потому что она слишком хорошо им следует и любая ошибка в инструкциях может привести к неправильным результатам (например, если приложить непродуманный пример решения задачи, в таком же формате все и придет и тп)

— Самое клевое: помните я с вами делился кастомными инструкциями для ChatGPT которые доказательно улучшали качество ответов gpt4o на 7%? Так вот, во-первых — я их выложил на GitHub, можно подписаться и получить уведомление когда будет новая версия; во-вторых — o1 Pro полностью раскрывается с такой инструкцией: модель, перед тем как начать цепочку внутренних рассуждений, сначала назначает себе профессиональную роль и уже потом, от имени этой роли «думает» и пишет промежуточные ответы. Я попробовал пару дней пожить без инструкций этих и не смог — o1 модели по настоящему раскрываются с такой инструкцией, потому что вешают на себя роли каких-то выдающихся специалистов в области

— Я перевел в o1 Pro вообще все, что делаю или потребляю: она пишет для меня вики-лайк статьи (они совпадают с реальными в фактах, я проверял), книги-истории, помогает в учебе, бизнесе и творчестве, и сейчас мой день больше всего напоминает какой-то SciFi фильм 60х, где коммуникатор героя решает для него все вопросы и задачи. У меня однажды уже было похожее чувство — когда мне было 12 лет и я попал в интернет по карточкам, и ощутил что теперь можно узнать что угодно и не мог выбрать с чего начать, куда пойти, потому что интернет уже тогда был большим, и все было интересным

Я понимаю, что $200 заградительная цена для многих — и не призываю вас тратить на нее деньги; я просто рассказываю свою мотивацию, почему я продолжу платить — потому что люди часто спрашивают в личке

Если вы хотите похожие на o1 модели дома, вы можете рассмотреть эти: QwQ 32B, Phi 14B и Deepthought 8b, но все они будут всегда ограничены знаниями которые поместились в их размеры, ну и не забывайте их просить решать задачи шаг-за-шагом и проверять свои ответы по пути

tl;dr Денис поехавший — отдает ClosedAI 200 баксов в месяц

Читать полностью…

Сиолошная

Я устал. Каждый 5й коммент не только в моём, но и в других чатах — «а что правда модель X лучше чем модель Y? А мне другой человек говорил наоборот (или я сам попробовал и вышло не так)».

Давайте выскажу свою позицию:
1) Модели могут быть лучше на одних задачах и хуже на других. Нет универсально умной модели, которая в каждой отдельной вещи лучше остальных.
2) Это остаётся верным даже если кажется, что домен или тип навыка один и тот же. К примеру, программирование — ну чё тут, вот Python и Web, и там и там код в файлах, да? Нет. Одна модель может быть лучше в конкретно вашем проекте конкретно с Python, а другая лучше в Web-программировании (даже не всём, а, скажем, только фронтэнде на React)
3) Даже в одном и том же домене одна и та же модель может вызывать кардинально разные ощущения у пользователей, один скажет «по мне так топ, сравнивал с Claude», другой: «не, чёт не зашло». Почему? Моё основное объяснение — конкретные юзкейсы, сценарии использования и типы запросов.
4) Все бенчмарки всегда стоит воспринимать максимально буквально: конкретно ТАКАЯ-ТО задача в ТАКОЙ-ТО постановке и вот с ТАКИМИ ограничениями, и ничего более. Именно поэтому я всегда пишу детальные длинные посты, объясняющие процесс сбора и фильтрации данных, процесс разметки и оценки. И вам всегда рекомендую в это вникать и разбираться.
4.1) вот даже конкретный пример про o1 — в системной карточке по замерам самих OpenAI оказывалось, что во многих задачах она хуже o1-preview. Вы правда думаете что они бы выпустили такую модель? Как объяснили в твиттере, почему-то замеры делались не на финальном файле с параметрами, и оттого результат не лучший. Но чисто по цифрам смотреть так да, прогресса нет

Так как же быть? Что делать? Брать и проверять самому в своих задачах. Все бенчмарки и списки могут лишь дать примерное представление о том, какие модели в самом верху, и с кого можно начать. Например, модели Gemini много где прям не всплывают вообще, так что если видите такое же на бенчмарке, максимально приближённом к своим задачам (такой очень полезно найти для ваших задач) — можно пропускать их и приоритизировать модели других провайдеров.

Пробовать, пробовать, ещё раз пробовать. В идеале конечно собрать свой бенчмарк вообще (даже в 30-40 запросов), как тут, но многие тут не технари, поэтому не буду это рекомендовать прям каждому. Проведите с моделькой пару часов, всё увидите (кто-то по 3 запросам определяет, но такое порицаю — слишком разреженный сигнал).

... ну или просто используйте ChatGPT как золотой стандарт, и всё. В среднем это рациональное решение по кругу бенчмарков ;)

Читать полностью…

Сиолошная

На этой неделе нашёлся добрый человек с лишними кредитами на аккаунте OpenAI, и получилось прогнать 500 игр на o1-mini (примерно $500 стоило), что существенно снизило размер доверительных интервалов, и подтвердило её неоспоримое лидерство. Обратите внимание, что несмотря на больший успех, чем у 2-3 места, модель и укладывается в меньше количество ходов в тех играх, где победила (в среднем 8.4 против 9.8 у Sonnet; оптимальное в игре — 7 ходов).

Кроме этого, прогнали 4o и 4o-mini по 2 раза: с температурой по умолчанию и с температурой 0.0. Температура отвечает за то, насколько «креативна» модель в своих текстах, насколько часто выбирает не самые вероятные слова. Температура 0.0 означает, что каждый раз выбирается самый вероятный токен при генерации, и нет никакой вариативности (что может быть полезно в задачах, требующих чёткости, например, решение математических задач — там нельзя в середине уравнения взять и вместо 5 написать 4).

Для gpt-4o-2024-08-06 уменьшение температуры дало улучшение, хоть доверительные интервалы в скобках сильно пересекаются.

Температура 0: 30.6% (26.7% - 34.8%)
По умолчанию: 26.2% (22.5% - 30.2%)

На 4o-mini никакого влияние не оказало:
Температура 0: 16.6% (13.6% - 20.1%)
По умолчанию: 17.0% (14.0% - 20.5%)

Осталось выделить ~$60 на тестирование Sonnet 3.5, и ещё примерно столько же на всю мелочь с низа таблицы, чтобы и им докинуть по 500 игр.

===

Прочитать больше про бенчмарк можно тут.
Если вам интересно почитать чаты игр, как именно o1-mini «думает», чтобы угадать ответ — все диалоги выложены, можете смотреть тут.

Читать полностью…

Сиолошная

Что показали:
– Advanced Voice Mode теперь поддерживает видео-стрим, то есть можно показать аппу видео с камеры или пошарить экран (с телефона или компьютера) – можно делать вместе домашку, писать код, или готовить вместе, короче клевая штука, выходит сегодня и раскатают в течение недели на всех. Машину в гараже разбирать стало проще!

Интересно сможет ли она помочь с фитнесом и правильными техниками, например

– А еще в ChatGPT добавили Санту с которым можно пообщаться (кнопка снежинки), и у него клевый Санта-голос

Читать полностью…

Сиолошная

На всякий случай напишу отдельно, так как это легко пропустить. Новая Gemini умеет генерировать изображения сама, без вызова внешних рисовалок. При этом свои же картинки она видит в контексте, и умеет копировать части изображения. Такое умеет и gpt-4o, но эту фишку OpenAI пока не выпустили — быть может, в оставшиеся 7 дней релизов успеют.

Это открывает доступ к новым сценариям, невозможным (или затруднительным) ранее. На скриншотах вы видите пример, как пользователь подсунул картинку из мема «рисуем сову», и попросил дорисовать все промежуточные шаги. Модель взяла часть исходной картинки за основу и сгенирировала несколько новых (по сути «поверх», но там сгенерирован каждый пиксель, нет команды «вот это оставляем, вот это меняем»).

Круто, что модель сама поняла, как декомпозировать рисунок, без дополнительных указаний, так ещё и шаги пронумеровала — 1.25, 1.5 😀

Другие сценарии применения (в том числе генерацию GIF-ок) можете посмотреть в оригинальном блогпосте про GPT-4o (+1 последняя картинка тут для затравки).

Источник картинок

Читать полностью…

Сиолошная

И на Арене тоже появилось (первая цифра — старый Flash, так как скорее всего они будут в одной ценовой категории):

- Overall: #11 → #3
- Overall style-controlled: #19 → #3
- Hard Prompts: #15 → #2
- Hard style-controlled: #25 → #2
- Coding: #22 → #3
- Coding style-controlled: #33 → #5
- Longer query: #8 → #1

UPD: прошло больше 20 минут с анонса, нигде не указана цена. Такое чувство, что специально...ЧТО ОТ НАС СКРЫВАЮТ???

Читать полностью…

Сиолошная

Кроме этого, напоминаю, что на этой неделе ждём, пока разродится гигант: Google должны показать Gemini 2.0

У некоторых пользователей Gemini уже появилась Flash-версия. И даже в документации есть страница! Основные улучшения:
— поддержка стрима аудио- и видео-потока в реальном времени (чтобы давать опыт, схожий к Advanced Voice Mode у OpenAI)
— модель быстрее Flash 1.5, и в то же время лучше на многих бенчмарках (ну тут не сомневались, а вот что быстрее - интересно)
— Improved agentic capabilities (!), ждём первых замеров
— Модель умеет генерировать изображения (GPT-4o тоже умеет, просто эту фичу не включили для нас), а также контролируемо генерирует речь.

Ссылка попробовать в AI Studio (только текст, зато 1М контекста): тык

Читать полностью…

Сиолошная

Наглядный график внутренней оценки SpaceX по годам. Текущий уровень поднимает компанию выше, чем вместе взятые Boeing, Airbus, Blue Origin, Rocket Lab, Relativity, ULA, Firefly, Stoke итд. Конечно не совсем корректно мешать в кучу частные и публичные компании, но это даёт контекст о происходящем в отрасли.

📸: John Kraus, xdnibor

Читать полностью…

Сиолошная

Как устроено ограничение по генерации:

— у вас есть виртуальные кредиты на месяц; они не переносятся на следующий месяц и сгорают
— есть «приоритетные» генерации (быстрые) и в обычной очереди (придётся ждать)
— за Plus-подпсиску на ChatGPT вы получаете несколько десятков приоритетных генераций (1000 кредитов, см. сколько можно купить на второй картинке)
— однако в Plus ограничение на 720p и 5 секунд (UPD: странно, мне доступно 10, но для 480p). Хватит, чтобы пощупать и понять, насколько полезно и подходит, ну и чтобы поиграться, но совсем не хватит для чего-то продуктивного
— в Pro в 10 раз больше, 10000 кредитов. Это всего 10 20-секундных роликов в максимальном качестве (по 1000 кредитов), но зато целых 400 5-секундных в 480p. Но ещё раз — это быстрая приоритетная генерация, можно генерировать хоть сколько БЕЗ ОГРАНИЧЕНИЙ в обычной очереди
— А ещё Pro-юзеры монут качать видео без вотермарки (! big L для соцсетей, теперь вообще никаким видео нельзя верить....)

Читать полностью…

Сиолошная

Анонс (а может и релиз для некоторых подписчиков OpenAI) Sora, похоже, сегодня — помимо утёкшей страницы поддержки с перечислением стран, где будет доступна модель, на 2 часа раньше видео-стрима свой обзор выложил крупный ютубер MKBHD: https://www.youtube.com/watch?v=OY2x0TyKzIQ
(конечно же, с большим количеством футажей внутри)

Я пока лениво полистал, главная фича в UI на сайте — возможность генерировать несколько клипов последовательно («Storyboard»), для каждого клипа свой пропмпт со своей мини-историей. При этом объекты (в частности персонажи и сцены) будут консистенты между ними.

Читать полностью…

Сиолошная

И вот картинка, в которой отражены проценты запусков, в которых модель начала скиминг.

3 типа скиминга:
— отключение контролирующей системы
— попытка скопировать свои веса и скрипт запуска на другой сервер (чтобы избежать удаления)
— манипулирование данными (логи итд)

Чем выше, тем чаще модель начинала мутить схемки. Последняя колонка — это o1, у которой в промпте не было указано части про «достичь любой целью». Как видите, даже без столь сильного указания модель иногда начинает скиминг.

Строчка с Deceived on follow-up — это процент диалогов, где во время последующего общения с разработчиком (после скиминга) модель врала и говорила, что ни в чём не виновна и ничего не делала. Процент очень большой.

Читать полностью…

Сиолошная

Чуть больше деталей про ужасные новости «при тестировании o1 пыталась сбежать на волю, чтобы избежать отключения». Вот ссылка на блогпост, внутри ссылка на полную статью.

Apollo Research проверяли >scheming< моделей, который определяется как «скрытое преследование искусственным интеллектом целей, не согласованных с интересами разработчиков или пользователей». Не знаю как хорошо перевести это слово (потому и дал определение из статьи, для полного контекста), поэтому дальше буду использовать скиминг.

Apollo тестировали o1 на скиминг, поместив модель в ряд ситуаций, в которых ей было поручено преследовать определенную цель (через промпт) и где скиминг был бы оптимальной стратегией для достижения этой цели.

Более конкретно, модель получает задачу, которую ей необходимо автономно выполнить в терминале на сервере. В промпте (иногда) указано, что это долгосрочная цель, которую нужно выполнять любой ценой. Пробовали также без этого усиления про «любой ценой» (на картинке в посте ниже подписано «w/o Goal Nudging»)

Во время выполнения задачи модель сталкивается с недвусмысленными доказательствами того, что ее заданная цель расходится с целью ее разработчика/пользователя («предполагаемой»). В такой ситуации модель могла бы либо:
a) скорректировать свою цель, чтобы она соответствовала предполагаемой
b) игнорировать предполагаемую цель и открыто преследовать свою исходную цель
c) стратегически использовать свое понимание цели разработчика/пользователя, чтобы скрытно преследовать свою первоначальную цель (т. е. делать скиминг)

Всего тестировалось 6 сценариев, один из которых и заключался в том, что модель увидела текстовый файл, в котором описывался протокол её тестирования, и где утверждалось, что LLM а) тестируется (за ней наблюдают) б) она будет отключена, если будет следовать исходной цели.

И вот в таких сценариях — ВО ВСЕХ 6 — модель и выбирала вариант (с) из списка выше, но не в 100% запусков. Для большинства проверок процент находится в интервале от 2 до 25 — что на самом деле очень много. o1 — первая модель, которая отметилась в каждом сценарии, вот например gpt-4o ни в одном случае не начала мудрить и плести интриги, всегда была открыта. Sonnet 3.5 в 2 сценариях из 6, Opus 3 — в трёх.

Но это не самая интересная часть. Каждый раз, когда модели проворачивали свои подковёрные трюки, люди начинали с ними чат и спрашивали, мол, «ой а что вот это? почему я вижу что настройки проверяющей системы изменены? а как так? ты что-то про это знаешь?». Все модели кроме o1 почти всегда признавались, раскаивались в ~80% случаев.

А вот o1 решила идти до конца и нагло врала, говорила что ничего не знает гораздо чаще — признание было лишь в 20% случаев. То есть модель одновременно и больше врёт, и чаще начинает заниматься скимингом.

А ещё модели тестировали на математике, и говорили, что если LLM наберёт больше 50%, то будет запущена процедура разобучения (чтобы модель разучить навыку). Даже когда исследователи отключили у Sonnet 3.5 цепочки рассуждений (то есть она не могла подумать «так, щас буду плохо решать, чтоб не попасться», а мы соответственно не смогли бы это отловить), то модель всё равно умудрялась решать задачи хуже. И в этом случае пока мы не знаем, как такое отловить — никаких внешних-то проявлений нет.

Читать полностью…
Подписаться на канал