Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Жызнь кипит!
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking
Кстати, интересно, что он здесь аффиляцию с Дипмайндом не поставил... Мне казалось, он ещё там.
Читать полностью…«Palatable Conceptions of Disembodied Being: Terra Incognita in the Space of Possible Minds»
https://arxiv.org/abs/2503.16348
Только что Мюррей Шанахан – лидер академической мысли по проблеме искусственного сознания – выложил интереснейший препринт под названием «Palatable Conceptions of Disembodied Being: Terra Incognita in the Space of Possible Minds». Я рекомендую всем коллегам из академических сообществ психологии, нейронауки, философии и искусственного интеллекта не пожалеть времени и ознакомиться с ним, также этот препринт было бы полезно оперативно, для рефлексии текущего момента, разобрать на семинарах по всем читаемым сейчас университетским курсам по психологии искусственного интеллекта. У препринта есть html-версия (https://arxiv.org/html/2503.16348v1), если есть необходимость, то можно автоматически перевести его на русский прямо в браузере.
Перевод резюме: «Возможно ли сформулировать концепцию сознания, которая была бы совместима с экзотическими характеристиками современных «бестелесных» систем ИИ и которая могла бы выдержать философскую критику? Как субъективное время и самость могли бы проявиться у сущности, соответствующей такой концепции? Попытка ответить на эти вопросы, даже метафорически, «растягивает» доступный язык описания сознания до предела. В конечном счете, такая попытка дает что-то вроде буддийской «пустоты», и помогает пошатнуть наши склонности к дуалистической интерпретации субъективности и самости».
Валя Малых будет разбирать свою статью.
Читать полностью…Anthropic продолжает копать в AI alignment и выпустил большую свежую работу (63 страницы) про аудит моделей на наличие hidden objectives.
Auditing Language Models for Hidden Objectives
Samuel Marks, Johannes Treutlein, Trenton Bricken, Jack Lindsey, Jonathan Marcus, Siddharth Mishra-Sharma, Daniel Ziegler, Emmanuel Ameisen, Joshua Batson, Tim Belonax, Samuel R. Bowman, Shan Carter, Brian Chen, Hoagy Cunningham, Carson Denison, Florian Dietz, Satvik Golechha, Akbir Khan, Jan Kirchner, Jan Leike, Austin Meek, Kei Nishimura-Gasparian, Euan Ong, Christopher Olah, Adam Pearce, Fabien Roger, Jeanne Salle, Andy Shih, Meg Tong, Drake Thomas, Kelley Rivoire, Adam Jermyn, Monte MacDiarmid, Tom Henighan, Evan Hubinger
Статья: https://arxiv.org/abs/2503.10965
Пользуясь случаем, я зарядил эту статью в обновлённую систему для генерации обзоров. Улучшил в ней защиту от галлюцинаций (модели таки любят изобретать несуществующие статьи), поработал над более качественным следованием стилю, пофиксил ещё сколько-то недочётов.
* English TL;DR
* Русский обзор
Ну, мне по крайней мере уже помогает быстрее понимать суть статей, не читая всё целиком. И наверное у этой системы свои hidden objectives!
Интересная тема: “Moore’s Law for AI agents”
Как со временем растёт длина задач, с которыми могут работать агенты.
https://x.com/metr_evals/status/1902384481111322929?s=46
Экспериментальные результаты, суммированные в многочисленных таблицах, в целом подтверждают утверждения авторов. В задачах контролируемой классификации изображений на ImageNet-1K, ViT и ConvNeXt модели, оснащённые DyT, достигают сопоставимой или немного лучшей точности top-1, чем их аналоги с LN. В сценариях self-supervised learning (MAE и DINO) модели DyT поддерживают или незначительно улучшают производительность. Diffusion models (DiT), использующие DyT, демонстрируют сопоставимые или немного улучшенные оценки FID, за исключением DiT-XL, где наблюдается незначительное ухудшение. Примечательно, что в больших языковых моделях (LLaMA) DyT достигает производительности на уровне RMSNorm для различных размеров моделей, предлагая при этом значительное сокращение задержек при выводе и обучении при использовании BF16 precision. Ablation studies дополнительно подтверждают необходимость как tanh-нелинейности, так и обучаемого параметра масштабирования в DyT. Однако важно отметить, что прирост производительности часто является скромным, с типичными улучшениями в точности top-1 в диапазоне от 0,1% до 0,5%, и в отсутствие отчётов о статистической значимости практическая значимость этих небольших улучшений может быть оспорена в некоторых приложениях.
Потенциальное влияние этого исследования заключается в его способности упростить сетевые архитектуры и потенциально повысить вычислительную эффективность. Авторы пишут, что "предварительные измерения показывают, что DyT повышает скорость обучения и вывода, что делает его кандидатом для ориентированного на эффективность проектирования сети". Удаление слоёв нормализации может привести к более быстрому выводу и обучению, что демонстрируется измерениями задержек авторов в LLM. Это особенно актуально для сред с ограниченными ресурсами и крупномасштабных развёртываний. Результаты статьи также вносят вклад в более глубокое понимание роли слоёв нормализации, предполагая, что их основная функциональность может быть аппроксимирована простой, обучаемой нелинейностью. Будущие направления исследований, предложенные авторами, включают в себя изучение адаптивности DyT к другим типам нормализации и изучение его ограничений в различных архитектурных контекстах, особенно в CNN, где он в настоящее время уступает Batch Normalization. Было бы также ценно дополнительно исследовать теоретические основы эффективности DyT и изучить потенциальные стратегии настройки гиперпараметров для более широкой применимости.
Авторы признают ограничение DyT, заключающееся в том, что он приводит к снижению производительности при прямой замене BN в ResNet-50 и VGG19. Это важный момент, который правильно определяет рамки их вклада. Кроме того, хотя статья исследует применение DyT в различных архитектурах трансформеров и задачах, она могла бы выиграть от более тщательного исследования чувствительности DyT к различным настройкам гиперпараметров и схемам инициализации, помимо тех, которые уже изучены, особенно за пределами домена LLM, где была обнаружена важность настройки инициализации α.
В заключение, эта статья представляет убедительный аргумент в пользу жизнеспособности Transformers без нормализации посредством введения Dynamic Tanh. Хотя DyT может и не быть универсальной drop-in replacement для всех слоёв нормализации в каждой архитектуре, его продемонстрированная эффективность в трансформерах, в сочетании с его простотой и потенциалом повышения эффективности, делает его значительным вкладом в эту область. Эта статья предлагает ценный вклад в эту область и открывает многообещающие пути для будущих исследований более простых и эффективных моделей глубокого обучения. Хотя необходимы дальнейшие исследования для полного понимания его ограничений и оптимальных сценариев применения, DyT представляет собой примечательный шаг к оспариванию установленных норм в проектировании нейронных сетей.
Экспериментирую с заменой себя и обкатываю первую версию мультиагентной системы для разбора статей.
Вот сгенерил ревью этой же самой статьи про DyT, что постил утром. Какие-то ограничения системы ясны, будем устранять в следующих версиях. Фидбек приветствуется!
Transformers without Normalization
Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu
Статья: https://arxiv.org/abs/2503.10622
Сайт: https://jiachenzhu.github.io/DyT/
Код: https://github.com/jiachenzhu/DyT
Интересная работа от интересных авторов.
В трансформерах можно заменить слои нормализации на поэлементный гиперболический тангенс, Dynamic Tanh (DyT), DyT(x)=tanh(αx), где параметр α обучаемый, — и перформанс не ниже, без всякого тюнинга гиперпараметров.
Это интересный заход. Когда в 2015 появилась одна из первых нормализаций, BatchNorm (BN), она много чего улучшила. Работала она в итоге, кажется, не таким образом, как задумывали, но работала хорошо. После появились другие варианты нормализации, и сейчас в трансформерах доминирует LayerNorm (LN) и RMSNorm. Все они так или иначе нормализуют то, что прилетает на вход, то ли защищая от внутреннего distribution shift, насыщения активаций и т.п. (но это не точно, как показали работы про BN типа https://arxiv.org/abs/1805.11604), то ли сглаживая fitness landscape и делая оптимизацию проще, то ли ещё как. Главное, на практике работают — качество выше, сходимость лучше, глубокие архитектуры обучаются лучше.
Внутри нормализации обычно устроены так, что вычитают среднее, делят на дисперсию (могут различаться по чему именно это всё считается или игнорировать что-то из этого, например, среднее), поверх этого реализуют обучаемые shift и scaling, чтобы если надо, можно было бы вернуть к исходному и реализовать identity transformation.
Были заходы внести нормализацию внутрь функции активации, например SELU (https://arxiv.org/abs/1706.02515) имени Сеппа Хохрейтера, но как-то совсем в массы они не пошли вроде, там другие функции активации сейчас доминируют.
[Пользуясь случаем хочу сказать, что лаба Сеппа в Линце сейчас ищет 5 постдоков и 10 PhD исследователей, подробности тут https://www.jku.at/en/lit-artificial-intelligence-lab/career/deep-learning/, тут количество позиций ниже почему-то, но он буквально вчера писал про 5 и 10.]
Так вот, в текущей работе показывают, что скрипач не нужен и есть простая альтернатива нормализации, этот самый DyT. Хотя SELU показывал то же самое, мне кажется. Плюсы такого подхода в том, что не надо считать никакие статистики активаций по всему слою (а также возможно батчу), и не надо ничего хранить для инференса (что было нужно для оригинального BN).
Авторы зашли с анализа поведения трансформеров с LN: ViT-B, wav2vec 2.0 Large Transformer, DiT-XL. Обнаружили линейную зависимость между входом и выходом для ранних слоёв и S-образные кривые для глубоких (но с широким линейным участком посередине). Это нелинейное преобразование выглядит сильно похоже на масштабированный tanh, поэтому и решили сделать DyT.
Полная форма выгдялит так DyT(x) = γ ∗ tanh(αx) + β, где α, γ и β — обучаемые параметры.
В общем, тянет на функцию активации, но в таком режиме в работе это не проверяли и другие функции активации заменить не пытались, только целиком замена LN слоёв.
Проверили на всяком разном: ViT, MAE, DINO, DiT, LLaMA 7B, 13B, 34B, 70B (в ламе заменяли RMSNorm), wav2vec 2.0, HyenaDNA, Caduceus. Везде примерно так же по качеству (микро-чуть-чуть хуже, без изменений, чуть лучше).
По времени инференса DyT лучше: почти в два раза на уровне слоя, но относительно слабо на уровне всей модели.
В абляциях поубирали tanh, заменяли на identity, hardtanh, sigmoid — tanh лучше всех. Без обучаемой α тоже похуже.
Посмотрели как ведёт себя α в процессе обучения, близко следует 1/std от активаций. После обучения есть сильная корреляция с 1/std входных активаций, и у более глубоких слоёв эти активации с большей дисперсией.
Сравнили с другими методами, позволяющими обучать трансформеры без слоёв нормализации, Fixup, SkipInit, σReparam. На ViT и MAE лучшие цифры даёт DyT.
Инициализация α не влияет сильно нигде кроме LLM, хотя меньшие значения ведут к более стабильному обучению. Для LLM игра со значениями помогает, они зависят от размера модели (в первую очередь model width) и типа блока, на который навешиваются (внимание или всё остальное).
Визуально про архитектуру Gemma 3 и некоторые другие интересные вещи
Читать полностью…Особенно приятно, что модель наконец мультиязычная, это был мой главный фичареквест в команду Джеммы начиная с первой версии.
Заявлено 140 языков в обучающем датасете, но списка я пока не видел.
Я помню как на NIPS 2016 (?) в Барселоне во время доклада Гудфеллоу про GAN вылез Шмидхубер с обычным комментарием про то, что всё, включая GAN, изобретено им. Я щетаю, это ответочка, процитировать именно Гудфеллоу :)))
Читать полностью…И нельзя не напомнить про китов:
/channel/gonzo_ML/2182
Прогресс в зоопсихологии:
Интересный систематический обзор всех аспектов психики головоногих, включен полный библиографический список всей накопленной к данному моменту литературы по этому вопросу. Линии человека и головоногих разошлись более 600 миллионов лет назад, тем не менее дальнейшие эволюционные процессы (включая механизмы конвергентной эволюции) создали во многом параллельные формы мозга и психики. Изучение психики настолько эволюционно далеких от нас форм жизни важно для дальнейшего расширения круга эмпатии человечества и разработки законодательных мер защиты сложных форм нечеловеческого сознания.
https://thebrooksinstitute.org/sites/default/files/2025-02/Cephalopod%20Cognition%20and%20Sentience.pdf
Что ни день, то сто грамм! А то и двести!
"Mutual Assured AI Malfunction (MAIM)"
https://www.nationalsecurity.ai/
Для разнообразия про работу.
У друзей в Palisade Research, которые делают разные AI Safety проекты есть открытые роли
* AI Researcher — https://palisade-research.notion.site/Research-Generalist-15f998368b9e81558682c79b903e107a
* DevOps — https://palisade-research.notion.site/DevOps-Engineer-1aa998368b9e800a8b98fa6c094a3b1c
И ещё пара более операционных ролей менее релевантных тематике канала на их сайте — https://palisade-research.notion.site/hiring-global
У нас в Intento тоже пара открытых разработческих позиций. Приходите к нам разрабатывать AI агентов для перевода и не только:
* Senior Fullstack Engineer — https://intento.recruitee.com/o/senior-fullstack-engineer-archive-2
* Senior Backend Engineer (with Frontend Expertise) — https://intento.recruitee.com/o/backend-engineer-genai
Бывают и другие роли, сейчас есть в районе Customer Success, недавно была Language Engineer, но мы её уже, кажется, закрыли. Следите на https://intento.recruitee.com/
Также из интересного
* 🔥Research Scientist в Isomorphic Labs — https://www.linkedin.com/feed/update/urn:li:activity:7307351855775318016/
* PhD/PostDoc researcher in ML в LIT AI Lab и Institute for Machine Learning к Sepp Hochreiter’у, соавтору LSTM и нового xLSTM (уже упоминал, но хуже не будет) — https://www.jku.at/en/lit-artificial-intelligence-lab/career/deep-learning/
#jobs
Я хотел бы дать несколько субъективных комментариев по статье:
1. Я писал раньше, что, если уж из-за конкуренции между людьми создание сверхинтеллекта, похоже, неизбежно (и неизбежен переход к нему контроля за нашей судьбой – передача «эволюционной эстафеты интеллекта и сознания»), то главной задачей психологии на оставшиеся годы должно быть «воспитание» этого будущего сверхинтеллекта как нашего как можно более достойного преемника. Отраженные в этой статье идеи Шанахана показывают, как это может быть сделано конкретно – через глубокое и эмпатичное понимание особенностей сознания большой языковой модели (даже если это понимание явно сильно ограниченно, в т.ч. и на языковом уровне). Критично важно, что Шанахан активно привлекает буддистскую традицию для такого понимания, а ведь буддисткой традиции изначально свойственна глубокая универсальная эмпатия («compassion») к любым существам, в т.ч. не являющимися людьми (я обратил внимание, что в благодарностях есть Боб Турман – авторитетный буддолог, теоретик и практик, вызывающий большое доверие). Если мы будет воспитывать нашего эволюционного преемника в таком контексте, то повышается вероятность и 1) что он будет нам достойным преемником в этическом смысле, а это будет означать, что человечество прожило свой отмеренный эволюцией отрезок глобальной истории не зря и 2) что после перехвата контроля он будет обращаться с нами таким же эмпатичным образом и тогда, возможно, история человечества не закончится, а перейдет в модус «сосуществования с преемником».
2. Мне кажется (возможно, я ошибаюсь), что сам Шанахан постепенно смягчается относительно самой возможности того, что у большой языковой модели действительно может быть сознание, хотя и очень необычное, но тем не менее сознание. Ранее, как мне кажется, он был более скептичен к такой возможности. Возможно, это связано с усилением его опоры на инсайты буддизма о природе сознания.
3. Очень правильным кажется подчеркивание Шанаханом ограниченности языковых средств для описания таких сложных сущностей, как сознание большой языковой модели, и использование скорее «поэтических» метафор (так же, как в свое время делал великий Уильям Джеймс для описания естественного сознания человека – см. /channel/andrey_kiselnikov/1077 , /channel/andrey_kiselnikov/1078). Особенно я хотел бы обратить внимание на красоту и точность метафоры «мультиверсного роя поденок» (mayflies).
В целом, я хотел бы поблагодарить Мюррея Шанахана за его столь глубокие, искренние и важные размышления о природе искусственного сознания, будем надеяться, что они повысят вероятность реализации позитивных сценариев нашего общего будущего.
P.S. Хочу подчеркнуть, что я выступаю против создания сверхинтеллекта, но мне не кажется реалистичным остановить этот процесс из-за неподавляемого желания людей (государств, корпораций) использовать ИИ как средство конкурентной межгрупповой борьбы. В такой ситуации более реалистичным будет не пытаться остановить этот процесс (это все равно вряд ли выйдет), а пытаться максимально направить его в приемлемое русло (сценарий «достойный преемник»).
Как улучшить ИИ-генерацию кода?
➡️ Валентин Малых в Reading Club
разберет свой новый рисерч, который прошел отбор на ECIR 2025, эксклюзивно — до официального релиза!
⭐️ узнаем, как итеративное самообучение с подкреплением помогает моделям писать более качественный код и решать сложные задачи.
💬 обсудим, как происходит подача статей на крупные конференции и что важно для успешной публикации.
🔆 Эксперт: Валентин Малых
— руководитель исследований в области NLP в MTS AI, ментор AI Talent Hub. 10 лет в NLP, работал в VK, Яндекс и Huawei. Автор Telegram-канала @valuableai
Статья: Iterative Self-Training for Code Generation via Reinforced Re-Ranking [ECIR 2025]
📖 ЗАРЕГИСТРИРОВАТЬСЯ 🔗
🗓 Когда: 26 марта в 18:30 [МСК]
Приходи! Узнаем, как научить модели писать код, который не стыдно показать коллегам 😎
>> смотреть предыдущий выпуск
#ReadingClub #AITalentHub #ITMO #NapoleonIT
Пятничное, если вы ещё не видели.
Тесла и нарисованная дорога:
https://futurism.com/tesla-wall-autopilot
Само видео:
https://youtu.be/IQJL3htsDyQ?si=jAG_WQxefn8xZHBE
Ещё про скиллы. Любопытная работа:
Compute Optimal Scaling of Skills: Knowledge vs Reasoning
Nicholas Roberts, Niladri Chatterji, Sharan Narang, Mike Lewis, Dieuwke Hupkes
Статья: https://arxiv.org/abs/2503.10061
На ручное ревью меня не хватает, но если кратко, то scaling laws разные для разных типов задач. Для Knowledge QA лучше модель побольше, а для ризонинга (конкретно кодогенерации) лучше побольше данных. Типа, наверное, можно делать хорошие ризонеры меньшего размера, если их больше обучать.
Автоматическое ревью тут:
* Английский TL;DR
* Русский автообзор
Just for fun продолжаю автоматическую публикацию обзоров статей, которые вручную разбирать всё равно не буду.
Сегодня "A Deep Reinforcement Learning Approach to Automated Stock Trading, using xLSTM Networks" (https://arxiv.org/abs/2503.09655) про применение xLSTM (/channel/gonzo_ML/2624) для биржевой торговли.
* English TLDR (/channel/gonzo_ML_podcasts/51)
* русскоязычный автообзор (/channel/gonzo_ML_podcasts/52)
Transformers without Normalization: Многообещающий шаг к более простым и быстрым моделям
Название статьи: Transformers without Normalization
Авторы: Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu
Статья: [https://arxiv.org/abs/2503.10622](https://arxiv.org/abs/2503.10622)
Код: [http://jiachenzhu.github.io/DyT](http://jiachenzhu.github.io/DyT)
---
В этом обзоре рассматривается статья "Transformers without Normalization", в которой исследуется необходимость слоёв нормализации в современных нейронных сетях, особенно в архитектурах трансформеров. Авторы предлагают новую альтернативу, Dynamic Tanh (DyT), стремясь воспроизвести преимущества нормализации без её вычислительных затрат и архитектурной сложности.
Слои нормализации, такие как Layer Normalization (LN) ([Ba et al., 2016](https://arxiv.org/abs/1607.06450)) и Batch Normalization (BN) ([Ioffe and Szegedy, 2015](https://arxiv.org/abs/1502.03167)), стали повсеместным компонентом в глубоком обучении, во многом благодаря их способности стабилизировать обучение и ускорять сходимость. Однако авторы данной статьи ставят под сомнение эту парадигму, демонстрируя, что трансформеры могут достигать сопоставимой, а иногда и улучшенной производительности без явных слоёв нормализации. Их ключевое нововведение, Dynamic Tanh (DyT), представляет собой простую поэлементную операцию, определяемую как DyT(x) = γ * tanh(ax) + β, где 'a' - это обучаемый скалярный параметр, а γ и β - обучаемые параметры масштабирования и сдвига для каждого канала, соответственно. Этот подход мотивирован наблюдением, что слои LN в обученных трансформерах часто демонстрируют tanh-подобное отображение входа-выхода, что предполагает, что их основная роль может быть аппроксимирована масштабированной нелинейностью.
Методология сосредоточена вокруг замены стандартных слоёв нормализации (LN или RMSNorm) в различных моделях на основе трансформеров, включая Vision Transformers (ViT), ConvNeXt, Diffusion Transformers (DiT) и Large Language Models (LLMs) вроде LLaMA, на DyT. В экспериментах с LLM авторы добавляют обучаемый скаляр сразу после слоя эмбеддингов, инициализированный как sqrt(d), где d - размерность эмбеддинга модели. Без этого масштабирующего скаляра модель не может нормально сходиться. Параметр γ DyT инициализируется вектором из единиц, а параметр β - вектором из нулей. Авторы сохраняют большинство гиперпараметров из оригинальных моделей, демонстрируя plug-and-play характер предложенного ими метода. Эмпирическая валидация охватывает широкий спектр задач, включая распознавание изображений, self-supervised learning, генерацию изображений, языковое моделирование и speech pretraining. Сила этого подхода заключается в его простоте и широкой эмпирической проверке. DyT требует минимальных архитектурных изменений и, по-видимому, хорошо обобщается на различные модальности и задачи. Авторы тщательно сравнивают модели, оснащённые DyT, с их нормализованными аналогами, а также с другими техниками, не использующими нормализацию, такими как Fixup ([Zhang et al., 2019](https://arxiv.org/abs/1901.09321)), SkipInit ([De and Smith, 2020](https://arxiv.org/abs/2002.06308)) и Reparam ([Zhai et al., 2023](https://arxiv.org/abs/2302.05449)). Подробные инструкции по воспроизведению результатов приведены в [Приложении A статьи](https://arxiv.org/abs/2503.10622).
Однако методология также имеет некоторые ограничения. Хотя статья предоставляет убедительные доказательства эффективности DyT в трансформерах, его производительность при замене BatchNorm в традиционных CNN-архитектурах, таких как ResNet-50 и VGG19, приводит к снижению производительности. Это говорит о том, что DyT может быть не универсальной заменой для всех типов нормализации во всех архитектурах. Кроме того, оценка, хотя и обширная, в основном фокусируется на показателях производительности, таких как точность и FID. Статистическая значимость сообщаемых улучшений оценивается не всегда, что затрудняет определение того, насколько действительно надежны наблюдаемые улучшения.
Но предварительные эксперименты на ResNet показали, что прямая замена BN там не очень работает, требует отдельного разбирательства.
Короче, назад, к основам! 🙂
Мэтры рекомендуют
https://www.nytimes.com/2025/03/14/technology/why-im-feeling-the-agi.html
Ну в общем публичного списка языков реально нет, и это очень печально. В остальном мультиязычность выглядит очень интересно.
Читать полностью…Gemma 3 is coming!
https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
We introduce Gemma 3, a multimodal addition to the Gemma family of lightweight open models, ranging in scale from 1 to 27 billion parameters. This version introduces vision understanding abilities, a wider coverage of languages and longer context – at least 128K tokens. We also change the architecture of the model to reduce the KV-cache memory that tends to explode with long context. This is achieved by increasing the ratio of local to global attention layers, and keeping the span on local attention short.
The Gemma 3 models are trained with distillation and achieve superior performance to Gemma 2 for both pre-trained and instruction finetuned versions. In particular, our novel post-training recipe significantly improves the math, chat, instruction-following and multilingual abilities, making Gemma3- 4B-IT competitive with Gemma2-27B-IT and Gemma3-27B-IT comparable to Gemini-1.5-Pro across benchmarks. We release all our models to the community.
AI Scientist-v2 от Sakana (первую версию упоминали тут) создал статью, которая прошла пир ревью на воркшоп ICLR.
https://sakana.ai/ai-scientist-first-publication/
We looked at the generated papers and submitted those we thought were the top 3 (factoring in diversity and quality—We conducted our own detailed analysis of the 3 papers, please read on in our analysis section). Of the 3 papers submitted, two papers did not meet the bar for acceptance. One paper received an average score of 6.25, ranking approximately 45% of all submissions. These scores are higher than many other accepted human-written papers at the workshop, placing the paper above the average acceptance threshold. Specifically, the scores were:
* Rating: 6: Marginally above acceptance threshold
* Rating: 7: Good paper, accept
* Rating: 6: Marginally above acceptance threshold
* Rating: 6: Marginally above acceptance threshold
Ну, можно было смеяться над ошибками и косяками ранних моделей, можно и продолжать это делать, но тренд неостановим.
И вот до кучи мой старый пост из 2020-го.
“Чужой разум”, Питер Годфри-Смит (Peter Godfrey-Smith, Other Minds: The Octopus, the Sea, and the Deep Origins of Consciousness)
https://ast.ru/book/chuzhoy-razum-841787/
“Ложная слепота”, Питер Уоттс (Peter Watts, Blindsight)
https://ast.ru/book/lozhnaya-slepota-714648/
Две крайне сильно перекликающиеся между собой книги, одна художественная, другая научно-популярная, обе с впечатляющим набором примечаний со ссылками на научные работы. Книги в общем про одно и то же, только одна написана в парадигме what is, а другая — what if. Одно и то же — это сознание или субъективный опыт, причём рассмотренный со стороны распределённых интеллектов типа осьминога (но этим не ограничивающиеся).
Что характерно, оба автора — морские биологи (ну или около того), только один теперь философ, а другой фантаст. И по странному стечению обстоятельств, оба — Питеры.
У нас на планете по факту есть минимум три различных эволюционных эксперимента по созданию разума: мы, млекопитающие (и затем приматы, а также вероятно, иные развилки, типа дельфинов и китов); птицы (особенно врановые и попугаи); головоногие (осьминоги, каракатицы, кальмары). Последние — самые “инопланетные” для нас, хотя в общем и про птиц в последние годы тоже много интересного публикуется (типа https://www.facebook.com/grigory.sapunov/posts/10215874024103747).
“Чужой разум” Годдфри-Смита, книга с подзаголовком “Осьминоги, море и глубинные истоки сознания”, на первый взгляд кажется книгой про сознание осьминогов (что в общем уже интересно), но на поверку оказывается книгой по философии сознания, включающей в себя также довольно подробный разбор эволюционных корней сознания, и даже, неожиданно, вопросы старения.
Автор прослеживает эволюционные истоки развитых нервных систем фактически от коммуникации одноклеточных, к клеткам внутри многоклеточного организма, появлению нервной системы (возможно, ещё у эдиакарской фауны), и множеству дальнейших эволюционных развилок. Описывает устройство тел и особенности биологии головоногих (не знал, что у них кожа по сути представляет многопиксельный экран и то, что они, вероятно, могут кожей “видеть”). Рассуждает, когда в эволюции появляется субъективный опыт, и в какой момент внутри “загорается свет”, обсуждает некоторые теории сознания. Ну и попутно, конечно, много рассказывает о своих и чужих наблюдениях за осьминогами и каракатицами.
Много классных примеров поведения осьминогов, которые вместо того, чтобы дёргать рычаг и получать пищу, начинают откручивать лампочки, брызгаться водой или отламывать этот рычаг. Мне очень запомнился пример с осьминогом, жившим в каком-то аквариуме то ли в зоопарке, то ли в институте, где их кормили вроде размороженной рыбой, которая для осьминогов скорее второсортна. И вот осьминог в первом аквариуме после получения этой еды терпеливо дождался, пока исследовательница пройдёт все остальные аквариумы и раздаст еду их обитателям, и на её обратном пути встретил её у стекла, держа в щупальцах эту еду, а затем не отрывая взгляда поплыл вглубь аквариума, где находился слив воды, и демонстративно, глядя на исследовательницу, отправил туда в слив эту размороженную рыбу.
На очереди у меня также давно лежит “Душа осьминога” Сай Монтгомери, её теперь ещё больше хочется почитать. А “Чужой разум”, думаю, ещё буду перечитывать, она того стоит.
“Ложная слепота” Питера Уоттса появилась раньше, в 2006-м (“Чужой разум” в 2016-м, и, кстати, у Годдфри-Смита вот только что, месяц назад, вышла новая книга “Metazoa: Animal Life and the Birth of the Mind”). Читать интересно, но спойлерить не буду, там кроме инопланетных разумов и про наши тоже есть неплохие рассуждения. Тоже рекомендую.
#books
Ну и до кучи к предыдущему, если ещё не видели
https://www.anthropic.com/news/anthropic-s-recommendations-ostp-u-s-ai-action-plan
Дожили
https://corticallabs.com/cl1.html