rybolos_channel | Неотсортированное

Telegram-канал rybolos_channel - Kali Novskaya

17242

Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4

Подписаться на канал

Kali Novskaya

🌸Вкатываемся в FAANG: реальные советы🌸

На прошлой неделе исполнился год, как я менеджер команды в Llama. За этот год мне удалось поработать с удивительно талантливыми людьми, и меня не сократили и не уволили, так что будем считать это успехом. Можете считать меня авторитетом в карьерном вопросе (или нет).

Я уже писала несколько постов про собеседования в FAANG (вот и вот), и хочется продолжить серию постами, а что собственно делать потом.

Сейчас будут софт-скилл советы о том, как вам быстро въехать на коне в новую роль — особенно если вы мидл+.

🌸1:1 и новый нетворк

Постарайтесь вытянуть на кофе и занетворкать с максимальным количеством человек. Сюда входят люди внутри вашей организации на такой же позиции, как у вас, а также техлиды, ключевые люди в принятии решений, которым в организации доверяют, и просто некоторый процент случайной выборки, чтобы лучше познакомиться. С некоторыми из них сделайте встречи регулярными (раз в месяц, раз в 2 недели), чтобы абсорбировать побольше релевантной информации о проектах. Нужно также знать меру в "деловом общении", лучше подходить к 1:1 с некоторым списком подготовленных к обсуждению вопросов, но при этом быть собой, подружиться с теми, с кем получится. Не надо сплетничать или обсуждать других людей на таких встречах.

🌸Побольше старайтесь

Очевидный совет? Напротив, вижу очень много вредных советов по типу "не старайтесь много сразу, а то начальство привыкнет и будет ожидать такого все время". Вы вполне реально соревнуетесь с коллегами в такой же роли как у вас. В компании, где есть калибровки/ stack ranking, всегда лучше, чтобы люди видели, что вы на шаг впереди. Что вам можно поручить что-то ответственное — и вы не проебете, что вы приходите, когда вас приглашают. Что вы подготовились к встрече и пришли с повесткой. Что вы заранее обсудили ключевые вопросы с участниками перед встречей и способны "договорить" между собой команды, техлидов. Все эти вещи не требуют онбординга, вы и так должны их уметь, когда приходите в новую компанию, поэтому их сразу можно начать делать хорошо.

🌸Первые победы

Попробуйте придумать небольшую победу, которую вы одержите на новом месте быстро. В течение первых недель. Победа может быть пофикшенным багом, оптимизацией, удачным экспериментом по наболевшей теме — и в идеале должна соответствовать вашему левелу, дать позитивный сигнал о вашем найме. (Описания левелов/грейдов можно найти в этом блоге).
Если ничего сразу не придумывается, то хотя бы просто проявите инициативу и возьмите на себя таску, проект, который остальные не хотят брать. И обязательно сделайте ее канонично хорошо!

🌸План на 6 месяцев

Желательно вести и заверить с руководством письменный план ожидаемых от вас результатов и как они будут измеряться, а также примерный бейзлайн. Ваша работа, как напрямую, так и косвенно, должна делать работу вашего руководителя проще. Обязательно через первые 3 месяца устройте сессию с разбором предварительных результатов и запросите обратную связь. Вы удивитесь, как много вам расскажут!

🌸Радость быть замеченным

Вы несёте ответственность за вашу visibility, проще говоря, что ваш проект получает достаточно регулярного внимания руководства и смежных команд — имейлами, постами, документами, встречами. Если вы сеньор, то раз полгода у вас может быть 1-1 с руководителем вашего руководителя. Приносите с собой хорошие новости и предложения (согласованные с вашим менеджером).

🌸Уменьшение энтропии

Чем вы сеньорнее, тем больше явных ожиданий, что вы будете уменьшать энтропию на проектах. Это может быть
— инженерная энтропия (как делать), когда вам нужно будет привести к согласию представителей разных команд (команды платформ, инфры, инфосек, тестировщики, продуктовый комитет и тд) — и обеспечивать прозрачность технических решений
— проектная энтропия (что делать), при которой вам нужно будет непосредственно сделать ставку и предложить направление работы, с которым согласятся и дадут ресурсы.
Сделать это сразу сложно, тут лучше первое время в компании наблюдать, как это делают другие.

🟣Все! Остальное — дело техники
Теперь вы сеньор на 100 млн/год

Читать полностью…

Kali Novskaya

🌸Andrej Karpathy репостнул нашу статью про Nanogpt speedrun!

Обожаю этот проект: nanoGPT -> рекурсивный бенчмарк для самосовершенствования. Старый добрый nanoGPT продолжает радовать и удивлять :)

- Сначала я написал его как небольшой репозиторий, чтобы научить людей основам обучения GPT-шек.
- Затем он стал целью и базой для реимплементации C/CUDA в llm.c.
- Затем он был модифицирован (
@kellerjordan0 и др.) в (небольшую) исследовательскую систему для LLM. Люди итеративно оптимизировали обучение, так что, например, воспроизведение производительности GPT-2 (124 МБ) занимает не 45 минут (как было изначально), а всего 3 минуты!
- Теперь идея заключается в том, чтобы использовать этот процесс оптимизации кода в качестве бенчмарка для агентов кодирования LLM. Если люди могут ускорить обучение LLM с 45 до 3 минут, насколько хорошо справятся с этим агенты LLM в различных условиях (например, с подсказками или без них и т. д.)?


И вам отличной пятницы!🥹

🟣https://x.com/karpathy/status/1939709449956126910

Читать полностью…

Kali Novskaya

🌸Стрим на Рабкоре: 20:00 мск🌸

Давно не выходила в эфир -- сегодня небольшой стрим про данные и что с ними происходит.

— ИИ-компании выиграли два очень крупных суда и по текущему решению использование данных из интернета это вполне себе fair use, разбираемся, почему
— Но есть нюанс: как это применять дальше? Разбираем DMCA, правильно первой покупки и добросовестное использование
— Антропик и Александрийская библиотека: в ходе суда над Антропиком выяснилось, что чтобы обойти копирайт, дешевле уничтожать печатные книги
— Вспоминаем Google books: новая роль архивов, библиотек и баз данных книг для открытых технологий
— заморозка регулирования ИИ на десять лет — происходит в США?
— что с делом Internet Archive?

Подключайтесь, как обычно, вопросы можно будет задавать на стриме или в комментариях под этим постом

🟣Youtube: https://youtube.com/live/N-NOJ8NjDBs?feature=share

Читать полностью…

Kali Novskaya

🌸Спидраним NanoGPT агентами: новый бенчмарк🌸
#nlp #про_nlp #nlp_papers

На днях мы с коллегами опубликовали новую статью и бенчмарк для агентов, сделанный на основе NanoGPT speedrun от Карпаты:
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements

NanoGPT speedrun — это открытый репозиторий, где сообщество соревнуется в оптимизации обучения мини-GPT2 модели. Бейзлайн — llm.c от Карпаты, написанный в рамках туториала на чистой C/CUDA.

У спидрана Карпаты есть публичный лидерборд с историей рекордов, кратким описанием изменений и кодом (сейчас их 21).

Все это делает его идеальным исходником для оценки агентов: смогут ли они воспроизвести и улучшить результаты?

🌸Дизайн бенчмарка:

В бенчмарке две основные группы задач:
🟣воспроизводимость — агенту нужно воспроизвести рекорд R+1, когда рекорд R дается в качестве бейзлайна для итерирования, со всей информацией об основных нововведениях.
🟣оптимизация — агенту нужно улучшить бейзлайн R, но безо всяких подсказок. Основная метрика — нормализованное улучшение рантайма обучения в среднем по всем попыткам.

Scaffold агента ученого реализует цикл экспериментирования, состоящий из нескольких этапов:

Можно использовать агентов с любыми скаффолдами, но в рамках работы мы продемонстрировали результаты на нескольких SOTA-бейзлайнах, включая AIDE и multi-AIDE. У каждого скаффолда есть циклы решений, состояние из
1) Идеации: генерации новых идей для проверки гипотез (в нашем случае идеи предоставляются непосредственно из задачи).
2) Реализация эксперимента: кодирование экспериментов, которые проверяют идеи, полученные на этапе формирования идей.
3) Выполнение эксперимента: запуск кода
4) Анализ результатов: извлечение идей из результатов

🌸Основные итоги:

Мы провели большое количество аблейшенов с разными моделями, чтобы сравнить, как scaffold и разные типы подсказок могут повлиять на качество агента.

Лучше всего показывают себя скаффолд Multi-AIDE, полный набор подсказок из псевдокода и текстового саммари.  В редких случаях, агент достигает 100% или даже 120% от существующего решения, но в большинстве случаев результат сильно ниже.

Все модели, включая топовые, со state-of-the-art scaffold, все равно испытывают трудности при воспроизведении результатов.

И даже больше, пока что существенная разница сохраняется, когда агентам дается максимально полная информация о том, что надо сделать, и псевдокод.  Хорошее качество воспроизводимости — из статей, репозиториев, инструкций — должно быть пререквизитом на пути к надежной и воспроизводимой автоматизации науки агентами.

🟣Статья https://arxiv.org/abs/2506.22419
🟣Бенчмарк https://github.com/facebookresearch/llm-speedrunner

Читать полностью…

Kali Novskaya

🌸Вакансия: PhD по креативности LLM 🌸
#nlp #про_nlp

TL;DR
Открыта позиция PhD-студента в UMass Lowell у Анны Румшиски (Anna Rumshisky) в Text Machine Lab.

Детали:
Позиция PhD-студента с широким спектром тем в LLM: можно будет заниматься разными методами работы с языковыми моделями, от interpretability и prompt-инжиниринга до методов alignment'а, мультимодального тюнинга, low-rank training и PEFT. Основное направление — усиление креативности у LLM.

Глава лаборатории (Text Machine Lab): Prof. Anna Rumshisky, professor of computer science в UMass Lowell, MIT и Amazon AGI; в частности, один из соавторов Amazon Nova и первой статьи по бертологии.

Требования: релевантный бакалавриат + магистратура/специалитет, хорошее понимание линейной алгебры, мат анализа и теории вероятности, базовые знания deep learning и NLP. Публикации (включая воркшопы) приветствуются, но не являются обязательным требованием.

Позиция fully funded: обучение полностью покрывается, также выплачивается стипендия, достаточная для проживания в Массачусетсе.

🟣Для подписчиков этого канала: для подачи отправьте CV и короткое cover letter сюда: https://forms.gle/YYUhLcPtUNdjvJsY7
Дедлайн — 15 июля!

(От себя: чем раньше вы напишете, тем лучше. Я сама когда-то подавалась к Анне, но потом решила в США не ехать и осталась работать в Сбере. Для кавера можно сразу написать свои идеи, но лучше хорошо показать свой релевантный бэкграунд, опыт экспериментов, статьи)

🟣Сайт лаборатории https://text-machine.cs.uml.edu/lab2/
🟣Форма для подачи https://forms.gle/YYUhLcPtUNdjvJsY7

Читать полностью…

Kali Novskaya

Мемотред в честь пятницы и в честь того, что у меня появился Shrurby! (Первое фото) #шитпост

Читать полностью…

Kali Novskaya

Отличный шаг вперед к машиночитаемой науке и автоматизации экспериментов.

Я про это уже писала, в целом https://ai.vixra.org/ супер инициатива, чтобы отделить ИИ-статьи от человеческих пока что.
Если далее их качество будет выше, то отделять статьи, написанные агентами, и не понадобится, зато архиву понадобится API, потому что основными читателями будут уже не люди.

ИИ-статей по теории чисел уже 38, а то лингвистике только одна, хаха! Кого теперь сократят первым?

🟣https://agentrxiv.github.io/
🟣Github -- все под MIT License

Читать полностью…

Kali Novskaya

Нам всем нужен пятничный мемотред #шитпост

Читать полностью…

Kali Novskaya

🌸Лучшая лекция ICLR 2025 🌸
#nlp #про_nlp #nlp_papers

Одной из главных лекций на ICLR в этом году можно смело назвать доклад Тима Роктешела (Tim Rocktaeschel, DeepMind) — Open Endedness, World Models, and the Automation of Innovation. Доклад наконец выложили на ютуб (мне даже не пришлось ее пиратить для вас)

Это очень хороший и своевременный обзорный доклад про новые приоритеты в исследовании ИИ: reinforcement learning, фундаментальные модели, проблемы бенчмарков, агентов и акселерации науки.

🟣Abstract
Погоня за AGI требует перехода от узконаправленной оптимизации целей к принятию концепции Открытой Эволюции (Open-Endedness) — исследовательской парадигмы, внедрённой в области ИИ Стэнли, Леманом и Клуном. Она фокусируется на системах, способных бесконечно генерировать последовательности новых, но обучаемых артефактов. В этом докладе я представлю нашу работу по созданию крупномасштабных фундаментальных моделей мира (foundation world models), которые способны генерировать разнообразные и многогранные среды. Эти среды, в свою очередь, могут использоваться для обучения более универсальных и устойчивых агентов. Кроме того, я утверждаю, что связь между Открытой Эволюцией и Фундаментальными Моделями указывает на возможность автоматизации самого процесса инноваций. Это слияние уже даёт практические результаты: оно позволяет открывать способности моделей к самоулучшению (sef-improvement), автоматизировать prompt engineering и red-teaming, и проведение дискуссий между ИИ-моделями. Всё это предвосхищает будущее, в котором ИИ будет сам двигать свои открытия вперёд.

🟣Лекция со слайдами тут:
https://www.youtube.com/watch?v=ZZC_xqRgcHo&ab_channel=MatijaGrcic

🟣Некоторые упомянутые статьи:
Prompt Breeder
Rainbow teaming
MLE bench
Awesome Open-endedness
METR и поиск экспоненты
Sakana AI AI Scientist

Читать полностью…

Kali Novskaya

Через полчаса начинаем, приходите!

Вопросы можно задать на Ютубе, и в комментариях к этому посту

Читать полностью…

Kali Novskaya

🌸Распутываем клубок нейросетей: подарок от Anthropic🌸

Прекрасная новость — опенсорс от Anthropic!

Авторы работ по интерпретируемости LLM выложили в опенсорс инструменты, чтобы работать со всеми открытыми весами и отслеживать "мыслительный процесс" вовремя генерации.
Теперь сообщество может применять метод для всех открытых систем.
Подход заключается в создании графов атрибуции, которые показывают, какие внутренние шаги предприняла модель для принятия конкретного решения. Библиотека позволяет
🟣найти "логическую цепочку" принятия решения. То есть показывает, какие части модели влияют друг на друга и на итоговый ответ. Например, как конкретное слово, фраза или кусочек кода на входе влияет на результат через внутренние признаки модели.
🟣нарисовать наглядную схему (граф) этой цепочки. Её можно смотреть, исследовать и подписывать важные элементы.
🟣вмешиваться в работу модели. Вы можете вручную изменить внутренние признаки модели и посмотреть, как это повлияет на её ответ.
🟣менять данные, переучивать модель и сравнивать результаты — улучшать стабильность, фактологичность, непредвзятость ответов.

🌸К чему это можно применить?

К очень многому:
— к лучшему отслеживанию логики модели в цепочке рассуждений и ризонинге
— контролю inference time training, улучшенному планированию и дообучению моделей, в том числе и для агентов
— повышению безопасности работы моделей с джейлбрейками и опасными примерами
— логике работы LLM с разными языками, логикой машинного перевода и мультиязычного ризонинга
— повышению качества в сложных out of domain областях: медицине, юриспруденции, поэзии.

Можно посмотреть, как это работает, на примере Gemma-2-2b и Llama-3.2-1b
Ноутбук
Лицензия на все — MIT!

🟣Веб-интерфейс
🟣Блогпост 
🟣Github
🟣Статья про интерпретируемость - On the Biology of a Large Language Model

Читать полностью…

Kali Novskaya

С момента последнего поста тут я успела поездить в 3 страны и 4 города, отправить 3 статьи, отрецензировать ещё дюжину, поругаться насчёт британских виз, и даже поиграть в новый oblivion. С этой недели начнется постинг как обычно.

Вот вам я в Кембридже, выступала на women in computer science.
Привет!

Читать полностью…

Kali Novskaya

🌸LLamaCon: API, голосовой режим и другие новости 🌸

Сегодня LLamacon — конференция для сообщества разработчиков LLama и индустриальных партнеров. Было много маленьких новостей, как B2B, так и B2C:

🟣API: теперь у моделей семейства LLama будет свое официальное API! Бесплатный бета-режим стартует сегодня, можно подавать заявку на тестирование (вот тут). Из основных фишек — по API можно будет не только вызывать большой ряд моделей, но и файнтюнить их — и затем скачать себе локально веса. Также есть специальные удобные пайплайны для генерации данных и оценки чекпоинтов.

🟣Meta AI App: помимо API, теперь с Лламой можно поговорить в отдельном приложении, где есть голосовой режим — и большой выбор голосов. Поддерживает пока английский, но синтез речи на уровне, и вы можете выбрать из большого списка голосов, как вам будет отвечать Llama.  iOS и Android.

🟣Гранты LLama Impact: дали 10 лабораториям и стартапам гранты по $1.5M на развитие. Программа ежегодная, можно подавать заявку для своего стартапа или лаборатории.

🟣AI Safety: анонсировали несколько новых тулзов, в частности, для работы с аудио — детектция ИИ-голосов и детектор вотермарок в аудио.

Читать полностью…

Kali Novskaya

🌸Диалог 2025🌸
#nlp #про_nlp #nlp_papers

Небольшой пинг для подписчиков: сегодня началась конференция "Диалог", где ежегодно лингвистика и компьютерные методы объединяются, чтобы создать кросс-дисциплинарное пространство для русского языка, обсуждений и коллаборации в компьютерной лингвистике, NLP, корпусной лингвистике, психолингвистике, стилометрии и многих других дисциплинах.

Доклады идут сегодня, завтра и послезавтра.

🟣Послушать доклады можно тут: zoom (прямо сейчас начнется корпусная секция)
🟣Расписание:  https://dialogue-conf.org/program-2025/

Читать полностью…

Kali Novskaya

На днях ещё вышла (совершенно идиотская в своей очевидности) статья Fully Autonomous AI Agents Should Not be Developed.
Достаточно бесполезная с точки зрения выводов — должны или не должны, но обязательно будут, прогресс неостановим. Но в обзоре есть некоторое перечисление рисков агентов, на которые можно ссылаться.

Я считаю, что кто-то должен написать ответную статью с названием Fully Automated Luxury Gay Space Communism must be developed. Все предпосылки уже есть. #шитпост

🟣Arxiv https://arxiv.org/abs/2502.02649

Читать полностью…

Kali Novskaya

Все в комментариях хотят мемотред, но что-то мало мемов накопилось, помогайте! #шитпост

Читать полностью…

Kali Novskaya

🟣Через час начинаем! Приходите
/channel/rabkor/18594

Читать полностью…

Kali Novskaya

🌸SOTA на MLE-bench и новый скаффолд для ML агентов🌸
#nlp #про_nlp #nlp_papers

Выпустили статью, как мы с коллегами исследуем различные факторы у агентов в решении ML-задач: AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench

🌸TL;DR
У агентов столько вариаций, доступных тулзов, даже базовых LLM — как выбрать?
Выбирать комбинацию под задачу, в данном случае — решение ML соревнований.
Рецепт: DeepSeek, улучшенный нами AIDE с различными стратегиями поиска, оптимизированным набором операторов и тулзов — AIRA dojo (код в опенсорсе).

🌸Эксперименты

Базовая модель, скаффолд агента, набор доступных действий и тулзов и методы оценки — влияют на результат в разных комбинациях.
Оптимизировать метод поиска решения и набор действий агента под задачу — выигрышнее, чем просто тратить больше времени на поиск или тратить больше вычислительных мощностей.

Попутно сделали SOTA на MLE bench — бенчмарке OpenAI для агентов на основе Kaggle-задач. MLE bench состоит из 75 задач различной сложности, каждая в контейнере и с бейзлайном, и агентам необходимо, итерируя эксперименты, получить золото Kaggle.

Наше лучшее сочетание базовой модели, стратегии поиска и набора операторов достигает передового результата на MLE-bench lite, увеличивая вероятность получения медали на Kaggle с 39,6% до 47,7%.

Протестировали
🟣DeepSeek R1, O1, O3
🟣AIDE, несколько типов поиска по дереву — Greedy, MCTS, Evolutionary

🌸Краткие выводы

— мы сделали SOTA на ML-задачах без какого-либо изменения моделей, просто аккуратно написав фреймворк, который позволил проанализировать вклад в итоговое качество разных частей пайплайна, и тем самым вылечить некоторые явные боттлнеки в действиях агента и в поиске решений.
— у всех агентов все ещё наблюдается систематический оверфит: во время поиска решения агентами используется результат на валидации, а тестсет не доступен. При проверке оказывается, что лучшие, более общие решения в графе решений были, но на валидации показали себя хуже и выбраны не были.
— оптимизация операторов и поиска под задачу помогает гораздо сильнее, чем просто давать агенту бесконечное количество попыток / компьюта — качество базовых моделей все ещё неидеальное, поэтому в случае неограниченного количества попыток ваш субоптимальный агент все равно выйдет на плато.

🟣Arxiv статья
🟣GitHub скаффолд для ML агентов

Читать полностью…

Kali Novskaya

Чтобы все оставшиеся сотрудники успели пройти интервью к нам 😈
#шитпост

https://futurism.com/openai-shutting-down-week

Читать полностью…

Kali Novskaya

🌸Deep Research Agents: обзор 🌸
#nlp #про_nlp #nlp_papers

Вышла неплохая обзорная статья про пересечение Deep Research и агентов — Deep Research Agents: A Systematic Examination And Roadmap.

Авторы определяют Deep Research агентов как AI-агенты на базе LLM, объединяющие динамически адаптивные рассуждения, способность к планированию, многошаговый внешний поиск и извлечение знаний и использование инструментов (tools, function calling), а также генерацию комплексных аналитических отчетов для информационно-исследовательских задач.

Приводится подробный анализ работ по теме
— Chain-of-thought, Reasoning
— Tool use, MCP
— Планирование в LLM
— GPRO, PPO, Reinforce++ и как их готовить

Отдельно способность к Deep Research сравнивают на примере бенчмарка GAIA (на нем оцениваются практически все работы).

Открытые вопросы и задачи, которые стоят перед исследователями в 2025:
— Расширение источников информации — когда информации хватит для отчета? Когда и где искать, когда ее недостаточно?
— Fact Checking и информация, меняющаяся во времени
— Асинхронность в выполнении задач и этапов плана у агентов
— Адекватная интеграция reasoning и вывода из внешних тулзов
— Мультиагентные архитектуры и автономное развитие систем с онлайн-RL


Нашу статью MLGym процитировали, опять же! 🥹

🟣Статья
🟣GitHub

Читать полностью…

Kali Novskaya

🌸Антикопирайт и LLM победили (пока)🌸
#nlp #про_nlp

Эта неделя довольно важная для прецедентных судебных разбирательств по ИИ и копирайту. Я уже писала раньше про продолжающиеся судебные разбирательства Интернет-архива, проблемы теневых библиотек, суды над Midjourney и Stability AI.

🌸 Для LLM и агентов наиболее важными являлись 2 разбирательства: копирайтные иски к Anthropic и к Meta.

Суды вынесли оба решения на этой неделе:

🟣 Anthropic: Fair use. Обучение LLM на копирайтном материале без согласия авторов — это официально FAIR use. Так, Калифорнийский суд посчитал, что получаемый в результате обучения артефакт (LLM) — новое произведение, а значит, это подходит под определение Fair Use.

🟣 Meta: Ллама не виноватая! 13 авторов, подавших копирайтный иск против обучения опенсорса на их книгах, иск проиграли. Они не смогли доказать в суде, что обучение опенсорсной модели на их материале как-то уменьшило продажи их книг и повредило им.  

Эти прецеденты проводят очень важную новую границу в делах об интеллектуальной собственности и ИИ.

Конечно, это не значит, что использование скоммунизженнего подкопирайтного материала стало законным. Да и другие авторы могут все равно подать в суд и выбрать другую стратегию. А в Российском правовом поле понятия Fair use нет совсем.

Но если очень хочется обучать модели — то можно.😈

🟣Посмотрите наш старый стрим КОПИЛЕФТ с Мишей Вербицким про Антикопирайт

Читать полностью…

Kali Novskaya

AgentRxiv: Towards Collaborative Autonomous Research
Статья: ссылка
Лендинг: https://agentrxiv.github.io/

Очень смешная идея от создателя AgentLaboratory. AgentRxiv — специальный сервер, на который агенты могут складывать написанные статьи и переиспользовать их между запусками.

Замечу, что это не для того, чтобы их читали люди. Для этого есть уже есть viXra, то есть arXiv для статей, написанных с помощью языковых моделей.

А эта идея про то, что можно совместно запускать несколько автоматических исследователей, которые могли бы переиспользовать результаты друг друга. Один из описанных экспериментов как раз про запуск 3 параллельных "лабораторий".

В качестве тестовой задачи авторы используют разработку техник промптинга для решения MATH-500 (сомнительно, ну и ладно). Итоговые найденные техники якобы обобщаются на другие датасеты и задачи: GPQA, MMLU-Pro, MedQA.

С точки зрения реализации всё как в обычном ArXiv'е: сервер, API для поиска, чтения и загрузки статей, сайт для просмотра кожаными мешками. Поиск нормальный, то есть семантический.

Эксперименты:
1) Запуск по умолчанию с доступом к AgentRxiv (78.2% на MATH-500)
2) Обязательное учитывание 5 статей с AgentRxiv против отсутствия доступа к AgentRxiv (78.2% vs 73.8%)
3) Запуск 3 параллельных "лабораторий" (79.8%)

Что по цене? Модели: o1-mini и o1-preview. 280$ за 120 статей в 3 эксперименте (по 40 на каждую "лабораторию"). И примерно 3 дня реального времени 🤔

Из кеков:
- Модуль про написание кода часто генерировал питоновский exit(), что убивало весь пайплайн.
- Значительная часть экспериментов содержала критичные баги, из-за которых точность была примерно 0% 😂
- Ну и с latex'ом моделям было очень сложно (понимаемо).

Очень крутая механика, но по-моему всё ещё не хватает нормального интерфейса взаимодействия с людьми. Первый автор недавно был на стриме AI4Science сообщества alphaXiv, как раз рассказывал про AgentLaboratory и эту статью, я там был, мёд, пиво пил. Следующая статья от него будет про генерацию идей для исследований.

Читать полностью…

Kali Novskaya

🌸Ловушка Chain-of-thought 🌸
#nlp #про_nlp #nlp_papers

На днях коллегиат из Apple выпустил статью с говорящим названием: "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity".
Поскольку из названия можно сразу сделать далеко идущий вывод, скажу сразу, что статья гораздо менее кликбейтная, и заслуживает внимания.
Краткий вывод: Reasoning LLM скорее эксплуатируют паттерны, чем реально демонстрируют способности к логике, особенно если их поместить в среду с задачами, где язык совсем не нужен.

🌸Суть экспериментов

Авторы специально создают набор задач, где язык как таковой не нужен, а нужны логические операции и ограниченный состав предикатов. Авторы берут задачки навроде Ханойской башни, Волка-козла-капусты и тд, и искусственно контролируют их сложность, увеличивая количество элементов.

По результатам авторы выделяют 3 группы задач: 1) задачи низкой сложности, где обычные инструкт-модели показывают такой же или лучший результат, чем ризонинг-модели 2) задачи средней сложности, где у ризонинга выходит преимущество 3) задачи высокой сложности, где у всех LLM результат падает в ноль.

Итог: при фиксированном бюджете на вывод (60 тыс токенов), у инструкционных и ризонинг моделей разные траектории. На простых и средних задачах ризонинг модели явно лидируют, но на задачах повышенной сложности результат не воспроизводится и качество у всех падает в ноль.

Тестируются  o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking — на всех результаты схожие.


🌸Chain-of-thought и не должен работать

Почему вообще Chain-of-thought должен лучше работать?
Chain of thought изначально очень ограниченный инструмент. Эксплуатация промпт-инжиниринга,  которая опирается на совершенно искусственные данные. В веб-корпусе со всего интернета таких примеров будет совсем мало, и источника данных, по которым можно было бы проверить естественное распределение явлений в логах хода мыслей человека у нас нет. Датасеты, на которых ризонинг-модели учатся, достаточно искусственные и не то чтобы разнообразные. Да, на некоторых задачах потратить больше времени на генерацию помогает. Но есть и другие методы — разный декодинг, многошаговая генерация и т.д. Поэтому не стоит думать, что ризнинг-модели прямо хорошо думают, и что это из коробки масштабируется.

Один из самых известных (и уже сатурированных) бенчмарков, который проверяет по сути это же — способность моделей демонстировать интеллект без языка — является ARC AGI. Он тоже построен на масштабируемых паттернах, и в ноябре 2024 его уже зарешали. Несколько аналогичных работ (вот и вот) проводило такие же тесты на способнсти LLM к планированию — и для ризонинг-моделей, и для инструкционных.


🌸Мечта о символьном ИИ

Требовать от вероятностной модели хорошо работать в условиях, где нужны строгие правила, вообще странновато, на мой взгляд. Но можно, если мы признаем, что логика предикатов и другие правиловые системы являются подмножеством в вероятностном пространстве языка. 😈

Гипотеза, вообще говоря, имеет право на существование: попытки соединить фундаментальные модели и символьные методы уже были, например, есть трансформеры логики предикатов и даже на алголе. Ждем, когда это все протечет в тюнинг ризонинг-моделей!

🌸А что делать?

Может быть, комбинация с символьными методами и правда принесет нам что-то полезное.
Но пока до этого ещё далеко, можно было бы сделать как минимум три вещи:
— получше разобраться с механистической интерпретацией в применении к таким задачам, посмотреть, что вообще происходит с цепочками активаций и можно ли это улучшить тюнингом на данных;
— попробовать перетюнить модели с разными методиками inference time training — и сравнить результаты;
— попробовать разные методы декодинга, чтобы проверить, что результат сохраняется, либо существующий декодинг просто не оптимален для подобных задач.

Все эти гипотезы по сути заблокированы, так как веса у моделей закрытые, но как минимум можно было бы взять DeepSeek.

В общем, экспоненту найти в очередной раз не получилось, разве что отрицательный рост.

🟣Статья

Читать полностью…

Kali Novskaya

🌸Большая Книга ИИ теперь на Вики🌸
#nlp #про_nlp

На днях Сергей Марков выложил свою книгу "Охота на электроовец: Большая Книга Искусственного Интеллекта" в формате Вики.

Теперь каждую главу можно прочитать (и даже прокомментировать) отдельно, что очень удобно для 1200+ страничного двухтомника.
Это самая полная история всего, что происходило, включая весь 20 век и сильно раньше, а так же всеми любимый генИИ и его предпосылки.

🟣Заглавная страница
🟣Оглавление


Двухтомник можно скачать в pdf, epub и других форматах:
https://markoff.science/

Читать полностью…

Kali Novskaya

🌸Стрим на Рабкоре, 20.00 мск🌸

Давно не было стримов! Возвращаемся, да ещё как — сегодня стрим с Алексеем Сафроновым (Простые числа), будем обсуждать
– Как человечеству эффективно делать долгосрочные инвестиции?
– Новые возможности для аккумуляции информации и расчета плана;
– Можно ли цифровой плановой экономике почерпнуть что-то полезное из американского корпоративного управления – и наоборот?
– Роль государства в аккумуляции информации и управление планом.

🟣 YouTube, начнем в 20.00 по мск:  https://youtube.com/live/YviV4TLqghI?feature=share

Приходите!
Как обычно, можно будет задать вопросы

Читать полностью…

Kali Novskaya

Нам всем нужен пятничный мемотред! #шитпост

Читать полностью…

Kali Novskaya

Отличная статья, а главное, прикладная.
🟣SIGBOVIK 2025 стр 322
https://www.sigbovik.org/2025/proceedings.pdf

#шитпост

Читать полностью…

Kali Novskaya

🌸Летняя школа LxMLS 2025🌸
#nlp #про_nlp

Небольшое объявление для тех, что ещё только начинает свой путь в машинном обучении и NLP: заканчивается подача заявок на обучение в 15-й Лиссабонской школе машинного обучения — LxMLS 2025.

Школа фокусируется на широком спектре тем по ML, от теории до практики, с уклоном в обработку естественного языка.

🟣Кому это подойдёт:
— студенты и аспиранты в области NLP и компьютерной лингвистики;
— начинающие индустриальные специалисты в ML, LLM
(Я сама ездила, будучи студентом, и было очень хорошо!)

• Срок подачи заявок: 28 апреля (осталось 2 дня)
• Уведомление о зачислении: 13 мая
• Летняя школа: с 19 по 25 июля

🟣Особенности LxMLS:

• Глубокие предварительные знания в области ML или NLP не требуются, но предполагается, что участники имеют базовые знания математики и программирования;

• Дни разделены на утренние лекции и послеобеденные лабораторные занятия и не практические доклады;

• Будут и классические методы, и эти ваши трансформеры.

• Лекторы — ведущие исследователи в области машинного обучения и обработки естественного языка.

🟣Список лекторов:

  ADÈLE H. RIBEIRO Philipps-Universität Marburg | Germany
ANDRÉ MARTINS University of Lisbon & Unbabel | Portugal
BEIDI CHEN Carnegie Mellon University | USA
BHIKSHA RAJ Carnegie Mellon University | USA
DESMOND ELLIOTT University Of Copenhagen | Denmark
KYUNGHYUN CHO New York University | USA
LUCAS DIXON Google DeepMind
MÁRIO FIGUEIREDO University of Lisbon | Portugal
MAXIME PEYRARD Computer Science Laboratory of Grenoble | France
NOAH SMITH University of Washington & Allen Institute for Artificial Intelligence | USA
SARA HOOKER Cohere for AI | Canada
SWETA AGRAWAL Google

🟣Сайт летней школы: http://lxmls.it.pt/2025/ 
🟣Заявку подавать здесь: http://tiny.cc/apply-lxmls2025

Читать полностью…

Kali Novskaya

Нужен духоподъемный мемотред! #шитпост

Читать полностью…

Kali Novskaya

🌸Неделя Научных агентов🌸
#nlp #про_nlp #nlp_papers

Последние две недели выдались особо интересными для агентов для ИИ и науки.
Как обычно, публикую небольшую подборку. 

🌸Ассистент AlphaXiv

Совершенно незаменимая вещь для организации статей, теперь ещё и с Deep Research: любую статью с архива можно добавить в свою подборку, поставит лайк, начать обсуждение, а так же сделать блог пост из статьи. Можно экспортировать все свои статьи и сразу сделать краткую выжимку. Если ещё и комментарии оставлять внятные, можно приблизить Arxiv к Openreview.
🟣https://www.alphaxiv.org/explore

🌸Больше агентов для моделирующих наук
CURIE, a multitask benchmark for scientific reasoning

DeepMind представил CURIE — банчмарк для научных проблем в шести дисциплинах: материаловедении, физике конденсированного состояния, квантовых вычислениях, геопространственном анализе, биоразнообразии и моделировании протеиновых структур. Все задачи требуют экспертных знаний в предметной области, длнного контекста и multi-step reasoning.

Бенчмарк CURIE охватывает 10 задач на основе 429 статей по шести различным научным дисциплинам, и охватывают как экспериментальные, так и теоретические аспекты научных исследований. Оценено много моделей: Mixtral, Command R, LongLlama, все топовые проприетарные модели.
🟣https://arxiv.org/abs/2503.13517
🟣https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/

🌸Законы масштабирования агентов для науки
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Достаточно неплохой обзор степеней автономности агентов для науки, с онтологией способностей, оценкой текущего состояния и следующих степеней автономности. Экспериментов по масштабированию, правда, никаких не ставится, просто рисуют красивые картинки с экспонентами.
🟣https://arxiv.org/abs/2503.22444

🌸Меморизация и научная новизна
All That Glitters is Not Novel: Plagiarism in AI Generated Research

Могут ли агенты генерировать новые идеи? В целом что-то могут,  но за ними трудно проверять.
Статья анализирует недетектируемый плагиат в идеях Sakana AI и некоторых других, и оказывается, что 24% новых идей полностью сплагиачены без указания источника (и при этом плагиат не детектируется стандартными методами, так как все перефразировано), 36.0% работ содержали факты, которые никакой научной литературой не подтверждаются.
Странно, что не больше.
🟣https://arxiv.org/abs/2502.16487

Предыдущие части:
🟣LLM хакают научную новизну
🟣AI Scientist от Sakana AI
🟣MLGym — фреймворк для ML агентов

Читать полностью…
Подписаться на канал