18170
Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4
🌸Про историю опен-сорса🌸
В субботу в 16.00 по мск буду рассказывать про опен-сорс и эффективные научные коллаборации, приходите!
Лекторий Открытый смысл:
🟣/channel/Open_Sense_Praxis/32
🌸Что в итоге:
🟣Новый state-of-the-art: На отметке 24 часа AIRA^2 результирует в среднем лучше 71,8% решений, (у MARS+ — 69,9%).
Устойчивое масштабирование: В отличие от предыдущих агентов, производительность которых достигала плато или снижалась, AIRA^2 продолжал улучшаться, достигнув 76,0% перцентильного ранга через 72 часа.
🟣Kaggle Медали: По окончании 72-часового прогона система достигла доли бронзовых медалей и выше (Bronze+) 61,1%, серебряных и выше (Silver+) — 58,9%, а золотых медалей — 36,7%.
🟣Абляционнные прогоны с ReAct: Сравнение ReAct со статическими операторами показало, что, хотя разрыв в производительности сокращается при очень длительной работе (поскольку эволюционный цикл в конечном счете находит решения методом проб и ошибок), ReAct обеспечивает значительный прирост на ранних этапах (3–24 часа)
🟣Arxiv: https://arxiv.org/abs/2603.26499
🟣AlphArxiv: https://www.alphaxiv.org/abs/2603.26499
🟣Github: пока нет, но может позже
Воображая будущее: мечтает ли ИИ захватить мир?
Друзья, мы возвращаемся с новым циклом!
Если в прошлый раз речь у нас шла о человеке как объекте преобразования в советский период, то теперь нас будут интересовать технологии и образы будущего.
Ни один разговор о будущем сейчас не проходит без обсуждения искусственного интеллекта. За этим интересом скрываются определённые представления о том, как будет развиваться мир и месте человека в нём. Какие ожидания, страхи и формы воображения стоят за этими обсуждениями — и как они соотносятся с более ранними представлениями о том, зачем нам искусственный интеллект? Насколько технологии, которые мы имеем сегодня, отвечают идеям прошлого — что воплотилось, а что осталось нереализованным?
Уже на этой неделе специалист по методам машинного обучения и популяризатор науки Сергей Марков расскажет о том, как на разных исторических этапах мыслили искусственный интеллект, как менялись представления о его целях и задачах в зависимости от идеологических установок. Исследовательница в области ИИ Татьяна Шаврина обратится к истории больших открытых проектов — от университетских коллабораций до современных языковых моделей — и покажет, как менялись формы коллективной работы и сама идея open-source. Александр Нотченко, специалист по искусственному интеллекту, основатель AI-консалтинга в Лондоне, вместе с Татьяной обсудят, как в условиях развития ИИ трансформировались представления о приватности, безопасности данных и контроле над цифровой средой.
Куратор этого цикла — Татьяна Шаврина, руководитель исследовательских команд в области ИИ, автор языковых моделей llama 3, 4, Bloom, к.ф.н, автор 60+ научных работ по языковым моделям и их оценке
Расписание:
- 4 апреля, 15.00 Сергей Марков «Обещания искусственного интеллекта: от утопии к пессимизму?»
- 11 апреля, 16.00 Татьяна Шаврина «Научный прогресс как коллективный проект: от университетских коллабораций до современных языковых моделей»
- 18 апреля, 16.00 Александр Нотченко, Татьяна Шаврина «Приватность в век ИИ: от личного пространства к контролю через данные»
Лекции пройдут на платформе Zoom онлайн.
Самый удобный способ посетить их все — приобрести абонемент через наш бусти. Записи лекций также будут доступны там.
Средства, вырученные за этот курс, пойдут на нужды проектов, поддерживающих политзаключенных.
Безопасно ли это?
Совершенно нет! Но весело
Можно добавлять метрики и бенчмарки AI Safety прямо в multi-task objective, чтобы агент оптимизировался исходя из безопасности тоже.
Пожалуйста, применяйте HyperAgents в своих задачах, расширяйте применимость метода:
🟣 кодинг, наука, human preferences, поиск - все так или иначе должно работать
🟣можно оптимизировать своего собственного агента, начиная как бы не с нуля, а с текущих наработок (с математикой IMO мы так и сделали в эксперименте, и получилось отлично)
🌸Github https://github.com/facebookresearch/HyperAgents
Вайб рабочей недели после для рождения примерно такой:
Читать полностью…
🌸APRES: An Agentic Paper Revision and Evaluation System🌸
#nlp #nlp_papers
Может ли процедура рецензирования быть автоматизирована? И как к этому вопросу вообще подойти, чтобы адекватно оценивать идеи и их реализацию?
Применяем агенты на стыке LLM-агентов и наукометрии.
🌸TL;DR
Рецензенты оценивают статьи относительно стандартов науки, устоявшихся годами, но год от года меняющихся.
Можем ли мы, посмотрев на исторические данные, построить систему, которая предсказывает эти стандартны, и непосредственно оценивает по ним, насколько статья будет импактной, важной для сообщества?
В качестве прокси-метрики можно взять количество цитирований другими импактными статьями спустя год после публикации.
Оценивая статью по предсказанным рубрикам, скоррелированным с будущими цитированиями, мы можем итеративно улучшать уже готовую статью, чтобы в конце концов максимально оптимально донести свою мысль, чтобы статья была полезна.
🌸Общий пайплайн
берем AIDE или другой Tree Search скаффолд, даем ему набор рубрик для старта — у нас это критерии оценки NeurIPS.
Другие компоненты агента: o1 или Gemini 2.5, а также парсер статей
1. Предсказываем рубрики
Генерация рубрик: LLM-агент генерирует или уточняет набор из k элементов рубрики для рецензирования (например, «техническая обоснованность» или «ясность изложения»).
Оценка: Агент-рецензент оценивает статьи в датасете по этим элементам рубрики, присваивая баллы.
Анализ: Модель отрицательной биномиальной регрессии прогнозирует количество цитирований на основе баллов, с измерением качества прогноза через MAE.
Выбор и уточнение: Система выбирает наиболее эффективную рубрику и возвращает её для дальнейшего уточнения.
Этот процесс замкнутой оптимизации продолжается до сходимости, обычно в пределах 25 итераций. По итогу имеет более детальные рубрики, куда более конкретные, чем изначальные от конференции/журнала.
2. Оптимизирует текст статьи
После того как оптимальная рубрика R* найдена, она используется для автоматизированной ревизии статьи:
— Система сначала оценивает исходную статью по найденной рубрике, генерируя как количественные баллы, так и конструктивную обратную связь.
— LLM-агент-редактор предлагает изменения, направленные на повышение баллов статьи по рубрике R*.
Переработанная версия статьи повторно оценивается, и процесс итеративно продолжается до сходимости, при этом все версии отслеживаются, а лучшая версия выбирается для дальнейшего уточнения.
🌸Результаты:
— Mean Averaged Error предсказания цитирований у такого метода примерно на 20% лучше альтернатив, а общий прирост предсказанных цитирований больше, причем основные идеи и результаты статьи не редактируются.
— Метод также снижает разброс оценок статьи среди рецензентов, а сами рубрики легко валидировать.
— Рубрики, полученные методом оптимизации, дают более серьезное улучшение качества статьи, чем использование реальных гайдлайнов рецензирования -- они, как правило, не достаточно подробные, и могут по-разному трактоваться. Сгенерированные подробные рубрики оценки статей задают гораздо более детальные и интересные критерии (см аппендикс статьи)
— В эксперименте с двойным слепым рецензированием с PhD ML рецензенты предпочитали улучшенные версии статей в 79% случаев.
Улучшение в среднем достаточно существенное: может вывести статью из Clear reject в Borderline, из Borderline в Accept -- при условии, что сама идея изначально полезная, и сам текст статьи плохо написан.
— Оценка результатов рецензирования и будущих цитирований -- очень спекулятивная тема. Мы прекрасно знаем, что большая доля статей на NeurIPS годами получает случайные решения.
Теперь, когда объем статей на историческом максимуме и стресс-тестирует все сообщество, автоматические инструменты просто необходимы. В целом, если все авторы будут использовать что-то подобное, суммарная проблема неконсистентности ревью может частично решиться.
🟣Arxiv https://arxiv.org/abs/2603.03142
🟣AlphArxiv https://www.alphaxiv.org/overview/2603.03142
🌸Капитанский мостик #9🌸
Выпуск в честь 8 марта: наговорили с Валентином Малых и Дмитрием Колодезевым:
🟣Подкаст "Капитанский мостик", выпуск 9
https://youtu.be/k0PtQyfxc3o?si=f1gIvyFImXniXVSl
Всех с праздником!
Очередное дополнение к посту вышло.
OpenAI заключает партнёрство с Пентагоном.
Подписчики: - Мы хотим детекцию сгенерированных текстов.
Я: - У нас есть детекция сгенерированных текстов дома.
Детекция сгенерированных текстов дома: https://www.reviewer3.com/evidence/arena - попробуй угадать сам, какая рецензия написана человеком, а какая - LLMкой!
На следующей неделе я выступаю на OpenTalks, ежегодной уже, большой конференции нашего сообщества. Буду делать обзор агентов для ИИ рисерча и автоматизации — и что нам дальше ожидать. Увидимся в Сербии!
P.s. такую картинку красивую поставили, придется скоро делать пластическую операцию, чтоб так выглядеть. Недостижимая идеальность нейронок!
Как обычно, прошу поставить лайк статье на HF papers! https://huggingface.co/papers/2602.06855
Читать полностью…
Вот тут можно посмотреть формат задачи и как на самом деле выглядит новая SOTA — чуда не происходит, но происходит более эффективный поиск решения
Читать полностью…
На злобу дня — и в рамках #карьера поста. Работает железно, везде. #шитпост
Про Хомского очень неприятно было прочитать.
Первое правило любой переписки в интернете, в почте в том числе - она в любой момент может быть слита в паблик, она может быть отнесена к нотариусу и иметь юридическую силу, она может использоваться потом при внутренних расследованиях в компаниях.
🌸AIRA^2: SOTA на MLE-bench🌸
Помните, как вы сами участвовали в Kaggle-сореванованиях? Теперь мы учим агентов делать это лучше нас.
🌸TL;DR
Мы с коллегами выпустили новую работу— SOTA-агента на MLE-bench, основном бенчмарке агентов на ML задачах.
Предлагаемая система достигает 36% золотых медалей в Kaggle соревнованиях за сутки на 1 GPU (MLE-bench-30), и за сутки достигает решения лучше 71.8% остальных. За трое суток — лучше 76% решений.
Статья Overcoming Bottlenecks in AI Research Agents
🌸Основная проблема музыки в россии масштабирования агентов
MLE-bench — это типичный бенчмарк для оценки МЛ-агентов. Агентам предоставлена существенная степень свободы — они могут осуществлять разные эксперименты, учить модели и могли бы даже придумывать новые архитектуры. По факту, большинство решений все равно сводится к перебору гиперпараметров и улучшению существующих решений разными комбинациями лучших практик.
Соответственно, что же мешает агентам?
1. Пропускная способность за заданное время: Многие агенты работают в синхронном, последовательном цикле. Пока агент ожидает завершения ресурсоемкой задачи обучения, механизм рассуждений простаивает. Такая последовательная работа существенно ограничивает количество решений, которые агент может исследовать за определенный промежуток времени (сутки или больше). В исследованиях, где отдельные эксперименты могут занимать часы, последовательный агент может оценивать только 10–20 кандидатов в день, что делает непрактичными стратегии широкого поиска вроде MCTS.
2. Generalization Gap: в рамках поиска гипотез агент проверяет их на валидационном сете, тогда как финальное решение проверяется на тест-сете. Если проверок гипотез становится очень много (несколько сотен в день), то агент оверфитит решение под шум или артефакты оценки, и в конец результат на тесте ухудшается.
3. Ограничения статических операторов: большинство агентов полагаются на фиксированные, одношаговые промпты (операторы), разработанные для конкретных подзадач, таких как «feature engineering» или «поиск гиперпараметров». Эти атомарные операторы не способны выполнять многошаговый ризонинг, итеративную отладку или динамическую адаптацию задач.
🌸Как решить проблему?
Несколько решений, которые мы предлагаем:
1) Оркестратор следит за объемом доступных ресурсов, текущими результатами и популяциями разных идей. Как только ресурсы освобождаются, оркестратор их распределеяет, исходя из нормированных метрик прироста перформанса.
2) Чтобы улучшить выбор кандидатов, вводим протокол Hidden Consistent Evaluation. Делим все данные задачи на 3 стратифицированные части (train, search, val), и оцениваем новые решения на части search. При этом даем увидеть результат оркестратору, а не самому агенту. Таким образом мы исключаем ситуацию, когда агент сам репортит свой результат и оверфитит эксперименты.
3) Асинхронный параллелизм: Внедряем асинхронные воркеры и отделяем процесс рассуждения от среды исполнения. Каждый воркер в пуле привязан к выделенному GPU, CPU и оперативной памяти. Пока один воркер выполняет 4-часовой прогон обучения, другие могут продолжать генерацию и оценку новых мутаций. Среда воркера является контекстно-зависимой (stateful) и включает Python и Bash. Агент может изучить набор данных, запустить короткий скрипт обучения, проверить логи и затем доработать код — и все это до отправки финального варианта оркестратору.
4) Внутри нод убираем статичные операторы и заменяем все на ReAct, чтобы был multi-step reasoning, лучше дебаггинг.
#шитпост
Почему карта распространения праиндаевропейского языка так похожа на карту иммиграции айтишников после 2022
Делаем три благотворительные лекции на тему истории ИИ, приватности данных и опен сорса в Открытом Смысле. Приходите!
Читать полностью…
🌸ГиперАгенты, или вперед к Open-Ended Exploration🌸
#nlp #nlp_papers
Что будет, если дать агентам полную свободу модифицировать самих себя?
Наконец-то выпускаю долгожданную статью, где я побыла уже не соавтором, а научным руководителем.
Вместе с Jenny Zhang, автором Darwin Gödel Machine , выпускаем HyperAgents — open-ended self-improvement для агентов, на многих задачах сразу
🌸TL;DR
HyperAgents — это пример системы, где агент улучшает самого себя итеративно, от промптов до кода.
При этом, в отличие от Darwin Gödel Machine, мы пошли дальше и сделали multi-task objective:
— агент должен улучшать сам себя из поколения в поколение, и делать это одновременно на многих задачах сразу.
Улучшения возможны в обеих группах доменов:
— verifiable rewards: кодинг (Polyglot), математика (IMO), симуляции в робототехнике (Genesis)
— unverifiable rewards: рецензирование статей (Apres)
🌸Пайплайн
Как и в первой версии DGM, агент вносит модификацию — и затем оценивает ее успешность на основе результатов: в данном случае на бенчмарках, тестах и тд.
Модификации образуют граф версий, который можно контролировать в git.
В системе всегда работает цепочка из двух агентов: есть мета-агент и агент, который выполняет задачи.
Мета-агент опирается на результаты выполнения задач и вносит изменения и в себя, и в агента-работника одновременно.
Гиперагентов можно использовать с разными моделями: Claude-4.5-sonnet, O4-mini, GPT-4o
🌸Почему это работает: Абляционные исследования
Как должна выглядеть оптимальная система агента, чтобы поощрять открыты поиск новых модификаций?
Как правило, в предыдущих работах, если агенту и позволяется что-то модицифировать, то только в определнных рамках и заданных примитивах.
Мы проверили, что будет, если этого избежать: результирующая система — Гиперагенты — оптимизирована под более быстрый поиск новых модификаций — и in-context обучение более эффективному самооулучшению.
Модель в рамках итераций (их может быть хоть 200) начинает лучше понимать, какие изменения стоит вносить.
Итак, что мы сравниваем:
— HyperAgents (DGM-H): метаагент улучшает сам себя и агента-работника в многозадачной среде
— HyperAgents без самомодификации: метаагент улучшает только агента работника в многозадачной среде, себя оставляет как есть
— HyperAgents без архива предыдущих решений и их результатов: метаагент вносит улвчшения в себя и агента-работника, не опираясь на предыдущие результаты
— Классика, DGM: метаагент изолированно улучшает агента-работника, на всех задачах и кастомно по одной задаче.
🟣HyperAgents (DGM-H) демонстрирует более динамичный рост общего перформанса на всех задачах — плюс, улучшения, полученные таким способам на одних доменах, переносятся в улучшения на других.
🌸Учимся самоулучшаться
Мы вводим новую метрику, чтобы определить способность мета-агента вносит успешные улучшения: imp@50 (по аналогии с pass@50)
🟣Именно в рамках итеративного процесса самоулучшения у мета-агента в конце эксперимента существенно вырастает imp@50 в сравнении со стартовым состоянием (0 --> 0.63).
🟣Агент обрастает тулзами для поддержания памяти, трекинга изменений, отслеживания тенденций в результатах.
🟣Arxiv https://arxiv.org/abs/2603.19461
🟣Github https://github.com/facebookresearch/HyperAgents
🟣HF papers: https://huggingface.co/papers/2603.19461
🟣AlphArxiv https://www.alphaxiv.org/abs/2603.19461
🌸Быть всем довольным, но не подать виду🌸
#не_про_nlp
Сегодня у меня день рождения!
Вместо подведения итогов пойду гулять по Лондону.
Солнышко светит, а я последний месяц только смотрела в монитор на работе и в монитор дома.
На неделе будут разборы и новые статьи 👌
Спасибо, что вы со мной!
Вообще в целом вопросы, которые по итогу сформулировал агент, можно регулярно задавать себе, когда выбираешь тему для исследования/курсовой/проекта:
"problem_scope": "Is the scope appropriately scoped-not too broad to be intractable, nor too narrow to be trivial ?",Читать полностью…
"motivation": "Is there a compelling justification for why this problem needs to be solved?",
" scalability ": "Is the proposed idea or method scalable to more complex, real-world scenarios?",
"memorable_takeaway": "Is there a clear, impactful, and memorable ’take-home message’?",
"interdisciplinary_appeal ": "Does the work have the potential to influence or be
adopted by other fields ?",
"opens_new_directions": "Does the work open up entirely new avenues of research?"
Залью пока сюда новую статью, которая на самом деле не новая, а висела полгодика на OpenReview.🤵
Читать полностью…
Пятничный мемотред в честь того, что эта неделя заканчивается #шитпост
Читать полностью…
🌸Вакансии и Нетворкинг с OpenTalks.AI🌸
#карьера
Второй день как идет OpenTalks.AI, и почти на всех докладах есть какой-то классный call to action, предложение поколлаборировать или стажировка.
Мне захотелось поделиться с вами как с профессиональным сообществом:
🌸Открытые позиции:
🟣Дмитрий Ветров набирает магистров в Constructor University на программу ML Research
Есть возможность получить финансирование от JetBrains
https://constructor.university/programs/graduate-education/advanced-software-technology
🟣Андрей Устюжанин приглашает на позиции PhD и PostDoc в Constructor University
— PhD — Scale-aware reasoning architectures, causal representation learning
— PostDoc — Active experimentation strategies, self-driving laboratories
Напишите andrey.ustyuzhanin@constructor.org
🟣Bioptic ищет ML-инженеров для разработки агентов в биотехе:
https://docs.google.com/forms/d/e/1FAIpQLSfA8GkNcoPyySqI_1XB46VxJY-rK2k_sz25P5xDHwUeZUUdYA/viewform
🟣White Circle (AI Safety) ищет ML-инженеров для работы с аудио и видео, MLOps, Data scientists:
https://jobs.ashbyhq.com/whitecircle
🌸Коллаборации
🟣Евгений Ижикевич и Анатолий Старостин сделали новый фреймворк для обучения моделей с новой архитектурой на базе работы Spiking manifesto — и открыты к коллаборациям
https://github.com/anatoli-starostin/spiky
🟣Андрей Устюжанин приглашает подать заявку на воркшопы:
— Meta-science, AI in Scientific process — Wurzburg, date TBD
— Experimental Physics meets Deep Learning — Bremen IJCAI August 26
Напишите andrey.ustyuzhanin@constructor.org
🌸Каналы
🟣Сергей Николенко завел канал и сделал целую серию постов с обзором актуальных работ по AI Safety /channel/sinecor
🟣Илья Макаров (наконец!) тоже завел канал и пишет про статьи своей лаборатории /channel/imak_ai
Поскольку сессий параллельно было много, я точно упустила часть, поэтому, если у вас есть вакансии, можно постить их в комментариях к этому посту!
А вообще, давайте пятничный мемотред #шитпост а то жить тяжело!
Читать полностью…
Компартия прислала диплом! Миска рис (мой ноябрьский HSK пришел)
Читать полностью…
🌸AIRSbench: релизим новый бенчмарк для AI Research Agents🌸
#nlp #про_nlp #nlp_papers
Если дать агенту вашу рисерч-задачу, что побьет SOTA быстрее — вы или агент?
TL;DR
AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents
ИИ Агенты уже могут находить решения лучше текущей "человеческой" SOTA — если дать им возможность брать поставленную задачу и данные, и проводить полный цикл экспериментов, с вычислительными мощностями и инструментами.
🌸Про бенчмарк
Последний год я занимаюсь ИИ-агентами, и наконец выходит небольшой бенчмарк, который мы используем для оценки агентов внутри.
Сам бенчмарк предлагает все этапы работы с задачей: планирование, написание кода, его исполнение и обучение моделей, оценка результатов, анализ и итерирование с новым набором идей.
Мы оцениваем как модели, так и агенты целиком:
🟣Скаффолды: MLGym ReACT, AIRA Dojo Tree search (наша предыдущая SOTA на MLEbench), one-shot генерация как бейзлайн
🟣LLM: Code World Model, GPT-OSS, GPT-4o, Devstral, O3mini
Результаты каждого агента нормируются относительно SOTA и усредняются.
На решение каждой задачи отводится 24 часа и 1 H200.
В целом, бенчмарк похож на MLE-bench, но с двумя важными отличиями:
— все задачи взяты из последних статей, это реальные задачи с текущей SOTA, не Kaggle соревнования
— все задачи новые, не контаминированные
🌸Что могут агенты сейчас?
Производить полный цикл экспериментов и сабмитить итоговое лучшее решение, которое вышло за заданное время. По верхнеуровневому описанию лучшего решения, имплементировать его и начать улучшать.
3 систематичных случая, когда агент смог предложить решение лучше текущей SOTA — Aira Dojo Greedy + GPT-OSS 120B, Aira Dojo Greedy + GPT-OSS 120B, Aira Dojo Greedy + Code World Model.
Так что хорошо выходит даже у опенсорсных моделей — главное, иметь хороший скаффолд, которы за счет дерева поиска нивелирует некоторые недостатки моделей.
🌸Данные
Мы релизим 20 задач, которые на текущий момент являются несатурированными и относительно новыми, чтобы избежать прямой контаминации.
Домены: SWE, QA, Math, Information Extraction, Molecule&Protein ML, classification tasks.
Все SOTA-метрики актуализированы людьми. Изначально, мы стартовали со 100 задач из верха лидербордов papers with code -- но 100 задач прогонять совсем дорого, и мы выбрали 20 с сохранением распределения скоров и разнообразия задач.
Лицензия: CC-4-noncommercial
По итогу у нас есть:
— набор неконтаминированных, сложных задач
— стандарт для описания статей в формате, чтобы они стали машиночитаемыми.
— оценка полного цикла спобосностей агентов на актуальных ML-задачах
— опенсорсные агенты, которые в состоянии реально улучшить существующие решения.
🟣Arxiv: https://arxiv.org/abs/2602.06855
🟣Github: https://github.com/facebookresearch/airs-bench
🟣AlphArxiv: https://www.alphaxiv.org/abs/2602.06855
Что-то неделя не очень, а пятницу хочется поправить мемотредом! #шитпост
Читать полностью…