Telegram-канал gonzo_ml - gonzo-обзоры ML статей: Unsorted

gonzo-обзоры ML статей

07 April 2026 17:31

Зачем агентам нужна интуитивная физика.

Grounding Social Perception in Intuitive Physics
_Lance Ying, Aydan Y. Huang, Aviv Netanyahu, Andrei Barbu, Boris Katz, Joshua B. Tenenbaum, Tianmin Shu_
Статья: https://arxiv.org/abs/2603.27410v1
Ревью: https://arxiviq.substack.com/p/grounding-social-perception-in-intuitive
Код: https://osf.io/fkp5m/

# TL;DR

ЧТО сделали: Авторы представили PHASE — датасет из 500 процедурно сгенерированных анимаций взаимодействий 2D-агентов на основе физики. Также они предложили SIMPLE — вычислительный фреймворк, который предсказывает социальные цели и отношения агентов, объединяя прямой физический движок с байесовским обратным планированием.

ПОЧЕМУ это важно: Текущие SOTA vision-language модели (VLM) и графовые нейросети часто ошибаются в интерпретации сложных социальных взаимодействий (например, путают соревнование с сотрудничеством), так как воспринимают социальное восприятие просто как поиск визуальных паттернов. Работа показывает, что подход «анализа через синтез», опирающийся на физические ограничения, позволяет достичь уровня человеческого восприятия, предлагая масштабируемый путь к надёжному физическому и социальному здравому смыслу у ИИ.

Для практиков: Чтобы ИИ-системы безопасно и разумно действовали в общих физических пространствах, они должны понимать человеческие намерения. Вывод намерений требует не просто маппинга визуальных фичей в социальные метки, а симуляции физических ограничений, в которых действуют агенты. Явное объединение интуитивной психологии (theory of mind) с интуитивной физикой (разрешение сил и коллизий) позволяет модели точно восстанавливать скрытые ментальные состояния по наблюдаемым траекториям. Это подсвечивает стратегическое узкое место чисто feedforward архитектур и валидирует генеративную симуляцию как критически важный путь для продвинутого ризонинга агентов.

Получать интуицию тут: /channel/gonzo_ML_podcasts/3088