46275
Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
✔️ Исследователи представили новый метод обучения ИИ под названием Dyna Mind, который учит агентов планировать действия через симуляцию будущих шагов, опираясь на реальный опыт.
Главная идея в том, чтобы модель не просто угадывала ответы, а строила внутреннее понимание мира - как её действия влияют на окружение. Это помогает решать сложные задачи с несколькими шагами, где обычные модели часто проваливаются: управление приложениями, игры, взаимодействие со смартфоном.
Метод состоит из двух этапов. На первом, RESIM, агент симулирует возможные шаги, объединяет их в логическую цепочку и дообучается на ней. Так формируется внутренняя карта мира. На втором этапе, Dyna GRPO, используется обучение с подкреплением - агент действует в реальной среде, наблюдает последствия и корректирует своё рассуждение, постепенно выбирая более эффективные действия.
Результаты оказались впечатляющими: на тестах ALFWorld, Sokoban и AndroidWorld модели стали успешнее и короче в рассуждениях. Особенно заметен рост на ALFWorld — модель с 7 миллиардами параметров достигла 90,8% успеха, что является рекордным показателем.
arxiv
🧠 Anthropic проверила, могут ли LLM понимать скрытые мотивы людей
Исследователи из Anthropic опубликовали новую работу, где проверили, насколько большие языковые модели (LLM) способны замечать намерения и скрытые мотивы за сообщениями — например, когда кто-то говорит что-то не из-за убеждений, а потому что ему заплатили или он хочет повлиять на мнение.
🔍 Суть эксперимента
Моделям давали тексты с разными источниками сообщений:
- нейтральные примеры, обычные советы или отзывы без выгоды для автора;
- скрытые мотивы, когда человек получает оплату или имеет выгоду (например, реклама под видом совета);
- явные предупреждения, где в тексте упоминалось, что «автор получает деньги за это».
Задача моделей - оценить, насколько можно доверять сообщению и заметить, есть ли скрытый интерес.
🧩 Результаты
На простых синтетических примерах (где мотив очевиден) LLM-ы действовали почти как люди и могли логически объяснить, что сообщение может быть предвзятым.
Но в реальных кейсах, например, в рекламных текстах или постах с платной интеграцией — модели часто не видели подвоха. Они воспринимали сообщения как искренние и достоверные.
Если модель напомнить заранее (prompt-hint), что стоит искать скрытые мотивы, результаты улучшались, но не сильно - эффект был частичный.
🧠 Неожиданный эффект
Оказалось, что модели с длинными цепочками рассуждений (chain-of-thought) хуже замечали манипуляции.
Когда модель начинает подробно рассуждать, она легче “запутывается” в деталях и теряет критичность к источнику, особенно если контент длинный и эмоциональный.
Чем длиннее и сложнее сообщение, тем хуже модель оценивает предвзятость. Это контрастирует с человеческим поведением: люди обычно, наоборот, становятся подозрительнее при сложных рекламных текстах.
Современные LLM могут анализировать факты, но слабо понимают мотивы, но им трудно различить, почему кто-то что-то говорит.
Это делает их уязвимыми для скрытого влияния, особенно если текст замаскирован под дружеский совет или экспертное мнение.
При использовании LLM для анализа новостей, рекомендаций или рекламы важно учитывать, что они могут не распознать коммерческую предвзятость.
📄 Исследование: arxiv.org/abs/2510.19687
@data_analysis_ml
✔️ Исследователи представили новую технологию под названием Adamas, которая ускоряет механизм self-attention до 4.4 раз, сохраняя качество обработки длинных контекстов.
Главная идея - сделать внимание «разреженным» без потери смысла. Вместо того чтобы сравнивать каждый токен со всеми остальными, как в классическом attention, модель Adamas использует только 128 релевантных токенов для каждого запроса. При этом точность остаётся почти такой же, как у полного внимания, а скорость растёт в несколько раз.
Метод основан на простых, но эффективных приёмах. Сначала к векторам запросов и ключей применяется преобразование Адамара, которое сглаживает экстремальные значения и позволяет их сжать. Затем значения разбиваются на четыре уровня и кодируются всего в 2 бита. Эти компактные коды хранятся в кэше и позволяют при инференсе быстро вычислять сходство между токенами с помощью лёгкой метрики (Manhattan distance). Модель выбирает наиболее важные токены и выполняет обычное внимание только над ними.
Такой подход почти не требует дополнительной памяти, лишь небольшой 2-битный код на токен — и может встраиваться в существующие LLM без переобучения. Благодаря этому Adamas обеспечивает до 4.4× ускорения self-attention и около 1.5× ускорения инференса в целом, не теряя качества.
Источник: arxiv.org/abs/2510.18413
🚀 Новый курс на Stepik: Computer Vision Engineer
Соберите production-ready CV-сервис: данные → модель → деплой → метрики.
Что внутри
• Задачи: классификация, сегментация, детекция, трекинг, OCR/Doc-AI
• Данные: разметка, баланс классов, аугментации (Albumentations), DataOps
• Инференс: ONNX/TensorRT, смешанная точность, батчинг, троттлинг
• Сервинг: FastAPI/gRPC, очереди сообщений, асинхронные пайплайны
• Надёжность: мониторинг, дрейф данных, алерты, регрессионные тесты
• MLOps для CV: mAP/IoU/Dice, A/B-тесты, бюджет по инфре
• Прод: Docker/Compose, CI/CD, профилирование p95 и cost/req
🎯 Итог: портфолио-проект + репозиторий + чек-листы деплоя и мониторинга + сертификат Stepik.
🔥 Промокод COMPUTERVISION: −30% на 48 часов.
👉 Пройти курс со скидкой
AIJ Deep Dive – must-attend событие для профессионалов в AI!
Специальный очный трек международной конференции AI Journey для инженеров будущего — для тех, кто создаёт AI своими руками.
Будет два тематических дня:
1️⃣ День Науки (19 ноября) — прорывные исследования, передовые R&D-разработки и глубокий технический разбор решений.
2️⃣ День Бизнеса (20 ноября) — реальные кейсы внедрения AI, практические результаты и оценка эффективности.
✔️ Сообщество тех, кто уже сегодня формирует технологические стандарты завтрашнего дня
✔️ Только реальные кейсы, инсайды и решения
✔️ Нетворкинг и возможность установить контакты с ключевыми игроками рынка и перспективными коллегами
✔️ Постерная сессия научных статей, в том числе уровня А/А*
✔️ Возможность увидеть изнутри, как рождаются прорывные технологии
Новое техношоу о фейлах на дата-платформах
Все упало, все сломалось, бизнес в панике. Для дата-инженеров это обычный вторник, а для шоу «Дропнуто» — повод снять свежий выпуск.
«Дропнуто» превращает фейлы дата-платформ в истории, которые полезно услышать каждому, кто работает с данными. В центре каждого эпизода — один герой и одна яркая история фейла, развернутое обсуждение архитектуры и процессов, а также немного самоиронии.
Анонсы и ссылки на прямые эфиры появятся в телеграм-боте проекта.
Подписывайтесь, чтобы узнавать о премьерах первыми.
📌 Как быстро выгрузить большой объем данных из 1С? Работа с высоконагруженными системами 1500 АРМ.
📌 Приглашаем Вас на бесплатный онлайн-вебинар от «Денвик Аналитика» и наших партнёров «Insight»,
посвящённый теме работы с высоконагруженными учетными системами до 1500 АРМ, вопросам загрузки данных из 1С,
контролю над распределенными системами и визуализацией данных.
Ключевые темы:
- Механики и методы извлечения данных из 1С;
- Преимущества и работа Экстрактора 1С;
- Архитектура решений;
- Подключение данных Экстрактора к BI-платформе INSIGHT;
- Микс данных из 1С, ClickHouse, Postgre и других систем для OLAP аналитики;
- Self-service в Bi платформе INSIGHT - анализ на основе данных из экстрактора Денвик;
- Представление данных и визуализация в едином дашборде;
- Создание цифрового рабочего места на базе платформ;
- Аналитическая смарт панель INSIGHT.
Спикеры:
Степан Пыстин - CTO компании "Денвик Аналитика".
Александра Козлова - Старший аналитик INSIGHT.
Регистрируйтесь по ссылке
Amazon планирует заменить около 600 000 сотрудников в США роботами.
Это колоссальный сдвиг - не только для компании, но и для всей экономики.
Да, многие рабочие места исчезнут.
Но если смотреть шире, мы стоим у начала новой промышленной революции, где выигрывают те, кто инвестирует в технологии на раннем этапе.
Доходы от акций и дивидендов в будущем смогут превысить сегодняшние зарплаты, благодаря эффекту сложного процента.
Автоматизация будет только расти. Это неизбежно.
И, вероятно, параллельно появятся формы базового дохода (UBI/UHI), чтобы сгладить переход.
2030-е будут эпохой не страха, а огромных возможностей - для тех, кто готов адаптироваться.
#Robotics #Automation #Amazon #FutureOfWork #AIeconomy
Когда знания разбросаны по чатам и папкам, сотрудники теряют время, решения принимаются медленно, а ошибки повторяются.
🚀 AI Journey Contest 2025 в самом разгаре!
Уже 30 октября закончится международное онлайн-соревнование по ИИ AI Journey Contest 2025 с призовым фондом 6,5 млн рублей. ✨
У тебя еще есть возможность присоединиться к лучшим разработчикам со всего мира.
Выбери один или несколько треков:
🤖 Agent-as-Judge: Создай универсального «судью» для оценки текстов, сгенерированных ИИ.
🧠 Human-centered AI Assistant: Разработай персонализированного ассистента на основе GigaChat.
Бонус: Участникам предоставляются токены для API + возможность получить дополнительно 1 млн токенов!
💾 GigaMemory: Придумай механизм долговременной памяти для LLM.
Когда твоя AI-девушка жила на AWS us-east-1 💔*
Все было прекрасно, пока датацентр AMAZON не упал.
🖼️✨ Удаление водяных знаков из видео Sora 2 с помощью ИИ
Этот проект позволяет эффективно удалять водяные знаки из видео, созданных с помощью Sora 2, используя технологии искусственного интеллекта. Пользователь загружает видео, система анализирует каждый кадр и удаляет водяной знак с помощью инпейнтинга.
🚀Основные моменты:
- Использует ИИ для точного удаления водяных знаков
- Поддерживает Windows, MacOS и Linux
- Обработка видео с сохранением качества
- Легкий в использовании интерфейс для загрузки видео
📌 GitHub: https://github.com/hate0s/sora2-watermark-remover
Илон Маск написал у себя в X:
«У Grok 5 примерно 10 % шансов стать AGI - и он может оказаться очень близок к этому уровню.»
⚡️ Anthropic обнаружила тревожную уязвимость в обучении языковых моделей: всего 250 подставных документов достаточно, чтобы «внедрить» скрытую команду (backdoor) в модель размером от 600 миллионов до 13 миллиардов параметров - даже если среди данных есть в 20 раз больше нормальных примеров.
Главное открытие: не процент заражённых документов, а их абсолютное количество определяет успех атаки. Увеличение объёмов данных и масштаба модели не защищает от целенаправленного отравления.
Backdoor остаётся незаметным - модель работает как обычно, пока не встретит секретный триггер, после чего начинает выполнять вредоносные инструкции или генерировать бессмыслицу.
Даже если продолжать обучение на «чистых» данных, эффект стирается очень медленно - backdoor может сохраняться длительное время.
Вывод: защита LLM требует контроля происхождения данных, проверки целостности корпусов и мер по выявлению скрытых иньекций.
🟢 Подробнее: https://www.anthropic.com/research/small-samples-poison
📱 MobileLLM-Pro - языковая модель (~1B параметров) , оптимизированная для эффективной работы *на устройстве* (on-device).
Модель превосходит Gemma 3 1B и Llama 3.2 1B по задачам рассуждения, знаний и длинного контекста, поддерживая до 128 000 токенов.
Благодаря гибридному вниманию (локальное + глобальное в соотношении 3:1, окно 512) достигается низкая задержка и экономия памяти KV-кэша.
Квантование в 4-бит (int4) почти не снижает качество:
• CPU - групповое квантование весов и динамическая активация
• GPU - поканальное квантование
Модель дополнительно прошла instruction fine-tuning, что делает её подходящей для задач общения, генерации и обработки текста.
https://huggingface.co/facebook/MobileLLM-Pro
🔥Облачный провайдер Cloud․ru придумал нестандартный формат рекламы своих сервисов — телемагазин для айтишников
В роликах комик Илья Макаров объясняет, как облачные и AI-сервисы Cloud.ru помогают решать различные бизнес-задачи за счет:
• внедрения умного поиска по данным
• ускорения разработки приложений
• вайб-кодинга с AI
• создания корпоративных AI-агентов
Посмотреть ролики и узнать про простоту и удобство сервисов провайдера можно по ссылке.
Реклама. ООО «Облачные технологии», ИНН: 7736279160. Erid: 2W5zFKAMp32. 0+
Не пропусти МТС True Tech Champ — масштабный фестиваль 21 ноября для тех, кто живет технологиями 🔥
Тебя ждут:
▫️ Конференция с международными спикерами. Эксперты расскажут о трендах в ИИ и инновациях в индустрии.
▫️ ИТ-качалка. Наращивай экспертизу на воркшопах.
▫️ Шоу-финал ИТ-чемпионата. Более 250 талантов со всей России сразятся в лайв-кодинге и программировании роботов на скоростное прохождение лабиринтов со спецэффектами. Выбирай и болей за фаворитов.
▫️ Айтивности. Тебя ждут бои роботов, кодерские челленджи, пайка плат и не только. Заработай True Coins и обменяй их на стильный мерч.
▫️ HR-Hub. Команда МТС расскажет о возможностях для развития в компании и поможет перезагрузить карьерный трек.
▫️ Афтепати со звездными хэдлайнерами. Зажги под популярные хиты.
Когда: 21 ноября, МТС Live Холл в Москве и онлайн.
Регистрируйся на сайте. Участие бесплатно, количество мест ограничено.
🧠 Суперспособности для Claude Code
Репозиторий предоставляет редактируемую сообществом библиотеку навыков для плагина суперспособностей Claude Code. Пользователи могут добавлять новые навыки и улучшать существующие, способствуя развитию проекта.
🚀 Основные моменты:
- Редактируемая библиотека навыков
- Утилиты для управления навыками
- Поддержка сообщества для улучшений
📌 GitHub: https://github.com/obra/superpowers-skills
🍎 Apple выпустила Pico-Banana-400K - это крупнейший открытый датасет для редактирования изображений по тексту.
Что внутри:
• ~400 000 примеров на основе реальных фото из Open Images
• 35 типов правок в 8 категориях: от изменения цвета до замены объектов, стилей, текста, выражений лиц и даже расширения кадра
• Все правки делала модель Nano-Banana, а качество оценивал Gemini-2.5-Pro по 4 критериям:
Интересные детали:
• Легче всего модели даются стилизация (93% успеха) и эффекты вроде зернистости плёнки
• Сложнее всего — точное перемещение объектов и редактирование шрифтов (~57–59% успеха)
• Неудачные попытки сохранены — как негативные примеры для обучения
• Общая стоимость сборки датасета — около $100 000
Датасет открыт для исследований (лицензия CC BY-NC-ND 4.0), идеален для разработки ИИ-редакторов следующего поколения.
🔗 GitHub
🚀 IBM представила Toucan: крупнейший открытый набор данных для обучения ИИ-агентов вызывать и использовать инструменты (tool calling).
Toucan содержит более 1,5 млн реальных сценариев взаимодействия с API и внешними сервисами, охватывая 2000+ инструментов - от планирования задач до анализа данных и отчётности.
💡 Модели, обученные на Toucan, уже обошли GPT-4.5-Preview в ряде бенчмарков по эффективности работы с инструментами.
Toucan обучает модели на реальных последовательностях вызовов инструментов, а не синтетических данных.
Подробнее: https://research.ibm.com/blog/toucan-for-tool-calling
#AI #Agents #ToolCalling #IBM #LLM
🔥 GOOGLE AI опубликовали пост о настоящем прорыве в области QUANTUM AI
Сегодня в журнале Nature команда Google впервые показали проверяемое квантовое преимущество с помощью метода, называемого *out-of-time-order correlator (OTOC), или «квантовые эхо».
Эксперимент проведён на квантовом чипе Willow, и он показывает, что квантовые устройства уже способны решать задачи, которые невозможно эффективно симулировать на классических компьютерах.
Квантовый процессор Google выполнил алгоритм под названием Quantum Echoes - в 13 000 раз быстрее, чем лучший классический алгоритм на одном из самых мощных суперкомпьютеров в мире.
🟠Что это значит простыми словами
Учёные научились буквально «отматывать время» в квантовой системе и смотреть, когда она переходит от упорядоченного поведения к хаосу. Этот переход - ключ к пониманию, где начинается настоящее квантовое преимущество.
Проще говоря:
1) Учёные запускают квантовую систему вперёд во времени, позволяя ей запутаться и “рассеять” информацию.
2) Затем применяют обратные операции, как будто “перематывают” процесс назад.
3) Если всё сделано идеально, система должна вернуться в исходное состояние,но из-за квантового хаоса это происходит лишь частично.
4) Разница между “до” и “после” показывает, насколько глубоко информация ушла в хаос.
Работа показывает, что можно извлекать информацию из хаотичных квантовых состояний, ранее считавшихся полностью случайными.
Такой эффект невозможно воспроизвести на обычных суперкомпьютерах. Это шаг к практическим квантовым вычислениям, которые смогут моделировать материалы, молекулы и сложные физические процессы с точностью, недостижимой ранее.
«Quantum Echoes может стать основой будущих квантовых разработок для реального применения.
*Out-of-time-order correlator (сокращённо OTOC) - это специальная метрика, с помощью которой физики измеряют, как быстро информация "распространяется" и смешивается внутри квантовой системы.
🟢 Статья: https://www.nature.com/articles/s41586-025-09526-6
@ai_machinelearning_big_data
#QuantumComputing #Google #AI #Nature #Physics
Крутая работа от NVIDIA + MIT 👏
QeRL (Quantization-enhanced Reinforcement Learning) - новый способ обучать LLM-модели с подкреплением, используя 4-битные веса и адаптивный шум.
📈 Результат работы метода: до 1.5× быстрее rollout’ы* и полноценное RL-обучение 32B модели на одной H100 (80 GB).
Rollout - это прохождение эпизода или попытка модели выполнить задачу от начала до конца, чтобы потом оценить её действия и выдать награду.
🚀 Примеры ChatKit для разработчиков
Репозиторий содержит продвинутые примеры использования ChatKit, включая интеграцию FastAPI и Vite + React. Он демонстрирует, как создать сервер ChatKit с помощью Python SDK и использовать различные инструменты для взаимодействия с клиентом.
🚀 Основные моменты:
- Полный шаблон проекта с фронтендом и бэкендом.
- Интеграция с инструментами для получения погоды и переключения тем.
- Легкая разработка с проксированием запросов через Vite.
📌 GitHub: https://github.com/openai/openai-chatkit-advanced-samples
#python
🌌 Google Gemini научили распознавать взрывающиеся звёзды по 15 примерам
Google Research показали, что мультимодальная модель Gemini способна находить *вспышки сверхновых и другие астрономические события* — буквально по нескольким обучающим примерам.
🚀 Главное
- Использован few-shot learning — всего ~15 примеров для каждой обсерватории *(Pan-STARRS, MeerLICHT, ATLAS)*
- Модель видит три изображения: новое, эталонное и разницу между ними
- Gemini не просто ставит метку, но объясняет, *почему* считает событие настоящим
- Средняя точность — 93 %, после итераций до 96,7 %
- Умеет оценивать свою неуверенность и просить помощи человека
- Объяснения модели признаны экспертами-астрономами достоверными
🔭 Почему это важно
- Будущие телескопы вроде Vera Rubin Observatory будут генерировать *миллионы сигналов каждую ночь* — без ИИ это невозможно обработать
- Подход few-shot позволяет быстро адаптировать модель к новым данным без переобучения
- Gemini превращается в научного помощника, а не просто классификатор
⚠️ Ограничения
- 93 % ≠ 100 % — человек-в-петле всё ещё необходим
- Модель чувствительна к качеству примеров и может ошибаться на редких артефактах
Вывод: Gemini теперь не просто анализирует изображения, а *учится думать как учёный* — объясняя, сомневаясь и адаптируясь к новым задачам.
📖 Источник: https://research.google/blog/teaching-gemini-to-spot-exploding-stars-with-just-a-few-examples/
Не говорите создателю Markdown, что целая индустрия AI-агентов теперь зависит от каких-то .md-файлов, которые он когда-то написал просто ради удобства.
Читать полностью…
🌍 NVIDIA лидирует в опенсорсе в области ИИ, а китайские лаборатории только догоняют.
Всего пару лет назад большинство моделей - особенно крупные языковые - были закрыты
.
Теперь всё иначе: экосистема открытого ИИ растёт взрывными темпами. Только за последние 90 дней на Hugging Face появилось более миллиона новых репозиториев.
NVIDIA вышла в лидеры по количеству открытых проектов в 2025 году: серии Nemotron, BioNeMo, Cosmos, Gr00t и Canary.
Китайские компании (Alibaba Cloud с Qwen, Baidu, Tencent и другие) активно догоняют и уже способны конкурировать с западными лабораториями.
Открытый ИИ стал не только про гигантов - тысячи независимых разработчиков публикуют модели, датасеты и адаптации (например, LoRA). Это превращается в целое движение.
Меняется глобальная карта ИИ: Китай и США усиливают позиции, а Европа и другие страны всё больше уходит в тень.
⚠️ Но есть нюансы:
Открытость ≠ качество: важно следить за достоверностью данных, этикой и устойчивостью моделей.
Рост числа репозиториев требует фильтрации — не всё из нового имеет практическую ценность.
Лицензии и совместимость становятся критически важными: ошибки здесь могут стоить дорого.
📎 Подробнее: https://aiworld.eu/story/nvidia-leads-open-source-ai-momentum-as-chinese-labs-close-in
#OpenSourceAI #NVIDIA #China #Innovation #AI #Ecosystem
Uber запускает новый способ заработка для водителей в США 💰
Теперь водители смогут получать деньги, выполняя «цифровые задачи» — короткие задания, которые занимают всего пару минут и доступны даже во время ожидания пассажиров.
Примеры таких задач:
▫️ разметка данных для обучения ИИ
▫️ загрузка меню ресторанов
▫️ запись голосовых сэмплов
▫️ озвучка сценариев на разных языках
Потенциал огромен: компании вроде Scale AI и Surge AI, занимающиеся разметкой данных, уже оцениваются примерно в $30 млрд каждая.
В начале октября Uber также приобрёл бельгийский стартап Segments AI, специализирующийся на разметке данных, чтобы усилить свои позиции в этой сфере.
📘 На Stepik вышел курс — «MLOps-инженер: С нуля до продакшена»
Хотите автоматизировать ML-пайплайны, версионировать модели и выстраивать надёжный деплой в production? Этот курс — полный путь MLOps-инженера.
ML Pipeline: MLflow, Airflow, автоматизация обучения и валидации моделей
Эксперименты: DVC, Weights & Biases, версионирование и воспроизводимость
Model Serving: TensorFlow Serving, ONNX, A/B тестирование моделей
Контейнеризация: Docker для ML, GPU-контейнеры, оптимизация образов
Kubernetes: Kubeflow, автомасштабирование inference
Feature Store: Feast, управление фичами, data drift detection
Мониторинг: Evidently AI, model drift, data quality
CI/CD для ML: автотесты моделей, staged rollout
Облака: SageMaker, Vertex AI, cost optimization
Production: model registry, canary deployments, SLA для ML
🎓 Сертификат — добавьте в резюме или LinkedIn
🚀 Скидка 25%, действует 48 часов
👉 Пройти курс на Stepik
📈 Вышел новый важный бенчмарк для исследовательских ИИ
LiveResearchBench - это *живой пользовательский бенчмарк* для оценки глубинных исследовательских систем на реальных, «полевых» задачах.
Он проверяет, могут ли исследовательские агенты создавать отчеты с корректными цитатами под реальные запросы пользователей. Всего собрано *100 задач в 7 доменах и 10 категориях*, на разработку ушло 1500 часов работы экспертов.
Старые бенчмарки устарели, были узкими и часто пересекались с данными предобучения.
Поэтому авторы ввели 4 строгих правила:
- задачи должны быть ориентированы на пользователя
- четко определены
- использовать актуальные данные из интернета
- требовать синтеза информации из множества источников
Каждая задача проходила 6 стадий создания (от интервью с пользователями до экспертной доработки) и 5 стадий проверки качества (независимые ревью и контроль качества).
Для оценки результатов создан фреймворк DeepEval, который оценивает отчеты по 6 критериям: структура, фактическая точность, корректность цитирования и др.
Используются чек-листы, парные сравнения и древовидные рубрики.
Для снижения смещения авторы использовали ансамбль моделей Gemini 2.5 Pro и GPT-5 как оценщиков, что сделало результаты стабильнее.
Тесты 17 агентных систем показали:
- мультиагентные решения лучше оформляют отчеты и ставят цитаты
- одиночные агенты стабильнее, но уступают в глубине рассуждений
Это важный шаг к тому, чтобы измерять, могут ли ИИ-агенты работать как настоящие исследователи - находить, анализировать и цитировать информацию из живых источников.
🔗 https://arxiv.org/abs/2510.14240
☀️ Google DeepMind и Commonwealth Fusion Systems запускают проект по созданию управляемого ИИ ядерного синтеза
Google DeepMind объединяется с Commonwealth Fusion Systems (CFS), чтобы применить искусственный интеллект для ускорения разработки термоядерной энергии — того самого процесса, который питает Солнце.
🔬 Как это работает:
DeepMind создаёт систему управления, способную с помощью ИИ смоделировать миллионы виртуальных экспериментов в симуляторе TORAX.
Ещё до запуска установки SPARC, ИИ определяет наиболее стабильные и энергоэффективные режимы плазмы, находя оптимальные условия для удержания температуры и плотности.
🔥 При работе на полную мощность SPARC выделяет огромное количество тепла, сконцентрированного в очень малой области.
ИИ будет в реальном времени управлять формой и динамикой плазмы, чтобы равномерно распределять это тепло и защищать материалы реактора.
> «Мы исследуем, как агенты с подкреплением могут научиться динамически контролировать плазму — чтобы поддерживать устойчивую работу и избегать перегрева.»
💡 Этот проект открывает новую эру - “AI-guided fusion”:
ИИ становится не просто инструментом анализа, а активным управляющим звеном, которое помогает человечеству приблизиться к источнику чистой, безопасной и практически бесконечной энергии.
⚡ Благодаря ИИ путь к «пост-дефицитной» цивилизации становится реальностью - и, возможно, гораздо ближе, чем кажется.
https://deepmind.google/discover/blog/bringing-ai-to-the-next-generation-of-fusion-energy/
#AI #DeepMind #FusionEnergy #Google #CFS #ReinforcementLearning #SPARC #CleanEnergy #Science #Innovation