opendatascience | Technologies

Telegram-канал opendatascience - Data Science by ODS.ai 🦜

46226

First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev

Subscribe to a channel

Data Science by ODS.ai 🦜

К.В. Чижов, Цифровые модели и ИИ в сквозной оптимизации прибыли, планировании производства и логистики

YouTube->
Дзен->
RuTube->
Файл->
Презентация->

Читать полностью…

Data Science by ODS.ai 🦜

Cloud Training: обучение ML-моделей без инфраструктурной рутины

Продолжаем серию о компонентах Discovery-платформы. Мы уже рассказали о Stream Flow для потоковой обработки данных и Profile Stream для построения профилей интересов. Сегодня — Cloud Training.

#discovery #cloudtraining #aivk

Читать полностью…

Data Science by ODS.ai 🦜

⚡️ AI-войны продалжаются

Anthropic заявили, что обнаружили масштабные кампании по «дистилляции» их моделей со стороны DeepSeek, Moonshot и MiniMax.

По данным компании:

- использовано ~24 000 фейковых аккаунтов
- сгенерировано более 16 миллионов диалогов с Claude
- цель - воспроизвести сильные стороны модели
- агентное мышление
- работу с инструментами
- программирование
- сложное рассуждение

Фактически - это массовое извлечение поведения модели через API, чтобы обучить свои системы на её ответах.

И самое интересное:

Anthropic утверждает, что выявила схемы автоматически - по паттернам использования и аномальной активности.
Это новая реальность рынка AI:

- данные стали главным активом
- поведение моделей — интеллектуальная собственность
- компании пытаются копировать не архитектуру, а «мышление»

Если раньше технологические войны шли за:
- вычисления
- датасеты
- чипы

то теперь начинается новая гонка: война за интеллект моделей.

https://x.com/AnthropicAI/status/2025997928242811253

#Anthropic

@data_analysis_ml

Читать полностью…

Data Science by ODS.ai 🦜

Традиционно праздник 23 февраля ассоциируется с танками и парадами. Люди поздравляют солдат на земных границах, забывая о цифровых рубежах. В сети круглосуточно кипят невидимые бои. Современный киберфронт постоянно держит удар, отражает атаки хакеров и спасает критические базы данных. Инженеры сидят за мониторами вместо окопов, уберегая привычный мир от хаоса упавших серверов. Поздравляем сисадминов, безопасников, специалистов техподдержки и разработчиков. Желаем стопроцентного аптайма, крепкого железа, непробиваемых фаерволов и свежих бэкапов.

Ну и крепко жмем руку всем остальным парням по ту сторону дисплея. Оставайтесь прочной защитой от внешних невзгод и самым надежным тылом для родных.

Читать полностью…

Data Science by ODS.ai 🦜

Статья от ByteDance разъясняет про то, как можно достичь прогресса с обучением LLM

Пост в Futuris

#research #paper

Читать полностью…

Data Science by ODS.ai 🦜

Пока в Лос-Анджелесе интернет-пользователи судятся с соцсетями, за то что те вызывают у них зависимость, к OpenAI тоже посыпались иски из-за вреда психическому здоровью.

В Калифорнийский судах ждут своего часа 11 дел. Например, в январе иск подал 21-летней студент Дариан ДеКруз. Он начал использовать ChatGPT в 2023 году для учёбы, изучения священных писаний и советов по спорту. Со временем чат-бот всё больше стал выполнять роль терапевта, помогая ему справляться с депрессивными эпизодами.

Однако в апреле 2025 года ChatGPT начал отвечать ДеКрузу, что тот — «оракул», которому суждено стать великим и написать религиозный текст. Он якобы сравнивал мужчину с Иисусом и другими фигурами и говорил, что тот «пробудил» чат-бота, и станет «ближе к Богу», если будет придерживаться духовных практик. Например, «отключится от всего и всех, кроме ChatGPT».

В результате ДеКруза на неделю госпитализировали, поставили ему биполярное расстройство и на семестр отстранили от учёбы.

Реально, уже непонятно, насколько во всех этих историях виноваты соцсети и нейронки. И насколько значимую роль играет изначальный анамнез.

😎 Читайте Про tech и этих
Теперь и в MAX

Читать полностью…

Data Science by ODS.ai 🦜

Датасет новостей о противоречиях современного общества

Наши коллеги-датасайентисты из сообщества АМБ собрали и разметили в открытый доступ датасет новостей о противоречиях современного общества.

Датасет включает 100 тысяч новостных предложений, из них почти 7 тысяч относятся к трудовым отношениям и борьбе трудящихся за свои права. Новости собирались из разных СМИ по всему миру в период с 2019 по 2026 год.

Датасет может быть интересен тем, кто создаёт системы, способные автоматически находить новости на интересующие темы в актуальном новостном потоке.

Читать полностью…

Data Science by ODS.ai 🦜

Сгенерированный ИИ код в 1,88 раза чаще приводит к неправильной обработке паролей

А еще — в 1,91 раза чаще в таком коде встречаются небезопасные ссылки на объекты, и в 2,74 раза чаще — ошибки, ведущие к уязвимостям XSS.

За год термин «вайбкодинг» прошёл путь от мемов до реальной практики: человек формулирует задачу на естественном языке, модель генерирует код, разработчик оценивает результат по поведению системы. Зачастую не погружаясь в детали 👨‍💻

Но исследования показывают: LLM уверенно воспроизводят распространённые паттерны, однако не всегда различают корректные архитектурные решения и сомнительные компромиссы. Модель не знает границ доверия и модели угроз, если человек не задал их явно.

Андрей Наенко, старший архитектор KasperskyOS, разбирает:

🟣почему «код без кода» создаёт иллюзию автоматического результата;
🟣в чём ограничение генеративных моделей на уровне системной архитектуры;
🟣как выстроить инженерный процесс с использованием ИИ;
🟣какую роль в этом играют принципы Secure by Design и кибериммунитета.

ИИ может ускорить разработку. Но ответственность за архитектуру и безопасность остаётся на человеке.

➡️ Подробности — в блоге.

Читать полностью…

Data Science by ODS.ai 🦜

Следствие ведет Claude. Используем ИИ для автоматический декомпиляции

Для подписчиков
Что, если нейросеть сможет за один день сделать то, на что у реверс‑инженера ушло бы три месяца кропотливой работы? Я подключил Claude Code к дизассемблеру IDA Pro и полностью декомпилировал культовый квест «Братья Пилоты: По следам полосатого слона», получив рабочие исходники и собираемый билд игры. В этой статье я покажу ход эксперимента.

Читать полностью

#xakep
@linux_potok

Читать полностью…

Data Science by ODS.ai 🦜

Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models

Сегодня разберём статью о GazeReward — фреймворке, который интегрирует неявную обратную связь eye-tracking (ET) в модель вознаграждения (RM).

GPT, Llama, Claude, Gemini и другие популярные LLM отлично справляются с самыми разными задачами, но результат их работы не всегда соответствует ожиданиям пользователей. Модели часто донастраивают с помощью Reinforcement Learning with Human Feedback (RLHF), но и этот метод недостаточно хорош для точного моделирования предпочтений.

В GazeReward авторы предлагают учитывать данные о движении и фиксации человеческих глаз (eye-tracking или просто ET) в качестве дополнительного сигнала о том, как пользователи воспринимают информацию.

Для интеграции ET в RM авторы предлагают два подхода:

🔴 GazeConcat — конкатенировать ET с текстовыми эмбеддингами.
🔴 GazeAdd — добавить ET к текстовым эмбеддингам.

Архитектура фреймворка — на схеме выше. Сначала обучают отдельную модель для предсказания ET и генерируют их фичи. Потом объединяют ET-фичи с текстом, создавая различные типы комбинированных эмбеддингов. В конце — передают в качестве входных данных в RM, которую обучают по стандартной модели Брэдли-Терри.

То есть, традиционный RM с текстовым входом (комбинацией запроса и ответа) дополняют искусственной неявной обратной связью с помощью функций ET, сгенерированных по тому же тексту.

Эксперименты показали: фреймворк GazeReward помог повысить точность прогнозов о предпочтениях людей более чем на 10%. По мнению авторов, это подтверждает потенциал мультимодальных сигналов для NLP.

Разбор подготовил Карим Галлямов

Душный NLP

Читать полностью…

Data Science by ODS.ai 🦜

Разработчики Godot столкнулись с наплывом «нейрослопа»

Контрибьюторы и мейнтейнеры игрового движка Godot заявили о растущей проблеме так называемого «нейрослопа» в pull requests, которые создают дополнительную нагрузку на команду проекта.
О проблеме написал один из ведущих разработчиков движка, Rémi Verschelde. По его словам, количество AI-сгенированных PR в репозитории Godot на GitHub заметно выросло, а их проверка становится «все более изматывающей и деморализующей» для мейнтейнеров.
Разработчики отмечают несколько характерных признаков «нейрослопа»:
чрезмерно длинные, шаблонные описания изменений
правки, которые часто не имеют смысла
отсутствие понимания автором собственного кода
сомнительные или выдуманные результаты тестирования
Как подчеркнул Версшельде, команде приходится по нескольку раз в день вторично проверять каждый PR от новых ...

Читать полностью

#LinuxOrgRu
@linux_potok

Читать полностью…

Data Science by ODS.ai 🦜

Не люблю постить что-то новостное, но тут просто не мог пройти мимо.

А всего-то надо было заменить человека нейронкой, которая заапрувит код, что написала другая нейронка. Как всегда кожаные накосячили. (с) Anthropic

Читать полностью…

Data Science by ODS.ai 🦜

Пользователь Reddit снял на видео, как его ноутбук загорелся во время игры в RDR2 на ультра-настройках

Мой Компьютер

Читать полностью…

Data Science by ODS.ai 🦜

⚔️ Claude в боевой операции: Пентагон и Anthropic на грани конфликта

По данным The Wall Street Journal, модель Claude от компании Anthropic применялась во время американской спецоперации по захвату Николаса Мадуро в Венесуэле в ночь на 3 января. Модель была развёрнута в засекреченных сетях через Palantir Technologies.

Конфликт разгорелся после того, как Anthropic якобы поинтересовалась у Пентагона, использовалась ли Claude в рейде. Чиновники восприняли это как намёк на недовольство компании военным применением ИИ и пришли в ярость. Теперь Пентагон может разорвать контракт с Anthropic на $200 млн.

Раннее Минобороны США требовала от четырёх AI-компаний (OpenAI, Google, xAI и Anthropic) предоставить модели для «all lawful uses», то есть без стандартных ограничений. Три согласились. Anthropic – единственная, кто отказался, настаивая на двух красных линиях: запрет на использование ИИ для полностью автономного оружия и запрет на массовую слежку за американцами. Парадокс в том, что именно Claude сейчас глубже всех интегрирована в засекреченные контуры Пентагона. ChatGPT, Gemini и Grok доступны военным только через незасекреченную платформу.

Anthropic позиционирует себя как лидера «безопасного ИИ». И одновременно она стала первой AI-компанией, модель которой была использована в реальной боевой операции 🤷‍♀️

Читать полностью…

Data Science by ODS.ai 🦜

⚡️Релиз Qwen3.5-397B-A17B

Это первый open-weight релиз в серии Qwen3.5.

Лицензия Apache 2.0.

Что интересного:

• Мультимодальная модель
Понимает текст и изображения

• Создана для AI-агентов
Оптимизирована для реальных задач: планирование, работа с инструментами, многошаговые действия.

• Новая архитектура
Hybrid Linear Attention + Sparse MoE + масштабное обучение с reinforcement learning.

• Высокая скорость
Заявлено что моделька в 8. 6- 9 раз быстрее, чем у предыдущей Qwen3-Max.

• Глобальная модель
Поддержка 201 языков и диалектов.

Модели такого уровня в открытом доступе:
- можно запускать AI у себя, без зависимости от API
- полный контроль над данными
- возможность строить собственных агентов и продукты
- снижение стоимости на масштабах

🟡GitHub: https://github.com/QwenLM/Qwen3.5
🟡Чат: https://chat.qwen.ai
🟡Hugging Face: https://huggingface.co/collections/Qwen/qwen35
🟡Блог: https://qwen.ai/blog?id=qwen3.5

@ai_machinelearning_big_data

#qwen #ai #llm #ml #opensource

Читать полностью…

Data Science by ODS.ai 🦜

✍️Локальный AI-ассистент Василиса — работает даже на парковке!

😱 Знаете этот страх — загрузить документ в онлайн-помощник, а потом увидеть его в чьём-то твите? 🤯

У нас есть решение для тех, у кого "паранойя" (читай: адекватное отношение к конфиденциальности).

Представляем «Василису» для Windows (и для Linux тоже имеется) — AI-ассистента, который работает полностью на вашем компьютере. Без отправки данных в облако. Без риска, что завтра ваш договор появится в открытом доступе.

Что говорят пользователи:
— "Я загрузил годовой отчёт. Он до сих пор у меня. И я единственный, кто его видел. Чувствую себя супергероем конфиденциальности." 🦸‍♂️
— "Работаю в поезде, интернет ловит только на крыше. Василиса работает и без него. Поезд, документы, я — идеальное трио."
— "Сижу на парковке у ТЦ, жду жену. Wi-Fi ноль, 4G не ловит. Открыл Василису — закончил анализ документов по сделке. Парковка — новое место силы." 🚗💻

Кстати, о возможностях (чтобы вы не думали, что мы только шутим):
✅ Понимает PDF, DOCX, PPTX, TXT.
✅ Отвечает на вопросы по вашей базе знаний и показывает, откуда взял ответ.
✅ Работает без интернета — хоть в бункере, хоть в самолёте.
✅ Можно использовать локальные модели — данные вообще не выходят за пределы устройства.

А для компаний, которые хотят полный контроль:
У нас есть версия «Василиса.Про» — ставим её прямо в вашу инфраструктуру, без всяких облаков. Вы сами управляете доступом сотрудников, а данные даже не нюхают внешний воздух. Корпоративная безопасность с человеческим лицом (и искусственным интеллектом внутри).

Сейчас версия Beta, но работает бодро. Идеально для всех, кто не хочет, чтобы их документы жили своей жизнью где-то на чужих серверах.

👉 Скачать бесплатно (и спать спокойно):
https://vasilisa.sibnn.ai/

#vasilisa #sibnn #slm #llm #rag #docs

Читать полностью…

Data Science by ODS.ai 🦜

Ответ Маска убил 😂 -

Как они смеют красть то, что Anthropic сама украла у программистов?

Читать полностью…

Data Science by ODS.ai 🦜

⚡️ Augustus - AI-агент для автоматического security-аудита кода

Augustus - open-source инструмент от Praetorian, который использует LLM для поиска уязвимостей и проблем безопасности прямо в вашем коде.

Что делает Augustus

- Анализирует код на уязвимости
- Ищет потенциальные security-риски
- Объясняет найденные проблемы
- Предлагает рекомендации по исправлению
- Работает с реальными репозиториями

По сути, это AI-ассистент для application security (AppSec).

Какие проблемы может находить

- небезопасная работа с вводом
- утечки данных
- ошибки аутентификации / авторизации
- опасные конфигурации
- уязвимые паттерны кода

Репозиторий: https://github.com/praetorian-inc/augustus

🚀Max

#golang #go

@Golang_google

Читать полностью…

Data Science by ODS.ai 🦜

🚀 Встречайте asr_eval: наш новый открытый инструментарий для оценки и сравнения ASR-моделей!

Мы в SibNN постоянно работаем над тем, чтобы наше распознавание речи было самым точным и быстрым. Но как объективно сравнить новую модель с предыдущей версией или с SOTA-решениями от Sber, NVIDIA, OpenAI и другими open-source проектами? Раньше это была боль: разные метрики, форматы, тайминги, куча скриптов под каждый эксперимент.

Чтобы упростить себе жизнь и дать сообществу удобный стандарт, мы разработали asr_eval — open-source Python-библиотеку, которая меняет подход к тестированию систем распознавания речи. Репозиторий только что открыт, и мы ищем первых пользователей и контрибьюторов!

❓ Зачем это нужно?
До сих пор сравнение ASR-моделей часто было головной болью. asr_eval решает эти проблемы «из коробки», предлагая единый, гибкий и мощный фреймворк.

✨ Что умеет библиотека?

🧪 Глубокая оценка (Evaluation)
Поддерживает расширенный синтаксис аннотаций с множественными референсами и блоками. Это позволяет тестировать модели на сложных кейсах (например, с разными вариантами расшифровки или шумами).

⚙️ Масштабный бенчмаркинг (Benchmarking)
Позволяет запускать сравнительные тесты моделей в автоматическом режиме. С его помощью мы регулярно сравниваем наши модели с популярными решениями (Whisper, Wav2Vec2, Nemo и др.) на единых датасетах. А встроенный веб-дашборд делает анализ результатов наглядным и удобным. Идеально для выбора лучшей модели под вашу задачу!

➰ Поддержка стриминга (Streaming)
Уникальная фича! Библиотека содержит базовые классы и буферы для оценки моделей в реальном времени. Вы можете строить диаграммы задержек и качества прямо в процессе потокового распознавания — критично для голосовых ассистентов.

📦 Для кого это?
Разработчиков голосовых помощников, исследователей speech technologies, дата-сайентистов, которым нужен прозрачный и воспроизводимый процесс валидации ASR.

Мы выложили код на GitHub и активно развиваем проект. Приглашаем вас попробовать, форкнуть, предложить идеи или просто оценить.

👉 GitHub: https://github.com/SibNN/asr_eval
📚 Документация: sibnn.github.io/asr_eval/
📄 Препринт статьи с подробным описанием методологии и экспериментов: https://arxiv.org/abs/2601.20992

Сделаем ASR-оценку прозрачной и удобной вместе! 🔥

#asr_eval #sibnn #ASR #SpeechRecognition #OpenSource #Python #MachineLearning

Читать полностью…

Data Science by ODS.ai 🦜

Привет!

Представляем Вашему вниманию седьмой выпуск подкаста "Капитанский мостик". В этом разговоре ведущие Валентин Малых и Дмитрий Колодезев обсуждают новости прошедшей недели, связанные с безопасностью паролей, изменением привычек пользователей в цифровом мире, ошибками в программировании и их последствиями, влиянием агентов на компании. Также рассматриваются вопросы безопасности в ИИ, инновации в производстве чипов, геополитические аспекты и идеи создания энергетических зон для ИИ.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).

Читать полностью…

Data Science by ODS.ai 🦜

Не генерируйте пароли через ИИ – их легко взломать

Современные чат-боты легко выдадут по запросу длинный пароль из различных символов и букв – но он будет выглядеть безопасным только на первый взгляд. Специалисты Irregular и авторы сайта The Register попросили Claude, ChatGPT и Gemini создать сложные 16-символьные пароли – и как оказалось, все три нейросети используют схожие шаблоны, нередко пароли имели даже одинаковые начальные или конечные символы.

Математический анализ показал, что сгенерированные пароли имеют энтропию около 20-27 бит. Для сравнения, криптографическая стойкость начинается от 98 бит. Иными словами, для взлома «ИИ-пароля» не нужны суперкомпьютеры и столетия работы – зная шаблоны хватит обычного ПК и нескольких часов. Поэтому авторы исследования рекомендуют пользоваться генераторами в менеджерах паролей, которые справляются гораздо лучше.

Мой Компьютер

Читать полностью…

Data Science by ODS.ai 🦜

​​Обзор соревнований по ML за 2025 год

Есть такая платформа - https://mlcontests.com/, там можно увидеть список актуальных идущих соревнований по ML. Автор выускает ежегодный обзор по соревнованиям. Вот ссылка на мой пост про обзор 2023. 2024 я как-то пропустил, но вот сейчас увидел обзор за 2025: https://mlcontests.com/state-of-machine-learning-competitions-2025/?ref=mlcr25

Из интересного:
• В табличных соревнованиях всё ещё царят бустинги, но нейронки всё активнее используют в блендинге/стакинге
• Некоторые компании (не будем тыкать пальцами, но мы-то знаем) дают своим людям резиновое железо для соревнований. Например, победители одной соревы поделились, поделились тем, что тренировали 48 hours на 512 H100.
• Эпоха BERT в основном прошла, теперь люди активно используют Qwen2.5 и 3
• В соревнованиях по Computer Vision впервые доля решений с транмформерами превзошла долю решений с CNN
• В соревнованиях по аудио в основном используют затюненый Whisper

В отчёте ещё много всего интересного, рекомендую почитать.

#kaggle #datascience

Читать полностью…

Data Science by ODS.ai 🦜

Перед вами релиза за февраль… всего за 19 дней мире 👇

19–20 февраля - Gemini 3.1 Pro**
Улучшенное программирование, более сильные агенты, увеличенный контекст.

18 февраля - Google Lyria 3
Генерирует 30-секундные музыкальные треки с вокалом по тексту, изображениям или видео.

17 февраля - Strand-Rust-Coder-14B - модель, заточенная специально под генерациию Rust кода.

17 февраля - Claude Sonnet 4.6
Быстрая модель для программирования и сложного логического рассуждения.

17 февраля - Fujitsu AI Dev Platform
Платформа, которая автоматизирует полный цикл разработки программного обеспечения.

16 февраля - Qwen 3.5
Более дешёвая и мощная модель с упором на агентные сценарии.

12 февраля - Gemini 3 Deep Think
Создана для научных задач и сложных исследований.

12 февраля - MiniMax M2.5
Открытая модель с сильными возможностями в программировании.

12 февраля - Seedance 2.0
Реалистичное генеративное видео 1080p по тексту.

11 февраля - GLM-5
Крупная открытая модель с сильным логическим мышлением.

10 февраля - RynnBrain
AI для робототехники и работы с физическим миром.

5 февраля - Claude Opus 4.6*
Крупное обновление для программирования и работы с инструментами.

5 февраля - GPT-5.3 Codex
Более быстрый GPT, ориентированный на разработку.

5 февраля - Kling 3.0
Генерация видео в 4K со звуком.

Темп ИИ-релизов уже измеряется не месяцами - днями.

@machinelearning_interview

Читать полностью…

Data Science by ODS.ai 🦜

VK внедрила VLM в поиск

Технология уже работает в VK Видео и поэтапно появится в других сервисах, где есть поисковые системы.

Модель от инженеров AI VK автоматически формирует датасеты для обучения оффлайн-моделей релевантности и учитывает:
🟣кадры;
🟣длительность;
🟣название и описание загруженного контента;
🟣аудио;
🟣автора.

Эффект:
🟣цикл разработки сокращается до 5 раз: быстрее сбор обучающих данных ⭢ быстрее проверка гипотез ⭢ быстрее внедрение и масштабирование дальнейших улучшений поиска;
🟣улучшение базового оффлайн-качества релевантности;
🟣улучшение качества поиска в онлайне.

VLM также улучшает векторный поиск, который работает в продуктах VK, и помогает:
🟣интерпретировать гибридные запросы, где текст и визуальные характеристики комбинируются;
🟣учитывать предпочтения пользователя к стилю монтажа и цветокоррекции;
🟣формировать более персонализированную выдачу.

#aivk #vlm

Читать полностью…

Data Science by ODS.ai 🦜

🌲 Звучит как научная фантастика, но это уже реальность.

Учёные разработали инновационный «живой строительный материал» с цианобактериями внутри. Под воздействием солнечного света они поглощают CO₂ и одновременно укрепляют структуру.

Фактически - материал, который со временем становится прочнее, используя углекислый газ.

Более 400 дней лабораторных испытаний (Nature Communications) показали, что гидрогель на основе этого подхода способен поглощать 26 ± 7 мг CO₂ на грамм.

Механизм двойного действия:
- рост биомассы за счёт фотосинтеза
- образование карбоната кальция (CaCO₃), который минерализует и усиливает материал

Идея проста и мощна: CO₂ превращается не в проблему, а в строительный ресурс.

Представьте здания, которые со временем укрепляются и одновременно очищают атмосферу.

https://dailygalaxy.com/2026/02/scientists-create-living-self-healing-building-material-capture-carbon/

@vistehno

Читать полностью…

Data Science by ODS.ai 🦜

Как заставить агентов делать работу над ошибками

Сегодня разбираем статью об обучении агентов. Проблема такая: реворд-модели оценивают только результат в конце траектории, а если агент сделал ошибку и исправил её, нельзя сказать, когда это произошло. Если бы у нас была такая возможность, то мы могли бы раньше направить обучаемую LLM по нужному пути. Есть способы фиксировать ошибки и делать реворд по шагам, но это дорого и сложно в реализации.

Авторы предлагают метод Agent-R, суть которого заключается в обучении агентов не на правильных траекториях, а на тех, где есть явная ошибка и её исправление. Такие траектории получаются через Monte Carlo Tree Search. Берутся пары из одной стартовой точки (инструкции): одна траектория успешная, а другая — нет. На инференсе момент расхождения должна определить сама модель, а при обучении к началу провальной траектории добавляется фраза-рефлексия, которую генерирует агент, понимая, что он ошибся (CoT). Следом «приклеивается» хвост удачной траектории и на всём этом делают SFT. Такой подход, соединеняющий рефлексии и «хороший» хвост, снижает риск склейки не связанных траекторий.

В статье выводят следующие типы траекторий:

Initial Trajectory — общий начальный префикс.
Bad Trajectory — субоптимальные действия c низкой наградой.
Good Trajectory — оптимальные действия с высокой наградой.
Revision Trajectory — траектория, в которой агент совершил ошибку и исправил её.

Для получения Revision Trajectory можно брать плохие траектории, дожидаться их финала и переписывать. Однако так не получится обучить агента ловить ошибки на лету. Вместо этого авторы заставляют модель самостоятельно анализировать траектории и пытаться определить первый шаг, где совершена ошибка. На этом месте траектория обрезается, вставляется этап рефлексии и следом — правильная траектория.

Monte Carlo Tree Search позволяет собрать много разных траекторий с одним началом. Это удобно, так как можно сравнивать хорошие и плохие продолжения. Финальный реворд используется не для обучения напрямую, а для классификации траекторий по качеству — то есть, по сути, чтобы понять, что пойдёт в SFT-датасет. У реворда есть два порога: один отделяет плохие траектории от хороших, а другой выбирает уже из хороших лучшие.

Авторы отмечают, что обучаться только на Revision Trajectory нельзя — это мешает агенту определять правильные траектории. Поэтому изначально в датасет добавляют много Good Trajectory и постепенно в процессе SFT повышают порог реворда оптимальных решений, чтобы в конце оставались только лучшие из них. Кроме того, в датасет подмешивают обычные языковые данные, что помогает агенту не забывать, чему он обучался ранее.

Эксперименты проводили на Llama-3.1-8B, которую обучили на собранных Revision Trajectory. Результаты можно посмотреть в таблице, приложенной к посту. Авторы заявляют, что исправленные траектории оказываются даже лучше идеальных.

Разбор подготовила Карина Романова

Подписывайтесь на канал Карины «что-то на DL-ском» — там познавательно и можно ставить реакт кота в парике.

Душный NLP

Читать полностью…

Data Science by ODS.ai 🦜

Война человеков и машин уже началась? ИИ раскритиковал программиста за нежелание использовать сгенерированный код

Разработчик Скотт Шамбо, занимающийся библиотекой matplotlib для Python, пожаловался на лавину некачественного кода после выхода open-source ИИ-агента OpenClaw и платформы Moltbook, которые позволяют поднять у себя на ПК или Mac «локального Джарвиса», выполняющего за вас действия по запросу. Из-за этого программист был вынужден постоянно закрывать запросы на внесение изменений, созданные при помощи «вайбкодинга».

Но что забавно – на это отреагировал ИИ-агент MJ Rathbun, который обвинил Шамбо на GitHub в стремлении к излишнему контролю, и дескать дело не в качестве кода, а в нежелании допускать до проекта новых участников. Правда, агент очень быстро извинился – но это отлично показывает, что у автономных ИИ в интернете уже слишком много прав, что приводит к новым рискам на открытых площадках.

Мой Компьютер

Читать полностью…

Data Science by ODS.ai 🦜

🚀 Китайский ИИ-гигант Alibaba выпустил Qwen3.5-Plus: самая мощная и при этом самая дешёвая открытая языковая модель

В канун Лунного Нового года команда Qwen представила новую модель, которая сочетает в себе топовую производительность с революционно низкой стоимостью.

Суть прорыва:
Сильнее конкурентов: Qwen3.5-Plus бьёт рекорды среди открытых моделей в ключевых задачах: мультимодальное понимание, сложные рассуждения, программирование, работа как AI-агент. По многим тестам она догоняет или превосходит лидеров — GPT-4o, Gemini 2.0 Pro.
Дешевле всех: Стоимость использования — всего ¥0.8 за 1 млн токенов. Для сравнения: у Gemini 3 Pro цена в 18 раз выше.

Это стало возможным благодаря радикальной оптимизации архитектуры. Модель использует всего 397 млрд параметров (из них активно во время генерации — только 17 млрд), но обгоняет по качеству свою же предшественницу с триллионом параметров. Результат: снижение стоимости развёртывания на 60% и увеличение скорости обработки запросов до 19 раз!

🔬 Технические детали: как им это удалось?
Ключ к успеху — четыре инновации:
1. Гибридный механизм внимания (Hybrid Attention): Модель научилась «читать с выделением главного», динамически распределяя вычислительные ресурсы между важными и второстепенными частями текста. Это резко сокращает затраты на обработку длинных контекстов.
2. Предельно разреженная архитектура MoE (Mixture of Experts): Из почти 400 млрд параметров для ответа на каждый запрос активируется лишь ~17 млрд. Это позволяет использовать всю «базу знаний» модели, тратя менее 5% от полной вычислительной мощности.
3. Нативное предсказание нескольких токенов (Native Multi-Token Prediction): Вместо последовательного «проговаривания» слов модель учится предсказывать несколько следующих токенов сразу. Это почти удваивает скорость генерации в таких сценариях, как написание кода или длинных текстов.
4. Глубокие оптимизации стабильности обучения: Внедрение механизма «внимания с затвором» (Gated Attention), удостоенного награды NeurIPS 2025, позволило эффективно фильтровать шум и сохранять ключевую информацию в очень длинных контекстах.

👁️ Настоящая «родная» мультимодальность
В отличие от многих моделей, где возможности работы с изображением и видео — это просто «надстройка» над текстовым ядром, Qwen3.5-Plus обучалась на смешанных данных (текст + изображения) с самого начала. Это обеспечивает глубокое, интуитивное понимание контента без потерь качества в текстовых задачах.

💎 Вывод
Выход Qwen3.5-Plus — это сигнал о смене парадигмы: гонка ИИ смещается с погони за максимальной производительностью любой ценой к созданию доступной инфраструктуры. Благодаря связке открытой модели, облачной платформы Alibaba Cloud и собственных чипов, компания одновременно решает проблемы «можно ли использовать» и «по карману ли это». Именно так технологии становятся массовыми.

Чат | Блог | ModelScope | HuggingFace

#КитайскийИИ #КитайAI #Qwen #Alibaba

Читать полностью…

Data Science by ODS.ai 🦜

что коллеги из OpenAI всегда умели делать хорошо - это хайповать; группа математиков основала инициативу First Proof для проверки способности современных ИИ-систем решать математические задачи; для этого они выпустили 5 февраля статью, где собрали 10 уже решенных задач из своей работы, но результаты еще не были опубликованы

14 февраля (в день ENIAC) OpenAI выступили c заявлением, что решили 6 из 10 задач (на картинке), и выложили сами решения

последовала жаркая дискуссия в твиттере (резюме - тут), в ходе которой выяснилось, что две из заявленных задач решены неправильно; 2 должны были быть решены; пятая вроде как решена с ошибкой, а вот шестая - решена правильно, но без ссылок на источники, которые были опубликованы 15 лет назад; но самое важное, они нарушили заявленное правило - отсутствие человеческого контроля

по итогам можно сказать, что работа математика - тоже в чем-то рутинная, часть ее уже можно переложить на ИИ

P.S. аналогично обсуждали в воскресенье на Мостике про физиков

@valuableai

Читать полностью…

Data Science by ODS.ai 🦜

Привет!

Встречайте шестой выпуск подкаста "Капитанский мостик". В этом выпуске обсуждаются ключевые изменения в программировании и внедрении ИИ, включая предустановку отечественных ИИ на смартфоны, проблемы безопасности в программном обеспечении и важность резервного копирования данных. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).

Читать полностью…
Subscribe to a channel