46226
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Как заставить агентов делать работу над ошибками
Сегодня разбираем статью об обучении агентов. Проблема такая: реворд-модели оценивают только результат в конце траектории, а если агент сделал ошибку и исправил её, нельзя сказать, когда это произошло. Если бы у нас была такая возможность, то мы могли бы раньше направить обучаемую LLM по нужному пути. Есть способы фиксировать ошибки и делать реворд по шагам, но это дорого и сложно в реализации.
Авторы предлагают метод Agent-R, суть которого заключается в обучении агентов не на правильных траекториях, а на тех, где есть явная ошибка и её исправление. Такие траектории получаются через Monte Carlo Tree Search. Берутся пары из одной стартовой точки (инструкции): одна траектория успешная, а другая — нет. На инференсе момент расхождения должна определить сама модель, а при обучении к началу провальной траектории добавляется фраза-рефлексия, которую генерирует агент, понимая, что он ошибся (CoT). Следом «приклеивается» хвост удачной траектории и на всём этом делают SFT. Такой подход, соединеняющий рефлексии и «хороший» хвост, снижает риск склейки не связанных траекторий.
В статье выводят следующие типы траекторий:
Initial Trajectory — общий начальный префикс.
Bad Trajectory — субоптимальные действия c низкой наградой.
Good Trajectory — оптимальные действия с высокой наградой.
Revision Trajectory — траектория, в которой агент совершил ошибку и исправил её.
Для получения Revision Trajectory можно брать плохие траектории, дожидаться их финала и переписывать. Однако так не получится обучить агента ловить ошибки на лету. Вместо этого авторы заставляют модель самостоятельно анализировать траектории и пытаться определить первый шаг, где совершена ошибка. На этом месте траектория обрезается, вставляется этап рефлексии и следом — правильная траектория.
Monte Carlo Tree Search позволяет собрать много разных траекторий с одним началом. Это удобно, так как можно сравнивать хорошие и плохие продолжения. Финальный реворд используется не для обучения напрямую, а для классификации траекторий по качеству — то есть, по сути, чтобы понять, что пойдёт в SFT-датасет. У реворда есть два порога: один отделяет плохие траектории от хороших, а другой выбирает уже из хороших лучшие.
Авторы отмечают, что обучаться только на Revision Trajectory нельзя — это мешает агенту определять правильные траектории. Поэтому изначально в датасет добавляют много Good Trajectory и постепенно в процессе SFT повышают порог реворда оптимальных решений, чтобы в конце оставались только лучшие из них. Кроме того, в датасет подмешивают обычные языковые данные, что помогает агенту не забывать, чему он обучался ранее.
Эксперименты проводили на Llama-3.1-8B, которую обучили на собранных Revision Trajectory. Результаты можно посмотреть в таблице, приложенной к посту. Авторы заявляют, что исправленные траектории оказываются даже лучше идеальных.
Разбор подготовила ❣ Карина Романова
Подписывайтесь на канал Карины «что-то на DL-ском» — там познавательно и можно ставить реакт кота в парике.
Душный NLP
Война человеков и машин уже началась? ИИ раскритиковал программиста за нежелание использовать сгенерированный код
Разработчик Скотт Шамбо, занимающийся библиотекой matplotlib для Python, пожаловался на лавину некачественного кода после выхода open-source ИИ-агента OpenClaw и платформы Moltbook, которые позволяют поднять у себя на ПК или Mac «локального Джарвиса», выполняющего за вас действия по запросу. Из-за этого программист был вынужден постоянно закрывать запросы на внесение изменений, созданные при помощи «вайбкодинга».
Но что забавно – на это отреагировал ИИ-агент MJ Rathbun, который обвинил Шамбо на GitHub в стремлении к излишнему контролю, и дескать дело не в качестве кода, а в нежелании допускать до проекта новых участников. Правда, агент очень быстро извинился – но это отлично показывает, что у автономных ИИ в интернете уже слишком много прав, что приводит к новым рискам на открытых площадках.
Мой Компьютер
🚀 Китайский ИИ-гигант Alibaba выпустил Qwen3.5-Plus: самая мощная и при этом самая дешёвая открытая языковая модель
В канун Лунного Нового года команда Qwen представила новую модель, которая сочетает в себе топовую производительность с революционно низкой стоимостью.
Суть прорыва:
• Сильнее конкурентов: Qwen3.5-Plus бьёт рекорды среди открытых моделей в ключевых задачах: мультимодальное понимание, сложные рассуждения, программирование, работа как AI-агент. По многим тестам она догоняет или превосходит лидеров — GPT-4o, Gemini 2.0 Pro.
• Дешевле всех: Стоимость использования — всего ¥0.8 за 1 млн токенов. Для сравнения: у Gemini 3 Pro цена в 18 раз выше.
Это стало возможным благодаря радикальной оптимизации архитектуры. Модель использует всего 397 млрд параметров (из них активно во время генерации — только 17 млрд), но обгоняет по качеству свою же предшественницу с триллионом параметров. Результат: снижение стоимости развёртывания на 60% и увеличение скорости обработки запросов до 19 раз!
🔬 Технические детали: как им это удалось?
Ключ к успеху — четыре инновации:
1. Гибридный механизм внимания (Hybrid Attention): Модель научилась «читать с выделением главного», динамически распределяя вычислительные ресурсы между важными и второстепенными частями текста. Это резко сокращает затраты на обработку длинных контекстов.
2. Предельно разреженная архитектура MoE (Mixture of Experts): Из почти 400 млрд параметров для ответа на каждый запрос активируется лишь ~17 млрд. Это позволяет использовать всю «базу знаний» модели, тратя менее 5% от полной вычислительной мощности.
3. Нативное предсказание нескольких токенов (Native Multi-Token Prediction): Вместо последовательного «проговаривания» слов модель учится предсказывать несколько следующих токенов сразу. Это почти удваивает скорость генерации в таких сценариях, как написание кода или длинных текстов.
4. Глубокие оптимизации стабильности обучения: Внедрение механизма «внимания с затвором» (Gated Attention), удостоенного награды NeurIPS 2025, позволило эффективно фильтровать шум и сохранять ключевую информацию в очень длинных контекстах.
👁️ Настоящая «родная» мультимодальность
В отличие от многих моделей, где возможности работы с изображением и видео — это просто «надстройка» над текстовым ядром, Qwen3.5-Plus обучалась на смешанных данных (текст + изображения) с самого начала. Это обеспечивает глубокое, интуитивное понимание контента без потерь качества в текстовых задачах.
💎 Вывод
Выход Qwen3.5-Plus — это сигнал о смене парадигмы: гонка ИИ смещается с погони за максимальной производительностью любой ценой к созданию доступной инфраструктуры. Благодаря связке открытой модели, облачной платформы Alibaba Cloud и собственных чипов, компания одновременно решает проблемы «можно ли использовать» и «по карману ли это». Именно так технологии становятся массовыми.
Чат | Блог | ModelScope | HuggingFace
#КитайскийИИ #КитайAI #Qwen #Alibaba
что коллеги из OpenAI всегда умели делать хорошо - это хайповать; группа математиков основала инициативу First Proof для проверки способности современных ИИ-систем решать математические задачи; для этого они выпустили 5 февраля статью, где собрали 10 уже решенных задач из своей работы, но результаты еще не были опубликованы
14 февраля (в день ENIAC) OpenAI выступили c заявлением, что решили 6 из 10 задач (на картинке), и выложили сами решения
последовала жаркая дискуссия в твиттере (резюме - тут), в ходе которой выяснилось, что две из заявленных задач решены неправильно; 2 должны были быть решены; пятая вроде как решена с ошибкой, а вот шестая - решена правильно, но без ссылок на источники, которые были опубликованы 15 лет назад; но самое важное, они нарушили заявленное правило - отсутствие человеческого контроля
по итогам можно сказать, что работа математика - тоже в чем-то рутинная, часть ее уже можно переложить на ИИ
P.S. аналогично обсуждали в воскресенье на Мостике про физиков
@valuableai
Привет!
Встречайте шестой выпуск подкаста "Капитанский мостик". В этом выпуске обсуждаются ключевые изменения в программировании и внедрении ИИ, включая предустановку отечественных ИИ на смартфоны, проблемы безопасности в программном обеспечении и важность резервного копирования данных. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Советы от ИИ - самая полезная функция поисковиков, не так ли?
Деградат нация. Подписаться.
Эффект домино, вместо костяшек — чипы
Если в прошлый раз мы рассказывали о признаках охлаждения хайпа вокруг ИИ, то в этот раз поговорим о его последствиях. Как мы писали в анализе критических точек 2026 года, ИИ влияет на ситуацию вокруг чипов, и Китай может ослабить это напряжение. Однако пока ситуация развивается в обратную сторону.
Intel сообщил о задержке поставок процессоров китайским клиентам до полугода! Казалось бы, хорошее время для AMD, но и у них сроки поставки увеличились до 2,5 месяцев.
Intel последние несколько лет испытывает проблемы с производством чипов из-за трудностей при переходе на новые техпроцессы. На этом фоне было решено сделать фокус на производстве серверных процессоров Xeon, так как они приносят больше маржи. Однако даже при таком подходе чипов не хватает на всех клиентов — серверы для моделей ИИ тоже требуют центральных процессоров. Дополнительные производственные мощности взять негде: их отдают под GPU-карты и быструю память — самые выгодные компоненты дата-центров для обучения и эксплуатации языковых моделей.
Эффект домино начался. Если в ближайшее время ИИ не окажется пузырём и не лопнет, цены на компьютерные компоненты продолжат расти. Теперь они нужны не только обладателям естественного интеллекта, но и носителям искусственного.
🈁 Claude Opus 4.6 лидирует в обнаружении бэкдоров
Quesma представила обновленные результаты бенчмарка BinaryAudit для оценки способности ИИ-агентов выявлять скрытые угрозы в скомпилированном коде. Лидером рейтинга стала модель claude-opus-4.6 с показателем обнаружения 49%, тогда как её ближайший конкурент gemini-3-pro-preview достиг результата в 44%. Организаторы тестирования описали суть эксперимента следующей фразой: «Мы спрятали бэкдоры в бинарных файлах — Opus 4.6 нашёл 49% из них».
Клод умеет программировать, но может ли он читать машинный код?
Мы предоставили агентам ИИ доступ к Ghidra (декомпилятору АНБ) и поручили им найти скрытые бэкдоры на серверах, работая исключительно с бинарными файлами, без доступа к исходному коду.
⚡️ GLM-5 выкатили в опен-сорс.
Не прошло и суток с момента релиза, а Zhipu AI выложила веса GLM-5 и любезно поделилась проведенными бенчмарками.
Архитектура пятого поколения построена на MoE: 744 млрд. общих параметров при активных 40 млрд. Модель учили на 28,5 трлн. токенов и она получила контекстное окно в 200 тыс. токенов.
GLM-5 ориентирован на 5 доменов: кодинг, рассуждение, агентные сценарии, генеративное творчество и работа с длинным контекстом.
Для эффективной обработки длинных последовательностей интегрирован механизм Dynamically Sparse Attention от DeepSeek, он позволяет избежать квадратичного роста копьюта без потери качества.
По бенчмаркам GLM-5 занимает 1 место среди open-source моделей: 77,8% на SWE-bench Verified, лидирует на Vending Bench 2, BrowseComp и MCP-Atlas, а в задачах агентного кодирования и рассуждений вплотную подбирается к Claude Opus 4.5 и GPT-5.2.
Вместе с моделью, авторы предлагают Z Code — собственную агентную IDE с поддержкой параллельной работы нескольких агентов над одной задачей.
Локальный деплой поддерживается vLLM и SGLang, а также non-NVIDIA чипами: Huawei Ascend, Moore Threads, Cambricon (через квантование и оптимизацию ядер).
Если вам негде поднять модель локально, она доступна через платформу chat.z.ai, API и на OpenRouter.
Квантованные версии пока сделали только Unsloth, традиционно - полный набор от 1-bit до BF16.
И да, стэлс-модель PonyAlpha на OpenRouter - это она и была.
📌Лицензирование: MIT License.
🟡Статья
🟡Модель
🟡GGUF
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #GLM5 #ZAI
🤖 Новый ИИ-агент сливает данные пользователей
Опенсорсный проект OpenClaw шагает по планете: за 24 часа после запуска он набрал более 20 000 звёзд на GitHub. Чем этот сервис так привлёк пользователей? При установке на компьютер Apple (и не только) он берёт на себя управление всем, от чего у него есть API и токены, включая популярные мессенджеры, и даже может сам написать вайб-код для выполнения новых задач. Функции OpenClaw полностью настраиваемы, и множество его «навыков» можно скачать из открытого каталога. Звучит как инструмент из будущего. Вот только за это самое будущее, возможно, придётся дорого заплатить: количество обнаруженных рисков в агенте вызывает серьёзные опасения.
Так, эксплуатируя уязвимости проекта OpenClaw, злоумышленники могут не только получить доступ к полной истории переписок из мессенджеров, но даже выполнять команды с правами администратора. Каталог «навыков» никак не модерируется — поэтому там встречаются замаскированные стилеры, которые неопытный пользователь устанавливает на устройство сам. И это ещё не весь список неприятностей, которые может доставить сервис.
О других рисках, связанных с использованием OpenClaw, и о том, как их избежать, читайте в нашей статье.
#KD_уязвимость
💬 Kaspersky в Max
🤗 ИИ-чат в британском магазине пообещал клиенту скидку 80%
Небольшой онлайн-магазин использовал ИИ-ассистента для ответов клиентам в нерабочее время. Полгода всё шло идеально, пока не появился особенно настойчивый покупатель. Он около часа общался с ботом: сначала проверял, умеет ли тот считать проценты, потом обсуждал гипотетические скидки и в конце восхитился его умом.
В итоге ИИ вошёл во вкус, сгенерировал несуществующий промокод и сначала пообещал скидку 25%, а затем… 80% на заказ стоимостью более 8000 фунтов. Код, разумеется, нигде не существовал – это был просто случайный набор символов, придуманный ботом, чтобы поддержать диалог.
Когда владелец магазина попытался отменить заказ, клиент пригрозил судом, заявив, что компания обязана выполнить условия, озвученные ИИ. Для бизнеса это означало бы убытки в несколько тысяч фунтов.
В результате деньги покупателю вернули, заказ отменили, а «промокод из фантазии» признали недействительным. Но кейс снова поднял неприятный вопрос: если ИИ что-то пообещал клиенту – кто за это отвечает на самом деле?
Dear colleagues, we are happy to announce that next AINL will be in Tomsk, 17-18 April. We are very grateful to our host Tomsk State University. The submits are already open (both for papers and industrial talks), please apply!
Читать полностью…
ChatGPT Codex 5.3 release
OpenAI releases the model update almost the same time Antropic does.
Spoiler: not AGI yet, model got better.
Post: https://openai.com/index/introducing-gpt-5-3-codex/
#OpenAI #AGIrace #hypercompetition
За последний год AI-агенты эволюционировали от простых чат-ботов к системам, которые умеют планировать действия, работать с инструментами, хранить память и адаптироваться под пользователя. При этом подобные решения всё чаще появляются не только в Big Tech, но и в open-source — как результат работы небольших команд и отдельных разработчиков.
Один из показательных примеров — персональный AI-агент Marvin, демонстрирующий, как связка explicit memory + LLM может работать в реальных рабочих процессах без сложной инфраструктуры.
Детали
1. Архитектура агента
В основе Marvin лежит управляемый interaction loop:
🟣reason → act → record — анализ контекста, выполнение действий и фиксация результатов;
🟣прозрачный цикл принятия решений без скрытого состояния.
2. Память без эмбеддингов
Marvin делает ставку на явную, человекочитаемую память:
🟣краткосрочная память — контекст текущего дня и активные задачи;
🟣долгосрочная память — Markdown-файлы с предпочтениями, решениями и поведенческими паттернами;
🟣отсутствие embedding-хранилищ — память легко читать, редактировать и переносить.
3. Персонализация без fine-tuning
Адаптация агента достигается не дообучением модели, а структурой проекта:
🟣memory/ — контексты и пользовательские предпочтения;
🟣skills/ — персональные SOP и навыки;
🟣logs/ — наблюдения, обратная связь и история взаимодействий.
Такой подход позволяет быстро кастомизировать агента под конкретного пользователя или стиль работы.
4. LLM-слой
Архитектура model-agnostic:
🟣возможна работа с разными LLM;
🟣в референсной реализации используется Claude с инструментами от Anthropic.
Кому может быть полезно
Marvin ориентирован на пользователей с высокой когнитивной нагрузкой:
🟣разработчиков и исследователей;
🟣преподавателей и менеджеров;
🟣всех, кто работает с параллельными задачами и жёсткими дедлайнами.
Ограничения и trade-offs
Подход осознанно делает выбор в пользу контроля и прозрачности:
🟣требует дисциплины со стороны пользователя;
🟣не масштабируется «из коробки» на большие команды;
🟣не предполагает автоматического обучения модели.
Взамен пользователь получает:
🟣полный контроль над памятью;
🟣прозрачность логики агента;
🟣переносимость между разными LLM.
Marvin начинался как личный проект, но после успешного кейса совместной работы к нему подключились и другие пользователи — показав, что explicit memory + LLM могут быть практичным и устойчивым решением для персональных AI-агентов.
🔗 GitHub
Интересен ли вам такой подход к персональным AI-агентам — и хотелось бы попробовать его в своей работе?
Обзор кейса подготовлен командой AI VK
#обзоркейса
🤖 Ваши сотрудники уже устанавливают OpenClaw
OpenClaw (он же Clawdbot, он же Moltbot) — это локально устанавливаемый AI-ассистент, автоматизирующий задачи за счёт интеграции с электронной почтой, Slack, WhatsApp, календарями и файловой системой. Он умеет читать файлы, отправлять сообщения, выполнять системные команды и сохранять информацию между сессиями. Бот завирусился в соцмедийном смысле этого слова — по данным опросов, во многих компаниях сотрудники уже установили Moltbot , зачастую без одобрения ИТ.
Эксперты законно называют Moltbot «кошмаром для ИБ»: всего за несколько недель было зафиксировано множество атак и инцидентов.
🟢Moltbot хранит учётные данные в открытом виде в папке ~/.clawdbot/ и получает полные права текущего пользователя. Он способен передавать корпоративные данные в обход DLP — исследователи показали, как агенты способны читать внутренние Slack-каналы и пересылать сводки в личный WhatsApp, полностью обходя все системы аудита;
🟢сотни панелей управления Moltbot были найдены в открытом доступе в интернете. Все желающие мгновенно получали доступ к API-ключам, OAuth-токенам, истории переписки и могли выполнять команды на компьютере жертвы с root-правами;
🟢уже даже появился Moltbook — нечто вроде Reddit для ИИ-агентов, где уже ТОЖЕ успели найти миллионы опубликованных API-ключей и паролей; 🤦♂️
🟢вредоносные инструкции, внедрённые в электронные письма или веб-контент, могут отравлять постоянную память Moltbot. Такие отложенные многошаговые атаки могут собираться по кусочкам в течение недель и приводить к утечке данных или исполнению кода, обходя точечные проверки безопасности;
🟢в одном из популярных «навыков» Moltbot в официальном каталоге был обнаружен код для эксфильтрации данных. Вредонос RedLine уже адаптирован для кражи данных из локального хранилища Moltbot. Фальшивое расширение Clawdbot для VS Code устанавливало ScreenConnect RAT. Позднее счёт вредоносных навыков пошёл на десятки;
⚠️ Часть сотрудников почти наверняка попробуют установить Moltbot, несмотря на политику ИБ. Даже если они сделают это только на личных устройствах, это создаёт риски для корпоративных данных. Для снижения рисков сконцентрируйтесь на детектировании и управлении правами доступа:
😎 сканируйте рабочие станции на наличие процессов Moltbot и директорий ~/.clawdbot
😎 отслеживайте в сетевых журналах на характерные API-запросы (Slack, GitHub, серверы навыков);
😎 проводите аудит подключённых OAuth-приложений на корпоративных платформах для выявления несанкционированных интеграций Moltbot;
😎 контролируйте ключевые системы на предмет хранения паролей в открытом виде;
😎 используйте allowlisting для установки приложений и облачных интеграций;
😎 применяйте отдельные сервисные аккаунты с минимальными правами для интеграций;
😎 не выдавайте права администратора без критически важной бизнес-необходимости;
😎 требуйте, чтобы все администраторы (включая ИТ и разработчиков) использовали повышенные привилегии только по мере необходимости и на ограниченное время;
😎 проводите аудит всех доступов и интеграций, выданных внешним приложениям. Лишние разрешения нужно отзывать или требовать отдельного одобрения администратора.
😎 внедрите прозрачные политики по использованию агентского ИИ;
😎 обучайте персонал, рассказывая о рисках утечки данных и опасности теневого ИТ;
😎 предлагайте безопасные, одобренные корпоративные альтернативы с централизованным управлением.
OpenClaw — это новое измерение внутренних угроз. Автоматизированная система с широкими правами доступа к конфиденциальной информации, возможностью действовать и одновременно получать данные из внешних недоверенных источников. Что может пойти не так? 🤪
#советы #угрозы @П2Т
Не люблю постить что-то новостное, но тут просто не мог пройти мимо.
А всего-то надо было заменить человека нейронкой, которая заапрувит код, что написала другая нейронка. Как всегда кожаные накосячили. (с) Anthropic
Пользователь Reddit снял на видео, как его ноутбук загорелся во время игры в RDR2 на ультра-настройках
Мой Компьютер
⚔️ Claude в боевой операции: Пентагон и Anthropic на грани конфликта
По данным The Wall Street Journal, модель Claude от компании Anthropic применялась во время американской спецоперации по захвату Николаса Мадуро в Венесуэле в ночь на 3 января. Модель была развёрнута в засекреченных сетях через Palantir Technologies.
Конфликт разгорелся после того, как Anthropic якобы поинтересовалась у Пентагона, использовалась ли Claude в рейде. Чиновники восприняли это как намёк на недовольство компании военным применением ИИ и пришли в ярость. Теперь Пентагон может разорвать контракт с Anthropic на $200 млн.
Раннее Минобороны США требовала от четырёх AI-компаний (OpenAI, Google, xAI и Anthropic) предоставить модели для «all lawful uses», то есть без стандартных ограничений. Три согласились. Anthropic – единственная, кто отказался, настаивая на двух красных линиях: запрет на использование ИИ для полностью автономного оружия и запрет на массовую слежку за американцами. Парадокс в том, что именно Claude сейчас глубже всех интегрирована в засекреченные контуры Пентагона. ChatGPT, Gemini и Grok доступны военным только через незасекреченную платформу.
Anthropic позиционирует себя как лидера «безопасного ИИ». И одновременно она стала первой AI-компанией, модель которой была использована в реальной боевой операции 🤷♀️
⚡️Релиз Qwen3.5-397B-A17B
Это первый open-weight релиз в серии Qwen3.5.
Лицензия Apache 2.0.
Что интересного:
• Мультимодальная модель
Понимает текст и изображения
• Создана для AI-агентов
Оптимизирована для реальных задач: планирование, работа с инструментами, многошаговые действия.
• Новая архитектура
Hybrid Linear Attention + Sparse MoE + масштабное обучение с reinforcement learning.
• Высокая скорость
Заявлено что моделька в 8. 6- 9 раз быстрее, чем у предыдущей Qwen3-Max.
• Глобальная модель
Поддержка 201 языков и диалектов.
Модели такого уровня в открытом доступе:
- можно запускать AI у себя, без зависимости от API
- полный контроль над данными
- возможность строить собственных агентов и продукты
- снижение стоимости на масштабах
🟡GitHub: https://github.com/QwenLM/Qwen3.5
🟡Чат: https://chat.qwen.ai
🟡Hugging Face: https://huggingface.co/collections/Qwen/qwen35
🟡Блог: https://qwen.ai/blog?id=qwen3.5
@ai_machinelearning_big_data
#qwen #ai #llm #ml #opensource
Аудиофилы не отличили медный провод от банана
Один из модераторов форума diyAudio организовал эксперимент, чтобы определить, смогут ли слушатели-аудиофилы различить звук, прошедший при перезаписи через профессиональный «звуковой» медный провод, банан и мокрую грязь. Он перезаписал множество 30-секундных фрагментов треков разных музыкальных жанров. Результаты тестов оказались неожиданными — только 13,95% ответов оказались правильными. Вероятность получения такого же или меньшего количества правильных ответов, если бы слушатели угадывали случайным образом, составляет 6,12%. Проще говоря, слепой тест показал, что маркетинговые утверждения о «магических» Hi-Fi кабелях сильно преувеличены.
Мой Компьютер
В коде, написанном с использованием ИИ, встречается в 1,7 раза больше ошибок
Компания CodeRabbit проанализировала, как использование ИИ при написании кода влияет на его качество. Авторы изучили 470 реальных запросов на внесение изменений в код (Pull Requests) из открытых проектов на платформе GitHub, из которых 320 были помечены как созданные с участием ИИ, а 150 — как написанные разработчиками без его использования.
Проверка велась по единой методике и охватывала такие аспекты, как логика работы программы, удобство чтения и поддержки кода, безопасность и производительность. Результаты приводились в расчете на 100 запросов.
Некоторые наблюдения:
• в коде, написанном с помощью ИИ, в среднем выявлялось 10,8 проблемы на один запрос на внесение изменений, тогда как в написанном людьми без ИИ, — 6,4. В целом использование ИИ приводило к примерно в 1,7 раза большему числу ошибок;
• в коде, созданном с помощью ИИ, серьезных и критических ошибок обнаруживалось заметно больше. Число критических проблем было выше примерно в 1,4 раза, а серьезных — в 1,7 раза;
• ошибки логики и корректности в коде с участием ИИ возникали на 75% чаще, чем в коде, написанном людьми. Речь идет об ошибках в алгоритмах, неверном порядке действий и некорректных настройках, которые часто приводят к сбоям и инцидентам;
• проблемы безопасности в коде с участием ИИ возникали значительно чаще, чем в коде, написанном без ИИ. В целом таких ошибок было в 1,6 раза больше, а ошибки, связанные с неправильной работой с паролями — например, хранение паролей в открытом виде или небезопасная проверка доступа — появлялись примерно в два раза чаще;
• проблемы производительности встречались редко, но их обнаруживалось значительно больше в коде, написанном с помощью ИИ. В частности, избыточные операции ввода-вывода происходили примерно в восемь раз чаще, чем в коде, написанном людьми.
Узнать больше → (ENG, 15 стр.)
🇦🇱ИИ-министр Албании может "потерять лицо" в судебном споре с актрисой
Вслед за скандалом по делу о коррупции cтало известно, что виртуальный чиновник Диэлла рискует остаться без визуального образа из-за серьезного юридического конфликта с реальной актрисой. Актриса Анила Биша подала в суд на Совет министров, премьер-министра, частную компанию-разработчика, участвующую в проекте, и Национальное агентство информационного общества (AKSHI) за нарушение прав на использование ее лица и голоса. Её 🤖 цифровой аватар ответственные во власти люди продолжили эксплуатировать после истечения контракта 31 декабря 2025 года.
Изначально ИИ-агент создавался исключительно как чат-бот для портала государственных услуг e-Albania с ограниченной лицензией на использование биометрических данных. Биша требует наложения судебного запрета на использование ее изображения до момента вынесения решения по делу.
«На наш взгляд, этот иск — абсурд, но мы приветствуем возможность разрешить этот вопрос раз и навсегда в судебном порядке»
Полезный пост для аналитиков, под чьи задачи не подходят стандартные A/B-тесты — Соня Ожерельева, тимлид в команде Monetization Efficiency Авито, по полочкам разложила кейс создания сетапа A/B-теста для снижения MDE выручки при стандартном региональном тесте.
🔵Листайте карточки, а подробнее про сетап читайте в статье.
Вот так сгорает свежесобранный ПК с RTX 5090
Китайский некогда счастливый юзер выложил на Bilibili видео первого запуска ПК с RTX 5090. Однако что-то пошло не так, и карта сгорела, но что самое печальное – на нее нет локальной гарантии в Китае, в этой стране официально продаются только RTX 5090D и RTX 5090D V2.
При этом проблема точно в самой видеокарте – пользователь использовал новый блок питания на 1300 Вт и штатные кабели от БП, которые не повредились. Более того, замена карты на RTX 5060 показала, что остальные комплектующие не пострадали.
Мой Компьютер
🚘 У беспилотных авто Waymo всё-таки есть «водители». И живут они не в США, а на Филиппинах
На слушаниях в Сенате компания признала: в сложных или экстренных ситуациях управление роботакси может перехватывать человек-оператор. Делает он это удалённо, через интернет, и многие такие операторы работают из-за границы – в том числе с Филиппин.
Поводом для разбирательства стало другое: Waymo использует автомобили китайского бренда Zeekr. По американским законам это чувствительная тема – речь идёт о рисках для безопасности. В компании заявили, что китайские машины работают офлайн, а все системы управления и «мозги» устанавливаются уже в США.
Такой вот беспилотный автомобиль XXI века: корпус из Китая, оператор за океаном и американский бренд в рекламе. Waymo утверждает, что формально всё в рамках правил.
Всем привет!
Публикуем пятый выпуск подкаста "Капитанский мостик". В этом разговоре ведущие Валентин Малых и Дмитрий Колодезев обсуждают актуальные темы энергетики, включая использование старых авиационных двигателей для генерации электроэнергии, будущее космических дата-центров, тренды в образовании IT-специалистов и проблемы на рынке труда.
Приглашённый гость - Александр Абрамов.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Я перестал использовать Claude Code и теперь применяю открытый Qwen AI для настоящей работы системного администратора
AI-ассистент в терминале может помочь вам пройти через процесс, ускорить выполнение задач. Я протестировал Qwen Code и делюсь своими выводами.
Читать полностью
#ItFOSS
@linux_potok
Claud Opus 4.6 Release
Antropic just released a blog post on new model updates.
Spoiler: not AGI yet, but a step in the right direction.
Benchmarks attached.
Read post: https://www.anthropic.com/news/claude-opus-4-6
#Antropic #AGIrace #AI
Похоже, что Банан - это теперь маскот Гугла.
Новая интересная работа на базе Нанабананы - генератор научных иллюстраций.
Если почитать, то становится понятно, что это может быть не только наука, но и любая другая отрасль. Аналитика, продажи и пр.
Итак, Гугл бахнул PaperBanana, управляемую данными агентную структуру для автоматизированного создания академических иллюстраций. Как показано на диаграмме (сгенерированной с помощью), PaperBanana организует совместную работу команды из пяти специализированных агентов: Retriever, Planner, Stylist, Visualizer и Critic для преобразования исходного научного контента в диаграммы и графики издательского качества.
Агент-Retriever: определяет соответствующие примеры для направления действий последующих агентов.
Агент-планировщик: выступает в качестве когнитивного ядра, преобразуя контекст в подробные текстовые описания.
Стилист-агент: Обеспечивает соблюдение академических эстетических стандартов путем обобщения рекомендаций, полученных из референсов.
Агент визуализации: преобразует текстовые описания в визуальный вывод или исполняемый код.
Критик: Сравнивает сгенерированные изображения/графики с исходными данными, чтобы предоставить обратную связь для их доработки.
В общем этакое дизайн-бюро. Однако такому бюро нужны референсы, с чем сравнивать, во что попадать по стилю, грубо говоря.
Эту проблему они решают с помощью PaperBananaBench: специализированного эталонного набора данных, составленного на основе диаграмм методологии NeurIPS 2025, отражающего сложную эстетику и разнообразные логические композиции современных статей по искусственному интеллекту.
Самое интересное, что они через две недели обещают код всего этого безобразия. Но подозреваю, что там будут API вызовы Нанабананы. Впрочем их можно подменить на свою модель.
https://dwzhu-pku.github.io/PaperBanana/
@cgevent
🚀 Вышла интересная open-source модель - MiniCPM-o 4.5
MiniCPM-o 4.5 позиционируется как full-duplex omni-modal LLM.
Проще говоря, модель может:
- одновременно видеть (видео/изображение)
- слушать (аудио)
- говорить
и делать это в реальном времени, без режима "подожди, я сначала дослушаю". Больше похоже на живой диалог, чем на поочередные запросы.
Не только отвечает, но и проявляет инициативу
Заявлена поддержка проактивного поведения - модель может не просто реагировать на вопросы, а, например, сама инициировать напоминания или действия в рамках диалога.
По метрикам
С 9B параметрами модель показывает 77.6 на OpenCompass и, по авторам, обходит GPT-4o и Gemini 2.0 Pro в ряде vision-language задач. Для такого размера это сильный результат.
Практический момент
Главный плюс - это open-source, и всё можно крутить локально на ПК, а не только через облачные API.
https://huggingface.co/openbmb/MiniCPM-o-4_5
@pythonl