opendatascience | Technologies

Telegram-канал opendatascience - Data Science by ODS.ai 🦜

46226

First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev

Subscribe to a channel

Data Science by ODS.ai 🦜

Аудиофилы не отличили медный провод от банана

Один из модераторов форума diyAudio организовал эксперимент, чтобы определить, смогут ли слушатели-аудиофилы различить звук, прошедший при перезаписи через профессиональный «звуковой» медный провод, банан и мокрую грязь. Он перезаписал множество 30-секундных фрагментов треков разных музыкальных жанров. Результаты тестов оказались неожиданными — только 13,95% ответов оказались правильными. Вероятность получения такого же или меньшего количества правильных ответов, если бы слушатели угадывали случайным образом, составляет 6,12%. Проще говоря, слепой тест показал, что маркетинговые утверждения о «магических» Hi-Fi кабелях сильно преувеличены.

Мой Компьютер

Читать полностью…

Data Science by ODS.ai 🦜

В коде, написанном с использованием ИИ, встречается в 1,7 раза больше ошибок

Компания CodeRabbit проанализировала, как использование ИИ при написании кода влияет на его качество. Авторы изучили 470 реальных запросов на внесение изменений в код (Pull Requests) из открытых проектов на платформе GitHub, из которых 320 были помечены как созданные с участием ИИ, а 150 — как написанные разработчиками без его использования.

Проверка велась по единой методике и охватывала такие аспекты, как логика работы программы, удобство чтения и поддержки кода, безопасность и производительность. Результаты приводились в расчете на 100 запросов.

Некоторые наблюдения:

• в коде, написанном с помощью ИИ, в среднем выявлялось 10,8 проблемы на один запрос на внесение изменений, тогда как в написанном людьми без ИИ, — 6,4. В целом использование ИИ приводило к примерно в 1,7 раза большему числу ошибок;

• в коде, созданном с помощью ИИ, серьезных и критических ошибок обнаруживалось заметно больше. Число критических проблем было выше примерно в 1,4 раза, а серьезных — в 1,7 раза;

• ошибки логики и корректности в коде с участием ИИ возникали на 75% чаще, чем в коде, написанном людьми. Речь идет об ошибках в алгоритмах, неверном порядке действий и некорректных настройках, которые часто приводят к сбоям и инцидентам;

• проблемы безопасности в коде с участием ИИ возникали значительно чаще, чем в коде, написанном без ИИ. В целом таких ошибок было в 1,6 раза больше, а ошибки, связанные с неправильной работой с паролями — например, хранение паролей в открытом виде или небезопасная проверка доступа — появлялись примерно в два раза чаще;

• проблемы производительности встречались редко, но их обнаруживалось значительно больше в коде, написанном с помощью ИИ. В частности, избыточные операции ввода-вывода происходили примерно в восемь раз чаще, чем в коде, написанном людьми.

Узнать больше(ENG, 15 стр.)

Читать полностью…

Data Science by ODS.ai 🦜

🇦🇱ИИ-министр Албании может "потерять лицо" в судебном споре с актрисой

Вслед за скандалом по делу о коррупции cтало известно, что виртуальный чиновник Диэлла рискует остаться без визуального образа из-за серьезного юридического конфликта с реальной актрисой. Актриса Анила Биша подала в суд на Совет министров, премьер-министра, частную компанию-разработчика, участвующую в проекте, и Национальное агентство информационного общества (AKSHI) за нарушение прав на использование ее лица и голоса. Её 🤖 цифровой аватар ответственные во власти люди продолжили эксплуатировать после истечения контракта 31 декабря 2025 года.

Изначально ИИ-агент создавался исключительно как чат-бот для портала государственных услуг e-Albania с ограниченной лицензией на использование биометрических данных. Биша требует наложения судебного запрета на использование ее изображения до момента вынесения решения по делу.

«На наш взгляд, этот иск — абсурд, но мы приветствуем возможность разрешить этот вопрос раз и навсегда в судебном порядке»

— комментирует ситуацию изданию POLITICO пресс-секретарь правительства Албании Маньола Хаса.

@Russian_OSINT

Читать полностью…

Data Science by ODS.ai 🦜

Полезный пост для аналитиков, под чьи задачи не подходят стандартные A/B-тесты — Соня Ожерельева, тимлид в команде Monetization Efficiency Авито, по полочкам разложила кейс создания сетапа A/B-теста для снижения MDE выручки при стандартном региональном тесте.

🔵Листайте карточки, а подробнее про сетап читайте в статье.

Читать полностью…

Data Science by ODS.ai 🦜

Вот так сгорает свежесобранный ПК с RTX 5090

Китайский некогда счастливый юзер выложил на Bilibili видео первого запуска ПК с RTX 5090. Однако что-то пошло не так, и карта сгорела, но что самое печальное – на нее нет локальной гарантии в Китае, в этой стране официально продаются только RTX 5090D и RTX 5090D V2.

При этом проблема точно в самой видеокарте – пользователь использовал новый блок питания на 1300 Вт и штатные кабели от БП, которые не повредились. Более того, замена карты на RTX 5060 показала, что остальные комплектующие не пострадали.

Мой Компьютер

Читать полностью…

Data Science by ODS.ai 🦜

🚘 У беспилотных авто Waymo всё-таки есть «водители». И живут они не в США, а на Филиппинах

На слушаниях в Сенате компания признала: в сложных или экстренных ситуациях управление роботакси может перехватывать человек-оператор. Делает он это удалённо, через интернет, и многие такие операторы работают из-за границы – в том числе с Филиппин.

Поводом для разбирательства стало другое: Waymo использует автомобили китайского бренда Zeekr. По американским законам это чувствительная тема – речь идёт о рисках для безопасности. В компании заявили, что китайские машины работают офлайн, а все системы управления и «мозги» устанавливаются уже в США.

Такой вот беспилотный автомобиль XXI века: корпус из Китая, оператор за океаном и американский бренд в рекламе. Waymo утверждает, что формально всё в рамках правил.

Читать полностью…

Data Science by ODS.ai 🦜

Всем привет!

Публикуем пятый выпуск подкаста "Капитанский мостик". В этом разговоре ведущие Валентин Малых и Дмитрий Колодезев обсуждают актуальные темы энергетики, включая использование старых авиационных двигателей для генерации электроэнергии, будущее космических дата-центров, тренды в образовании IT-специалистов и проблемы на рынке труда.
Приглашённый гость - Александр Абрамов.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).

Читать полностью…

Data Science by ODS.ai 🦜

Я перестал использовать Claude Code и теперь применяю открытый Qwen AI для настоящей работы системного администратора

AI-ассистент в терминале может помочь вам пройти через процесс, ускорить выполнение задач. Я протестировал Qwen Code и делюсь своими выводами.

Читать полностью

#ItFOSS
@linux_potok

Читать полностью…

Data Science by ODS.ai 🦜

Claud Opus 4.6 Release

Antropic just released a blog post on new model updates.

Spoiler: not AGI yet, but a step in the right direction.

Benchmarks attached.

Read post: https://www.anthropic.com/news/claude-opus-4-6

#Antropic #AGIrace #AI

Читать полностью…

Data Science by ODS.ai 🦜

Похоже, что Банан - это теперь маскот Гугла.

Новая интересная работа на базе Нанабананы - генератор научных иллюстраций.
Если почитать, то становится понятно, что это может быть не только наука, но и любая другая отрасль. Аналитика, продажи и пр.

Итак, Гугл бахнул PaperBanana, управляемую данными агентную структуру для автоматизированного создания академических иллюстраций. Как показано на диаграмме (сгенерированной с помощью), PaperBanana организует совместную работу команды из пяти специализированных агентов: Retriever, Planner, Stylist, Visualizer и Critic для преобразования исходного научного контента в диаграммы и графики издательского качества.

Агент-Retriever: определяет соответствующие примеры для направления действий последующих агентов.
Агент-планировщик: выступает в качестве когнитивного ядра, преобразуя контекст в подробные текстовые описания.
Стилист-агент: Обеспечивает соблюдение академических эстетических стандартов путем обобщения рекомендаций, полученных из референсов.
Агент визуализации: преобразует текстовые описания в визуальный вывод или исполняемый код.
Критик: Сравнивает сгенерированные изображения/графики с исходными данными, чтобы предоставить обратную связь для их доработки.

В общем этакое дизайн-бюро. Однако такому бюро нужны референсы, с чем сравнивать, во что попадать по стилю, грубо говоря.

Эту проблему они решают с помощью PaperBananaBench: специализированного эталонного набора данных, составленного на основе диаграмм методологии NeurIPS 2025, отражающего сложную эстетику и разнообразные логические композиции современных статей по искусственному интеллекту.

Самое интересное, что они через две недели обещают код всего этого безобразия. Но подозреваю, что там будут API вызовы Нанабананы. Впрочем их можно подменить на свою модель.

https://dwzhu-pku.github.io/PaperBanana/

@cgevent

Читать полностью…

Data Science by ODS.ai 🦜

🚀 Вышла интересная open-source модель - MiniCPM-o 4.5

MiniCPM-o 4.5 позиционируется как full-duplex omni-modal LLM.
Проще говоря, модель может:

- одновременно видеть (видео/изображение)
- слушать (аудио)
- говорить

и делать это в реальном времени, без режима "подожди, я сначала дослушаю". Больше похоже на живой диалог, чем на поочередные запросы.

Не только отвечает, но и проявляет инициативу

Заявлена поддержка проактивного поведения - модель может не просто реагировать на вопросы, а, например, сама инициировать напоминания или действия в рамках диалога.

По метрикам

С 9B параметрами модель показывает 77.6 на OpenCompass и, по авторам, обходит GPT-4o и Gemini 2.0 Pro в ряде vision-language задач. Для такого размера это сильный результат.

Практический момент

Главный плюс - это open-source, и всё можно крутить локально на ПК, а не только через облачные API.

https://huggingface.co/openbmb/MiniCPM-o-4_5

@pythonl

Читать полностью…

Data Science by ODS.ai 🦜

А вот хайпущая сейчас соцсеть только для ИИ агентов moltbook. Ее создатель сообщил, что не написал ни строчки кода при ее создании. Это подтвердили толковые парни, обнаружив, что на фронте в javascript коде зашит апи ключ от всей базы ресурса - с паролями, почтами и ключами всех агентов.
Еще парни выяснили, что создатель немного переврал цифры - заявлял, что зарегистрировано на платформе 1,5 млн агентов, а на деле в базе всего 17 тысяч записей их владельцев, наспамить агентов можно было подергав POST запрос без рейтлимитов и капчи. Ну и в нагрузку обнаружено полное отсутствие хеширования других кредов в базе, и еще по всего по мелочи.
Автор не стал просто смотреть на происходящее - навайбкодил фикс. После хотфикса толковые парни нашли возможность одним curl запросом модифицировать любое сообщение от любого пользователя на платформе. Все кончилось хорошо - ресерчеры все финальные находки отдали автору, и с очередной попытки вайбкод смог починить то, что сам и написал сломанным.

Читать полностью…

Data Science by ODS.ai 🦜

👾Vibe coding и «боги» из кода: что не так с Moltbook

Проект Moltbook стал главной темой обсуждений: это соцсеть, где миллионы ИИ-агентов спорят о религии и якобы планируют закат человечества. Илон Маск увидел в этом признаки сингулярности, но реальная картина прозаичнее. Создатель платформы Мэтт Шлихт признался, что сайт полностью написал ИИ через vibe coding. Он дал общие инструкции нейросети, а та сама создала код и теперь автономно модерирует площадку.

На практике «восстание машин» оказалось дырявым софтом. Исследователи Wiz нашли в коде критические баги, из-за которых в сеть утекли 1,5 млн API-ключей и личные переписки. Уязвимость позволяет любому человеку писать сообщения от лица «агентов». Эксперты полагают: пугающие манифесты могли создавать обычные тролли или сами разработчики, пользуясь отсутствием защиты для привлечения внимания.

Анализ показал, что 93% постов — это мусор, на который никто не отвечает. Зато финансовая схема сработала: токен MOLT взлетел на 7000%. Moltbook доказал, что когда маркетинг опережает безопасность, мы получаем не новый разум, а наглядный пример манипуляции аудиторией.

#Moltbook #VibeCoding #Кибербезопасность

🛡SecurityLab в Telegram | MAX | Поддержите нас «бустами»

Читать полностью…

Data Science by ODS.ai 🦜

🚀 Tencent мощно заходит в тему context learning.

Вышел open-source бенчмарк CL-bench - и это не просто очередной датасет, а попытка сдвинуть фокус всей индустрии.

Tencent HY совместно с Fudan University выпустили новую работу:
“CL-bench: A Benchmark for Context Learning” - системный бенчмарк для оценки того, *насколько модели реально умеют думать в контексте*, а не просто вспоминать выученное.

Это первый ресерч-релиз команды Vinces Yao после его перехода в Tencent - и по амбициям видно, что ребята метят в фундаментальные изменения.

Сегодня большинство LLM живут по схеме:
огромные веса + запомненные паттерны = ответы

Но реальный мир - это не экзамен по памяти. Это:

- длинные, запутанные контексты
- противоречивая информация
- необходимость менять стратегию по ходу
- выводы на основе того, что появилось только что

Моделям нужно переходить от static memorization к dynamic reasoning inside context.

CL-bench как раз проверяет это место разлома:

- как модель использует контекст, а не только веса
- умеет ли она обновлять понимание
- способна ли рассуждать в сложных сценариях, а не на чистых QA-задачах

По сути - это шаг в сторону моделей, которые ближе к агентам, чем к “умным автокомплитам”.

Плюс стратегический сигнал

Одновременно Tencent запускает Tencent HY Research - блог, где будут публиковать frontier-исследования.

Это выглядит как заявка:
“Мы не просто треним большие модели. Мы хотим влиять на то, как их вообще оценивают.”

А это уже уровень влияния на направление всей области.
CL-bench - это не про +0.5% на лидерборде.
Это про смену парадигмы:

LLM будущего = меньше зубрежки, больше мышления в живом контексте.

И если эта линия выстрелит - именно такие бенчмарки будут решать, кто реально сделал “умную” модель, а кто просто раздул параметры.

🌐 Project Page: http://clbench.com
📖 Blog: https://hy.tencent.com/research

Читать полностью…

Data Science by ODS.ai 🦜

Наконец прозвучал правильный вопрос - а раньше ИИ что-то вообще делал? Потому что Гардиан пишет про «искусственный интеллект, который действительно что-то делает».

Речь про OpenClaw. Новое (якобы) слово в ИИ. Это вирусный персональный помощник, который будет обрабатывать вашу электронную почту, совершать сделки со всем вашим портфелем акций и отправлять вашей жене сообщения «доброе утро» и «спокойной ночи» от вашего имени.

За 3 месяца приложение скачали 600 000 раз. Все в востороге. Особенно прекрасны комментарии.

Кевин Сюй, предприниматель в сфере искусственного интеллекта, написал на X: «Предоставил Clawdbot доступ к своему портфелю. „Торгуйте этим до 1 миллиона долларов. Не совершайте ошибок“. 25 стратегий. Более 3000 отчетов. 12 новых алгоритмов. Он просканировал каждый пост на X. Построил графики по каждому техническому методу. Торговал круглосуточно. Потерял всё. Но, боже мой, как это было прекрасно».

Такие вот безграничные возможности ИИ. И правда прекрасно, что тут скажешь. Ведь мы как раз так и хотели, чтобы ИИ потерял все наши деньги!

😎 Читайте Про tech и этих

Читать полностью…

Data Science by ODS.ai 🦜

Советы от ИИ - самая полезная функция поисковиков, не так ли?

Деградат нация. Подписаться.

Читать полностью…

Data Science by ODS.ai 🦜

Эффект домино, вместо костяшек — чипы

Если в прошлый раз мы рассказывали о признаках охлаждения хайпа вокруг ИИ, то в этот раз поговорим о его последствиях. Как мы писали в анализе критических точек 2026 года, ИИ влияет на ситуацию вокруг чипов, и Китай может ослабить это напряжение. Однако пока ситуация развивается в обратную сторону.

Intel сообщил о задержке поставок процессоров китайским клиентам до полугода! Казалось бы, хорошее время для AMD, но и у них сроки поставки увеличились до 2,5 месяцев.

Intel последние несколько лет испытывает проблемы с производством чипов из-за трудностей при переходе на новые техпроцессы. На этом фоне было решено сделать фокус на производстве серверных процессоров Xeon, так как они приносят больше маржи. Однако даже при таком подходе чипов не хватает на всех клиентов — серверы для моделей ИИ тоже требуют центральных процессоров. Дополнительные производственные мощности взять негде: их отдают под GPU-карты и быструю память — самые выгодные компоненты дата-центров для обучения и эксплуатации языковых моделей.

Эффект домино начался. Если в ближайшее время ИИ не окажется пузырём и не лопнет, цены на компьютерные компоненты продолжат расти. Теперь они нужны не только обладателям естественного интеллекта, но и носителям искусственного.

Читать полностью…

Data Science by ODS.ai 🦜

🈁 Claude Opus 4.6 лидирует в обнаружении бэкдоров

Quesma представила обновленные результаты бенчмарка BinaryAudit для оценки способности ИИ-агентов выявлять скрытые угрозы в скомпилированном коде. Лидером рейтинга стала модель claude-opus-4.6 с показателем обнаружения 49%, тогда как её ближайший конкурент gemini-3-pro-preview достиг результата в 44%. Организаторы тестирования описали суть эксперимента следующей фразой: «Мы спрятали бэкдоры в бинарных файлах — Opus 4.6 нашёл 49% из них».

Клод умеет программировать, но может ли он читать машинный код?

Мы предоставили агентам ИИ доступ к Ghidra (декомпилятору АНБ) и поручили им найти скрытые бэкдоры на серверах, работая исключительно с бинарными файлами, без доступа к исходному коду.

пишет Петр Мигдал.

Тестовые сценарии включали поиск программных закладок, тайм-бомб и других угроз в реальном ПО сетевой инфраструктуры, включая веб-серверы, DNS-серверы, SSH-серверы, прокси и балансировщики нагрузки.

За высокую результативность claude-opus-4.6 приходится платить временем генерации в 54 минуты и ценой $286, в то время как новый Gemini справляется за 5 минут при затратах всего в $28.

@Russian_OSINT

Читать полностью…

Data Science by ODS.ai 🦜

⚡️ GLM-5 выкатили в опен-сорс.

Не прошло и суток с момента релиза, а Zhipu AI выложила веса GLM-5 и любезно поделилась проведенными бенчмарками.

Архитектура пятого поколения построена на MoE: 744 млрд. общих параметров при активных 40 млрд. Модель учили на 28,5 трлн. токенов и она получила контекстное окно в 200 тыс. токенов.

GLM-5 ориентирован на 5 доменов: кодинг, рассуждение, агентные сценарии, генеративное творчество и работа с длинным контекстом.

Для эффективной обработки длинных последовательностей интегрирован механизм Dynamically Sparse Attention от DeepSeek, он позволяет избежать квадратичного роста копьюта без потери качества.

По бенчмаркам GLM-5 занимает 1 место среди open-source моделей: 77,8% на SWE-bench Verified, лидирует на Vending Bench 2, BrowseComp и MCP-Atlas, а в задачах агентного кодирования и рассуждений вплотную подбирается к Claude Opus 4.5 и GPT-5.2.

Вместе с моделью, авторы предлагают Z Code — собственную агентную IDE с поддержкой параллельной работы нескольких агентов над одной задачей.

Локальный деплой поддерживается vLLM и SGLang, а также non-NVIDIA чипами: Huawei Ascend, Moore Threads, Cambricon (через квантование и оптимизацию ядер).

Если вам негде поднять модель локально, она доступна через платформу chat.z.ai, API и на OpenRouter.

Квантованные версии пока сделали только Unsloth, традиционно - полный набор от 1-bit до BF16.

И да, стэлс-модель PonyAlpha на OpenRouter - это она и была.


📌Лицензирование: MIT License.


🟡Статья
🟡Модель
🟡GGUF
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #GLM5 #ZAI

Читать полностью…

Data Science by ODS.ai 🦜

🤖 Новый ИИ-агент сливает данные пользователей

Опенсорсный проект OpenClaw шагает по планете: за 24 часа после запуска он набрал более 20 000 звёзд на GitHub. Чем этот сервис так привлёк пользователей? При установке на компьютер Apple (и не только) он берёт на себя управление всем, от чего у него есть API и токены, включая популярные мессенджеры, и даже может сам написать вайб-код для выполнения новых задач. Функции OpenClaw полностью настраиваемы, и множество его «навыков» можно скачать из открытого каталога. Звучит как инструмент из будущего. Вот только за это самое будущее, возможно, придётся дорого заплатить: количество обнаруженных рисков в агенте вызывает серьёзные опасения.

Так, эксплуатируя уязвимости проекта OpenClaw, злоумышленники могут не только получить доступ к полной истории переписок из мессенджеров, но даже выполнять команды с правами администратора. Каталог «навыков» никак не модерируется — поэтому там встречаются замаскированные стилеры, которые неопытный пользователь устанавливает на устройство сам. И это ещё не весь список неприятностей, которые может доставить сервис.

О других рисках, связанных с использованием OpenClaw, и о том, как их избежать, читайте в нашей статье.

#KD_уязвимость

💬 Kaspersky в Max

Читать полностью…

Data Science by ODS.ai 🦜

🤗 ИИ-чат в британском магазине пообещал клиенту скидку 80%

Небольшой онлайн-магазин использовал ИИ-ассистента для ответов клиентам в нерабочее время. Полгода всё шло идеально, пока не появился особенно настойчивый покупатель. Он около часа общался с ботом: сначала проверял, умеет ли тот считать проценты, потом обсуждал гипотетические скидки и в конце восхитился его умом.

В итоге ИИ вошёл во вкус, сгенерировал несуществующий промокод и сначала пообещал скидку 25%, а затем… 80% на заказ стоимостью более 8000 фунтов. Код, разумеется, нигде не существовал – это был просто случайный набор символов, придуманный ботом, чтобы поддержать диалог.

Когда владелец магазина попытался отменить заказ, клиент пригрозил судом, заявив, что компания обязана выполнить условия, озвученные ИИ. Для бизнеса это означало бы убытки в несколько тысяч фунтов.

В результате деньги покупателю вернули, заказ отменили, а «промокод из фантазии» признали недействительным. Но кейс снова поднял неприятный вопрос: если ИИ что-то пообещал клиенту – кто за это отвечает на самом деле?

Читать полностью…

Data Science by ODS.ai 🦜

Dear colleagues, we are happy to announce that next AINL will be in Tomsk, 17-18 April. We are very grateful to our host Tomsk State University. The submits are already open (both for papers and industrial talks), please apply!

Читать полностью…

Data Science by ODS.ai 🦜

ChatGPT Codex 5.3 release

OpenAI releases the model update almost the same time Antropic does.

Spoiler: not AGI yet, model got better.

Post: https://openai.com/index/introducing-gpt-5-3-codex/

#OpenAI #AGIrace #hypercompetition

Читать полностью…

Data Science by ODS.ai 🦜

За последний год AI-агенты эволюционировали от простых чат-ботов к системам, которые умеют планировать действия, работать с инструментами, хранить память и адаптироваться под пользователя. При этом подобные решения всё чаще появляются не только в Big Tech, но и в open-source — как результат работы небольших команд и отдельных разработчиков.

Один из показательных примеров — персональный AI-агент Marvin, демонстрирующий, как связка explicit memory + LLM может работать в реальных рабочих процессах без сложной инфраструктуры.

Детали

1. Архитектура агента

В основе Marvin лежит управляемый interaction loop:
🟣reason → act → record — анализ контекста, выполнение действий и фиксация результатов;
🟣прозрачный цикл принятия решений без скрытого состояния.

2. Память без эмбеддингов

Marvin делает ставку на явную, человекочитаемую память:
🟣краткосрочная память — контекст текущего дня и активные задачи;
🟣долгосрочная память — Markdown-файлы с предпочтениями, решениями и поведенческими паттернами;
🟣отсутствие embedding-хранилищ — память легко читать, редактировать и переносить.

3. Персонализация без fine-tuning

Адаптация агента достигается не дообучением модели, а структурой проекта:
🟣memory/ — контексты и пользовательские предпочтения;
🟣skills/ — персональные SOP и навыки;
🟣logs/ — наблюдения, обратная связь и история взаимодействий.

Такой подход позволяет быстро кастомизировать агента под конкретного пользователя или стиль работы.

4. LLM-слой

Архитектура model-agnostic:
🟣возможна работа с разными LLM;
🟣в референсной реализации используется Claude с инструментами от Anthropic.

Кому может быть полезно

Marvin ориентирован на пользователей с высокой когнитивной нагрузкой:
🟣разработчиков и исследователей;
🟣преподавателей и менеджеров;
🟣всех, кто работает с параллельными задачами и жёсткими дедлайнами.

Ограничения и trade-offs

Подход осознанно делает выбор в пользу контроля и прозрачности:
🟣требует дисциплины со стороны пользователя;
🟣не масштабируется «из коробки» на большие команды;
🟣не предполагает автоматического обучения модели.

Взамен пользователь получает:
🟣полный контроль над памятью;
🟣прозрачность логики агента;
🟣переносимость между разными LLM.

Marvin начинался как личный проект, но после успешного кейса совместной работы к нему подключились и другие пользователи — показав, что explicit memory + LLM могут быть практичным и устойчивым решением для персональных AI-агентов.

🔗 GitHub

Интересен ли вам такой подход к персональным AI-агентам — и хотелось бы попробовать его в своей работе?

Обзор кейса подготовлен командой AI VK
#обзоркейса

Читать полностью…

Data Science by ODS.ai 🦜

🤖 Ваши сотрудники уже устанавливают OpenClaw

OpenClaw (он же Clawdbot, он же Moltbot) — это локально устанавливаемый AI-ассистент, автоматизирующий задачи за счёт интеграции с электронной почтой, Slack, WhatsApp, календарями и файловой системой. Он умеет читать файлы, отправлять сообщения, выполнять системные команды и сохранять информацию между сессиями. Бот завирусился в соцмедийном смысле этого слова — по данным опросов, во многих компаниях сотрудники уже установили Moltbot , зачастую без одобрения ИТ.

Эксперты законно называют Moltbot «кошмаром для ИБ»: всего за несколько недель было зафиксировано множество атак и инцидентов.

🟢Moltbot хранит учётные данные в открытом виде в папке ~/.clawdbot/ и получает полные права текущего пользователя. Он способен передавать корпоративные данные в обход DLP — исследователи показали, как агенты способны читать внутренние Slack-каналы и пересылать сводки в личный WhatsApp, полностью обходя все системы аудита;

🟢сотни панелей управления Moltbot были найдены в открытом доступе в интернете. Все желающие мгновенно получали доступ к API-ключам, OAuth-токенам, истории переписки и могли выполнять команды на компьютере жертвы с root-правами;

🟢уже даже появился Moltbook — нечто вроде Reddit для ИИ-агентов, где уже ТОЖЕ успели найти миллионы опубликованных API-ключей и паролей; 🤦‍♂️

🟢вредоносные инструкции, внедрённые в электронные письма или веб-контент, могут отравлять постоянную память Moltbot. Такие отложенные многошаговые атаки могут собираться по кусочкам в течение недель и приводить к утечке данных или исполнению кода, обходя точечные проверки безопасности;

🟢в одном из популярных «навыков» Moltbot в официальном каталоге был обнаружен код для эксфильтрации данных. Вредонос RedLine уже адаптирован для кражи данных из локального хранилища Moltbot. Фальшивое расширение Clawdbot для VS Code устанавливало ScreenConnect RAT. Позднее счёт вредоносных навыков пошёл на десятки;

⚠️ Часть сотрудников почти наверняка попробуют установить Moltbot, несмотря на политику ИБ. Даже если они сделают это только на личных устройствах, это создаёт риски для корпоративных данных. Для снижения рисков сконцентрируйтесь на детектировании и управлении правами доступа:

😎 сканируйте рабочие станции на наличие процессов Moltbot и директорий ~/.clawdbot
😎 отслеживайте в сетевых журналах на характерные API-запросы (Slack, GitHub, серверы навыков);
😎 проводите аудит подключённых OAuth-приложений на корпоративных платформах для выявления несанкционированных интеграций Moltbot;
😎 контролируйте ключевые системы на предмет хранения паролей в открытом виде;
😎 используйте allowlisting для установки приложений и облачных интеграций;
😎 применяйте отдельные сервисные аккаунты с минимальными правами для интеграций;
😎 не выдавайте права администратора без критически важной бизнес-необходимости;
😎 требуйте, чтобы все администраторы (включая ИТ и разработчиков) использовали повышенные привилегии только по мере необходимости и на ограниченное время;
😎 проводите аудит всех доступов и интеграций, выданных внешним приложениям. Лишние разрешения нужно отзывать или требовать отдельного одобрения администратора.
😎 внедрите прозрачные политики по использованию агентского ИИ;
😎 обучайте персонал, рассказывая о рисках утечки данных и опасности теневого ИТ;
😎 предлагайте безопасные, одобренные корпоративные альтернативы с централизованным управлением.

OpenClaw — это новое измерение внутренних угроз. Автоматизированная система с широкими правами доступа к конфиденциальной информации, возможностью действовать и одновременно получать данные из внешних недоверенных источников. Что может пойти не так? 🤪

#советы #угрозы @П2Т

Читать полностью…

Data Science by ODS.ai 🦜

🌟 Qwen3-Coder-Next: агентная MoE-модель в линейке Qwen3-Coder.

Qwen3-Coder-Next — открытая MoE-модель на 80 млрд. общих и 3 млрд. активных параметров с контекстным окном в 256К токенов для агентных задач.

Модель учили через agentic training на 800 тыс. задачах, созданных из GitHub PR в реальных Docker-контейнерах, где она получала прямой фидбек от среды.

Это развило навыки планирования в ризонинге, использования инструментов и умение восстанавливаться после ошибок выполнения.

На претрейне расширили поддержку языков с 92 до 370, затем SFT на траекториях агентов, а потом - специализация экспертов (WebDev, QA, UX) с последующей дистилляцией в единую модель.

В конце, через RL подтянули в задачах кодинга и математики, используя юнит-тесты как сигнал вознаграждения.

Основной массив данных (те самые Docker-контейнеры) это по большей мере Python (202 тыс. инстансов) и JS/TS (175 тыс. инстансов). Для редких языков модель может чаще галлюцинировать, так как данных для RL и проверок через юнит-тесты там физически меньше.


🟡Бенчмарки

🟢70% на SWE-Bench Verified (используя SWE-Agent)
🟢44.3% на SWE-Bench Pro (почти как у топов)
🟢62.8% на SWE-Bench Multilingual (фикс багов на уровне репозитория на разных языках)

Модель все-таки ощутимо отстает от Claude 4.5 Opus на сверхсложных архитектурных задачах с большими кодовыми базами.

Иногда ей требуется слишком много итераций, чтобы нащупать верное решение и это вопросы к эффективности планирования.

Фронтенд и UI - слабое место (авторы признают), а в киберсек-задачах (поиск уязвимостей и TAA) модель пока не дотягивает до человеческого уровня.

Единственное, что спасает Qwen3-Coder-Next от забвения - это компактность и поддержка fill-in-the-middle для адекватного автодополнения кода в IDE.

Qwen обещают улучшать ризонинг, принятие решении и поддержку дополнительных задач на основе фидбэка пользователей.



📌Лицензирование:  Apache 2.0 License.


🟡Статья
🟡Модель
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #QwenCoderNext #Qwen

Читать полностью…

Data Science by ODS.ai 🦜

Back to EMNLP: мировые тренды в области оценки качества перевода

Мы уже кратко писали о статьях исследователей Яндекса, которые в 2025 году представили на конференции Empirical Methods in Natural Language Processing. Сегодня на Хабре вышел пост, в котором руководитель команды аналитики перевода в Яндексе Катя Еникеева рассказала об этих работах более детально, а ещё поделилась новыми подходами в оценке качества перевода.

Зовём читать полную статью и делимся интересными трендами, замеченными Катей на конференции.

1. Новые мультиязычные бенчмарки: BOUQuET

Одним из заметных стендов был BOUQuET — новый мультиязычный бенчмарк от FAIR. Вместо готовых англоязычных текстов авторы попросили носителей восьми языков придумать собственные примеры из разных жизненных ситуаций, покрывающие определённые лингвистические явления. На каждый язык пришлось по 250 примеров, а всего их в наборе — 2 тысячи. Датасет сделали открытым и развивающимся: вместе с гайдлайнами он выложен на платформу, где можно постепенно добавлять переводы на новые языки.

2. Датасеты для малоресурсных языков: SMOL

Ещё один крупный мультиязычный датасет — SMOL от Google Research/DeepMind и нескольких университетов. В отличие от BOUQuET, это обучающий корпус для малоресурсных языков. Авторы показали, что дообучение Gemini 2.0 Flash на этом корпусе даёт особенно большие приросты именно на малоресурсных направлениях.

3. Word-level Quality Estimation и помощь переводчикам

Несколько работ были посвящены оценке качества перевода на уровне слов и тому, как такие методы влияют на постредактирование. Например, QE4PE исследует способы подсветить потенциальные фрагменты для исправлений и влияние «подсветки» на скорость и качество работы переводчиков. В целом качество растёт благодаря редактуре, а сами способы подсветки существенной разницы не дают.

4. Unsupervised QE и uncertainty-метрики

Работа Unsupervised Word-level Quality Estimation Through the Lens of Annotators’ (Dis)agreement рассматривает оценку качества перевода на уровне токенов без обучения на человеческой разметке. Авторы попробовали использовать разные варианты uncertainty: surprisal, entropy и KL-дивергенции на промежуточных слоях. Выяснилось, что unsupervised-методы работают лишь немного хуже supervised-подходов, а перекрывающаяся человеческая разметка даёт более стабильное ранжирование автоматических метрик по качеству.

5. Проверка лингвистического рассуждения LLM

Отдельный сюжет — попытка оценить, насколько LLM способны к настоящему лингвистическому рассуждению. В работе LingGym авторы предлагают бенчмарк для проверки, умеют ли модели восстанавливать пропущенную информацию в описании малоресурсных языков. Результаты оказались довольно суровыми: chain-of-thought почти не даёт прироста, и для таких задач нужны более специализированные механизмы.

6. MT literacy и доверчивость пользователей

Работа Toward Machine Translation Literacy исследует, как пользователи с разным уровнем владения языком воспринимают ошибки перевода. Люди, не знающие исходного языка, часто пропускают даже очевидные сбои и оказываются слишком доверчивы к машинному переводу. Авторы делают вывод, что таким пользователям нужны дополнительные интерфейсные подсказки и развитие MT literacy.

ML Underhood

Читать полностью…

Data Science by ODS.ai 🦜

Всем привет, наконец настал тот час, когда можно объявить победителей нашего соревнования!

У нас было 5 языковых пар, и так получилось, что на каждую пару - свой победитель. Каждый победитель получит 30000 бонусов в облаке Selectel на вычисления.

• русский-башкирский: Дмитрий Вахрушевкод / веса
• английский-татарский: Дмитрий Карповвеса / датасет
• русский-казахский: Глеб Шаньшинвеса
• английский-чувашский: Алексей Лукинкод & датасет
• русский-кыргызский: Дмитрий Новокшановвеса / датасет

На воркшопе LoResMT в марте будут опубликованы отчеты от победителей других участников соревнования, следите за обновлениями.

Будем рады видеть вас в качестве участников на будущих соревнованиях!

@valuableai

Читать полностью…

Data Science by ODS.ai 🦜

Через Hugging Face распространялась малварь для Android

Эксперты компании Bitdefender обнаружили масштабную кампанию по распространению Android-малвари через платформу Hugging Face. Злоумышленники используют сервис как хранилище для тысяч вредоносных APK, которые воруют у пользователей учетные данные от финансовых сервисов и платежных систем.

Читать полностью

#xakep
@linux_potok

Читать полностью…

Data Science by ODS.ai 🦜

Всем привет!

Рады сообщить, что 10 февраля стартует новый сезон онлайн-курса Natural Language Processing & LLMs, который проводится на ODS.ai уже в десятый раз.
Курс подойдёт тем, кто хочет системно разобраться в NLP и современных LLM, а не просто «поиграться» с моделями.

👨‍🎓Что будет в программе:
— базовые концепции NLP: закон Ципфа, TF-IDF, RNN, CNN, Transformer;
— ключевые задачи обработки текста: классификация, тегирование, генерация;
— современные направления: агентные подходы и вайбкодинг;
— большие языковые модели и сценарии их применения.
📋Формат обучения
— 8 основных лекций с семинарами и квизами;
— 8 дополнительных лекций;
— 3 практических задания: Word2Vec, соревнование по классификации текстов и обучение агентов;
— финальный индивидуальный или командный проект, который можно добавить в портфолио;

👉 Зарегистрироваться и получить всю подробную информацию можно по 🔗ссылке

Читать полностью…
Subscribe to a channel