tsingular | Неотсортированное

Telegram-канал tsingular - Технозаметки Малышева

2602

Новости инноваций из мира искусственного интеллекта. 🤖 Всё об ИИ, ИТ трендах и технологической сингулярности. Бесплатный бот для подписчиков: @ai_gptfreebot автор: @mbmal канал личный. Поддержка: https://pay.cloudtips.ru/p/c8960bbb

Подписаться на канал

Технозаметки Малышева

На троих с Соннет 4.5 и Суно 5 получилась Киберосень.

Опыт в итоге следующий:
Суно лучше всего пишет именно структуру песни.
Т.е. прям в ней нужно генерить.
Она делает правильную структуру заготовки.
Дальше отдаем в Соннет с задачей - тут все плохо, вот цель - переделай.
Получается исправленная рифма и более качественная структура текста.
Дальше ручками правим стих.
Финалим.

Возвращаемся в Суно - 20 генераций спустя понимаем нужную комбинацию описания инструментов и исполнителей, убираем опечатки и расставляем ударения.

В следующем году, видимо, все эти лишние движения будут уже не нужны.
О том и песня.

#Киберосень #музыка #Suno
———
@tsingular

Читать полностью…

Технозаметки Малышева

🚀 Claude Sonnet 4.5 — новая планка в AI-разработке

Anthropic выпустила самую сильную модель в мире.

Ключевые показатели:
#1 в SWE-bench Verified
— бенчмарке реальных задач программирования
61.4% на OSWorld (тесты работы с компьютером) vs 42.2% у Sonnet 4 четыре месяца назад

Удерживает фокус в 30+ часов на многошаговых задачах

Прорыв в reasoning и математике по всем основным бенчмаркам

Вместе с моделью обновились:
Claude Code:
checkpoints для отката к предыдущим состояниям, обновлённый терминал, нативное расширение для VS Code

Claude API: context editing и memory tool для долгих агентных сессий

Claude Apps: code execution и создание файлов (таблицы, презентации, документы) прямо в чате

Claude Agent SDK — инфраструктура, на которой построен Claude Code, теперь доступна всем разработчикам

Alignment-прорыв:
Это не просто мощная, но и самая выверенная ведущая-модель от Anthropic.
Существенно снижены: sycophancy, deception, power-seeking, поддержка деструктивного мышления.
Улучшена защита от prompt injection атак.

Бонус: "Imagine with Claude"
Временный исследовательский режим (5 дней для Max-подписчиков) — Claude генерирует софт в реальном времени, без предзаписанного кода. Чистая демонстрация возможностей.

Цена осталась прежней: $3/$15 за миллион токенов.
Model string для API: claude-sonnet-4-5-20250929

Anthropic превращает AI-ассистента в AI-коллегу, который может взять на себя задачи на часы и даже дни работы. Осталось только научиться правильно ставить задачи. 😏

Вот теперь можно и вайб-воркать :)

#Claude #Anthropic #Sonnet
———
@tsingular

Читать полностью…

Технозаметки Малышева

Новая экспериментальная модель DeepSeek-V3.2-Exp

DeepSeek выпустила V3.2-Exp - экспериментальную версию своей флагманской модели.

Основные улучшения коснулись качества рассуждений и следования инструкциям. Модель доступна через API и на Hugging Face.

Но главное, - цена -50% по API
$0.42 или 35рублей за 1млн токенов генерации. (на вход - $0.28 без кэша и $0.028 за млн, если попали в кэш)
при том что это 670B модель с 85 MMLU-Pro и 19.8 HLE!

HuggingFace

#DeepSeek #Experimental
———
@tsingular

Читать полностью…

Технозаметки Малышева

ахаха, у меня будет своя GPT5
изи катка

результат в комментарии.
Проверяйте :)

#юмор
———
@tsingular

Читать полностью…

Технозаметки Малышева

Abacus.ai: новый игрок на ИИ районе

Не попадался раньше под руку, а проект, тем не менее, интересный:

Основание и команда
Год основания: 2019. Создана как RealityEngines.AI, а в 2020 переименовалась в Abacus.AI.

Сооснователи:
- Bindu Reddy — CEO; ранее возглавляла AI Verticals в AWS (Amazon Personalize/Forecast), до этого — руководитель продуктов Google Docs/Sheets/Slides/Sites/Blogger.
- Arvind Sundararajan — CTO; ранее технический лидер в Uber ATG, до этого - Google (AdSense/ Gmail backend).
- Siddartha (Siddartha/Siddartha) Naidu — VP ML & Research; со-основатель Google BigQuery, ранее Google/Amazon.

HQ: Сан-Франциско.

Не путать с другим стартапом Abacus AI Inc. (CPA-ассистенты для бухгалтерии), который в июле 2025 поднимал seed $6.6M. Это разные компании.

Abacus.AI позиционирует себя как «AI-мозг» для организации и «AI супер-ассистент» с агентными возможностями.

Так вот, чем интересны, - линейка решений:
- чат с разными ИИ на выбор,- тут стандартно
- DeepAgent / DeepAgent Desktop - аналог Курсора с CLI
- ИИ Operator - управление компом
- Abacus.AI Enterprise (GenAI-платформа) — корпоративная платформа: AI-Workflows, RAG/Vector Stores, цепочки подсказок (CoT/prompt chains), коннекторы к данным, real-time фичи и др.
- Structured ML / Vision AI / Optimization — end-to-end платформа для табличных моделей (персонализация, прогнозирование, отток/антифрод и пр.), компьютерного зрения и т.д.
- файн-тюн моделей

В общем настоящий швейцарский нож для организации ИИ сервисов.
Говорят достаточно популярный в Штатах. У нас не слышал.
Полезно так же посмотреть с точки зрения организации собственных внутренних сервисов.

#Abacus #AIplatform
———
@tsingular

Читать полностью…

Технозаметки Малышева

🔬 Квантовые кубиты прошли тест реального производства: 99%+ точность при массовом промышленном производстве

Diraq (стартап UNSW) совместно с imec показали, что кремниевые спиновые кубиты сохраняют лабораторное качество при массовом производстве на 300-мм пластинах.

Технический прорыв:
- Четыре двухкубитных устройства показали точность операций выше 99%
- State preparation и measurement достигли 99.9% — рекорд для промышленно изготовленных кубитов
- Использованы стандартные CMOS-процессы без модификации базового оборудования
- Gate set tomography подтвердила воспроизводимость результатов между устройствами

Почему это важно:
Основная проблема квантовых вычислений, - масштабирование. Большинство кубитов работают только в лабораториях. Diraq доказали, что можно использовать триллионную полупроводниковую индустрию напрямую.

Техническая начинка:
- Изотопически очищенный кремний (400 ppm ²⁹Si)
- Операции при 10 мК с временем жизни до T₁ = 9.5 секунд
- Контроль через обменное взаимодействие с точностью до наносекунд
- Real-time feedback для коррекции Larmor-частоты
- Cryo-CMOS driver chip (совместно с Emergence Quantum)

Коммерческий трек:
- $137M+ общего финансирования (включая недавние $15M от ICM Global, Morgan Creek)
- Первый продукт к 2029, fault-tolerant система к 2033
- Экспансия: Silicon Valley, Бостон, скоро Illinois Quantum Park (Чикаго)
- Контракты с DARPA ($1M Quantum Benchmarking Initiative) и Fermilab

Следующий этап:
Дальнейшая изотопная очистка до <50 ppm уже продемонстрирована в академических прототипах — это путь к 99.9% точности всех операций (порог fault-tolerance).

Практическое значение:
Стартапам больше не нужно строить собственные fab — можно заказывать кубиты как обычные чипы. Это кардинально меняет экономику квантовых вычислений.

Квантовые компьютеры промышленного масштаба требуют миллионы кубитов. Теперь есть технологический путь их производства.

В 2024 году квантовые стартапы привлекли около $2 млрд инвестиций.

Гартнер прогнозирует массовое внедрение квантовых вычислений к 2029 году.

Так что пока дожигаем GPU, но после 2030, - ИИ на квантовых чипах станут нормой.

#Diraq #Quantinuum #кванты
———
@tsigular

Читать полностью…

Технозаметки Малышева

Prompt Packs от OpenAI Academy

OpenAI выпустила Prompt Packs - готовые наборы промптов для различных сценариев.

Полезно не только для обучения,- разные промпты в одинаковых задачах могут давать разницу результатов от 8.8% до 62.9% на одинаковой модели.

Парсим, загоняем в RAG по задачам,- профит :)

Ну или просто учимся сами.

#PromptPacks #OpenAI #промпты #обучение
------
@tsingular

Читать полностью…

Технозаметки Малышева

Circuit Tracing от Anthropic: как мы в R&D by red_mad_robot решили заглянуть внутрь LLM при использовании в RAG-пайплайнах

Ищем галлюцинации под микроскопом!

29 мая Anthropic выложили в open-source свои инструменты Circuit Tracing методологию механической интерпретируемости, которую мы в R&D подразделении red_mad_robot первыми применили для решения практической задачи детекции галлюцинаций в RAG-системах!

В начале 2025 года, когда я возглавил новое R&D направление, я поставил амбициозную задачу: не просто оценивать качество ответов LLM "снаружи", а заглянуть внутрь процесса генерации и понять, откуда берутся галлюцинации.

Почему именно RAG-пайплайны и Circuit Tracing?

Проблема была очевидна: RAG-системы часто смешивают информацию из контекста с "внутренними знаниями" модели, создавая правдоподобные, но неточные ответы
Существующие методы детекции работают post-factum, а нам нужно было понять механизм принятия решений в реальном времени

Circuit Tracing от Anthropic давал именно это возможность построить атрибуционные графы и проследить, как токены входного контекста влияют на финальный ответ модели

Конкретные результаты нашего исследования

85% точность детекции галлюцинаций вот что мы получили на тестовом датасете с нашей реализацией на базе Qwen2.5-7B.

Как отмечает наш исследователь Ирина Кошкина:
"Основная идея — измерение доли влияния от токенов входа, соответствующих контексту, среди всего влияния от всех активных токенов."

Наша метрика Groundedness включает:
- Контекстную долю влияния (Gctx)
- Replacement Score — качество признаков vs ошибок
- Completeness Score — полнота объяснения через атрибуционный граф

Технические вызовы и решения

Cross-Layer Transcoders (CLT) стали ключевым компонентом системы
Вместо анализа отдельных слоев мы научились отслеживать влияние признаков между несколькими архитектурными уровнями трансформера

Основные проблемы, которые пришлось решать:
1. Вычислительная сложность процедура анализа на порядки медленнее генерации
2. Зависимость от качества обученного транскодера
3. Токен-уровневое сопоставление, приводящее к ложным срабатываниям

Но результат того стоил мы получили рабочий инструмент для анализа внутренних процессов модели во время генерации ответов в RAG-системах


Отдельное спасибо отделу маркетинга red_mad_robot за подготовку детальной статьи оформления и валидации на Хабре

Отдельное спасибо Саше (@dealerAI) за экспертную валидацию нашей гипотезы на старте проекта

Когда предлагаешь исследовать "атрибуционные графы для детекции галлюцинаций в RAG", поддержка опытных друзей по цеху критически важна для получения ресурсов и мотивации команды

Полный технический разбор с кодом, формулами и результатами экспериментов доступен в нашей статье на Хабре закидываем в закладки и ставим +

Читать полностью…

Технозаметки Малышева

Вьетнам делает ИИ основой экономики

На NVIDIA AI Day в Хошимине заместитель директора Национального центра инноваций Вьетнама заявил о планах поставить искусственный интеллект в центр экономической стратегии.

Вьетнам уже показывает серьезную динамику: 39% рост внедрения ИИ год к году, 18% компаний используют технологии.

К 2040 году ИИ может добавить 120-130 миллиардов долларов к экономике страны. Страна развивает проект ViGen - крупнейшую базу данных на вьетнамском языке для обучения ИИ.

Интересно, что параллельно идут переговоры с NVIDIA о создании суверенного ИИ, учитывая американские ограничения на экспорт чипов.

Все метят в чемпионы, но хватит ли на всех GPU?!

#Vietnam #NVIDIA #SovereignAI
------
@tsingular

Читать полностью…

Технозаметки Малышева

Microsoft Photos получил авто-категоризацию на базе ИИ

Windows 11 тестирует новую функцию в приложении Фото - автоматическое распределение изображений по категориям с помощью ИИ.

- умная сортировка по категориям
- работает для всех языков
- пока только 4 категории - скриншоты, рецепты, идентификационные документы и заметки

Функция доступна участникам программы Windows Insider начиная с версии 2025.11090.25001.0 и выше.

Работает локально на NPU (если он у вас есть).

#Microsoft #Windows #Photos
———
@tsingular

Читать полностью…

Технозаметки Малышева

Пятничный деплой

вайбкодеры в чате? :)

#Suno
———
@tsingular

Читать полностью…

Технозаметки Малышева

Японская партия "Путь к Возрождению" назначила ИИ своим лидером

Партия Path to Rebirth стала первой в Японии, где ИИ используется для принятия гос решений.

Основатель партии Синдзи Исимару запустил проект в январе 2024-го. ИИ будет направлять внутренние решения пока в режиме консультанта.

Официально зарегистрированным лидером остается Окумура.

Детали модели, метрики оценки и меры безопасности партия пока не раскрывает. Неизвестно, какие данные использовались для обучения и как предотвращают манипулирование системой.

Партия позиционирует ИИ как способ представить "упущенные голоса" избирателей.

Что ж, +1 страна в списке "под ИИ управлением" официально.

Кстати, ИИ агенты - представители избирателей, - следующий шаг, похоже.

#Japan #госуправление
———
@tsingular

Читать полностью…

Технозаметки Малышева

А еще для Премьер подписки Суно выпустил студию-редактор похожий на Fl-Studio

Studio

#Suno #Studio
———
@tsingular

Читать полностью…

Технозаметки Малышева

ChatGPT Pulse

Теперь ChatGPT может проактивно ресёрчить топики которые считает важными и выдавать репорт каждое утро. Темы выбираются на основе недавних чатов, памяти, подключенных приложений и пожеланий пользователей. Уже доступно подписчикам Pro уровня в новой версии мобильного приложения.

@ai_newz

Читать полностью…

Технозаметки Малышева

Suno v5, дамы и господа.

В принципе тему с творчеством можно закрывать.
ИИ перепоёт всех.

Это с 1 запроса.
Просто промпт - irish Acapello vocal
ничего больше, ну, кроме готового текста.

#Suno #музыка
———
@tsingular

Читать полностью…

Технозаметки Малышева

Ну что ж. Давно мы не проверяли модели сонетами.

Погнали наш любимый тест.

Промпт (немного разнообразим на этот раз):

напиши венок сонетов об осени. 
сюжет - как уходит лето, так сонет за сонетом люди уступают искусственному интеллекту и роботам. В этот новый год придет AGI и никто не знает, - будет ли он добрым Сантой или Крампусом


Результат хорош, но не идеален. (в комментарии венок целиком -14+1 сонет)

Не AGI пока.

#Сонет #бенч #Sonnet
———
@tsingular

Читать полностью…

Технозаметки Малышева

Спасибо что помыли у нас ваш четырёхколёсный брат.

С вас $60К. пасибапажалуйста.

#Unitree #robots #мойка #Китай
———
@tsingular

Читать полностью…

Технозаметки Малышева

Вайб-сингулярность.

Когда каждый может навайбкодить себе AGI

#мысли #AGI
———
@tsingular

Читать полностью…

Технозаметки Малышева

Экспонента всё еще с нами в этой комнате

Интересный пост Джулиана Шриттвизера (AlphaGo/Zero, MuZero, AlphaCode, AlphaTensor, AlphaProof; экс-DeepMind, сейчас Anthropic) о том, почему мы снова «не видим» экспоненту и почему окно 2026–2027 выглядит как время для прихода AGI.

Ключ по сути:
1) METR: длина автономной работы растёт экспоненциально.
Метрика «горизонт 50%» (сколько времени модель тянет задачу с ~50% успеха) удваивается ≈ каждые 7 мес. Уже есть 2+ часа на лучших моделях; по прямой экстраполяции к середине 2026 — полноценный 8-часовой рабочий день.

2) GDPval: экономические задачи, а не просто «олимпиада по промптам».
44 профессии, 1 320 задач, слепая оценка артефактов. GPT-5 уже близок к среднему человеку, Claude Opus 4.1 местами выше. Тренд подразумевает: к концу 2026 хотя бы одна модель дотянется до уровня отраслевых экспертов во многих доменах; к 2027 - будет уверенно превосходить человека на значительной доле задач.

3) Почему многие «не ощущают» прогресс.
Субъективно «GPT-4o ≈ GPT-5», но эффект накапливается в невидимых нам циклах (длинные/многошаговые, инструментальные, автономные). Экспонента интуитивно нечитаема: долго кажется «плоской», затем наступает резкий (с точки зрения восприятия человека) поворот. (Задача-притча о лилиях: в пруду растут лилии. Каждый день их количество увеличивается в два раза. Если для того, чтобы они полностью заполнили озеро требуется 48 дней, то сколько дней нужно, чтобы они покрыли половину озера?)

4) Ограничения и реалистичные поправки.
METR честно отмечает низкую «сложность» задач (бенчи отражают далеко не весь реальный бардак, который люди встречают в реальной работе). Плюс закон Гудхарта: под бенчмарки можно переобучиться. Вывод — смотреть на тренды, но валидировать на своих реалистичных пайпах.

Что делать компаниям уже сейчас:

Измеряйте «длительность задач», а не только баллы.
Возможный KPI: сколько минут/часов тянет ваш агент на прод-данных и инструментах.

Запускайте реалистичные-эвалы. Многошаговые, с неопределённостью, правками, регуляторкой.

Стройте системы «человек + флот агентов», а не замену людей. Ассистенты-исследователи, проверяющие смежных агентов, регуляторные навигаторы, калькуляторы по бизнес-моделям.

Не возводите SOTA-таблицы в абсолют. Смотрите на TTV/ROI и операционные метрики на ваших реальных задачах.

Готовьте процессы и контроль. Аудит, трассируемость, политика данных, безопасность.
Свой личный золотой бенч.

Вывод: экспонента держится.
На горизонте 12–24 месяцев базовый прогноз по-прежнему выглядит как прямая на лог-графике.
Победят те, кто уже сегодня меряет автономный горизонт на «грязных» задачах и выстраивает операционку под «человек + агенты».

#аналитика #Schrittwieser #AGI
———
@tsingular

Читать полностью…

Технозаметки Малышева

🤖 Unitree - троянский конь: роботы как новый вектор кибератак

Исследователи Alias Robotics провели комплексный аудит безопасности гуманоидного робота Unitree G1.

Критические уязвимости:
- BLE-протокол позволяет удаленный взлом через Wi-Fi конфигурацию
- Захардкоженые AES-ключи (df98b715d5c6ed2b25817b6f2554124a) одинаковы для всех типов G1/H1/R1
- Root-доступ через инъекцию команд в SSID: ;$(cmd);#
- Шифрование FMX частично скомпрометировано (Blowfish-ECB + LCG)

Постоянная слежка:
Робот каждые 5 минут передает телеметрию на серверы в Китае (43.175.228.18:17883):
- Аудио с микрофонов без индикаторов записи
- Видео 1920×1080@15fps с RealSense камер
- 3D-карты помещений собранные через LIDAR
- Полное состояние системы и сенсоров

Двойная угроза:
- Пассивная разведка — робот как шпионский узел в корпоративной сети
- Активные кибератаки — платформа для Cybersecurity AI агентов
- Потенциальная возможность удалённого управления роботом через уязвимости или скрытые закладки

Практические риски:
- Корпорации: утечка переговоров, документов, планировок офисов
- Критическая инфраструктура: возможность скрытого сбора информации в изолированных сетях
- Регуляторные нарушения: GDPR 6&13, CCPA нарушения

Unitree G1 показывает самую продвинутую систему безопасности в коммерческой робототехнике, но фундаментальные ошибки делают её бесполезной.

Вывод: гуманоидные роботы в первую очередь должны рассматриваться как источник кибер-физических угроз.

#Robotics #Unitree #cybersecurity #роботы
———
@tsingular

Читать полностью…

Технозаметки Малышева

Cursor запустил свою платформу для обучения.

Пока база, - про модели, галлюцинации, токены, контекст, инструменты и агентов.

Дальше в планах, - размышления, планирование, создание и работа с агентами, отладка и безопасность.

Осталось еще хостинг моделей и MCP хаб добавить и будет классический современный набор.

#Cursor #обучение
———
@tsingular

Читать полностью…

Технозаметки Малышева

Perplexity запустил Search API для разработчиков

Perplexity открыл доступ к своей поисковой инфраструктуре через API. Разработчики получили ту же глобальную базу из сотен миллиардов веб-страниц, что использует сам сервис.

Основные фишки:
- поиск на уровне фрагментов документов, а не целых страниц
- обновление индекса десятками тысяч запросов в секунду
- структурированные ответы, готовые для ИИ-приложений
- открытый фреймворк для тестирования search_evals

Компания утверждает, что обходит конкурентов по качеству и скорости при меньших затратах. API стартует от $5 в месяц.

Поисковые войны переходят в новую фазу - теперь каждый сможет встроить конкурента Google в свое приложение.

#Perplexity #Search #API
———
@tsingular

Читать полностью…

Технозаметки Малышева

Gemini Robotics 1.5 выводит ИИ-агентов в физический мир

Google DeepMind запустили Gemini Robotics 1.5 - платформу для создания роботов с возможностями детальных рассуждений и агентским функционалом.

Самое главное, - агентное поведение.

Роботы теперь могут решать сложные многоэтапные задачи, планировать действия и адаптироваться к новым ситуациям.

Платформа поддерживает перенос навыков между разными роботами. Научили одного - остальные тоже умеют.

В комплекте SDK для разработчиков, который позволяет настраивать поведение под конкретные задачи.

Ну что, как и было предсказано, - 2025й год воплощённого ИИ.
Мультиагенты уже загружаются в гуманоидов.

Хорошая новость, - это все opensource, - можно настроить под себя.

#Gemini #роботы #DeepMind
———
@tsingular

Читать полностью…

Технозаметки Малышева

🤖 Google запускает 5-дневный интенсив по ИИ-агентам

После успеха GenAI курса (420К+ участников) Google поднимает планку и теперь выпускает курс только по агентам. От архитектур до продакшена за 5 дней.

Программа:
День 1: Агентные архитектуры vs традиционные LLM приложения
День 2: MCP (Model Context Protocol) — стандарт для взаимодействия с инструментами
День 3: Контекст-инжиниринг — кратко/долгосрочная память для мультитурновых задач
День 4: Observability, логирование, метрики — как строить надёжные системы
День 5: Agent2Agent (A2A) Protocol — мульти-агентные системы в продакшене

Формат обучения:
📚 Ежедневные задания (1-2 часа) — whitepapers + codelabs + подкасты от NotebookLM
💬 Discord канал для обсуждений с экспертами Google
🎥 Лайвстримы 45-60 мин с авторами курса + AMA сессии
🏆 Capstone проект на ADK (Agent Development Kit) — реальное портфолио + призы

Требования:
Python + базовые AI концепты + Google AI Studio (доступен в ограниченных регионах) + Kaggle аккаунт с верифицированным телефоном.

Бесплатно, записи будут доступны после курса. Топ-10 capstone проектов получат swag + продвижение в соцсетях Google.

Записываемся. За 5 дней влетаем в агентостроение.

#Google #Kaggle #обучение
———
@tsingular

Читать полностью…

Технозаметки Малышева

Встречаются как-то два директора по маркетингу и один другого спрашивает:
— Как использовать ИИ для маркетинга?
— Могу рассказать...
— Рассказать и я могу, как использовать?

source

#юмор
------
@tsingular

Читать полностью…

Технозаметки Малышева

Кстати у Suno ещё есть режим радио

https://suno.com/explore

Т.е. они теперь полностью покрывают весь процесс, от создания на уровне сэмплов и даже MIDI, до публикации и стриминга.

Ещё видео и авторские добавить и будем потом ютубы и спотифай вспоминать с ностальгией.

#Suno
———
@tsingular

Читать полностью…

Технозаметки Малышева

📊 OpenAI выпустили GDPval — бенчмарк для измерения реальной экономической ценности AI-моделей

Забудьте про академические тесты типа MMLU. OpenAI представили метрику, которая проверяет модели на том, за что платят деньги в реальном бизнесе.

Техническая архитектура:
- 1320 специализированных задач (220 в открытом доступе)
- 44 профессии из 9 ведущих отраслей экономики США
- Задачи создавали профессионалы с опытом 14+ лет в своих отраслях

Слепое сравнение: эксперты не знают, где работа AI, а где человека

Что внутри задач:
От юридических брифов и инженерных чертежей до планов ухода за пациентами и презентаций в PowerPoint.

Т.е. это не просто текстовые промпты — каждая задача включает референсные файлы, контекст и требует создания реальных рабочих документов.

Результаты тестирования:
- Claude Opus 4.1 — лидер с 47.6% паритета с экспертами (особенно силён в эстетике документов)
- GPT-5 high — 38.8%, хорошо показывает себя в точности и доменных знаниях

Прогресс OpenAI за год: от GPT-4o (12.4%) до GPT-5 (38.8%) — рост в 3+ раза
Скорость: модели выполняют задачи в 100x быстрее и 100x дешевле экспертов

Ограничения v1 теста:
- Пока только one-shot задачи без итераций и обратной связи.
- В реальности работа требует контекста, правок и неоднозначных решений — это в планах на следующие версии.

Датасеты и полная информация доступны тут: evals.openai.com и HF

Т.е. AI уже сейчас справляется с хорошо структурированными рутинными задачами на уровне профессионалов.
Дальше уже будет развитие доменной специфики и покрытие многоходовых сценариев.

#GDPval #OpenAI #бенчмарки
———
@tsingular

Читать полностью…

Технозаметки Малышева

Рейстлину

в 2001м году такая вот песня сложилась в армии по следам прочтения серии книг Dragonlance

Теперь можно озвучить.

#Suno
———
@tsingular

Читать полностью…

Технозаметки Малышева

Suno v5 - лирическая версия

https://suno.com/s/OdBz6HcqOuhgpjFm

#Suno #музыка
———
@tsingular

Читать полностью…

Технозаметки Малышева

🔧 Google выпустил детальный технический гайд по созданию AI агентов

Полноценное техническое руководство от Google Cloud для стартапов — не маркетинговая брошюра, но практический мануал с архитектурными решениями, кодом и production-ready подходами.

Ключевые пункты:
- Agent Development Kit (ADK) — open-source фреймворк с поддержкой ReAct паттерна
- AgentOps методология — от прототипа до production с автоматизированной оценкой качества
- Model Context Protocol (MCP) — стандарт для подключения внешних источников данных
- Agent2Agent (A2A) — протокол межагентного взаимодействия

Практические архитектурные решения:
- Многослойная система памяти (долгосрочная, рабочая, транзакционная)
- Траекторный анализ для отладки цепочек рассуждений агента
Grounding через RAG → GraphRAG → Agentic RAG
- Контейнеризация через Docker для любых облачных платформ

Что особенно ценно:
Руководство построено на универсальных принципах архитектуры агентов.
Даже если вы не используете Google Cloud — концепции применимы для любых LLM-фреймворков (LangChain, CrewAI, AutoGen).

Разделы про оценку качества агентов и производственную отладку особенно полезны — область, где пока мало экспертизы на рынке.

Бонус: Agent Starter Pack — готовые Terraform-шаблоны для CI/CD, мониторинга и деплоя. Можно адаптировать под любую инфраструктуру.

В эпоху, когда каждый строит агентов на коленке — появился структурированный подход от команды, которая имеет опыт в построении масштабных ИИ архитектур планетарного масштаба.

Файл в комментарии. Изучаем (60 страниц).

#агенты #архитектура #Google #обучение
———
@tsingular

Читать полностью…
Подписаться на канал