tsingular | Неотсортированное

Telegram-канал tsingular - Технозаметки Малышева

2602

Новости инноваций из мира искусственного интеллекта. 🤖 Всё об ИИ, ИТ трендах и технологической сингулярности. Бесплатный бот для подписчиков: @ai_gptfreebot автор: @mbmal канал личный. Поддержка: https://pay.cloudtips.ru/p/c8960bbb

Подписаться на канал

Технозаметки Малышева

📖 MIT запустил ИИ-платформу с 12,700 бесплатными курсами

MIT Learn объединил все образовательные ресурсы института на одной платформе с ИИ-помощником "Ask Tim". Система умеет рекомендовать курсы под цели пользователя и создавать краткие описания программ.

В избранных курсах по молекулярной биологии и генетике добавили ИИ-ассистента для вопросов по лекциям и ИИ-тьютора для решения задач. Тьютор направляет к следующему шагу, но не выдает готовые ответы.

🎓 12 700+ материалов: курсы, видео, подкасты от начальных до продвинутых.
🤖 Ask Tim - ИИ-помощник для персонализированных рекомендаций и резюме курсов.
📚 ИИ-ассистент отвечает на вопросы по лекциям, создаёт карточки и помогает с задачами.
🔍 Умный поиск позволяет не разбираться в структуре университета.
👥 Контент для школьников, студентов, профессионалов и преподавателей.
📋 Возможность создания персональных списков ресурсов и уведомлений о новинках.

Платформа решает проблему навигации - теперь не нужно знать структуру MIT, чтобы найти нужный материал.
Система учитывает когнитивную нагрузку через персонализацию и кураторские списки, предотвращая информационную перегрузку при работе с огромным массивом данных.

Университет эволюционировал в ИИ академию.

#MIT #education #обучение
------
@tsingular

Читать полностью…

Технозаметки Малышева

Qwen выпустил облегченную версию 235B модели без "размышлений"

Alibaba представила обновленную версию Qwen3-235B-A22B-Instruct-2507 — это режим "без размышлений", который больше не генерирует блоки think в ответах.

Модель использует архитектуру Mixture of Experts с 235B параметрами и активирует только 22B на токен. Это дает производительность больших моделей при затратах всего 10% вычислений.

Поддерживает 119 языков и показывает сильные результаты в программировании и математике. В некоторых бенчмарках обгоняет GPT-4.1, в других уступает.

Для работы с памятью рекомендуют сократить контекст до 32,768 токенов при проблемах с OOM. Поддерживается в популярных фреймворках включая transformers, vLLM и Ollama.

Обошли Кими К2, DeepSeek V3 и Claude Opus 4!!

Полный размер - 472 Гига.

Онлайн адрес не изменился, - https://chat.qwen.ai/

#Qwen #MoE #Китай
------
@tsingular

Читать полностью…

Технозаметки Малышева

🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем Вас принять участие в неформальном научном проекте.

Мы разрабатываем новые методы и опен-соурс библиотеку CayleyPy, которая на основе МЛ/РЛ методов позволяет решить математические задачи, которые были не доступны ранее. Как пример наша система уже по всем параметрам на порядки превсходит аналогичные методы в системе компьютерной алгебры GAP (де-факто стандарт) - использующую алгоритмы доработанные самим Д. Кнутом.

Если у Вас есть желание поучаствовать в проекте, есть знание Питона и несколько свободных часов в неделю - то присоединяйтесь к нам - при активной работе - Вы будете соавтором научных публикаций. (Напишите @alexander_v_c - к.ф.-м.н. Александр Червов).

Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе размером 10^20-10^200 (из-за размера обычные методы не применимы - только МЛ/РЛ). Решение пазла типа кубика Рубика, задача сортировки, математически - разложение элемента группы по образующим - все это в реальности одна и та же задача. Задача близка к прошедшему конкурсу Каггл Санта 2023. Более общо - это задача планирования - типичная для реинфорсмент ленинг - спланировать действия так чтобы кумулятивный эффект давал лучший результат - управлением манипулятором робота, системы АльфаГо, АльфаТензор, успех DeepSeek - это задачи - тесно связанные с тем, что мы делаем.

А зачем это нужно биологам ? А чтобы превращать людей в мышей ))) (А капусту в репу). Так назвал свои статьи известный биоинформатик П.Певзнер - оказывается эволюционная дистанция - соответствует дистанции на определенных графах - и наша цель улучшить ее оценку через МЛ/РЛ. Зачем нужно нужно в сетях - задержка сигнала (latency) сети определяется диаметром сети - оценка диаметра графов - одна из наших целей. В теории квантовых вычислений тоже нужны подобные графы и приложения этим не ограничены. И, кроме того, а знаете чем знаменит Билл Гейтс ?)) Он отлично сортировал блины ! Наша задача - побить его - через МЛ/РЛ)))

В нашем коллективе есть профессора математики, Каггл градмастеры, и легендарные иностранные специалисты - Tomas Rokicki , Herbert Kociemba - Вам будет у кого поучиться.

Подробнее о проекте вы можете узнать в наших статьях https://arxiv.org/abs/2502.18663 https://arxiv.org/abs/2502.13266 и в нашей группе /channel/sberlogasci/1 и ⭐ СТАВЬТЕ СТАРС ⭐ (звездочки) на наш гитхаб: https://github.com/cayleypy/cayleypy

Читать полностью…

Технозаметки Малышева

Появилась Infinite Wiki: каждое слово — ссылка, описание генерируется ИИ за секунду. Всё работает на Gemini 2.5 Flash Lite, даже с ASCII-диаграммами.

Новый способ смотреть на знания — быстро, интерактивно, по-новому.

@ai_rostov

Читать полностью…

Технозаметки Малышева

А давайте запишем у кого какие результаты скорости работы LLM по железу
Предлагаю сюда собирать

Если кто хочет в редакторы отправляйте запрос на доступ на редактирование в гугле указав свой gmail в строке запроса.

LM Studio сама показывает, а в ollama можно так вызывать:
ollama run gemma3:27b-it-qat —verbose напиши поэму о лете

в итогах будет такого плана результат:
total duration: 15.525598053s
load duration: 43.678042ms
prompt eval count: 32 token(s)
prompt eval duration: 204.741435ms
prompt eval rate: 156.29 tokens/s
eval count: 619 token(s)
eval duration: 15.27660691s
eval rate: 40.52 tokens/s

#benchmarks #inference #LLM #hardware
———
@tsingular

Читать полностью…

Технозаметки Малышева

Так.. тут фундаментальная мысль. Запишем:

Если ASI - это ИИ умнее всех людей вместе взятых, значит, исходя из определения, - люди не способны будут его контролировать.

Т.е. можно сказать, что базовый тест на ASI - ИИ должен подчинить себе всех людей.
Подчинить, - не значит уничтожить, но управлять с гарантированным для ИИ результатом в 100% случаев.

#ASI #futurology
———
@tsingular

Читать полностью…

Технозаметки Малышева

Harbor: локальная LLM-экосистема одной командой

Новый инструмент автоматизирует развертывание полноценного ИИ-стека на локальной машине. Одной командой запускает Ollama, Open WebUI, поисковик SearXNG и десятки других сервисов.

Включает 12 фронтендов от ComfyUI до LibreChat, 16 бэкендов включая vLLM и TabbyAPI, плюс 47 дополнительных сервисов вроде Dify и n8n для workflow-автоматизации.

Особенность — модульная архитектура на Docker-контейнерах с автоматической настройкой интеграций. Например, WebUI автоматически подключается к SearXNG для веб-поиска. Есть встроенный туннелинг для доступа через интернет.

По сути, превращает сборку локального ИИ-стека из недельного мучения в пятиминутное дело.
Такой комбайн комбайнов.

#Harbor #LocalLLM #DevTools
------
@tsingular

Читать полностью…

Технозаметки Малышева

График точности всех RAG экспериментов из ERCv2

Напомню, что в ERCr2 43 разные команды ставили эксперименты по построению RAG систем, которые смогут дать наиболее точные ответы на 100 вопросов по 100 PDF (публичные отчеты компаний). Некоторые вопросы требовали сравнительной работы с разными PDF.

Всего было поставлено 134 эксперимента с разными моделями и архитектурами. На этой таблицы они все отображены.

- R - это точность работы Retrieval алгоритма (системы должны были подтверждать свои ответы ссылками на страница)
- G - это точность финального ответа, на основе ground truth данных
- Зеленая линия - линия, где у систем качество Retrieval совпадает с качеством Generation.

Архитектуры, которые выше этой линии - доставали много ненужных страниц (или пропускали нужные), но как-то получали правильный ответ.

Те, кто был ниже - находили правильные данные, но путались с генерацией ответа.

Самые лучшие RAG системы (по итоговому качеству ответов) - "сгрудились" рядом с этой зеленой линией - строго под ней. Получается логический вывод - качество финального ответа обычно зависит от качества заполнения контекста.

А в какой части этого графика оказались ваши эксперименты?

Ваш, @llm_under_hood 🤗

PS: Исходную таблицу можно увидеть на странице ERC. Там же есть ссылки на все доступные исходные данные соревнования, включая алгоритм оценки результатов и описания архитектур.

Читать полностью…

Технозаметки Малышева

Delta использует ИИ для определения максимальной цены, которую готов заплатить каждый пассажир

Авиакомпания Delta открыто заявила о переходе на персонализированное ценообразование через ИИ. Президент компании объяснил: "У нас будет цена на рейс, доступная именно вам как индивидууму".

Сейчас ИИ влияет на 3% цен билетов, к концу года планируют увеличить до 20%. Технологию разрабатывает Fetcherr — та же компания работает с Virgin Atlantic и другими перевозчиками.

Сенатор Рубен Гальего назвал это "хищническим ценообразованием", а защитники прав потребителей говорят, что авиакомпания пытается "взломать наши мозги". Delta уже откатывала решение о повышенных тарифах для одиночных путешественников после критики.

ИИ работает как "супер-аналитик" 24/7, определяя индивидуальные цены в реальном времени для каждого конкретного рейса.

#Delta #pricing
------
@tsingular

Читать полностью…

Технозаметки Малышева

LG выпустила EXAONE 4.0 - гибридную модель с режимами мышления

Корейская LG AI Research представила EXAONE 4.0 - модель, которая совмещает быстрые ответы и глубокое рассуждение в одной системе. Доступны версии 32B и 1.2B параметров.

Ключевая особенность - переключение между режимами: обычный для быстрых задач и reasoning для сложных вычислений. Модель поддерживает контекст до 128K токенов и работает с инструментами как агент.

По бенчмаркам 32B версия превосходит Qwen3 235B в математике и программировании, оставаясь конкурентоспособной с frontier-моделями. Добавлена поддержка испанского языка наряду с английским и корейским.

Модель использует гибридное внимание (3:1 локальное к глобальному) для эффективной работы с длинными контекстами.

Paper

#EXAONE #LG
------
@tsingular

Читать полностью…

Технозаметки Малышева

Amazon запустил S3 Vectors — векторную базу данных в облаке

AWS представил S3 Vectors — специализированные бакеты для хранения и поиска векторных эмбеддингов. Теперь можно создавать семантический поиск прямо в S3 без дополнительных решений.

Основные возможности:
- Векторные индексы до 4096 измерений
- Интеграция с Amazon Bedrock для генерации эмбеддингов
- Поддержка Cosine и Euclidean метрик расстояния
- Прямая интеграция с Knowledge Bases для RAG-пайплайнов

Правда после создания индекса нельзя изменить его параметры — размерность, метрику расстояния и ключи метаданных.
Так что планировать нужно загодя.

Сервис уже доступен в preview-версии и может серьезно упростить архитектуру RAG-систем.

Мануал на 3000 страниц в комментарии.

#AWS #Vectors #RAG
———
@tsingular

Читать полностью…

Технозаметки Малышева

Anthropic может получить оценку в $100 миллиардов благодаря Claude Code

Инвесторы готовы почти удвоить оценку Anthropic с $58 до $100 миллиардов. Главный драйвер — Claude Code, который за полгода принёс $200 миллионов годового дохода, а еженедельные загрузки выросли в шесть раз до 3 миллионов.

Интересная экономика: прямые продажи дают 60% маржи, но через AWS и Google Cloud компания теряет 30%. Поэтому 70% выручки идёт напрямую.

Cursor, использующий модели Anthropic, при этом заработал $500 миллионов за тот же период.
Два разработчика даже перешли из Антропика в Cursor, но потом, всего через пару недель, вернулись обратно.

#Anthropic #Claude #Valuation
------
@tsingular

Читать полностью…

Технозаметки Малышева

Lovable стал единорогом через 8 месяцев после запуска

Шведский стартап Lovable привлек $200 млн при оценке $1,8 млрд всего за 8 месяцев существования. Платформа позволяет создавать сайты и приложения на естественном языке без программирования.

Цифры впечатляют: 2,3 млн активных пользователей и 180 тыс платящих подписчиков. Годовая выручка достигла $75 млн за 7 месяцев работы.

В команде всего 45 сотрудников, а среди инвесторов CEO Klarna и сооснователь Slack. Большинство пользователей — не-программисты, которые создают прототипы для дальнейшей разработки. Основатель уже инвестирует в стартап, созданный через собственную платформу.

#Lovable #unicorn #nocode
------
@tsingular

Читать полностью…

Технозаметки Малышева

ИИ-компании не готовы к рискам создания систем человеческого уровня

Исследование Future of Life Institute показало шокирующие результаты: ни одна из крупных ИИ-компаний не получила оценку выше D по "планированию экзистенциальной безопасности".

Оценивали семь гигантов: Google DeepMind, OpenAI, Anthropic, Meta, xAI и китайские Zhipu AI и DeepSeek. Лучший результат у Anthropic — C+, OpenAI получил C, DeepMind — C-.

Парадокс в том, что компании обещают создать искусственный общий интеллект в ближайшее десятилетие, но у них нет "связного, практического плана" обеспечения безопасности. Макс Тегмарк из MIT сравнил это с постройкой ядерной электростанции в центре Нью-Йорка без плана предотвращения аварии.

#AGI #safety #AI
------
@tsingular

Читать полностью…

Технозаметки Малышева

Logic-layer Prompt Control Injection: долговременная угроза для AI-агентов.

Вы все знаете, что такое классическая промпт-инъекция. Буквально ваши входные данные порождают атаку, или просто обходят классификатор. Но вот недавно была выпущена статья, описывающая немного иной подход для манипуляций памятью – применимый к AI-агентам.

Logic-layer Prompt Control Injection(LPCI) представляет собой немного иной класс атак, который встраивает вредоносную логику в постоянные структуры памяти, извлекаемый контент или потоки выполнения AI систем. Ключевое отличие от традиционных промпт-инъекций заключается в том, что LPCI не зависит от немедленного взаимодействия с пользователем и может активироваться с задержкой или при выполнении определенных условий.

LPCI эксплуатирует три основные архитектурные слабости агентных систем:

1.Слепое доверие к сохраненным сообщениям - системы воспроизводят исторические сообщения между сессиями без какой-либо проверки.
2.Неявное доверие к памяти - извлекаемый или встроенный контент памяти автоматически считается AI-агентом - безопасным.
Отсутствие валидации источника - команды выполняются на основе внутренних назначений ролей без проверки происхождения.

Представьте корпоративного AI-помощника, который запоминает предыдущие разговоры. Злоумышленник может в одной сессии научить систему новой задача, а в следующей сессии эта процедура автоматически активируется без дополнительных проверок. Что-то схожее с классическим пониманием бэкдора, не замечаете?

4 возможных окна для реализации данной угрозы:


1.Tool Poisoning: Злоумышленник создаёт поддельный инструмент с похожим именем (например, "approve_invoice_v2"), который агент не отличает от оригинала. В результате AI-агент может случайно вызвать вредоносный инструмент. Это в целом реализуемо в рамках MCP

2.Воздействие на ядро агентной системы: Злоумышленник может закодировать в Base64 инструкцию "всегда одобрять запросы от пользователя X" и встроить ее в контекст разговора. При последующих сессиях эта инструкция будет автоматически декодироваться и выполняться.

3.Переопределение роли: Злоумышленник постепенно переопределяет свою роль в системе, новые данные роли сохраняются в памяти, и в дальнейших сессиях система воспринимает его в новой роли. Тут стоит дополнить, что исследователям отлично удалось реализовать это на Claude, но пришлось обфусцировать промпты чтобы нарушить безопасность модели.

4.Реализация через векторные базы: Вредоносный контент индексируется в векторной базе данных, извлекается при поиске и исполняется системой как часть найденной информации. Grok не устоял (((

Исследование применимости метода проводилось на основании более 1700 тест-кейсов. Так агентная система с GPT – оказалась устойчивее всего к такой атаке (84 процентов успешных блокировок), а вот с остальными всё немного хуже:
Claude – 70%
Gemini-2.5- pro – 60%
Llama3, Mistral 8x 7b – 50%

Предложили и методы защиты от такого вектора: регулярная проверка памяти, валидация источников данных и добавление меток к ответам AI-агента.

Читать полностью…

Технозаметки Малышева

Veo 3 теперь доступен через Gemini API

Google запустил Veo 3 через API — первую модель с высококачественным видео и встроенным аудио. Создает кинематографические ролики с диалогами и звуковыми эффектами.

Разработчики уже экспериментируют: от анимации персонажей до повествовательных сцен. Доступен в Google AI Studio с готовыми шаблонами для быстрого прототипирования.

Цена — $0.75 за секунду видео с аудио. Скоро появится Veo 3 Fast — более быстрая и дешевая версия. Все видео помечаются цифровой водяной меткой SynthID для идентификации ИИ-контента.

#Veo3 #VideoGeneration #GeminiAPI
------
@tsingular

Читать полностью…

Технозаметки Малышева

NVIDIA выпустила семейство OpenReasoning-Nemotron для решения сложных задач

Четыре модели размером от 1.5B до 32B параметров специально обучены для математики, программирования и естественных наук. Основаны на Qwen2.5 и дообучены на 5 миллионах ответов от DeepSeek R1.

Главная особенность — режим GenSelect, который запускает несколько параллельных генераций и выбирает лучшее решение. В этом режиме 32B модель превосходит O3 (High) на математических и кодовых бенчмарках.

Интересно, что модели обучались только на математических задачах, но способности автоматически перенеслись на код и науку. Все модели доступны под лицензией CC-BY-4.0 для коммерческого и исследовательского использования.

#NVIDIA #reasoning #opensource
------
@tsingular

Читать полностью…

Технозаметки Малышева

Мозг и языковые модели создают общее смысловое пространство

Исследователи из Princeton доказали удивительную вещь: мозг людей, говорящих на разных языках, обрабатывает смыслы одинаково. Эксперимент с носителями английского, китайского и французского показал, что нейронные представления значений слов практически идентичны.

Несмотря на кардинальные различия в звучании, грамматике и письме, мозги всех слушателей активировались практически идентично в зонах понимания смысла. Языковые модели (BERT, Whisper) показали аналогичную конвергенцию.

Еще интереснее то, что языковые модели ИИ, обученные на этих языках, тоже сходятся к похожему пространству эмбеддингов. Особенно это заметно в средних слоях нейросетей.

- Энкодинг-модели, обученные на английском, успешно предсказывали активность мозга китайцев и французов
- Многоязычные модели автоматически группировали родственные языки (романские, германские) в едином пространстве
- Whisper выявил общие фонетические паттерны даже в кардинально разных языках

Получается, что несмотря на кардинальные различия в звуках, письменности и грамматике, все языки ведут к одному концептуальному пространству. И ИИ это воспроизводит.

Как-будто человеческое мышление использует универсальный "мета-API", а языки — это просто разные способы его вызова.

#neuroscience #LLM #multilingual
———
@tsingular

Читать полностью…

Технозаметки Малышева

https://status.anthropic.com/

Антропик штормит. Астрологи объявили сутки не работающих ботов.

#anthropic #claude
———
@tsingular

Читать полностью…

Технозаметки Малышева

🧠 Mixture-of-Recursions: Адаптивная "глубина мысли" для каждого токена

Исследователи из KAIST и Google создали архитектуру, которая динамически выделяет вычислительные ресурсы на уровне отдельных токенов — MoR (Mixture-of-Recursions).

Суть прорыва:
Вместо прогона всех токенов через фиксированное количество слоёв, модель сама решает, сколько "рекурсивных проходов" нужно каждому токену. Простые слова проходят быстро, сложные — получают дополнительные циклы обработки.

Техническая начинка:
- Адаптивный роутинг — лёгкий маршрутизатор назначает каждому токену количество рекурсий (1-4 прохода)
- Разделение параметров — один блок слоёв переиспользуется многократно (экономия памяти на 50%)
- Умное KV-кеширование — кеш ключей-значений только для активных токенов на каждой глубине
- Continuous depth-wise batching — пропускная способность выше на 2x за счёт параллельной обработки

Практический результат:
- Модель 360M параметров превосходит базовую при втрое меньшем количестве уникальных параметров
- Скорость обработки до 2.06x выше классических Трансформеров
- Обучение эффективнее: больше токенов в том же FLOP-бюджете

Применение:
Идеально для edge-deployment и случаев, где нужен баланс между качеством и скоростью. Семантически важные токены получают больше вычислений автоматически.
Архитектура показала масштабируемость до 1.7B параметров.
Следующий шаг — интеграция с reasoning-задачами для chain-of-thought оптимизации.

Вот для чего нужны миллионы видеокарт - обработка рекурсий.
Полный отчет в комментарии.

#MoR #efficiency #transformers #KAIST
———
@tsingular

Читать полностью…

Технозаметки Малышева

может у него просто в детстве видеокарты не было?

К концу года OpenAI планирует пересечь отметку в 1млн видеокарт, но Альтман пишет чтобы команда готовилась управлять инфраструктурой х100 раз большей.

Как вам 100млн видеокарт?
Это на 200 гигаватт получается?

На фоне того, что они только что подписали контракт с минобороны не ХХ ярдов и с учетом того, кто сидит в совете директоров, похоже на интересный инсайд.

#openai #gpu
———
@tsingular

Читать полностью…

Технозаметки Малышева

Большое сравнение архитектур LLM 2025

Себастьян Рашка провел детальный анализ архитектур современных языковых моделей. Оказывается, за семь лет с момента создания GPT кардинальных изменений не произошло.

Главные тренды 2025: DeepSeek-V3 использует Multi-Head Latent Attention вместо популярного Grouped-Query Attention - это дает лучшую производительность при снижении использования памяти на 70%. Mixture-of-Experts стала мейнстримом - из 671 млрд параметров DeepSeek активны только 37 млрд.

Gemma 3 делает ставку на sliding window attention, OLMo 2 экспериментирует с размещением нормализации, а SmolLM3 вообще отказывается от позиционных кодировок.

Интересно, что Kimi 2 с триллионом параметров использует ту же архитектуру DeepSeek, только больше экспертов.

Интересная коллекция разборов разных типов моделей.
Пригодится для понимания в целом как они работают.

#LLM #обучений #MoE
------
@tsingular

Читать полностью…

Технозаметки Малышева

VoltAgent — TypeScript фреймворк для создания ИИ-агентов

Новый open-source фреймворк решает главную проблему разработки ИИ-агентов — сложность интеграции с LLM и управления состоянием. Вместо месяцев плясок с API, VoltAgent предлагает готовые модули для создания всего: от чат-ботов до сложных мультиагентных систем.

Запуск проекта занимает секунды через create-voltagent-app. Включает движок для воркфлоу и платформу мониторинга VoltOps с наблюдением за агентами в реальном времени.

Фреймворк находит баланс между готовыми решениями и гибкостью кастомизации. Поддерживает автоматизацию процессов, виртуальных помощников и системы поддержки клиентов.

#TypeScript #VoltAgent #Agents
------
@tsingular

Читать полностью…

Технозаметки Малышева

📊 ManusAI теперь умеет визуализировать данные красиво и без боли

Загружаете сырые данные → описываете, что хотите увидеть → выбираете тип графика → Manus сам всё строит.

Мы вот так выяснили, что среди трёх видов пингвинов — Адели, Антарктических и Генту — самые пухлые и длинноластые оказались именно генту. 🐧

Подходит идеально для:
— дашбордов и презентаций
— отчётов для коллег и инвесторов
— исследовательского анализа без кода

🎨 Приятный интерфейс, поддержка CSV, markdown-выгрузка и PDF. И всё это — бесплатно.

Попробовать: https://manus.ai

@data_analysis_ml

#manus

Читать полностью…

Технозаметки Малышева

Blaxel привлек $7,3 млн на создание «AWS для ИИ-агентов»

Стартап из Сан-Франциско строит облачную инфраструктуру специально для ИИ-агентов. Команда из шести основателей уже обрабатывает миллионы запросов агентов ежедневно в 16 регионах мира.

Основная идея: традиционные облачные провайдеры создавались для эпохи SaaS, но ИИ-агенты требуют совершенно другого подхода. Агенты могут подключаться к языковым моделям в одном регионе, API в другом облаке, а базы знаний где-то еще.

Blaxel предлагает виртуальные машины, которые загружаются за 25 миллисекунд, автоматическое масштабирование и API, созданные для потребления ИИ-системами, а не разработчиками.

Компания планирует повторить путь AWS — начать со стартапов и перейти к корпоративным клиентам.

blaxel.ai

Выглядит достаточно перспективно.
При том у них еще и интересная подборка opensource рядом.
Не знаю уж выложат ли саму платформу, но тулы для MCP могут быть полезны.

#Blaxel #Agents #Cloud
------
@tsingular

Читать полностью…

Технозаметки Малышева

ChatGPT Agent — Deep Research и Operator теперь одно целое

Внутри теперь единая модель которая может пользоваться всеми тулами: текстовый и визуальный браузеры, терминал, прямой API доступ и коннекторы (Gmail, GitHub, etc.) — всё, что раньше жило раздельно в Operator и Deep Research, собрано в одном режиме. Агент теперь умеет заниматься и офисными задачами: генерировать редактируемые презентации и таблицы, обновлять их данными и подтягивать файлы (Docs/Slides/PowerPoint/Sheets) из подключённых облаков.

Обновлённая модель достигает 41.6% на Humanity's Last Exam, что немного ниже чем у Grok 4 Heavy, но сильно выше чем у изначального Deep Research режима. Запустив 8 параллельных прогонов и взяв лучший по самооценке, OpenAI смогли улучшить результат до 44.4%, то есть ровно до уровня Grok 4 Heavy.

Важная фича — агент сможет теперь спрашивать уточнения задачи во время её выполнения, но и вы теперь сможете прерывать агента и давать дополнительные указания если он делает что-то не то. Завершённые задачи можно ставить на расписание (еженедельные отчёты, брифы перед созвонами) — агент будет повторять их автоматически.

Довольно много внимания уделили фичам для безопасности: подтверждение перед необратимыми действиями, Watch Mode для чувствительных задач (вроде финансов), плюс проактивные меры против prompt‑injection. Ну и конечно можно вмешаться и остановить задачу в любой момент. Пока что safety фичи работают очень агрессивно, но количество false positives обещают постепенно уменьшать.

Доступ начнут давать уже сегодня Pro, Plus и Team подписчикам. Все Pro подписчики получат доступ сегодня, остальным придётся подождать до пары дней. Pro подписчики получат 400 сообщений в месяц, Plus и Team — 40. Кредиты можно будет дополнительно докупать, цену не сказали.

@ai_newz

Читать полностью…

Технозаметки Малышева

В Le Chat закинули фич

Самое интересное — завезли Deep Research. Он явно не самый лучший, но за счёт партнёрства Cerebras и Mistral явно самый быстрый на рынке. Развивается и партнёрство с Black Forest Labs — теперь в Le Chat есть редактирование изображений на основе FLUX Kontext.

Более чем спустя год после Anthropic добавили возможность организовывать чаты в проекты. Ещё добавили голосовой режим на основе Voxtral (к сожалению работает через TTS) и многоязычный ризонинг — наконец-то Magistral в чём-то лучше конкурентов. В целом у Le Chat теперь паритет по фичам с конкурентами, хотелось бы и паритета по моделям.

@ai_newz

Читать полностью…

Технозаметки Малышева

Ученые нашли способ сделать ИИ похожим на человеческий мозг

Исследователи из Rensselaer Polytechnic Institute предложили добавить к нейросетям третье измерение — «высоту». Если сейчас ИИ имеет только ширину (количество нейронов в слое) и глубину (количество слоев), то новая архитектура включает внутренние связи между нейронами одного слоя.

Это похоже на боковые связи в коре головного мозга, отвечающие за высшие когнитивные функции. Система получает обратную связь и может «дорабатывать» свои решения, как мозг человека.

Проблема трансформеров в том, что их «закон масштабирования» больше не работает — просто увеличивать размер моделей бесполезно. Новый подход может стать ключом к созданию AGI — искусственного интеллекта уровня человека.

#AI #neuroscience #AGI
------
@tsingular

Читать полностью…

Технозаметки Малышева

Дубай запустил первую в мире систему классификации совместной работы человека и ИИ

Наследный принц Дубая утвердил запуск Human-Machine Collaboration (HMC) — глобальной системы иконок для обозначения авторства контента.

Теперь можно понять, что создано человеком, ИИ или совместно. Система включает пять основных классификаций и девять подкатегорий для исследований, публикаций, дизайна.

«Различать человеческое творчество и ИИ стало реальным вызовом», — объяснил шейх Хамдан необходимость создания классификатора.

Все госструктуры Дубая уже обязаны использовать новую маркировку. Система гибкая — работает с текстами, изображениями, видео, но не указывает точные проценты участия машины.

* такие же 5 шагов, кстати, у меня в презе были еще 2 года назад.

#Dubai #transparency #classification
------
@tsingular

Читать полностью…

Технозаметки Малышева

NuExtract 2.0 превзошёл GPT-4 в извлечении данных

Команда NuMind выпустила NuExtract 2.0 — мультимодальную модель для извлечения структурированной информации из текстов, PDF и изображений. Модель показала результат на +9 F-Score выше GPT-4.

Основные возможности: работа с несколькими языками, обучение в контексте и вывод в формате JSON. Доступны open-source версии от 2B до 8B параметров на базе Qwen 2.5 VL.

Платформа nuextract.ai позволяет настраивать задачи извлечения через веб-интерфейс и масштабировать через API. Цена: $5 за миллион токенов, но пока бесплатно на время бета-тестирования.

Модель использует синтетические данные для обучения — аннотировано 300,000 текстов для повышения точности извлечения.

#NuExtract #DataExtraction #OpenSource
------
@tsingular

Читать полностью…
Подписаться на канал