ai_machinelearning_big_data | Technologies

Telegram-канал ai_machinelearning_big_data - Machinelearning

359493

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Subscribe to a channel

Machinelearning

✔️ Higgsfield запустил сервис профессионального ИИ-кинопроизводства.

Cinema Studio — специализированная среда генерации со структурой съемочного процесса.
Новинка предлагает глубокую настройку виртуальной кинематографии: эмуляция 6 профессиональных камер (ARRI Alexa 35, RED и Panavision) и 11 типов объективов, от анаморфотных до макро.

Cinema Studio поддерживает вывод в 4K с соотношением сторон 21:9 и позволяет управлять сложными операторскими приемами, а также менять освещение сцены с сохранением реалистичности теней.
higgsfield.ai

✔️ Qwen-Image-Layered: декомпозиция изображений в редактируемые RGBA-слои.

Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью.

Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга.

Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope.
qwen.ai

✔️ Cursor покупает платформу код-ревью Graphite.

Сделка, сумма которой по данным инсайдеров, значительно превышает последнюю оценку Graphite в $290 млн, нацелена на создание сквозной экосистемы для ИИ-разработки: объединить процесс написания кода с этапами ревью и командной работы.

В ближайшие месяцы компании планируют представить интеграцию, которая позволит ИИ-агентам обучаться на полном процессе - от черновиков в редакторе до финальных мержей.
Несмотря на смену владельца, Graphite продолжит функционировать автономно.
cursor.com

✔️ NVIDIA выпустила в продажу 72-гигабайтную версию RTX PRO 5000.

Компания анонсировала доступность видеокарты RTX PRO 5000 с увеличенным до 72 ГБ VRAM. Новинка сохранила те же 14 080 CUDA-ядер и TBP на уровне 300 Вт.

Точная цена 72-гигабайтной версии пока не раскрыта. Ожидается, что она займет нишу между базовой моделью на 48 ГБ и флагманской RTX PRO 6000. Глобальные поставки через системных интеграторов начнутся в начале следующего года.
blogs.nvidia.com

✔️Gemma Scope 2: крупнейший набор инструментов для интерпретации работы LLM.

Google DeepMind открыла исходный код Gemma Scope 2 — инструментария для детального анализа внутреннего мира моделей семейства Gemma 3. Релиз включает более 400 автоэнкодеров и транскодеров, которые буквально просвечивают слои модели, разбирая ее реакции на концепты: от математических вычислений до идиом.

Инструменты покрывают весь спектр весов Gemma 3: от 270M до 27B, позволяя изучать причины галлюцинаций, механизмы отказов и уязвимости к джейлбрейкам.

Веса Scope 2 доступны на Hugging Face, а интерактивные демо для визуального исследования нейронов размещены на Neuronpedia.
deepmind.google

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

✔️ GPT-5.2-Codex.

OpenAI представила GPT-5.2-Codex, которую называет самым продвинутым инструментом для реальной программной инженерии на сегодняшний день. Модель получила нативную поддержку сжатия контекста, улучшенную интеграцию с терминалом Windows и способность проводить глубокий рефакторинг крупных репозиториев без потери логической нити.

Ключевой апдейт коснулся сферы безопасности - Codex резко прибавил способностей в анализе защищенности кода. Модель уже доступна платным пользователям ChatGPT, а API будет открыт в ближайшие недели.
openai.com

✔️ xAI представила Grok Voice Agent API.

Компания Илона Маска открыла публичный доступ к Grok Voice Agent API — нативному интерфейсу speech-to-speech для создания голосовых ассистентов. Решение построено на полностью собственной архитектуре, что позволило достичь задержки ответа менее 1 секунды.

API поддерживает вызов внешних инструментов, веб-поиск, прямую интеграцию с телефонией через SIP и понимает более 100 языков. В бенчмарке Big Bench Audio модель заняла 1 место с точностью 92,3%, опередив Gemini 2.5 Flash и GPT Realtime.

Главной фишкой стала ценовая политика: единый тариф составляет $0.05 за минуту. Это значительно дешевле, чем у OpenAI и ElevenLabs.
x.ai

✔️ VS Code получил поддержку стандарта Agent Skills.

В VS Code Insiders появилась поддержка Agent Skills - открытого протокола, разработанного Anthropic. Технология позволяет упаковывать инструкции, скрипты и вспомогательные ресурсы в модули, которыми можно пользоваться в разных ИИ-инструментах.

Главное отличие Agent Skills от привычных кастомных инструкций в функциональности: это не текстовые гайдлайны по стилю кода, а полноценные наборы инструментов для автоматизации задач, которые подгружаются в контекст модели динамически и только при необходимости.

Стандарт дает кросс-платформенность: созданный один раз скилл будет работать одинаково как в интерфейсе редактора, так и в CLI-агентах.
code.visualstudio.com

✔️ Google выпустила T5Gemma 2.

T5Gemma 2 получила серьезные архитектурные изменения по сравнению с первой версией. Чтобы снизить потребление памяти, инженеры внедрили tied word embeddings для энкодера и декодера, а также объединили механизмы self-attention и cross-attention в единый слой. Модели доступны в компактных конфигурациях на 270M, 1B и 4B параметров.

Новинка поддерживает контекстное окно до 128 тыс. токенов и умеет обрабатывать не только текст на 140 языках, но и изображения. В бенчмарках T5Gemma 2 обошла базовую Gemma 3 в задачах на длинный контекст, кодинг и мультимодальное понимание. Модели доступны на Hugging Face и Kaggle для исследовательских целей.
blog.google

✔️ ИИ-подразделение Марка Цукерберга открыло аудио-визуальный энкодер PE-AV.

Perception Encoder Audiovisual (PE-AV) - техническое ядро, лежащее в основе SAM Audio. Это мультимодальная модель, которая объединяет аудио, видео и текст в единое пространство эмбеддингов.

PE-AV умеет извлекать векторы признаков из аудио или видеокадров и формировать совместные аудиовизуальные представления. Это повышает точность в задачах кросс-модального поиска, детекции звуков и глубокого понимания сцен, где важен синхронный контекст изображения и звука.

В открытом доступе - 6 чекпоинтов модели разного размера (от Small до Large) с вариациями по количеству обрабатываемых кадров. Код опубликован на GitHub, а веса - на Hugging Face.
huggingface.co


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🌟 TurboDiffusion: ускорение генерации видео в 100+ раз.

Суровая реальность нашего времени: вы хотите сгенерировать 5-секундное видео на большой SOTA-модели. Вы запускаете промпт, идете пить кофе, возвращаетесь, а процесс все еще идет. И зачастую генерация может занимать больше часа.

Главные виновники - чудовищная вычислительная сложность механизма внимания в трансформерах, необходимость сотен шагов денойзинга и огромный объем памяти для весов в полной точности.


Авторы проекта TurboDiffusion из Цинхуа и Беркли решили собрать все эффективные методы сжатия и ускорения в один пайплайн. Их идея заключалась в том, что разреженность и квантование — это техники, которые не мешают друг другу.

🟡Архитектура держится на 3-х китах оптимизации:

🟢Заменили стандартное внимание на гибрид из SageAttention2++ и Sparse-Linear Attention (SLA), который превратил квадратичную сложность в линейную. чтобы модель фокусировалась только на важных токенах.

🟢Дистиллировали сэмплинг через rCM - вместо стандартных 50–100 шагов модель приходит к результату всего за 3-4 шага без потери сути изображения.

🟢Перевели и веса и активации линейных слоев в INT8 используя блочное квантование, чтобы не потерять точность.

В довершении ко всему смогли объединить после файнтюнинга под SLA и дистилляции rCM веса в единую модель, избежав конфликтов.

🟡Результаты бенчмарков выглядят как опечатка, но это не она.

На RTX 5090 время генерации для тяжелой модели Wan2.2-I2V 14B упало с 69 минут до 35.4 секунд. А для более легкой Wan 2.1-1.3B - с почти 3-х минут до 1.8 секунды.

Это ускорение больше чем в 100 раз.

При этом, судя по примерам, визуальное качество осталось практически неотличимым от оригинала.


📌Лицензирование: Apache 2.0 License.


🟡Набор моделей
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #I2V #T2V #TurboDiffusion

Читать полностью…

Machinelearning

📌Со-основатель Google DeepMind: вероятность появления AGI к 2028 году составляет 50%.

Шейн Легг, сооснователь и главный AGI-сайентист Google DeepMind в свежем видео-подкасте предлагает понятие "минимального AGI".

Это не обязательно "божественный сверхразум", а агент, способный выполнять когнитивные задачи, типичные для человека.

🟡Сегодня мы видим явный дисбаланс в возможностях моделей.

С одной стороны, топовые модели уже владеют 100–150 языками и обладают феноменальной общей эрудицией, зная детали о городах в Новой Зеландии.

С другой стороны, они спотыкаются на базовых вещах, доступных любому ребенку.

Например, в задачах на визуальное мышление модели путаются в перспективе: они могут не понять, что синяя машина на картинке больше красной, просто потому что она находится ближе.


Другой пример - работа с диаграммами: если попросить ИИ посчитать количество ребер, выходящих из узла на графе, он часто ошибается, так как не умеет внимательно пересчитывать объекты так, как это делает человек.


🟡Фундаментальных физических ограничений для преодоления человеческого уровня интеллекта не существует, если смотреть на это с инженерной точки зрения.

Человеческий мозг - это устройство весом чуть больше килограмма, потребляющее около 20 ватт энергии. Сигналы в нем передаются посредством электрохимических реакций со скоростью примерно 30 метров в секунду, а частота работы нейронов составляет всего около 100 герц.

Сравните это с современным дата-центром: это сооружение весом в сотни тонн, потребляющее 200 мегаватт. Сигналы там "бегают" со скоростью света, а тактовая частота процессоров достигает 10 млрд. герц.

Разница в масштабах — это десятки порядков сразу по нескольким измерениям: энергопотреблению, объему, пропускной способности и скорости. Поэтому считать человеческий интеллект верхним пределом возможного было бы ошибкой.

🟡Для достижения AGI недостаточно просто масштабировать данные.

Критическим барьером остается непрерывное обучение. Люди, приходя на новую работу, не обязаны знать все сразу - они учатся в процессе.

Современный ИИ представляет собой статичные объекты после тренировки. Чтобы это изменить, потребуются архитектурные инновации, например, внедрение систем эпизодической памяти, которые позволят модели запоминать новый опыт и дообучаться на нем в реальном времени, не забывая старое.

В ближайшие годы мы увидим переход от ИИ как инструмента к агентным системам, способным самостоятельно планировать и выполнять сложные цепочки действий, например, написать ПО или спланировать поездку "под ключ".

🟡Вопрос безопасности в таких системах Легг предлагает решать по аналогии с медленным мышлением у человека.

ИИ не должен просто реагировать инстинктивно; он должен демонстрировать цепочку рассуждений, которую можно промониторить. Это дает возможность проверить, почему модель приняла то или иное этически сложное решение — например, солгать злоумышленнику, чтобы спасти чью-то жизнь.

Если мы сможем видеть этот скрытый процесс размышления, доверие к системе вырастет. Это станет критически важным, когда ИИ начнет трансформировать рынок труда: например, в сфере разработки ПО, где вместо команды из 100 инженеров для той же работы может потребоваться всего 20 специалистов, использующих продвинутые инструменты.

🔜 Послушать умного человека в очках 53 минуты на Youtube


@ai_machinelearning_big_data

Читать полностью…

Machinelearning

✔️ Яндексовский CatBoost вошел в число самых используемых ML-инструментов в академических исследованиях

Американское издание Marktechpost выкатило доклад ML Global Impact Report 2025, который охватывает исследования из более чем 125 стран мира. В число самых популярных ML-инструментов в исследованиях вошла российская технология CatBoost.

CatBoost, который изначально создавался для Поиска Яндекса, сегодня используется в каждой 30-й статье с применением ML учеными из 51 страны, включая США, Китай, Саудовскую Аравию и другие. В частности, на США приходится 13% статей с использованием CatBoost, среди авторов работ — исследователи из Harvard University, Massachusetts Institute of Technology и Stanford University.

В числе основных отраслей применения — медицина и прикладные науки:
- прогнозирование рецидивов рака печени
- обнаружение рака молочной железы
- ранняя диагностика болезни Альцгеймера
- оценка риска преждевременных родов
- индекс качества воды
- расчет спроса на зарядку электромобилей
- борьба с ботами в социальных сетях.

Читать полностью…

Machinelearning

🧠 Сергей Брин рассказывает о своей новой привычке

Он разговаривает с Gemini Live прямо за рулём - обсуждает энергопотребление дата-центров, стоимость инфраструктуры и другие рабочие темы.

Это классический Google-style: тестировать собственный продукт в реальной жизни. Напоминает историю про Билла Гейтса, который снял радио из машины, чтобы постоянно думать о Microsoft.

Такой уровень одержимости - редкость. И, честно, именно он отличает по-настоящему больших фаундеров.

Интересная деталь: Сергей говорит, что версия Gemini, которой он пользуется в машине, заметно лучше того, что доступно публично сейчас.

@ai_machinelearning_big_data

#Gemini #google #ai #ml

Читать полностью…

Machinelearning

📌Внутри нашего мозга работает аналог GPT с контекстным окном всего в 10 слов.

Представьте себе биологическую нейросеть, физический объем которой, если собрать все её ткани вместе, не превысит размер обычной клубники.

Именно такую компактную, но критически важную структуру описывает нейробиолог Эв Федоренко из MIT, посвятившая 15 лет изучению того, как наш мозг обрабатывает речь.

Её выводы звучат для инженеров и дата-сайентистов очень знакомо: внутри человеческой головы функционирует система, которая ведет себя подозрительно похоже на современные большие языковые модели. Это своего рода «бездумный» языковой процессор, который занимается маппингом слов и смыслов, но сам при этом абсолютно не умеет мыслить.

🟡Утверждение базируется на серьезном массиве данных.

Лаборатория Федоренко провела фМРТ-сканирование 1400 человек, чтобы построить детальную вероятностную карту мозговой активности.

Архитектура этой «языковой сети» оказалась удивительно стабильной и воспроизводимой: у большинства взрослых людей она локализуется в 3 конкретных зонах левой лобной доли и на протяженном участке вдоль средней височной извилины.

Федоренко называет эту структуру функциональным блоком, сравнимым с органом, вроде пищеварительной системы, или зоной распознавания лиц.

Самое интересное начинается, если посмотреть на функционал. Федоренко описывает эту сеть как парсер или набор указателей. Её задача сугубо утилитарна — работать интерфейсом между входными сигналами (звук, текст, жесты) и абстрактными представлениями смысла, хранящимися в совершенно других отделах мозга.

Сама языковая сеть не обладает ни эпизодической памятью, ни социальным интеллектом, ни способностью к рассуждению. Весь процесс раздумий происходит за её пределами.

Это объясняет феномен афазии: при повреждении этого «интерфейса» человек сохраняет сложное когнитивное мышление, но оказывается заперт внутри себя, потеряв доступ к словарю и грамматическим правилам.

🟡Сходство с LLM становится еще очевиднее, если взглянуть на ограничения системы.

Исследования показывают, что человеческая языковая сеть имеет крайне узкое контекстное окно: она способна эффективно обрабатывать чанки длиной максимум в 8–10 слов.

По сути, это довольно поверхностная система. Она реагирует на грамматически верную бессмыслицу Ноама Хомского «Colorless green ideas sleep furiously» так же активно, как и на осмысленные предложения. Ей важна структура и статистическая вероятность стыковки слов, а не истинность или глубокий смысл высказывания.

Это роднит её с ранними языковыми моделями: сеть просто выучила правила, по которым слова собираются в цепочки.

Данные Федоренко заставляют пересмотреть и классические представления об анатомии, ведь многие учебники до сих пор ссылаются на устаревшие концепции.

Например, зона Брока, которую десятилетиями считали центром речи, на деле оказалась областью моторного планирования. Она лишь готовит мышцы рта к артикуляции и активируется даже при произнесении полной бессмыслицы, работая как ведомый регион для получения команд.

Настоящая же языковая сеть мозга - это отдельный, специализированный вычислительный кластер, который, подобно ChatGPT, блестяще имитирует связность речи, даже если за ней не стоит никакой реальной мысли.


@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ МТС Web Services запускает MWS GPU on-premises — сервис для тех, кому облако не подходит по требованиям безопасности.

Серверы с передовыми графическими ускорителями устанавливаются на площадке предприятия или в дата-центре MWS Cloud.

Команда поможет подобрать конфигурацию под ваши задачи, установит оборудование и возьмёт на себя поддержку. Можно выбрать готовое решение или собрать индивидуальное. Покупка или аренда — на ваше усмотрение.

Сервис особенно актуален для промышленных компаний с существующими on-premises системами и медицинских организаций, использующих ИИ для диагностики.

Все конфигурации и условия — на странице сервиса.

Читать полностью…

Machinelearning

⚡️ В открытом доступе появился техрепорт собственного семейства моделей Яндекса — Alice AI.

Что изменилось:

⭐️ VLM- и LLM-«Алисы» сближаются все сильнее, поскольку компания делает большую ставку на мультимодальность. Например, VLM-модель уже использует RL-подход текстовой «сестрёнки». Промпт на входе в Alice AI ART обрабатывается в специальном «рефразере», который помогает сделать описание более детальным. Также увеличен контекст и объем данных претрейна в VLM.

⭐️ Много технических подробностей о работе Alice AI LLM Search, которая теперь приносит в ответе не только текст, но и изображения, видео и геоданные.

⭐️ На инфраструктуре видим прирост по скорости за счет мелких аджастов — увеличение эффективного батча на претрейне, внедрение Ulysses attention, снижение объема кэша на инференсе и еще много изменений. В целом сняты ключевые ограничения для тренировки MoE-модели на сотни миллиардов параметров.

@ai_machinelearning_big_data

#vlm #llm #ml #ai

Читать полностью…

Machinelearning

✔️ Марк Цукерберг сворачивает стратегию Open Source.

Компания радикально меняет вектор развития ИИ, отказываясь от идеологии открытости в пользу закрытых коммерческих продуктов. По данным источников, уже весной будет выпущена проприетарная модель Avocado, которая будет распространяться по закрытой лицензии для прямой монетизации.

Причиной резкого разворота стала неудача с Llama 4, которая не оправдала ожиданий руководства. Любопытно, что в процессе обучения Avocado использовались ответы моделей конкурентов: Google Gemma, GPT-OSS и Qwen.
bloomberg.com

✔️ Nvidia разработала механизм проверки геолокации своих чипов.

Компания создала ПО, которое определяет страну, где физически работают её ИИ-ускорители. Технология опирается на анализ сетевых задержек при обмене данными с серверами Nvidia, что позволяет установить геолокацию оборудования с точностью, достаточной для выявления нарушений санкционного режима.

Первыми поддержку новой функции получат системы на Blackwell. Инженеры также изучают варианты внедрения технологии для предыдущих поколений Hopper и Ampere. Nvidia позиционирует этот инструмент как опциональное ПО для инвентаризации и мониторинга состояния GPU-флота в дата-центрах, но фактически он отвечает на требования властей США о противодействию контрабанды железа в Китай.
reuters.com

✔️ Cursor получил режим Debug Mode.

Debug Mode — это новый агентный сценарий для борьбы с ошибками, которые обычно ставят языковые модели в тупик. Фишка инструмента в том, что он не пытается угадать решение, а действует методично: сначала выдвигает несколько гипотез о причинах сбоя, а затем временно внедряет в код инструкции для сбора runtime-логов.

Процесс отладки полностью интерактивен. После того как агент расставит «ловушки» в коде, разработчик должен воспроизвести ошибку в запущенном приложении. Получив реальные данные, Cursor локализует проблему и предлагает конкретный фикс без переписывания сотен строк кода. Если исправление работает, система автоматически вычищает весь черновой код, оставляя в проекте только финальный патч.
cursor.com

✔️ Microsoft превратила Copilot в автономного агента для автоматизации работы в Excel.

Microsoft открыла общий доступ к режиму Agent Mode в веб-версии Excel. Это обновление меняет взаимодействие с ИИ: Copilot теперь выполняет роль агента, способного самостоятельно выполнять многоступенчатые сценарии внутри книги.

В новом режиме агент может создавать таблицы с нуля, используя данные из веба, проводить сценарное моделирование «что - если», исправлять сложные формулы и строить сводные таблицы. Система показывает цепочку рассуждений и каждый шаг выполнения задачи.

Инструмент доступен подписчикам Microsoft 365 в веб-интерфейсе, а поддержка десктопных версий для Windows и Mac появится в январе.
techcommunity.microsoft.com

✔️ Adobe интегрировала Photoshop и Acrobat в интерфейс ChatGPT.

Компания запустила специализированные ИИ-агенты для редактирования медиафайлов и документов прямо в чат-боте. Новые инструменты поддерживают конкретные сценарии работы: Photoshop внутри чата умеет ретушировать области снимков и управлять контрастом и экспозицией. Acrobat - конвертировать, сжимать, объединять PDF-файлы и извлекать из них таблицы. Adobe Express используется для генерации и правки макетов.

Если возможностей чат-бота окажется недостаточно, проект можно бесшовно перенести в десктопный софт Adobe. Решение уже доступно в веб-версии, на десктопах и iOS. Функциональность предоставляется бесплатно: для активации достаточно загрузить файл и ввести текстовую команду с упоминанием нужного сервиса, например, «Adobe Photoshop, убери фон на этом изображении».
theverge.com


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

✔️ Релиз GLM-4.6V с нативной поддержкой вызова функций.

В линейку вошли флагманская GLM-4.6V на 106 млрд. параметров и облегченная GLM-4.6V-Flash (9B). Обе получили контекстное окно в 128k токенов и генерацию смешанного контента, где текст комбинируется с изображениями. Модель может передавать изображения и скриншоты во внешние инструменты без предварительной конвертации в текст, а также встраивать визуальные результаты обратно в цепочку рассуждений.

Обе модели уже на HuggingFace, доступны по API и в веб-версии.
z.ai

✔️ Стартап из шести человек обошел Google Gemini 3 в тесте на логику ARC-AGI.

Команда Poetiq заняла 1 место в полузакрытом бенчмарке ARC-AGI-2, набрав 54% правильных решений. Это позволило стартапу уверенно опередить гиганта индустрии: ранее Google отчитывалась о результате в 45% для Gemini 3 Deep Think.

ARC-AGI, разработанный исследователем Франсуа Шолле, считается одним из самых трудных испытаний для ИИ. Тест проверяет не просто знания, а способность к абстрактному мышлению и решению принципиально новых задач.

Успех Poetiq обеспечен не обучением новой модели, а эффективной оркестрацией уже существующих.
poetiq.ai

✔️ Соавтор архитектуры Transformer выпустил модель для кодинга Rnj-1.

Стартап Essential AI, основанный Ашишем Васвани, представил модель с открытыми весами Rnj-1. При размере всего в 8 млрд. параметров, она демонстрирует топовые результаты в SWE-bench Verified. Rnj-1 набрала 20,8 балла, тогда как аналогичная по размеру Qwen 3 (8B) достигла лишь отметки в 4,5.

В основе новинки лежит архитектура Gemma 3. Разработчики намеренно отказались от упора на пост-трейн и RL. Вместо этого, команда сфокусировалась на качественном предобучении с использованием оптимизатора Muon. Веса базовой и instrust-версии доступны на HF.
essential.ai

✔️ NVIDIA представила крупнейшее обновление CUDA с 2006 года.

Вместе с релизом CUDA 13.1 компания запускает виртуальный набор инструкций для "тайлового" параллельного программирования. Новая парадигма абстрагирует низкоуровневые детали железа, позволяя писать алгоритмы более высокого уровня. CUDA Tile дает возможность оперировать блоками данных, автоматически оптимизируя выполнение под конкретные тензорные ядра и архитектуру памяти.

Фундаментом технологии стал CUDA Tile IR - промежуточное представление, аналогичное PTX, но заточенное под матричные операции. Это обеспечивает кросс-платформенность: написанный код будет эффективно работать на разных поколениях GPU без глубокого рефакторинга.
developer.nvidia.com

✔️ Grok 4.20 обыграл топовые модели в биржевой торговле.

Завершилось соревнование Alpha Arena Season 1.5, где участникам давали по $10 тыс. для автоматической торговли акциями США в течение двух недель. Grok 4.20 не только вышел в плюс, заработав $4 844 (общая доходность 12%), но и существенно опередил конкурентов.

GPT 5.1, Gemini 3.0 Pro и Claude Sonnet 4.5 завершили тот же период с отрицательными результатами. В режиме "осведомленности" Grok показал доходность около 50%. Эксперты полагают, что решающим фактором стал прямой доступ модели к данным платформы X. Анализ постов в реальном времени позволил алгоритму точнее оценивать рыночные настроения и тренды.
nof1.ai

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🤖 Роботы GITAI самостоятельно и собрали 5-метровую конструкцию - фундамент будущих внеземных модулей.

Это пример того, как связка ИИ + робототехника начинает давать тот самый технологический скачок, на который долго рассчитывали: автономные системы, способные строить инфраструктуру без участия человека, открывают путь к базам на Луне, Марсе и орбите.


@ai_machinelearning_big_data

#robotics #AI #automation #spacetech #GITAI

Читать полностью…

Machinelearning

Когда многие решили, что видео с T800 - это CGI, CEO EngineAI Чжао Тонъян вышел на ринг и лично принял удар ногой от робота🦶

Никакой графики, всё настоящее. 📷

@ai_machinelearning_big_data

#ai #robots

Читать полностью…

Machinelearning

⚡️ ChatGPT 5.2 "Code Red" выйдет 9 декабря.

The Verge пишет, что по информации инсайдеров, OpenAI планирует представить обновление уже в начале следующей недели, ориентировочно 9 декабря.

Ожидается, что GPT-5.2 вернет компании доминирующие позиции в сегменте больших языковых моделей.


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

OpenAI: «GPT-5 положит конец всей путанице с названиями.»

OpenAI спустя секунду ☝️

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Minimax VTP: гибридный токенизатор для диффузии на стероидах.

В диффузионных архитектурах считается, что масштабировать первую стадию, VAE - занятие неблагодарное.

Eго задача - превратить пиксели в латентный код и обратно, а добавление ему параметров или данных никак не помогает основной модели DiT генерировать изображения лучше.


MiniMax решила поменять правила игры и представила Visual Tokenizer Pre-training (VTP).

Их гипотеза заключается в том, что токенизатор должен не просто механически "зиповать" пиксели, а понимать семантику изображения.

Чтобы реализовать это, они объединили в обучении токенизатора сразу 3 лосса:

🟢Стандартный pixel reconstruction loss;

🟢Self-supervised learning (через Masked Image Modeling и дистилляцию, как в DINOv2);

🟢Image-text contrastive loss (как в CLIP).

Это заставило латентное пространство структурироваться семантически: теперь векторы кодировали смыслы, а не просто цветовые пятна.

🟡Теоретические выкладки подтвердились на практике.

Оказалось, что качество генерации напрямую зависит от "интеллекта" токенизатора. Не меняя архитектуру и гиперпараметры самого DiT и не увеличивая затраты на его обучение, просто за счет использования VTP-токенизатора удалось улучшить метрику FID на 65.8% и ускорить сходимость модели в 3 раза.

🟡Но главное открытие - это то, что заработал закон масштабирования для Stage 1.

Теперь, чем больше вычислительной мощности и данных вливается в претрейн токенизатора, тем качественнее становится итоговая генерация, чего раньше с обычными VAE достичь было невозможно.

🟡В открытом доступе опубликованы 3 чекпоинта VTP с различием по количеству параметров:

🟠VTP-Large - 0.7B;
🟠VTP-Base - 0.3B;
🟠VTP-Small - 0.2B.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #Tokenizer #Minimax

Читать полностью…

Machinelearning

🔍 Mistral представила OCR 3 - новую версию своей AI-системы распознавания документов.

Ключевое:
- Существенный рост качества по сравнению с OCR 2, особенно на формах, таблицах и сложных PDF
- Уверенно работает со сканами, рукописным текстом и нестандартной версткой
- Возвращает структурированный результат, а не просто сырой текст
- Подходит для автоматизации Document AI и downstream-аналитики
- Доступен через API и готов к продакшен-использованию

Главное
- На 74% лучше Mistral OCR 2 при работе с формами, сканированными документами, сложными таблицами и рукописным текстом.

- Точность уровня state-of-the-art: Обходит как корпоративные системы обработки документов, так и современные AI-OCR решения.

- Используется в Document AI Playground:
В Mistral AI Studio появился простой drag-and-drop интерфейс для разбора PDF и изображений в чистый текст или структурированный JSON.


https://mistral.ai/news/mistral-ocr-3

@ai_machinelearning_big_data

#ocr #mistal #llm

Читать полностью…

Machinelearning

✔️ HY World 1.5: модель для генерации 3D-миров в реальном времени.

Tencent релизнула HY World 1.5 - "модель мира" для генерации бесконечных интерактивных 3D-пространств с фрейм-рейтом 24 FPS.

В этом релизе решили проблему амнезии модели. Это значит, что при возвращении в ранее сгенерированную локацию она сохранит свой исходный облик, а не перестроится случайным образом.

Под капотом - связка Diffusion Transformer и 3D VAE, предсказывающая чанки по 16 кадров на лету. Управление от первого или третьего лица реализовано через гибридную систему Dual Action (клавиши WASD плюс положение камеры).
3d-models.hunyuan.tencent.com

✔️ Microsoft обновила 3D-модель TRELLIS.

TRELLIS 2 получила 4 млрд. параметров и способность генерировать детализированные 3D-меши с разрешением до 1536³ по тексту или изображению. Модель отличается реалистичной проработкой материалов и улучшенной топологией мешей по сравнению с первой версией.

В основе системы - высокопроизводительная архитектура O-Voxel: черновой вариант генерируется всего за 3 секунды, а версия в максимальном качестве — около минуты.
microsoft.github.io

✔️ Adobe добавил видеоредактор в Firefly.

Adobe выпустила обновление Firefly. Теперь там есть полноценный видеоредактор, позволяющий вносить точечные изменения в ролики с помощью текстовых команд. Через промпты можно корректировать отдельные элементы, цветовую гамму и ракурсы камеры. Для удобства работы добавлен интерфейс с привычным таймлайном.

Компания также расширила экосистему, добавив модели FLUX.2 и Topaz Astra для апскейла видео до 4K. Кроме того, собственная видеомодель Adobe научилась повторять движение камеры, используя первый кадр и референсное видео.

Функции вышли из стадии закрытой беты и уже доступны на тарифах Firefly Pro, Firefly Premium бесплатно до 15 января.
blog.adobe.com

✔️ Google Labs делает экспериментального ИИ-агента для автоматизации рутины.

Это ИИ-ассистент под названием CC на базе Gemini, который берет на себя роль умного секретаря. Сервис интегрируется с Gmail, Google Calendar и Drive, чтобы каждое утро присылать пользователю структурированный бриф с планами на день и важными задачами.

Бот умеет не просто агрегировать информацию, но и выделять контекст: он подскажет, когда нужно подготовиться к встрече или оплатить счет, а также может сам составить черновик письма или создать событие в календаре.

Взаимодействие с ассистентом происходит исключительно через электронную почту: вы обучаете его, просто отвечая на письма. Ранний доступ к СС открыт только для пользователей из США и Канады через лист ожидания.
blog.google

✔️ Perplexity обновила свое приложение для iPad.

Perplexity выпустила новую версию приложения для iPad, ориентированную на студентов и бизнес-пользователей, которым нужны глубокие исследования.

Теперь это не просто растянутая версия с iPhone: интерфейс полностью переработан с учетом эргономики планшетов. Появилась удобная боковая панель для навигации и поддержка режима Split View для полноценной многозадачности.

В компании не скрывают, что улучшение UX бля больших экранов — это стратегический шаг для наращивания базы платных подписчиков, так как безлимитный доступ к расширенным исследовательским функциям открывается именно в Pro-тарифе.
bloomberg.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

📋 ИИ не понимает, что вы от него хотите? Чтобы ответы нейросети были более предсказуемыми и чёткими, попробуйте добавить промптам структуру — сейчас расскажем как. А если инструкция покажется слишком сложной, листайте до конца — там объясняем, как структурировать промпты в два клика.

Зачем структурировать промпт

ИИ легко интерпретирует информацию в простых запросах, но если вводные будут очень длинными и сложными, модель может ошибиться в их понимании. Чтобы этого не случилось, текст промпта можно структурировать, сразу указав, где какие данные.

Как структурировать промпт

Создатели нейросетей предлагают использовать специальную разметку, которую понимает ИИ. Это могут быть:

🟢 Markdown, разметка для форматирования текста. Для промптинга можно использовать маркированные и нумерованные списки, а также знак «#», который в markdown означает заголовки разного уровня, а в запросе определяет иерархию задач.

# Задание
Составь план празднования дня рождения для компании из 8 человек.

## Ограничения
- Бюджет: 10 000 рублей
- Локация: дома
- Среди гостей есть вегетарианцы

## Что должно быть в плане
### 1. Меню
- Основные блюда
- Закуски
- Напитки

### 2. Развлечения
- Игры
- Музыка
- Активности

### 3. Тайминг мероприятия


🟢 XML-теги, обозначающие границы какого-либо текстового элемента. Начало и конец элемента обозначаются метками <тег> и </тег>, а сами теги могут быть любыми.

<цель>Составить недельное меню для семьи из 3 человек</цель>

<ограничения>
<бюджет>10 000 рублей</бюджет>
<предпочтения>больше овощей, минимум жареного, суп каждый день</предпочтения>
<исключить>грибы, орехи, морепродукты, мёд</исключить>
</ограничения>

<формат>
<приёмы_пищи>завтрак, обед, ужин, перекус</приёмы_пищи>
<описание>подробный рецепт каждого блюда со списком ингредиентов</описание>
</формат>


🟢 JSON, стандарт структурирования данных, позволяющий с помощью несложного синтаксиса разметить любую информацию в промпте.

{
"задание": "Составь список покупок на неделю",
"параметры": {
"количество_людей": 2,
"предпочтения": ["вегетарианское", "минимум сахара"],
"бюджет": "до 10 000 рублей"
},
"категории": [
"овощи и фрукты",
"крупы и макароны",
"молочные продукты",
"напитки",
"другое"
],
"формат_ответа": {
"тип": "список",
"сгруппировать_по_категориям": true
}
}


Кажется, разметка — это сложно

Если не хочется разбираться с Markdown, XML и JSON, можно показать ваш промпт нейросети и попросить, чтобы она сама добавила разметку, не меняя суть. А ещё можно найти готовый промпт под свою задачу на Промптхабе — во многих из них используется Markdown-разметка.

Подписывайтесь 👉 @techno_yandex

Читать полностью…

Machinelearning

Закрытая питч-сессия фонда «Восход» для ИИ-стартапов

Фонд «Восход» активно ищет новые проекты для инвестиций в области ИИ и проводит закрытую питч-сессию, чтобы отсмотреть как можно больше РФ-компаний этого профиля.

📅Отбор состоится 15 января 2026 года онлайн

Приоритетные направлени
я
Посмотрят все заявки в рамках темы, но фокус будет на следующих нишах:

📌Вертикальные ИИ-решения
📌Инфраструктура и инструменты для разработки ИИ
📌Инструменты для работы с данными для ИИ
📌Корпоративные ИИ-приложения и копайлоты

📌Другое

Подробную разбивку тем в каждой из ниш можно изучить в канале «Восхода».

Требования к проектам:
- необходимо наличие MVP и воронки клиентов (стадии late seed, A и старше);
- инкорпорирование в РФ;
- сформированная опытная команда.

Инвестиции
Фонд вкладывает от нескольких десятков миллионов рублей до 1 млрд руб в один проект. Проекты, которые заинтересуют фонд, будут включены в пайплайн для дальнейшей работы. Другие получат сразу обратную связь.

🔥Приглашенный эксперт отбора – глава направления ИИ в Т-банке Виктор Тарнавский.

О фонде
«Восход» инвестирует в российские быстрорастущие технологические компании на стадиях от seed до pre-IPO. Якорный инвестор — группа «Интеррос», объем фонда — 18 млрд руб. В портфеле 40 компаний.

❗️Чтобы принять участие, присылайте питч-деки в pdf до 30 декабря 19.00 на info_vld@voskhod.vc с пометкой "Проект на AI"

Реклама: АО «Аркадия» ИНН: 7808004270 erid:2Vtzqv87ERQ

Читать полностью…

Machinelearning

🖥 XiYan-SQL - инструмент для интерактивной работы с SQL

XiYan-SQL - это open-source решение, позволяющее генерировать, анализировать и выполнять SQL-запросы с использованием больших языковых моделей. Инструмент ориентирован на ускорение исследования данных и автоматизацию рутинных операций, связанных с запросами к базе.

Ключевые возможности:
- Генерация SQL из естественного языка -пользователь формулирует задачу обычными словами, а система преобразует её в корректный SQL-запрос.
- Интерактивная работа с базой данных - запросы можно оперативно уточнять, редактировать и выполнять, получая быстрый цикл обратной связи.
- Поддержка нескольких СУБД - PostgreSQL, MySQL, SQLite и другие.
- 🛠️ Минимальная конфигурация - подходит для анализа данных, прототипирования и облегчения доступа к базе без сложной инфраструктуры.


🔗 Репозиторий: github.com/XGenerationLab/XiYan-SQL

@ai_machinelearning_big_data


#sql #llm #ai #opensource #database #datatools #postgresql

Читать полностью…

Machinelearning

🌟 OMC25: датасет для вычислительной химии.

ОMC25 - крупнейший набор данных по молекулярным кристаллам, рассчитанный методом теории функционала плотности (DFT) в пакете VASP.

В основе датасета лежат структуры, полученные из траекторий релаксации молекулярных кристаллов. Сами исходные кристаллы были сгенерированы с помощью инструмента Genarris 3.0, который, в свою очередь, использовал молекулы из известного набора OE62. Это обеспечивает преемственность данных и четкую привязку к проверенным химическим структурам, но масштаб здесь совершенно иной.

Тренировочная часть содержит почти 25 млн. фреймов. Это данные по 207 тыс. кристаллов, которые, в свою очередь, произошли от 44 тыс. уникальных молекул.

Валидационная часть меньше, но тоже весовая: около 1,4 миллиона кадров. Данные упакованы в формате ase-db как объекты LMDBDatabase, что является стандартом в задачах машинного обучения для химии.

Исходные кристаллы были созданы программой Genarris 3.0. Она, в свою очередь, использовала молекулы из популярного набора OE62. Так что у данных есть четкая привязка к проверенным химическим структурам.

Работа с данными сета происходит через библиотеку fairchem. Каждая структура хранится как объект ASE Atoms, что привычно для инженеров, работающих с атомистическим моделированием.

Ключевые метки для обучения моделей включают полную энергию DFT, силы, действующие на атомы, и тензор напряжений . Это "каноническая троица" для обучения межатомных потенциалов. Помимо физических величин, в атрибуте atoms.info зашиты критически важные метаданные.

Помимо самого набора, авторы выложили базовый чекпоинт eSEN-S, обученный на всём OMC25.


📌Лицензирование : CC-BY-4.0 License


🟡Датасет
🟡Модель
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Dataset #FAIR #Chemistry

Читать полностью…

Machinelearning

✔️ GPT-5.2 Pro преодолела барьер в 90% на ARC-AGI-1.

ARC Prize зафиксировали рекорд GPT-5.2 Pro (X-High). Модель достигла точности 90,5% при стоимости вычислений $11,64 за задачу. Тесты ARC-AGI - это уникальные задачи, требующие навыков обобщения и логики, что исключает возможность запоминания паттернов из обучающей выборки.

Несмотря на успех, экономика процесса пока отстает от идеала. Стоимость решения одной задачи все еще в 58 раз превышает целевой показатель бенчмарка ($0,20), а до человеческого уровня (100% точности) сохраняется разрыв. На более сложном наборе ARC-AGI-2 модель показала результат 54,2%.
ARC Prize в сети Х

✔️ Стандарт RSL 1.0 официально утвержден.

Спецификация Really Simple Licensing (RSL), позволяющая издателям диктовать условия лицензирования для ИИ-краулеров, получила статус официального стандарта. Технически, это расширение файла robots.txt, которое дает возможность указывать правила компенсации за парсинг контента.

RSL получил поддержку со стороны гигантов: стандарт внедрили Cloudflare, Akamai и Fastly. Это превращает RSL из простой декларации в рабочий механизм — провайдеры смогут блокировать на уровне CDN тех ботов, которые игнорируют условия лицензии.

Еще одна важная особенность версии 1.0 — гранулярный контроль видимости. Теперь ресурсы могут запретить использование своих материалов в генеративных ответах, сохраняя при этом позиции в классической поисковой выдаче.
rslstandard.org

✔️ Disney и OpenAI заключили партнерство.

Компании объявили о соглашении, которое меняет правила игры в сфере авторского права в ИИ. Начиная со следующего года, Sora сможет официально использовать образы Микки Мауса, Йоды и других героев студии. В рамках сделки Disney получает долю в OpenAI размером в $1 млрд, а ее инженеры - приоритетный доступ к API ChatGPT для внутренних разработок.

Для Disney, известной своей жесткой позицией по защите авторских прав это стратегический разворот. Вместо безуспешных попыток полностью запретить генерацию своих персонажей, корпорация решила возглавить процесс и монетизировать его.

Стороны обещают внедрить жесткие фильтры безопасности, а на Disney+ появится раздел с фанатскими видео, созданными в Sora.
openai.com

✔️ Google обновила модели Gemini TTS.

DeepMind представила апдейт для моделей синтеза речи Gemini Flash TTS и Pro TTS, заменяющий майские версии этого года. Разделение по задачам осталось прежним: Flash для real-time приложений, а Pro - для максимального качества.

Теперь модели жестче придерживаются системных промптов, задающих тон, настроение и ролевую модель спикера. Добавили контекстно-зависимое управление темпом: алгоритм автоматически замедляет речь на плотной информации и ускоряется там, где это уместно, либо строго следует явно заданным таймингам.

Также инженеры стабилизировали работу мульти-спикерных диалогов: голоса собеседников больше не «плывут» и остаются четко различимыми.
blog.google

✔️ Microsoft проанализировала, как люди используют Copilot.

Компания опубликовала исследование об эволюции взаимодействия с ИИ-ассистентом за последний год. Данные показывают смену аудитории: если в январе среди запросов доминировало программирование, то к концу года вектор сместился в сторону социальных тем. Это подтверждает выход технологии в мейнстрим - пользователи всё чаще видят в ИИ не просто умный поиск, а полноценного советчика.

Отчет также подсвечивает зависимость запросов от контекста. Мобильные устройства закрепили за собой роль карманных консультантов по здоровью и психологии. Время суток тоже влияет на содержание: глубокой ночью растет доля философских и экзистенциальных бесед.

Для разработчиков эти метрики важны: следующее поколение ассистентов должно уметь адаптироваться не только под текст запроса, но и под устройство и время обращения.
microsoft.ai

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

Расскажем, как создать умных AI‑агентов, работая с MCP 🌨

17 декабря на вебинаре покажем, как создать полезных AI-агентов, которые не просто «думают», а реально работают - получают актуальные данные и принимают решения в режиме реального времени.

Ещё недавно разработчики AI‑агентов писали кастомные интеграции с внешними источниками данных и сервисами. Теперь появился способ подружить нейросети со всеми API всего за пару кликов!

Ключевые темы вебинара:

♦️эволюция агентов и роль MCP;
♦️обзор MCP — как разрабатывать умных ИИ-агентов;
♦️особенности MCP в Enterprise;
♦️свой MCP-сервер за пару шагов в Octapi.


Регистрация доступна по ссылке, ждём вас ↗️

Читать полностью…

Machinelearning

🚀 Вышло крупное обновление Qwen3-Omni-Flash (версия 2025-12-01)

Что изменилось:

🎙️ Модель намного лучше ведёт разговоры с голосом и видео - общение звучит естественно и непрерывно
✨ Теперь можно задавать характер ИИ через system prompts, например, стиль общения или роль
🗣️ Улучшена поддержка языков: 119 письменных и 19 голосовых
😊 Голоса звучат почти как настоящие люди

Где попробовать:

🎙️ В Qwen Chat - нажмите VoiceChat или VideoChat (правый нижний угол): http://chat.qwen.ai
📝 Подробности в блоге: https://qwen.ai/blog?id=qwen3-omni-20251201
🎧 Онлайн-демо: http://hf.co/spaces/Qwen/Qwen3-Omni-Demo
🎧 Второе демо: http://modelscope.cn/studios/Qwen/Qwen3-Omni-Demo
⚡ Realtime API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&amp;url=2840914_2&amp;modelId=qwen3-omni-flash-realtime-2025-12-01
📥 Offline API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&amp;url=2840914_2&amp;modelId=qwen3-omni-flash-2025-12-01

@ai_machinelearning_big_data


#Qwen #llm #ml

Читать полностью…

Machinelearning

📌Адвент-календарь по ML и DL.

Towardsdatascience запустил декабрьский Адвент-календарь "Machine and Deep Learning", котором предлагает разобраться, что под капотом у ML-процессов.

Фреймворки, например scikit-learn, сделали нас ленивыми. Вызов model.fit стал настолько обыденным, что в эпоху Gen AI кажется, будто обучение модели -это просто подбор параметров.

ML-инженеры жонглируют моделями со сложностью, которая растет в геометрической прогрессии, но при этом они не всегда способны вручную пересчитать и объяснить результаты даже самых простых алгоритмов: линейной регрессии или классификатора.

Модели превратились в "черные ящики", и это огромная проблема, ведь знание, что стоит за каждой функцией, критически важно для понимания процесса.


Фишка в том, что весь материал разбирается в Excel. Звучит диковато, но в этом и есть гений. В отличие от кода, где операции скрыты за функциями, в Excel каждая формула, каждое число, каждый расчет - всё на виду. Никаких "черных ящиков".

Уже вышло 7 статей:

🟢День 1 : k-NN Regressor

🟢День 2 : k-NN Classifier

🟢День 4 : GNB, LDA и QDA

🟢День 5 : GMM (Gaussian Mixture Model)

🟢День 6 : Decision Tree Regressor

🟢День 7 : Decision Tree Classifier

Цикл поможет ответить на вопросы, которые часто остаются за кадром: как грамотно обрабатывать категориальные признаки, когда масштабирование не является правильным решением, и как измерять важность признаков, интерпретируя их напрямую с моделью, минуя модель-агностические пакеты LIME и SHAP.

Серия будет полезна студентам для осмысления формул, и менеджерам для понимания какой ML-метод необходим для бизнеса. А для разработчиков это шанс наконец-то понять теорию.

В общем, это маст-рид для тех, кто хочет перестать быть оператором библиотек и по-настоящему понять, как работает ML-движок.

🔜 Мониторить выход новых статей можно тут, обещают публикацию до конца декабря в формате "один день - одна статья".



@ai_machinelearning_big_data

#AI #ML #DL #Tutorial #Excel

Читать полностью…

Machinelearning

❗️Быстрее! В OTUS начинается обучение на курсе «Компьютерное зрение. Advanced»
❓Что узнаете во время обучения?

●Основы и инструменты
Docker, PyTorch, OpenCV, Kornia, Hugging Face, OCR

●Нейронные сети и глубокое обучение
CNN: от AlexNet до EfficientNet, оптимизаторы: Adam, SAM, трансформеры: ViT, CLIP, Self-Supervised Learning: SimCLR, DINO

●Стандартные задачи CV
Детекция: R-CNN, YOLO, сегментация: U-Net, 3D, Face Recognition: ArcFace, трекинг: DeepSORT

●Генеративные модели
VAE, GAN, диффузионные модели: Stable Diffusion, ControlNet, генерация видео

●Продвинутые методы
Zero-Shot Learning: SAM, стереозрение, 3D-реконструкция: NeRF, SLAM, распознавание действий

●Проектная работа
Детекция, трекинг, генерация - с защитой проекта

🎁Бонусные занятия
Основы CNN, аугментация данных, градиентный спуск, регуляризация

🎓 4 месяца | 110 ч
⏰Старт группы: 24 декабря

🎁Познакомьтесь с программой курса и преподавателями на бесплатных вебинарах — регистрация на сайте.

Оставить заявку ➡️ OTUS.RU

#реклама
О рекламодателе

Читать полностью…

Machinelearning

Когда многие решили, что видео с T800 - это CGI, CEO EngineAI Чжао Тонъян вышел на ринг и лично принял удар ногой от робота🦶

Никакой графики, всё настоящее. 📷

@ai_machinelearning_big_data

#ai #robots

Читать полностью…

Machinelearning

Вчера на конференции облачного провайдера Cloud․ru про внедрение AI-инструментов в процесс разработки, показали коллекцию одежды, посвещенную релизу новой платформы для работы с GenAI — AI Factory. Лимитку создали совместно с брендом .Solutions.
Эта коллекция — не случайный мерч, а продуманная метафора: она визуализирует, как данные, идеи и цифровые процессы эволюционируют в реальные продукты, создаваемые пользователями на базе AI Factory.

Хорошая новость — вещи из коллекции можно выиграть. Участвуйте в розыгрыше в телеграм-канале Cloud․ru: /channel/cloudruprovider/1259

Читать полностью…

Machinelearning

✔️ Дарио Амодей: Anthropic не объявляет «красных кодов» в ответ на релизы.

Пока Сэм Альтман переводит OpenAI в режим «code red» после выхода Gemini 3, Anthropic демонстративно отказывается от паники. На саммите NYT Dealbook, CEO компании? Дарио Амодей заявил, что им не нужно реагировать на каждый шаг конкурентов авралами, так как у Anthropic принципиально иной вектор развития.

Вместо гонки за вниманием и метриками вовлеченности, Anthropic глубоко фокусируется на корпоративном сегменте. Дарио говорит, что их приоритет - высокая интеллектуальная деятельность: генерация чистого кода, научные исследования и сложная аналитика. Он также скептически оценил огромные бюджеты техногигантов, назвав их финансовую политику «YOLO-стратегией».
businessinsider.com

✔️ Anthropic выложила датасет из 1250 диалогов.

Проект Anthropic Interviewer - инструмент для автоматизации социологических исследований. Он позволяет проводить глубокие интервью в промышленных масштабах, делегируя роль интервьюера ИИ.

Компания опубликовала результаты первого масштабного эксперимента: массив из 1250 транскриптов бесед. В выборку попали представители массовых профессий, ученые и работники креативных индустрий. ИИ выяснял, как специалисты реально интегрируют нейросети в свои рабочие процессы и как оценивают карьерные риски. Датасет доступен на HuggingFace под лицензией CC-BY.
anthropic.com

✔️ Google запустила no-code платформу создания ИИ-агентов.

Google представила инструмент Workspace Studio для упрощения автоматизации в корпоративных средах. Платформа, построенная на Gemini 3, позволяет создавать кастомных ИИ-агентов без написания кода всего за несколько минут.

Инструмент получил глубокую интеграцию в экосистему Google: созданные помощники работают непосредственно внутри Gmail, Drive и Chat, беря на себя рутину: обработка почты, управление расписанием или анализ документов. Заявлена возможность подключения внешних систем - Asana, Jira, Mailchimp и Salesforce. Доступ к студии уже открыт для бизнес- и энтерпрайз-подписчиков.
workspace.google.com

✔️ Perplexity открыла модель BrowseSafe для защиты ИИ-браузеров от промпт-инъекций.

BrowseSafe - решение для обеспечения безопасности агентного веба. Инструмент защищает ИИ-ассистентов от вредоносных инструкций, которые злоумышленники скрывают в структуре веб-страниц.

Угроза заключается в способности агентов считывать весь HTML-код, включая невидимые пользователю элементы (комментарии, скрытые поля и мета-теги). Хакеры могут внедрять туда команды, перехватывающие управление моделью. BrowseSafe выступает в роли легковесного детектора: он сканирует контент в реальном времени и блокирует подозрительные инструкции до того, как они попадут в контекст основной LLM.

В релиз также вошел бенчмарк BrowseSafe-Bench, содержащий более 14 тысяч сценариев атак для тестирования надежности систем.
perplexity.ai

✔️ OpenAI проиграла спор о конфиденциальности.

Суд Манхэттена постановил, что компания должна передать The New York Times и другим новостным изданиям массив анонимизированных переписок пользователей. Это решение принято в рамках громкого процесса об авторских правах: истцы утверждают, что модели OpenAI незаконно обучались на их контенте.

Судья отклонила аргументы OpenAI о рисках для приватности, посчитав меры по обезличиванию данных достаточными. Доступ к логам важен для истцов: они намерены доказать, что ChatGPT способен дословно воспроизводить защищенные авторским правом статьи. OpenAI уже подала апелляцию, называя требование нарушением стандартов безопасности, но по текущему решению обязана подготовить данные в течение 7 дней.
reuters.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…
Subscribe to a channel