Наука, технологии, изобретения и урбанистика — прямо сейчас говорим о том, что уже скоро повлияет на каждого. по всем вопросам - @workakkk @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы
📲 Смартфоны с искусственным интеллектом уже на подходе. Это только начало.
Все крупные компании последуют этому примеру - это следующий большой тренд. Как мы знаем, OpenAI уже давно занимается разработкой такого устройства с помощью бывшего главного дизайнера Apple Джони Айва.
В будущем появятся устройства, на которых не будет приложений и которые будут полностью управляться голосом.
На видео анонс первого телефона с искусственным интеллектом от perplexity.
@vistehno
🌟 Просто видео, как ИИ представляет себе американские гонки в стиле дорогого особняка.
@vistehno
Наши друзья из ecom.tech запустили видео-подкаст “AI в действии”. В нем они говорят о свежих новостях в мире DS, о трендах и о том, как наука может найти свое применение в бизнесе.
Ведущий подкаста — Петр Лукьянченко, руководитель ML-департамента в eсom.teсh.
Уже опубликовали два эпизода: в первом гостем был Алексей Масютин, руководитель Центра Искусственного интеллекта НИУ ВШЭ. Порассуждали о том, как сегодня начинать свой путь в data science, что представляет из себя DS в крупных IT-компаниях и даже успели немного погрузиться в специфику разработки и развития мультимодальных архитектур.
Гостем второго выпуска стал Юрий Дорн, руководитель программы AI Masters в Институте ИИ МГУ.
В этой части говорили о том, где заканчивается теория и начинается практика в DS. Когда нужно перестать читать книги и начать писать код? Что нужно знать, чтобы быть классным специалистом? А может быть, теория переоценена и нужно сразу идти соревноваться на kaggle? Постарались сформулировать набор советов для тех, кто думает, с какой стороны подступиться к изучению Data Science и как правильно найти учебный материал, подходящий под конкретную ситуацию.
Первый эпизод:
🙂 Смотреть
🙂 Слушать
Второй эпизод:
🙂 Смотреть
🙂 Слушать
Реклама. ООО «Умное пространство», ИНН: 7811554010. Ерид: 2W5zFJ36FGU
🔥 Пользователь X создал эту онлайн игру, используя только возможности Cursor и Grok 3!
🔗 Попробовать можно здесь: *клик*
@vistehno
🔥 Модель Wan2.1-T2V-14B от команды Wan-AI – новый топовый опенсорс инструмент генерации видео, который объединяет в себе несколько интересных особенностей.
⚡️ Мощная архитектура yf 14 млрд параметров
Модель способна детально прорабатывать сцены и динамику, генерируя высококачественные видео, где каждая деталь выглядит реалистично.
Модель поддерживает:
- Text-to-Video: генерация видео по текстовым запросам.
Image-to-Video: преобразование статических изображений в анимированные видеоролики.
- Видео-редактирование: внесение изменений в уже существующие видео.
- Text-to-Image: создание изображений на основе текста.
- Video-to-Audio: синтез аудио, соответствующих содержанию видео.
Такая универсальность делает модель полезной для широкого спектра приложений.
Использование видео VAE (вариационного автоэнкодера)
В основе модели лежит мощный видео VAE, который эффективно кодирует и декодирует видеоконтент. Это позволяет:
- Обрабатывать видео высокого разрешения (до 1080p).
- Сохранять временную динамику и последовательность кадров.
- Обеспечивать плавное и согласованное воспроизведение движения.
- Оптимизация для потребительских видеокарт
Несмотря на свои масштабы, модель оптимизирована для работы на современных GPU.
Например, версия T2V-1.3B требует всего 8,19 ГБпамяти и способна генерировать 5-секундное видео с разрешением 480p примерно за 4 минуты на RTX 4090 без применения дополнительных оптимизаций.
Как работает:
▪Ввод данных: Пользователь может задать текстовое описание, предоставить изображение или даже видео, в зависимости от задачи.
▪Кодирование: Виде VAE преобразует входные данные в компактное представление, сохраняя при этом критически важную информацию о сцене и динамике.
▪Генерация: На основе этого представления и с использованием огромного количества параметров модель генерирует новый видеоряд, который соответствует заданному описанию или образцу.
▪Декодирование: Затем VAE декодирует это представление обратно в полноценное видео, где соблюдаются все временные и визуальные детали.
Таким образом, Wan2.1-T2V-14B выделяется своей способностью не только создавать качественные видео по текстовому описанию, но и решать множество сопутствующих задач (от редактирования до генерации аудио), оставаясь при этом оптимизированной для работы на доступном оборудовании.
Это делает её одной из самых перспективных разработок в области генеративного видео на сегодняшний день.
🟡 Github: https://github.com/Wan-Video/Wan2.1/
🟡HF: https://huggingface.co/Wan-AI/Wan2.1-T2V-14B
🟡Model Scope: https://modelscope.cn/organization/Wan-AI
@ai_machinelearning_big_data
#TexttoVideo #ai #ml #video #wanai
💵 Alibaba планирует инвестировать 52 млрд долларов в ИИ т и облачную инфраструктуру в следующие 3 года.
ИИ гонка становища все жарче , а инвестиции стремительно растут.
- Проект «Звездные врата»: 500 млрд долларов на создание AGI/ASI (из которого кстати недавно отвалился Microsoft)
- Apple: ИИ-инфраструктура стоимостью 500 млрд долларов
- Инфраструктура искусственного интеллекта стоимостью 200 млрд долларов США в ЕС
- Alibaba: инфраструктура искусственного интеллекта и облака стоимостью 52 млрд долларов
Источник
@vistehno
🔥 Awesome Launch — это тщательно подобранный каталог бесплатных и дружелюбных сообществ, созданный для помощи разработчикам и предпринимателям в продвижении своих проектов!
🌟 Репозиторий предоставляет список платформ и ресурсов, где можно получить раннюю обратную связь, привлечь первых пользователей, наладить связи с другими создателями и получить освещение в прессе.
🖥 Github
@vistehno
🔥 WHAM (World and Human Action Model) — это модель, разработанная Microsoft Research в сотрудничестве с Ninja Theory, предназначенная для генерации игровых визуальных элементов и действий контроллера на основе заданных подсказок! Модель обучена предсказывать последовательности игровых изображений и действий, что позволяет создавать согласованные и разнообразные игровые сцены.
💡 WHAM состоит из двух основных компонентов: VQ-GAN, который кодирует игровые визуальные элементы в дискретное представление, и трансформера, обученного предсказывать следующие токены в последовательности. Модель была обучена на данных игрового процесса из игры Bleeding Edge, собранных у 27 990 игроков за год, что позволило охватить широкий спектр игровых стилей и взаимодействий. В результате WHAM способна генерировать последовательности игровых сцен, учитывая трехмерную структуру игрового окружения, эффекты действий игрока и временную динамику игры.
🔗 HuggingFace: *клик*
@vistehno
✔️ GitHub Copilot для Xcode запущен для публичного тестирования.
GitHub Copilot для Xcode Chat стал доступен для публичного превью. Для начала работы достаточно учетной записи GitHub.
GitHub Copilot – это ИИ-ассистент, который помогает разработчикам писать код быстрее и точнее. Теперь, помимо дописывания кода, GitHub Copilot для Xcode предлагает интеллектуальные предложения для конкретных задач через интерактивный чат.
Для доступа к GitHub Copilot для Xcode потребуется лицензия Copilot. Есть бесплатный доступ, включающий 2000 итераций автозавершения кода и 50 чат-запросов в месяц.
devblogs.microsoft.com
✔️ OpenAI опубликовала SWE-Lancer: бенчмарк для LLM в кодинге.
SWE-Lancer позиционируется как инструмент оценки производительности языковых моделей в задачах программирования для фрилансеров. Он основан на 1400 фриланс-задачах, собранных из Upwork и репозитория Expensify. Задания варьируются от исправления незначительных ошибок до внедрения крупных функций.
SWE-Lancer предназначен для оценки как отдельных исправлений кода, так и управленческих решений, где модели должны выбирать лучшее предложение из нескольких вариантов. Одной из сильных сторон SWE-Lancer является использование сквозных тестов вместо изолированных модульных операций. Репозиторий бенчмарка ожидается в ближайшее время.
arxiv.org
✔️ X повышает цены на Premium+ после выпуска Grok 3.
X (ех-Twitter) значительно повысила цену на план подписки Premium+, дающий доступ к Grok 3 от xAI. Она подорожала почти до 50 долларов в месяц.
Теперь, чтобы пользоваться "deep search" и "reasoning", надо оформить отдельный план SuperGrok через приложение Grok.
Согласно сайту поддержки X, месячная подписка на Premium+ в США теперь стоит 50 долларов, а годовая – 350 долларов. Это уже второе повышение цен на план Premium+ за последние пару месяцев. В декабре компания подняла цену с 16 до 22 долларов в месяц. Таким образом, новая цена более чем вдвое превышает текущую стоимость подписки.
techcrunch.com
✔️ Native Sparse Attention - революция в механизмах внимания от Deepseek.
NSA (Natively Sparse Attention) — новый механизм внимания, предложенный на заменуFull Attention, который значительно ускоряет обработку длинных последовательностей текста без потери качества модели.
NSA использует динамическую иерархическую стратегию, которая сочетает сжатие токенов на грубом уровне с точным отбором ключевых токенов. Это позволяет сохранить глобальное понимание контекста и локальную точность. NSA поддерживает сквозное обучение, совместим с GQA и MQA, что делает его пригодным не только для инференса, но и для обучения.
Модели, обученные с использованием NSA показали 9х ускорение при прямом распространении и 6х при обратном для последовательностей длиной 64к токенов относительно Full Attention. В декодировании - 11х.
arxiv.org
✔️ Мира Мурати готова рассказать миру, над чем она работает.
Мира Мурати, ex-CTO OpenAI, покинула свой пост в сентябре 2024, заявив о желании "создать время и пространство для собственных исследований". И вот стало известно, что она – CEO компании Thinking Machines Lab. Ее миссия – разработка первоклассного AI, полезного и доступного для всех.
В команду Thinking Machines Lab вошли известные исследователи и ученые, в основном из OpenAI. Среди них – экс-вице-президент по исследованиям Баррет Зоф, руководитель по мультимодальным исследованиям Александр Кириллов, руководитель специальных проектов Джон Лакман и ведущий исследователь Люк Мец. Главным научным сотрудником станет Джон Шульман, один из ключевых создателей ChatGPT, ранее работавший в OpenAI и Anthropic. Есть специалисты из Google и Mistral AI.
Команда уже работает над рядом проектов в офисе в Сан-Франциско. Хотя конкретные продукты пока неясны, Thinking Machines Lab не планирует создавать копии ChatGPT или Claude. Цель – AI-модели, оптимизирующие сотрудничество между человеком и AI, что Мурати считает главным препятствием в развитии отрасли.
wired.com
@ai_machinelearning_big_data
#news #ai #ml
🤑 Соучредитель OpenAI Илья Суцкевер получает более 1 миллиарда долларов США на финансирование своего стартапа в сфере искусственного интеллекта Safe Super Intelligence, который, по данным Bloomberg, сейчас оценивается более чем в 30 миллиардов долларов США.
Это 30-кратный скачок всего за четыре месяца.
@vistehno
🔥 OpenAI обновили ChatGPT 4o и он стал еще умнее!
🌟 Промпт для создания игры на видео: создать автономную игру «Змейка», где змейки соревнуются друг с другом, и кнопку перезапуска
@vistehno
✔️ Бесплатные полезные руководства по дистилляции моделей:
1. Руководство по дистилляции от OpenAI 🖥
Руководство содержит подробное описание процесса передачи знаний от более крупной модели к компактной, c сохранением высокой производительности модели.
Основные аспекты, рассмотренные в руководстве:
- Сохранение выходных данных крупной модели: Создание набора данных, содержащего предсказания большой модели, которые будут использоваться для обучения меньшей модели.
- Оценка производительности моделей: Сравнительный анализ точности и эффективности как крупной, так и компактной моделей на основе различных метрик.
- Создание обучающих данных для компактной модели: Использование предсказаний крупной модели для генерации обучающего набора данных, способствующего эффективному обучению меньшей модели.
- Оценка дообученной компактной модели: Проверка производительности и точности компактной модели после процесса дистилляции для подтверждения соответствия требованиям.
🔗Ссылка
2. Учебник по дистилляции знаний от PyTorch 🔥
Руководство от PyTorch, которое содержит практическое введение в технику передачи знаний для развёртывания моделей на устройствах с ограниченными вычислительными ресурсами.
Основные аспекты руководства:
- Извлечение скрытых представлений: В гайде показано, как получить промежуточные представления из обученной модели для дальнейшего использования.
- Модификация циклов обучения в PyTorch: Здесь рассматривается интеграция дополнительных функций в стандартные циклы обучения для эффективной передачи знаний.
- На примере показан процесс обучения компактной модели, с ипользованием предсказания более сложной модели в качестве ориентира.
Руководство содержит пошаговые инструкции и примеры кода, что делает его ценным ресурсом, если вы хотите научиться оптимизировать свои модели для использования в средах с ограниченными ресурсами.
▪Ссылка
3. Jetson Introduction to Knowledge Distillation от Nvidia 🖥
В данном руководстве рассматривается процесс передачи знаний от модели OpenCLIP (vision-language model) к модели ResNet18 для классификации на наборе данных STL10.
Особое внимание уделяется тому, как выбор данных, методы дистилляции и архитектура модели, влияют на итоговую точность.
Кроме того, обсуждаются методы профилирования и оптимизации моделей для их развёртывания на устройствах NVIDIA Jetson Orin Nano.
🔗 Ссылка
4. Учебник по дистилляции знаний от Keras ⭐️
Подробно описывается концепция дистилляции знаний и ее применение в обработке медицинских изображений.
🔗Github
🔗Учебник Keras
5. Руководство по дистилляции от
huggingface 🤗
Здесь показано, как выполнять дистилляцию знаний шаг за шагом на конкретном примере.
🔗 Ссылка
6. Дистилляция знаний для задач компьютерного зрения от huggingface 👁
Здесь рассматривается, как сделать файнтюн ViT-модели в MobileNet с помощью API Trainer из Transformers.
🔗Ссылка
#KnowledgeDistillation #Distillation #openai #keras #tutorial #course #freecourses #huggingface #Nvidia #pytorch
🌟 Интересная визуализация для быстрого запоминания азбуки Морзе!
@vistehno
Lght-A-Video – это инструмент для видеопереноса освещения, который позволяет изменять освещение видео без дополнительного обучения (training-free) благодаря инновационным техникам, таким как Consistent Light Attention (CLA) и Progressive Light Fusion (PLF). Ниже приведён подробный анализ его полезности, отличий от подобных решений, а также его плюсы и минусы.
Чем полезен инструмент?
- Тренировочно‑независимый подход (zero-shot):
Light-A-Video не требует затрат на предварительное обучение на больших наборах данных, что значительно снижает временные и вычислительные затраты. Это делает его идеальным для быстрого применения на любых видео без необходимости сбора специализированных датасетов.
- Улучшение временной согласованности:
При применении классических моделей переноса освещения по кадрам часто возникают проблемы с мерцанием и несогласованностью между кадрами. Интеграция CLA и PLF позволяет обеспечить плавное и стабильное изменение освещения, что особенно важно для создания высококачественных видеороликов.
Гибкость применения:
Инструмент может использоваться для управления освещением как в полной видеопоследовательности, так и для отдельных передних планов, что открывает широкие возможности для креативного видеомонтажа и постобработки.
Открытый исходный код:
Благодаря тому, что проект открыт, исследователи и разработчики могут свободно вносить улучшения, адаптировать его под собственные нужды и интегрировать с другими инструментами.
Отличия от подобных решений
- Специализированный фокус на видео:
В отличие от моделей переноса освещения, разработанных для изображений, которые часто применяются по кадрам и приводят к визуальным артефактам, Light-A-Video специально адаптирован для видео. Его архитектура учитывает межкадровую взаимосвязь для устранения мерцаний.
- Инновационные модули CLA и PLF:
CLA-модуль обеспечивает стабильность генерации фонового освещения посредством усиления взаимодействия между кадрами, а методика Progressive Light Fusion помогает плавно интегрировать исходное и изменённое освещение, что редко встречается в аналогичных решениях.
- Training-free подход:
Многие современные системы требуют предварительного обучения на специализированных датасетах, тогда как Light-A-Video использует zero-shot стратегию, что упрощает его использование и снижает вычислительные затраты.
Плюсы
- Экономия времени и ресурсов:
Отсутствие необходимости в обучении позволяет применять инструмент «из коробки» для любых видео.
Высокая временная согласованность:
Решает проблему мерцания и визуальной несогласованности при изменении освещения в видео.
- Гибкость и адаптируемость:
Подходит как для полного видео, так и для отдельных элементов (foreground), что расширяет спектр его применения.
- Открытость к сообществу:
Исходный код на Python доступен для изучения, модификации и интеграции с другими проектами.
Минусы
- Зависимость от качества входных данных:
Результаты могут зависеть от качества исходного видео и предобработки, что требует дополнительных усилий для оптимальной работы.
- Ограничения по аппаратным ресурсам:
Несмотря на отсутствие этапа обучения, применение сложных алгоритмов внимания и слияния может требовать современного оборудования для обработки видео в реальном времени.
- Новизна и узкая специализация:
Так как проект сравнительно новый и специализированный, его возможности могут быть ограничены по сравнению с более универсальными видеоредакторами, а также возможны проблемы с совместимостью на нестандартных видеоданных.
В итоге Light-A-Video представляет собой перспективное решение для видео реликтинга, которое позволяет изменять освещение в видео без дорогостоящего обучения моделей.
Его инновационные модули для обеспечения временной согласованности выделяют его среди аналогичных инструментов. Однако инструмент требует качественных входных данных и современных вычислительных ресурсов, а его специализированный характер может ограничивать применение в некоторых сценариях.
▪Github
▪Blog
@vistehno
🔥 math - учебный план для самостоятельного изучения математики, разработанный Open Source Society University (OSSU)!
💡 Он предназначен для тех, кто хочет получить фундаментальные знания в области математики, используя онлайн-материалы. Курсы, включенные в программу, соответствуют требованиям бакалавриата по математике, за исключением общих (не математических) дисциплин, и часто предоставляются такими ведущими университетами, как Гарвард, MIT и Стэнфорд.
🖥 Github
@vistehno
🔥 Electronic Arts открыли исходный код классических игр серии Command & Conquer!
🌟 У кого тоже проступила слеза ностальгии?
🖥 Github
@vistehno
🌟 Да не волнуйся, здесь все предельно интуитивно, пользователь поймет!..
@vistehno
⚡️релиз GPT-4.5
Главное:
- Универсальная модель: подходит как для креативных, так и для повседневных задач.
- Нейронка может грубить: если попросить, chatgp сможет быть очень грубым ( привет Grok)
- Значительное улучшение в общении: Сэм Альтман отметил, что это первая модель, с которой он чувствует себя так, словно общается с очень внимательным человеком.
- Масштабный прогресс: в три раза точнее обрабатывает факты и почти в три раза реже допускает ошибки по сравнению с GPT-4.
- Чувствует контекст — лучше понимает тон, скрытые намёки и эмоции.
https://cdn.openai.com/gpt-4-5-system-card.pdf
🪐 "Звездные войны 4" (1994) - Арнольд Шварценеггер, Сэмюэл Л. Джексон, Иэн Макдиармид
Сделано с помощью TXhunyuan и Hailuo AI
@vistehno
🔥 Voxon создали самый большой в мире объемный 3D-голографический дисплей!
🌟 Благодаря цилиндрическому пространству диаметром 256 мм и высотой 256 мм VX2-XL может отображать интерактивные объемные 3D-голограммы.
@vistehno
🔥 Теперь в Pika AI можно добавлять разных персонажей на ваше видео!
@vistehno
🚀 Генеральный директор Anthropic Дарио Амодеи
«Мы провели внутренние эксперименты, чтобы продемонстрировать некоторые опасности ИИ».
Anthropic исследовала, могут ли системы ИИ генерировать информацию для биооружия - и пришла к выводу, что они начинают понемногу это делать
⚡️ Microsoft создала первый в мире квантовый чип на основе топологических кубитов.
Microsoft совершила прорыв в области квантовых вычислений, представив чип Majorana 1, который использует новую архитектуру Topological Core. Чип создан с применением уникального материала — топологического сверхпроводника и позволяет управлять частицами Майораны, делая кубиты более стабильными и масштабируемыми.
Основное преимущество новой технологии — её устойчивость к ошибкам на аппаратном уровне. В отличие от существующих аналогов, Majorana 1 позволяет контролировать кубиты цифровым способом, делая процесс вычислений более надёжным. Учёные Microsoft разместили 8 топологических кубитов на чипе, который в будущем сможет масштабироваться до миллиона.
news.microsoft.com
⚡️ Microsoft представляет Muse: первый генеративный ИИ для игровой индустрии.
Muse — первая в мире модель, способная генерировать визуальные элементы и игровые действия. Разработанная в сотрудничестве с Xbox Game Studios и Ninja Theory, модель Muse использует данные из игры Bleeding Edge, чтобы предсказывать и создавать последовательности игрового процесса.
Muse показала впечатляющие возможности, генерируя сложные сцены, которые остаются согласованными на протяжении нескольких минут. Модель обучалась на более чем миллиарде изображений и действий ( это примерно 7 лет непрерывного игрового процесса). Уникальность Muse заключается в её способности не только воспроизводить, но и предсказывать развитие игровых событий.
Microsoft также представила WHAM Demonstrator — инструмент для взаимодействия с Muse и экспериментировать с её возможностями.
Muse и WHAM Demonstrator доступны на платформе Azure AI Foundry.
microsoft.com
✔️ Физики приблизили ИИ к "бесконтрольному обучению".
Исследователи из Университета технологий Сиднея представили новый алгоритм Torque Clustering (TC), который умеет находить закономерности в данных без участия человека. Вдохновленный процессом слияния галактик, этот метод позволяет ИИ учиться самостоятельно, кратно сокращая необходимость в ручной разметке данных. Алгоритм уже показал высокие результаты, достигнув точности в 97,7% на 1 тыс. датесетах.
В отличие от традиционного ИИ, который требует огромного количества размеченных данных, TC работает по принципу естественного наблюдения, подобно тому, как животные изучают окружающий мир.
studyfinds.org
✔️ DeepSeek рассматривает возможность внешнего финансирования.
DeepSeek объявил о намерениях привлечения дополнительного внешнего финансирования, поскольку планирует трансформироваться из исследовательской лаборатории в коммерческую организацию.
Первой выразила намерение инвестировать Alibaba Group, на запрос также откликнулись китайские компании и фонды с государственным участием : China Investment Corporation, National Sovereign Wealth Fund и National Social Security Fund.
Помимо инвестиций, DeepSeek рассматривает варианты использования ЦОД в Юго-Восточной Азии для расширения ресурсов и доступа к дополнительными GPU Nvidia.
theinformation.com
✔️ Google создает ИИ-ассистента для ускорения научных исследований.
"Со-ученый" на базе ИИ от Google ускоряет биомедицинские исследования, помогая исследователям находить пробелы в знаниях и предлагать новые идеи. По словам Алана Картикесалингама, старшего научного сотрудника Google, цель проекта — дать ученым "суперспособности" для более быстрого достижения научных открытий.
Инструмент уже прошел первые испытания с участием экспертов из Стэнфордского университета, Колледжа Лондона и больницы Houston Methodist. В одном из случаев ИИ смог за несколько дней прийти к тем же выводам, что и команда ученых из Лондона, которые потратили на исследование несколько лет.
Архитектура построена на нескольких ИИ-агентов, каждый из которых выполняет свою роль: один генерирует идеи, другой анализирует и оценивает их. Модель способна извлекать информацию из научных статей и специализированных баз данных, а затем предлагать исследователям ранжированный список гипотез с объяснениями и ссылками на источники.
research.google
@ai_machinelearning_big_data
#news #ai #ml
🔥 В Японии сделали агрессивного робопса, чтобы посадить его на цепь на одной из выставок в Токио! Робот пытался вырваться и напасть на посетителей мероприятия.
@vistehno
⭐️ Новый Grok‑3 от xAI уже доступен для премиум-пользователей.
Вот главное:
- Вышло два варианта модели: Grok‑3 mini и полноразмерный Grok‑3.
- Беспрецедентные достижения: Первая модель, преодолевшая 1400 очков, и лидирует по всем категориям на арене.
- Режим рассуждений: Хотя базовая модель не «ризонинг», можно активировать режим рассуждений с двумя настройками – «Thinking» и «Thinking Hard»
. Процесс рассуждения почти полностью прозрачен.
- Выдающаяся производительность: На тестах Math24 hard Grok‑3 показывает результаты лучше, чем R1, o1 и даже o3‑mini high. AIME 24 — 52% [96% с обоснованием!]
GPQA —75% [85%]
Кодинг (LiveCodeBench) — 57% [80%].
- На бенчмарках версия mini сравнима с DeepSeek 3, GPT‑4o и Gemini Pro.
- Новый агент Deep (Re)search: Встроенный инструмент для быстрого интернет-поиска, кросс-валидации источников и корректировки плана, который на демонстрации справился всего за минуту.
https://x.com/i/grok
@ai_machinelearning_big_data
#grok #elonmusk #ai #ml #llm #reasoning #xAI
🖥 Вышел ProtoMotions v2 от Nvidia
Это единый унифицированный контроллер для физически смоделированных гуманоидов.
Новые и улучшенные возможности создания сцен для генерации единообразных сцен в разных симуляторах.
- Очень простой рабочий процесс!
- Высокая согласованность сцен
ProtoMotions способен генерировать широкий спектр движений на различных ландшафтах из интуитивно определенных пользователем намерений.
Модель позволяет создавать естественные и универсальные анимации для виртуальных персонажей
🔗 Подробнее: *клик*
▪️Github
⚡️ Запуск Grok 3 состоится уже завтра, сообщил Илон Маск.
Вот что известно:
— Нейросеть будет полностью бесплатной, без подписок и ограничений;
— В Grok отсутствует цензура, в отличие от многих других аналогичных продуктов;
— Самое важное: Маск обещает создать самый умный искусственный интеллект на планете.
@vistehno
Евгений Разинков – преподаватель ML в Казанском университете с многолетним стажем, руководитель собственной команды ML-инженеров и автор популярного razinkov">канала по машинному обучению на YouTube
приглашает вас в свою AI-школу.
Особенности:
• теория и практика
• акцент на самостоятельную реализацию архитектур с нуля
• полное понимание того, что происходит внутри нейронной сети
• архитектуры от сверточных нейронных сетей до трансформеров и языковых моделей.
Регулярные живые QA-сессии, дружное комьюнити, а также компетишены, где можно будет посоревноваться (в командах и поодиночке) в решении ML задач.
От вас: владение Python и знание основ классического ML (регрессия, классификация, градиентный спуск).
Если классический ML не знаете - есть базовые курсы по ML.
7 месяцев, 4 курса:
• AI: от основ до языковых моделей
• Math for AI - необходимый математический бэкграунд
• MLOps - всё про жизненный цикл модели, логирование, версионирование, docker
• Decision making in AI - управление AI-проектом и стратегия
В рамках Capstone Project вы с нуля реализуете и обучите небольшую языковую модель для генерации простых историй, а также выведете ее в продакшн.
Полная стоимость за 7 месяцев (все 4 курса):
• 112 000 рублей (единоразово)
или
• 17 000 рублей в месяц
Если материалы вам не понравятся, мы вернем деньги за текущий оплаченный месяц (и последующие при единоразовой оплате)!
Старт уже 17 февраля, скорее регистрируйтесь здесь!
Еще больше подробностей о курсе ищите в видео и на странице с отзывами участников.
Кстати, теоретические видео курса AI: от основ до трансформеров находятся в открытом доступе на канале Евгения!
ООО «Лаборатория Евгения Разинкова», ИНН: 5043088023, erid: 2VtzqxKcuC1
✔️ Модели ChatGPT получили расширение возможностей.
OpenAI сегодня сообщила в своем аккаунте X (Twitter) о том, что модели o1 и о3-mini теперь поддерживают загрузку файлов и изображений, а дневной лимит загрузок для o3-mini-high увеличен в 7 раз для пользователей Plus до 50 в день.
x.com
✔️ YouTube интегрирует Veo 2 в Shorts.
YouTube объявил об интеграции новой модели генерации видео Veo 2 в функцию Dream Screen, что позволит пользователям создавать уникальные AI-видео для Shorts на основе текстового запроса. Veo 2 может создать видео в различных стилях и тематиках, учитывая реальную физику и движения человека. Она позволяет указывать стиль, ракурс или кинематографический эффект.
Чтобы использовать новую функцию, нужно открыть камеру Shorts, нажать "Add", затем "Create", ввести запрос и выбрать длину видео. YouTube автоматически пометит ватермаркой SynthID созданный таким образом контент. Возможность уже доступна в США, Канаде, Австралии и Новой Зеландии, расширение - в планах.
blog.youtube
✔️ Anthropic готовится к выпуску новых гибридных моделей с возможностями рассуждения.
Anthropic готовится к выпуску новой модели, объединяющей возможности традиционной LLM с расширенными функциями рассуждения. Ожидается, что модель будет доступна в ближайшие недели и ориентирована на корпоративных клиентов.
Ключевая особенность новой модели - переменное распределение ресурсов, позволяющее пользователям регулировать вычислительную мощность, используемую моделью для каждой задачи, с помощью простого слайдера. На минимальном уровне модель функционирует как стандартная LLM без цепочки рассуждений.
theinformation.com
✔️ Релиз Grok 3 ожидается через пару недель.
xAI находится на финальной стадии разработки Grok 3, новой версии своего чат-бота, выпуск которого ожидается в течение одной-двух недель. По словам Илона Маска, Grok 3 обладает очень мощными возможностями рассуждения и превосходит все известные модели. Grok 3 позиционируется как конкурент ChatGPT, Gemini, Claude, Mistral AI и Llama.
Модель была обучена с использованием синтетических данных и способна анализировать собственные ошибки, стремясь к большей логической последовательности путем пересмотра и перекрестной проверки данных. Musk отметил, что Grok 3 временами кажется "пугающе умным".
seekingalpha.com
✔️ Ai2 выпустила OLMoE, опенсорсное iOS-приложение для запуска LLM непосредственно на устройствах.
OLMoE, iOS-приложения с полностью открытым исходным кодом, которое позволяет пользователям запускать современные языковые модели непосредственно на своих устройствах без необходимости подключения к Интернету. Приложение доступно для загрузки в Apple App Store или может быть собрано из исходного кода из репозитория Ai2 на Github.
Приложение работает на новых устройствах Apple, от iPhone 15 Pro и новее и iPad серии M, из-за потребности в 8 ГБ памяти для модели OLMoE. Модель была оптимизирована с использованием квантования Q4_K_M. OLMoE представляет собой продолжение стремления Ai2 к открытости в разработке ИИ. На iPhone 16 Pro инференс достигает 41 токена в секунду.
allenai.org
✔️ OpenAI представила рекомендации по использованию моделей рассуждения, специально разработанных для сложных, многоступенчатых задач.
Главное:
Используйте разделители: Markdown, XML-теги и заголовки помогают чётко структурировать вводимые данные.
Различие моделей:
Модели рассуждения (например, o1, o3-mini) оптимизированы для детального планирования, анализа документов и визуальной интерпретации.
GPT-модели (например, GPT-4o) ориентированы на скорость и экономию ресурсов для хорошо определённых задач.
Практическое применение:
Модели рассуждения отлично справляются с уточнением неясных запросов, извлечением ключевых деталей из объёмных данных и многоступенчатым планированием (например, при код-ревью).
Рекомендации по запросам:
Используйте короткие, ясные и структурированные запросы с явными ограничениями. Излишне подробные инструкции "chain-of-thought" не требуются, так как модели рассуждают внутренне.
Post
@ai_machinelearning_big_data
#news #ai #ml
«Grok-3 пугающе умен и превосходит любую известную нам выпущенную модель»
- Grok-3, обученный с использованием большого количества вычислительных и синтетических данных, и обладающий мощными способностями к рассуждению
Думаю, в пятницу мы увидим, так ли это.
@vistehno