Наука, технологии, изобретения и урбанистика — прямо сейчас говорим о том, что уже скоро повлияет на каждого. по всем вопросам - @workakkk @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы
✔️ Kling AI 2.0 — теперь видео не отличить от реальности!
ИИ генерирует целые клипы, рекламу и мультики — идеально сохраняет контекст и справляется даже с самыми быстрыми движениями.
Multy-Elements 1.6 — редактирует всё в кадре: добавляй, удаляй, заменяй и трансформируй объекты как угодно.
Motion Control 1.6 — анимирует персонажей по одному промпту, как магией.
KOLORS 2.0 — генератор картинок с фотореалистичной детализацией. Настолько чётко, что не верится, что это ИИ.
Пробуем — здесь.
@vistehno
🔥 OpenAI представили сразу три новые модели — 4.1, 4.1 mini и 4.1 nano!
📏 Контекст — до миллиона токенов
💡 Обещают значительные Улучшения в коде
⚡Модели уже доступны через API
💬 На презентации одним промптом собрали веб-приложение для изучения языков.
Честно говоря, выглядит не супер. Практически та же цена, что у Gemini 2.5 Pro (у Gemini дешевле входные токены, что важно), и, насколько мне известно, она не превосходит модели Гугла ни на одном бенчмарке.
Попробовать бесплатно можно здесь
Подробнее
@ai_machinelearning_big_data
#openai #chatgpt
🤖 Fourier Intelligence выпустила Fourier N1 — первого полностью open-source гуманоидного робота!
Fourier N1 — это компактный робот ростом 1.3 м и весом 38 кг, способный развивать скорость до 3.5 м/с.
За плечами более 1000 часов полевых испытаний.
🌟 Всё открыто: → список комплектующих (BOM)
→ CAD-чертежи и 3D-модели
→ спецификации приводов
→ управляющий код — на GitHub
⚙️ В основе робота — фирменные приводы FSA 2.0, обеспечивающие высокую устойчивость и манёвренность даже на пересечённой местности.
🔜 Github
🔜Документация (включайте автоперевод)
#ai #robots #opensource
🌟 Pusa-VidGen — новый подход к генерации видео с точным управлением движением
Обычно в генерации видео модели обрабатывают весь ролик "размазанным" шумом — как бы в целом.
А тут модель управляет шумом отдельно для каждого кадра, и делает это с помощью векторизованных "timesteps" (временных шагов) — более гибко, точно и эффективно.
Новая модель генерации видео на базе Mochi1-Preview и поддерживает:
🔹 Text-to-Video
🔹 Image-to-Video
🔹 Frame Interpolation
🔹 Video Transitions
🔹 Looping, удлинение видео и многое другое
⚡ Эффективность:
▪ 16× H800 GPU
▪ 0.1k GPU-часов
▪ Обучение: 500 итераций, batch size 32
▪ По заявления разработчиков - стоимость обучения всего 100$ 🤯
▪Github
▪Paper
▪Dataset
▪Model
#diffusion #videogen #pusa #opensource #AI #text2video #mochi1 #fvdm
@vistehno
🖥 Начиная с сегодняшнего дня, память в ChatGPT стала намного продвинуть — теперь она может учитывать все прошлые чаты, чтобы давать более персонализированные ответы.
• Помнит все интересы и стиль общения пользователя
• Подстраивается под цели: учёба, код, тексты, советы
• Работает незаметно, но помогает как будто «знает пользователя давно»
Это новый уровень взаимодействия с ИИ — теперь он не просто отвечает, а действительно работает как личный ассистент.
Улучшенная память в ChatGPT доступна с сегодняшнего дня всем пользователям Plus и Pro, за исключением Великобритании, Швейцарии, Норвегии, Исландии и Лихтенштейна.
Пользователи Team, Enterprise и Edu получат доступ через несколько недель.
P.S. Память можно настраивать и полностью отключать👌
https://x.com/OpenAI/status/1910378768172212636
@ai_machinelearning_big_data
Как сократить расходы на инфраструктуру с GPU?
23 апреля в 12:00 Selectel проведет вебинар для DevOps- и Data-инженеров, техлидов и менеджеров ML-проектов.
Приходите, чтобы обсудить возможности доступных GPU-карт, узнать о кейсах подбора инфраструктуры с GPU и шести способах сократить на неё расходы.
Вебинар бесплатный. Посмотрите полную программу и зарегистрируйтесь по ссылке: https://slc.tl/894wd
Чтобы не пропустить встречу и узнавать о других митапах, воркшопах и бесплатных курсах Selectel, подписывайтесь на @selectel_events
Реклама. АО «Селектел», ИНН 7810962785, ERID: 2VtzqvzgyAR
В CapCut появилась фича: оживление фото — изображения теперь шевелят губами и показывают эмоции 😱
Тест бесплатный. Работает через IP США.
#CapCut #photoanimation #AI
📌 Попробовать
@vistehno
🔥 Microsoft запускает бесплатные курсы по ИИ для всех.
Microsoft представила масштабную образовательную инициативу — AI Skills Fest, где каждый может бесплатно освоить навыки работы с ИИ. Программа подходит как новичкам, так и опытным специалистам — от основ ML до работы с Azure и Copilot.
Обучение доступно на 40+ языках, включая русский, а материалы разбиты на модули: введение в ИИ, CV, NLP и создание приложений. Участники, прошедшие курс, получат бейдж для LinkedIn и шанс выиграть один из 50 тысяч сертификационных ваучеров. GitHub также предлагает скидку 50% на экзамен по Copilot для тех, кто завершит их модуль.
Чтобы присоединиться, достаточно зарегистрироваться на сайте Microsoft и выбрать подходящий уровень сложности. Помимо основного блока, доступны хакатоны, форумы и самообучение в удобном темпе.
🟡 microsoft.com
@ai_machinelearning_big_data
#course #ai #ml #freeeducation
⚡️ Я рекомендую вам не ронять ничего перед этим зарядным устройством.
@vistehno
🤖 Новое видео NEO от 1X: полностью автономный робот.
ИИ выполняет различные задачи, а также координирует движения всего тела.
Вместо того чтобы решать одну задачу за раз, 1X тренируется для общей автономности в различных неструктурированных домашних бытовых задачах.
✔️ VideoScene (CVPR'25) — это проект, представляющий собой значительное усовершенствование предыдущей разработки под названием ReconX.
Это модель диффузии видео, которая работает в один шаг и позволяет преобразовывать видео в 3D.
Основное преимущество VideoScene заключается в том, что она превосходит по скорости традиционные многоэтапные процессы, делая переход от видео к трехмерным моделям более эффективным.
▪️Paper: https://arxiv.org/abs/2504.01956
▪️Project Page: https://hanyang-21.github.io/VideoScene
▪️Code: https://github.com/hanyang-21/VideoScene
@vistehno
✔️ Google обновляет ряды руководителей ИИ-проектов.
Google объявила о смене руководства в подразделении потребительских приложений искусственного интеллекта: Josh Woodward сменил Sissie Hsiao на посту главы этого подразделения.
Hsiao, который возглавлял потребительские приложения ИИ, в том числе проект Gemini, покидает свой пост с сегодняшнего дня. Согласно инсайду, Sissie возьмет небольшой перерыв, после чего перейдет на новую должность в компании. Woodward, который ранее возглавлял Google Labs и контролировал запуск NotebookLM, продолжит проекты в Google Labs, одновременно взяв на себя новые обязанности. Это изменение происходит по мере того, как в гонке ИИ основное внимание уделяется не базовым моделям, а продуктам, созданным на их основе.
semafor.com
✔️ Nomic выпустила мультимодальные эмбединги для визуального поиска.
Nomic представила Nomic Embed Multimodal — набор опенсорсных эмбединг-моделей для создания векторных представлений текста, изображений, PDF и графиков. Флагманская модель ColNomic Embed Multimodal 7B показала 62.7 NDCG@5 на бенчмарке Vidore-v2, опережая предыдущие решения на 2.8 пункта.
Модели Nomic обрабатывают текст и изображения совместно, избегая сложных пайплайнов с OCR. Это особенно полезно для научных статей, технической документации или мультиязычных документов, где важен контекст.
Модели доступны в двух вариантах: ColNomic (многокомпонентные векторы) для максимальной точности и Nomic (одновекторные) для экономии ресурсов. Модели доступны на Hugging Face, а разобраться помогут гайды и ноутбуки Google Colab.
nomic.ai
✔️ Китайские ИТ-гиганты заказали чипов Nvidia на 16 млрд. долларов в первом квартале 2025 года.
ByteDance, Alibaba Group и Tencent Holdings разместили заказы на общую сумму более 16 миллиардов долларов на серверные чипы H20 AI от Nvidia в первом квартале 2025 года. Такой резкий рост спроса происходит на фоне опасений, что администрация США может наложить запрет на продажу этих чипов в Китай, ссылаясь на вопросы национальной безопасности.
H20 - самый доступный чип Nvidia для продажи в рамках действующих экспортных ограничений, которые запрещают передачу более мощных моделей китайским компаниям. Значительные заказы из Китая ставят Nvidia в сложное положение, поскольку она лавирует между возможностями для бизнеса и потенциальными геополитическими рисками.
theinformation.com
✔️ Google DeepMind опубликовали 145-страничный документ об ответственном развитии ИИ.
Google DeepMind выпустила подробный документ "Ответственный путь к AGI", в котором излагается технический план безопасного развития искусственного интеллекта общего назначения.
В документе подчеркивается важность устранения потенциальных рисков неправильного использования и несоответствия, связанных с технологией AGI. Несмотря на детальный подход, некоторые аналитики полагают, что документ может не полностью убедить скептиков в надежности и безопасности разработки AGI.
deepmind.google
✔️ Epic Games купит стартап Loci чтобы автоматизировать разметку 3D-контента.
Epic Games объявила о приобретении стартапа Loci, чья ИИ-платформа упрощает работу с 3D-ассетами. Технология автоматически генерирует теги для моделей, экономя время создателей на ручную разметку. Это особенно актуально для проектов с тысячами объектов — например, в Fortnite, где игроки добавляют элементы из популярных франшиз, провоцируя споры об авторских правах.
ИИ Loci не только ускоряет поиск и организацию контента, но и помогает выявлять нарушения интеллектуальной собственности. Loci будет интегрирован в экосистему Epic, в том числе в Unreal Editor для Fortnite и маркетплейс Fab, где продаются цифровые активы. Таким образом, разработчики получат инструменты для предотвращения юридических конфликтов и упрощения рабочих процессов.
epicgames.com
@ai_machinelearning_big_data
#news #ai #ml
🎲 OPPO X³ — первый в мире смартфон в форме кубика-кубика!
Вы готовы мыслить нестандартно?
Пользователь искал кемпинги на берегу озера в пределах 150 км от Вены и хотел проверить близость к полям для гольфа, где имелись скидочные купоны и забил запрос в manus
ИИ создал веб-сайт со списком вариантов, интерактивной картой и ссылками для бронирования!
@vistehno
⚡️ 10 open-source генераторов видео достойных вашего внимания (text-to-video и image-to-video)
1) HunyuanVideo (text-to-video)
Флагманская модель от Tencent (~13B параметров), обеспечивает высокое качество качество и реализм.
Категория: подходит для генерации реалистичных видео
▪Ресурсы: 45–80 ГБ VRAM, A100/H100, поддержка FP8
🟡Ссылка
2) Mochi (text-to-video)
Описание: модель от Genmo (~10B параметров), быстрая и мощная
▪Категория: реализм + плавность движения
▪Бенчмарки: качество почти на уровне Hunyuan, 30 FPS
▪Кейсы: реклама, креативы, short-видео
▪Ресурсы: Для работы модели требуется не менее 4 GPU H100., поддержка LoRA, FP8
🟡Ссылка
3) Wan2.1 (text/image-to-video)
▪Описание: универсальный генератор от Alibaba (до 14B параметров)
▪Категория: синтез движений, анимация изображения
▪Бенчмарки: высокая стабильность, особенно в SkyReels.
▪Кейсы: оживление изображений, видеопрототипы
▪Ресурсы: 12–24 ГБ VRAM (1.3B и 14B версии)
🟡Ссылка
4)LTX-Video-Trainer
Проект, предоставляющий инструменты и скрипты для обучения и дообучения модели LTX-Video от компании Lightricks.
▪Категория: с его помощью можно обучать адаптеры LoRA поверх LTX-Video, а также выполнять полное дообучение модели на ваших датасетах.
▪Ресурсы: не менее 12 ГБ GPU для эффективного обучения и дообучения модели. RaM: Минимум 16 ГБ;
🟡Ссылка
5) Pyramid Flow (text/image-to-video)
▪Описание: модель на базе Flux для генерации длинных видео (до 10 сек, 768p)
▪Категория: длительные сцены, плавные переходы
▪Бенчмарки: превосходство в motion stability
▪ Кейсы: нарративные ролики, контент для соцсетей
▪ Ресурсы: 12–48 ГБ VRAM
🟡Ссылка
6) CogVideo / CogVideoX (text-to-video)
▪Описание: трансформер на 9B/5B параметров от THU
▪Категория: стилизация, универсальность
▪ Бенчмарки: сильные CLIP/FVD, хорошая временная согласованность
▪ Кейсы: мультфильмы, обучающее видео, стилизованные ролики
▪Ресурсы: 20–24 ГБ VRAM, оптимизирован под FP8
🟡Ссылка
7) Step-Video-TI2V
Модель для генерации видео (до 102 кадров), производительностью SOTA.
Принимает на вход текстовые описания и изображения.
▪Бенчмарки: на VBench-I2V показывает лучшие результаты по сравнению с другими современными открытыми моделями для генерации видео из изображения и текста, а также лидирует в публичном рейтинге.
🟡Ссылка
8) AnimateDiff
Ветеран этого списка.
▪Категория: анимация, стилизация
▪Бенчмарки: высокая согласованность между кадрами
▪Кейсы: оживление арта, анимированные сцены
▪Ресурсы: от 8 ГБ VRAM, масштабируется до 24 ГБ для высокого качества
🟡Ссылка
9) Easy Animate (image-to-video)
▪Описание: генерация видео из одного кадра (Alibaba, EasyAnimate V5)
▪Категория: анимация изображения
▪Бенчмарки: стабильная идентичность объекта, плавность
▪Кейсы: оживление фото, персонажей, иллюстраций
▪Ресурсы: минимум 12–24 gb CPU
🟡Ссылка
10) Open-Sora Plan (и связанные проекты)
▪Описание: Это не одна конкретная модель, а скорее инициатива разработчиков (и несколько независимых проектов) по созданию и обучению open-source модели
▪Бенчмарки: Пока находятся в активной разработке. Сильная сторона - открытость и амбициозная цель. Результаты варьируются, но быстро улучшаются.
▪Ресурсы: Требования сильно зависят от конкретной реализации и этапа проекта.
📌 Подробное описание моделей
Добавляйте в комментариях ссылки генераторы, которыми вы пользуетесь 👇
#ai #video #videogenerator #ml
Как разобраться в нейросетях раз и навсегда?!
🚀 Хотите понять, как искусственный интеллект может упростить вашу жизнь или вывести ваш бизнес на новый уровень?
🤖 Авторский канал "ИИчко" — место, где ИИ становится доступным, понятным и невероятно полезным для всех, кто интересуется технологиями.
🔍 Что вас ждет:
• Образовательный контент;
• Простые объяснения сложных тем ИИ;
• Инсайты для профессионалов;
• Практические советы;
• Тренды и вдохновение;
Подписывайтесь на "ИИчко" и откройте для себя ИИ с новой стороны!
👉 /channel/+GgmqRlKrxII5YzQ6
🧠 MineWorld — интерактивная AI-модель мира внутри Minecraft от Microsoft
MineWorld — open-source проект, встраивающий генеративную модель мира прямо в Minecraft. Он создан для тестирования и обучения ИИ в реалистичных виртуальных средах.
🔧 Что умеет:
– Генерация мира в реальном времени
– Обработка Minecraft-данных (блоки, действия, агент)
– Использует токенизированное представление сцен и действий
– Обучается предсказывать будущее состояние мира на основе текущего
⚙️ Используемые технологии:
→ VQ-VAE токенизация визуальных сцен
→ Action tokens (действия игрока)
→ Transformer с автокоррекцией и декодером на несколько кадров вперёд
🧪 Подходит для исследований в области RL, generative world models и интерактивных сред
🔗 Репозиторий: https://github.com/microsoft/MineWorld
🧼 Убираем вотермарки бесплатно и незаметно — прямо в браузере!
💡 Нейросеть аккуратно стирает всё лишнее и сохраняет изображение в максимальном качестве.
✅ Без регистрации, без ограничений — просто загрузи и забери результат.
https://dewatermark.ai/ru
@vistehno
🎞 На YouTube появился генератор музыки для видео — теперь блогерам будет проще обходить копирайт-проблемы.
Достаточно описать желаемый стиль, и сервис сгенерирует мелодию (пока без вокала).
Функция доступна пользователям, у которых появилась вкладка Music Assistant в YouTube Studio.
@vistehno
🎥 ReCamMaster — это передовая система генеративного рендеринга видео, разработанная центром визуальной генерации и взаимодействия компании Kuaishou (KwaiVGI). Она позволяет изменять траектории камеры в существующих видеороликах, создавая новые ракурсы сцены без необходимости повторной съемки.
Основные особенности ReCamMaster:
Изменение траектории камеры: Система позволяет перегенерировать видео с новыми движениями камеры, сохраняя исходное содержание и динамику сцены.
Использование предварительно обученных моделей: ReCamMaster использует возможности предварительно обученных текст-видео диффузионных моделей, что обеспечивает высокое качество генерируемых видео.
Создание обучающего набора данных: Для обучения модели был создан крупномасштабный синхронизированный видеодатасет с использованием Unreal Engine 5, включающий разнообразные сцены и движения камеры.
Применения ReCamMaster:
- Стабилизация видео: Система может сглаживать дрожание камеры в видеороликах, создавая более плавные и стабильные кадры.
- Суперразрешение и расширение сцены: ReCamMaster способна повышать разрешение видео и расширять границы сцены за пределы исходного кадра.
- Дополнение данных для ИИ: Система может генерировать видео с различными ракурсами, что полезно для обучения моделей искусственного интеллекта, особенно в области робототехники и автономного вождения.
🟡Github: https://github.com/KwaiVGI/ReCamMaster
🟡Paper: https://arxiv.org/abs/2503.11647
🟡Project: https://jianhongbai.github.io/ReCamMaster/
⚡️ MatMul-Free LM — языковая модель, предлагающая архитектуру, полностью исключающую операции матричного умножения. Этот проект бросает вызов традиционным представлениям, показывая, что LM могут работать на тернарных весах и альтернативных математических операциях.
Интригуют предварительные результаты: согласно данным, модель демонстрирует более крутую кривую масштабируемости по сравнению с обычными трансформерами. Совместимость с Hugging Transformers делает её удобным инструментом для экспериментов в области энергоэффективного ИИ.
🤖 GitHub
@vistehno
🎥 Минутное видео по тексту? Новый подход к генерации от исследователей!
Генерация длинных видео — всё ещё вызов для ИИ. Self-attention не тянет по скорости, Mamba — по сложности сюжета. Но тут на сцену выходят TTT-слои (Test-Time Training) — и делают шаг вперёд.
🧠 В чём суть: — TTT-слои умеют использовать выразительные скрытые состояния, которые сами являются нейросетями.
— Их добавляют в уже обученный трансформер — и он начинает генерировать минутные видео по текстовому сценарию с плавным движением и логичной историей.
— Проверяли на мультстиле Tom & Jerry — и получили +34 Elo-балла в человеческой оценке по сравнению с Mamba 2 и другими сильными базовыми методами.
ИИ уже близок к тому, чтобы полностью воспроизводить стили старых мультфильмов или аниме. Это может кардинально изменить производство анимации — вместо создания вручную, студии смогут "дообучать" модель и просто писать сценарии.
Прикрепленное минутное видео, было создано с помощью промпта и обучено на сотнях часов Тома и Джерри.
Вот его полный промпт.
⚠️ Да, пока есть артефакты и ограничения — модель на 5B параметров и только минутные ролики. Но подход уже выглядит перспективным.
Следим за развитием.
📌Demos: http://test-time-training.github.io/video-dit/
📌Paper: http://test-time-training.github.io/video-dit/assets/ttt_cvpr_2025.pdf
📌Github: https://github.com/test-time-training/ttt-video-dit
@data_analysis_ml
😖 Новость дня: учёные из стартапа Colossal воскресили лютоволков из «Игры престолов», живших 12'000 лет назад.
Они собрали ДНК из зуба (13 000 лет) и черепа (72 000 лет), отредактировали 14 генов серого волка и имплантировали эмбрионы суррогатным матерям. Через 65 дней родились три щенка — Ромул, Рем и Дейенерис, которые на 25% крупнее обычных волчат.
В планах Colossal также воскрешение мамонтов, додо, саблезубых тигров и гигантских ленивцев.
#science #cloning #клонирование
🎮 Microsoft представила нейро-версию Quake II на базе Muse и WHAMM.
Microsoft Research представила WHAMM — новую систему или технологию, предназначенную для моделирования окружающего мира в реальном времени, с особым акцентом на интерактивные среды.
Это означает, что WHAMM способна быстро создавать и постоянно обновлять цифровую 3D-модель физического пространства, учитывая изменения, которые происходят в нем, в том числе в результате взаимодействия пользователя или других динамических событий.
▪ ИИ генерирует кадры в реальном времени, анализируя действия игрока.
▪Старая WHAMM — 1 fps, новая — 10 fps при 640×360, почти играбельно.
Модель помнит последние 0,9 секунды, что добавляет случайности.
Ключевая особенность — система работает достаточно быстро, чтобы обновлять модель мира практически мгновенно по мере поступления новых данных от сенсоров (вероятно, камер, датчиков глубины и т.д.). Это критически важно для плавного взаимодействия.
🔗 Играть в ИИ-версию Quake II можно здесь.
@vistehno
#microsoft #ai #quake #muse
🖥 OpenAI меняют планы выпуска моделей: o3 и o4-mini выйдут раньше GPT-5
Компания планирует выпустить o3 и o4-mini в ближайшие недели, а релиз GPT-5 ожидается через несколько месяцев.
По словам Альтмана, это решение обусловлено несколькими факторами:
- Дополнительное время позволит значительно повысить качество и возможности модели GPT-5.
- Компания столкнулась с трудностями при попытке плавно интегрировать различные компоненты, что потребовало пересмотра первоначальных планов.
OpenAI пытаются подготовить достаточные мощности для поддержки предполагаемого беспрецедентного спроса на новые модели.
@vistehno
🤖 Используем BERT для решения NLP задач
🗓 07 апреля в 18:00 МСК
🆓 Бесплатно. Урок в рамках старта курса «NLP / Natural Language Processing».
Вебинар посвящен такой классической трансформерной модели BERT, которая в свое время совершила революцию в мире Natural Language Processing. На вебинаре вы узнаете, что представлет из себя модель BERT. И как с ее помощью можно легко и эффективно решать разнообразные NLP задачи.
Данный вебинар будет особенно интересен:
- Практикующим Data Scientist и ИТ-специалистам, которые хотят глубже погрузиться в область NLP
- Тем, кто хочет узнать, что делает ChatGPT такой умной
- Людям, освоившими основы машинного обучения, но желающими развиваться в области DS
В результате урока вы:
- Узнаете, устройство модели BERT
- Научитесь дообучать предобученные трансформерные модели
- Научитесь дообучать BERT и работать с ним на практике.
🔗 Ссылка на регистрацию: https://otus.pw/I62M/?erid=2W5zFGdASGG
#реклама
О рекламодателе
«Бегущий по лезвию 2049»: BYD и DJI запустили продажи системы для запуска дронов с крыши автомобилей. Дрон снимает пейзажи, делает эффектные пролёты рядом с машиной и помогает на бездорожье. Взлёт — прямо с крыши.
@vistehno
🤖 У робота Unitree появились очень ловкие руки.
Прогресс в робототехнике невероятно стремительный.
Топ-100 нейросетей для любых задач — откопали на Reddit таблицу с самыми свежими инструментами.
Пост
@vistehno
Мобильный робот, который может летать! 🐝
DoubleBee — новый робот, разработанный в Наньянском технологическом университете в Сингапуре, который может как летать, так и передвигаться по земле, используя два наклонных пропеллера и два колеса.
В воздухе он летает эффективно, как бикоптер, а на земле он балансирует, как двухколесный робот, экономя энергию. На земле пропеллеры помогают контролировать его равновесие, а колеса управляют движением, облегчая управление.
DoubleBee может перемещаться в сложных условиях, перелетать через препятствия, проползать под ограждениями и взбираться на крутые склоны.
@vistehno