13017
Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Энциклопедия LTX.
Для тех, кто локально генерит видосы.
Собрано всё самое годное:
Промпт гайды
Веса
Чекпойнты
Дистиляты
Кванты
Апскейлеры
Ггуфы
Текстовые енкодеры
VAEs
Embedding Connectors
Лоры(много)
Разные воркфлоу
В общем ЛТХ Клондайк
https://github.com/wildminder/awesome-ltx2
@cgevent
VibeOS
Тем временем в claude code навайбкодили целую операционную систему на ARM64
It can run DOOM.
Логи сессий также лежат в репо.
git
На базе Qwen-Image-Edit-2511-Multiple-Angles-LoRA - собрали очень крутой инструмент для рендеринга с нескольких ракурсов.
Это очень круто, потому что работает с одной входной картинкой. Можно выставлять буквально до градусов.
Huggingface
GIT
ComfyUI VNCCS Utils
@CGIT_Vines
Наконец обнаружена четкая граница между восточной и западной Европой
Читать полностью…
Там бостон динамикс выкатили нового Атласа.
Теперь это не просто экспериментальный прототип для видосов с сальтухами, а железка, призванная для того, чтобы заменить кожаных на заводе.
Из интересного:
— Робот сам топает к зарядке, сам вытаскивает севшую батарею и вставляет свежую. Никаких простоев, перекуров и походов в туалет. Работает 24/7.
— Мозги от Google: Boston Dynamics запартнерились с Google DeepMind, чтобы впихнуть в Атласа годных нейронок. То есть робот будет не просто следовать скриптам, а реально "соображать" и быстро учиться новым задачам на ходу.
Немножко характеристик: поднимает до 50 кг груза, вытягивается на 2.3 метра в высоту, 56 степеней свободы (суставы крутятся как угодно, посмотрите, что эта скотина делает на видео), не боится воды и мороза.
Собирать серийные модели начинают прямо сейчас в Бостоне. Все поставки на 2026 год уже расписаны: первые партии уедут на заводы Hyundai и в Google DeepMind. Остальным придется ждать до 2027-го. Сейчас планируют строить завод, который будет штамповать 30000 таких юнитов в год.
Чо, заводчане, готовимся идти на рынок торговать луком. Ахахахах, конечно нет, потому что робот умный и за 30 тысяч рублей в месяц работать на заводе не будет даже он
тут подробнее
WiFi DensePose
Да-да, предсказывание поз с помощью WiFi.
https://github.com/ruvnet/wifi-densepose
В Davinchi Resolve оказывается есть клонирование голоса.
Сама программа бесплатная и что интересно, голос считается нейронкой на вашей машине локально.
Кроме того, он сохраняет исходный ритм и стиль речи, просто применяя звучание обученного голоса.
Конечно совпадение не идеальное, но как бесплатное решение вполне может сгодиться.
Тут можно глянуть тутор.
@CGIT_Vines
Ого, в Комфи завозят Automatic1111 Simple Mode!
Не прошло и много лет, как в Комфи заподозрили, что вся эта ацкая лапша плохо заходит в потребителей нормальных интерфейсов.
Уже были проекты-нашлепки над Комфи, которые вытаскивали основные параметры в окно со слайдерами. Теперь Комфи сами взялись за это.
Встречайте - Simple Mode. В которой на экране остается одна финальная картинка (видео?), а справа появляется панель с основными параметрами типа Seed, Steps, Prompt, разрешение, CFG, Sampler, Scheduler, Имя модели с выбором(о, боги, да!), негативный промпт, количество генераций.
Более того, теперь вот такие "упрощенные" форкфлоу можно шарить (на деле просто шарится воркфлоу), чтобы другие юзеры открывали и пользовались (ха, представляете сколько конфликтов будет вылезать).
Мысль очень хорошая. Я года два назад писал, что интерфейс для генерации должен строиться вокруг огромной картинки (как в Фотошопе) - все кнопочки и педалечки не должны отжирать UI-пространство у самой картинки.
Ну примерно как в Invoke AI. Inpaint, маски, выборы - все на самой полноразмерной картинке. Просто потому что Адобченко уже всех приучил за 40 лет. Щас вот до Комфи дошло.
Осталось побороть CUDA–PyTorch mismatches или tensor size mismatches, которые будут валить с ног новых пользователей.
@cgevent
У нас новый GPT-image!
Альтман и co. в погоне за бананами наконец-то починили отвратительную желтизну и непостоянство объектов, а ещё — в четыре раза ускорили генерацию и улучшили понимание промта.
Идём тестировать.
Разыскиваются террористы: претрейн датасетов, разъеб лидербордов, ваншот литкодов, вайбкод дашбордов, анУс логотипов, наеб инвестфондов, подьем раУндов, админ каналов, адвайз стартапов
Докидывайте в комментах
Таки докатили до опен беты сервис для стилизации\трансформации видео и vfx, идейного наследника warpfusion.
Загружаете видос, обрабатываете ключевые кадры в банане не отходя от кассы, запускаете рендер.
Все в интерфейсе, приближенном к видеоредакторам. С проектами, треками, покадровым скробблингом, сравнением до 4х видео.
Тыкать тут - app.mago.studio
Папищекам возможна скидка в комментах 🐐
Также в AI Toolkit от Ostris подвезли треню лор для LTX-2
Пока влезает на RTX 5090 + 64 RAM, но скоро впихнут и в 24gb VRAM
В целом, интерес опенсорсного сообщества довольно быстро переключился с Wan 2.x на LTX-2, благо она еще и поддерживает из коробки большую часть лор для предыдущей версии.
пше
Ещё из интересного, Гугл совместно с екоммерсом в лице Shopify, Etsy, Target, Walmart и Wayfair анонсировали протокол UCP: Universal Commerce Protocol. Это в дополнение к уже имеющимся AP2 (Agent Payments Protocol) для платежей, и интеграционным A2A и MCP.
https://ucp.dev/
Агенты для коммерции уже рядом. Не надо отдельных интеграций под каждую платформу, удобный дискавери для агентов (чтоб не парсить страницы), простой чекаут с покупкой в один клик, и видимо возможность купить что-то сразу в AI-выдаче.
Я помню, как впервые попробовал вайбкодить.
Я тогда ещё ходил в школу, в 7 класс...
В одно прекрасное утро я шёл как обычно в школу,
и тут старшие ребята окликнули меня.
Я подошёл к ним, меня повели за гаражи
и там предложили попробовать вайбкодинг...
Я боялся, но мне хотелось попробовать —
так как пару моих знакомых уже сидели на вайбкодинге...
Я думал: от одного раза ничего не будет.
И я попробовал...
Скажу честно — первый раз мне не зашло,
но когда я попробовал вайбкодинг второй раз —
после этого я уже не мог остановиться...
Помню, как мы на каждой перемене в сортире
с пацанами вайбкодили без IDE, без ТЗ и без смысла.
В то время вайбкодинг был модным
и им занимались чуть ли не с первых классов абсолютно везде.
Некоторые мои знакомые вайбкодили сами,
а некоторые покупали курсы из-под полы.
Потом у меня появилась девушка.
В то время я плотно сидел на вайбкодинге,
и она об этом знала.
Сначала она не была против,
а я говорил, что в любой момент могу бросить.
Потом она поставила выбор:
либо она, либо вайбкодинг.
И я выбрал её, не задумываясь...
Через какое-то время она нашла в моей сумке
ноутбук, тёмную тему и незакоммиченные изменения...
Тогда я уже не смог отпираться...
Уже тогда я был на самом дне.
Невозможно представить, что мне приходилось делать,
когда не было сил на очередную сессию вайбкодинга...
Настали тяжёлые времена,
когда мы с пацанами вайбкодили
один проект на четверых без репозитория. С одного ноутбука, клавиатуру естественно никто не протирал.
Я видел, как уходили мои друзья один за другим...
Некоторые пытались бросить —
начинали писать по ТЗ.
Другие, когда не было идей совсем,
пытались пересесть на обычный код...
С рождеством!
Вот вам открытка для отправки родственникам.
Не благодарите.
Судя по stack overflow через лет эдак 50 когда зумеры начнут активно умирать мы будем жить в чем то среднем между пелевиным и wh40k
Читать полностью…
Хиггсфилд и Рождественский Гринч: что известно.
Пока вы готовили оливье, Higgsfield готовил массовые баны. Подписчик @generatio_ai в p_ai_az/post/DSuD51sDkGJ?xmt=AQF0EnyBfcLrmQSYMY_src79MH0IzPnceg-59Soo6Kmx__QjSvqLoj5hPkVim6xXY_LQLEsk&slof=1">Threads провел расследование, плюс вы накидали в комментарии — получается интересно.
Официальная версия: виноваты посредники и "серые/чёрные методы оплаты". Мол, 99% — рефанды от мошенников.
🔨 Что не сходится:
1) Банят людей с личных карт. Конкретный кейс: человек полгода платил месячные с виртуальной карты — всё норм. Купил годовую Ultimate за 200 баксов — бан в час ночи. Испанцу снесли аккаунт без права восстановления — какими посредниками он пользовался?
2) Волна началась ~20 декабря с иностранцев (европейцы, всё есть в их дискорде). Основной удар — ночь с 25 на 26.
3) Посредники дорожат репутацией — выгоднее держать клиента в долгосрок, чем кинуть один раз. Сейчас они делают возвраты за свой счёт и уходят в минус. Некоторые пришли в дискорд Хиггсфилда и прямо назвали обвинения клеветой.
4) Появилась "батарейка" — плати ещё, чтобы дальше пользоваться безлимитом, который ты уже купил.
🤔 Теория из комментов: просчитали нагрузку, поняли что подписки убыточны, и начали выкашивать самых активных пользователей. Ещё одна причина бана — "автоматизация": якобы люди слишком активно пользуются безлимитом.
😮 Напоминание: последние 3-4 месяца при попытке оплатить месячную подписку людям втихую оформляли годовую. Это широко не обсуждалось — до вчерашнего дня.
🤒 Поддержка: ИИ-ассистент через три сообщения теряет контекст, обещает перевести на человека — и тишина. Квитанции об оплате не приходят (при том что уведы "оцените нас" — приходят). А теперь их требуют как пруф.
🤨 Бонус: с 30 августа в политике прописано, что Хиггсфилд может использовать ваши входы и выходы не только для обучения моделей, но и в маркетинге. Лицензия безотзывная, бессрочная, с правом передачи третьим лицам. То есть твоя работа может оказаться в их рекламе — и ты ничего не сделаешь.
Итого: некоторым вернули возможность зайти в аккаунт — но генерация всё ещё недоступна. Разбаном это назвать сложно.
Пишите в дискорд, на Trustpilot, везде — это единственная причина, по которой они начали шевелиться. Ну и держитесь от этого сервиса подальше.
И анимированная версия (со звуком)
Animate it as heroes of might and magic castle interface, add heroes 3 music and christmas sounds
veo3 i2v fast
@derplearning
Qwen-Image-Edit-2511: теперь и у Qwen есть своя Nano Banana
Умеет всё то же, что и аналоги от Google, OpenAI и Flux. Клёво, что Qwen тоже не отстаёт от гонки, причём их релиз вышел под лицензией Apache 2.0. Это обновление старой Qwen Image Edit, версии Qwen Image вдохновлённой Flux Kontext.
Главная фишка релиза — возможности популярных LoRA (например, для улучшения освещения или смены ракурса), интегрированы здесь прямо в базовую модель. Отдельно так же дообучили на полезные для реального дизайна фичи, такие как генерация изометрических проекций и замена материала. С этим в целом и банан явно справляется, но квен все-таки локальная и главное открытая моделька.
Модель с первого дня поддерживается LightX2V, с ускорением в 1.4 раза. А в комбинации с дистилляцией и FP8 обещают ускорение до 42-х раз.
Результаты нужно смотреть на практике, но сам факт появления сильного опенсорс-конкурента — это отлично.
Демо Hugging Face
Демо Qwen Chat
Пейпер
Обнимающее лицо
Гитхаб
@ai_newz
Flash portrait
Кому ещё один оживлятор портретов? С кодом.
Главная фишка - он типабыстрый. Ускорен в 6 раз, но не реалтайм.
Генерит говорящие головы неограниченной длительности.
Теперь плохая новость.
40 гиг vram.
И это нашлепка над wan 2.1 14b.
https://github.com/Francis-Rings/FlashPortrait
@cgevent
TurboDiffusion
Обещают ускорение Wan 2.1 T2V / 2.2 I2V аж до 100x-200x
Сравнивали, видимо, с ванильными Wan без causevid/turbo лор, которые и так генерят нормально за 5-10 шагов.
Sparse-Linear Attention, q8, rCM
hf
git
техрепорт
Выкатили новую версию three.js
Все эти штуки можно крутить прямо в браузере.
Берете ллм по вкусу, даете гитхаб, просите юзать
r182
ченжлог
We’ve officially rolled into open beta: a video stylization / transformation & VFX service — the spiritual successor to WarpFusion (discord with sassy mods included)
You upload a video, tweak the keyframes right there in Banana on the spot, hit render — and let it cook 🍌🔥
Everything lives in a video-editor-style interface:
projects, tracks, frame-by-frame scrubbing, and side-by-side comparisons of up to four videos at once. Yes, four. Because we can.
👉 Break it here: app.mago.studio
And for the OG goats, a promo code may mysteriously appear in the comments 🐐😏
Ну, за Marvelous Designer.
На первом видео я попросил Gemini 3 (Thinking) сделать мне симулятор одежды
Промпт:
Create a single HTML file containing a realistic cloth simulation using HTML5 Canvas and JavaScript. The cloth should be a grid of points connected by constraints using Verlet integration. Implement gravity and mouse interaction: the user should be able to click and drag particles to tear the cloth. The physics must remain stable without exploding.