Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Валентинки через Glif
Теперь каждый глиф стоит по-разному, но на старте вам дают 30 кредитов бесплатно и так же они ежедневно пополняются. А я подготовил для вас Глифы для Валентинок!
💰 В среднем 1 генерация в моих глифах тратит ~8 кредитов
💰 Оригинальный Glif — ~5 кредитов
Готовые глифы для Валентинок:
► angrypenguin/glifs/cm72g4nie0006rz8l6kxmh1es">Оригинальный Glif — откуда я взял идею, генерирует картинку + милый текст через Sonnet. Из минусов — вотермарка.
► MonkeyInLaw/glifs/cm72vf4y70002rv29eqvreat1">Мой вариант. 2:3 размерность (1200x1600px) — Идеален для печати!
НО! Есть особенность сделал его с разделением промпта для Clip L и T5XXL.
Мне помогает вот этот промпт для любой LLM: Create prompts based on text for Clip L and T5XXL. Text: [Ваше описание или картинка]
Если не хочется заморачиваться с промптами для Clip L и T5XXL, просто вставьте одинаковый текст в оба поля.
► MonkeyInLaw/glifs/cm74j1nbd000srhb5t1jjczrs">Вариант с возможностью референс картинки. Добавил Redux туда.
► HF Lora — для тех кто хочет локально погенерить
— Я распечатал эти открытки на акварельной бумаге, и они выглядят как настоящая пастель!
Да ты же просто робот, имитация жизни. Разве робот сможет написать симфонию, сделать шедевр?
Читать полностью…В нейронке PixVerse появился фильтр, который превращает фотографии в видео, где вас обнимает Иисус.
Пользователи начали тестировать его на своих питомцах, татуировках и прочих вещах. Получилось максимально проклято.
Тоже можете попробовать. Там несколько генераций бесплатно
r/#aivideo
Опенсорс Suno🤡🤡🤡
Наконец-то в опенсорс генераторах музыки сподвижки. Угадайте, кто? Правильно, китайцы YuE — по-русски йе! Yeah, ну или просто 乐. По звуку похоже скорее на Suno v2, но и это уже очень хорошо. Примеры в видосе и полные треки в комментариях.
К сожалению, какого-то демо не нашёл, поэтому своих тестов нет. Пейпер обещают скоро, а вот раскатить модельку у себя уже можно. Потребуется только 24 GB VRAM, то есть 4090 может осилить.
Ждём, когда оптимизируют и понаделают всякие финтифлюшки, по типу звуковых IP-адаптеров и контролнетов. :)
Модели на HF
Project page
GitHub
@ai_newz
DiffSplat для гиков.
Тут в тиктоке зафайнтюнили диффузионные картинкогенераторы так, чтобы они сразу генерили Гауссиановые Сплаты. Напрямую.
Внимание - за 1-2 секунды, по промпту или одной картинке.
DiffSplat is a generative framework to synthesize 3D Gaussian Splats from text prompts & single-view images in ⚡️ 1~2 seconds. It is fine-tuned directly from a pretrained text-to-image diffusion model
Надо бы обновить тему сплатов - это один из кандидатов на новые игровые и неигровые движки.
https://chenguolin.github.io/projects/DiffSplat/
@cgevent
Тем временем мамкины спамеры начали переключать шлюхоботов на Deepseek (тому шо дешевле в 10 раз).
Что могло пойти не так?
В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
Дожили! Теперь можно заниматься машинным обучением в футбольном клубе!
Читать полностью…TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training - Этот простой трюк ускорит претрен вашего DIT в 25 раз!
Идея такая: не все токены одинаково полезны на всех слоях, не все слои одинаково полезны для всех токенов. Давайте дадим модели самой выбирать на какие слои передавать токены, а на какие слои нет.
авторы получают х25 ускорение претрена и модель лучшую по метрикам чем классический DIT.
paper
Как выглядит интерфейс DDOS-атаки на сервер в 2025 году
👏
Забавно, в этом пейпере указали стоимость обучения 1890$ (2.6 8xH100 дней), т.е. 3.7$/gpu/час
Сейчас несложно найти 8xH100 за 2.99$/gpu/час
Т.е. с момента обучения до выхода статьи процесс подешевел до 1492$, почти на 20%!
Пишем новый пейпер "waiting for a few months is all you need"
Вот вам пример видеогенерации, от которого у меня немного закипел мозг.
Мы тут извращаемся в промптах, пытаясь заставить двигаться камеру или персонажа.
Но.
Оказывается, можно попросить ИИ добавить на видео гринскрин (этим я вас не удивлю) и, внимание, маркеры для трекинга камеры (а вот этим удивлю). Для того, чтобы потом оттрекать камеру в AE или Нюке, восстановить движение объектов в 3Д, убрать фон и навалить сверху нормальной графики или футажа.
В общем все, как на съемках с парой супервазеров, мешком маркеров, тейпов, рулеток, далее по списку. Только промптом!
И судя по этому примеру у Veo2 (пока крайней мере у него, но думаю и у остальных) в голове есть реальная модель 3Д мира и вполне себе эвклидово пространство, ибо это работает и условная фотограмметрия не ломается.
Я в шоке. А вы не поленитесь, почитайте нехилый такой промпт, где написано про маркеры, гринскрин и прочую супервайзерскую требуху (тут есть момент, чтобы писать такой промпт, надо как бы быть в супервайзерской теме, но об этом в другой раз).
Я уж не знаю, на чему учили Veo2, но то, что это вообще работает, приводит меня в восторг.
Подробности тут.
Кто совсем ничего не понял: здесь только девушка (см. промпт). Среднее видео демонстрирует добавление созданной человеком модели (андроид, G) в сцену, созданную ИИ, а нижнее - объединение созданного ИИ персонажа (девушки) в созданную человеком сцену (сакура и небесное пространство). В обоих случаях необходимы данные с камеры, полученные в результате работы ИИ.
Попробуйте в Клинге что ли...
@cgevent
Ахахахаха напомнило мне как на какой-то конфе по wearables я встретил Филипп Кана, фаундера Borland
Я рассказал ему, как ещё школьником писал на борланд си в 91 году в компьютерной лабе у папы в институте, и студент, который там подрабатывал, был для меня прям начальник, инженеры - магами, а начальник лабы - богом
И тут я говорю с фаундером бля борланда, если бы тридцать лет назад мне кто-то такое сказал я б не поверил
А он мне рассказывает как в 90 он поехал делать бизнес в Москве, и как всё накрылось во время путча и как они с помощью бандитов получили свою инвестицию назад вагоном икры и вагоном водки
Программист провёл расчёты, чтобы выяснить, насколько эффективно дарить инженерам из компании конкурентов Factorio, чтобы саботировать их работу. В качестве примера он взял стартап Палмера Лаки Anduril, который работает на армию США.
Автор расчётов взял данные о доходах сотрудников компании и раскидал их на три категории: 20% тех, у кого уже есть Factorio, 60% неиграющих и 20% тех, кто будет проводить 1-5 часов в день после того, как внезапно получит Factorio.
Каждый инженер из последней категории будет в среднем приносить убыток компании в $84 в неделю. При этом Factorio с DLC обойдётся в $70.
@zavtracast
Претренить нужно в INT4
Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST. Если вкратце, аккуратно оптимизировали как производить округление на forward и как пропускать через него градиенты на backward. И это и для весов, и для активаций.
Результаты. Обнаружили, что самым оптимальным по трейдоффу качества претрена/скорости инференса из всех типов данных является INT4. Кроме того, модель даже стабильно обучается в W1A1, то есть и веса и активации и матричное умножение в bool. И это на гиперпараметрах (оптимайзер, lr, decay) таких же как BF16: гиперпараметры не надо тюнить отдельно.
Scaling laws. Затестили, что перформанс консистентен на моделях от 30M до 800M параметров. Квантизация дает очень предсказуемые изменения в лоссе и предсказуемо скалируется.
Код, текст. Статья доступна как преринт на arXiv. Код выложен на github: любой может воспроизвести претрены. Для этих экспериментов достаточно всего одной ноды с 8xH100!
Нынче выходит много работ по квантизации LLMок, но чтобы и веса, и активации и претрен - не так много.
DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models
Вот прям хорошая работа от канадской Нвидии, оставшаяся незамеченной.
Прежде всего для композа.
Спойлер: кода нет, композера своего у Нвидии нет, так что это все скорее всего для их Omniverse.
Но красиво, обратный рендер получает на входе видос, вытаскивает оттуда глубину и пытается восстановить 3Д-объекты (трекинг?), причем даже с материалами.
А прямой рендер после этого, может перегенерить картинку с:
1. новым освещением
2. другим материалом на объекте
3. и даже вставить новый (свой, 3д из блендора) объект в эту "сцену", то есть в исходное видео.
Прям композкомпоз.
https://research.nvidia.com/labs/toronto-ai/DiffusionRenderer/
@cgevent
Клип, сделанный Ruairi Robinson для Steve Moore.
Ruairi - режиссер со стажем, несколько раз номинировался на Оскар, с графикой знаком давно, в общем, знает, что делает.
Этот кусок ничем не хуже, чем какой-нибудь Gessafershtein.
Выглядит мощно, звучит тоже! AI only.
Relevant, best, and no comments 🔥
Youtube
Швейцарский стартап FinalSpark начал работу по созданию первого в мире биокомпьютера!
Учёные вырастили 16 органоидов человеческого мозга, способных обучаться и обрабатывать информацию. При этом доступ к их исследованию можно получить удалённо через онлайн-платформу Neuroplatform.
По словам компании, эти биопроцессоры потребляют в миллион раз меньше энергии, чем традиционные цифровые процессоры, и могут стать следующим эволюционным скачком для искусственного интеллекта.
В качестве демонстрации возможностей своей революционной работы FinalSpark создали виртуальный мир с моделью бабочки, управляемой непосредственно органоидами мозга.
«Это значительный шаг на пути исследований в области сохранения когнитивных функций человека и загрузки сознания»
> ТЫ ОБЫЧНЫЙ УГА-БУГА
> Молодняк не хочет тащить камни на руках
> Используют какое-то новомодное "колесо"
> Совсем привыкнут к нему и ослабнут
> Недовольно бурчишь
One-Prompt-One-Story: SVD и длинный промпт для генерации связанных изображений
Чтобы сгенерировать при помощи диффузии набор связанных консистентных изображений с единым персонажем, существует много методов, основанных на обучении (DreamBooth, IP-Adapter, Textual Inversion и т. п.). Но на самом деле можно обойтись и без обучения — например, StoryDiffusion делает это через расширение attention на референсную картинку.
В новой статье описывают ещё более простой метод генерации таких «историй» с единым героем — «One-Prompt-One-Story». Оказалось, что достаточно взять один длинный промпт с описанием каждого кадра и аккуратно, по очереди «выключать» нерелевантные части, сохраняя random seed. Для этого авторы используют SVD на текстовых эмбеддингах: усиливают нужные токены и ослабляют все лишние. Плюс небольшой трюк с cross-attention, чтобы персонаж не «расползался». Всё делается на лету, без дообучения и без референсных снимков.
Несмотря на простоту, метод по метрикам сильно обходит StoryDiffusion, и даже иногда обходит IP-adapter.
Статья, GitHub
Значит, смотрите, все как учил вас в 2025!
Сначала отстреливаем каждую из семи щупалец. После того как он перестанет вас хватать, целимся в светящийся оранжевый треугольник, между сенсорами. Как убьете, не подходите сразу для сбора дропа — после смерти они, как правило, взрываются!
В Suno появилась функция audio input, теперь можно записать свои звуки, речь, и собрать из этого композицию.
Я когда спотифай слушаю, каждый раз ловлю себя на мысли сколько сгенерированных треков я уже послушал не подозревая этого.
На сколько просто теперь стало делать музыку, все еще удивляюсь.
Good Things Go (Official Audio Visualizer) - Linkin Park
Внезапно, На правах замедления ютуба
сорс
Пожалуй, хватит интернета на сегодня
@derplearning
Тем временем в SpaceX устроили незапланированный салют памяти Дэвида Линча
Читать полностью…MicroDiT;
Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget
Внезапно, Sony Research выкатили фреймворк для обучения 1.16b DiT до уровня StableDiffusion 1.5 за 2k$ с нуля.
Если мне не изменяет память, sd1.x обошелся в 130000$ :D
В целом, давно хотелось какого-то text2img бенчмарка вроде llm.c от Карпатыча, но при этом не на основе непонятного претрена, и с результатом, который можно оценить не только по метрикам, но и визуально.
Чтобы тестить разные архитектурные фишки с понятным бейзлайном.
Например, натренить эту модель с DC-AE и другими фишками из EfficientViT\SANA
Т.к. модель тренят в 4 этапа (256+маска, 256, 512+маска, 512), вполне можно гонять тесты на 256х256.
Ура товарищи!
paper
code
models
@derplearning