Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
DeepSeek только что выпустил последнюю версию своей огромной модели DeepSeek-V3-0324.
Лицензия — MIT (предыдущая версия DeepSeek v3 имела специальную лицензию), а общий объем файлов в релизе составляет 641 ГБ, в формате model-00035-of-000163.safetensors.
Модель вышла всего несколько часов назад, а разработчик MLX Авни Ханнун уже запустил ее со скоростью более 20 токенов в секунду на M3 Ultra Mac Studio с 512 ГБ (9499 долларов) с помощью mlx-lm и 4-битной версии, размер на диске до 352 ГБ.
Новая модель также представлена на OpenRouter, можно пробовать.
Пишут, что лучше, быстрее, сильнее.
Подробнее:
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
https://simonwillison.net/2025/Mar/24/deepseek/
@cgevent
Безлимитная Сора.
А почему все молчат?
Я залогинился в sora.com под своим chatGPT Plus аккаунтом, и Сора пишет - никаких более кредитов. Творчество не кредитуется!
Полез в обновленный сегодня FAQ, а там:
Understanding Unlimited Usage
ChatGPT Pro and Plus plans offer unlimited access to Sora
https://help.openai.com/en/articles/10245774-sora-billing-faq#h_5a4892aa77
Плюсовики, налетай!
@cgevent
Народ пилит лоры персонажей на SD и, используя шаблон Microwave в PixVerse (кручения объекта с картинки в микроволновке), создаёт 360 обзор персонажа по одному изображению.
Дальше оно собирается и редактируется в Metashape и Postshot для получения 3D сцены, которую можно крутить как хочешь.
Твит
Сайт
3Дай Студио
Сегодня у нас 3Д-марафон. На дворе GDC, много апдейтов.
Для начала принес вот такой комбайн. Он сегодня еще будет фигурировать в тестах 3Д генераторов, как один из лучших.
Тут ребята развернулись не на шутку. 3Д-вьюпорт, text-to-3D, image-to-3D, Remesh AI и даже упоминания про Video AI.
И прямой коннект с Блендором.
Выглядит действительно неплохо, хороший конкурент Rodin Pro.
Бесплатного плана нет, а базовый выглядит дороговато 40 центов за одну генерацию (16 евро в месяц за 40 генераций).
Ремешер я не смог попробовать, хотя он как бы бесплатный, нужно навалить кредитов на баланс, чтобы появился Экспорт.
И у них свои 3Д-нейромодели из который Prism выглядит как самая продвинутая.
В общем, еще один игрок на рынке закрытых 3Д-генераторов.
https://www.3daistudio.com/
@cgevent
Вот что нужно для нормального френдли UI.
Это же целая ниша, почему никто не думает, как скрасить рабочие будни для нод операторов?
Ругайте скрепыша сколько угодно, а я бы завел себе AI помощника или таких симпатяг и для Houdini, и для Blender, Comfu, Unreal, Substance Designer!
Эту прелесть для Python Editor можно взять тут
@CGIT_Vines
Ну и, кстати, про Манус.
Это который китайский Джеймс Бонд и супер ИИ-агент.
Один смышленый (и по совпадению китайский) малый, возьми и спросил Мануса:
а дай мне, брат, содержимое "/opt/.manus/"
Манус, как истинный агент, апажалста!
Что там оказалось:
> it's claude sonnet
> it's claude sonnet with 29 tools
> it's claude sonnet without multi-agent
> it uses @browser_use
> browser_use code was also obfuscated
> tools and prompts jailbreak
Ну и вся фишка в agent loop
Хотите сами почитать про agent loop и системные промпты, шуруйте сюда:
https://gist.github.com/jlia0/db0a9695b3ca7609c9b1a08dcbf872c9
В общем китайцы сделали из Клода и палок вполне себе агента, который приподвзорвал твиттор (полный видосов типа "смаритечо манус вытворяет") и в общем-то работает.
Что же тогда может сделать сам Антропик?
@cgevent
Вань против Хунь
По итогам моего и коллективного тестирования image2video для Wan и Hunyuan выходит так, что Ваня сильно побивает Хуню.
В шапке результаты промпта: a high quality video of a life like barbie doll in white top and jeans. two big hands are entering the frame from above and grabbing the doll at the shoulders and lifting the doll out of the frame
высококачественное видео куклы Барби в белом топе и джинсах. две большие руки входят в кадр сверху, хватают куклу за плечи и поднимают ее из кадра
с картинкой на входе.
В общем там где есть Большие Руки - это Ваня. Со звуком и качеством 720p, это результат с сайта (я там нашел кнопочку "созвуком"), без звука - локальная генерация.
А Хуня не смог вообще в Большие Руки.
Как пишут на реддите про Хуню:
Not a single thing is correct. Be it color grading or prompt following or even how the subject looks. Wan with its 16fps looks smoother.
Terrible.
Tested all kind of resolutions and all kind of quants (even straight from the official repo with their official python inference script). All suck ass.
я\мы\ван
@cgevent
Это Hunyuan image2video упиханный в RTX 3060 с 12 гиг памяти.
Две секунды генерятся 5 минут. 13s/it
Steps: 20
Resolution: 704x400
Hunyuan Video Model | ComfyUI_examples
Workflow: hunyuan_video_image_to_video.json
Модель: hunyuan_video_I2V_fp8_e4m3fn by kijai
Prompt: A young woman with flowing brown hair stands gracefully in a golden wheat field during sunset, wearing a white dress adorned with soft pink lotus flowers. She looks directly at the camera with a gentle smile. The wheat sways slightly in the breeze, and her hair moves naturally with the wind. The sunlight enhances the soft glow on her face, creating a dreamy, cinematic effect. She subtly tilts her head, blinks, and gives a warm smile as the camera moves slightly closer to her.
@cgevent
Рубрика крутые подписчики.
Главный плюс чата с коментами - наличие практических советов и возможность найти ответы на вопросы.
Вынесу сюда пример уровня коментариев у нас в чате (да, это не для всех, но для тех, кто в теме)
Вопрос: как присунуть сгенеренный где-нибудь голос в генератор музыки?
Kenan: Трените голос в Элевен или где вам удобно.
После я беру сгенеренный голос семплирую его под пропевки в классическом аудио редакторе. Fl Studio, Cubase и т.д. все что вам удобно. Я использую Reason Studio
После того как засемплируете голос, вам нужно написать ноты (партитуру) под которую будет идти пропевка. В моем случае я беру оригинал произведения на который делаю кавер, на слух подпираю мелодию в аудиоредакторе начинаю семплировать заранее озвученные слова или вокалайзеры под нужные ноты.
После того как треки готовы, заливаю их в Суно. НО! Суно не пускает вас сделать из загруженного даже вами авторского трека персону, начинаем колдовать с ремастерами и ищем тот вариант который меньше всего заремастериться чтобы не повредить то что вы сделали. У меня это занимает от 20 - 50 генераций ремастеров. После того как из ремастера и кавера получается сохранить персону, начинаете искать варианты в которых меньше всего бекграунд звуков. Тут все зависит от того на сколько хорошо вы пишите промпт и отрицательный промпт чтобы на фоне кроме вокала ничего не было.
Далее надо для вашего кавера точно также написать ноты для каждой дорожки. После эти дорожки тоже заливаются в Суно (тут я рекомендую писать звуки в полифоническом миди формате и сохранять их как МП3, так что Суно, что Юдио лучше их преобразуют в нужные инструменты), некоторые штуки лучше делаются в Юдио кстати. К пример Hammond Organ идеально сделал Юдио. Тут думаю уже ясно что надо писать кучу промптов чтобы добиваться соло партий для каждой дорожки.
Но я все равно их дочищаю в RipX или через Adobe Audition там есть классная тулза спектральный анализ звука. Но если у вас качественный звук на дорожке RipX уменьшает вашу боль в сотни раз.
После того как вы собрали пак из всех треков, возвращаетесь в свой аудиоредактор и начинаете мастерить все дорожки с вокалом. Иногда помогает замастеренный трек, залить обратно в Суно и сделать ремастер (именно ремастер, не кавер). Ну вот короче как-то так)
@cgevent
В четверг был на квартирнике Касты, где солировали Влади и Шым.
Оказывается Миша Шым - давнишний подписчик канала. Чуть потрещщали за ИИ.
Нейродед как раз бороду отпустил, патлы расчесал и ну фотографироваться!
@cgevent
Миллиард на репетиторах и рекламодателях
Автор канала «Индекс дятла» изучил 300+ прогнозов известных предпринимателей со всего мира и выбрал для вас три изменения, которые ждут нас в этом году. А ещё предположил, как на этом можно заработать шестизначные суммы:
1) Google выпустит ИИ-репетитора для учеников 1-11 классов. И запустит передел рынка образования размером 5 триллионов долларов. Как заработать на этом? Например, помогать учителям с авторской методикой создавать цифровых двойников — AI-ассистентов, обученных на сотнях записей их уроков.
2) Выйдет первая «бесконечная» многопользовательская онлайн-игра. Новые уровни будут генерироваться под каждого участника в зависимости от его решений и опыта. Как заработать на этом? Например, создавать персонажей, которые будут нативно рекламировать ваш бренд или товар прямо в игре.
3) Pixar выпустит короткометражный мультфильм, полностью созданный с помощью ИИ. Он станет хитом и запустит революцию в кино. Как заработать на этом? Например, научиться писать сценарии для ИИ-анимации и продавать их рекламодателям, которые хотят сэкономить на роликах.
Следующие пять лет станут для одних временем Великой депрессии, а для других — Золотой лихорадки.
Присоединяйтесь к 22 тысячам тех, кто ищет возможности заработать на новых технологиях и изменениях. Подписывайтесь на «Индекс дятла». Каждый день — одна сумасшедшая, но стоящая идея на миллиард в вашу копилку здесь: @dindex.
Реклама ИП Торбичев Андрей Константинович ИНН: 235307703247 erid 2Vtzqw3YqBC
Киджай, конечно, машина.
Уже готов первый Комфи-вокфлоу для WanX.
Как я понял только image2video пока работает.
И модель пожата в fp8_e4m3fn
https://huggingface.co/Kijai/WanVideo_comfy/tree/main
Код:
https://github.com/kijai/ComfyUI-WanVideoWrapper
Как упихать это в 16 гиг посмотрите тут:
https://github.com/kijai/ComfyUI-WanVideoWrapper/issues/2
Тестовое видео.. такое .. конечно.
@cgevent
Veo2 на fal.ai подешевел в ДВА раза.
Это как бы не есть хорошая новость, это никакая новость. Все равно дорого.
Но у меня странные ощущения: если можно на старте бахнуть конскую цену на сервис и на следующей день уронить ее в ДВА РАЗА, то как формируется эта цена?
"Просто деньги нужны?"
Или "забираем максимум с первой волны, а дальше смотрим"?
https://x.com/FAL/status/1893483527947329862
Мне кажется, это дико круто, поэтому я просто процитирую статью, написанную понятным языком:
Большинство биоинженеров подстраивают и переделывают то, что уже дала природа; они модифицируют существующие геномы и ферменты, создавая инструменты по индивидуальному заказу, подстраиваясь то тут, то там, чтобы двигать биологический прогресс вперед.
Модели искусственного интеллекта, однако, могут проектировать биологические системы так, как это не под силу человеку. Нейронные сети легко обнаруживают закономерности в огромных библиотеках книг и интернет-статей, чтобы изучить - или хотя бы имитировать - внутреннюю работу языка. То же самое они могут сделать и в биологии: AlphaFold, модель ИИ, обученная на тысячах белковых структур из Банка данных белков, может точно предсказывать акробатические складки белков и даже помогать людям создавать новые.
Сегодня Arc Institute (исследовательская некоммерческая организация в Пало-Альто, Калифорния) и NVIDIA выпустили более широкую модель ИИ для биологии под названием Evo 2, которая может делать то же самое для целых геномов. Согласно препринту, это одна из "самых масштабных полностью открытых языковых моделей на сегодняшний день". Релиз включает "открытый код обучения, код вывода, параметры модели и данные обучения OpenGenome2".
Статья
Preprint
Код
@cgevent
Для гиков. Форк Хуньяня, который работает на картах с 12 Гиг VRAM.
https://github.com/deepbeepmeep/HunyuanVideoGP
Похоже, что MCP сорвал джек-пот.
Проснулись и танцуют все.
Вот, смотрите, интеграция Cursor, Blender и Tripo3D.
Тут как бы и десктопный Клод не нужен.
Но нужен Курсор, настройка которого не всем покажется простой.
После чего вы просто открываете окно Курсора и ну вайб-тридешить в Блендоре на стероидах ИИ-генерации и анимации.
Но во все этой истории с MCP есть пара моментов.
1. Думаю, появятся MCP с вирусами, будьте внимательны. MCP могут иметь полный доступ к вашим файлам с разрешением на запись. Помните историю с Комфи? А написать и выложить MCP может любой.
2. Гляньте сюда - https://zapier.com/mcp
Это уже мета-уровень автоматизации, который не ограничен решениями, имеющими API. Это уже доступ прямо в приложения. Вот тут наверное уже можно говорить про конструктор агентов. Думаю make и n8n скоро подтянутся.
@cgevent
😌 Тут какие-то гении запустили новый картинкогенератор - https://preview.reve.art/app
Пока полностью бесплатен, но есть лимит на количество генераций в день.
Из плюсов, что успел заметить:
- без цензуры, быстрый
- качество где-то на уровне идеограма, то есть норм в граф- и концепт арт, но по красивости ближе к миджорни
- может в текст
- может в нормальных роботов, кровь, зомби, православные иконы
- может в российский автопром, да и вообще в автопром без лор
- женские лица хороши, нет одного и того же, как во флакс и миджорни
- есть img2img (без промпта), что-то типа переноса стиля похоже
- промпт можно править
Минусы:
- мало генераций на пробу (новые почты решают)
- так себе UI
- иногда тупит с размерами
- все картинки в одной ленте, нет сортировки
В комментариях как работает img2img.
Эксперты по нейросетям соберутся вместе онлайн, чтобы поделиться опытом и инсайтами
19 апреля пройдет конференция «Уральский промпт» — масштабное событие для всех, кто использует или только планирует внедрять нейросети в свою работу.
Участвуйте из любой точки мира и получите доступ ко всем докладам и материалам конференции.
💻 Онлайн-формат — максимум знаний без поездок и лишних затрат
🎟 Доступный билет — от 4900 р
Среди тематик конференции:
— как делать крутой нейроконтент без нервных срывов, завышенных ожиданий и бессмысленных затрат
— человек vs нейросеть: кто лучше понимает пользователей?
— как связать нейронки и Google Таблицы и автоматизировать рутинные задачи по щелчку.
🔥 Три потока докладов: креатив, технологии, управление — для специалистов, руководителей и владельцев бизнеса.
Все подробности на сайте.
#промо
Итак, лайфхак для Семицветика в Гемини.
Pencil drawing of flower with exactly seven petals.
Получаем 8 штук. Если повезёт, тут ключевое - drawing, чтобы гемини не копировала ромашки.
Скачиваем, даём на вход эту картинку.
"Сколько лепестков видишь?"
Семь!
Закрываем чат, сжигаем и выбрасывем подальше
Открываем новый. Загружаем картинку.
Скоко?
Восемь!
Change number of petal to exactly seven.
Готово!
@cgevent
OpenAI представили на стриме 3 новых инструмента для разработчиков (остальным не особо интересно):
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.
Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).
Вот и цены:
— Computer Use чуть дороже обычной GPT-4o (3 и 12 долларов на вход и выход за миллион токенов; а как уж формировать контекст, какие скриншоты экрана и текст закидывать — это уже на вас).
— Поиск по файлам $2.5 за 1000 запросов, и $0.1 за гигабайт загруженных файлов.
— Ну а цена на поиск зависит от настройки «длина контекста» (видимо, сколько ссылок из поисковой выдачи попадут в контекст), и для старшей модели цена $30-$50 за тысячу вызовов.
А в 2026м удалят API Assistants (потому что инструменты придут им на смену).
У меня одного Твиттор упал?
Или это проделки Мануса?
@cgevent
Есть две новости: хорошая и очень хорошая.
1. У Hedra.com вышла обновленная модель Character-3. Не могу сказать, что там прямо прорыв. Все как раньше - первая версия была прям вау, потому что на рынке было мало таких решений, а теперь я\мы зажрались и такие: "ничоособенного".
2. Hedra решила собрать у себя Hedra Studio и дать возможность генерить видосы другими генераторами (ну то есть закосить по Креа или Фриипик с целью обогащения на перепродаже API).
Только вот с перепродажей экономика странная.
Вам на входе (бесплатный логин гуглом) дают 400 кредитов.
Генерация Хуньянем стоит 70 кредитов.
Генерация самой Хедрой - 14 (без аудио) и 89(!) с аудио на входе.
А теперь внимание: генерация с помощью Veo2 стоить 1 (один, прописью) кредит.
Я проверил, да, 1 кредит.
Получается вы можете за 10 баксов в месяц иметь 1000 генераций и возможность докупать кредиты примерно по такой же цене.
И прыгать по аккаунтам и тратить про 400 бесплатных кредитов.
В чем подвох, кто платит за банкет?
Маркетинг коллаб Гугла и Хедры или хитрый способ нагнать лидов? (а потом сменить раскладки по кредитам, о которых на сайте ни слова)
Кстати, там есть все кроме Sora, даже Хуньянь Image2Video и голимый SkyReel. А вот Wan - нет.
При генерации с Veo2 ваши промпты будут безбожно переписаны, просто имейте это в виду.
P/S/ Можно генерить параллельно. Но выбор аспектов и разрешений - ограниченный.
@cgevent
Пока по коллективным тестам image2video от Хуньяня проигрывает Вану.
Основной недостаток - плохо держит лицо с первого кадра и следование промпту оставляет желать лучшего.
Но есть и хорогая новость - он в три раза быстрее.
См. след. пост.
@cgevent
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion
Генератор музыки в опенсорсе
Очень быстрый
Отличительная особенность - можно задавать тайминги для текста
Но всего два языка - английский и китайский
Сейчас доступна модель DiffRhythm-base (1m35s)
Старшую DiffRhythm-full (4m45s) выложат позже
Код
Демо
#music #text2music
Хуньянь, что ты делаешь, прекрати!
Либо выпускай I2V, либо хватит дразницца.
Для тех, кто в теме, держите Лору для Хуньяня, которая позволяет задавать первый и последний кадры. Но это высокоточный хакинг с моделью text2video:
https://huggingface.co/dashtoon/hunyuan-video-keyframe-control-lora - видосы внутри.
@cgevent
Сколько уиллсмитов дадим WanX?
Который переименовали в Wan, кстати.
@cgevent
RigAnything выглядит слишком хорошо. Я вечером, наверное напишу подробнее.
Он работает с различными типами объектов, включая двуногих, четвероногих, птиц, морских, насекомых и всяких робатов.
@cgevent
A - Alignment.
Теперь понятно, почему Маск называет Грок самым смышлёным ИИ на земле.
Грок знает, что хочет услышать хозяин. А может быть и любой вопрошающий.
Ждём-с.
O - Offtop по выходным
@cgevent
Вы будете смеяться, но у нас опять новый видеогенератор!
Опен-сорсный притом. Дико быстрый. С кодом и тех репортом. В весами есть моменты см ниже.
Что-то мне стало казаться, что видеогенераторов становится больше, чем генераторов картинок. Они правда дохнут (канают в лету) быстрее, чем появляются, но это путь самурая!
Итак, что интересного.
Image2Video из коробки, но это не главное, главное С-Скорость!
Модель Magic 1-For-1 - это, прежде всего оптимизации использования памяти и сокращения времени ожидания вывода. Она декомпозирует задачу генерации текста в видео на две подзадачи: генерацию текста в изображение и генерацию изображения в видео, что позволяет более эффективно проводить обучение и дистилляцию.
Magic 1-For-1 использует алгоритм пошаговой дистилляции для обучения модели «генератора», которая может производить высококачественные видео всего за несколько шагов. Эта модель генератора обучается совместно с двумя другими моделями: одна из них аппроксимирует реальное распределение данных, а другая аппроксимирует распределение сгенерированных данных. Выравнивая эти распределения, модель генератора учится эффективно производить реалистичные видео.
Внимание: используя подход скользящего окна во время инференса, модель также может создавать более длинные видео, длиной до минуты, сохраняя при этом хорошее визуальное качество и движение.
Для тех, кто ничего не понял - cоздание одноминутных видеоклипов за одну минуту.
Из дополнительных ништяков: есть Multi-GPU Inference(!) и скрипты для квантизации модели (про требования к видео памяти ничего нет, стоп, есть инфо - 30GB for 540x960 resolution video generation, если резать разрешение, влезет в 16).
VAE и text encoder они берут отсюда:
huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False
А вот ссылки на сами веса модели я тупо не нашел, их забыли указать:
wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>
(блин, зачем я трачу время на изучение китайских переписок?!?! - "We will upload the model weights within 3 days. Keep tuned." - это три часа назад).
Stan Travis, готов? Ждем веса.
Пока выглядит как ответочка LTXV - скорость и оптимизация, за счет снижения количества шагов.
https://github.com/DA-Group-PKU
@cgevent