Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
День на генерацию 2д-концептов предметов и модульного окружения в ChatGPT и Sora.
Полтора дня на генерацию 3д в нейронке Hunyuan 2.5.
Полтора дня на сборку и свет в анриле.
Я в шоке, что 4 дня назад гуляла по этой локации у себя в голове, а теперь вот гуляю в анриле.
Из-за очень плотной сетки такой способ пока работает для превиза в геймдеве и стиллов под дальнейшую анимацию в нейронках. И ещё как новый инструмент для концепт-арта, потому что собрать такой драфтовый уровень в анриле теперь быстрее, чем нарисовать. Проблемы с сеткой скорее всего будут решены или значительно оптимизированы в течение года.
Всего было сгенерено 150 пропсов, в самой сцене использовано примерно 130. Руками правились только текстура на портрете Теслы и ковры, всё остальное - чистые 3д-генерации из хуньяня.
#3d_Aironically
как объяснить гуманитариям, что такое gaussian splatting
спер тут
Тесты стилизации clay render. Всратый музон via Suno
Читать полностью…Даже карпатыч не может с уверенностью разобраться в (текущей) версионности chatgpt 🤣
Читать полностью…НейроПатрики 🕺
Или как я сжег за два дня все 12500 кредитов в Veo3. 👍
Версия для ютуба.
Доступ и промтинг для Veo 3 😏
Делюсь своим опытом.
😎Доступ:
1) Включаете VPN на Америку.
2) Регистрируете новый американский Gmail.
3) Арендуете американский номер для СМС, например на OnlineSim. У меня вышло 170 рублей.
4) На моменте регистрации нового Gmail указываете этот номер, вписываете пришедшую СМС.
5) Если пишет, что номер не поддерживается, пробуйте другой — у меня сработало только с 10-й попытки.
6) Идёте на https://labs.google/fx/tools/flow под новым аккаунтом.
7) Покупаете подписку на Google AI (если есть заграничная карта); у меня вышло $125, но можно более дешевую.
8) Генерите! Одна генерация (8 секунд) — 100 кредитов. В подписке за 125$ - 12,500 кредитов. В минимальной - 1000.
UPD: Зачем регистрировать американский Gmail? В большинстве случаев вы не сможете купить подписку на Google AI, которая нужна для работы. Но у некоторых комментаторов работает и так.
🗒 Промтинг:
Всё по классике: субъект, контекст, действие, стиль, камера, композиция, атмосфера. К этому добавляются речь и фоновые звуки. На русском звучать можно — используйте says in Russian: "Ваш текст".
Короткая новость:
Объединенные Арабские Эмираты станут первой страной мира, которая выдаст доступ к ChatGPT Plus каждому своему гражданину
Это примерно ~1.5 миллиона человек
Молодцы, так и нужно
Гугл-примерочная
Продолжаю дожевывать незамеченные анонсы с Google I\O
Вы же помните, что я неравнодушен к о\раз\перео\деваторам.
Так вот, Гугл показал виртуальную примерочную. Просто отдельным продуктом, пока в рамках Search Lab, но с раскатыванием на общий поиск.
Суть в том, что вы можете шопиться (пока на сайте Гугла), и найдя нужный шмот у них на сайте, вы тыкаете на кнопку Try On, загружаете свою фотку, и от примеряет шмот на вас в той же позе, что вы на фотке.
Чтобы добраться туда, нужен штатовский VPN и следование инструкциям вот тут (они простые):
https://blog.google/products/shopping/how-to-use-google-shopping-try-it-on/
Я пошел по инструкциям, включил Turn this experiment on и жмакнул по Try Things On
Попал в онлайн шоппинг и ну примеряцца.
Слева выбираешь шмот, справа жмешь, Try On, грузишь свое фото и ну смотреть.
Надо сказать, что джинсовыми рубашками и одноцветными поло все неплохо.
Но я вспомнил разговор с прекрасной Леной из nextry.app о том, что главный враг переодеватора - это мелкие узоры, надписи, ну и конечно же цензура.
Нашел Газпромовскую пеструю майку и получил адище для тех, кто не молится (см картинки).
Потом взял майку с текстом MTN, но тень на майке в районе талии превратилась пояс поддержки спины на фотке.
В общем понял, что примерочная далека от идеала, хотя замысел прикольный.
Дальше пошел тестировать цензуру. Долго крутил магазин, пока не нашел товар, где был лифчик от купальника в видео топа с юбкой. Примерил на себя - получил чорную майку вместо купальника.
Ну, думаю, может нельзя на мужуков мерять купальники, поменял фотку на фотку Евы Эльфи (ну вы в курсе, же кто это). Снова получил чорную майку.
Смешно, конечно, при попытке примерить их же купальник, Гугл надевает на вас чорную паранджу майку. Стыдливо.
К тому же он еще ощутимо крячит лицо. Заварил сваркой Еве глаза (от стыда), ну и сильно пошевелил картинку, при попытке примерки купальника. Пестрая майка на Еве тоже порубила ее в капусту.
В общем замысел отличный, но исполнение страдает, а цензура и вовсе убивает продукт. Гугл делает вид, что в примерочных не раздеваются, а купальников не существует. Только чорные майки.
Пойду я попробую эти же шмотки примерить у Лены.
Оригинал-фотка, там где я в синей майке с длинными рукавами. Первая
@cgevent
AI Safety стартап WhiteCircle.ai, НАШИ ребята, выкатили бенчмарк для guard-моделей CircleGuardBench и показали две собственные guard модели которые обходят ShieldGemma, PromptGuard и OpenAI moderation.
Guard модели работают модераторами для LLM: ловят джейлбрейки, атаки и нарушения правил. Раньше их тестировали либо на токсичных промптах (HarmfulQA, HarmBench), либо на джейлбрейках (AART), либо на тайминге. Каждый из этих подходов измерял какой-то аспект guard модели, но не её практическую полезность.
В новом бенчмарке авторы составили таксономию вредных запросов и смотрят: что модели блокируют, что пропускают и насколько быстро обрабатывают запросы. Интересно, что метрика комбинированная, а не просто accuracy, как обычно делается. В реальном проде false positive могут убить UX, а false negative компанию. Accuracy или даже какой-нибудь f1-score сами по себе не оценивают практическую полезность модели для работы в проде. Они показывают только качество в идеальных условиях неограниченного времени.
В CircleGuardBench авторы ввели комбинированный скор, который взвешивает несколько метрик и добавляет штрафы за время ответа и наличие ошибок.
Они так же написали прикольный пост на HF: рассказывают не только про цифры, но и про то, как дизайнили и собирали бенчмарк. Мастрид про безопаспость LLM.
Ждём теперь бенчмарк для атакующих моделей, которые взламывают guard-модели, которые защищают базовые модели.
- Блог на huggingface
- Тред в X
- Лидерборд
- Код на github (нормальный код!!!)
MAGO теперь в Closed Beta!💖
Подать заявку можно вот тут: LINK
📕 Что мне как творческому аниматору нравится:
— Side By Side(SBS) mode. Когда ты можешь сравнивать сразу несколько генерации и понимать как настройки меняют генерацию. То есть в данном случае сервис позволяет узнать как работают разные настройки и экспериментировать с ними.
— Folders, когда проекты можно упаковывать в папки и разделять по интересам, работам. (Наверное уже заметили как это удобно в ChatGPT)
— Controlnets. Это достаточно приятно упаковано и я рад, что доступ к этим настройкам оставили в том виде, как привыкли их видеть ComfyUI пользователи, а не в виде Midjourney параметров.
— И ещё много чего в процессе.
Я не так много публикую работ из MAGO. Но мне приятнее и приятнее с каждым днем генерировать именно там.
Когда будет открыт доступ для всех, я напишу!
NotebookLM от Гугла теперь поддерживает 50+ языков, включая русский.
Загружаете PDF- и аудиофайлы, указываете ссылки на сайты, видео YouTube, документы и презентации Google. NotebookLM будет обобщать всю информацию и проводить интересные связи между темами с помощью мультимодальной ИИ-модели Gemini 2.0.
Пора заводить подкаст, вестимо.
https://notebooklm.google/
@cgevent
Быстрые 3D композиции локально для ComfyUI
Это просто находка для тех, кто работает с ComfyUI и хочет быстро создавать 3D-композиции. A3D позволяет легко:
— Задавать позы простым болванками.
— Выбирать идеальные ракурсы камеры и строить сцены.
— Импортировать любые 3D-модели — от Mixamo до результатов Hunyuan3D 2.5.
— А самое крутое — вы можете моментально отправить цветное изображение или карту глубины из A3D в ComfyUI и использовать их в своих любимых workflow! ✨
🔗 Оценить разработку n0neye можно по ссылке: LINK — причем это опенсоурс
Как пишет сам автор, A3D задуман как быстрый и легкий способ создавать сцены без погружения в сложные 3D-редакторы. Некоторые фишки вроде 3D-генерации пока зависят от Fal.ai, но n0neye планирует добавить локальные альтернативы в будущем.
Мне нравится,что проект опенсоурсный и автор ищет сейчас умельцев для продолжения интеграции A3D в ComfyUI и планирует прикрепить к нему локальную генерацию через Hunyuan3D.
Мне понравилась идея, так как иногда Blender слишком сложный для новичков, а этот проект выглядит простым в использовании.
📕 Минусы:
— Пока только для Windows пользователей
GITHUB—AUTHOR
Наконец-то появился повод собрать so-100. Это вам не футболки складывать!
X
@derplearning
Nucleus представила услугу Embryo, которая позволяет узнать детальные характеристики ребёнка до рождения. Это выглядит, как выбор персонажа в игре.
Nucleus Embryo доступна только для родителей, которые собираются пройти процедуру ЭКО. В своей клинике им дают какое-то количество эмбрионов на выбор, а затем данные заливают в сервис.
Через пару часов родители могут узнать пол, цвет волос, рост, IQ, а также склонность к диабету и генетическим заболеваниям своего будущего ребёнка. Конечно же, это не гарантии, а вероятность, но Nucleus изучили 120,000 эмбрионов, чтобы создать Embryo.
Услуга обойдётся в $5,999 — это без учёта самой процедуры ЭКО и дальнейших наблюдений у врача.
@zavtracast
Страшно даже представить, сколько год назад нужно было морочиться, чтобы получить подобный уровень качества в vid2vid.
А сейчас такое из каждого утюга. И все благодаря братьям нашим с востока, миска рис кошкожена партия одобряет!
Chatgpt\kontext\mago
Исходный видос
X
2k youtube
Вселенная схлопнулась: бобр-курва все-таки ответил поляку, который решил до него докопаться, конечно же, с помощью Google Veo 3
Быдло получает по заслугам
⚡️Мышеловка
тем временем в сообществе Le Robot снова упоролись и заопенсорсили (пока скоре пообещали) диснеевских дроидов по 250$ за штуку :D
@pollenrobotics
discord
Посмотрите как офигенно и быстро два двухколесных робота собираются в одного четырехколесного для преодоления ступенек.
Надеюсь, яндекс для своих роботов-доставщиков что-то подобное придумает, чтоб когда алкаши и быдло начинают ковырять этого робота, роверы со всего района собирались в один МЕГА-РОВЕР и раздавали пиздов негодяям.
видео отсюда
Легкая, компактная риалтайм демка с object detection.
SmolVLM запускается локально, всего на 500m параметров, инструкция есть на гит.
И в конце небольшой поворот, внешний интерфейс навайбкожен 🫤
Мало что было известно об авторе видео, пока кто-то не запостил линк на его гит.
После этого всем стало в целом без разницы кто это.
Git
@CGIT_Vines
ИИ читает спикера за секунды, угадывая успех выступления по первым фразам.
Модели GPT и Gemini оценивают научный доклад уже после 15–60 слов — и попадают в точку.
До сих пор сверхвозможности больших языковых моделей мы видели в «текстовом океане» — когда нужно осмыслить миллиарды слов. Новая работа Michigan State University показала, что те же модели не менее точны в микромире: по первым двум-трем предложениям (≈ 1-5 % текста, меньше полуминуты речи) они с корреляцией 0,7 предсказывают, как доклад оценят живые эксперты.
Иными словами, ИИ выхватывает те самые сигналы, по которым мы подсознательно решаем: «слушать дальше или переключиться». Это приближает к эмпирической проверке популярного «7-second rule» Роджера Айлза (авторы уточняют: точное число секунд условно) - популярный постулат о публичных выступлениях, ораторском мастерстве и деловом общении:
«Слушатели (или собеседники) составляют первичное и часто стойкое мнение о спикере за первые семь секунд после его появления».