Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Интересно, палка чтобы свет выключать, или просто понравилась?
(Или зарплата)
Sam Altman in founder mode:
- raises $6b
- converts openai to for profit
- gets 7%
- kicks everyone out
- sucks dick
Me In flounder mode:
Когда на работе выдали зарплату в пу-пу-пу units
Читать полностью…Собсно, таинственная blueberry, возглавившая text2image лидерборд, оказалась ни чем иным, как flux 1.1 pro
Доступно по апи и на сайте.
Yet another closed ai 🥲
Announcement
@derlpearning
Наткнулся на версию DOOM для квантовых компьютеров — Quandoom
Самое забавное, что нужных по мощности квантовых компьютеров пока не существует, поэтому все работает в режиме симуляции обычных PC ☕️
Игра написана с использованием QASM — языка программирования для квантовых компьютеров (с учетом квантовых принципов), вот скучные тех детали от o1:
Когда игрок нажимает клавишу, система фиксирует это действие, устанавливая значение одного из входных кубитов. Специальный QASM-файл с более чем 83 миллионами строк (каждая строка представляет собой квантовую операцию, что необходимо для сложной симуляции квантового состояния) применяется ко всему состоянию системы, имитируя работу квантового компьютера.
Последние 64 000 кубитов измеряются и преобразуются в изображение экрана размером 320×200 пикселей, отображая визуальную часть игры. (Используется 72 376 кубитов, из которых 8 376 — для самой игры, а остальные 64 000 — вспомогательные кубиты, необходимые для корректной работы квантовой симуляции). Затем экран и входные кубиты сбрасываются, и процесс начинается заново, обеспечивая непрерывный игровой цикл.
Netflix затизерил пару шотов из будущего фильма по графическому роману Сталенхага — Electric State.
Во-первых, это красиво. Я думаю, тут много ценителей эстетики Сталенхага. И во-вторых, актерский состав просто пушка: ребята, отметившиеся в фильмах с налётом ретро 80-х и 90-х — Крис Пратт, Милли Бобби Браун и Вуди Харрельсон! Если всё получится, то будет шедевр типа Скотт Пилигрим или Зомбилэнд, но шанс, честно говоря, невелик, потому что тонкий вайб Сталенхага очень легко разрушить другой формой искусства.
Сюжет такой: в 90-х произошло восстание роботов. Осиротевшая девочка-подросток отправляется на поиски своего брата по Америке с роботом-контрабандистом и его напарником.
Ну всё. OpenAI теперь официально можно переименовать в Closed.
Они теперь официально for-profit.
Нравится какие серьезные лица стоят в пиджаках за Альтманом. Далеко не сайнтисты.
Компанию оценили в $150 млрд.
@ai_newz
Тем временем колаб расщедрился и снизил стоимость L4 аж на целых 38%. (Было 4 с чем-то кредита, стало 3, т.е. 30 центов, что вполне неплохо)
Конечно, кому их юзать, если ты побанил всех a1111 халявщиков 🥲
Коммент и реклама под постом как отдельный вид искусства
З.ы. тому челу, просравшему все кредиты на установку торча, написал продакт колаба и пообещал вернуть кредиты 😂
Tweet
@derplearning
Openai внезапно вспомнили, что они open, и выкатили whisper v3 large turbo & turbo
Commit
Git
@derplearning
AGI (average general indian) achieved internally
Читать полностью…🔥Molmo: Outperformimg Proprietary Multimodal Language Models
Приношу вам самый сок. Кажется, это самый лучший доклад за сегодня.
За два часа до релиза Llama 3.2, челы выложили семейство открытых моделей Molmo (и нет, это не совпадение):
- 1B,
- 7B и
- 72 B
По качеству на визуальных задачах Molmo выдает +- перформанс как Llama 3.2. где-то лучше, где-то хуже, и приближается к GPT-4o .
- Но, пре-трейн модель они делали всего на 700к размеченных парах картинка-текст (PixMo-Cap). В то время как Llama тренили на 6 млрд!
- Использовали в 9000 раз меньше данных, но гораздо больше высокого качества.
- люди не любят печатать, люди любят говорить. Поэтому разметчиков просили не печатать описание картинки, а описывать её ГОЛОСОМ 60-90 сек. Далее запись автоматом переводили в текст. Это гораздо эффективнее, проще и помогает быстро собрать очень длинные и детальные описания картинок.
- дополнительно разметчиков просили тыкать точками на объекты, про которые они говорят. Это помогло научить модель связывать пиксели текст, выдавая точки на картинке, когда она описывает какой-то объект.
Все это очень сильно подняло качество модели. Это прям крутые идеи.
По архитектуре ничего необычного – transformer с late fusion. То есть токены картинок пропускаются через обучаемый коннектор, а затем кормятся в LLM.
Трейн в два стейджа, ничего не замораживая:
(1) multimodal pre-training для генерации описаний на новом датасете - 700к картинок (2) supervised fine-tuning на instruction датасете, который они тоже собрали сами (там и точки на картинках, и документы прочие задачи) - тут в около 1.9 млн картинок (возможно пересекается с претрейн-датасетом)
Трейн и эвал код и датасет (PixMo) выложат в течение 2 месяцев - я им верю!
Блогпост про модели
Arxiv
@ai_newz
Заставка Улицы разбитых фонарей, но это Улица Сезам.
Сделал довольно проклятое, прогнав золотую классику через video-to-video #gen3. Специально не занимался черрипикнгом, потому что галлюцинации здесь прекрасны. Не о чем не жалею.
What is this flounder mode everyone keeps talking about
Читать полностью…Flux 1.1 + dalle3 style prompt enhancer - мое увожение, конечно.
Lain34/runs/kulqj5t2omc5o47kv9h8c8o5">Глиф
@derplearning
Карпатыч внезапно запилил подкаст с темами, которые обычно обсуждают на вписке, сидя на кухне в 5 утра
(В ролях: Chatgpt, Claude, Gemini, notebookLM)
Tweet
Spotify
@derplearning
К тому моменту дум уже запустят на всем нашем таймлайне
Читать полностью…Пика жжот. Буквально. Эффектами.
По ходу видегенераторов скоро будет (или уже есть) больше, чем генераторов картинок.
Ну и когда мы говорим "генератор" - мы имеем в виду код со своей foundation model, а не нашлепки над Stable Diffusion или Flux типа Leonardo или Mystic (ну ок, Леонардо недавно натренили свою модель, хорошо бы знать, сколько их юзеров пользуют ее, а сколько файнтюны SD).
Короче, всеми позабытая PIKA бахнула обновление до версии 1.5
И вместо того, чтобы делать упор на фотореализьм или монтажные фичи, они сделали акцент на .. производство VFX! Ну то есть на видосы с разными эффектами типа взрывов, дымов и "разорви-мои-мозги сейчас".
Демо из их твиттора выглядит слишком нарядным и явно обработанным на посте, чтобы его постить тут. А я вам привалю реальных генераций из новой Пики 1.5.
Ну и две новости
Хорошая. У них такие есть бесплатные кредиты на попробовать (негусто)
Плохая. Все намертво висит. Как писал Денис, халявные кредиты выжигают железо и, к сожалению, бюджет.
Но в целом новость отличная. Ибо конкуренция - это отлично!
P.S. Смотрите ролик про унитаз. Работа с физикой просто поражает. И меня у Пики не особо трясет качество, а именно работа с "пониманием" пространства. Ну и B-movie типа "смерть в унитазе" не знают что делать, плакать или радоваться. Вот оно дешевое производство, как оно есть.
P.P.S. Теперь точно за эфыксеров, не чокаясь.
@cgevent
Ютубер запилил кибердек на полноценной ноутбучной материнке от framework
github c 3д принтами и списком запчастей
youtube
Роболапки в каждый дом!
Котаны с huggingface & therobotstudio запили новый DIY-набор для роборук, за треть стоимости предыдущей версии.
Одна рука теперь обойдется в 125$, но нужен 3д принтер.
Не могу нарадоваться тренду на опенсорс роботикс и это вот все
Git с моделями и списком деталей
Git lerobot (soft для рук)
Lerobot discord
@derplearning
На (в) теплотрассе теперь тоже больше не спрятаться
Читать полностью…LVCD: Reference-based Lineart Video Colorization with Diffusion Models
А вот и код подвезли!
Под капотом SVD + sketch temporal controlnet + всякие хаки с аттеншеном.
Осталось только сделать depth controlnet, и "runwayml vid2vid gen2 есть у нас дома" готов!
Code
Paper
Project
@derplearning
Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance (NeurIPS 2024)
И такой еще подход зарелизили.
Берем две референсных картинки: одну для стиля, другую для структуры, шатаем ими аттеншен, и получаем контролируемые генерации без гайданса, тюна, или контролнетов.
Похоже на reference controlnet (который контролнетом назвали видимо потому, что было лень объяснять)
code
paper
reddit
project
@derplearning