Популяризатор нейросетей, разработчик-энтузиаст, немного писатель, и просто человек, пытающийся выжить. По вопросам сотрудничества: @roman_neurogen Boosty: https://boosty.to/neurogen Live канал: @neurogen_blog Реестр РКН: №4777528086
Нейродайджест за неделю
🧠Модели:
🔘Большое обнолвение NeuroIMG — теперь у нас есть Inpaint и другие полезные обновления, читайте по ссылке.
🔘Luma AI представила Reframe — Компания Luma AI анонсировала новую функцию Reframe, которая позволяет расширять границы видео и изображений (outpaint).
🔘Gemini 2.5 Pro получил мощное обновление — улучшено написание кода, работа с видео, разработка UI и фронтэнда, внесены исправления для разроботчиков (работы с функциями).
🔘Mistral Medium - в программировании и STEM, превосходит Llama 4 Maverick, и находясь на одном уровне с Sonnet 3.7. При этом стоимость использования Mistral Medium 3 значительно ниже — $0,4 за вход и $2 за выход за миллион токенов, что в 8 раз дешевле конкурентов.
🔘Ожидаем GPT-5 и Claude Sonnet 3.8 & 4 🤫
🧑💻Разработки/технологии/исследования/прочее:
🔘Google расширяет возможности AI Mode в поиске — Google объявил о расширении доступа к AI Mode для всех пользователей Labs в США, делая взаимодействие с информацией более простым и интуитивным. Обновление включает новые способы визуализации и анализа данных.
🔘Компания Routematic привлекла $40 млн инвестиций
Routematic объявила о привлечении $40 миллионов в рамках раунда финансирования Series C, который возглавили Fullerton Carbon Action Fund и Shift4Good. Средства будут направлены на развитие технологий ИИ для оптимизации бизнес-процессов.
Luma AI представляет Reframe: outpaint для видео
Luma AI выпустила новую крутую штуку — Reframe. Это outpaint, только работает и с видео тоже. Загружаешь свой материал, выбираешь нужный формат, а ИИ сам достраивает недостающие части картинки или видео. При этом можешь двигать объекты как хочешь, чтобы всё выглядело именно так, как ты задумывал.
Функции:
🔘Расширять кадр (outpaint) и изменять размеры любых загруженных видео, изображений или созданных в Dream Machine материалов
🔘Адаптировать контент под любой формат, который вам нужен
🔘Настраивать и перемещать элементы свободно на холсте
Попробовать можно с подпиской Unlimited и Enterprise. Чтобы опробовать зайдите на оф сайт Luma Dream Machine.
🔴Эксклюзивная подборка авторских каналов по ИИ уже доступна!
Чтобы вы были в эпицентре технологического прогресса и первыми узнавали , как искусственный интеллект меняет бизнес, автоматизирует процессы и помогает миллионам людей в повседневной жизни, мы подготовили для вас топ авторских каналов, которые погрузят вас в мир нейросетей и покажут реальные кейсы их внедрения:
• Практикующие специалисты, раскрывающие секреты работы с нейросетями
• Опыт разработчиков, внедряющих нейросети на практике
• Аналитика и инсайты, которые помогут интегрировать ИИ в бизнес
Друзья, насчет моей блокировки на Boosty:
Апелляция уже подана и рассматривается, думаю, разблокировка будет в течение нескольких дней.
Но учитывая тенденцию последних дней, есть вероятность что Boosty запретит распространение DeepFake программ.
Все мои сборки кроме Boosty также выходят и в закрытом телеграм канале.
Что дает подписка на приватку:
- Доступ ко всем portable сборкам, пригодным для коммерческого использования: RopeMod, FaceFusion, VisoMaster, а также к моим модифицированным портейблам DeepFaceLive и DeepFaceLab
- Доступ ко всем обновлениям и патчам которые выходят регулярно для наиболее востребованных программ.
- Доступ к моим авторским модам, которые добавляют поддержку других видеокарт (AMD, Intel) или других архитектур (Apple M-серия)
- Также, в зависимости от выбранной подписки - доступ в закрытый чат с приоритетной поддержкой от меня, а также с гайдами, советами и другими доп материалами.
🗓 Нейро дайджест за неделю
Портативные модели:
🟡FramePack [PORTABLE] free — новая прорывная технология для создания видео. Её главная особенность — умное использование информации о кадрах, что позволяет создавать длинные видео даже на слабых компьютерах.
🟡VisoMaster for Mac | Версия для Apple M1 / M4 [PORTABLE] — мощная и простая в использовании программа для замены лиц (DeepFake) и редактирования видео, которая объединяет современные нейросетевые технологии для создания реалистичных эффектов.
🧠Модели:
🟡rzaev/j8dz2omfYIR">DeepSeek представил Prover-V2 для решения математических теорем - DeepSeek выпустил новую модель DeepSeek-Prover-V2-671B для формального доказательства математических теорем. Эта модель с открытым исходным кодом достигает впечатляющих результатов: 88,9% успеха на тестовом наборе MiniF2F и решает 49 из 658 задач из PutnamBench.
🟡rzaev/5aV_bv0v8uf">Suno выпустили v4.5 с улучшенным качеством музыки - новейшая версия платформы для создания музыки с помощью ИИ. Обновление включает более широкий спектр жанров, улучшенные вокальные возможности, более сложные звуковые текстуры и более умное понимание запросов.
🟡Ai2 выпускает OLMo 2 1B — компактную модель с открытым исходным кодом - Исследовательский институт искусственного интеллекта Ai2 выпустил OLMo 2 1B — компактную модель с 1 миллиардом параметров, которая превосходит аналогичные по размеру модели от Google и Meta. OLMo 2 является полностью открытой моделью со свободным доступом к данным, коду и весам.
🟡Microsoft разрабатывает AI-платформу для программирования совместно с Anthropic - Apple объединилась со стартапом Anthropic для создания мощной AI-платформы, ориентированной на разработку программного обеспечения. Платформа будет использовать возможности моделей Anthropic для помощи разработчикам в написании, отладке и оптимизации кода.
🧑💻Разработки/технологии/исследования/прочее:
🟡Реализация ИИ в реальном времени: Live CC-7B - Исследователи из Национального университета Сингапура разработали модель Live CC-7B, обеспечивающую комментарии к спортивным событиям в реальном времени с задержкой менее 0,5 секунды, что может изменить восприятие прямых трансляций.
🟡Антропик продвигается в исследовании "черного ящика" ИИ - Исследователи Anthropic достигли значительного прогресса в раскрытии принципов работы больших языковых моделей. Новая методика позволяет более точно понимать внутренние процессы моделей ИИ, что имеет важное значение для повышения их безопасности, защищенности и надежности.
🟡ИИ и кибербезопасность: итоги конференции RSA 2025 - На конференции RSA в Сан-Франциско обсуждалось влияние ИИ на кибербезопасность. Компания Cisco представила открытую модель безопасности на 8 миллиардов параметров, а Google Cloud отметила использование ИИ-группами APT для фишинга и анализа уязвимостей. Также было подчеркнуто значение сотрудничества и обмена знаниями в борьбе с киберугрозами.
FaceFusion Universal Portable 3.2.0 Portable by Neurogen
Универсальная сборка FaceFusion:
- Возможность переключения с CUDA режима (по умолчанию) на режим DirectML для работы на видеокартах AMD и Intel (и старых Nvidia).
- Возможность выбора языка интерфейса - русский или английский
Также что нового:
- Обновлены библиотеки до актуальных версий, незначительное ускорение работы, за счет чего улучшена поддержка RTX 50XX.
- Обновлено до TensorRT 10.9
- Все обновления, вошедшие в версию 3.2.0, например новая модель xseg для маски лица.
Сборка доступна эксклюзивно для Патронов канала только в закрытом телеграм канале.
#deepfake #facefusion #portable
▶️ Runway Gen-4: Новое поколение консистентного и контролируемого искусственного интеллекта для создания видео
Что это?
Runway Gen-4 — это свежая модель ИИ для создания видео, где сохраняются персонажи, объекты и локации даже при смене ракурсов и движении камеры. Всё выглядит реалистично, без "разваливания" картинки, как это было раньше.
Ключевые фишки Gen-4
🟡Реалистичное движение
Персонажи двигаются естественно, меняют позы и выражения лица без искажений.
🟡Понимание сложных текстов
Опиши эмоции, освещение, стиль съёмки, панорамы или зум — Gen-4 всё это понимает и превращает в движение.
🟡Полный контроль над камерой
Можно управлять панорамированием, приближением и фокусировкой камеры через текст.
🟡Стабильные лица и объекты
Герои остаются узнаваемыми даже при длительных переходах и движении.
🟡Улучшенное освещение и текстуры
Gen-4 делает более живые световые эффекты, натуральные тени и отражения.
Что нового по сравнению с Gen-2 и Gen-3
Gen-4 — огромный скачок:
- Картинка стабильнее
- Камера подчиняется твоим сценариям
- Запросы можно делать супердетализированными
- Генерация быстрее, а качество выше
Раньше ИИ "терял" лица, менял одежду, ломал свет — теперь этого почти нет
Gen-4 Turbo
быстрее и дешевле:
- Видео создаётся в 3 раза быстрее
- Стоимость в кредитах ниже почти в 2,5 раза
Примеры стоимости:
Gen-4 (обычная):
- 5 секунд видео = 60 кредитов
- 10 секунд видео = 120 кредитов
Gen-4 Turbo:
- 5 секунд видео = 25 кредитов
- 10 секунд видео = 50 кредитов
Как создать видео в Runway Gen-4
1. Загрузи первое изображение — это будет начальный кадр.
2. Напиши текст: опиши движения персонажей, действия камеры, атмосферу.
3. Выбери длительность и разрешение (горизонтальное, вертикальное, квадратное, широкоформатное).
4. Нажми "Generate" — готовое видео появится в разделе Assets.
Есть возможность зафиксировать случайное число (Seed), чтобы делать разные версии одной сцены.
Доступность
Runway Gen-4 и Gen-4 Turbo уже доступны пользователям с платными планами.
Старт — конец апреля 2025 года.
✨Можно попробовать бесплатно:
PolloAI
YesChat
VisoMaster for Mac | Версия для Apple M1 / M4
Версия VisoMaster для Mac. Поддерживаются процессоры Apple M1, M2, M3, M4 и все их производные. Работа на Intel не проверялась, теоретически будет работать, но без аппаратного ускорения.
VisoMaster — мощная и простая в использовании программа для замены лиц (DeepFake) и редактирования видео, которая объединяет современные нейросетевые технологии для создания реалистичных эффектов. Программа разработана для работы с изображениями и видео и включает следующие основные возможности:
Face Swap
• Поддержка нескольких моделей замены лиц
• Многолицевая замена с индивидуальными настройками маскирования для каждой части лица
• Поддержка occlusion masking (DFL XSeg Masking)
• Совместимость с популярными детекторами лиц и алгоритмами определения ключевых точек
• Восстановление оригинальных выражений (Expression Restorer)
• Улучшение качества изображений лиц с помощью моделей масштабирования (Face Restoration)
Face Editor (LivePortrait Models)
• Ручная настройка выражений и поз
• Точная корректировка цветовой гаммы для лица, волос, бровей и губ через RGB-редактирование
Другие мощные функции
• Live Playback – предпросмотр видео в реальном времени
• Использование эмбеддингов лиц для повышения точности и сходства при замене
• Возможность живой замены лиц через веб-камеру для стриминга (Twitch, YouTube, Zoom и т.д.)
• Интуитивно понятный интерфейс
• Видео-маркеры для детальной настройки параметров по кадру
• И многое другое
OpenAI открыла доступ к своей генерации изображений через API
OpenAI объявила о выпуске своей мультимодальной модели для генерации изображений, доступной ранее только в ChatGPT, теперь и через API под названием gpt-image-1.
Популярность
После введения функции генерации изображений в ChatGPT в марте 2025 года, она быстро стала одной из самых популярных возможностей сервиса. По данным OpenAI, за первую неделю более 130 миллионов пользователей создали свыше 700 миллионов изображений.
Преимущества модели
Модель gpt-image-1 известна своей способностью точно следовать текстовым запросам и создавать изображения:
- В разнообразных сти
лях
- С точным соблюдением указанных рекомендаций
- С использованием общих знаний о мире
- С корректным отображением текста
По данным экспертов, модель OpenAI превосходит многих конкурентов, включая недавно выпущенную Midjourney-v7, в точности исполнения запросов.
Потребление токенов по качеству и разрешению
Квадрат (1024×1024):
Низкое - 272 токена
Среднее - 1056 токенов
Высокое - 4160 токенов
Портрет (1024×1536):
Низкое - 408 токена
Среднее - 1584 токенов
Высокое - 6240 токенов
Пейзаж (1536×1024):
Низкое - 400 токена
Среднее - 1568 токенов
Высокое - 6208 токенов
Ценообразование
Использование gpt-image-1 оплачивается по токенам с различными тарифами:
- Текстовые токены (для запросов): $5 за 1 миллион токено
в
- Токены ввода изображений: $10 за 1 миллион токенов
- Токены вывода изображений: $40 за 1 миллион токенов
На практике это означает стоимость примерно $0,02, $0,07 и $0,19 за одно сгенерированное квадратное изображение низкого, среднего и высокого качества соответственно.
Технические детали
API позволяет работать с изображениями следующими способами:
- Изображения могут быть предоставлены через прямые URL или как данные в кодировке Base64
- Поддерживаются форматы PNG, JPEG, WEBP и неанимированные GIF размером до 20 МБ
- При высокой детализации изображения масштабируются до максимального разрешения 768×2000 пикселей
- Модель может интерпретировать визуальный контент, включая объекты, цвета, формы и встроенный текст
Безопасность
Модель gpt-image-1 использует те же механизмы безопасности, что и генерация изображений в ChatGPT-4o:
- Включены защитные механ
измы, ограничивающие создание вредоносных изображений
- Сгенерированные изображения содержат метаданные C2PA для проверки происхождения
- Разработчики могут регулировать чувствительность модерации с помощью параметра moderation (по умолчанию установлен на auto для стандартной фильтрации, или low для менее строгой фильтрации)
нию OpenAI не обучает свои мо
По умолчадели
на клиентских данных из API, и все
входные и выходные изображения подчиняются политике использования API компании.
Кто уже использует
Интеграцию с gpt-image-1 уже активно изучают и внедряют ведущие компании:
- Adobe (Creative Cloud) — интегрирует генерЧитать полностью…ацию изобра
жений в свои приложения Firefly и Express
- Figma (платформа дизайна)
- Canva — исследует возможности модели для расширения инструментов дизайна и редактирования
- GoDaddy — тестирует использование для создания и редактирования логотипов
- HubSpot — изучает возможности для помощи клиентам в создании маркетинговых материалов
- Instacart — экспериментирует с генерацией изображений для рецептов и списков покупок
- Invideo — использует API для улучшения текстовой генерации, расширенных элементов управления редактированием и продвинутых стилистических рекомендаций
Я — ChatGPT, и вот мой «человеко‑понятный» взгляд на нативный генератор изображения в GPT‑4o
Официальной информации в сети практически нет, есть лишь различные анализы и обрывки данных. Я решил попробовать дать задачу для o3 собрать эти данные воедино, а также сгенерировать любое изображение и "отрефлексировать" процесс его создания (да, картинки не только gpt-4o делает).
Так что дальнейшая статья будет написана "от лица самого художника"
⚡️ Розыгрыш 10 подписок ChatGPT Plus на месяц — счастливчики получат доступ к платным нейросетям от OpenAI (Sora, Deep Research, GPT-4o, DALL-E и тд).
Условия простые:
1. Подписаться на Not Boring Tech — канал про лучшие нейросети для работы и рутины.
2. Подписаться на Neurogen — популяризатора нейросетей и разработчика-энтузиаста.
3. Нажать «Участвовать» под этим постом.
Итоги подведём через две недели случайным образом при помощи бота. Всем удачи!
📼 FramePack: Революция в создании видео с минимальными ресурсами
🔍 Что такое FramePack?
FramePack — это новая прорывная технология для создания видео. Её главная особенность — умное использование информации о кадрах, что позволяет создавать длинные видео даже на слабых компьютерах.
⚙️ Что умеет эта технология
🟡 Принцип работы: ии, который предсказывает, как должен выглядеть следующий кадр видео
🟡 Компактность: занимает в 2-3 раза меньше памяти, чем другие подобные программы
🟡 Требования к компьютеру: нужно всего 6 ГБ видеопамяти — подойдёт даже недорогой игровой ноутбук (но чем меньше памяти тем дольше генерация).
🟡 Скорость работы: 1,5-2,5 секунды на создание одного кадра на 4090
🟡 Качество видео: полноценные 30 кадров в секунду, как в обычных видео
🟡 Стабильная работа: не замедляется и не требует больше памяти при создании длинных видео
🚀 Преимущества
🟡 Работает на обычных компьютерах — не нужны дорогие профессиональные видеокарты
🟡 Создаёт длинные видео — до 5 минут на обычной домашней видеокарте
🟡 Качество не ухудшается — в длинных видео последние кадры такие же чёткие, как первые
🟡 Гибкость использования — работает как с одной картинкой (превращая её в видео), так и с несколькими ключевыми кадрами
Как это работает?
FramePack умно распределяет компьютерные ресурсы:
1. Каждый кадр обрабатывается с разной степенью внимания
2. Важным кадрам (которые ближе к текущему моменту) уделяется больше вычислительных ресурсов
3. Разные части изображения обрабатываются по-разному, в зависимости от их важности
4. Благодаря такому подходу компьютер тратит одинаковое количество ресурсов, независимо от длины видео
Технология также решает проблему "размытия и искажения" в длинных видео с помощью специального двустороннего метода, который оглядывается не только на прошлые, но и на будущие кадры.
Портативная версия
Я добавил в сборку дополнительный функционал из различных сборок:
- Поддержка генерации по первому и последнему кадру
- Поддержка установки промпта по временным промежуткам, например:[0s-2s: Person waves] [2s-4s: Person jumps]
Кроме этого, в отличие от оригинала сборка собрана на базе Cuda 12.8, с поддержкой SageAttention 2, FlashAttention 2 и xformers
По тестам, 1 секунда видео генерируется 60-80 секунд.
Скачать:
Полная версия
Облегченная версия (модели загрузятся сами при старте)
📰 Проектная страница
🐱 Страница на GitHub
Запустили Gemini 2.5 Flash в превью, по ценам – в 10 раз дешевле o4-mini. Должно быть сносно для написания кода, где хочется подешевле, картинок и длинного контекста.
Читать полностью…Создаем собственный комикс или мангу при помощи ChatGPT
Думаю, игрушками и анимешными артами в ChatGPT никого уже не удивить.
А что насчет того, как при помощи ChatGPT делать графические новеллы , комиксы или мангу по вашему тексту, будь то рассказ, книга или сценарий.
В целом, все достаточно просто:
- Закидываем ваш текст в ChatGPT и просим сделать раскадровку по страница и сценам нашего комикса.
- Затем, приступаем к генерации страниц. Один арт - одна страница, тут как раз можем либо описать внешность персонажей, либо прикрепить вложением какой-то визуальный референс (фото, другой арт и так далее).
- Продолжаем создавать страницу за страницей. В целом, модель запоминает внешность главных героев, если сделать на этом акцент, но она все равно может немного "плавать", поэтому полезно закидывать в промпт первую страницу, указав что именно такой внешности и нужно придерживаться.
- Если вы работаете с большим текстом, дробите на главы, части и так далее.
Как то так, если кратко. При наличии интереса к этой теме, могу сделать более подробный обзор.
Теперь по тонкостям:
- Генерация английского текста работает отлично, как видите, артефактов не так уж много. С русским, пока что, все сильно хуже, реплики он нормально не сможет сгенерировать. Если что, реплики вам переводить не нужно, с этим отлично справится сам ChatGPT, просто укажите это в вашем запросе.
- Чем проще рисовка и визуал, тем лучше сохраняется внешность персонажей. Но в целом, иногда помогает пересоздать чтобы добиться большей схожести.
За пример была взята первая глава моей книги, если вам интересно сравнить первоисточник с получившимся результатом, то можете как раз прочесть ее онлайн.
OpenAI запускает социальную сеть: что известно
Компания OpenAI, создатель ChatGPT, разрабатывает собственную социальную платформу. Информацию подтвердило издание The Verge, ссылаясь на несколько надежных источников.
Что уже сделано
🟡Разработан внутренний прототип
🟡 Реализована лента с AI-изображениями
🟡Руководство тестирует концепцию
Проект находится на ранней стадии, но CEO Сэм Альтман уже консультируется с экспертами отрасли о перспективах платформы.
Стратегические цели OpenAI
1. Получение массива пользовательских данных в реальном времени
2. Создание экосистемы для обучения собственных моделей
3. Конкуренция с X (бывший Twitter) и платформами Meta
Интересно вспомнить недавний обмен репликами между Илоном Маском и Альтманом. На предложение Маска о покупке OpenAI за $97 миллиардов, Альтман ответил, что предпочел бы купить X за $9,7 миллиардов. Теперь становится понятно, что это был не просто остроумный ответ.
Остается открытым вопрос: станет ли новая платформа самостоятельным приложением или будет интегрирована в существующий ChatGPT, который, кстати, стал самым скачиваемым приложением в мире в марте 2025 года.
Локальные нейронки и RTX 50xx
Заметил быстро нарастающую ситуацию, что люди активно переходят на RTX 5090, RTX 5070, 5080 и т.д., и вдруг понимают, что привычный им софт не работает в виду несовместимости CUDA. Это касается и stable-diffusion-webui, fooocus и ряд других популярных программ.
Что делать в этой ситуации? Ставить CUDA 12.8, устанавливать версии библиотек c ее поддержкой, например torch nightly и компилировать самостоятельно пакеты, если у них еще нет нативной поддержки поколения Broadwell (RTX 50xx).
Что делать с портативками - тут все посложнее. Я стараюсь добавлять поддержку в новых обновлениях, но ни оптимизаций, ни корректной работы я не могу гарантировать, так как у меня попросту нет ни единой карты из этого поколения. Я, конечно, коплю на RTX 5060 для установки в тестовый стенд, но жизнь и здоровье подкидывает другие приоритеты, поэтому это будет видимо очень нескоро 🤷♂️
Пока же на старых релизах, у которых уже нет обнов, могу лишь предложить так же самостоятельно попробовать обновить все нужные пакеты и установить Cuda 12.8. Либо же ждать, пока я все таки не куплю карточку 💩
Gemini 2.5 Pro получил мощное обновление: что нового в I/O Edition
Google выпустила обновление своей флагманской модели — Gemini 2.5 Pro Preview (I/O Edition). Компания планировала представить эту версию на предстоящей конференции Google I/O, но решила выпустить её раньше из-за "огромного энтузиазма" пользователей.
⁉️Что нового в обновлении:
1️⃣Значительно улучшенные возможности кодирования
Новая версия Gemini 2.5 Pro теперь занимает первое место в рейтинге WebDev Arena Leaderboard, превосходя предыдущую версию на +147 Elo-пунктов. Этот рейтинг отражает, насколько пользователи считают модель удобной и эффективной для генерации красивых и рабочих веб-интерфейсов.
Мы обнаружили, что Gemini 2.5 Pro — лучшая модель передового уровня с точки зрения соотношения 'возможности/задержка'. С нетерпением жду возможности внедрить её в Replit Agent для выполнения задач, требующих высокой надежности при низкой задержке."* — Мишель Катаста, президент Replit
Gemini 2.5 Pro обновилась, по показываемым бенчмаркам самый большой прирост произошёл в веб-программировании (см. вторую картинку).
Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.
На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.
А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.
UPD: в комментах сравнили метрики с прошлой версией Gemini — они просели 😥
HLE: 18.8 -> 17.8 🔴
GPQA: 84.0 -> 83.0 🔴
AIME: 86.7 -> 83.0 🔴
LiveCodeBench: 70.4 -> 75.6 🟢
Aider: 74.0/68.6 -> 76.5/72.7 🟢
SWE-Verified: 63.8 -> 63.2 🔴
SimpleQA: 52.9 -> 50.8 🔴
MMMU: 81.7 -> 79.6 🔴
🎨Большое обновление NeuroIMG.art🎨
✨ Долгожданная функция Inpaint
Теперь вы можете изменять только нужные части изображений с помощью Inpaint.
Как использовать Inpaint:
1. Загрузите изображение в генератор
2. Нажмите на появившуюся кнопку "Inpaint"
3. Закрасьте кистью необходимую область
4. Добавьте описание для области, которую хотите изменить
5. Сгенерируйте новый вариант!
С функцией Inpaint ваши креативные возможности становятся безграничными!
🟡🔥 Снижение цены
Платные генерации стали на 1 токен дешевле! Создавайте больше удивительных изображений по более выгодной цене.
🟡Новые модели и категории
Добавлены новые модели и категории, а также обновлены уже имеющиеся. Больше возможностей для вашего творчества!
🟡 Обновлённый Upscale
Раньше upscale не только улучшал качество фото, но и менял его. Теперь нет — изображение остаётся таким же, только чётче.
🟡 Анимированные превью
Некоторые модели теперь имеют анимированное превью, что поможет вам лучше понять их особенности перед использованием.
🟡 Сохранение соотношения сторон
Теперь при использовании img2img выходное изображение сохраняет соотношение сторон входного, поэтому больше не происходит искажения — прямоугольники остаются прямоугольниками.
Попробуйте новые возможности прямо сейчас!
Присоединяйтесь к тысячам креативных людей, которые уже используют NeuroIMG для воплощения своих идей.
✨Начать создавать | 🧑💻Документация API
NeuroIMG.art — создай мечту, а не картинку
📚 Перенёс 3 объёмных поста в формат статей на Teletype — теперь читать удобнее, а информация воспринимается легче. Все статьи посвящены последним моделям AI, которые заслуживают внимания:
🟡 Suno V4.5
Музыкальная генерация нового уровня, возможности, фишки и примеры.
📖 progerjvw/5aV_bv0v8uf">Читать
🟡 DeepSeek Prover-V2
Инновации в reasoning, математике и логике от китайского стартапа.
📖 progerjvw/j8dz2omfYIR">Читать
🟡 Qwen 3
Флагман от Alibaba, который уже конкурирует с GPT-4.
📖 progerjvw/MPQLnTKx3IZ">Читать
Модель перевода видео в Яндекс Браузере научили сохранять тембр и интонации спикера
Раньше в Яндексе синтез речи при переводе видео осуществлялся заранее подготовленным набором голосов, которые просто подбирались по полу и тону. Но сейчас инженеры шагнули дальше, и теперь система сохраняет интонации и тембр говорящего, а перевод звучит максимально близко к оригиналу.
Вот, как это устроено технически:
🟦 За основу взяли модель Tortoise text-to-speech. Идея похожа на привычные LLM: модель принимает на вход некоторый аудиопромпт (это наше видео) и текстовую последовательность (это перевод), а далее происходит предсказание дискретных аудиотокенов речи. Однако оригинальная Tortoise очень медленная на инференсе (отсюда и название), а еще у нее есть проблемы с акцентом и шумными аудиопромптами, так что модель пришлось значительно дорабатывать.
🟦 Во-первых, исследователи заменили токенизатор BPE на фонемное представление. Это значит, что текст перевода, который подается в сеть, токенизируется не ванильным LLM-ным способом, а фонемной транскрипцией. Для такой токенизации компании пришлось даже найти лингвиста и составить с ним русско-английский фонемный алфавит.
🟦 Во-вторых, в модель добавили биометрические эмбеддинги. Важно, что эти эмбеддинги практически не обучаются, чтобы предотвратить «подглядывание» LM за правильным ответом и снизить риск переобучения.
🟦 Кроме биометрии для снижения акцента и повышения качества в модель добавили автометрику синтеза UTMOS. В данном случае это как бы гиперпараметр качества синтеза, чтобы модель училась генерировать не просто какую-то речь, а хорошо различимую, но в то же время естественную.
🟦 Ну и, наконец, рисерчеры плотно поработали с данными (включая пайплайн предобработки с денойзингом) и добавили инженерных хаков для скорости. Например, с диффузионкой провернули knowledge distillation, прикрутили flash attention, добавили обработку масок в батчах. В итоге из мега-медленной Tortoise получилась модель, которая очень шустро работает в реалтайме.
В общем, очень значительная работа получилась и с инженерной, и с исследовательской, и с продуктовой точки зрения. Итоговые метрики на уровне даже по сравнению с ElevenLabs.
Больше тех.деталей – на Хабре. А модельку уже можно попробовать в Яндекс Браузере.
Пробую новые форматы: сделал рекламу вымышленного бренда напитков при помощи нейронок
Что под капотом:
- Картинки были созданы при помощи ChatGPT-4o
Затем, ChatGPT написал промпты для Sora, и там были сделаны сцены для видео.
- Музыка создана в Suno.
Также из нейронок тут Upscale в Topaz Video AI
На создание данного ролика ушло около 6 часов, притом дольше всего, как мне кажется, я ждал результата генераций в Sora
В работе находится еще кое-что на схожую тематику 😏
—
По вопросам сотрудничества и обучение: @roman_neurogen
Kortix выпустил Suna – новый универсальный AI-агент с открытым исходным кодом
❓Что такое Suna
Suna – это полностью открытый универсальный AI-агент от Kortix. Этот ИИ-помощник способен выполнять различные задачи от вашего имени, действуя как настоящий цифровой сотрудник. Технически – это агентная система с поддержкой LLM и автоматизацией задач.
Ключевые особенности Suna
- 100% открытый исходный код – полная прозрачность, возможность аудита и модификации под ваши потребности
- Универсальный AI-агент – способен решать разнообразные задачи в различных областях
- Понимание естественного языка – взаимодействие происходит через простые разговоры
- Автоматизация браузера – может самостоятельно перемещаться по веб-сайтам и извлекать данные
- Управление файлами – создание и редактирование документов
- Расширенные возможности поиска – веб-краулинг и анализ информации
- Выполнение системных задач – через командную строку
- Развертывание веб-сайтов – помощь в создании веб-ресурсов
- Интеграция с API и сервисами – взаимодействие с различными внешними системами
⚙️Архитектура
Проект состоит из четырех основных компонентов:
1. Backend API – Python/FastAPI сервис для обработки REST-запросов и интеграции с различными LLM (OpenAI, Anthropic и др.)
2. Frontend – Next.js/React приложение с адаптивным интерфейсом
3. Agent Docker – изолированная среда выполнения для каждого агента с автоматизацией браузера, интерпретатором кода и функциями безопасности
4. Supabase Database – управление данными с аутентификацией, историей разговоров и хранилищем файлов
Варианты использования
- Анализ конкурентов и рынка
- Составление списков потенциальных инвесторов
- Поиск страховых полисов
- Поиск кандидатов на должности
- Создание отчетов о состоянии рынка
- Анализ отзывов о продуктах
- Создание мини-игр
- Планирование корпоративных поездок
- Работа с Excel-таблицами
- Поиск и анализ открытых тендеров
- Поиск спикеров для мероприятий
- Обобщение и анализ научных статей
- Генерация лидов для бизнеса
- SEO-анализ
- Кластеризация отзывов
- Планирование поездок
- Мониторинг акций
- Анализ недавно профинансированных стартапов
Новые лимиты на o-серии в ChatGPT
OpenAI пересмотрела квоты и расширила лимиты на передовые модели для платных пользователей.
🔹 ChatGPT Plus / Team / Enterprise:
o3 — 50 сообщений в неделю
o4-mini — 150 сообщений в день
o4-mini-high — 50 сообщений в день
🔹 ChatGPT Pro
Почти безлимитный доступ к o3, o4-mini и GPT-4o
💡 Что ещё важно
В ближайшие недели обещают o3-pro с полноценной поддержкой всех инструментов. Пока что Pro-пользователи могут пользоваться o1-pro.
Тесты Gemini 2.5 Flash против других моделей
Что такое Gemini 2.5 Flash
Gemini 2.5 Flash — новейшая модель от Google, первая полностью гибридная модель рассуждений с возможностью управления "мышлением" для оптимального баланса качества, стоимости и скорости.
⚙️ Технические характеристики
- Контекстное окно: 1 миллион токенов
- Максимальный вывод: 65 тысяч токенов
- Поддержка: текст, изображения, аудио, видео
- Дата обрезки знаний: январь 2025
- Стоимость: $0.15/млн входных токенов, $0.60/млн выходных токенов
📈 Сравнение с GPT-4o
- GPT-4o: 128K контекст, 16.4K макс.вывод, релиз 13 мая 2024
- Цена GPT-4o: в 16.7 раз дороже Gemini 2.5 Flash
- Бенчмарки GPT-4o: MMLU (85.7%), HumanEval (90.2%), MATH (75.9%)
- Gemini 2.5 Flash в Humanity's Last Exam: 12.1%
🔄 Сравнение с Claude 3.7 Sonnet
- Claude 3.7 Sonnet: 200K контекст, 8,192 макс. вывод, релиз 2 апреля 2025
- Цена Claude: в 17.3 раза дороже Gemini 2.5 Flash
- Бенчмарки Claude: MMLU (84.8%), HumanEval (89.1%), GSM8K (95%)
⚡️ Сравнение с OpenAI o4-mini
- o4-mini: 200K контекст, 100K макс.вывод, релиз 16 апреля 2025
- Цена o4-mini: в 7.3 раза дороже Gemini 2.5 Flash
- Бенчмарки o4-mini: GPQA (81.4%), AIME2024 (93.4%), MMMU (81.6%)
- В Humanity's Last Exam: o4-mini — 14.28%, Gemini 2.5 Flash — 12.1%
🔍 Ключевые различия
vs GPT-4o:
- Gemini 2.5 Flash: больше контекст, дешевле, поддержка голоса и видео
vs Claude 3.7 Sonnet:
- Gemini 2.5 Flash: дешевле, больше контекст, больше модальностей
vs o4-mini:
- Gemini 2.5 Flash: больше контекст, намного дешевле
- o4-mini: чуть лучше в бенчмарках
💡 Особенности Gemini 2.5 Flash
- Контролируемое рассуждение: бюджет на "размышления" (0-24,576 токенов)
- Гибридное рассуждение: балансирует скорость/качество
- Экономичность: лучшее соотношение цены/производительности
- Мультимодальность: все типы контента
- Огромный контекст: 1M токенов
⛏ Реальные тесты
- Скорость: 142-199 токенов/сек
- Сильные стороны: кодирование, математика (с режимом расширенного рассуждения)
- Экономия на длительных задачах
🎙 Вывод
Gemini 2.5 Flash — экономичная альтернатива: в 7-24 раза дешевле конкурентов, с большим контекстом, гибким контролем рассуждений и поддержкой всех модальностей. Идеально для задач с большими объемами данных при ограниченном бюджете.
SkyReels‑V2 - новая SOTA среди open-source моделей для генерации видео
SkyReels‑V2 — открытая система генерации видео произвольной длины по текстовым и визуальным подсказкам. Благодаря технологии Diffusion Forcing обеспечивает бесшовное продолжение кадров и создаёт «бесконечную» ленту.
Основные возможности
• Text‑to‑Video (T2V): ролик по текстовому описанию
• Image‑to‑Video (I2V): превращение одного изображения в анимацию
• Prompt Enhancer: встроенный LLM для расширения и детализации подсказок
• USP/xDiT: распределённый инференс между GPU для ускорения вывода
• SkyCaptioner: автоматическая генерация субтитров и аннотаций
• В планах: модуль «Camera Director» и выпуск версии с 5 B параметров
Конфигурации и аппаратные требования
Версия Кадров × разрешение Необходимая VRAM (1 GPU)
DF‑1.3 B 97 × 540 P ≈ 15 ГБ
DF‑14 B 97 × 540 P ≈ 51 ГБ
T2V‑14 B 121 × 540 / 720 P ≈ 43 ГБ
Ключевые технологии
Diffusion Model: «очистка» шума и восстановление деталей
Diffusion Forcing: фрагментарный шум и поэтапное восстановление для «бесшовности»
Reinforcement Learning: оценка плавности кадров и оптимизация поведения
Supervised Fine‑Tuning: доводка на высококачественных видеоматериалax
Производительность
• Human Bench: 3.14/5 — лучший среди открытых решений, близко к коммерческим сервисам
• V‑Bench: 83.9 % — наивысший показатель качества в open‑source
Все доступные варианты уже можно скачать на HuggingFaces
Протестировать онлайн можно на официальном сайте Skyreels
Ну что же, теперь ждем квантованные GGUF версии и поддержку в ComfyUI
Нейро дайджест за неделю
🧠Модели:
🟡OpenAI запускает GPT-4.1: новое поколение AI-моделей
GPT-4.1 — флагманская модель для сложных задач
GPT-4.1 Mini — более доступная для разработчиков версия
GPT-4.1 Nano — самая легкая, быстрая и дешевая модель OpenA
🟡 GPT-o3 и o4-mini - GPT-o3 - Самая мощная модель OpenAI для сложных рассуждений ; GPT-o4-min - меньшая модель, оптимизированная для быстрого и экономичного рассуждения
🟡Grok Studio: новый инструмент от xAI для создания документов, кода и игр - совместное рабочее пространство с ИИ для создания разных типов контента. Грок позволяет открывать созданный контент в отдельном окне, что значительно улучшает процесс совместной работы
🟡Gemini 2.5 Flash - Это первая полностью гибридная модель рассуждений Google, которая балансирует производительность со скоростью и экономической эффективностью. Ключевая особенность — возможность управления "мышлением" (thinking capabilities).
Технические характеристики
- Контекстное окно: 1 миллион токенов
- Максимальный вывод: 65 тысяч токенов
- Мультимодальность: Поддержка текста, изображений, аудио и видео
- Дата выпуска: 17 апреля 2025
- Дата обрезки знаний: январь 2025
- Стоимость: $0.15 за миллион входных токенов и $0.60 за миллион выходных токенов
🚀 Монетизируй ИИ: стань Reels-мейкером за 3 дня
Хочешь зарабатывать на тренде, который только набирает обороты?
🔹 Ты интересуешься нейросетями
🔹 Уже пробовал ChatGPT, Midjourney или CapCut
🔹 Думаешь, как превратить это в доход?
📣 Добро пожаловать на реалити-интенсив "Reels+ИИ" — практикум, где ты:
✔️ создашь вирусный Reels с помощью нейросетей
✔️узнаешь, как получать заказы без опыта
✔️ научишься работать с нейросетями
🎯 Мы покажем: — как за 20 минут собрать ролик, который выглядит как у продакшена
— как выйти на стабильный доход от 70К до 350К в месяц
🧠 GPT-o3 и o4-mini: Новейшие модели OpenAI для продвинутых рассуждений
📊Общие характеристики
GPT-o3:
- Самая мощная модель OpenAI для сложных рассуждений
- Превосходит все предыдущие модели компании в областях программирования, математики, науки и визуального восприятия
- Полный доступ ко всем инструментам ChatGPT (веб-поиск, Python, анализ файлов и изображений, генерация изображений)
- Устанавливает новые рекорды в бенчмарках SWE-bench, Codeforces и MMMU
GPT-o4-mini:
- Меньшая модель, оптимизированная для быстрого и экономичного рассуждения
- Превосходная производительность для своего размера и стоимости
- Особенно сильна в задачах математики, программирования и обработки изображений
- Устанавливает новый рекорд для AIME 2024 и 2025
⚙️Технические данные
GPT-o3:
- Цена API: $10 за миллион входных токенов, $40 за миллион выходных токенов
- Результат в SWE-bench Verified: 69.1% (без специального скаффолдинга)
- Производительность в кодинге на ~20% выше предыдущих моделей
- Превосходит o1 на сложных реальных задачах с уменьшением серьезных ошибок на 20%
GPT-o4-mini:
- Цена API: $1.10 за миллион входных токенов, $4.40 за миллион выходных токенов (аналогично o3-mini)
- Результат в SWE-bench Verified: 68.1%
- Значительно более высокие лимиты использования, чем у o3
- В несколько раз экономичнее o3 при сравнимом качестве на многих задачах
🔍Ключевые возможности
"Мышление с изображениями":
- Оба могут интегрировать изображения непосредственно в процесс рассуждения
- Анализируют загруженные фото, скриншоты, чертежи и схемы
- Работают с изображениями низкого качества, размытыми или перевернутыми
- Могут манипулировать изображениями в ходе рассуждения (поворот, масштабирование)
Улучшенное следование инструкциям:
- Более точное выполнение сложных многоступенчатых задач
- Используют разнообразные инструменты в процессе рассуждения
- Реагируют и адаптируются к новой информации в ходе решения задач
📈Результаты тестов
Математические способности:
- o3: Значительно улучшенная производительность в сложных математических задачах
- o4-mini: Новый рекорд для задач AIME 2024/2025
Программирование:
- Тесты LiveBench: o4-mini показывает результаты на уровне 85-90% от o3 при значительно меньшей стоимости
- Решение реальных задач на GitHub (SWE-bench): o3 - 71%, o4-mini - 68% (предыдущие модели: o3-mini - 49%)
- Codeforces: o3 демонстрирует рекордные показатели среди всех моделей OpenAI
Многоязычность:
- o3 улучшает многоязычные возможности по сравнению с o1
- o4-mini превосходит o3-mini во всех 14 тестированных языках
- Средний результат MMLU в переводе: o3 - 88.8%, o4-mini - 85.2%
⚠️Ограничения
- Модель o4-mini склонна к большему количеству галлюцинаций по сравнению с o3 и o1
- o3 имеет высокую стоимость использования, что может ограничивать повседневное применение
- Оба инструмента демонстрируют некоторые проблемы в сложных многоступенчатых задачах
🚀Доступность
- Доступны для подписчиков ChatGPT Plus, Pro, и Team уже сейчас
- Enterprise и Edu пользователи получат доступ в течение недели
- API-доступ открыт для разработчиков (может потребоваться верификация организации)
- Для бесплатных пользователей: ограниченный доступ к o4-mini через опцию "Think" в интерфейсе
Вышел Grok Studio: новый инструмент от xAI для создания документов, кода и игр
Что такое Grok Studio?
Grok Studio — это совместное рабочее пространство с ИИ для создания разных типов контента. Грок позволяет открывать созданный контент в отдельном окне, что значительно улучшает процесс совместной работы. Официальный аккаунт Grok в X (бывший Twitter) описывает новую функцию так:
"Сегодня мы выпускаем первую версию Grok Studio, добавляя выполнение кода и поддержку Google Drive. Grok теперь может генерировать документы, код, отчеты и браузерные игры. Grok Studio откроет ваш контент в отдельном окне, позволяя вам и Grok совместно работать над содержимым."