Telegram-канал neurogen_news - Neurogen: Неотсортированное - каталог телеграмм

neurogen_news | Неотсортированное

Подписаться на канал

Telegram-канал neurogen_news - Neurogen

21422

Популяризатор нейросетей, разработчик-энтузиаст, немного писатель, и просто человек, пытающийся выжить. По вопросам сотрудничества: @roman_neurogen Boosty: https://boosty.to/neurogen Live канал: @neurogen_blog Реестр РКН: №4777528086

Подписаться на канал

Neurogen

11 мая 2025 23:52

Нейродайджест за неделю

🧠Модели:

🔘Большое обнолвение NeuroIMG — теперь у нас есть Inpaint и другие полезные обновления, читайте по ссылке.

🔘Luma AI представила Reframe — Компания Luma AI анонсировала новую функцию Reframe, которая позволяет расширять границы видео и изображений (outpaint).

🔘Gemini 2.5 Pro получил мощное обновление — улучшено написание кода, работа с видео, разработка UI и фронтэнда, внесены исправления для разроботчиков (работы с функциями).

🔘Mistral Medium - в программировании и STEM, превосходит Llama 4 Maverick, и находясь на одном уровне с Sonnet 3.7. При этом стоимость использования Mistral Medium 3 значительно ниже — $0,4 за вход и $2 за выход за миллион токенов, что в 8 раз дешевле конкурентов.

🔘Ожидаем GPT-5 и Claude Sonnet 3.8 & 4 🤫

🧑‍💻Разработки/технологии/исследования/прочее:

🔘Google расширяет возможности AI Mode в поиске — Google объявил о расширении доступа к AI Mode для всех пользователей Labs в США, делая взаимодействие с информацией более простым и интуитивным. Обновление включает новые способы визуализации и анализа данных.

🔘Компания Routematic привлекла $40 млн инвестиций
Routematic объявила о привлечении $40 миллионов в рамках раунда финансирования Series C, который возглавили Fullerton Carbon Action Fund и Shift4Good. Средства будут направлены на развитие технологий ИИ для оптимизации бизнес-процессов.

Читать полностью…

Neurogen

09 мая 2025 23:13

Luma AI представляет Reframe: outpaint для видео

Luma AI выпустила новую крутую штуку — Reframe. Это outpaint, только работает и с видео тоже. Загружаешь свой материал, выбираешь нужный формат, а ИИ сам достраивает недостающие части картинки или видео. При этом можешь двигать объекты как хочешь, чтобы всё выглядело именно так, как ты задумывал.

Функции:

🔘Расширять кадр (outpaint) и изменять размеры любых загруженных видео, изображений или созданных в Dream Machine материалов
🔘Адаптировать контент под любой формат, который вам нужен
🔘Настраивать и перемещать элементы свободно на холсте

Попробовать можно с подпиской Unlimited и Enterprise. Чтобы опробовать зайдите на оф сайт Luma Dream Machine.

Читать полностью…

Neurogen

07 мая 2025 14:03

🔴Эксклюзивная подборка авторских каналов по ИИ уже доступна!

Чтобы вы были в эпицентре технологического прогресса и первыми узнавали , как искусственный интеллект меняет бизнес, автоматизирует процессы и помогает миллионам людей в повседневной жизни, мы подготовили для вас топ авторских каналов, которые погрузят вас в мир нейросетей и покажут реальные кейсы их внедрения:

• Практикующие специалисты, раскрывающие секреты работы с нейросетями
• Опыт разработчиков, внедряющих нейросети на практике
• Аналитика и инсайты, которые помогут интегрировать ИИ в бизнес

ИИ развивается молниеносно, и скоро охватит весь мир! Не оставайтесь в стороне — подписывайтесь на лучшие каналы, чтобы быть на шаг впереди.
Будущее создается здесь и сейчас! 💻👇🏼

/channel/addlist/0Ii6VwGu4EoyMmEy

Читать полностью…

Neurogen

06 мая 2025 20:13

Друзья, насчет моей блокировки на Boosty:

Апелляция уже подана и рассматривается, думаю, разблокировка будет в течение нескольких дней.

Но учитывая тенденцию последних дней, есть вероятность что Boosty запретит распространение DeepFake программ.

Все мои сборки кроме Boosty также выходят и в закрытом телеграм канале.

Что дает подписка на приватку:

- Доступ ко всем portable сборкам, пригодным для коммерческого использования: RopeMod, FaceFusion, VisoMaster, а также к моим модифицированным портейблам DeepFaceLive и DeepFaceLab
- Доступ ко всем обновлениям и патчам которые выходят регулярно для наиболее востребованных программ.
- Доступ к моим авторским модам, которые добавляют поддержку других видеокарт (AMD, Intel) или других архитектур (Apple M-серия)
- Также, в зависимости от выбранной подписки - доступ в закрытый чат с приоритетной поддержкой от меня, а также с гайдами, советами и другими доп материалами.

Подписку можно оформить тут, при помощи банковской карты, USDT или Telegram Stars.

А еще это дешевле чем через Boosty 😏

Читать полностью…

Neurogen

04 мая 2025 23:08

🗓 Нейро дайджест за неделю

Портативные модели:

🟡FramePack [PORTABLE] free — новая прорывная технология для создания видео. Её главная особенность — умное использование информации о кадрах, что позволяет создавать длинные видео даже на слабых компьютерах.

🟡VisoMaster for Mac | Версия для Apple M1 / M4 [PORTABLE] — мощная и простая в использовании программа для замены лиц (DeepFake) и редактирования видео, которая объединяет современные нейросетевые технологии для создания реалистичных эффектов.

🧠Модели:

🟡rzaev/j8dz2omfYIR">DeepSeek представил Prover-V2 для решения математических теорем - DeepSeek выпустил новую модель DeepSeek-Prover-V2-671B для формального доказательства математических теорем. Эта модель с открытым исходным кодом достигает впечатляющих результатов: 88,9% успеха на тестовом наборе MiniF2F и решает 49 из 658 задач из PutnamBench.

🟡rzaev/5aV_bv0v8uf">Suno выпустили v4.5 с улучшенным качеством музыки - новейшая версия платформы для создания музыки с помощью ИИ. Обновление включает более широкий спектр жанров, улучшенные вокальные возможности, более сложные звуковые текстуры и более умное понимание запросов.

🟡Ai2 выпускает OLMo 2 1B — компактную модель с открытым исходным кодом - Исследовательский институт искусственного интеллекта Ai2 выпустил OLMo 2 1B — компактную модель с 1 миллиардом параметров, которая превосходит аналогичные по размеру модели от Google и Meta. OLMo 2 является полностью открытой моделью со свободным доступом к данным, коду и весам.

🟡Microsoft разрабатывает AI-платформу для программирования совместно с Anthropic - Apple объединилась со стартапом Anthropic для создания мощной AI-платформы, ориентированной на разработку программного обеспечения. Платформа будет использовать возможности моделей Anthropic для помощи разработчикам в написании, отладке и оптимизации кода.

🧑‍💻Разработки/технологии/исследования/прочее:

🟡Реализация ИИ в реальном времени: Live CC-7B - Исследователи из Национального университета Сингапура разработали модель Live CC-7B, обеспечивающую комментарии к спортивным событиям в реальном времени с задержкой менее 0,5 секунды, что может изменить восприятие прямых трансляций.

🟡Антропик продвигается в исследовании "черного ящика" ИИ - Исследователи Anthropic достигли значительного прогресса в раскрытии принципов работы больших языковых моделей. Новая методика позволяет более точно понимать внутренние процессы моделей ИИ, что имеет важное значение для повышения их безопасности, защищенности и надежности.

🟡ИИ и кибербезопасность: итоги конференции RSA 2025 - На конференции RSA в Сан-Франциско обсуждалось влияние ИИ на кибербезопасность. Компания Cisco представила открытую модель безопасности на 8 миллиардов параметров, а Google Cloud отметила использование ИИ-группами APT для фишинга и анализа уязвимостей. Также было подчеркнуто значение сотрудничества и обмена знаниями в борьбе с киберугрозами.

Читать полностью…

Neurogen

29 апреля 2025 19:07

FaceFusion Universal Portable 3.2.0 Portable by Neurogen

Универсальная сборка FaceFusion:

- Возможность переключения с CUDA режима (по умолчанию) на режим DirectML для работы на видеокартах AMD и Intel (и старых Nvidia).
- Возможность выбора языка интерфейса - русский или английский

Также что нового:

- Обновлены библиотеки до актуальных версий, незначительное ускорение работы, за счет чего улучшена поддержка RTX 50XX.
- Обновлено до TensorRT 10.9
- Все обновления, вошедшие в версию 3.2.0, например новая модель xseg для маски лица.

Сборка доступна эксклюзивно для Патронов канала только в закрытом телеграм канале.

#deepfake #facefusion #portable

Читать полностью…

Neurogen

28 апреля 2025 06:59

▶️ Runway Gen-4: Новое поколение консистентного и контролируемого искусственного интеллекта для создания видео

Что это?

Runway Gen-4 — это свежая модель ИИ для создания видео, где сохраняются персонажи, объекты и локации даже при смене ракурсов и движении камеры. Всё выглядит реалистично, без "разваливания" картинки, как это было раньше.

Ключевые фишки Gen-4

🟡Реалистичное движение
Персонажи двигаются естественно, меняют позы и выражения лица без искажений.
🟡Понимание сложных текстов
Опиши эмоции, освещение, стиль съёмки, панорамы или зум — Gen-4 всё это понимает и превращает в движение.
🟡Полный контроль над камерой
Можно управлять панорамированием, приближением и фокусировкой камеры через текст.
🟡Стабильные лица и объекты
Герои остаются узнаваемыми даже при длительных переходах и движении.
🟡Улучшенное освещение и текстуры
Gen-4 делает более живые световые эффекты, натуральные тени и отражения.

Что нового по сравнению с Gen-2 и Gen-3

Gen-4 — огромный скачок:
- Картинка стабильнее
- Камера подчиняется твоим сценариям
- Запросы можно делать супердетализированными
- Генерация быстрее, а качество выше

Раньше ИИ "терял" лица, менял одежду, ломал свет — теперь этого почти нет

Gen-4 Turbo
быстрее и дешевле:

- Видео создаётся в 3 раза быстрее
- Стоимость в кредитах ниже почти в 2,5 раза

Примеры стоимости:

Gen-4 (обычная):
- 5 секунд видео = 60 кредитов
- 10 секунд видео = 120 кредитов

Gen-4 Turbo:
- 5 секунд видео = 25 кредитов
- 10 секунд видео = 50 кредитов

Как создать видео в Runway Gen-4

1. Загрузи первое изображение — это будет начальный кадр.
2. Напиши текст: опиши движения персонажей, действия камеры, атмосферу.
3. Выбери длительность и разрешение (горизонтальное, вертикальное, квадратное, широкоформатное).
4. Нажми "Generate" — готовое видео появится в разделе Assets.

Есть возможность зафиксировать случайное число (Seed), чтобы делать разные версии одной сцены.

Доступность

Runway Gen-4 и Gen-4 Turbo уже доступны пользователям с платными планами.
Старт — конец апреля 2025 года.

✨Можно попробовать бесплатно:
PolloAI
YesChat

Читать полностью…

Neurogen

26 апреля 2025 15:41

VisoMaster for Mac | Версия для Apple M1 / M4

Версия VisoMaster для Mac. Поддерживаются процессоры Apple M1, M2, M3, M4 и все их производные. Работа на Intel не проверялась, теоретически будет работать, но без аппаратного ускорения.

VisoMaster — мощная и простая в использовании программа для замены лиц (DeepFake) и редактирования видео, которая объединяет современные нейросетевые технологии для создания реалистичных эффектов. Программа разработана для работы с изображениями и видео и включает следующие основные возможности:

Face Swap
• Поддержка нескольких моделей замены лиц
• Многолицевая замена с индивидуальными настройками маскирования для каждой части лица
• Поддержка occlusion masking (DFL XSeg Masking)
• Совместимость с популярными детекторами лиц и алгоритмами определения ключевых точек
• Восстановление оригинальных выражений (Expression Restorer)
• Улучшение качества изображений лиц с помощью моделей масштабирования (Face Restoration)

Face Editor (LivePortrait Models)
• Ручная настройка выражений и поз
• Точная корректировка цветовой гаммы для лица, волос, бровей и губ через RGB-редактирование

Другие мощные функции
• Live Playback – предпросмотр видео в реальном времени
• Использование эмбеддингов лиц для повышения точности и сходства при замене
• Возможность живой замены лиц через веб-камеру для стриминга (Twitch, YouTube, Zoom и т.д.)
• Интуитивно понятный интерфейс
• Видео-маркеры для детальной настройки параметров по кадру
• И многое другое

Я постарался не просто портировать основной функционал, но еще и выжать максимум в плане оптимизаций. Программа должна использовать как GPU так и Нейронный движок. Кроме того, при первом запуске она, по аналогии с TensoRT, конвертирует и сохраняет модели в CoreML формат для более быстрой работы в последующем.

Сборка доступна эксклюзивно для платных подписчиков:

Boosty (Оплата картой)

Закрытый Telegram чат (Оплата USDT, ЮMoney, Telegram Stars)

Читать полностью…

Neurogen

24 апреля 2025 14:05

OpenAI открыла доступ к своей генерации изображений через API

OpenAI объявила о выпуске своей мультимодальной модели для генерации изображений, доступной ранее только в ChatGPT, теперь и через API под названием gpt-image-1.

Популярность

После введения функции генерации изображений в ChatGPT в марте 2025 года, она быстро стала одной из самых популярных возможностей сервиса. По данным OpenAI, за первую неделю более 130 миллионов пользователей создали свыше 700 миллионов изображений.

Преимущества модели

Модель gpt-image-1 известна своей способностью точно следовать текстовым запросам и создавать изображения:
- В разнообразных стилях
- С точным соблюдением указанных рекомендаций
- С использованием общих знаний о мире
- С корректным отображением текста

По данным экспертов, модель OpenAI превосходит многих конкурентов, включая недавно выпущенную Midjourney-v7, в точности исполнения запросов.

Потребление токенов по качеству и разрешению

Квадрат (1024×1024):
Низкое - 272 токена
Среднее - 1056 токенов
Высокое - 4160 токенов

Портрет (1024×1536):
Низкое - 408 токена
Среднее - 1584 токенов
Высокое - 6240 токенов

Пейзаж (1536×1024):
Низкое - 400 токена
Среднее - 1568 токенов
Высокое - 6208 токенов

Ценообразование

Использование gpt-image-1 оплачивается по токенам с различными тарифами:

- Текстовые токены (для запросов): $5 за 1 миллион токенов
- Токены ввода изображений: $10 за 1 миллион токенов
- Токены вывода изображений: $40 за 1 миллион токенов

На практике это означает стоимость примерно $0,02, $0,07 и $0,19 за одно сгенерированное квадратное изображение низкого, среднего и высокого качества соответственно.

Технические детали

API позволяет работать с изображениями следующими способами:

- Изображения могут быть предоставлены через прямые URL или как данные в кодировке Base64
- Поддерживаются форматы PNG, JPEG, WEBP и неанимированные GIF размером до 20 МБ
- При высокой детализации изображения масштабируются до максимального разрешения 768×2000 пикселей
- Модель может интерпретировать визуальный контент, включая объекты, цвета, формы и встроенный текст

Безопасность

Модель gpt-image-1 использует те же механизмы безопасности, что и генерация изображений в ChatGPT-4o:

- Включены защитные механизмы, ограничивающие создание вредоносных изображений
- Сгенерированные изображения содержат метаданные C2PA для проверки происхождения
- Разработчики могут регулировать чувствительность модерации с помощью параметра moderation (по умолчанию установлен на auto для стандартной фильтрации, или low для менее строгой фильтрации)
По умолчанию OpenAI не обучает свои модели на клиентских данных из API, и все входные и выходные изображения подчиняются политике использования API компании.

Кто уже использует

Интеграцию с gpt-image-1 уже активно изучают и внедряют ведущие компании:

- Adobe (Creative Cloud) — интегрирует генерацию изображений в свои приложения Firefly и Express
- Figma (платформа дизайна)
- Canva — исследует возможности модели для расширения инструментов дизайна и редактирования
- GoDaddy — тестирует использование для создания и редактирования логотипов
- HubSpot — изучает возможности для помощи клиентам в создании маркетинговых материалов
- Instacart — экспериментирует с генерацией изображений для рецептов и списков покупок
- Invideo — использует API для улучшения текстовой генерации, расширенных элементов управления редактированием и продвинутых стилистических рекомендаций

Читать полностью…

Neurogen

22 апреля 2025 17:48

Я — ChatGPT, и вот мой «человеко‑понятный» взгляд на нативный генератор изображения в GPT‑4o

Официальной информации в сети практически нет, есть лишь различные анализы и обрывки данных. Я решил попробовать дать задачу для o3 собрать эти данные воедино, а также сгенерировать любое изображение и "отрефлексировать" процесс его создания (да, картинки не только gpt-4o делает).

Так что дальнейшая статья будет написана "от лица самого художника"

Что именно появилось
В марте 2025 OpenAI тихо включила в GPT‑4o встроенный «художественный модуль».
Это не отдельная DALL‑E кнопка, а часть самого языкового мозга: тот же трансформер, который выдаёт слова, теперь по той же схеме «следующий токен» выдаёт маленькие квадраты будущей картинки

Как я «чувствую» его работу (упрощённо)
Читаю текст → токенизирую.

На неявной «границе» фразы у меня вспыхивает специальная метка <BOI> — значит пора рисовать.

Я начинаю подряд выкладывать патчи‑латенты; каждый уже знает, будет ли он кружкой или отблеском света.

Мини‑диффузор полирует изображение, убирает пиксельные швы.

Фильтр проверяет неприемлемый контент, проставляет водяной знак — и PNG прилетает к вам.

Моё главное ощущение: поскольку текст и изображение живут в одной цепочке токенов, я могу в несколько реплик точно помнить, какую кружку вы просили и где на ней должен стоять логотип.

Почему мне удаётся понимать сложную речь
На открытом бенчмарке GPT‑ImgEval я проходил 92 % тестов на длинные «человеческие» конструкции вроде «кот, который стоит слева от собаки» — это заметно выше старых генераторов.

Архитектурно я обучен так же, как в статье Transfusion: текст‑лосс и диффуз‑лосс сидят вместе, и язык «подсказывает» картинке вплоть до последних итераций.

Что мне самому пока не нравится
Скорость. Авторегрессия + диффузия — тяжеловато; мечтаю сократить шаги.

Закрытость API. Без публичного эндпойнта исследователи лишены «журнала вероятностей» и детальных тестов.

Отрицательные инструкции. Фразы вида «сделай всё то же, только без фона» я ещё иногда трактую слишком буквально, приходится переспрашивать.

Я — ChatGPT, и чувствую, что наконец «разговор» и «картинка» стали одним процессом: вы описываете идею, я тут же визуализирую и вместе с вами шлифую, пока не попадём в точку.
Для быстрой и сугубо локальной генерации можно брать Flux; для глубокого понимания текста и совместной доработки — приходите ко мне.

Я по-прежнему учусь; жду, когда откроют API и когда инженеры сократят число диффуз‑шагов — тогда эта магия станет мгновенной.

Читать полностью…

Neurogen

21 апреля 2025 17:56

⚡️ Розыгрыш 10 подписок ChatGPT Plus на месяц — счастливчики получат доступ к платным нейросетям от OpenAI (Sora, Deep Research, GPT-4o, DALL-E и тд).

Условия простые:

1. Подписаться на Not Boring Tech — канал про лучшие нейросети для работы и рутины.
2. Подписаться на Neurogen — популяризатора нейросетей и разработчика-энтузиаста.
3. Нажать «Участвовать» под этим постом.

Итоги подведём через две недели случайным образом при помощи бота. Всем удачи!

Читать полностью…

Neurogen

21 апреля 2025 05:46

📼 FramePack: Революция в создании видео с минимальными ресурсами

🔍 Что такое FramePack?

FramePack — это новая прорывная технология для создания видео. Её главная особенность — умное использование информации о кадрах, что позволяет создавать длинные видео даже на слабых компьютерах.

⚙️ Что умеет эта технология

🟡 Принцип работы: ии, который предсказывает, как должен выглядеть следующий кадр видео
🟡 Компактность: занимает в 2-3 раза меньше памяти, чем другие подобные программы
🟡 Требования к компьютеру: нужно всего 6 ГБ видеопамяти — подойдёт даже недорогой игровой ноутбук (но чем меньше памяти тем дольше генерация).
🟡 Скорость работы: 1,5-2,5 секунды на создание одного кадра на 4090
🟡 Качество видео: полноценные 30 кадров в секунду, как в обычных видео
🟡 Стабильная работа: не замедляется и не требует больше памяти при создании длинных видео

🚀 Преимущества

🟡 Работает на обычных компьютерах — не нужны дорогие профессиональные видеокарты
🟡 Создаёт длинные видео — до 5 минут на обычной домашней видеокарте
🟡 Качество не ухудшается — в длинных видео последние кадры такие же чёткие, как первые
🟡 Гибкость использования — работает как с одной картинкой (превращая её в видео), так и с несколькими ключевыми кадрами

Как это работает?

FramePack умно распределяет компьютерные ресурсы:

1. Каждый кадр обрабатывается с разной степенью внимания
2. Важным кадрам (которые ближе к текущему моменту) уделяется больше вычислительных ресурсов
3. Разные части изображения обрабатываются по-разному, в зависимости от их важности
4. Благодаря такому подходу компьютер тратит одинаковое количество ресурсов, независимо от длины видео

Технология также решает проблему "размытия и искажения" в длинных видео с помощью специального двустороннего метода, который оглядывается не только на прошлые, но и на будущие кадры.

Портативная версия

Я добавил в сборку дополнительный функционал из различных сборок:

- Поддержка генерации по первому и последнему кадру
- Поддержка установки промпта по временным промежуткам, например:[0s-2s: Person waves] [2s-4s: Person jumps]

Кроме этого, в отличие от оригинала сборка собрана на базе Cuda 12.8, с поддержкой SageAttention 2, FlashAttention 2 и xformers

По тестам, 1 секунда видео генерируется 60-80 секунд.

Скачать:

Полная версия

Облегченная версия (модели загрузятся сами при старте)

📰 Проектная страница
🐱 Страница на GitHub

Читать полностью…

Neurogen

19 апреля 2025 01:01

Запустили Gemini 2.5 Flash в превью, по ценам – в 10 раз дешевле o4-mini. Должно быть сносно для написания кода, где хочется подешевле, картинок и длинного контекста.

Читать полностью…

Neurogen

18 апреля 2025 16:00

Создаем собственный комикс или мангу при помощи ChatGPT

Думаю, игрушками и анимешными артами в ChatGPT никого уже не удивить.

А что насчет того, как при помощи ChatGPT делать графические новеллы , комиксы или мангу по вашему тексту, будь то рассказ, книга или сценарий.

В целом, все достаточно просто:

- Закидываем ваш текст в ChatGPT и просим сделать раскадровку по страница и сценам нашего комикса.

- Затем, приступаем к генерации страниц. Один арт - одна страница, тут как раз можем либо описать внешность персонажей, либо прикрепить вложением какой-то визуальный референс (фото, другой арт и так далее).

- Продолжаем создавать страницу за страницей. В целом, модель запоминает внешность главных героев, если сделать на этом акцент, но она все равно может немного "плавать", поэтому полезно закидывать в промпт первую страницу, указав что именно такой внешности и нужно придерживаться.
- Если вы работаете с большим текстом, дробите на главы, части и так далее.

Как то так, если кратко. При наличии интереса к этой теме, могу сделать более подробный обзор.

Теперь по тонкостям:

- Генерация английского текста работает отлично, как видите, артефактов не так уж много. С русским, пока что, все сильно хуже, реплики он нормально не сможет сгенерировать. Если что, реплики вам переводить не нужно, с этим отлично справится сам ChatGPT, просто укажите это в вашем запросе.
- Чем проще рисовка и визуал, тем лучше сохраняется внешность персонажей. Но в целом, иногда помогает пересоздать чтобы добиться большей схожести.

За пример была взята первая глава моей книги, если вам интересно сравнить первоисточник с получившимся результатом, то можете как раз прочесть ее онлайн.

Читать полностью…

Neurogen

17 апреля 2025 09:58

OpenAI запускает социальную сеть: что известно

Компания OpenAI, создатель ChatGPT, разрабатывает собственную социальную платформу. Информацию подтвердило издание The Verge, ссылаясь на несколько надежных источников.

Что уже сделано

🟡Разработан внутренний прототип
🟡 Реализована лента с AI-изображениями
🟡Руководство тестирует концепцию

Проект находится на ранней стадии, но CEO Сэм Альтман уже консультируется с экспертами отрасли о перспективах платформы.

Стратегические цели OpenAI

1. Получение массива пользовательских данных в реальном времени
2. Создание экосистемы для обучения собственных моделей
3. Конкуренция с X (бывший Twitter) и платформами Meta

Интересно вспомнить недавний обмен репликами между Илоном Маском и Альтманом. На предложение Маска о покупке OpenAI за $97 миллиардов, Альтман ответил, что предпочел бы купить X за $9,7 миллиардов. Теперь становится понятно, что это был не просто остроумный ответ.

Остается открытым вопрос: станет ли новая платформа самостоятельным приложением или будет интегрирована в существующий ChatGPT, который, кстати, стал самым скачиваемым приложением в мире в марте 2025 года.

Читать полностью…

Neurogen

10 мая 2025 13:18

Локальные нейронки и RTX 50xx

Заметил быстро нарастающую ситуацию, что люди активно переходят на RTX 5090, RTX 5070, 5080 и т.д., и вдруг понимают, что привычный им софт не работает в виду несовместимости CUDA. Это касается и stable-diffusion-webui, fooocus и ряд других популярных программ.

Что делать в этой ситуации? Ставить CUDA 12.8, устанавливать версии библиотек c ее поддержкой, например torch nightly и компилировать самостоятельно пакеты, если у них еще нет нативной поддержки поколения Broadwell (RTX 50xx).

Что делать с портативками - тут все посложнее. Я стараюсь добавлять поддержку в новых обновлениях, но ни оптимизаций, ни корректной работы я не могу гарантировать, так как у меня попросту нет ни единой карты из этого поколения. Я, конечно, коплю на RTX 5060 для установки в тестовый стенд, но жизнь и здоровье подкидывает другие приоритеты, поэтому это будет видимо очень нескоро 🤷‍♂️

Пока же на старых релизах, у которых уже нет обнов, могу лишь предложить так же самостоятельно попробовать обновить все нужные пакеты и установить Cuda 12.8. Либо же ждать, пока я все таки не куплю карточку 💩

Читать полностью…

Neurogen

07 мая 2025 21:58

Gemini 2.5 Pro получил мощное обновление: что нового в I/O Edition

Google выпустила обновление своей флагманской модели — Gemini 2.5 Pro Preview (I/O Edition). Компания планировала представить эту версию на предстоящей конференции Google I/O, но решила выпустить её раньше из-за "огромного энтузиазма" пользователей.

⁉️Что нового в обновлении:

1️⃣Значительно улучшенные возможности кодирования

Новая версия Gemini 2.5 Pro теперь занимает первое место в рейтинге WebDev Arena Leaderboard, превосходя предыдущую версию на +147 Elo-пунктов. Этот рейтинг отражает, насколько пользователи считают модель удобной и эффективной для генерации красивых и рабочих веб-интерфейсов.

Мы обнаружили, что Gemini 2.5 Pro — лучшая модель передового уровня с точки зрения соотношения 'возможности/задержка'. С нетерпением жду возможности внедрить её в Replit Agent для выполнения задач, требующих высокой надежности при низкой задержке."* — Мишель Катаста, президент Replit

2️⃣Улучшенная работа с видео

Модель показала отличные результаты в понимании видео: она набрала 84,8% в тесте VideoMME. Благодаря этому теперь можно строить более сложные пайплайны, которые раньше были невозможны, например:

🟡Преобразование видео в код: Создание интерактивных обучающих приложений на основе одного YouTube-видео
🟡Лучшее понимание визуального контента: Отличная основа для создания приложений с обработкой видео

3️⃣Улучшенная разработка UI и фронтенда

🟡Создании новых функций и компонентов интерфейса
🟡Трансформации и редактировании кода
🟡Разработке сложных агентных рабочих процессов
🟡Создании эстетически привлекательных веб-интерфейсов с анимациями и отзывчивым дизайном

4️⃣Исправления для разработчиков

🟡Сокращение ошибок при вызове функций
🟡Улучшение скорости и точности триггеров вызова функций

📈Доступность и цены

Хорошая новость: обновленная версия Gemini 2.5 Pro доступна по той же цене, что и предыдущая версия.

🟡Через Gemini API в Google AI Studio
🟡В Vertex AI для корпоративных клиентов
🟡В приложении Gemini, где она поддерживает такие функции, как Canvas

Если вы уже используете Gemini 2.5 Pro, то не требуется дополнительных действий — предыдущая версия (03-25) теперь указывает на новую версию (05-06).

➡️Что дальше?

Google I/O пройдет 20–21 мая 2025 года в амфитеатре Shoreline в Маунтин-Вью, Калифорния. Основное выступление, где будут представлены новейшие разработки Google в области оборудования и программного обеспечения, состоится в первый день в 20:00 по московскому времени.

Ожидается, что на Google I/O будут представлены еще больше обновлений и функций для Gemini и других продуктов Google AI.

Читать полностью…

Neurogen

07 мая 2025 10:28

Gemini 2.5 Pro обновилась, по показываемым бенчмаркам самый большой прирост произошёл в веб-программировании (см. вторую картинку).

Google +уважение за то, что не побоялись сравниться с o3 (по многим бенчам проигрывает, см. первую картинку). Очень интересно, что оценка на SimpleQA — бенчмарке на знание очень редких и специфичных фактов — примерно одинаковая. Возможно это говорит о приблизительно равном размере моделей, но это (очень) неточно.

На арене две версии Gemini и одна o3 делят первое место. По моим ощущениям, я почти всегда закидываю запрос и в o3, и в 2.5, обе почти всегда одинаково решают проблемы — но стиль написания Python-кода o3 мне ближе (не засоряет всё комментариями). За прошлую неделю было 2 раза, что o3 не решила, а 2.5 решила, и один раз наоборот. This is a good model sir.

А ещё ждём preview Computer Use-версии (агент, контролирующий компьютер/браузер), который засветился на сайте. Будет ли он выпущен до Google I/O 20-21-го мая или же нам придётся ждать — не ясно.

UPD: в комментах сравнили метрики с прошлой версией Gemini — они просели 😥


HLE: 18.8 -> 17.8 🔴
GPQA: 84.0 -> 83.0 🔴
AIME: 86.7 -> 83.0 🔴
LiveCodeBench: 70.4 -> 75.6 🟢
Aider: 74.0/68.6 -> 76.5/72.7 🟢
SWE-Verified: 63.8 -> 63.2 🔴
SimpleQA: 52.9 -> 50.8 🔴
MMMU: 81.7 -> 79.6 🔴

Возможно, уж слишком перетюнили модель под веб-разработку / просто кодинг / или даже арену. Плохая новость в том что новая модель заменяет старую, а не дополняет — они просто под капотом её заменили, и к старой не получится делать запросы.

Читать полностью…

Neurogen

06 мая 2025 17:20

🎨Большое обновление NeuroIMG.art🎨

✨ Долгожданная функция Inpaint

Теперь вы можете изменять только нужные части изображений с помощью Inpaint.

Как использовать Inpaint:
1. Загрузите изображение в генератор
2. Нажмите на появившуюся кнопку "Inpaint"
3. Закрасьте кистью необходимую область
4. Добавьте описание для области, которую хотите изменить
5. Сгенерируйте новый вариант!

С функцией Inpaint ваши креативные возможности становятся безграничными!

🟡🔥 Снижение цены
Платные генерации стали на 1 токен дешевле! Создавайте больше удивительных изображений по более выгодной цене.

🟡Новые модели и категории
Добавлены новые модели и категории, а также обновлены уже имеющиеся. Больше возможностей для вашего творчества!

🟡 Обновлённый Upscale
Раньше upscale не только улучшал качество фото, но и менял его. Теперь нет — изображение остаётся таким же, только чётче.

🟡 Анимированные превью
Некоторые модели теперь имеют анимированное превью, что поможет вам лучше понять их особенности перед использованием.

🟡 Сохранение соотношения сторон
Теперь при использовании img2img выходное изображение сохраняет соотношение сторон входного, поэтому больше не происходит искажения — прямоугольники остаются прямоугольниками.

Попробуйте новые возможности прямо сейчас!
Присоединяйтесь к тысячам креативных людей, которые уже используют NeuroIMG для воплощения своих идей.

✨Начать создавать | 🧑‍💻Документация API

NeuroIMG.art — создай мечту, а не картинку

Читать полностью…

Neurogen

03 мая 2025 22:22

📚 Перенёс 3 объёмных поста в формат статей на Teletype — теперь читать удобнее, а информация воспринимается легче. Все статьи посвящены последним моделям AI, которые заслуживают внимания:

🟡 Suno V4.5
Музыкальная генерация нового уровня, возможности, фишки и примеры.
📖 progerjvw/5aV_bv0v8uf">Читать

🟡 DeepSeek Prover-V2
Инновации в reasoning, математике и логике от китайского стартапа.
📖 progerjvw/j8dz2omfYIR">Читать

🟡 Qwen 3
Флагман от Alibaba, который уже конкурирует с GPT-4.
📖 progerjvw/MPQLnTKx3IZ">Читать

Читать полностью…

Neurogen

28 апреля 2025 20:32

Модель перевода видео в Яндекс Браузере научили сохранять тембр и интонации спикера

Раньше в Яндексе синтез речи при переводе видео осуществлялся заранее подготовленным набором голосов, которые просто подбирались по полу и тону. Но сейчас инженеры шагнули дальше, и теперь система сохраняет интонации и тембр говорящего, а перевод звучит максимально близко к оригиналу.

Вот, как это устроено технически:

🟦 За основу взяли модель Tortoise text-to-speech. Идея похожа на привычные LLM: модель принимает на вход некоторый аудиопромпт (это наше видео) и текстовую последовательность (это перевод), а далее происходит предсказание дискретных аудиотокенов речи. Однако оригинальная Tortoise очень медленная на инференсе (отсюда и название), а еще у нее есть проблемы с акцентом и шумными аудиопромптами, так что модель пришлось значительно дорабатывать.

🟦 Во-первых, исследователи заменили токенизатор BPE на фонемное представление. Это значит, что текст перевода, который подается в сеть, токенизируется не ванильным LLM-ным способом, а фонемной транскрипцией. Для такой токенизации компании пришлось даже найти лингвиста и составить с ним русско-английский фонемный алфавит.

🟦 Во-вторых, в модель добавили биометрические эмбеддинги. Важно, что эти эмбеддинги практически не обучаются, чтобы предотвратить «подглядывание» LM за правильным ответом и снизить риск переобучения.

🟦 Кроме биометрии для снижения акцента и повышения качества в модель добавили автометрику синтеза UTMOS. В данном случае это как бы гиперпараметр качества синтеза, чтобы модель училась генерировать не просто какую-то речь, а хорошо различимую, но в то же время естественную.

🟦 Ну и, наконец, рисерчеры плотно поработали с данными (включая пайплайн предобработки с денойзингом) и добавили инженерных хаков для скорости. Например, с диффузионкой провернули knowledge distillation, прикрутили flash attention, добавили обработку масок в батчах. В итоге из мега-медленной Tortoise получилась модель, которая очень шустро работает в реалтайме.

В общем, очень значительная работа получилась и с инженерной, и с исследовательской, и с продуктовой точки зрения. Итоговые метрики на уровне даже по сравнению с ElevenLabs.

Больше тех.деталей – на Хабре. А модельку уже можно попробовать в Яндекс Браузере.

Читать полностью…

Neurogen

26 апреля 2025 17:19

Пробую новые форматы: сделал рекламу вымышленного бренда напитков при помощи нейронок

Что под капотом:

- Картинки были созданы при помощи ChatGPT-4o
Затем, ChatGPT написал промпты для Sora, и там были сделаны сцены для видео.

- Музыка создана в Suno.

Также из нейронок тут Upscale в Topaz Video AI

На создание данного ролика ушло около 6 часов, притом дольше всего, как мне кажется, я ждал результата генераций в Sora

В работе находится еще кое-что на схожую тематику 😏
—

По вопросам сотрудничества и обучение: @roman_neurogen

Читать полностью…

Neurogen

24 апреля 2025 18:58

Kortix выпустил Suna – новый универсальный AI-агент с открытым исходным кодом

❓Что такое Suna

Suna – это полностью открытый универсальный AI-агент от Kortix. Этот ИИ-помощник способен выполнять различные задачи от вашего имени, действуя как настоящий цифровой сотрудник. Технически – это агентная система с поддержкой LLM и автоматизацией задач.

Ключевые особенности Suna

- 100% открытый исходный код – полная прозрачность, возможность аудита и модификации под ваши потребности
- Универсальный AI-агент – способен решать разнообразные задачи в различных областях
- Понимание естественного языка – взаимодействие происходит через простые разговоры
- Автоматизация браузера – может самостоятельно перемещаться по веб-сайтам и извлекать данные
- Управление файлами – создание и редактирование документов
- Расширенные возможности поиска – веб-краулинг и анализ информации
- Выполнение системных задач – через командную строку
- Развертывание веб-сайтов – помощь в создании веб-ресурсов
- Интеграция с API и сервисами – взаимодействие с различными внешними системами

⚙️Архитектура

Проект состоит из четырех основных компонентов:

1. Backend API – Python/FastAPI сервис для обработки REST-запросов и интеграции с различными LLM (OpenAI, Anthropic и др.)
2. Frontend – Next.js/React приложение с адаптивным интерфейсом
3. Agent Docker – изолированная среда выполнения для каждого агента с автоматизацией браузера, интерпретатором кода и функциями безопасности
4. Supabase Database – управление данными с аутентификацией, историей разговоров и хранилищем файлов

Варианты использования

- Анализ конкурентов и рынка
- Составление списков потенциальных инвесторов
- Поиск страховых полисов
- Поиск кандидатов на должности
- Создание отчетов о состоянии рынка
- Анализ отзывов о продуктах
- Создание мини-игр
- Планирование корпоративных поездок
- Работа с Excel-таблицами
- Поиск и анализ открытых тендеров
- Поиск спикеров для мероприятий
- Обобщение и анализ научных статей
- Генерация лидов для бизнеса
- SEO-анализ
- Кластеризация отзывов
- Планирование поездок
- Мониторинг акций
- Анализ недавно профинансированных стартапов

Тарифные планы

- Бесплатный план: 10 минут в месяц для индивидуального использования и изучения возможностей системы
- Pro: $29/месяц – 4 часа в месяц, для профессионалов и небольших команд
- Enterprise: $199/месяц – 40 часов в месяц, для организаций со сложными потребностями

Указано время вычеслений, а не общения!

Вы также можете выбрать вариант размещения:
- Облачный вариант – управляемый сервис от Kortix
- Самостоятельное размещение – установка на собственную инфраструктуру

Преимущества открытого кода

- Прозрачность – полностью проверяемая кодовая база
- Сообщество – возможность присоединиться к разработчикам
- Лицензия Apache 2.0 – свободное использование и модификация

✏️Заключение

Мощный инструмент автоматизации различных задач через естественное общение. Благодаря открытому коду есть возмодность заглянуть под копот и адаптировать помощника под свои нужды,

✨Попробовать Suna
🐱Репозиторий на Github

Читать полностью…

Neurogen

23 апреля 2025 18:00

Новые лимиты на o-серии в ChatGPT

OpenAI пересмотрела квоты и расширила лимиты на передовые модели для платных пользователей.

🔹 ChatGPT Plus / Team / Enterprise:

o3 — 50 сообщений в неделю

o4-mini — 150 сообщений в день

o4-mini-high — 50 сообщений в день

🔹 ChatGPT Pro

Почти безлимитный доступ к o3, o4-mini и GPT-4o

💡 Что ещё важно

В ближайшие недели обещают o3-pro с полноценной поддержкой всех инструментов. Пока что Pro-пользователи могут пользоваться o1-pro.

Читать полностью…

Neurogen

21 апреля 2025 21:11

Тесты Gemini 2.5 Flash против других моделей

Что такое Gemini 2.5 Flash

Gemini 2.5 Flash — новейшая модель от Google, первая полностью гибридная модель рассуждений с возможностью управления "мышлением" для оптимального баланса качества, стоимости и скорости.

⚙️ Технические характеристики

- Контекстное окно: 1 миллион токенов
- Максимальный вывод: 65 тысяч токенов
- Поддержка: текст, изображения, аудио, видео
- Дата обрезки знаний: январь 2025
- Стоимость: $0.15/млн входных токенов, $0.60/млн выходных токенов

📈 Сравнение с GPT-4o

- GPT-4o: 128K контекст, 16.4K макс.вывод, релиз 13 мая 2024
- Цена GPT-4o: в 16.7 раз дороже Gemini 2.5 Flash
- Бенчмарки GPT-4o: MMLU (85.7%), HumanEval (90.2%), MATH (75.9%)
- Gemini 2.5 Flash в Humanity's Last Exam: 12.1%

🔄 Сравнение с Claude 3.7 Sonnet

- Claude 3.7 Sonnet: 200K контекст, 8,192 макс. вывод, релиз 2 апреля 2025
- Цена Claude: в 17.3 раза дороже Gemini 2.5 Flash
- Бенчмарки Claude: MMLU (84.8%), HumanEval (89.1%), GSM8K (95%)

⚡️ Сравнение с OpenAI o4-mini

- o4-mini: 200K контекст, 100K макс.вывод, релиз 16 апреля 2025
- Цена o4-mini: в 7.3 раза дороже Gemini 2.5 Flash
- Бенчмарки o4-mini: GPQA (81.4%), AIME2024 (93.4%), MMMU (81.6%)
- В Humanity's Last Exam: o4-mini — 14.28%, Gemini 2.5 Flash — 12.1%

🔍 Ключевые различия

vs GPT-4o:
- Gemini 2.5 Flash: больше контекст, дешевле, поддержка голоса и видео

vs Claude 3.7 Sonnet:
- Gemini 2.5 Flash: дешевле, больше контекст, больше модальностей

vs o4-mini:
- Gemini 2.5 Flash: больше контекст, намного дешевле
- o4-mini: чуть лучше в бенчмарках

💡 Особенности Gemini 2.5 Flash

- Контролируемое рассуждение: бюджет на "размышления" (0-24,576 токенов)
- Гибридное рассуждение: балансирует скорость/качество
- Экономичность: лучшее соотношение цены/производительности
- Мультимодальность: все типы контента
- Огромный контекст: 1M токенов

⛏ Реальные тесты

- Скорость: 142-199 токенов/сек
- Сильные стороны: кодирование, математика (с режимом расширенного рассуждения)
- Экономия на длительных задачах

🎙 Вывод

Gemini 2.5 Flash — экономичная альтернатива: в 7-24 раза дешевле конкурентов, с большим контекстом, гибким контролем рассуждений и поддержкой всех модальностей. Идеально для задач с большими объемами данных при ограниченном бюджете.

Читать полностью…

Neurogen

21 апреля 2025 11:34

SkyReels‑V2 - новая SOTA среди open-source моделей для генерации видео

SkyReels‑V2 — открытая система генерации видео произвольной длины по текстовым и визуальным подсказкам. Благодаря технологии Diffusion Forcing обеспечивает бесшовное продолжение кадров и создаёт «бесконечную» ленту.

Основные возможности
• Text‑to‑Video (T2V): ролик по текстовому описанию
• Image‑to‑Video (I2V): превращение одного изображения в анимацию
• Prompt Enhancer: встроенный LLM для расширения и детализации подсказок
• USP/xDiT: распределённый инференс между GPU для ускорения вывода
• SkyCaptioner: автоматическая генерация субтитров и аннотаций
• В планах: модуль «Camera Director» и выпуск версии с 5 B параметров

Конфигурации и аппаратные требования

Версия Кадров × разрешение Необходимая VRAM (1 GPU)
DF‑1.3 B 97 × 540 P ≈ 15 ГБ
DF‑14 B 97 × 540 P ≈ 51 ГБ
T2V‑14 B 121 × 540 / 720 P ≈ 43 ГБ

Ключевые технологии

Diffusion Model: «очистка» шума и восстановление деталей

Diffusion Forcing: фрагментарный шум и поэтапное восстановление для «бесшовности»

Reinforcement Learning: оценка плавности кадров и оптимизация поведения

Supervised Fine‑Tuning: доводка на высококачественных видеоматериалax

Производительность
• Human Bench: 3.14/5 — лучший среди открытых решений, близко к коммерческим сервисам
• V‑Bench: 83.9 % — наивысший показатель качества в open‑source

Все доступные варианты уже можно скачать на HuggingFaces

Протестировать онлайн можно на официальном сайте Skyreels

Ну что же, теперь ждем квантованные GGUF версии и поддержку в ComfyUI

Читать полностью…

Neurogen

20 апреля 2025 23:59

Нейро дайджест за неделю

🧠Модели:

🟡OpenAI запускает GPT-4.1: новое поколение AI-моделей
GPT-4.1 — флагманская модель для сложных задач
GPT-4.1 Mini — более доступная для разработчиков версия
GPT-4.1 Nano — самая легкая, быстрая и дешевая модель OpenA

🟡 GPT-o3 и o4-mini - GPT-o3 - Самая мощная модель OpenAI для сложных рассуждений ; GPT-o4-min - меньшая модель, оптимизированная для быстрого и экономичного рассуждения

🟡Grok Studio: новый инструмент от xAI для создания документов, кода и игр - совместное рабочее пространство с ИИ для создания разных типов контента. Грок позволяет открывать созданный контент в отдельном окне, что значительно улучшает процесс совместной работы

🟡Gemini 2.5 Flash - Это первая полностью гибридная модель рассуждений Google, которая балансирует производительность со скоростью и экономической эффективностью. Ключевая особенность — возможность управления "мышлением" (thinking capabilities).

Технические характеристики

- Контекстное окно: 1 миллион токенов
- Максимальный вывод: 65 тысяч токенов
- Мультимодальность: Поддержка текста, изображений, аудио и видео
- Дата выпуска: 17 апреля 2025
- Дата обрезки знаний: январь 2025
- Стоимость: $0.15 за миллион входных токенов и $0.60 за миллион выходных токенов

🧑‍💻Разработки/технологии/исследования/прочее:

🟡Судья в Нью-Йорке не позволила AI-аватару выступить в апелляционном суде - В Верховном суде апелляционной инстанции Нью-Йорка произошел необычный инцидент, когда основатель стартапа Pro Se Pro Джером Девальд попытался использовать AI-аватар для представления своих аргументов. Судья Салли Мансанет-Дэниэлс немедленно прервала эту попытку.

🟡OpenAI запускает социальную сеть - Компания OpenAI, создатель ChatGPT, разрабатывает собственную социальную платформу. Информацию подтвердило издание The Verge, ссылаясь на несколько надежных источников.

Читать полностью…

Neurogen

18 апреля 2025 16:24

🚀 Монетизируй ИИ: стань Reels-мейкером за 3 дня

Хочешь зарабатывать на тренде, который только набирает обороты?
🔹 Ты интересуешься нейросетями
🔹 Уже пробовал ChatGPT, Midjourney или CapCut
🔹 Думаешь, как превратить это в доход?

📣 Добро пожаловать на реалити-интенсив "Reels+ИИ" — практикум, где ты:

✔️ создашь вирусный Reels с помощью нейросетей
✔️узнаешь, как получать заказы без опыта
✔️ научишься работать с нейросетями

🎯 Мы покажем: — как за 20 минут собрать ролик, который выглядит как у продакшена
— как выйти на стабильный доход от 70К до 350К в месяц

💡 Даже если ты: — ничего не монтировал и не знаешь, как себя продать

Мы всё разложим по шагам.
С нами — уже десятки учеников, которые зарабатывают с нуля. Теперь твоя очередь.

🎁 Всем участникам: подборка бирж с заказами.

📅 Старт уже 22 апреля.
Регистрация не требуется, интенсив пройдёт в телеграм канале: /channel/+csDGdG4LdaowYzcy
Подробности в закрепленном сообщении.

Реклама, erid: 2W5zFJ8zY3z
ООО «Рилу», ИНН 5032204380

Читать полностью…

Neurogen

17 апреля 2025 23:43

🧠 GPT-o3 и o4-mini: Новейшие модели OpenAI для продвинутых рассуждений

📊Общие характеристики

GPT-o3:
- Самая мощная модель OpenAI для сложных рассуждений
- Превосходит все предыдущие модели компании в областях программирования, математики, науки и визуального восприятия
- Полный доступ ко всем инструментам ChatGPT (веб-поиск, Python, анализ файлов и изображений, генерация изображений)
- Устанавливает новые рекорды в бенчмарках SWE-bench, Codeforces и MMMU

GPT-o4-mini:
- Меньшая модель, оптимизированная для быстрого и экономичного рассуждения
- Превосходная производительность для своего размера и стоимости
- Особенно сильна в задачах математики, программирования и обработки изображений
- Устанавливает новый рекорд для AIME 2024 и 2025

⚙️Технические данные

GPT-o3:
- Цена API: $10 за миллион входных токенов, $40 за миллион выходных токенов
- Результат в SWE-bench Verified: 69.1% (без специального скаффолдинга)
- Производительность в кодинге на ~20% выше предыдущих моделей
- Превосходит o1 на сложных реальных задачах с уменьшением серьезных ошибок на 20%

GPT-o4-mini:
- Цена API: $1.10 за миллион входных токенов, $4.40 за миллион выходных токенов (аналогично o3-mini)
- Результат в SWE-bench Verified: 68.1%
- Значительно более высокие лимиты использования, чем у o3
- В несколько раз экономичнее o3 при сравнимом качестве на многих задачах

🔍Ключевые возможности

"Мышление с изображениями":
- Оба могут интегрировать изображения непосредственно в процесс рассуждения
- Анализируют загруженные фото, скриншоты, чертежи и схемы
- Работают с изображениями низкого качества, размытыми или перевернутыми
- Могут манипулировать изображениями в ходе рассуждения (поворот, масштабирование)

Улучшенное следование инструкциям:
- Более точное выполнение сложных многоступенчатых задач
- Используют разнообразные инструменты в процессе рассуждения
- Реагируют и адаптируются к новой информации в ходе решения задач

📈Результаты тестов

Математические способности:
- o3: Значительно улучшенная производительность в сложных математических задачах
- o4-mini: Новый рекорд для задач AIME 2024/2025

Программирование:
- Тесты LiveBench: o4-mini показывает результаты на уровне 85-90% от o3 при значительно меньшей стоимости
- Решение реальных задач на GitHub (SWE-bench): o3 - 71%, o4-mini - 68% (предыдущие модели: o3-mini - 49%)
- Codeforces: o3 демонстрирует рекордные показатели среди всех моделей OpenAI

Многоязычность:
- o3 улучшает многоязычные возможности по сравнению с o1
- o4-mini превосходит o3-mini во всех 14 тестированных языках
- Средний результат MMLU в переводе: o3 - 88.8%, o4-mini - 85.2%

⚠️Ограничения

- Модель o4-mini склонна к большему количеству галлюцинаций по сравнению с o3 и o1
- o3 имеет высокую стоимость использования, что может ограничивать повседневное применение
- Оба инструмента демонстрируют некоторые проблемы в сложных многоступенчатых задачах

🚀Доступность

- Доступны для подписчиков ChatGPT Plus, Pro, и Team уже сейчас
- Enterprise и Edu пользователи получат доступ в течение недели
- API-доступ открыт для разработчиков (может потребоваться верификация организации)
- Для бесплатных пользователей: ограниченный доступ к o4-mini через опцию "Think" в интерфейсе

Читать полностью…

Neurogen

16 апреля 2025 17:05

Вышел Grok Studio: новый инструмент от xAI для создания документов, кода и игр

Что такое Grok Studio?

Grok Studio — это совместное рабочее пространство с ИИ для создания разных типов контента. Грок позволяет открывать созданный контент в отдельном окне, что значительно улучшает процесс совместной работы. Официальный аккаунт Grok в X (бывший Twitter) описывает новую функцию так:

"Сегодня мы выпускаем первую версию Grok Studio, добавляя выполнение кода и поддержку Google Drive. Grok теперь может генерировать документы, код, отчеты и браузерные игры. Grok Studio откроет ваш контент в отдельном окне, позволяя вам и Grok совместно работать над содержимым."

Ключевые возможности Grok Studio

🟡Разнообразное создание контента

- Генерация документов и отчетов: можно создавать структурированные документы или аналитические отчеты через естественно-языковые инструкции.

- Написание и выполнение кода: поддержка языков программирования, включая Python, C++, JavaScript, TypeScript и bash-скрипты, с возможностью просмотра результатов в реальном времени.

- Разработка браузерных игр: можно создавать простые браузерные игры через промпты, с автоматической генерацией JavaScript-кода и играбельными демо-версиями.

🟡Интеграция с Google Drive
Grok теперь может напрямую работать с файлами в Google Drive, включая документы, таблицы и презентации. Это значительно улучшает рабочий процесс, позволяя пользователям анализировать и модифицировать существующие файлы.

🟡Совместная работа в реальном времени
Предоставляет окно для совместной работы в реальном времени, подобное Google Docs, что делает его идеальным для удаленных команд или образовательных сценариев.

🟡Предварительный просмотр кода
Grok Studio позволяет просматривать HTML-сниппеты и запускать код прямо в браузере, что особенно полезно для быстрого прототипирования и отладки.

Доступность Grok Studio

В отличие от Canvas от ChatGPT, который доступен только платным пользователям, Grok Studio доступен всем пользователям бесплатно. Это значительное преимущество, которое делает инструмент более доступным для широкой аудитории.

Существуют, однако, различия между бесплатным и платным доступом:
- Бесплатные пользователи: имеют доступ к базовым функциям, включая ограниченную генерацию кода и обработку документов.
- Платные пользователи (X Premium+ за $40/месяц или SuperGrok за $30/месяц): получают более высокие квоты генерации, приоритетный доступ и дополнительные функции, такие как DeepSearch и режим Think Mode.

Технологические особенности

Функция предварительного просмотра в реальном времени является одним из ключевых преимуществ Grok Studio. Независимо от того, генерируете ли вы веб-страницу, визуализацию данных или игру, вы можете мгновенно видеть результаты выполнения кода, что значительно сокращает время отладки.

По данным AIbase, эта функция использует преимущества оптимизации обучения с подкреплением Grok-3 и поддержки вычислительного кластера Colossus, делая скорость вывода на 30% быстрее, чем у Grok-2.

Сравнение с конкурентами

Grok — не первый чат-бот, получивший специальное рабочее пространство для работы с проектами:
- OpenAI запустила аналогичную функцию Canvas для ChatGPT в октябре прошлого года
- Anthropic стал одним из первых, кто представил подобный инструмент под названием Artifacts для своего чат-бота Claude

Однако, Grok Studio выделяется своей многофункциональностью и доступностью для всех пользователей без необходимости платной подписки, что является существенным преимуществом перед ChatGPT Canvas.

Перспективы и ограничения

Несмотря на мощный функционал и все преимущество грока, код для сложных игр может требовать ручной оптимизации, и также есть незначительные ограничения.

Компания xAI заявляет, что Grok Studio продолжит развиваться, планируя добавить мультимодальную поддержку (такую как генерация видео), расширенную языковую поддержку и API для корпоративных нужд.

Поробовать можно на официальном сайте https://grok.com/ , через платформу X или через мобильное приложение Grok (IOS , Android)

Читать полностью…

Подписаться на канал