А вообще вот список всех моих GPT на данный момент:
🥇 Imaginative Edit, Recreate & Merge — Позволяет сделать творческое редактирование картинок, пересоздание их и склеивание. Бонус: можно быстро получить txt2img промпт любой картинки и пойти дальше с ним в MJ или еще куда-то. Эту GPT использую постоянно.
🥇 Aesthetics Prompt Enhancer — отправляете ей txt2img промпт, или вызываете ее через @ в любом чате и она делает этот промпт «эстетически лучше». Промпты совместимы с MJ. Эту GPT использую постоянно.
🥇 Antibanality Ideas Processing — GPT с креативным размышлением, о ней пост выше.
🥇 Creative Ad Maker — уже постил в канал: внутри большой датасет разных креативных рекламных кейсов, их GPT4 использует чтобы придумать креативную рекламную идею для вашего продукта.
🥇 Growth Hacking Expert — уже постил в канал: если у вас маленький бюджет на маркетинг, тут вы можете придумать идеи гроухаков. Внутри тоже большой датасет удачных идей из истории интернета.
🥇 Game Character Diary — эта GPT позволит писать «дневник» от любого игрового персонажа. Сначала она погуглит цитаты и лор, а потом попробует что-то написать из этой вселенной, будто сам персонаж записывает свои мысли в дневник. Работает с NPC тоже, если есть любимый лор, можете попробовать — передайте ей название игры и имя персонажа.
🥇 img2waifu — берет любую картинку и делает кошка-жену из нее (даже из бытовых предметов и транспорта).
🥇 Cartoonize Family Photo — скармливаете семейное фото, получаете Dalle версию в виде мультяшек.
🥇 GLSL / Processing -> WEB HTML5 — очень техническая GPT: я люблю шейдеры, эта штука позволяет конвертировать код шейдера GLSL или Processing в HTML5, ну чтобы анимации всякие на сайте делать прикольные. Работает через раз, но иногда прям клево.
Как видите, все подряд и много бесполезного – но главное на нейрончках 💕🧡
Рубрика «взгляд в будущее»
Как вы знаете, в свежей Gemini 1.5 Pro контекстное окно составляет 1 миллион токенов, при этом модель умеет принимать на вход видео. 1 миллион токенов позволяет вместить:
— 1 час видео (1 кадр/с)
— 11 часов аудио
— больше 700 тысяч слов (вся «Война и мир» с запасом)
Пока Google делает внутреннее тестирование контекста в 10 миллионов токенов, первые пользователи получили доступ к базовой версии и экспериментируют. Основная киллер-фича — модель очень хорошо ищет факты во всем промпте. Если спрятать там один кадр или одну фразу в длинном контексте — более чем в 98% случаев модель их находит (лучше GPT-4).
И это позволяет помечтать о невероятных способах использования. Если раньше мы думали «о, ща напишу инструкцию и модель сделает задачу», то вот тут в треде показывают, как девушка загрузила видео с записью экрана работы в браузере, а затем попросила Gemini написать код для автоматизации. Модель почти справилась — потребовались минорные доработки (в духе установки библиотек и изменения пары строк).
Поняли?
1) Записываем экран удалёнщиков в течение полугода
2) Агенты смотрят записи и учатся
3) Агенты пишут код для автоматизации
4) Повторять до тех пор, пока остаются задачи, выполняемые человеком
Представьте что в GPT-6 можно загрузить 500 часов примеров выполнения ваших задач — как думаете, справится с большинством?
Оригинал (с видео)
Я вижу большой резонанс со стороны разработчиков на тему их будущего, поэтому дополню вчерашний свой пост про слова CEO Nvidia:
Швейцарский банк UBS, в виде блог-поста, но тоже считает что написание кода уже устаревший навык и относится к нему соответствующе – пост опубликован в этом месяце, об этом будут говорить все чаще и чаще разные организации и люди.
Если вы разработчик, давайте я вам помогу победить тревожность насчет профессионального будущего и напишу свои мысли как защититься от АИ-лейоффа:
– Люди, системно мыслящие и придумывающие архитектуры будут заменены АИ последними.
– Код написанный АИ нужно будет тестировать, вычитывать, проверять на безопасность, дебажить, делать это должны люди все еще.
– Не игнорируйте прогресс и все эти копилоты или GPT по написанию кода, вы как минимум будете всегда понимать что возможно уже автоматизировать и что нет, или как добиться нужных результатов чейнингом. Лучше полноценно в работе использовать GPT4 (это еще и позволит быть более ленивым, круто же).
– Если промпт инженеринг для вас новая сфера, то вот вам официальный гайд от OpenAI, он небольшой и с ним будет понятно, что это довольно простой навык.
– Гляньте как работают функции в OpenAI или грамматика в локальных языковых моделях, это позволит вам получать строгие JSON форматы в ответах.
– Не недооценивайте minh.hoque/what-are-llm-chains-671b84103ba9">чейнинг (это когда ответ от LLM подается ей на вход, но с другим промптом-командой в стиле «найди проблемы этого подхода»), эта стратегия сильно замедляет получение результата, но позволяет решать задачи очень высокого уровня.
Пожалуй все, если вы будете это все применять то мягко перейдете в новую профессию «Lead AI supervision developer» или как там ее назовут в будущем ☕️
Короче заменять будут тех, кто не использует АИ как фундамент для решения задач, я думаю так будет почти в каждой профессии, как в свое время стало с навыком «Уверенный оператор ЭВМ»
P.S. А вот детей можно сразу промптингу учить, для них это будет нативный язык взаимодействия с OS
CEO Nvidia говорит, что детей можно уже не учить программированию, так как за написание кода будет отвечать АИ и в будущем все будут программировать промптингом
Я, пожалуй, согласен – GPT4 уже закрывает все мои бытовые потребности по написанию кода, еще года 4 и системам автоматического написания кода можно будет доверять какие-то крупные части рабочих проектов, где таск из Jira попадает в работу сразу же после описания фичи / бага
Промпт инженеринг пока выглядит как самый ценный скилл во всем этом АИ-хаосе. Ну и по настоящему все эти АИ штуки раскрываются только если вы уже эксперт в какой-то теме, так что спрос на системно мыслящих программистов промпт инженеров никуда не денется
Давно мы про Midjourney v6 не вспомнили – мне вот интересно какая именно картинка приведет к регуляции и каким-то более серьезным вотермаркам ☕️ эта или будет прям конкретная которая скандал вызовет
Читать полностью…Давно про игры не писал:
Не знаю как у вас, но для меня игра этого года уже понятна – попаданцы в средневековье ☕️
Steam ссылка
Гугл, кажется, немного переборщил с инклюзивностью в своей версии чатгпт Gemini, точнее в фиче генерации картинок ☕️
Я думаю, люди которые это сделали, не очень понимают, что они больше вредят обществу, чем помогают – наша история баесная, но она какая есть, другой нет, любые попытки ее подменить и сделать «справедливой» вызывают гнев и отторжение у многих
В самой концепции инклюзивности я вижу много пользы, особенно для малых народов, но такая реализация тупо раздражает и долгосрочно вредит самому понятию «инклюзивность» – люди просто будут думать, что это какая-то тупая фигня когда рандомишь цвета кожи и гендеры в результатах, без вникания в детали
Sora: генерит ультрареалистичные видео
Will Smith: hold my beer
Норм все у мужика с самоиронией 😺
Новая подборка генераций видео SORA – в том видео где много разных сегментов и фокус со снегом, это не нарезка, это SORA может с одной генерации сразу сделать такую нарезку с кучи «ракурсов» ☕️
Читать полностью…Забавный случай из Канады:
>Местная авиакомпания запустила чатбота поддержки на сайте, который выдал клиенту неправильную информацию по политике возврата билета
>Чел купил билет и попытался его вернуть по условиям чатбота, авиакомпания отказалась
>Чел написал жалобу местному регулятору и начались слушания, где авиакомпания месяцами утверждала «что информация выданная чатботом может быть неточной и вообще это другое юрлицо» и «бот же выдал ссылку на страницу с политикой возврата, пользователь сам должен был проверить информацию на корректность и почитать ссылку» (🤔)
>По результату слушаний Air Canada заставили частично погасить челу возврат билета, примерно половину от стоимости всего билета в ~1200$)
Защита в стиле «Чатбот это самостоятельная сущность за которую мы не несем ответственность» не прошла, кто бы мог подумать. Это уже не первый такой случай в мире, где чатбот компании отвечает какой-то нонсенс, и регулятор дальше заставляет компанию исполнять «придуманные» условия – мне кажется это клевым, так как компания экономит на персонале такими чатботами, будут лучше понимать как языковые модели работают 😂
Закончу сегодняшние восторги по SORA двумя примерами img2vid из статьи выше – на входе ей подали картинки, а на выходе получили анимированные сцены ☕️
Так что скоро все наши любимые картинки и мемы оживут, не может не радовать
Пришла философская мысль на тему того, что гигантские модели способны сжимать целые вселенные в файл модели:
Это, конечно, не та Матрица которую мы видели в кино – но вполне себе вселенная которая существует в момент инференса модели и в тех сценах которые мы наблюдаем, в этой симуляции есть законы мира, какой-то лор и герои, и в теории, эта вселенная может существовать настолько долго, насколько люди в OpenAI держат генерацию видео включенной.
Это не значит, что в SORA возник «виртуальный мир», но представим что на дворе 2034 год и в мультимодальных генеративных моделях, помимо генерации видео есть генерация звука и сюжета. Я почему-то уверен, что если вы попросите такую модель сгенерировать офисного сотрудника – то в офисе будет какая-то жизнь, разговоры, а на экранах будут программы, которые возможно будет посмотреть и скорее всего люди в фоне будут делать что-то осмысленное (для желающих копнуть глубже эту мысль, можно почитать про Сложность Колмогорова
).
В этом же конечная цель, симулировать миры настолько качественно – насколько возможно, не строя их руками, как в геймдеве, а именно «обучая» на основе данных реального/выдуманных миров.
И как вы сами видите – скорость развития технологий только набирает обороты, так что вероятно та серия из «Черного зеркала» про местный Netflix станет вполне реальной.
Иронично будет если окажется, что мы все живем в симуляции, и в этой симуляции возник OpenAI который смог построить новые стимуляции и сервак где крутится наш мир начнет тормозить или что-то в таком духе ☕️
Видео сделано по запросу: Исторические кадры Калифорнии времен золотой лихорадки
Сделал очередную GPT:
Если вы использовали GPT4, то вы наверное знаете что у нее все плохо с креативностью — я так понимаю в датасете частенько встречались какие-то пафосные статьи в стиле топ-10 идей которые вам изменят вашу жизнь, короче, с момента релиза я ее постоянно мучаю чтобы она была самой креативной и она постоянно сопротивляется.
В этот раз я решил пойти чуть дальше:
Я нашел пейпер в котором профессор из Кельна подымают вопрос «Паттернов креативного мышления» (pdf). В документе описано, что научиться креативному мышлению можно так же как и аналитическому и описано как это сделать. Дальше я отправил этот документ в Claude 2.1 с его гигантским размером контекстного окна и попробовал выжать «алгоритм» креативного мышления — от первой мысли до финального результата.
В итоге, я получил довольно большой набор «мыслей» на которые человек должен найти ответ, чтобы решить задачу в самом креативном виде.
В 2024 году людям мыслить уже не модно, поэтому я скормил эти шаги в гигантский промпт и сделал из этого GPT. На скринах пример идеи для свидания в Амстердаме:
Обычный ChatGPT vs Моя «Antibanality Ideas Processing».
Воспринимайте мои слова скептически (лучше так делать всегда), но как мне кажется это пока самое креативное на что способна GPT4 в своих ответах (во всяком случае из всего моего личного опыта). Если переедем на GPT5, то ответы станут еще лучше.
Ссылка на GPT:
https://chat.openai.com/g/g-zucYjaMne-antibanality-ideas-processing
⚙️ Важно: вы можете не читать все промежуточные этапы, они нужны только для того чтобы своими рассуждениями GPT4 повысила сама себе качество ответа — читайте сразу пункт «7. Финальная идея» когда он будет готов.
P.S. Языки поддерживуются все, дефолтный английский. В одно сообщение все помещается только на английском, другие языки жрут больше токенов так что просто напишете ей «продолжи» или нажмите кнопку ▶▶.
P.P.S. Если идея недостаточно детально расписана, можно попросить уточнить детали, написанные «размышления» в чате помогут ChatGPT сохранить кретиавность.
Mistral выложили свою новую, самую большую их модель, Mistral Large. Модель, которая по своим характеристикам находится между игроком #1 (GPT-4) и #3 (Claude 2) пока не доступна в виде весов и исходников, а только в виде API на платформе La Plateforme и беты ассистента le Chat.
👁️👁️ https://mistral.ai/news/mistral-large/
Новое sora-видео – я листая ленту даже не сразу понял, что это генерация ☕️
Теперь OpenAI каждый день openai/">постит в тикток кстати
Наткнулся на любопытное научное исследование из 2016 — в нем ученые решили проверить 200-летнюю теорию о юморе Шопенгауэра, пересказать эту теорию своими словами можно так: юмор это нарушение устоявшихся паттернов, чем неожиданнее то, что вы видите, слышите или возникшая мысль — тем вам смешнее (идеальное описание мемов).
В научной работе исследователи решили проверить не весь юмор, а конкретно «выдуманные слова» — то что часто смешит детей и тех кто учит другие языки (привет голландскому от говорящим на английском).
Теория была такая:
Если юмор, это неожиданное нарушение паттернов, то в выдуманных словах можно найти математическую последовательность которая будет гарантировать, что слова будут восприниматься как смешные.
Они придумали некую метрику которую назвали «энтропия Шеннона» — когда слово содержит звуки какие вы ожидаете услышать, у него низкая энтропия и наоборот. Таким методом они нагенерировали кучу слов которые в английском не существуют и пошли тестировать на людях.
Оказалось что, для англоязычных людей слова вроде:
retsits, tessina, heashes, anceste и тп, самые смешные, (весь список можете посмотреть в документе на странице 15).
Поскольку, не носителям языка сложно понять, что в тех словах смешного, я повторил эксперимент: выдрал с Claude 2.1 правила придумывания таких слов, и уже с GPT4 написал их по этим правилам, вот смешные (не путать с кринжом) слова на русском:
жыглыб
взбрыкшмыг
тщэвлоп
гыбздюль
швюрглеп
фюдлыквам
чмырьблюк
жвакрыпт
крыжмопль
плезгяфт
Arc браузер на iOS завез эту фичу о которой я недавно писал в канал – просто уменьшаете страницу до размера плитки и появляется короткая суммаризация страницы, довольно клево придумали (саммари пишется на языке системы)
Скачать на iOS тут
Сотрудник гугла вчера сказал, что они починят исторические генерации. Но пока проблема шире чем исторические картинки: Gemini отказывается делать гламурные картинки с белыми – это не разовый случай, их много
Погламурничали много веков и хватит, чертовы колонизаторы – и подумаешь что есть всякие там славяне и тп, белые же – значит привилегированные 🤔
Рецепт к шитшоу от гугла:
1) Злишь вообще всех издеваясь над историей
2) Злишь белых обращая слишком много акцента на цвет кожи, там где это не уместно
3) …
4) Profit
“Любая достаточно развитая технология неотличима от магии” (Артур Кларк)
Это — телефонный разговор с роботом на другом конце. Поражает скорость инференса всего этого на лету (800мс задержка до проигрывания ответа) и качество эмоций. Можно попробовать самому на их сайте (это действительно работает).
Приятно, что хорошая инженерия всё ещё может быть ключевой основой хорошего продукта.
Я почитал комментарии в соц сетях про Sora и если коротко — люди в ужасе.
На моей памяти уже третий раз за два года люди в ужасе от технологий — сначала в ужасе были художники, потому писатели, теперь люди работающие с видео.
И мне кажется «ужас в обществе» как явление, до этого века было сильно реже, общества успевали адаптироваться, к новому темпу мы явно не привыкли:
Печатный станок изобрели в 15 веке — люди того времени были напуганы, что теперь еретики будут печать свои неправильные тексты и это нанесет удар по церкви;
Паровой двигатель изобрели в начале 18 века — это был главный двигатель индустриальной революции, многие выступали против изобретения парового двигателя, потому что он «отнимает рабочие места»;
В 19 веке люди постоянно жили в страхе от этого вашего технологического прогресса что аж появились луддиты — сначала изобрели первую фотокамеру, люди были напуганы тем, что это нарушит приватность. Позже появился телеграф, который мог быть использован для спекулятивной торговли на рынках ценных бумаг и сильно изменил рынок доставки почты. Потом Эдисон придумал свою лампочку и куча людей стало выступать против электричества потому что «оно убивает», я даже в канал постил плакаты того времени. И конечно же железные дороги и автомобили — все это вызвало огромную критику из-за аварий, потерю рабочих мест, отказа от лошадей в транспорте (как вообще они посмели). Изобретение кинематографа вызвало огромную критику со стороны любителей театра. Также было с граммофонами — реальная музыка только в концертном зале, пропагандировали плакаты того времени.
В 20 веке не хватит никакого поста, но все равно многие изобретения которые попадали «в народ» и меняли рабочие места, случались не каждый год, они случались в 5-10 лет — открытие пластика, ядерной энергетики, ГМО, интернета, ТВ, телефонов — все это случалось как бы мягко, хоть и было страшно, у общества было время подстроится.
Этот век — это что-то новое, теперь открытия которые могут поменять жизнь каждого, оставить кого-то без работы, происходят по нескольку раз в год и это не оставляет никакого времени на адаптацию тем людям кто не понимают как технологический прогресс устроен, поэтому — многие в ужасе.
Короче мне кажется нам всем сильно повезло жить в это время, несмотря на все минусы типа войны и ренессанса диктатур, с точки зрения прогресса это самое удивительное время за всю историю.
И это еще AGI не изобрели, который просто каждый день начнет что-то открывать 🔄
Тихо мирно, без объявлений, GPT-4 Turbo дообучили на данных до декабря 2023-го года.
Проверить документацию можете сами тут.
Для меня самое интересное, что модель теперь (по идее) должна знать все свежие статьи по LLM, уметь писать промпты, знает разные трюки для оптимизации. Интересно было бы попробовать поиграться с этим, жаль пока времени нет.
Странно, что об этом никто нигде не пиcал, хотя модель как будто бы должна была выйти в январе, с месяц назад. В веб-архиве так и не смог загрузить копию, чтоб проверить.
Собрал новую порцию генераций SORA, я бы конечно многое отдал чтобы в бету напроситься 😢 хочу свой кино Сэм памани
Обратите внимание на руку парня на пляже
И еще про симуляцию миров:
Вот так SORA пытается воспроизвести вселенную Minecraft обучившись только на видео геймплея – и так сработает с любой игрой
Наконец-то можно будет поиграть в DOS версию «Поле чудес» в 3D
Лол, пока писал этот пост вышла техническая статья разбора SORA от OpenAI с заголовком:
«Модели генерации видео как симуляторы миров»
https://openai.com/research/video-generation-models-as-world-simulators
Если бы я родился 100 лет назад и увидел бы это видео, то я бы стал «адвентистом второго пришествия пластикового стула», серьезно вам говорю, представьте каково будет «уфологам» в эпоху генеративных видео.
Даже ошибки модели SORA интересно рассматривать
Просто посмотрите на это качество, о-ф-и-г-е-т-ь
У многих txt2video стартаперов FaceId сегодня не работает