48094
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие. Для связи: @SergeyTsyptsyn
ОМОСТ
Держите новый подарок от автора ControlNet.
Это даже сложно описать.
Omost включает в себя разные опенсорсные модели LLMs (лама, дельфин, фи-3), которые (нет, не пишут промпты) они пишут код на Питонге(!) для компоновки содержимого картинки. А дальше, с помощью виртуального агента Canvas, этот код может быть посчитан специальными реализациями генераторов изображений для создания реальных изображений.
Понятно?
Короче, теперь ваш убогий промпт раскучерявливается в огромную простыню кода на Питонге. А потом вы просто жмете - ДАВАЙ КАРТИНКУ. И оно дает.
Но код на питоне сделан так, что в нем очень много чего описано структурно, от композиции до стиля, и можно методом очень пристального взгляда все это приподпонять.
Надо скачивать, ставить и смотреть на то, какие чекпойнты внутри. Это явно Stable Diffusion, именно в него выход из агента Canva, который переводит питонг в токены.
https://github.com/lllyasviel/Omost
А вот это уже слишком нарядно, чтобы быть правдой.
Тут под капотом LiquiGen от Эмбергена (и да, это РЕАЛТАЙМ), картинка из которого идет в StreamDiffusion.
Если это соединить со вчерашним постом про ToonCrafter, то за традиционные мультики можно налить холодненькой.
Вечером напишу пост про нейрорендер, накипело уже. В очередной раз.
Ну, за фазовщиков.
Если кто не помнит (95% не знают), что в классической мультипликации были три самые пьющие профессии. Фазовщики, контуровщики и заливщики.
Гениальный режисер-мультипликатор рисовал только ключевые кадры своей твердой (не всегда) рукой. На кальке. Типа мячик на земле, мячик в воздухе.
Потом приходили фазовщики, и дорисовывали недостающие кадры, чтобы было 12 кадров в сек. Это примерно то, что делает любой 3Д-пакет, интерполируя движение между ключевыми кадрами, поставленными аниматором.
Потом приходили контуровщики и обводили карандашные наброски жирными черными контурами и переносили все это на целлулоид.
Потом приходили самые пьющие, заливщики. Они переворачивали целлулоид и заливали внутренность контуров цветными красками. Чтоб было красиво и в соответствии с колор-чартом. Переворачивали, чтобы контур был "сверху" над заливкой, если перевернуть обратно.
Работа была ацкая, люди реально спивались (вы думали, откуда такая склонность выпивать не чокаясь).
Так вот, это подводка вот к такой работе.
Я малость офигел от качества интерполяции (фазовки). На входе два кадра, первый и финальный. Модель делает промежуточные кадры. И не просто линейной интерполяцией, а через свое обученной латентное пространство. Авторы настаивают, что она это делает нелинейно и, главное, "красиво". И что ее учили именно на мультиках и видосах, а не просто на картинках.
Самое удивительно, что есть и код, и бумага, и даже градио-демо.
Похоже, что производство мультиков можно очень сильно ускорить. Особенно вот это вот аниме, где герои еле шевелят головой, но ацки орудуют бровями.
Авторы, правда, сами признаются, что модель косячит с объектами на заднем плане, принимая их за неведомую фигню и делая ацкий шевеляж оных.
Но фазовки просто огонь. Попробуйте отрисовать лицо от профиля в анфас за 3-4 фазы и вы поймете, что это такое.
Для начала посмотрите примеры тут.
Огонь жеж.
Потом читайте свежую бумажку, если хотите.
Потом можно и в код:
https://github.com/ToonCrafter/ToonCrafter
Я знаю Влада еще по студии 100 киловатт, а возможно даже еще по ранней Синематеке. А потом Влад и Рома сделали Synticate, и это было прекрасно. Абсолютно дерзкие работы, безбашенный моушен-дизайн, аватары, репликанты, метаверсы.
Также Synticate были одними из первых, кто вкатился в нейросетки.
Видос в шапке они создали для выставки White Dragon by Satori-Me! Эта работа пошла по галереям Нью-Йорка, Лондона и Дубая.
Юзают Stable Diffusion в сочетании с 3D-анимацией. А сами называют этот стиль neuro motion.
И у них есть телеграм-канал - там много работ, полезные материалы для CG художников и просто отличный life-контент внутренней кухни студии.
Прастити. Не могу остановиться.
Это демо AnimateAnyone от NоvitaLabs наконец-то посчиталось через 40 минут. Напомню, что на входе фото в футболочке, а на выходе видео в джинсиках. Фотку брал как вот в этом посте.
Впору устраивать флешмоб.
Хорошо-хорошо, больше не буду. Щас про Амазон напишу.
Понятно, что на тяночках AnimateAnyone работает хорошо, ибо приучен.
А я присунул в соломорезку сурового поморского мужука.
Ох, как же доставляют синие штанишки по моде в облипку, которые он дорисовывает (по его мнению) к суровому туловищу. Видать, что-то знает про меня.
Ладно, пока расходимся. Качество - адъ.
https://huggingface.co/spaces/xunsong/Moore-AnimateAnyone
Вот держите ацкую смесь дипфейка, стилизации видео, генерации видео и даже стриминга в реальном времени.
Я уже много писал про такие приблуды - стриминг с камеры, обработанный быстрой диффузией уже ловко используется во всяких арт-инсталляциях.
Но эти китайские ребята настаивают на временной согласованности, они типа учитывают историю изменений кадров "назад" и декларируют реалтайм на 4090.
Насчет временной согласованности - я тут не увидел прорыва, все ацки кипит. Но возможность промптом бахнуть себе на лицо Илона Маска впечатляет.
Плюс код доступен и никакой цензуры.
Я не уверен, что там реалтайм - на A100 четырех секундный ролик в 30 fps генерится 9 секунд. То есть где-то 13 fps. Не думаю, что 4090 будет в 2 раза быстрее.
Снапчат со своими линзами делает все в разы быстрее и качественнее.
Мне нравится поход Stable Diffusion в стриминг - нас ожидают новые скины для окружающего мира, а степень доверия к тому, что показывают вам на экране и вовсе исчезнет. Но кого это трясет. Сontent is the King.
Все ссылки тут: https://jeff-liangf.github.io/projects/streamv2v/
И загляните в примеры: https://jeff-liangf.github.io/projects/streamv2v/supp/supp.html
https://youtu.be/k-DmQNjXvxA
Как разработчику или менеджеру в IT запустить свой пет проект?
Сидеть и работать в корпорации – страшно, жизнь-то мимо проходит. Уходить строить бизнес – страшно, а вдруг прогорит.
Один из вариантов – пилить свой проект по вечерам. Ведь многие успешные компании, типа Twitter, начинались как Пет проекты.
Мы не говорим, что пет проект обязательно заработает миллиарды. Но заработать денег больше, чем в найме, вполне реально, а уж опыта получить точно больше можно.
Но есть куча проблем и вопросов:
- Как выбрать идею для пет проекта?
- Что нужно знать про маркетинг?
- Как запуститься и довести до первых продаж не имея бюджета на рекламу?
Михаил Табунов сделал про все это телеграм канал Твой пет проект, в котором пишет для разработчиков и менеджеров про свой опыт – где брать идею, что надо знать про маркетинг, как запускать и искать первые 10 клиентов, и многое другое.
Так что подписывайтесь на Твой пет проект, получайте пользу от практиков рынка.
#промо
За AGI
Количество упоминания AGI всуе настолько возросло в последнее время, что, похоже, пора поговорить об этом. Особенно показательные дискуссии – «это уже AGI или еще не?»
Заранее скажу, что все это мне начинает напоминать ситуацию с метаверсиком, когда серьезные мужуки на сердитых щах поминали этот термин через слово, НЕ ИМЕЯ никакого определения для метаверсика. А те определения, которые бродили в сети отличались крайней расплывчатостью и полным отсутствием конкретики.
В общем, я поресерчил насчет определений AGI в интернетике и отобрал следующие.
«Artificial General Intelligence - способен выполнять большинство из задач, на которые способен человек»
«любой интеллект (их может быть много), который является гибким и общим, с изобретательностью и надежностью, сравнимыми с человеческим интеллектом (или превосходящими его)» (Гари Маркус)
AGI – это теоретическое стремление к разработке систем искусственного интеллекта, обладающих автономным самоконтролем, достаточной степенью самосознания и способностью осваивать новые навыки.(Амазон)
Особняком стоит определение от OpenAI:
«высокоавтономные системы, которые превосходят людей в наиболее экономически ценной работе»
Засада состоит в том, что нет никаких метрик, научных критериев, статистики(естественно), набора измеряемых признаков или параметров, счетчиков гейгера,позволяющих хоть как-то нащупать границы AGI. «обладающих автономным самоконтролем, достаточной степенью самосознания» - как вы собираетесь это измерять, если вы не философ?
Насколько я знаю в OpenAI есть исследования на тему проникновения ИИ в экономику, наверное, это правильный подход, но это скорее экономический интеллект, впрочем, вернемся к определениям.
И тут нас ждут сюрпризы. Ибо строгого научного определения для слова «интеллект» нет. Есть разные версии. Еще круче со словом “сознание” (которое любят включать в определения AGI). Я смотрел одно интервью с академиком Анохиным, где он упоминал, что определения для «сознания» выбираются на конференциях голосованием(!). Берут наиболее популярные, отсеивают совсем уж бред, а потом голосуют. И что популярных сейчас около семнадцати, а всего определений около пятидесяти. Мое мехматское прошлое просто воет от таких фактов – я привых иметь дело с одним определением и декомпозировать проблемы на основе четких определений.
Заодно я покидаю в вас терминами, которыми так любят оперировать определяторы AGI и не только они: понимание, знание, творчество, ощущение, самоблиносознание – попробуйте дать им определения.
Это я к чему: пока мы будем пытать определять AGI, оглядываясь на букву И в этой аббревиатуре, мы будем сыпать априори неполными определениями, которые либо неконкретные и потому стоят вдали от логики, либо узкие, и работают только в своих нишах. Это видно по тому, как стремительно появляются определения типа «сверхинтеллект» или «суперинтеллект» - попытки обозначить неполноту определения AGI путем расширения оной за пределы термина. Но все эти термины также не будут иметь полного определения. Из-за того, что для «И» его нет.
Тут я отвлекусь на такой факт. Тут недавно сознательные ученые приподсобрались и снова проголосовали за то, что у животные есть сознание. Мы тут понять не можем, снятся ли собакам сны, просто потому что не можем с ними поговорить об этом. А ученые решили, что у животных все такие есть сознание, уповая на «субъективный опыт» (и вольно определяя его по дороге).
В этом смысле с ИИ можно поговорить, гораздо лучше, чем с собаками. И он вам подтвердит, что сознание у него есть. Но вот только кожаным мы верим на слово, когда они говорят, что у них есть сознание, животным тоже верим, хотя их никто не спрашивал, а ИИ – не верим (отказываемся верить, хотя доказать не можем).
Hugging Face подрубили в Hugging.chat фичу Tools, которая расширяет функционал опенсорсных языковых моделей, позволяя им парсить документы, генерировать картинки, итд.
На старте пока работает только с Command + R, но список будет расширяться.
Из доступных сейчас инструментов:
* Web Search — поиск по интернету
* URL Fetcher — получение текста из страницы
* Document Parser — чат по PDF
* Image Generation — генерация картинки
* Image Editing — редактирование картинки
* Calculator — калькулятор
Если хотите, чтобы ваш инструмент был опубликован среди других, чирканите тут.
Дальше для Tools планируется: их использование AI-агентами; подтягивание ранее сгенерированных/загруженных файлов; люди смогут подрубать собственные модели на ZeroGPU как инструменты для себя или AI-агентов; и т.д.
Интересно они смогут это как-то подружить с Use this мodel, чтобы гонять расширенный функционал локально?
Попробовать
Анонс
Rodin (Родэн) GEN-1: тестируем.
Я поиграл с ним, присунул им своего низкополигонального перца (в надежде, что он воспримет это как подсказку). Но нет, моделька, конечно, не айс. Но замысел он угадал.
Их основной посыл - уточняющий цикл генерации, вы можете менять параметры и возвращаться к уже имеющейся модели. Но будете платить кредиты, то есть деньги.
Сетка получилась плотная, ни о каком лоу поли речи не идет, но хотя бы не каша из треугольников. И потом он честно попытался сделать текстуру и материал. И еще у них забавный режим Toon для просмотра.
Скачал модель в obj, потратил на всепровсе 5 кредитов.
Очень ждем модель OpenClay600M, пока вся генерация идет на старой модели Rodin Gen-1.
https://hyperhuman.deemos.com/rodiс
Парень провёл абсолютно гениальный эксперимент — «Обратный тест Тьюринга».
Он создал на Unity купе, где собрал известных исторических личностей под управлением разных ИИ. Задача безумная — нейросети знают, что среди них есть человек и им нужно его вычислить. Задача чувака — правдоподобно отыграть ИИ-Чингисхана, чтобы не покупать билет.
Специально для вас сделали перевод на русский язык.
@exploitex
Поставьте 72.5 реакции и я наконец-то напишу про AGI. Ибо откладываю уже три месяца. А наболело.
Читать полностью…
Тут вот все опять цитируют МакКинзи, который теперь строчит аналитические прогнозы про ИИ.
Я поднял свой пост двухлетней давности, где они на серьезных щах ванговали, что рынок Метаверса достигнет в 2030 году размера в ПЯТИ ТРИЛЛИОНОВ долларов. Ну то есть берем хайповый термин, которому так и не придумали определения и ну ванговать в угоду рынку.
Почитайте, пост едкий, но хороший: /channel/cgevent/3709
Это я к чему? А к тому, что пора уже выпить за всех этих онолитегов, которые по старым лекалам вангуют на рынке, не очень понимая предмет, и не очень понимая, что данные теперь гораздо лучше трактуются ИИ, чем кожаными агрегаторами данных.
Почитайте следующий пост о том, что даже без какой-либо описательной или отраслевой информации LLM превосходит финансовых аналитиков в своей способности предсказывать изменения прибыли. А уж если ИИ подкормить спецификой, то за кожаных вангователей точно можно выписвать не чокаясь.
⬇️⬇️⬇️⬇️⬇️⬇️
Немного AnimateDiff + DaVinci Resolve + Udio в умелых руках.
Вот что получается, когда за дело берутся взрослые мальчики, которые умеют и в моушен дизайн и в ComfyUI, которые умеют и рисовать, и раскатывать репозитарии с Гитхаба.
Хотите больше работ и немного подробностей, как делаются такие штуки, шуруйте в твиттор автора, там очень интересные технические эксперименты.
А полное видео на 4 минуты находится тут, осторожно, залипательно...
Udio смотрится очень уместно - получается полный генератив от начала до конца.
Интересное про внутренности трансформеров.
Все пишут про коммерческую разработку, но самое интересное, кажется, происходит в компьютерных науках. Ученые обнаружили новое свойство больших языковых моделей – как раз на их основе строятся всевозможные Chat-что-нибудь. Институт искусственного интеллекта AIRI, Сбер и Сколтех – мощное комбо!
Как я понял, они проанализировали 20 моделей "под микроскопом" и узнали, что самая популярная архитектура современных нейросетей (трансформер) отличается свойством, которое раньше считалось не релевантным.
Иван Оселедец, д. ф.-м. н., СЕО Института AIRI, профессор «Сколтеха»: «Нам удалось изучить модели под микроскопом, простыми средствами описать сложные процессы внутри трансформеров и сразу предложить эффективный регуляризатор. Обнаруженный эффект кажется очень контринтуитивным, он противоречит многим представлениям о глубоком обучении. В то же время именно он позволяет тратить меньше вычислительных ресурсов на развёртку и инференс больших языковых моделей"
«В опубликованной работе выявлена линейность в некоторых представлениях данных внутри этих блоков. Как следствие, это позволяет существенно оптимизировать архитектуры с точки зрения вычислительных мощностей, снизить нагрузку, получить результат за меньшее время за счёт адаптивной регуляризации. Потенциал сокращения вычислительных ресурсов на обучении оценивается в порядке до 10%», — Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка.
https://www.cnews.ru/news/line/2024-05-31_bolshie_yazykovye_modeli
OpenAI решило множить продукты.
Сегодня два анонса.
ChatGPT Edu - версия ChatGPT, созданная для университетов, чтобы внедрять искусственный интеллект для студентов, преподавателей, исследователей и сотрудников. Работает на GPT-4o и ориентирован на командную работу. Цена не обозначена, но похоже на бесплатность ибо упомянут более высокий лимит сообщений, чем у бесплатных пользователей и ничего не сказано про картинки.
https://openai.com/index/introducing-chatgpt-edu/
OpenAI for Nonprofits - это просто скидки некомерческих организаций для планы Team (теперь 20$) и Enterpise(скидка 50%).
https://openai.com/index/introducing-openai-for-nonprofits/
Зачем нужно Suno, когда можно попросить ChatGPT повторить 1000 раз букву «Е» ☕️
Читать полностью…
Подтверждаются планы Amazon ввести платную подписку на Alexa с ИИ-возможностями. И в этому смысле Amazon включается в продуктовый подход по монетизации ИИ. Как, например, Google (с Gemini и должна конкурировать ИИ-Alexa). Стоимость подписки Amazon пока не раскрывает, но можно предположить, что компания пойдет по пути конкурентов. То есть базовые функции будут бесплатными, а доступ к дополнительным возможностям — по подписке. Какими они могут быть? Пока неясно. Например, подписка на Gemini Advanced от Google дает доступ к самой мощной модели — Gemini Ultra, которая по метрикам сильно лучше Gemini Pro.
Вопрос в том, какая градация и какие условия будут у Alexa.
Тут все пишут, что Джиптишки теперь доступны для бесплатных пользователей chatGPT.
Давайте разберемся.
Создание GPTs - недоступно. Можно только пользовать чужие. Где и как вы будете их искать (их миллионы) - ваша проблема.
В сети уже сотни свалок с Джипитишками, тут например https://gptstore.ai/, со своими рейтингами, накрутками и войной за топы.
На Гитхабе брутально собирают таблички: https://github.com/1mrat/gpt-stats
На официальном сайте OpenAI всего шесть категорий, продирайтесь сами: https://chat.openai.com/gpts
Но то, что Джипитишки теперь доступны бесплатным пользователям - это не главное (вообще их используют 5% пользователей chatGPT).
Крутизна в том, что бесплатным юзерам теперь доступны:
Vision модель! Можно вгружать в chatGPT картинки, просить распознать и разговаривать про них с ИИ-терапевтом.
Поиск в интернете и работа со ссылками.
Анализ Данных! Вот это круто. Можете вгружать туда свои данные и просить рассказать про них или построить графики. Причем можно давать на вход ссылки на ГуглДрайв.
Память. Можно просить запоминать ваши переписки и хранить в памяти детали. Недоступно в европе.
Но есть маленькое но. Вы никогда не будете знать, когда вам отрубят gpt-4o и переключат на 3.5 и когда случится лимит на количество запросов. Иногда 20, иногда 2. Все определяется загрузкой близлежащих к вам серверов.
Обязательно попробуйте дата аналитику. Это магия.
AnimateAnyone for Anyone!
Час назад выложили неофициальный(?) код AnimateAnyone.
https://github.com/novitalabs/AnimateAnyone
Это кстати не первый неофициальный код. Он базируется на другом неофициальном коде)):
https://github.com/MooreThreads/Moore-AnimateAnyone
Просто NivitaLabs подсуетились и запилили нарядное демо, можно пробовать - за логин гуглом вам дадут полдоллара кредитов - это примерно 1.8 генерации одного видоса.
Демо тут: https://novita.ai/playground
Генерит бесконечно долго.
Также они сделали апишку, можно прикручивать танцующих тянок и медведей к себе на сайт и в приложение.
А вот тут есть бесплатное демо от MooreThreads: https://huggingface.co/spaces/xunsong/Moore-AnimateAnyone
Генерит бесконечно быстро.
А в официально репозитарии AnimateAnyone от Алибабищенко пока пусто.
Кодестраль.
Тут Мистраль выпустил новую как бы опенсорсную модель Codestral, она предназначена именно для работы с кодом. По всяким-разным метрикам она побивает CodeLlama и даже Llama 3 70B, имея значительно меньший размер. Немного пожатая она влезет на локальную видеокарту, обучена на более чем 80 языках (пока неясно, как она против GPT-4).
Codestral может писать код, делать тестирование и дописывать неполный код, а также отвечать на вопросы о кодовой базе на английском языке.
В общем выглядит крайне прельстиво.
Однако.
Если почитать лицензию, там не так все сладко, как хочется сторонникам опенсорса.
Лицензия стартапа запрещает использовать Codestral и его результаты для любой коммерческой деятельности (оппа!). Есть исключение для "разработки", но даже оно имеет оговорки. Далее в лицензии содержится прямой запрет ДАЖЕ на "любое внутреннее использование сотрудниками в контексте деловой активности компании".
Таким образом они защищаются от исков по поводу того, что данные для обучения (то бишь код) были взяты из полностью открытых источников.
Так что это скорее для частных лиц, которые котят погенерить картиночки код у себя под столом для некоммерческой деятельности(?).
Интересно, что там с вотермарками.
https://techcrunch.com/2024/05/29/mistral-releases-its-first-generative-ai-model-for-code/
Продолжение:
За сим, я бы свернул в сторону того, что AGI – это понятие скорее экономическое, историческое или социологическое. В таком разрезе, его можно хотя бы хоть как-то измерить, понаблюдать и ПОТОМ декларировать, например, "где-то на рубеже 30-х годов мы перешли к фазе AGI". И забыть про букву И в аббревиатуре, просто произносить это как экономический термин.
Тут я буду присовывать банальную аналогию со второй промышленной революцией - трансформацию в мировой промышленности, охватывающую вторую половину XIX и начало XX века.
Определение второй промышленной революции есть. Никто с ним особо не спорит. Но появилось оно ПОСТФАКТУМ. Представьте, что сидит какой-то умный барин в конце 19-го века и говорит «вторая промышленная революция – это…» или "AGI - это...".
В общем, я бы предложил не бросаться определениями AGI всуе, а просто подождать. Пройдет пара лет, историки и экономисты оглянутся назад, почитают интернетик, соберут статистику, сделают экономические выводы и решат, что где-то в конце 20-х годов произошла трансформация мировой экономики (тут подставьте нужные термины: промышленности, науки, массового помешательства) именуемая теперь как AGI. Все это будет в будущем.
А пока перестаньте определять неопределяемое. Оставьте это философам, им кушать надо. И подождите немного, само определится. В историческом контексте.
Все, выговорился.
Забыл написать, когда выпустили десктопное приложение chatGPT для мака, то умельцы вытащили оттуда системный промпт от gpt4-o.
Подробности и промпт тут.
https://x.com/Kyrannio/status/1792440824355332313
Говорят он такой же как от обычной четверки.
Вопрос только в том, что вероятнее всего там орда агентов орудует, но промпт можно использовать в образовательных целях.
Еще один 3Д-генератор. Теперь я знаю, на чем их тестировать.
Вот держите такое чудо:
https://craftsman3d.github.io/
Вот на этом видео:
https://www.youtube.com/watch?v=WhEs4tS4mGo
все выглядит нарядно, там даже инпайнтинг в виде скульптинга в каком-то виде присутствует.
И там есть демо:
https://huggingface.co/spaces/wyysf/CraftsMan
Я конечно, опять вонзил туда своего перца.
Первой модели (CRM) он сломал мозги и получилось гнилое яблоко.
Вторая модель(ImageDream) с промптом (которыq породил Rodin кстати) сделала сильно покусанный перец.
Дальше я не стал тестировать, далеко им до Родэна...
Продолжаем за 3Д.
Rodin Gen-1 атакует меня письмами.
Тизерят новую модель, а пока предлагают поиграть с их демо вот тут:
https://huggingface.co/spaces/DEEMOSTECH/Rodin
Но я пошел к ним на сайт, там гораздо больше опций и задал им перцу, результаты ниже.
ИИ-авторские
А тем временем сделаю вот такой некороткий наброс.
Тут общественность худо бедно разобралаcь со Скарлет Ёхансон и голосом Sky, который удалили из chatGPT. Если вкратце, то это была не Скарлет, а неизвестная никому (пока) актриса озвучания. Когда ее отобрали, то НЕ просили быть похожей на Ёхансон и не упоминали фильм Her как референс. Просто записали, как есть. А получилось (немного) похоже на Скарлет.
Тут бы поставить точку, но остается вопрос - а схренали Сэм звонил Скарлет тогда накануне презентации (ну ок, может предлагал сотрудничество на будущее).
Дальше встает очень интересный вопрос, а если ваш голос похож на голос Лепса или Джанифер Лопес, то вам получается надо помалкивать, ибо если вдруг озвучите что-нибудь популярное, что вам прилетит от Лепса\Лопес. Тут рождается идея для стартапа - токенизация голоса, цифровая метка на ваш тембр, которую вы храните в блокчейне, хотя я думаю WorldCoin - это подхватит.
Кстати, кожаные двойники встречаются в природе примерно 1 на 100 000. То есть лица, которые условные пограничники на таможне будут путать друг с другом. ИИ в этом случае различает лица лучше, больше параметров считывает.
Но я веду вот к чему. Если вы Ёхансон или Лепс, то у вас есть агент или агентство, с которым у вас контракт. У них есть права на ваш голос, пестни, и всякую дичь, которую вы исторгаете из себя.
Но ИИ учится не только на ЛепсоЛопесах, он учится на всех кожаных. И в роли агентства для вас родимых выступают фейсбучеги, реддиты, артстейшены, твитторы. Куда вы, гогоча, вгружаете свои неумные мысли и гениальные картинки. Просто заводя аккаунты, вы нажали кнопку "Согласен". С тем, что все ваши авторские комментарии теперь во власти соц-сетей и всяких агрегаторов USG (user generated content).
Да, контракт можно разорвать, просто удалив аккаунт. Но вы готовы платить такую цену?
Если нет, то привыкайте, что теперь у вас у всех есть свои агенты, которые владеют авторскими правами на контент, который вы производите. И владеют полностью, с потрохами. И продают эти потроха и ваши авторские права Гуглу, ОпенАИ и всем кто даст хорошие деньги.
Так что вы теперь все Ёхансоны в каком-то смысле. Только судиться не с кем.
Прикольненко. GPT-4 оказалась лучше профессиональных аналитиков и гораздо лучше предсказывают будущие доходы и делать финансовый анализ даже без файнтюнинга какого-то специального, просто с chain-of-thought.
Вот что пишут:
Даже без какой-либо описательной или отраслевой информации LLM превосходит финансовых аналитиков в своей способности предсказывать изменения прибыли. LLM демонстрирует относительное преимущество над человеческими аналитиками в ситуациях, когда аналитики обычно испытывают трудности. Более того, мы обнаружили, что точность предсказания LLM находится на одном уровне с эффективностью узко обученной современной ML-модели. LLM генерирует полезные описательные сведения о будущих показателях компании. Наконец, наши торговые стратегии, основанные на прогнозах GPT, дают более высокий коэффициент Шарпа и альфа, чем стратегии, основанные на других моделях. В совокупности наши результаты позволяют предположить, что LLM могут играть центральную роль в принятии решений.
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311
📰 OpenAI объявили, что начали обучение новой версии GPT, скорее всего, речь идет про GPT-5.
В посте говорится, что сегодня совет директоров OpenAI сформировал Комитет по Безопасности, возглавляемый Бретом Тейлором, Адамом Д’Анджело, Николь Селигманом и Самом Альтманом. И это связано с обучением и выпуском следующей версии GPT, цитирую: OpenAI недавно начала обучение своей следующей передовой модели, и мы ожидаем, что полученные системы выведут нас на новый уровень возможностей на нашем пути к AGI. Скорее всего, речь идет именно про GPT-5.
Анализируя актуальный релиз GPT-4o, можно сделать вывод, что кроме еще более дорого претрейна из коробки стоит ожидать:
— более качественный Aligning (понимание и следование намерениям пользователя) с уклоном не только в точность, но и в безопасность
— Еще больший упор в мультимодальность. Тут фантазирую, но вероятно, что будет еще более глубокий fuse визуальных, текстовых и аудио токенов.
читать 👉 OpenAI Board Forms Safety and Security Committee
Из набросков в 3Д.
В коментах вопрошали, а можно ли из чертежей или набросков делать 3Д.
Держите довольно ловкий плагин для Блендора. Позволяет делать процедурные города и улицы. Внутри довольно много ассетов. И нет, это не ИИ. Это олдскульный процедурный генератор.
Много видео и туторов вот тут:
https://blendermarket.com/products/icity