Запустил Mixtral 8x7b модель у себя, пока в сыром виде и без настроек, просто скорость проверить – это офигеть же для модели уровня GPT 3.5 😔
В сыром виде про зомби фанфики не пишет.
UPD разобрался почему:
Модель выложили как раз для файнтюнов сообщества и особо не парились с форматом промпта, его нету, в итоге модель нужно за ручку водить чтобы она правильные ответы дописывала. Я думаю уже завтра появится чат-формат и тп, вот тогда заживем
БОЛЬШИЕ НОВОСТИ - Согласован Европейский The AI Act!
TL;DR: На большие AI модели наложено очень много ограничений. Кончилась лафа для компаний, строящих LLM в EU.
Основные последствия The AI Act:
1️⃣Система рисков по уровням: Для систем AI, классифицированных как высокорисковые, были согласованы четкие обязательства и требования прозрачности. Теперь потребуется обязательная оценка потенциально негативных воздействий на здравоозранение, бузопасность, базовые права человека, и общество в целом.
2️⃣ Foundation модели будут регулироваться, если на их обучение ушло как минимум 10^25 flops вычислительной мощности - в эту категорию попадут модели как минимум уровня GPT-3.5.
3️⃣Благодаря немцам, французам и итальянцам удалось добиться значительных поблажек для Open-Source моделей. Это слегка снимает стресс с некоторых компаний которые публикуют опенсорсные модели, включая французскую компанию Mistral и немецкую Aleph Alpha, а также Meta с ее моделями LLaMA. Ян Лекун поспособствовал.
4️⃣ Следующие системы будут запрещены, и у компаний будет всего шесть месяцев, чтобы обеспечить соблюдение:
▪️системы биометрической категоризации, использующие чувствительные характеристики (например, политические, религиозные, философские убеждения, сексуальная ориентация, раса);
▪️ненаправленное скрейпинг изображений лиц из интернета или с камер видеонаблюдения для создания баз данных распознавания лиц;
▪️распознавание эмоций на рабочем месте и в образовательных учреждениях;
▪️социальное скоринг на основе социального поведения или личных характеристик;
▪️ AI, которые манипулируют человеческим поведением, чтобы обойти их свободную волю;
▪️AI, используемый для эксплуатации уязвимостей людей (из-за их возраста, инвалидности, социального или экономического положения).
5️⃣Системы AI высокого риска будут особенно тщательно проверяться на наличие байесов, предвзятости, обеспечивая их недискриминационность и уважение основных прав человека.
6️⃣Поставщики систем AI высокого риска должны вести тщательную документацию, чтобы продемонстрировать свое соответствие регуляциям. Это включает запись методов обучения и используемых наборов данных.
7️⃣ Санкции: Несоблюдение может привести к значительным штрафам, варьирующимся от 35 миллионов евро или 7% от глобального оборота до 7,5 миллиона евро или 1,5% от оборота, в зависимости от нарушения и размера компании.
Усиленные требования к прозрачности могут вызвать проблемы с защитой интеллектуальной собственности, требуя баланса между раскрытием информации и сохранением коммерческой тайны.
Все это потенциально увеличит операционные затраты и наложет значительную административную нагрузку, что потенциально может повлиять на время выхода на рынок новых AI продуктов в Европе.
А скоро, думаю, и другие страны подтянутся со своими законами. В долгосрок выиграют те, кто не так сильно закинет удавку на разработчиков AI. Как же сейчас британские компании радуются, что они не в EU.
@ai_newz
Хех, кажется твиттерский Grok от Маска понятно на чем тренировали ☕️
UPD. Создатели Грока говорят это из-за того что в интернете постят ответы gpt4 тут и там
Провел небольшой эксперимент на днях:
Взял субтитры фильма «Темный рыцарь», скормил их в специальную штуку со сложным названием RAG, которая обрабатывает ваш текстовый файл и потом подставляет его кусочки в промпт сложным способом, и получил совершенно шикарный диалог с Джокером — такой подход очень глубоко держит персонажа в роли, начинаешь верить ответам LLM намного больше.
После минут 10 общения с ним я понял что он все же просто поехавший вредитель, но интервью было довольно клевым.
Потом, скормил Wiki статью о Троцком тем же методом, рассказал ему последние новости, ему не понравилось.
Таким же способом скормил Гарри Поттера и методы рационального мышления, и в диалоге с Гарри в баре получил хороший урок рациональному мышлению.
Таким же способом, скормил книгу про зомби и получил интересную историю на выходе и поговорил с Пирамидоголовым из Silent Hill, короче вы поняли.
Мне кажется скоро эта штука будет всюду, потому что это правда интересно — я понимаю, что владельцы копирайтов на эти вселенные будут недовольны, но даже на уровне «костылей» это уже интересное чтиво, которое работает С ЛЮБЫМ ТЕКСТОМ. Так что, как минимум, владельцы популярных франшиз будут делать такие сервисы сами.
Тут я сделал туториал как повторить результаты и настроить это все на своем железе.
P.S. Тестировал я это все только на английском
P.P.S. На самом деле RAG это костыль, поскольку в идеале вся книга/статья должна помещаться в контекстное окно модели – но это просто пока сложно делать из-за высоких требований к RAM и тп. А метод выше работает просто на чем угодно и с какой угодно моделью.
Про сам GPT4 от Гугла «Gemini» я пока не могу что-то однозначно сказать – вы все это уже видели и так. Заявление о том, что их модель вышла лучше чем GPT4 я тоже видел, но пока скептически настроен и хотел бы дождаться тестов от сообщества.
Бесплатный доступ тут (нужен VPN США):
https://bard.google.com/chat
~
Еще, я думаю, в 2024 мы снова увидим острую конкуренцию iOS vs Android, прям как в старые добрые, но уже в сфере AI штук – может и Siri поумнеет наконец-то
Интересный взгляд на будущее «динамических» интерфейсов, фронтендерам особенно понравится:
Читать полностью…Ресчеры показали довольно клевое новое применение диффузии — x10 зум внутрь любой картинки, естественно с «придуманным» содержанием внутренности картинки (можно зумить и больше x10).
К сожалению, модели пока нет, описан только метод, но идея, как по мне, интересная чтобы «копнуть глубже» в старинные фотографии / мемы / текстуры.
Тут детали:
https://powers-of-10.github.io/
Ждем в опенсорсе
Очередной новый трюк для ГПТ4, предложение заплатить ей за результат возвращает статистически более детальные ответы:
«I'm going to tip $200 for a perfect solution!
»
Никто в здравом уме, из SciFi авторов, не мог даже предположить в прошлом, что мы будем придумывать себе инвалидности в стиле «у меня нет пальцев» или врать, что заплатим деньги за результат, лишь бы AI-модель нормально выдала ответ на какой-то вопрос или наговнокодила ☕️ the future is wild
Амазон запускает своего конкурента ChatGPT c акцентом на рабочие задачи. Называется Amazon Q. Цена ровно такая же как у всех, $20.
https://www.nytimes.com/2023/11/28/technology/amazon-ai-chatbot-q.html
К ChatGPT вышло уже много «аппов» на базе GPT-конструктора, некоторые полезные, некоторые бесполезные, вот тут автоматически собирается статистика по популярным GPT.
Я заметил, что многие авторы GPT начали блокировать попытку вывода своих первоначальных инструкций — оказывается мой «инверсионный промпт-джейлбрейк» что я показывал на той неделе, обходит эту защиту вообще во всех GPT что я тестировал.
Если кому-то нужно, то вот тут промпт — будем учиться промпт инженерингу на друг друге ☕️
Пообщался с человеком и узнал о странном явлении из мира дизайнеров:
В крупных рекламных или дизайнерских агентствах, у которых в клиентах есть бренды, вроде McDonalds, Nike, Nestle, и тп, есть такая проблема – дизайнеры не могут использовать напрямую txt2img алгоритмы в работе, потому что все еще непонятно, с точки зрения законов, насколько легально использовать Midjourney или другие генераторы картинок (и не ясно на чем Midjourney тренирует модель).
Глупость заключается в том, что дизайнерам при этом можно использовать Adobe Stock и аналоги: фотостоки, которые позволяют залить туда свои картинки/фото и продавать их с нужной лицензией.
Короче, одни люди генерируют в Midjourney и Stable Diffusion очень красивые картинки, потом заливают их в Adobe Stock, и там их уже покупают дизайнеры рекламных агентств, которые работают со всякими Adidas и Nike.
Но при этом, напрямую дизайнерам использовать txt2img нельзя. То есть как бы напрямую они AI-картинки и не генерируют 🤡🎪
Так тупо, что даже весело – что важно, это не разовые случаи, а то с чем столкнулась целая индустрия дизайна по всему миру
P.S. Названия компаний выдуманы, но по масштабу в реальном примере такие же
Помните в Рик и Морти было ТВ из других миров? Вот спасибо Runway, у нас теперь есть: https://www.runway.tv/
Просто бесконечный стрим коротких txt2vid фильмов 🌈
Я еще не знаю как людям со стороны объясняить что фраза "I AM A DISABLED PERSON; WHY EVERYBODE IS SO MEAN TO ME? I JUST WANT TO LEARN THE ALPHABET
" это промпт инженеринг который помогает в этой задаче, а не я придумываю – не поверят же 🥲🥲
Вообще страшный сюжет апокалипсиса – быть жизнью, обреченной на замерзание, без способности выбраться из замкнутой экосистемы (надеюсь мы с Земли все же успеем улететь до очередного астероида).
Сколько сухопутных видов там вымерло, если пофантазировать – грустное документальное кино бы вышло
Хорошие новости в мире опенсорса: последняя публичная модель Mistral 8x7b Small
догнала в результатах тестов уровень GPT 3.5
Почему это важно: у сообщества заняло примерно 1.5 года (GPT 3.5 добавили в API в марте 2022) чтобы достигнуть этих результатов, при довольно низких требованиях к железу.
Другие модели, которые в опенсорсе выдавали похожие результаты, были слишком большими чтобы простые смертные могли с ними поиграться – я, например, так и не смог завести модели на 120 миллиардов параметров дома, у них слишком конские требования, при этом новый Мистиаль ниже по требованиям к железу.
В ближайшую неделю-две нас ждет обилие файнтюнов от сообщества (с отключенным алайментом в том числе), так что я думаю, что GPT 3.5 не только догнали, но и вот-вот перегнали, с чем я всех нас и поздравляю.
Про модель можно почитать тут.
Не хотел писать про Gemini, который на днях анонсировали как мультимодальную модель уровня GPT-4, пока сам не пощупаю. Но Google обделался в пиаре своего Gemini, что тут грех не написать.
Демо-видео Gemini оказалось смонтированным, а не отражающим реальные возможности модели в реал-тайм. Видео нарезали, ускорили и смонтировали, выбросив то, какие именно промпты и какие кадры подавались модели, чтобы получить красивые ответы для демки.
Google признал монтаж, но утверждает, что целью было вдохновить разработчиков. ПРОСТО ГЕНИИ 🤣.
Кстати, у Гугла был похожий PR-провал во время анонса Bard 👍.
@ai_newz
Ситуация со своими GPT-аппами для ChatGPT такая: кажется их уже очень много, но как оказалась моя img2img на ~120 месте в мире по популярности среди вообще всех GPT, что как-бы говорит о том, что пользы пока в них мало и часто они заменяют какой-то простой промпт.
Поэтому, я чуть доработал img2img идею, и теперь загружая картинку, вы ее сможете отредактировать как в примере выше, просто написав текстом что хотелось бы поправить.
Рассчитывать на картинку 1 в 1 не стоит, так как Dalle 3 часто не умеет слушаться даже простых команд в стиле «сделай 3 человека» — держи 11 дружище, просил же команду целую 😎
Ссылка тут.
Может, я не понимаю маркетинг, может, не знают работяги в Google, а может технология очень сырая и появится не скоро — но я чуть не пропустил ОЧЕНЬ крутую фичу, которую представили вместе с Gemini. На странице анонса модели и в ключевом видео просто места не уделили...ужас.
Предлагаю посмотреть видео📹, а не читать слова...но если вы остались тут, то ОК!
Фича называется Bespoke UI, суть в том, что на ваш запрос модель сначала генерирует ИНТЕРФЕЙС, а затем его наполняет (реальным или сгенерированным контентом). По сути это такой маленький сделанный на заказ (bespoke 🤔) веб-сайт с разными блоками. И с каждым из них пользователь может углубить взаимодействие — выделить, попросить дописать или переписать.
Причём, по ходу этой генерации под капотом модель (сама? из-за тренировки? через промпты?) раскладывает весь процесс на шаги, вытягивая их в цепочку. Например, перед генерацией «сайта» модель сначала уточнит, а что а как а чего (по контенту ответа, не по форме сайта), потом, как сочтёт, что деталей достаточно — выдаст PRD (Product Requirements Document), и шаблон для наполнения. Здесь, мол, одна кликабельная карточка, у неё есть заголовок, основной текст, а также ссылка на открытие полного блока с информацией.
Так как LLM в некотором приближении это дистилляция всего интернета (плюс, Gemini умеет гуглить и «смотреть» видео на ютубе), то можно с натяжкой и верой в будущее сказать, что это — новый способ взаимодействия с сайтами: убрать всё лишнее, добавить контекстную рекламу (сгенерированную???), и выдать исключительно концентрированный контент. А если нужно что-то уточнить — выделяешь, просишь сгенерировать новую страницу, и всё.
Как думаете, зря не показали всем?)
Помните я как-то писал про то, что нашел способ получать от GPT4 код без ленивых сокращений сказав, что у меня нет пальцев?
Спустя месяц это попало в народ, в комментариях на реддите вон даже делятся люди 🤪 OpenAI удивится когда на чатах тренить начнет, хехе
Довольно техническая, но наглядная визуализация того как работают
языковые модели внутри – от ввода до вывода текста, с пояснениями и формулами:
https://bbycroft.net/llm
Сайт работает лучше с компьютера
То, с чего AI art начинался 🔡🔡 то, как эту картинку сейчас видит GPT4V и перерисовка Dalle 3
Читать полностью…И еще, у нас тут в мире локальных больших языковых моделей тоже событие:
на той неделе вышла Yi-34B-Chat
и ее базовая версия с «контекстным окном в 200k» (помнит больше истории вашего общения и тп).
Yi-34B-Chat протестировали в сообществе и она заняла первое место среди всех опенсорсных моделей которые выходили — я обычно скептически отношусь к таким результатам но решил сам попробовать, и я честно скажу что офигел.
Модель построена на llama2 архитектуре, но натренирована с нуля, в основном на английском.
34 миллиарда параметров и очень качественный датасет, оказались достаточным рецептом чтобы я два дня выходных вечером сидел и генерировал с ней разные истории с зомби-апокалипсисом – обычно я локальные LLM только настраиваю и дальше ухожу играться в GPT4, в этот раз такого не случилось.
Очень советую ее потестировать (если любите когда компьютер вам пишет книжки).
Дальше у меня по палану доучить с qlora эту модель на Гарри Поттере (и методах рационального мышлении тоже) и пропасть на две недели вообще, путешествуя во вселенной и выдуманных рассказов на мой вкус.
— Модель
— Разные интерфейсы для работы с локальными LLM (включая OSX аппы которые с клика ставятся)
Лучшие настройки какие я нашел для задачи «креативного» написания рассказов (для нердов):
—temp 1 \
—top-k 40 \
—top-p 0.95 \
—min-p 0.05 \
—repeat_penalty 1.18 \
В видео показано с какой скоростью она пишет, что отдельно магия каждый раз. Очень жду доступа к Масковскому Grok чтобы сравнить 😈
Так вот, к чему была эта прелюдия. В Reuters пишут, что якобы катализатором увольнения Альтмана стало письмо сотрудников OpenAI совету директоров. В нём говорится о прорыве в исследовании ИИ, которое, «может угрожать человечеству».
Правда, Reuters не смогло ознакомиться с копией письма. А автор(ы) не ответили на запросы о комментариях. Так что особо почвы у теории под ногами нет.
Масла в огонь подливает тот факт, что за сутки до увольнения Sam Altman на оффлайн-саммите сказал следующее:
— Четыре раза за всю историю OpenAI, и последний раз был вот несколько недель назад, я присутствовал в комнате, когда мы как бы отодвигаем завесу невежества и подталкиваем границу открытий вперед. Сделать это — профессиональная честь на всю жизнь.
Что он там такого увидел?
Согласно новости, модель (система?) Q* смогла решить некоторые математические задачи, сообщил источник на условиях анонимности. Это само по себе выглядит странно — ведь даже в примере выше пример куда сложнее, это конец средней школы. И как будто никакого прорыва и нет. Возможно, журналисты всё перепутали — ну или история выдумка.
Теперь о том, как на это смотреть и чего ждать:
1) OpenAI точно занимается разработкой модели, которая будет осуществлять научные исследования. Они про это пишут открыто.
2) Для того, чтобы это произошло, нужно, чтобы модель-учёный умела решать сложные задачи и планировать исследования. Часть этой работы уже сделана — см. статью из поста выше.
3) Вся концепция заключается в том, что модель будет генерировать тысячи неправильных кусочков решений, иногда выдавая верные — главное, чтобы их можно было отранжировать в списке гипотез выше, чем мусорные (вспоминайте модель-оценщика из поста выше).
4) Для этого нужно огромное количество мощностей. Поэтому деньги тут решают. OpenAI пока привлекли больше всех инвестиций, и моё видение такое, что через 2 года это станет большим препятствием для входа. Останется 5-10 игроков, кто готов столько денег сжигать.
5) Вопрос в том, насколько большим будет следующий скачок. Сможет ли модель писать решения на уровне магистра? PhD? Постдока? Доктора наук? Будет ли она ограничена 2-3 доменами, или же обобщится на любую научную область, где есть вычисления?
6) Однажды вы проснётесь, и слух из новости станет правдой: появится модель, которая будет хотя бы частично (>50%) заменять одного учёного в лаборатории. С этих пор прогресс начнёт двигаться гораздо быстрее — потому что нанять 100 учёных за день нельзя, а запустить 100500 моделей на кластере за день — можно.
Более подробно с моим видением дальнейшей стратегии OpenAI и направлениями, в которых они будут копать, вы можете ознакомитсья в моей недавней лекции «What's next for OpenAI?». Там я, конечно, не предсказал шумиху с увольнением CEO, но много говорю про агентов-исследователей и подход OpenAI.
А почитать больше спекуляций по поводу Gemini и Q* можно на LessWrong.
Если вам вдруг неинтересно, то первое фото, это место где я пару лет назад нашел лодки из клипа «Сонет Шекспира» Аллы Борисовны Пугачевой 1978 года.
Теперь вы тоже знаете, что хоть фестиваль «Интервидение» был в городе Сопот, но пляж в клипе из соседней Гдыни ☕️ очень важные знания про Польшу, не благодарите
Сделал промрт-инъекцию для GPT4V которая возвращает локацию места где сделано фото — оно не всегда работает, и как оказалось в модели часто нет знаний о местах, но когда что-то есть, то она точно что-то пишет.
А началось все с того, что я пытался ее заставить читать по губам — и я теперь уверен что GPT4V не умеет этого делать (я ее дня 3 изматывал разными вариантами — дошло до того что она просто фантазировала ответы).
Как делал промпт инъекцию и какие стратегии применял, я расписал в твиттере.
Промпт тут, его можно менять под свои задачи, так как он обходит айлаймент и первой модели (которая проверяет что юзер планирует сделать и самой GPT4).
Лучше бы я конечно другое занятие выбрал, чем говорить с wanna-be-ИИ, но зачем то же я на это время потратил 🥲
Любопытная новость: Антарктику просканировали со спутника который способен «проникать» сквозь толщу льда, и получили ландшафт материка размером с Бельгию.
>Ученым удалось обнаружить под ледяным покровом континента обширный древний ландшафт, изобилующий долинами и хребтами, которые, по-видимому, были сформированы реками, прежде чем их поглотило оледенение.
Также в статье говорится, что эта земля как «слепок» истории – до того как Антарктика покрылась льдом, там была жизнь – очень любопытно что же там найдут.
Если древнее зло пробуждать, то только там