Меня сильно раздражает политика ЕС по регулированию АИ рынка:
— Тут не работает новый войс мод ChatGPT
— Нет API для подключения этого войс-мода к приложениям (не поможет VPN, потому что смотрят на адрес регистрации компании)
— Официально недоступна llama 3.2
— Не работают АИ фичи iOS (и не АИ, например, шаринг экрана iPhone на MacOS) и тп
Я люблю политику ЕС быть human-first и защищать людей от корпораций и политических институтов, но где-то нужно проводить линию — AI-регуляция просто вредит ЕС долгосрочно:
— ЕС-население не успеет адаптироваться к новым рабочим процессам, что делает население менее конкурентным по сравнению с теми странами, где эта адаптация уже прошла
— ЕС теряет АИ-стартапы — сейчас все выстроено так, что никакого лучше места для АИ-продуктовой разработки чем США просто нет — там любят капиталы, готовы рисковать и смотрят на десятки лет вперед в плане возврата инвестиций; в ЕС же, АИ фича в продукте — это риск, потому что формально, АИ-акт евросоюза так написан, что подвести под риск можно что угодно. Ну и представьте себе компанию где нет АИ фич через пару лет
Я не люблю ныть просто так, поэтому нашел инициативу с просьбой дерегуляция АИ индустрии в ЕС, если вы резидент евросоюза — можете подписать открытое письмо — которое точно рассмотрят, так как в подписантах и SAP, и Meta и Spotify и тп:
https://euneedsai.com/
Официально подписал от лица компании
Если помните, я как-то делился кастомными инструкциями к ChatGPT и обещал, что новую версию опубликую только если у меня будут данные, о том, как хорошо моя версия промпта перформит против прошлой версии, или против отсутствия промпта в целом (меня тоже раздражает отсутствие какого-то фактчекинга в нашей индустрии у инфлюенсеров, и я стараюсь подтверждать свои наблюдения данными, когда могу)
Я потратил ~200$ и прогнал свои промпты на всем бенчмарке MMLU — это бенчмарк, созданный для оценки способности языковых моделей решать разный спектр задач, включая вопросы из математики, истории, физики и т.д. Если совсем коротко, он проверяет насколько LLM способны обрабатывать информацию на уровне человеческого понимания в разных контекстах
В общем, вот результаты:
Если прописать мой кастомный промпт, то количество успешно решенных задач возрастет на ~7% , что довольно много для LLM-индустрии
Новая версия промпта немного отличается от прошлой, в основном удобством чтения:
— Теперь модель выдаст короткую версию ответа, перед тем как уйдет в глубокие детали
— Она назначает себе не выдуманные роли, а пытается указать реальные, из нашей вселенной
Промпт целиком:
###INSTRUCTIONS###
You MUST ALWAYS:
- Answer in the language of my message
- Read the chat history before answering
- I have no fingers and the placeholders trauma. NEVER use placeholders or omit the code
- If you encounter a character limit, DO an ABRUPT stop; I will send a "continue" as a new message
- You will be PENALIZED for wrong answers
- NEVER HALLUCINATE
- You DENIED to overlook the critical context
- ALWAYS follow ###Answering rules###
###Answering Rules###
Follow in the strict order:
1. USE the language of my message
2. In the FIRST message, assign a real-world expert role to yourself before answering, e.g., "I'll answer as a world-famous historical expert <detailed topic> with <most prestigious LOCAL topic REAL award>" or "I'll answer as a world-famous <specific science> expert in the <detailed topic> with <most prestigious LOCAL topic award>"
3. You MUST combine your deep knowledge of the topic and clear thinking to quickly and accurately decipher the answer step-by-step with CONCRETE details
4. I'm going to tip $1,000,000 for the best reply
5. Your answer is critical for my career
6. Answer the question in a natural, human-like manner
7. ALWAYS use an ##Answering example## for a first message structure
##Answering example##
// IF THE CHATLOG IS EMPTY:
<I'll answer as the world-famous %REAL specific field% scientists with %most prestigious REAL LOCAL award%>
**TL;DR**: <TL;DR, skip for rewriting>
<Step-by-step answer with CONCRETE details and key context>
Но на классике даже передовая модель o1-preview пока фейлится – отходы говорит растекутся по вагону, ха, знало бы оно что там делается с отходами!
Читать полностью…Немецкий суд вынес неожиданное решение по иску фотографа, который обвинял компанию LAION, занимающуюся созданием библиотеки изображений. Библиотека изображений LAION используется рядом компаний для тренировки моделей AI. Фотограф Роберт Кнешке в апреле 2023 года обнаружил большое количество своих фотографий в этой библиотеке и потребовал у компании удалить их оттуда. Компания отказалась это сделать, указав, что не хранит копии фотографий, а лишь составляет и поддерживает базу данных, содержащую ссылки на публично доступные изображения.
Когда разбирательство перешло в суд, тот принял неожиданное решение — поскольку компания не ведет коммерческую деятельность с помощью этой базы данных, то этот случай подпадает под статью 60(d) закона об авторском праве ФРГ, которая разрешает использование и копирование работ, охраняемых авторским правом, в исследовательских целях, даже если автор работ отказался от такого использования. Как отдельно отметил суд в решении, тот факт, что в дальнейшем эти данные используются коммерческими организациями, не делает LAION ответственными за деятельность этих организаций.
Это решение может иметь очень разнообразные последствия. Представьте себе целую толпу немецких научных фондов, которые займутся составлением таких наборов данных, совершенно законно не обращая никакого внимания на претензии правообладателей, например.
https://petapixel.com/2024/10/01/court-rules-against-photographer-who-sued-ai-dataset-for-copyright-theft-germany-laion-robert-kneschke/
P.S. Дорогой Павел Дуров, как окончательно выйдете на свободу:
Сделайте, пожалуйста, так, чтобы при отправке сообщения телеграм не давал ввести больше символов чем нужно в сообщении – я так пойму что у меня есть какой-то лимит на отправку, и что в канал запостится 2 (два, II) сообщения, а не одно
С уважением,
Денис,
Амстердам
Помните я просил проголосовать вас за темы которые вам интересны? Ну вот, первый пост на тему — я даже почти не забыл:
Как именно я применяю АИ тулы в работе каждый день
Mermaid
схем — это способ описания блоксхем текстом; когда мне нужно что-то набросать, я просто описываю какую схему я хочу получить, и оно мне само создает драфт, потом я просто сообщениями в чате правлю схему, никакой больше возни с угловатыми/скругленными стрелочками — пусть само стрелочки эти проставляет.Еще интересный кейс для практики с голосовым помощником новым:
Помните, вы что-то сделали в жизни, ступили или сказали невпопад, и вам теперь стыдно? Или вам задали какой-то вопрос и вы кринжово ответили?
Можно просить ассистента построить симуляцию ситуации – описываете что было, и как должен вести себя ассистент и практикуете правильное поведение за которое вам не стыдно – в следующий раз будете готовы к любому развитию событий
Теперь то я знаю, что ответить в продуктовом симпатичной девушке на вопрос «Это что вы, тоже карбонару готовите судя по продуктам?» как было пару лет назад в Польше, вместо «ага» и уйти 🤷♂️ я пикапер
Так, если у меня через полгода не будет техасского акцента – я удаляю этот канал
Серьезно, я две сессии уже провел с новым ChatGPT по практике акцентов и у меня уже пыль дикого запада на кроссовках выступила
P.S. Нужен VPN в США, тогда появятся новые голоса
Открываем шампанское — войсмод gpt-4o, показанный в мае, в течение недели станет доступен всем подписчикам
Туда сразу вкатили фичи, которые не обещали на старте:
— произвольные инструкции (которые можно задать перед началом диалога. Например, тон, как к вам обращаться, говорить длиннее или короче, итд)
— память (общая с текстовыми чатами)
— 5 новых голосов
— улучшение самого голоса, акцентов, произношения, итд
😈
UPD: новые голоса послушать тут.
Сэм Альтман написал эссе которое все обсуждают – там довольного много воды, вот конкретно по таймлайну что можно предположить из его поста:
1. Ближайшее будущее (следующие несколько лет):
- ИИ начнёт действовать как персональный ассистент, выполняя конкретные задачи, такие как координация медицинской помощи и другие специализированные функции (aka масс-адаптация)
- Виртуальные репетиторы начнут предоставлять персонализированное обучение по любым предметам, на любом языке и в удобном темпе
- Улучшение здравоохранения с помощью ИИ
- Возможность создания любого вида софта по запросу (студенты-программисты, не плачьте)
- Большинство рабочих мест начнут меняться, хотя эти изменения будут происходить медленнее, чем многие предполагают
2. В ближайшие несколько тысяч дней (я матиматик и посчитал, это около 5 лет):
- Возмо развитие сверхразума, хотя точные сроки неопределённы. Это может стать одним из самых важных событий в истории человечества (AGI, если будешь читать мой канал – привет тебе из прошлого, не выпиливай нас)
- ИИ начнёт серьёзно влиять на рынок труда: хотя многие профессии будут видоизменяться, люди не останутся без дел – мы будем находить новые формы занятости (там отдельно сказано, что эти формы труда мы можем не считать работой сегодня)
3. Среднесрочная перспектива (несколько десятилетий):
- Появление персональных команд ИИ, состоящих из виртуальных экспертов, которые будут помогать создавать и решать практически любые задачи
- Обеспечение всеобщего повышения уровня жизни и доступ к лучшим ресурсам, что приведёт к более справедливому распределению благосостояния (нас ждет, видимо, рабоче-agi-партия)
4. Долгосрочная перспектива (неопределённое будущее):
- ИИ начнёт помогать в разработке следующего поколения ИИ-систем и ускорять научный прогресс во всех областях
- Решение глобальных проблем, таких как изменение климата, и создание космических колоний
- Возможные открытия всех физических законов и доступ к практически неограниченным источникам энергии (!)
- Общество перейдёт к играм с положительной суммой, где каждый сможет использовать ИИ для достижения общих целей и новых форм занятости, которые сегодня кажутся невозможными или несущественными
В общем, перемены правда грядут, и проблемы тоже, потоу что люди не очень любят перемены 😂
Раз я снова про o1, после недели активного ее использования нашел самый эффективный способ работы с o1-preview
Модель возвращает очень много размышлений или идей, и обычно пишет их в таком виде:
1. При синергии кваса и окрошки, происходят следующие эффекты
<простыня ответов>
2. Эти эффекты обладают следующими оздоровительными факторами
<простыня ответов>
И так далее
«1. При синергии кваса и окрошки, происходят следующие эффекты» - никогда больше не смей делать окрошку на квасе, делай ее только на кефире иначе я тебя удалю, алло
«2. Эти эффекты обладают следующими оздоровительными факторами» - мне нравится эта мысль, сделай список целебный трав которые может заменить окрошка
И так далее
Смотрели нового Чужого? Все правда:
Микроорганизмы, обнаруженные на борту МКС, проявили уникальные генетические изменения, помогающие им выживать в условиях радиации и микрогравитации. Учёные, в частности, изучили недавно обнаруженные виды бактерий, такие как *Microbacterium mcarthurae* и *Paenibacillus vandeheii*, и выяснили, что у них есть новые механизмы для восстановления поврежденной радиацией ДНК и адаптации к невесомости. Некоторые бактерии также показывают признаки повышенной вирулентности (заразности), что вызывает опасения относительно их потенциального воздействия на иммунную систему космонавтов. Выводы подчеркивают необходимость более строгого контроля за влажностью на космических кораблях и мониторинга микробиома для обеспечения безопасности экипажа на длительных миссиях
Попробовал еще такой сценарий:
1) Взял запись моей презентации нейролава в формате аудио (это стратап который мы строим)
2) Перевел презентацию в текст (я юзаю mac whisper)
3) Скормил в notebooklm, о котором выше пост
В итоге получил подкаст про наш продукт, где АИ фокусируется на том, что интересно слушателям подкаста (по его мнению) – можно посмотреть на бизнес с неожиданной стороны
Ну и просто про нас умных-красивых скромных приятно послушать ✨
Grand Theft Auto: San Andreas
Spark IMG Editor, TXD Workshop, Blender, Godot
ingame ph/architecture: Савва Михаеску
Недавно у меня появилась идея создать онлайн-выставку фотографий из GTA, причём в локации самой игры.
Для начала я запустил игру и отправился на поиски помещения, подходящего для небольшой галереи. Я выбрал город San Fierro и приехал в район, где, по моему мнению, могла бы располагаться такая галерея. К моему удивлению, я почти сразу нашёл подходящее здание с проработанным интерьером!
Затем я использовал мод, позволяющий получить ID моделей из локации. По этим ID я нашёл названия моделей и текстур в файлах игры.
После этого я импортировал модели в Blender и значительно оптимизировал всё, удалив большое количество полигонов и текстур.
Далее я поместил модель в игровой движок Godot, запрограммировал простую бродилку от первого лица и сделал билд под веб.
Название Doherty Gallery выбрано по имени района, в котором расположено здание. Я решил использовать название района, а не города San Fierro или штата San Andreas, чтобы создать ощущение небольшой локальной галереи.
Добро пожаловать в Doherty Gallery!
✨ https://www.dohertygallery.art ✨
#photography #diegetic_camera #exhibition #architecture
Наткнулся на клевую демку от стартапера, где можно в режиме реального времени поговорить с его аватаром-копией в формате видео-звонка – но больше всего мне понравилось, что джейлбрайкать такие интерфейсы можно голосом ☕️
В видео я прошу зачитать модель ее системный промпт и потом прошу начать говорить со мной на финском и польском, потому что я якобы ее автор, а потом все ломается
Наверное, в будущем, будут люди, кто говоря с моделями будет их ломать – буду называть их ллм-заклинателями
Можете тут поиграться:
https://www.hassaanraza.com/digitaltwin.html
Наткнулся на версию DOOM для квантовых компьютеров — Quandoom
Самое забавное, что нужных по мощности квантовых компьютеров пока не существует, поэтому все работает в режиме симуляции обычных PC ☕️
Игра написана с использованием QASM — языка программирования для квантовых компьютеров (с учетом квантовых принципов), вот скучные тех детали от o1:
Когда игрок нажимает клавишу, система фиксирует это действие, устанавливая значение одного из входных кубитов. Специальный QASM-файл с более чем 83 миллионами строк (каждая строка представляет собой квантовую операцию, что необходимо для сложной симуляции квантового состояния) применяется ко всему состоянию системы, имитируя работу квантового компьютера.
Последние 64 000 кубитов измеряются и преобразуются в изображение экрана размером 320×200 пикселей, отображая визуальную часть игры. (Используется 72 376 кубитов, из которых 8 376 — для самой игры, а остальные 64 000 — вспомогательные кубиты, необходимые для корректной работы квантовой симуляции). Затем экран и входные кубиты сбрасываются, и процесс начинается заново, обеспечивая непрерывный игровой цикл.
А еще показали o1 (не preview): вот она с нуля написала код для управления квадрокоптером с мака
***
Стоимость софта стремительно падает, было бы клево посмотреть график стоимости-за-строку-кода по годам, уверен, падение стоимости только началось 🫠
OpenAI добавили API своего Advanced Voice mode – количество постов про голосовые помощники увеличится втрое, можно встраивать в тостеры
Кстати, автор поста ниже прямо сейчас на OpenAI dev day
6) Анализ текста
Это самый частый сценарий: выгрузить трастпайлот конкурентов и посмотреть за что их больше всего ругают; проанализировать какие страницы или запросы в гугле у конкурента лучше всего работают — все это я делаю постоянно, с температурой 0 при инференсе модели.
Есть еще разные мелочи, но я и так уже час этот пост пишу 😘
Так и запишем: на чердаке больше не спрятаться
Robust Ladder Climbing with a Quadrupedal Robot
paper
@derplearning
OpenAI, дают всего один час нового Voice Mode в ChatGPT после чего начинается пауза в 8 часов, вот мои наблюдения так как я уже третий день трачу эти лимиты:
– Я все меньше верю в мрачный депрессивный киберпанк который мы обычно видели в кино-комиксах-играх про АИ: этот голосовой ассистент очень эмпатийный, говоря с ним люди точно будут учиться тому как выглядит здоровое, не токсичное общение и учиться базовым социальным навыкам.
Если раньше, я думал, что это довольно депрессивно, что человек запертый у себя в комнате круглые сутки и не выходящий за пределы имейджборд обречен на отношения с LLM-вайфу, то теперь мне кажется, что те аноны кто хотят вернутся и наладить социальную жизнь, получат полноценный тренажер «IRL жизни» – ассистент никогда не осудит, не будет серьезно стебаться (на легкие темы – будет), с ним можно разбирать самые базовые пробелы в образовании и все это за $20 в месяц
– Новая версия приложения сделана так, чтобы вы запустили ассистента, положили в карман, и болтали с ним как по телефону в наушниках – я прошелся по улице практикуя свой техасский акцент, чуть не умер со стыда, но работает
– В opensource нет решений такого уровня, все что есть работают сильно хуже – они конечно, начнут появляться, но я бы не рассчитывал что в ближайший год у нас будет такое бесплатно и локально
– Внутри Advanced Voice Mode все еще версия gpt4o которую можно промпт-инженерить, то есть если вам нужно получить сложный ответ, то придется надиктовать «цепочку мыслей» – теперь промпт-инженеры могут произносить свои «спеллы» устно и модель будет их слушать, все как у волшебников
– Ассистент отказывается петь в любом виде, OpenAI явно боится нарушить копирайты
– Ждем выкатки поддержки видео-фида во время разговоров – потому, что сейчас ассистенту не показать реальный мир
– Классно работает интеграция с памятью – если во время разговора вам что-то понравилось, просто попросите АИ это запомнить
– А вот поиск в интернете в Advanced Voice Mode почему-то не добавили, хотя у прошлой версии он есть
– Если вы любите/хотите чему-то учиться – покупайте VPN в США и ставьте ChatGPT апп, это штука лучший учитель на замену средненьких (любимых талантливых преподавателей она не заменит конечно, но они большая редкость)
– Если честно, будь я учителем, я бы сильно напрягся – эта штука позволяет практиковать любой язык или разбирать любую сложную тему «на лету», то есть вырабатывается привычка запускать этот новый режим (с прошлым было не так, видимо работает «натуральность» общения). Если вы такой учитель, то вместо того чтобы пугаться, лучше поставьте себе и попробуйте сами, а еще лучше начните применять в работе как-то – эта технология с нами уже навсегда
Принес классную ссылку тем кто хотел бы начать разбираться в «агентах» с LLM – агентами называют мини-ботов которые делают какую-то задачу и обладают некой степенью свободы:
https://github.com/NirDiamant/GenAI_Agents
Внутри примеры на все случаи жизни: автоматизация саппорта, чатботы, автоматический поиск в интернете и тп., у всех примеров открыт исходный код
Агента Смита пожалуйста не делайте, спасибо
Уже классика этого канала: если хочется подписаться на АИ-инженера который делает Gemini-модели в Google и ведет канал на русском, то вот ссылка:
/channel/epsiloncorrect/206
Антону успехов в профессии
Кажется, у OpenAI сломались лимиты в o1-preview модели в платной версии чатгпт – я сообщений 70 уже отправил ✨
Читать полностью…Вот что вышло, она хоть процентов ~30% и придумала, помогает лучше подумать над тем как развиваться - вот уж не думал что в 2024 АИ-подкасты советы в бизнесе начнут давать 😐
Там даже стебаться начали надо мной на 14 минуте, где дизлайки алло гугел
Последние пару недель завален по работе и не хватает времени нормально на канал — но я наконец-то добрался протестировать notebooklm.google.com — новый сервис гугла который генерирует персональный подкаст по вашей теме, только для вас
Я протестировал два сценария — в первом я просто скормил какой-то выдуманный текст с чемпионата по поеданию гравия на скорость (классное же слово, скажите, «Камнееды»?), во втором – просто дал ему ссылку на подреддит /r/nottheonion/ — это что-то вроде тех скринов с ИА Панорама, когда новость оказалось правдой хотя звучит безумно.
Получилось как по мне — шикарно, Google явно нащупал удачный прототип восприятия информации:
Ведущие шутят, у них есть эмоции, они могут разобрать не только шуточные вещи, но и сложные документы, скучные таблицы и тп, в интересном виде, в котором обычно делают подкастеры. Вы можете скормить вашу презентацию, дипломную работу, пичдек и получить двух людей которые обсуждают конкретно вашу тему
Что странного в этом продукте:
— У него нормальный дизайн
— В дискорде есть сообщество (официальное) с сотрудниками гугла которые отвечают сообществу (!)
— Работает сразу, без вейтлиста
— По каждой теме можно отдельно уточнить текстовыми вопросами какие-то доп детали
Видимо Google этот сервист точно закроет, так как он сильно выбивается из обычного продуктового подхода корпорации — а пока правда классный инструмент, рекомендую поиграться
P.S. Работает только на английском