Кулибины из Stanford University x DeepMind из говна и палок собрали робота за $32k
Он управляется нейросеткой с ноутбука с GPU 3070TI и способен обучаться сложным задачам всего за 50 демонстраций. «Демонстрацией» тут называется последовательность действий, осуществляемая человеком со специальными контроллерами в руках (см. тут). Авторы тестировали робота на многих задачах, и в целом в более чем 50% случаев у него всё получается после шага обучения «подражанию» людям.
Делает ну буквально всё: готовит, заправляет стиралку, подметает, заправляет подушку в наволочку, протирает мебель... был бы у меня такой робот — я б может и не женился 🍷
Инструкция «собери сам» доступна тут, в основе лежат покупные робо-детали и распечатанные на 3D-принтере компоненты.
Больше демок: тут, тут, тут и тут. Тем, кто досмотрит приложенное видео до конца — бонус с нарезкой людей фейлов бота при готовке.
———————————
Начинаем 2024й год в AI с хороших новостей для сотрудников фастфуда☕️
Новогодний отсчет в Париже – лет через ~20 зумеры 2.0 будут смотреть как мы держали эти экранчики с камерами в руках и будут ржать над нами всеми, я вас уверяю
Читать полностью…Тоже поигрался с Midjourney 6 и мне правда интересно куда такой уровень реализма нас заведет – скандалов будет много
Единственное скажу, что Dalle 3 намного лучше слушает промпты: модель Midjourney нужно долго мучить разными способами чтобы получить что-то нестандартное, людей которые пылесосят лес я получить так и не смог (даже используя дополнительный синтаксис "::" и тп), но я быстро сдался
Все сделано этим промптом:phone photo ____ posted to snapchat in 2019 --style raw --ar 9:16
В последней версии Midjourney их модель перешагнула эффект «зловещей долины» и теперь генерирует фотографии будто снятые на телефон ☕️ (правда, эти фотки еще апскейльнули)
Думаю что в 2024 количество фото-фейков выйдет на новый уровень, так как эти картинки получены очень простыми фразами, вроде:phone photo of a man sitting on a bench with his family at a wedding in New York posted to reddit in 2019 --style raw
Из плюсов – красивых/смешных мемов в 2024 станет еще больше 🍎
Кажется 2024 год начнется со скандала между Midjourney и владельцами копирайтов на которых натренирована их последняя v6 модель 🍿
«Вас заметили» moment
Слухи, что MJ тренируют на фильмах я слышал еще год назад от каких-то челов из долины, но я честно думал они с нормальной лицензией фильмы используют
И суд точно будет, за 2023 год MJ заработало почти 300 миллионов долларов
Увидел мем слева и решил проверить – кажется нам врут, экспонентный рост закончился на ковиде ☺️
надушнил и доволен
Несколько недель играюсь с Claude 2.1 от Anthropic (это отпочковавшиеся сотрудники OpenAI, ныне конкуренты OpenAI). Сам по себе Claude 2.1, конечно, уступает GPT 4 по уровню рассуждений модели — но в нем есть одна сильная сторона, контекстное окно в 200 тысяч токенов.
GPT 4 Turbo тоже якобы умеет в большой контекст — в ChatGPT, с ноября этого года, контекстное окно 32 тысячи токенов, что неплохо, но на самом деле она «забывает» детали контекста уже через 5 тысяч токенов (пруф ).
А функция, когда вы прикладываете документ ChatGPT и задаете по нему вопросы, работает на какой-то своей версии RAG, о котором я писал тут (где зомби апокалипсис книги генерировал), что как бы костыль над большим контекстным окном.
Разработчики Anthropic реально озаботились проблемой «забывания» данных в контекстном окне и в новой модели Claude 2.1 достигли ~90% запоминания всего что ей передавали: по-простому из 200 000 токенов, новый Claude будет точно помнить ~180 000 токенов или больше, что для моих задач идеально.
Вот мои наблюдения, как такой гигантский контекст можно применять в жизни и работе:
— Я стал более ленивым: меня иногда ломает читать сложные статьи потому, что я лучше тиктоки посмотрю (☕️). Доступ к такой модели укрепляет этот паттерн — проще скопировать текст PDF документа или лонгрида, и задавать вопросы по важным для меня темам, будучи уверенным, что ты почти ничего не потеряешь из знаний (и она не нагаллюцинирует тебе ответ целиком).
— Это идеальное средство борьбы с графоманами: некоторые люди любят писать больше, чем доносить суть, буквально вчера сэкономил себе 30 минут чтения статьи по теме ИИ, просто поспрашивав важные для меня вещи и получив выжимку.
— Это самый быстрый способ получить быстро знания из большого документа (скриншот ниже): будучи гражданином РФ и находясь под санкциями в ЕС, я сталкиваюсь с доп юридической нагрузкой. Не так давно получал посылку от брата с личными вещами оставленными в мск 7 лет назад, и нужно было проверить ~270 страничный ЕС документ на то, какие товары я могу импортировать будучи гражданином РФ, а какие нет (cтарая Sega запрещена или нет будучи электроникой, и так с каждой позицией и тп). Самый быстрый способ «прочитать» документ — было загрузить текстовую версию документа в Claude 2.1 и скормить список моих товаров. Это не совет всегда поступать так с юридическими документами, но мне помогло: таможня в Амстердаме провела посылку без проблем. При этом, местный транспортный агент испугался работать с такими сложностями (особенно с документом запрещенных товаров), так что я сам на таможне все заверял (они тут лапочки по сравнению с таможней экс-СНГ стран, буквально за ручку водили). А Claude 2.1 сильно помог в уверенности что запрещенки в посылке нет.
— Один из самых технических кейсов (на видео ниже он же): для neural.love, огромной долей трафика является SEO, но мы как бы не то чтобы настолько эксперты, чтобы технически каждый сантиметр сайта адаптировать под SEO-нужды, нас всего 8 человек в команде. Поэтому, я скормил html-код страницы конкурента который выдается лучше нас и html-код нашей страницы, и попросил указать точки роста для нашей SEO-оптимизации. Поскольку 200k токенов это дофига, Claude 2.1 расписал наши точки роста, и это все конвертировалась в таск в Jira который поможет нам лучше конкурировать в Google выдачи.
Выводы:
Я в восторге от большого контекстного окна, это тот самый кусок технологии который ее по настоящему раскрывает ее потенциал. Очень жду что OpenAI починит забывчивость и сделает своей контекстное окно таким же (думаю, в 2024 так и будет).
P.S. Claude 2.1 сейчас в закрытой бете, и туда не всех пускают, я подавал заявку тут. Но учтите, что в веб версии лимит 100k токенов, так как веб-версия начинает тормозить от кол-ва текста.
P.P.S. Один токен это примерно 70% обычного слова, чтобы было проще понять что это
Ничего необычного, просто секс бот на большой языковой модели помог сделать домашнее задание школьнику ☕️ тред
ГДЗ стали намного приятнее в этом нашем киберпунке
🐟 Ой, хватит этих ИИ-штук, давайте лучше посмотрим как наковальня плавает в ртути 🐟
🌹🌹🌹
Спустя месяц OpenAI опять начали принимать новых пользователей которые хотели бы им заплатить за ChatGPT и GPT4 в вебе
Хочу тоже такой бизнес, когда чисто по фану продукт делаешь и если серверов не хватает — просто закрываешь прием денег от пользователей ☕️ а чего такого
У меня к вам предложение:
Вы игнорируете этот и следующий пост, а я вам раздражающую бегущую строку, которую делал пару часов ради того, чтобы ее закрепить 🤑
Спасибо, знал что мы договоримся!
🕺🕺🕺🕺🕺
Так, запускатели гусей победили – было не слишком сложно, потому что некоторые машины пропадают и исчезают за сотню метров от камеры:
Это компьютерная графика, но полученная на базе реальных видео.
Сначала реальный мир конвертируется в "облако точек", а потом эти точки используют для воссоздания сцены, света и тп. Я не буду грузить вас техническими деталями, все это работает на базе клевой технологии того года "gaussian splatting" и описано детально на странице проекта.
Примечательно, что такая графика выдает 133 кадра в секунду (разрешение 1066×1600) – так что нас еще ждет революция в инди-гейм девелопменте. Пока это все планируют применять для тренировки автопилотов, ждем добавления в Unreal.
Больше примеров тут (с телефона не работает):
https://zju3dv.github.io/street_gaussians/
🕺🕺🕺🕺🕺
Мой любимый формат загадки – в видео ниже:
🏬 – ставьте домики если считаете что это реальное видео
🪿 – ставьте гуся если считаете, что это компьютерная графика
Результаты подведем завтра ☕️
Сначала они пришли за художниками, потом за копирайтерами, теперь роботы пришли за уличными музыкантами 😡 сколько это еще будет продолжаться 😠
Читать полностью…Если вы помните, издание NY Times, в конце того года, подало в суд на OpenAI – якобы, в моделях OpenAI находится множество их статей, поэтому NY Times требуют уничтожить все модели натренированные с применением их данных (а это и GPT 3.5, GPT 4 и все эти тысячи опенсорсных моделей которые натренированы на ответах GPT 4).
Юристы которых я читал, говорят, что NY Times просто добивается лицензирования своего контента, так как это денюжки, а у OpenAI они есть, и что закончится все соглашением сторон – обычное дело в мире юристов.
Но интернету не понравилось как NY Times сформулировала свою угрозу (без уважения 🚶♂️), так как если «в теории» они выиграют, то сильно пострадает мир опенсорса.
Чувак с реддита, с помощью языковой модели, проанализировал в деталях стиль написания статей NY Times и сделал на этой основе открытый датасет для включения в будущие тренировки.
У датасета хорошая лицензия MIT и он по сути учит языковую модель писать статьи в стиле NY Times, но не нарушает копирайты:
https://huggingface.co/datasets/TuringsSolutions/NYTWritingStyleGuide
Стрейзант эффект на уровне датасетов 🍿
Ребят, я хочу пожелать вам счастливого нового года. Сейчас много скопированных поздравлений, которые люди просто отправляют своим знакомым, даже не читая их. Это печально. Я бы хотел написать о том, чего я сильно желаю и что лежит глубоко в сердце. Наши друзья очень важны для нас, и эту дружбу нельзя выразить простым сообщением, скопированным у другого человека. Хочу сказать всем огромное спасибо. Вы лучшая футбольная команда, с которой я когда-либо играл. Всех обнимаю.
Читать полностью…Вместо каких-то общих пред-новогодних слов (кроме пожелания вам безопасности в текущем и новом году, и пожелания чтобы война закончилась, а виновные в ней были наказаны), хотел бы поделиться чем-то полезным – мыслью, которая мне часто помогает решать сложные задачи в работе или личной жизни:
Мысленно перемотайте время на год вперед, в голове у вас теперь декабрь следующего года. Представьте, что теперь ваша жизнь – лучше, чем была когда-либо, полностью благодаря вашим решениям.
Какие шаги вы приняли, чтобы оказаться в этой точке?
Это хороший способ выписать пару главных задач на год (избегайте выписывать больше, меньше достижимых задач – лучше).
Также работает и в построении бизнеса – назначаете мысленный результат (аля х4 продаж в месяц), и расписывайте как к нему пришли.
Использую пару лет как, можете не покупать билет на Энтони Роббинса, я теперь ваш коуч личностного роста 🤑
P.S. Если вы представили, что вы новый Безос, то придется начать с лысения
Чел подключил лицо к джойстику и играет в эмоции на максималках, идеально для интровертов или на кинк на вечеринках ☕️
A, C, ↑, B, ↑, B, A, ↓ и партнерша тобой доовольна
Тут инструкция как собрать себе такое же
NASA впервые cмогло отправить на Землю видео в формате Ultra HD из глубокого космоса.
Тестовое видео было отправлено с космического аппарата «Психея», которое находится на расстоянии 30 млн км от Земли.
И это видео кота одного из инженеров, который гоняется за указкой. Вот инопланетяне удивились, когда перехватили сигнал.
В видео размер промпта для SEO-задачи, а во втором скрине пример консультации по документу с запрещенкой на импорт в ЕС
Читать полностью…Понимаю ее, это правда жесть же, 87 делится на 29 без остатка 🤔
Как и 51 и 57 на 3, памагити
📣 87 не является простым числом ☹️
Вчера в очередной раз практиковался в промпт-инженеринге на своей img2img GPT и случайно открыл режим смешивания картинок, теперь там суммарно три режима:
1) img2img – просто отправляете ей картинку и получаете новую, похожую (видел на реддите кто-то копирайты так у некоторых картинок «сбрасывает», кек)
2) txt2edit – заливаете картинку, и пишите что поправить. Старый режим, в последней картинке показано как работает.
3) Image Merge – новый режим: заливаете несколько картинок (можно больше двух даже) и GPT попробует их усреднить между собой; работает и с мемами, и с логотипами, и с фото и тп.
Img2img GPT v3 работает быстрее, стабильнее, а я достиг предела промпта у GPT – 8000 токенов, потому что я упоротый 😵