Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow
Что будет, если дать 1000 ботам сознание и запустить их в Minecraft?
Они построят цивилизацию...
Только недавно писал про агента, который научился крафтить каменную кирку и кучу всего другого. И вот теперь пожалуйста, они, как муравьи, собрались и построили свой лучший мир без кожаных ублюдков.
Эксперимент был проведён небольшой группой Project Sid. Они не просто научили агентов выполнять команды, но и действовать по своей воле.
Авторы прикрутили агентам понятия о социальном мире. Они способны понимать своё место в этом мире и роль окружающих. Например, они знают, что агент Б — полицейский, его нужно слушаться, а вот агента В, Васяна из соседнего дома можно послать нахрен. Эти роли могут динамически обновляться в зависимости от ситуации.
Более того, они научили квадратных мечтать (см. видос). Там один из агентов-фермеров, услышав о странствиях одного путешественника (разработчики поощряют смолтоки ни о чём), захотел отправиться в путешествие, но потом оставил эту идею "на потом", узнав, что без него деревня голодает. Но самого интересного – технических подробностей нет и, кажется, не предвидится. Жаль, т.к. очень любопытно, что за LLM они гоняли и сколько им это стоило.
Еще у ботов был Google-документ с конституцией, и они голосовали за правки, лол. Говорят, боты универсальные, умеют пользоваться Google-доками и их можно адаптировать под другие игры.
Короче, ребята подготовили достойную высокоморальную замену человечеству (мы то без системы сдержек и противовесов ни о чем договориться не можем). В ролик вставили небольшую полит агитацию Камалы против Трампа, но просто игнорьте это.
И вишенка на торте! С агентами уже может поиграть каждый! Для этого создаём мир в Майнкрафте, открываем для подключения, копируем код порта и вставляем на сайте. Там же можно создать своего кастомного подручного. С ботом можно поболтать или дать ему какие-нибудь задания. За отдельный кэш можно запустить свою симуляцию, но это в личном порядке.
Тред
Дискорд
Реддит
Блог-пост
Сайт с плейтестом
@ai_newz
DeepSeek V2.5
Обновлённая модель, результат мержа DeepSeek V2 и DeekSeek Coder V2, сочетающая позитивные стороны обеих моделей и заменяющая обе. В большинстве бенчей лучше чем оба своих предшественника, но в паре есть деградация. Советуют подкрутить температуру и промпт, если есть какие-то странности.
Всё по той же крайне низкой цене - 14 центов за миллион токенов на вход и 28 центов на выход. А ещё есть Context Caching, который в 10 раз срезает стоимость инпута и бесплатно хранится сутки.
Если не хочется использовать API, то веса модели уже доступны. Из-за нестандартной архитектуры, с инференсом были проблемы, но последняя версия SGLang их исправила - перформанс вырос в 7 раз.
Huggingface
@ai_newz
Разбираешься в AI? Покажи, на что способен – прими участие в международном соревновании AI Journey Contest. Призовой фонд – более 8 миллионов рублей!
Задачи, как всегда, масштабные и амбициозные. Участникам предстоит работать с SOTA-технологиями, выбрав одну или несколько из предложенных задач:
✔ Emotional FusionBrain 4.0 — создать мультимодальную модель, которая умеет круто понимать видео, отвечает на сложные вопросы и «чувствует» человеческие эмоции.
✔ Multiagent AI — разработать мультиагентную RL-систему, где агенты будут объединяться в различные схемы кооперации при решении задач. Эта задача суперполезна для научных исследований.
#промо
👮Калифорнийский законопроект о регуляции ИИ прошёл ассамблею
TLDR: SB 1047 фактически запрещает публикацию передовых моделей в опенсорс. Несмотря на сильную оппозицию (см скрин) со стороны индустрии и не только, закон удалось провести сквозь ассамблею. На него ещё может наложить вето губернатор.
Последний раз я писал о законе ещё в июле, с тех пор туда внесли ряд правок. Вот основные изменения в законопроекте с прошлого поста:
➖ Подпадают под закон модели, которые стоили бы более $100 млн по "средним ценам облачного компьюта". Файнтюны же таких моделей, на которые потрачено более $10 млн, считаются новыми моделями. До 1 января ограничение также даётся в флопсах - 1e26 и 3e25.
➖ Обновлять определение подпадающих под закон моделей теперь будет "Board of Frontier Models" (совет по делам фронтирных моделей). Пять из девяти мест в борде будут занимать: представитель опенсорс сообщества, представитель индустрии, эксперт по кибербезопасности, эксперт по оружию массового поражения и эксперт в ИИ. Их назначает губернатор, подтверждает назначение сенат. Ещё два места, которые назначает спикер ассамблеи – это академики, специализирующиеся в AI. Оставшиеся два места назначает комитет по правилам сената, требований к компетентности членов тут нет.
Главная проблема закона, напоминаю – это ответственность разработчиков модели за "критический вред", который нанесла не только сама модель, но и её файнтюны "дешевле $10 млн". По факту это запрещает публикацию в опенсорс моделей, подпадающих под закон. Даже если сама модель безобидная, доказать, что все возможные файнтюны в пределах ограничений по компьюту, будут тоже безобидными - невозможно.
Вторая большая проблема - определение денежной стоимости тренировки модели "средней ценой по рынку". Разброс в стоимости H100 в час на рынке сейчас более 4x (AWS - $12.25/hr, Lambda - $3/hr), так что со средним значением под закон будут подпадать модели в разы дешевле чем лимит на бумаге.
Сейчас закон отправился на рассмотрение к губернатору, у которого месяц на то, чтобы либо подписать закон либо наложить на него вето. Если он его подпишет - регуляции вступят в силу уже в 2026 году.
Кажется, если закон примут, то это может прибить AI стартапы в Силиконовой Долине – они будут делать ноги в другие штаты, где и налоги пониже и регуляции помягче. При условии, конечно, что не примут похожую регуляцию на федеральном уровне.
@ai_newz
Маск продолжает удивлять - XAI уже запустили Colossus, крупнейший в мире кластер для тренировки. Более того, в течении пары месяцев его мощности удвоят - добавят по 50k H100 и H200.
@ai_newz
Тесты video-01 от твитерских:
Руки двигаются хорошо, а вот глаза немного прыгают (еле уловимо). Ну, скоро и эти недочеты в моделя будут исправлены.
@ai_newz
Как LLM хранят факты?
Принес вам на вечер субботы отличный ролик от 3blue1brown. На этот раз гений интуитивного обучения расскажет про то, как LLM запоминает факты.
Это видео для полных новичков, объясняющее роль многоуровневого перцептрона (MLP/FFN) в LLM. Это третье и последний эпизод в серии о работе LLM. D первых двух объяснялось как работают эмбеддинги и как работает механизм внимания. Эта серия - лучшее объяснение для непрограммистов о том, как работают LLM, с кучей хороших визуализаций.
https://www.youtube.com/watch?v=9-Jl0dxWQs8
Смотрим здесь. Клип сверху — просто отрывок.
@ai_newz
А вот как NEO Beta ходит и помогает по кухне
@ai_newz
Новая Alexa будет на основе Claude
По сообщению Reuters, продвинутые фичи на основе новой модели будут стоить 5-10 долларов в месяц. Выглядит как ещё одна попытка получить хоть какую-то прибыль от Alexa, потери от которой с 17 по 21 годы составили 25 миллиардов (более новых данных нет, но там вряд ли дела обстоят лучше).
Увы, похоже это будет не омни-модель, вроде GPT-4o, так что задержка лучше текущих голосовых режимов не станет (то есть ~3 секунды, а не ~300 миллисекунд). Надеюсь Антропик подсуетится и даст возможность Claude работать напрямую с аудио и на вход и на выход, тогда будет разнос (но о стоимости инференса даже думать страшно).
Вот и начинается интеграция Claude в продукты Amazon, раньше это было лишь API. Инвестицию в 4 миллиарда отбивать-то нужно.
@ai_newz
VGGHeads: Восстанавливаем 3D головы на групповых фото
В догонку к недавнему посту про OccluFaceDiff, где мы со студенткой восстанавливали 3D-шейп лица по видео или аудио, даже если в какой-то момент оно закрыто, спешу поведать про VGGHeads. Ребята научились собирать меш сразу для нескольких голов по одному фото. Казалось бы, а что, фильтры в Instagram так не умеют? А вот нет! Потому что задетектить столько лиц сразу — довольно сложная задача, а здесь это ещё и делается в один шаг. Архитектура модели ню построена на базе YOLO-NAS. Не реалтайм, конечно, но очень к этому близко.
Ещё из интересного то, что для тренировки использовался полностью синтетический датасет. Картинки генерили на основе референсных, используя диффузию и 2D Pose controlnet. Всего так нагенерили 1M картинок с 2M+ головами, из которых 10 000 зааннотировали вручную (правда, только вот этой красной рамкой см. картинку, но и на это ушло 56 часов).
Примечательно, что человеку необязательно смотреть прямо в кадр — лицо детектится и в профиль. Выше пример с недавней сходки в Варшаве.
Project page
Пейпер
Код
Демо
Датасет (скоро)
@ai_newz
Никто:
Илон Маск: высказывается в поддержку калифорнийского закон SB 1047 о регуляции AI, который зажмёт его собственные компании тоже.
@ai_newz
LLM Arena для русскоязычных моделей
Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!
C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b
RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.
На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.
Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!
Для новчиков - тут я писал подробнее, что такое ChatBot Arena.
@ai_newz
Внимание! Hugging Face представляет конструктор «Собери сам роборуку и обучи ее»
Вкомплект входит:
- Конструктор «Собери сам» — роборука с ссылками для заказа запчастей ~ $300 (опционально есть еще вторая за $250) + файлы для принтера.
Гайды по:
- Cборке и калибровке.
- Записи собственного датасета на камеру телефона.
- Тренировке нейросетей для управления рукой.
Прикольная инициатива, ребята надеются максимально помочь начинающим в надежде привлечь больше рук (кожаных, а не робо-) в опен-сорс, что, в общем-то, шикарно!
Расходники вышли дороговатыми, но это уже не $108K за домашнего робогуманоида + скоро обещают выпустить новую версию, говорят уложились в $150 за обе руки.
Чел научил две роборуки складывать футболки на 100 примерах за одну ночь тренировки.
Хотел бы я подарить такую штуку себе 15 лет назад.
Туториал на гитхабе
Тред с гайдом получше (есть и видео и ноутбуки с тренировкой нейронок)
@ai_newz
Пока Карпатый уже не может представить, как работать без копайлота или Cursor, Амазоновские перелопатил половину корпоративного спагетти-кода, юзая их Amazon Q*.
Чуваки прикинули и пришли к выводу, что за пару недель сэкономили 4500 лет (sic!) работы человека-разработчика. Сначало не верится, но если учесть, что 80% кода они отправили напрямую в прод... хочется задуматься о перспективах работы для программистов.
Новая простыня отличается повышенной безопасностью и эффективностью (конечно, со слов разработчиков, ещё посмотрим какие дыры проявятся через некоторое время). А вообще, оптимизация должна принести Безосу лишние 260М в год👍
С одной стороны, в очередной раз press F джунам, с другой — ребята, пока еще не все выкупили фишку, устраивайтесь скорее на синьоров в старые компании и переписывайте им код за нормальную зп😁
* Amazon Q - это амазоноаский копайлот, который под капотом все также использует GPT, имеет доступ ко всей базе кода и документов внутри компании, плюс некий обвес из пайплайнов и интерфейсов вокруг. Вот тут про него.
@ai_newz
Я вернулся из поездки в Варшаву! Город очень живой и активный, особенно сильно это ощущается на контрасте с размеренным Цюрихом. И, конечно, огромное русскоговорящее комьюнити технарей.
Я провел целых две тусовки с подписчиками – одной оказалось мало, и меня попросили организовать еще одну. Сразу скажу, что обе прошли просто шикарно! Спасибо всем, кто пришел – вы все очень крутые!
Для первой забронировал целиком белорусский бар "Банки-Бутылки" (он же раньше был в Минске на Зыбицкой). Я приятно офигел от того, что на тусу пришло более 50 человек. Это пока рекордная по размеру тусовка "эйай ньюз". Получилось прям круто! Тут было, как мне кажется, три составляющие успеха:
➡️ Много интересных людей. Кроме ребят, кто работает в AI и ML (из FAANG-а, фирм поменьше и стартапов), были артисты, фотографы и маркетологи, которые активно используют AI в своей работе.
➡️ Вкусные коктейли, в том числе и безалкогольные (респект барменам!).
➡️ Хорошая музыка и обстановка. Так как место было зарезервировано чисто под нас, была очень уютная и непринужденная атмосфера.
➡️ Для самых стойких мы организовали афтерпати на шикарной террасе с видом на реку (кудос моему другу Андрею!). Разошлись в 3 часа ночи только 🎵.
Вторую тусу поменьше на 15 человек провели через два дня после первой на берегу реки Вислы за комфортабельными деревянными столами, где можно было приносить свои напитки. Тут было более спокойно, но не менее кайфово, смогли хорошо пообщаться и выпить пива с ребятами, наблюдая красивые виды вокруг.
Кроме того, меня пригласили на локальный Data Breakfast, который ребята проводили в Гугле. У Гугла оказалось прям крупное представительство в Варшаве, и есть даже команды из Waymo (где пилят self-driving).
Еще позвали в гости в офис Pinterest, где я познакомился с командой, вышедшей из белорусского стартапа Vochi, который был куплен Пинтерестом в 2021. Ну, и конечно, поработал из нашего Метовского офиса с классным видом на центр Варшавы.
Поездку в Варшаву объявляю очень удачной, приеду еще раз как-нибудь!
#personal
@ai_newz
Наш слоняра, Три Дао.
Ну, а что, чел реально в одну харю затащил Flash Attention, на базе которого работают (быстро) все современные LLM. И, кстати, его в непредвзятый список Times не включили.
@ai_newz
SSI Ильи Суцкевера привлёк $1 млрд 🙀
С момента основания Ильей Safe Superintelligence Inc не прошло и трёх месяцев, у неё всего 10 сотрудников, а оценка у неё уже 5 миллиардов! И топовые инвесторы, вроде a16z и Sequoia, не ожидают скорой прибыли — ведь первым продуктом компании будет сверхинтеллект.
Топлю за Илью, он реально крут!
@ai_newz
Минимум две компании собираются построить датацентр стоимостью более чем в $125 млрд
Комиссар по торговле Северной Дакоты заявил, что правительство штата проводит переговоры о постройке гигантских кластеров в штате - потребление каждого может доходить до 10 гигаватт. Это беспрецедентные масштабы - запущенный вчера Colossus, самый большой кластер в мире, потребляет менее 200 мегаватт, то есть разница более чем в 50 раз.
По словам комиссара, речь идёт о двух компаниях с капитализацией более триллиона. Компаний с такой капитализацией немного: Nvidia, Amazon, Google, Apple, Meta и Microsoft. Apple и Nvidia не столь активны в постройке датацентров, так что это, скорее всего, не они. А вот слухи о Stargate, гигантском датацентре Microsoft, ходят уже полгода.
Северную Дакоту, вероятно, рассматривают потому, что это один из немногих штатов с избытком электроэнергии. Обусловлено это огромными запасами нефти - штат добывает 1,3 миллиона баррелей в день - столько же, сколько добывает, например, Катар. А ведь побочный продукт сланцевой нефти - природный газ, который какое-то время настолько некуда было деть, что его просто сжигали, было видно из космоса.
Использоваться оба датацентра точно планируют для ИИ - другие юзкейсы представить сложно. Для контекста: Azure, второе по популярности облако в мире, в сумме потребляло 5 гигаватт на конец предыдущего года. Для того чтобы такие затраты были оправданы, выручка от ИИ должна вырасти ещё во много раз.
@ai_newz
RunwayML тизерят новую модельку, анонс завтра в 17:00 CET
В тизере ничего особо интересного не показали, кроме шикарных картинок, но думаю, релиз будет любопытный.
Теперь ждем презентации свежих видеомоделей, как новенький айфон.😋
@ai_newz
Нейродайджест за неделю (#33)
LLM
- Арена для русскоязычных LLM. Попробуйте предсказать результаты.
- Cerebras бьёт рекорд по токенам/сек. Огромная пропускная способность памяти чипа позволяет достичь сверхзвуковых скоростей.
- Claude в Alexa. Вот и «мозги» для колоночки подъехали, но поможет ли это спасти проект?
- Как LLM хранит факты. Самый понятный гайд по многослойному персептрону.
Роботы
- Комплект для самостоятельной сборки. Инструкция прилагается и стоит не так уж дорого.
- NEO Beta от 1x. Скайнет всё ближе, ботов уже не отличить от людей в костюме.
Другое
- Маск за регуляции или он уже нашёл лазейку?
- VGGHeads. Восстанавливаем 3D-шейпы голов в неограниченном количестве с новым датасетом в 1М картинок. Всё ради фильтров в инсту.
- MLPerf. Олимпиада чипов для нейросеток. Вот как понять, кто реально быстрее.
- Minimax video-01. Ещё один китайский игрок на рынке видеомоделей. Очень достойный перформанс.
> Читать дайджест #32
#дайджест
@ai_newz
Подъехала новая text2video халява от китайцев – Minimax video-01
Еще до выхода всяких Лум, Alibaba периодически скидывала статьи по видео генерации. И вот стартап Minimax, за спиной у которого Alibaba, показал свою видео модельку video-01. Еще в инвесторах, конечно же, Tencent — они, кажется, имеют долю вообще во всех китайских ИИ-стартапах. Трудолюбивые продолжают пытаться скопировать SORA и занять рынок до того, как OpenAI релизнет свою модель.
Релиз мощный, еще никто не делал фильм, лол. Помимо черрипика выше, есть еще твитерские примеры, и складывается ощущение, что эта моделька наиболее продвинутая в плане мувмента — чекните руки в первом видосе внизу. Максимальная длина генерации видо – 6 сек.
Кроме этого у них есть полный набор продуктов - генерация изображений, музыки, копирование голоса, свои LLM, клон Perplexity. Всё ориентировано на китайский рынок, поэтому компания не особо заметна за пределами Китая. За 250 миллионов долларов, которые поднял стартап, это очень достойные результаты.
Пробуем годноту здесь, если есть китайский номер: hailuoai.com
Официально работает только с ПК, но можно и в десктоп-режиме на мобилках.
@ai_newz
#вакансия
Редактор в сетку каналов про технологии, интернет-тренды, айти, игры
Обязанности:
— Поиск новостей, интересных кейсов и материалов про интернет-тренды, технологии, нейросети
— Публикация 5-6 постов в день.
Вы бы подошли, если:
— Вы разбираетесь в технологиях, владеете разными зарубежными источниками, умеете извлекать из ленты хорошие инфоповоды
— Вы умеете писать тексты, которые хорошо привлекают и удерживают внимание (охваты). Если есть успешный опыт написания контента в Телеграм — еще лучше;
— Вы грамотны и внимательны, не допускаете опечаток и ошибок;
— Вы ответственны и готовы всегда готовить необходимый объем посто.
— Вы готовы всегда быть на связи и иногда оперативно готовить нативные посты.
Условия:
— Полностью дистанционная работа;
— З/п по договоренности, от 100 до 400к, в зависимости от навыков и объема. Белое трудоустройство.
Отправляйте рассказ о себе на этот аккаунт: @namepalmer
P.s. Кандидат, с которым была переписка в прошлый раз (ты кидал тестовые задания) — отпиши в лс еще раз, потерял твой диалог.
#промо
Новые роботы NEO Beta от 1x
В движении видно что робот, но чисто по стопкадрам сложно отличить от человека в костюме. А всего три месяца назад роботы компании ещё ездили на колёсах. А тут можете похвалить (или поругать) одного из разработчиков.
What a day to be alive
@ai_newz
MLPerf Inference v4.1 - триумф Nvidia B200
MLPerf - это главное соревнование производительности железа для ИИ, где сравнивают их производительность на реальных моделях. Есть две основных категории - тренировка и инференс, сейчас закончился инференс. В этом раунде аж 4 новых ускорителя, два - от компаний участвующих впервые. Все новички участвовали лишь в одной дисциплине.
Главная звезда - Nvidia со своей B200. Она в 2.5 раза быстрее новенькой H200, которую Nvidia начала продавать лишь вчера, и в 4 раза быстрее H100 - на новой видеокарте Llama 2 70B выдаёт больше 11к токенов в секунду.
Впервые на MLPerf появилась AMD, с MI300x. Перформанс Llama 2 70B - 3к токенов в секунду, уровень H100, но отстаёт от 4.5к у H200. Прямой конкурент H200, MI325x (монстр с 288 гигами видеопамяти) выйдет в четвёртом квартале, то есть отставание по железу у AMD сейчас всего несколько месяцев. Но отставание в софте - совсем другая проблема.
Кстати видеокарты AMD уже светились на MLPerf один раз прежде, правда геймерские. tinycorp, которая производит серверы на основе геймерских видеокарт, удалось натренировать ResNet на 6x7900XTX, используя и свой фреймворк и свои драйвера.
Ещё один новичок - Untether AI, их собственный ускоритель смог добиться 60% перформанса H100 в ResNet, при эффективности в три раза выше. Достигли этого, засунув всю модельку прямо на чип, а не в видеопамять, поэтому участвовали лишь в дисциплине с очень маленькой моделькой. Как они будут запускать модели побольше – открытый вопрос. Однако, эту проблему уже удалось решить Groq - стартапу с похожей архитектурой чипа, но Llama 70B запускается у них на 576 чипах, что требует нетривиального нетворкинга.
Заявился туда и Google, с новыми TPU v6. В инференсе SDXL перформанс в три раза лучше чем у v5e или примерно 70% от перформанса H100. Это младшая версия TPU v6, созданная для инференса. Разница в производительности между младшей и старшей версией предыдущего поколения - 2.3x, похожую разницу стоит ожидать и сейчас.
В своих маркетинговых материалах разработчики железа манипулируют всем, что только можно, сравнивают тёплое с мягким. Поэтому сравнивать железо на общих, независимых, бенчмарках, как это происходит на MLPerf, чрезвычайно важно.
Результаты
@ai_newz
Сверхзвуковые LLM
Llama 3 70B запустили на скорости в 450 токенов в секунду. А 8B - на бешенных 1800 токенов в секунду. Это всё без квантизации, да и цена не кусается - API стоит 10 центов за лям токенов для 8B и 60 для 70B. Предыдущий рекорд по скорости побили в более чем два раза для 8B. В будущем обещают добавить больше моделей, начиная с Llama 3.1 405B
Сделал это стартап Cerebras. Он производит железо для нейронок, известен самым большим чипом в мире (в 57 раз больше по размеру H100!). Предыдущий рекорд по скорости поставил тоже стартап со своим железом - Groq.
Хороший пример того что специализированные только под нейронки чипы вроде могут в разы превосходить видеокарты по скорости инференса, а ведь скоро ещё будут чипы которые заточены под конкретные модели, например Sohu. Кстати, давно хотел разобрать разные стартапы по производству железа и разницу их подходов. Интересно?
Попробовать можно тут.
@ai_newz
Тут ребята из VK совместно с ИТМО провели исследование ML-сообщества России и опросили более 300 спецов.
Здесь не будет рейтингов компаний и размера ЗП, но есть выборка карьерных ожиданий и перечень критериев, необходимых для успеха на рынке. Подробнее — в карточках
Кстати, мой канал вошёл в топ самых популярных тг-каналов, откуда народ черпает информация про AI и ML.
#промо
Нашел мем, высмеивающий завышенные ожидания от применения нейронок 10 лет назад. Хотя мем и забавный, важно понять не только как и почему так вышло, но и отметить, что несмотря на сохранение профессии радиолога, медицина продолжает трансформироваться под влиянием AI.
Главная причина таких ошибочных прогнозов — концентрация на бенчмарках без учёта полевых условий применения. Модели, превосходящие человека в анализе рентгеновских снимков на бенчмарках, часто оказываются менее эффективными на реальных клинических данных. Кроме того, бенчмарки не отражают всего спектра задач, с которыми сталкиваются радиологи.
Сейчас исследователи начали применять ключевой принцип стартапов — прямое общение с пользователями, в данном случае с практикующими врачами. Это позволяет внедрять AI для решения реальных проблем, таких как поиск редких патологий, которые из-за своей нечастой встречаемости могут быть не замечены обычными врачами.
Хороший пример и такого юзкейса — нейросеть, которая выявляет редкие патологии нервной системы на ранних стадиях беременности по результатам УЗИ. Идея проекта принадлежит фонду "Спина бифида", а создали нейросеть в Яндексе в сотрудничестве с врачами перинатального центра Кулакова и студентами Школы анализа данных. Несмотря на относительно небольшой процент детей с подобными патологиями, в масштабах стран речь идёт о тысячах случаев ежегодно. Раннее выявление может значительно улучшить качество жизни этих детей
Архитектурно тут всё очень просто - YOLOv10 и пара DenseNet. А основная сложность – это датасет, который размечали на основе 6 тысяч УЗИ снимков (в том числе 300 с патологиями).
Моделька открытая,плюс её можно затюнить искать дополнительные патологии или лучше понимать снимки какой-то отдельной модели УЗИ аппаратов.
На фоне шумихи вокруг LLM часто забывается, как AI уже сейчас реально улучшает жизни, и до прихода AGI (а там еще посмотрим кто кого спасать будет).
@ai_newz
Нейродайджест за неделю (#32)
Генеративные модели
- FLUX ControlNet смешали с Luma. Вышел прикольный морфинг.
- GEN-3 vs Luma vs Kling. Какую же подписку взять? Проводим тесты и выбираем модель себе по душе.
- Первый IP-Adapter для FLUX.1. Вышло сыровато, но зато первые!
- MidJourney вернули триал! И окончательно переехали в веб. Теперь сайт имеет полноценный набор инструментов и можно пилить новые фишки, хотя Discord все еще жив!
- Ideogram 2.0. Новая SOTA чуть ли не лучше FLUX, но закрытая и коммерческая, парни явно хотят отжать часть рынка у MidJourney.
Пейперы
- Скейлим диффьюжн трансформеры с помощью MoE. Креативный способ набрать больше параметров почти бесплатно.
- Мои коллабы со студентами. Делюсь плодами студентки, которая продолжает мой старый проект Avatars Grow Legs, но теперь с лицами.
Другое
- Сходка в Варшаве. Было мега круто, спасибо всем, кто пришел и кто читает канал <3
- Подборка ML фреймворков. Разбираемся с внутрянкой на практике. Все мы любим потыкаться в чужой код и посмотреть, что выйдет.
- ЛЛМ Безоса Amazon Q переписала старое репо и сэкономила 4500 лет работы и $260M в год. Может, у джунов все-таки есть шанс пройти собес под прикрытием Copilot'а?
———
Так-с, я там пропустил пару недель, так что вот пара самых горячих новостей за недели 29 и 30. Пропустили юбилей = (
- ICML - Best Paper Awards. Эти статьи точно стоит почитать на досуге. Прям интересно.
- Black Forest Lab. Это же те самые авторы FLUX и спасители опенсорса, вперед мужики!
- Grok 2 вырвался в топ. Теперь XAI – серьезная AI компания. Их модельку sus-column-r на арене нарекли прорывом от OpenAI. Есть о чем задуматься.
- Скидки на LLM. Провайдеры мощно режут цены на свои API. Оптимизированные минимодельки, да еще и с кешем теперь почти ничего не стоят.
- Болтовня Хуанга и Цукерберга. Пацаны собрались нормально поболтать за жизнь работу. Мистер кожанка даже похвалил мой Imagine Flash, приятно :)
- Полный курс по LLM. Бесплатно и от топовых практиков в индустрии, если вливаться в NLP, то только так.
- SAM 2: Segment Anything in Images and Videos. Кто-то там все еще не может удалить задний фон, а тут ребята сегментируют элементы не просто на картинках, а на видео.
> Читать дайджест #31
#дайджест
@ai_newz
Я раньше вам уже рассказывал, что у нас в Мете есть возможность коллаборировать с университетами и супервайзить научные работы студентов. Так вот я этим и продолжаю заниматься.
В этом году я супервайзил еще одну магистерскую работу в ETH Zurich. Это работет так, что у студента формально есть супервайзер и в ETH и в Мете. Но так как это коллаб, то тему работы задавали мы из Меты (я и еще одна моя коллега).
Мы еженедельно встречались и обсуждали прогрес по проекту, я накидывал идеи и помогал решать проблемы если были блокеры.
За основу проекта была взята моя статья Avatars Grow Legs, но на этот раз мы хотели сделать что-то с анимацией лиц.
Около месяца назад моя студентка-магистрантка добила этот проект и успешно защитила свою Магистерскую работу в ETH Zurich!
Работа называется "OccluFaceDiff: Multimodal-Conditioned Occlusion-Aware 3D Facial Animation Using Diffusion". Если коротко, то мы научили (я говорю мы, но на самом деле всю работу, конечно, сделала студентка) мультимодальную диффузионную модель восстанавливать 3D shape лица человека по видео и аудио, если оно есть. То есть на вход видеоряд - на выходе последовательность 3D шейпов лица, соответствующая каждому кадру. Фишка работы была в том, чтобы восстанавливать все лицо даже если часть его закрыта чем-то (например маской или рукой). Если часть лица не видна, но есть аудио, то по звуку и эмоциям можно предсказать, как выглядело лицо человека. Самое сложное тут это мимика.
Ну, а после защиты счастливая студентка уехала на стажировку в Amazon в Люксембург :) Как вернется, возможно, будем готовить статью.
Так что, если вы толковый студент (желательно PhD) и есть амбиции и желание написать со мной статью, то можете написать в лс или в комментах. Возможно, сможем поработать вместе.
#personal
@ai_newz
Ideogram 2.0
Это новая SOTA - по внутренним тестам она обходит FLUX.1 Pro, причём модель особенно хороша для генерации текста. Судя по результатам генерации что я видел, это и правда так. Бесплатно доступно 10 кредитов в день, этого хватает на 5 генераций с новой моделью, а подписка стоит от 8 баксов в месяц.
Добавили и функционала по контролю за генерацией - предопределённые стили и возможность выбирать палитру,
Вместе с новой моделькой релизнули приложение на iOS и API. API стоит примерно на уровне FLUX.
Технических деталей, увы, нет. Судя по поведению компании вряд-ли будут.
Попробовать
@ai_newz