Telegram-канал ai_newz - эйай ньюз: Неотсортированное - каталог телеграмм

ai_newz | Неотсортированное

Подписаться на канал

Telegram-канал ai_newz - эйай ньюз

73705

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow

Подписаться на канал

эйай ньюз

26 июня 2024 20:18

⚡️Вау! Real-time генерация видео стала ближе к реальности.

Челики ускорили диффузию для видеогенерации в 10x раз! Утверждают, что качество при этом не теряется. На видео пример того, как они ускорили Open-Sora, например.

Генерация со скоростью 21 fps на 8 видеокартах. Для сравнения, до этого из восьми видеокарт с помощью tensor parallelism можно было выжать ускорение не более чем в 3-4 раза по сравнению с одной.

Если сейчас 60-сек генерации модели уровня Соры занимает по моим прикидкам от 20 минут до нескольких часов, то в ближайший год мы увидим ускорение этого процеса на 1 или 2 порядка. Pyramid Attention Broadcast делает шаг в этом направлении.

Идея базируется на тех же инсайтах, что мы вывели в нашей статье Cache me if you can о том, что выходы аттеншен слои могут быть закешированы и могут переиспользоваться во время шагов инференса. Или вот статья от господина Шмидхубера, где они кешируют cross-attention слои.

Ссылка на проект - Real-Time Video Generation with Pyramid Attention Broadcast

Статьи пока нет, но код уже есть тут.

@ai_newz

Читать полностью…

эйай ньюз

26 июня 2024 11:18

А вот и мем подъехал!

@ai_newz

Читать полностью…

эйай ньюз

25 июня 2024 23:52

Читать полностью…

эйай ньюз

25 июня 2024 23:07

🔥Sohu - первый ASIC для трансформеров

Хоть NVIDIA B200 и кажется жутко мощной, именно перемножением матриц там занимается очень малая транзисторов чипа. Матричное умножение - это базовая операция в нейронках, под которую заточены tensor cores, и их как раз всего 528 штук в H100. В итоге получается, что в H100 за эти операции отвечает всего около 3% транзисторов. [тут должна быть картинка с чуваком копающим яму - сделайте мем плиз]. А оставшиеся 97% транзисторов отвечают за управление и снабжение вычислительной части данными, плюс на всякий вторичный функционал.

Стартапу Etched, за счёт крайне сильной специализации (их чип может запускать только трансформеры) удалось сильно сократить накладные расходы и повысить количество компьюта на чип. Выросла и эффективность использования компьюта (MFU) - тут она более 90%! Для контекста: на H100 максимальная достигнутая эффективность чуть больше 50%.

Результаты поражают - LLaMa 70B на одной ноде из 8 новых чипов Sohu выдаёт полмиллиона токенов в секунду! Стартап только что привлёк 120 миллионов финансирования, так что, надеюсь, релиз не за горами.

Блогпост с анонсом чипа

@ai_newz

Читать полностью…

эйай ньюз

25 июня 2024 14:38

Gemini Nano уже доступна в Chrome Canary

Gemini Nano - версия Gemini для запуска локально 😈. Тренировали её на тех же данных, что и модели побольше, и она такая же мультимодальная, просто поменьше. Релизнуть её Google обещал ещё с Chrome 126, не вышло. Сейчас она доступна в Canary для всех, официальный релиз, видно, не за горами.

А теперь вот как можно её запустить прямо в Chrome:
➖Качаем Chrome Canary и ставим там язык English (United States)
➖В адресное строке вводим chrome://flags и устанавливаем Enables optimization guide on device на Enabled BypassPerfRequirement, а Prompt API for Gemini Nano на Enabled
➖Перезапускаем Хром
➖Заходим в chrome://components и удостоверяемся что Optimization Guide On Device Model версия 2024.6.5.2205 или выше, если это не так - жмём Check for updates.
➖Вы великолепны! Поюзать для чата можно тут. Моделька очень ТУПОЙ, но круто, что разработчикам сайтов теперь доступна LLM для локального инференса :)

Ещё умельцы уже расколупали это чудо, вытянули из Хрома веса и выложили на Huggingface в формате TFLite.

@ai_newz

Читать полностью…

эйай ньюз

24 июня 2024 17:27

Карпатый готовит большой курс по LLM – LLM101n: Let's build a Storyteller

Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.

Такое ему не впервой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.

В публичном доступе есть репа с содержанием курса, но самих лекций пока нету

Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)

#ликбез
@ai_newz

Читать полностью…

эйай ньюз

23 июня 2024 22:38

Там Китайцы обновили свою модель для видео генерации Kling (пост про нее). Теперь она умеет оживлять фото, "Image-to-Video", как и Luma, а также может продлить видео вплоть до 3 минут – будет генериться по кусочкам, где каждый кусочек контролируется отдельным промптом.

Пёсель очень круто бежит, да так что уши трясутся ❤️.

@ai_newz

Читать полностью…

эйай ньюз

23 июня 2024 16:29

Stanford воплотил в жизнь фильм Живая сталь!

Зацените, что там ребята намутили. Подгрузили датасет из 40 часов кожаной мышечной даты, натренировали роботов на legged_gym (это который недавно представили Nvidia вместе с GR00T, писал здесь ) и rsl_rl. Этого было достаточно, чтобы их робот смог в реальном времени, используя одну камеру, в точности повторять движения человека. Получился реальный Зевс из "Живой стали". (Прикрутить бы железа побольше да моторы помощнее).

Дальше больше. Повторяя за человеком, бот учится делать все самостоятельно. Даже вот на пианино играть. Для обретения навыка с успехом в 60-100% нужно всего 40 (не опять, а снова) повторений. Мне покажи 40 раз, как играть, я не научусь, лол.

Видосы самостоятельной работы, конечно, ускорены, но это лишь вопрос компьютера.

Вот вам
Project page,
пейпер,
датасет,
код!,
список всего харда!!! со ссылками на Амазон для покупки.

Это я понимаю опенсорс, теперь можно хоть дома такого собрать :) Железо обойдется в $108,000, если не учитывать 3D принтер.

@ai_newz

Читать полностью…

эйай ньюз

22 июня 2024 17:37

Кажись Игра Престолов в Stability пока приостановилась - по данным The Information, в компанию зашла новая группа инвесторов с баблишком. Из их числа будет и новый CEO, Прем Аккараджу. Это бывший CEO Weta, компании созданной для производства спецэффектов в Властелине Колец, а с тех пор делающей самые сложные сцены в Аватаре, Мстителях и других графонистым фильмам.

Компании нужно срочно искать новых клиентов, ведь она теряет деньги бешенными темпами: в первом квартале этого года расходы были 30 миллионов, при доходе в 5. А на балансе компании висит долг в $100 млн за облачные вычисления и прочее.

Похоже новые инвесторы верят что именно они смогут найти новые источники дохода, непонятно как это сочетается с открытыми релизами моделей. Я бы сказал, что это как раз не сочетается, и возможно золотые дни Stability с опесорсами уже сочтены.

@ai_newz

Читать полностью…

эйай ньюз

21 июня 2024 13:12

Как разработчику или менеджеру в IT запустить свой пет проект?

Сидеть и работать в корпорации – страшно, жизнь-то мимо проходит. Уходить строить бизнес – страшно, а вдруг прогорит.

Один из вариантов – пилить свой проект по вечерам. Ведь многие успешные компании, типа Twitter, начинались как Пет проекты.

Мы не говорим, что пет проект обязательно заработает миллиарды. Но заработать денег больше, чем в найме, вполне реально, а уж опыта получить точно больше можно.

Но есть куча проблем и вопросов:

- Как выбрать идею для пет проекта?
- Что нужно знать про маркетинг?
- Как запуститься и довести до первых продаж не имея бюджета на рекламу?

Михаил Табунов сделал про все это телеграм канал Твой пет проект, в котором пишет для разработчиков и менеджеров про свой опыт – где брать идею, что надо знать про маркетинг, как запускать и искать первые 10 клиентов, и многое другое.

Так что подписывайтесь на Твой пет проект, получайте пользу от практиков рынка.

#промо

Читать полностью…

эйай ньюз

20 июня 2024 16:46

А ещё Anthropic запустили превью Artifacts - такой вот себе конкурент Advanced Data Analysis в ChatGPT, который позволяет запускать в браузере джаваскрипт и показывать html с svg.

Это позволяет быстро прототипировать вебсайты и даже делать простые браузерные игры!

Good evening, Sam

@ai_newz

Читать полностью…

эйай ньюз

20 июня 2024 14:04

Помните, какой хайп был вокруг первых видосов Sora?
Я вот лично считаю, что Luma AI сильно недооценивают. Руки норм киноделов только добрались до нее и вот взгляните на первый видосик. Это выглядит как реальный фильм! и наглядный пример того, как черрипики от экспертов могут устроить сильнейший оверхайп.

Ответственно заявляю: LUMA AI - это 99% Sora, которую мы так ждали! Просто нужны руки, много повторений, и возможно, щепотка постпроцессинга в видеоредакторе.

source 1
source 2
source 3
source 4

Мои тесты LUMA: тык, тык

@ai_newz

Читать полностью…

эйай ньюз

19 июня 2024 14:46

Воу, школьники из майнкрафта выросли I guess...

Чел собрал MLP нейросеть для распознавания рукописных (или в данном случае ногописных) цифр в Майнкрафте 😮‍💨

А ведь более 30 лет назад, когда Ян ЛеКун показал первое реальное демо распознавания цифр с помощью CNN— это был научный прорыв.

В видосе есть подробный гайд, так что будет даже полезно для тех, кто только начал изучать нейронки.

Смешно, что вывод результата занял у челика больше блоков и компьюта, чем сама нейросеть.

Веса модели, конечно, он натренировал отдельно на питоне, но кроме этого всё работает на чистом редстоуне. Редстоун - это ресурс с помощью которого в Майнкрафте можно симулировать электричество. Вот тут я для вас специально спросил про Редстоун у perplexity.

Это не первый такой проект, команда китайцев делала что-то подобное, но на другой архитектуре. Тогда у целой команды ушло полгода, а тут всего две недели. Даже как-то странно говорить это в таком контексте. А ещё этот вариант быстрее более чем в два раза (две минуты), ну и точность 83 против 80% у китайцев. Пора завести бенчмарк для редстоун-нейронок?

Нда, скоро ML будут в первых классах проходить.

Смотрим

@ai_newz

Читать полностью…

эйай ньюз

18 июня 2024 20:55

Коллеги из Meta только что релизнули веса нескольких моделей для ресёрча

Chameleon - мультимодальная модель, которую изначально тренировали и на изображениях и тексте. В пейпере представлена версия которая может и воспринимать и генерировать текст с изображениями, но генерации изображений в открытом релизе нет. Есть две модели: 7B и 34B, обе тренировали на 10 триллионах токенов. Лицензия некоммерческая (только для ресёрча).
Веса
Пейпер (его выпустили ещё в прошлом месяце)

Multi-Token Prediction Language Model - модель которая за раз предсказывает несколько следующих токенов. Это заметно ускоряет инференс, плюс тюнинг такой модели для генерации одного токена за раз обгоняет обычные методы тренировки. Модель только для ресёрча, в коммерческих целях их использовать не позволяет лицензия.
Веса
Пейпер

Ещё пообещали выпустить в этом месяце новую модель для генерации аудио JASCO, с некоммерческой лицензией (CC-BY-NC), добавив ее в либу Audiocraft.
Репа, где будет релиз
Примеры работы модели

@ai_newz

Читать полностью…

эйай ньюз

17 июня 2024 16:42

🔥Вышла Gen3-Alpha - очередная text-2-video модель

Авторы заявляют, что Gen-3 Alpha является первой из серии моделей, которые обучены Runway на новой инфраструктуре для large-scale мультимодального обучения. Модель значительно улучшили по сравнению с Gen-2 [уж, надеюсь! гляньте что он вытворял раньше] в плане точности, конситентности и движения. Якобы это шаг к созданию общих моделей мира (расхайпованые World Models). Обещают улучшеный контроля над генерацией с помощью дополнительный тулов (Motion Brush, Advanced Camera Controls, Director Mode). Ну посмотрим, че.

Модель пока нельзя никому потрогать, да и тех-репорта даже нет. Только примеры на сайте показали, которые выглядят хорошо!

Блогпост с примерами

@ai_newz

Читать полностью…

эйай ньюз

26 июня 2024 17:25

Мета запускает AI стартап акселератор в Париже совместно с Hugging Face, Scaleway и HEC Paris Incubator.

Думаю некоторым ребятам из канала это может быть интересно.

Денег не предлагают, но и взамен эквити не требуют. На програме дадут менторов из Парижского Meta FAIR (фаундер Mistral до стартапа там делал PhD и работал – подробнее в этом посте), из HuggingFace, и еще от HEC Paris Incubator можно будет получить помощь по бизнесу (макретинг, сейлз и тд).

Подать можно до 16 августа: ссылка.

@ai_newz

Читать полностью…

эйай ньюз

26 июня 2024 00:14

Хотели нормальный голосовой интерфейс в ChatGPT? А раскатают его на всех Plus юзеров только осенью, вместо обещанных "пары недель". До этого им пользоваться будет только "небольшая группа альфа юзеров". Ну хоть приложение для маков выпустили, и на том спасибо.

Делаем ставки кто из конкурентов выпустит такой режим раньше, господа.

@ai_newz

Читать полностью…

эйай ньюз

25 июня 2024 23:24

Восемь вот таких вот малышей "Sohu" может заменить 160xH100 - мощная заявка 🔫. Интересно что будте по цене?

Однако фишка в том, что Sohu поддерживает только трансформеры, и только их инференс. То есть мы жертвуем универсальностью (как у GPU от NVIDIA) в пользу сткорости очень узкой группы операций, которые нужны для инференса трансформеров.

После начала массового производства Sohu будет такая ситуёвина: чтобы создать принципиально новую архитектуру, которая потенциально может заменить трансформеры в проде, нужно будет показать что новая архитектура работает на универсальных GPU быстрее чем трансформеры на специальном железе вроде Sohu. Либо нужно будет закладывать дополнительные ресурсы на новые специализированные чипы для новой архитектуры. Короче, это будет гораздо трудно осуществить, и мы можем на какое-то время оказатсья в локальном минимуме с нашими трансформерами [мысли с дивана].

@ai_newz

Читать полностью…

эйай ньюз

25 июня 2024 22:49

Три крупнейших рекорд-лейбла подали коллективный иск на Suno и Udio.

Не успел взять подписку, чтобы скинуть вам свои тестики upload audio в Суно, так лавочку скоро и прикроют.

Аудио, наверное, самая сложная и забюрократизированная часть творчества. Нигде больше (кроме, пожалуй, кино) нет такого тотального контроля со стороны паблишеров.

Картинки и текстульки напиздить легко, а вот лейблы будут бороться за свои права до последнего. Этим многие и объясняют такое медленное развитие в генерации музыки.

Вот основные тезисы бюрократов, ~~честно систнутые~~ вдохновленные этим постом:

- Они обвиняют Suno & Udio в "умышленном нарушении авторских прав в почти невообразимых масштабах".
- Приводят доказательства того, что обе компании тренировались на их музыке, в том числе на материалах, которые очень похожи на их записи (ABBA, Майкл Джексон, Green Day, Джеймс Браун и многие другие). Вот ссыль с "похожими треками".
- Утверждают, что fair use — это только когда человек взял и переработал оригинальное произведение/идею, но не машина в огромных масштабах.
- По их словам, "массовое воровство... записей, защищенных авторским правом, угрожает всей музыкальной экосистеме и многочисленным сотрудникам, которые в ней работают".
- Что-то там про анонимных соучастников, которые помогали в копировании/скреппинге.
- Они требуют суда присяжных.

Конечно же, это не первый такой иск против AI. Интересно в этом то, что это первый раз, когда в игру вступают такие крупные игроки, как Warner, и музыкальные юристы, которые только тем и занимаются, что отсуживают авторские права. Вероятно, это дело поставит точку в спорах об авторском праве и AI.

Вот еще можно почитать полные судебные документы: Suno, Udio.

Я пробежался по документу про Суно –довольно занятное чтиво. Но все же мне этот кейс кажется очень притянутым за уши. Например, они утверждают, что в сгенерированном кавере на "I Feel Good" (James Brown), ноты на фразе "I knew tha I would now" совпадают c нотами в оригинальном треке. С одной стороны - какова вероятность получить это случайно? Низкая, согласен. С другой стороны треки абсолютно по-разному звучат, и объединяют их только текст, который подал на вход юзер. То есть это в прямом смысле кавер, а не плагиат музыкального трека. Но я не юрист, конечно. Если есть юристы в чате - прокомментируйте, как вы считаете.

@ai_newz

Читать полностью…

эйай ньюз

24 июня 2024 19:37

OpenAI готовится раскатывать голосовой режим для ChatGPT для пользователей. Для этого Anthropic всего лишь нужно было выпустить модель получше.

@ai_newz

Читать полностью…

эйай ньюз

23 июня 2024 23:12

🍿А вот и оживленные в Kling мемы подъехали. Первый – это просто шедевр.

«Как же китайцы ебут» – сказал один из подписчиков.

@ai_newz

Читать полностью…

эйай ньюз

23 июня 2024 21:19

Нейродайджест за неделю (#23)

LLM/AGI
- ClosedAI сама подумывает сменить статус компании с нонпрофит на benefit corporation. В целом, от нонпрофит у них осталось только название.
- Суцкевер: возрождение. Илья основал свою новую Safe Superintelligence Inc. Будут пилить AGI без коммерции (и денег, лол).
- GPT 4-o в пролете. Claude 3.5 Sonnet - пушка гонка! + Artifacts.

Что-то про видео
- Анонс Runway GEN-3. Продолжение недели text-2-video порадует. По черрипикам они ближе всех к Sora.
- Showcase Luma. Вот что бывает, когда инструмент используют прямыми руками. Челики выжали из доступной всем нейронки видосы уровня 99% Сора.
- Сразу две video2sfx модели. Elevenlabs тролит Google, «повторив» ресерч DeepMind за сутки.

StabilityAI
- SD3 Medium - мертворожденный продукт. Подробности о внутренней кухне StabilityAI от разраба Comfy UI.
- В стране StabilityAI новый король. В контору зашли новые инвесторы во главе с новым CEO Премом Аккараджу. Может, мы еще увидим новый восход SAI.

Ништяки для кодеров
- Фундаментальное обновление NumPy 2.0. Это первая такая обнова за 18 лет.
- DeepSeek Coder V2. Специальная модель для кода, на уровне Claude 3.5 Sonnet, но очень быстрая и очень эффективная.

Прочее
- Нейросеть из редстоуна. Челик собрал MLP для распознавания рукописных цифр в майнкрафте.
- Коллеги из Мета выпустили две open source модельки: мультимодальный генератор
Chameleon и ускореные LLM с помощью декодинга нескольких токенов за раз (
Multi-Token Prediction Language Model).
- Робот гуманойд своими руками. Stanford заопенсорсили и выложили все необходимые детали для сборки и тренировки собственного робота помощника. А еще он все за вами повторяет как в живой стали, можно идти на ринг🥊
- Мой личный тест ассистента Gemini. Вердикт - рубильник на стене умнее. С вами был обзорщик LLM-ок и умных лампочек, Артем 😄.

> Читать дайджест #22

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

22 июня 2024 22:10

Гугл предложил мне перейти на модель Gemini вместо стандартного Google Assistant в моем Pixel 7 – я согласился. Ассистентом я не пользовался почти никогда, а вот Gemini решил затестить. Как раз купил сегондя smart-лампочку, которую можно привязать к Google Home.

И вот что вышло. Если я называл полное имя лампы по английски «Office Lamp», то хоть и с весомой задержкой, но модель понимала, что ей нужно делать – хотя тут и обычный speech2text + регулярки бы справились. Однако, Gemini оказался довольно тупым, если я объяснял инструкцию другими фразами, например «Включи лампу в офисе» или просил поменять свет на холодный. Даже в контексте одного диалога модель была не в состоянии понять, что я имею в виду, и даже съехала на то, что она вообще не умеет управлять физическими предметами 🤡. И это еще учитывая, что у меня Gemini Advanced по премиумной подписке.

Так что AGI еще не здесь. Нужно чуть-чуть подождать, дамы и господа.

С вами был обзорщик LLM-ок и умных лампочек, Артем 😄.

@ai_newz

Читать полностью…

эйай ньюз

21 июня 2024 14:12

Elevenlabs жестко тролит гугл.

Бедные работяги из DeepMind только выложили блогпост о том, как они научились генерировать звук для видео, так ребята из Elevenlabs за сутки своротили похожую тулзу, да дали доступ к API, да еще и веса выложили.

Я уже было подумал, что последние просто разнесли гугл, лол. Посмотрел, что там да как, и просто орнул. Чуваки из Elevenlabs просто берут пару кадров из инпут-видео, скармливают GPT-4, который пишет промпт для их свежей txt2sfx модели. Рабоатет на удивление не так уж плохо - но хуже гугловской.

В целом, гугловская моделька имеет более фундаментальный подход, где сначала в диффузионную модель кормится текстовый промпт и все токены из видео, а по ним уже генерируется аудиодорожка. Модель хоть как-то да синхронизирует звук и видео - это видно на примерах. Особенно прикольный результат на видосе с гитарой.

Выше сравнение черепиков от DeepMind с моими zero-shot испытаниями Elevenlabs. Сами угадайте, где кто :) Качество видосов такое шакальное, потому что гугл их в таком виде выложили.

В методе Elevenlabs используются 4 кадра из первых 4-х секунд (поэтому последний подрезал в начале, иначе там просто шум), так что местами создается впечатление наличия какой-то синхронизации, особенно если выбрать лучший вариант из 4 предложенных.

video2sfx ElevenLabs
Код
txt2sfx ElevenLabs
Блогпост DeepMind

@ai_newz

Читать полностью…

эйай ньюз

21 июня 2024 11:54

DeepSeek Coder V2

Опенсорсная модель знающая 338 языков и умеющая кодить на уровне лучших проприетарных моделей - немного отстаёт лишь от Claude 3.5 Sonnet. Она в 3 раза быстрее LLaMa 70B из-за fine-grained MoE архитектуры и MLA, своего эффективного варианта Attention. Это позволяет сделать очень дешёвое API (дешевле Claude 3.5 Sonnet в 50 раз на генерации и в 35 раз на инпуте).

Для тренировки взяли чекпоинт на 4 триллиона токенов от оригинального DeepSeek V2 и дообучили его на 6 триллионах токенов микса кода (60%), математики (10%) и обычных токенов (30%).

Кроме большой модели на 236 миллиардов параметров выпустили ещё и Lite модель, которая кодит на уровне LLaMa 3 70B. Там всего 16 миллиардов параметров и полностью заполненный контекстом KV Cache занимает меньше 2 гигов, так что квантизированная до 4 бит модель прекрасно запускается на 11 гигабайтах видеопамяти.

Если вы уже пробовали использовать эту модель с ollama и она у вас сбивалась на китайский, то это из-за бага в промпте у ollama. Этот баг пофиксили сегодня утром.

Веса: 236B / 16B
Пейпер

@ai_newz

Читать полностью…

эйай ньюз

20 июня 2024 16:25

🔥Anthropic зарелизили новую модель Claude 3.5 Sonnet - и она бьет GPT-4o!

По цене компьюта и скорости модель на уровне средней модельки Claude 3 Sonnet, но по качеству превосходит самую большую их модель Claude 3 Opus, а также бьет GPT-4o почти на всех бенчах – слегка уступает только на математике и на MMMU в ответах на вопросы по картинке.

В то же время Claude 3.5 Sonnet дешевле чем Claude Opus 3 в пять раз! И дешевле GPT-4o на инпуте ($3 против $5 за млн токенов).

Контекст: 200K Токенов.

Отдельно отмечают прогресс по Vision - 4o и тут проигрывает. Кардинальные улучшения наиболее заметны для задач, требующих визуального мышления, например, для интерпретации диаграмм и графиков. Claude 3.5 Sonnet также может более точно транскрибировать текст из шакальных изображений.

Авторы говорят, что это первый релиз из семейства 3.5, другие обещают попозже в этом году.

Модель уже доступна бесплатно на Claude.ai и в iOS приложении. А также через API: $3/млн входных токенов, $15/млн сгенерированных токенов.

Ну, и ждём рейтинга на арене, конечно.

@ai_newz

Читать полностью…

эйай ньюз

19 июня 2024 19:53

А вот и Илья Сутскевер нашелся!

Он с корешами основал новую контору - Safe Superintelligence Inc.

TLDR: будут строить безопасный суперинтелект без отвлечения на коммерцию. То есть это OpenAI в том виде, в каком и была изначально задумана.

Миссия Safe Superintelligence Inc.:
- Создание безопасного суперинтеллекта (SSI), который считается самой важной технической проблемой нашего времени.
- Миссия компании, название и весь продуктовый план полностью сосредоточены на достижении SSI.

Их цели :
- Разработать возможности SSI как можно быстрее, при этом всегда обеспечивая, чтобы меры безопасности опережали развитие.
- Сохранять единственный фокус на SSI без отвлечения на управленческие перегрузки или циклы продукта.
- Гарантировать, что безопасность, защита и прогресс защищены от краткосрочных коммерческих давлений.
- Собрать высококлассную команду инженеров и исследователей, полностью посвященных разработке SSI.
- Предложить возможности для людей заниматься значимой работой, которая решает значительную техническую задачу эпохи.

Вот только про open-source Илья пока не упоминал. Возможно, они также не будут ничего релизить, т.к. небезопасно. Но все равно очень интересно! Я верю в Илью больше чем в Альтмана, конечно, ведь Илья — это топовый учёный.

@ai_newz

Читать полностью…

эйай ньюз

19 июня 2024 12:46

Как устроены ChatGPT, Siri, Алиса и Маруся — и что нужно уметь, чтобы запускать такие штуки?

Об этом вам расскажет сам гигачад Владимир Васильев, направление которого запилило GigaChat, русского товарища того самого ChatGPT.

Регистрируйтесь на бесплатный онлайн-практикум от ТГУ и Skillfactory 27 июня в 19:00 мск.

За 1,5 часа вы:
— Узнаете какую мат часть нужно учить и какие задачи придется решать для работы с NLP
— Окунетесь в свежие направления анализа естественного языка
— Поймете, с чего начать карьеру в NLP

Крч, упор конкретно в языковые модельки.

Регистрация по ссылке БЕСПЛАТНО: https://go.skillfactory.ru/&erid=LjN8KSUSq

Еще и курс по матеше — в подарок.

Реклама ООО "Скилфэктори", ИНН 9702009530 #промо

Читать полностью…

эйай ньюз

17 июня 2024 19:10

Лол, оказывается, SD3 - Medium была ошибкой.

Чувак, который разработал Comfy UI, работал в Stability и недавно уволился оттуда, рассказав интересную инфу про SD3.

Сам мистер Комфи работал над 4B версией, но поделился инфой.

Вот что теперь стало известно:

- Нет никаких censor layers. Из датасета просто реально вырезали все нюдсы, и в довесок разрабы что-то там подшаманили с весами (про последнее нет особо подробностей).
- "Safety training" — так теперь называется кастрация датасета, которая факапит анатомию людей и не дает генерить NSFW.
- Более того, уже в самом начале разрабы напортачили с претрейном. Так что 2B вообще не собирались релизить.
- Причиной релиза стало "давление сверху". То есть, в целом мы могли бы получить 4B или 8B вместо всратой 2B Medium модели.
- Пока подтверждения о том, что выложат VAE, нет.
- Сам Комфи просто хотел сделать лучшую модельку для домашних ГПУ, но в Stability в последнее время штормит.

В итоге мы имеем мертворожденный релиз, который был просто одним из первоначальных экспериментом ресерчеров (которые уже уволились), выложенный просто чтобы успокоить кого? Инвесторов?

Очевидно, что Stability, проходят через свои нелучшие времена, но я искренне надеюсь, что компания не развалится через год и продолжит радовать нас open source модельками. Хотя у меня большие сомнения по этому поводу, ведь весь ресерч костяк (мои бывшие коллеги по PhD в Хайдельберге) уже уволился.

Тред

@ai_newz

Читать полностью…

эйай ньюз

17 июня 2024 16:00

🥳Вышел NumPy 2.0!🥳

Релиз монументальный - с 1.0 прошло почти 18 лет. Запакован на полную:

➖ Бинарник на маках "похудел" в три раза, при этом став до 10x быстрее
➖ Добавили нормальную поддержку строк - наконец-то
➖ Сортировка теперь использует проц на полную и быстрее вплоть до 16x на современных машинах
➖ Вынесли мусор из библиотеки - неймспейс numpy.lib сократился на 80%
➖ Теперь numpy.save может сохранять массивы больше 4 гигабайт
➖ Добавили кучу quality of life фич и отполировали шероховатости

Всё это не давала сделать обратная совместимость, сейчас её сломали. В целом стало лучше, но библиотекам которые использовали numpy напрямую, а не через Python, придётся обновляться.

Го тестить

Гайд по апдейту
Патчноуты

@ai_newz

Читать полностью…

Подписаться на канал