ai_newz | Неотсортированное

Telegram-канал ai_newz - эйай ньюз

73707

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow

Подписаться на канал

эйай ньюз

У Epoch новый бенчмарк — Frontier Math, состоящий из задач, на решение которых у профессионалов могут уйти дни. Лучшие современные модели могут решить менее 2% задач, даже с доступом к Python и кучей токенов на размышления. Для составления бенчмарка привлекли более 60 математиков из разных областей; у них суммарно 14 золотых медалей IMO (Международной математической олимпиады) и одна Филдсовская премия.

Чтобы оказаться в бенчмарке, задача должна быть оригинальной и иметь ответ, который нельзя угадать с вероятностью более 1%, не проделав большую часть работы по решению задачи. В то же время ответ должен быть легко проверяем без вмешательства человека — поэтому у многих задач в качестве ответа используется целое число (но в некоторых случаев решение проверяется через SymPy), а если для решения задачи нужно запускать код, то время выполнения референсного решения ограничено одной минутой.

Небольшую выборку получившихся задач предоставили на оценку трём лауреатам Филдсовской премии: Ричарду Борчердсу, Уильяму Гауэрсу и Теренсу Тао, а также Эвану Чену, золотому медалисту IMO, который сейчас занимается подготовкой других к олимпиаде. Они назвали эти задачи "крайне сложными" и ожидают, что для создания моделей, которые хорошо себя в них показывают, нужны годы. Основная проблема — задачи крайне специализированные, и статей на тему может быть всего около десятка.

В то же время отмечают, что "решение таких задач отличается от доказательства теорем" и что система, которая может такое решить, хоть и не сможет заменить профессионального математика, но будет крайне полезным ассистентом. Но тут важна и цена вопроса — три дня на суперкомпьютере, которые нужны были для AlphaProof для решения некоторых задач с IMO, могут стоить дороже, чем годовая зарплата математика. А ведь задачи в бенче значительно сложнее.

Небольшой нюанс: Теренс Тао придумал несколько задач для бенчмарка, а Чен выступил соавтором статьи в качестве математика, с которым сотрудничали основные авторы.

В эпоху перенасыщения старыми бенчмарками нужны новые сложные бенчмарки, у которых есть шансы продержаться несколько лет. Оценивать модели по вайбам, конечно, весело, но без воспроизводимых бенчмарков непонятно: а есть ли у нас вообще прогресс или мы просто топчемся на месте?

Пейпер
Пять задач из бенча разных уровней сложности

@ai_newz

Читать полностью…

эйай ньюз

Как корпорации тратят деньги на AI?

The Information подготовили отчёт по тратам крупнейших компаний на генеративные модели. В основном это, конечно, ллм-ки, но некоторые еще генерят картинки для креативов🥴.

Сама таблица не очень удобная, поэтому я прогнал её через LLM, чтобы распределить по группам для наглядности:

### 1. Customer Support/Service
- AT&T: Customer service chatbot
- Doordash: Customer support/contact center chatbot, voice ordering, menu, and search optimization
- Duolingo: Generating lessons, audio, and chatbot for conversational practice
- Elastic: Sales, marketing, and information retrieval internal tools
- Expedia: Customer-facing chatbot, internal tools
- Fidelity: Generating emails to customers and other materials
- Freshworks: Customer service chatbot, employee HR chatbot, document summaries
- G42: Customer-facing chatbots for healthcare, financial services, and energy sectors
- H&R Block: Customer-facing chatbot in tax software
- Ikea: Customer-facing chatbot on the website
- Klarna: Customer service chatbot and HR software
- Intuit: Chatbot and customer service features
- Mercedes Benz: Call center automation
- Oscar Insurance: Customer-facing chatbot in insurance claim software
- Radisson Hotels: Customer service assistant for managing bookings
- Snap: Chatbot
- Stripe: Customer service chatbot and fraud detection
- Suzuki: Employee chatbot apps
- T-Mobile: Customer support chatbot
- Uber: Customer support and internal HR tools
- Volkswagen: Voice assistant in vehicles, employee-facing tools

### 2. Marketing/Content Generation
- Coca-Cola: Generating marketing materials and AI assistants for employees
- Autodesk: Support, code generation, and sales
- IPG: Content generation and employee-facing chatbot
- Walmart: Curating personalized shopping lists, generative AI-powered search, assistant app
- Wayfair: Code generation
- Wendy’s: Generating suggested orders for customers

### 3. Document Processing & Information Retrieval
- Morgan Stanley: Information retrieval for wealth management
- Pfizer: Search documents by voice command and chatbot
- Toyota: Information retrieval and coding assistants for employees
- Volvo: Streamlining invoice and claims document processing
- Zoom: Meeting summarization

### 4. Development/Code Generation
- Goldman Sachs: Code generation, document search, summarization
- ServiceNow: Generating sales emails and code generation
- GitLab: Code generation
- Notion: Summarization and text generation

### 5. Employee & Internal Tools
- Fidelity: Emails to customers and other materials
- Salesforce: Chatbots and summarization for sales and HR

Самое интересное — это, вероятно, голосовой помощник в машине от Volkswagen и забавный комментарий по поводу Pfizer (ещё помните их по ковиду?). Последние используют голосового помощника для поиска документов (никто больше голосом не работает), за исключением учеников Duolingo. У зеленой совы, кстати, неплохо вышло интегрировать LLM в свой продукт.

Остальные сценарии использования довольно банальны: саммари, особенно для HR; дебильные costumer-support чат-боты (кстати, кто-то ими вообще пользуется?); корпоративные подписки на ChatGPT, Клод или Gemini для оптимизации работы сотрудников и генерация писем. Ничего примечательного. Однако всё же интересно, как каждая конкретная компания использует LLM в своей работе.

И, наконец, счёт среди топовых моделей таков:
OpenAI — 43
Gemini — 19
Anthropic — 12

Я даже немного удивлён, что у Gemini клиентов больше, чем у Антропиков — наверное, из-за контекста в 2М токенов. Кстати, обычно компании используют одного или двух ботов, так что общая сумма очевидно превышает 50.

Табличка
Статья

@ai_newz

Читать полностью…

эйай ньюз

Physical Intelligence подняли $400M при оценке в $2 миллиарда.

Чуваки планируют создать foundation model для роботов всех мастей. Чтобы вот воткнул софтинку в машину, а она резко адаптировалась и подстроилась под существующую механику. Похоже, нас ждут «мозги по API»! Но надеюсь, к тому времени научатся считать всё локально.

Главными инвесторами стали Amazon, фонды Thrive и Lux Capital, ну и OpenAI — куда же без них.

Стартап не совсем с голой жопой. Если не считать топовый состав ко-фаундеров, в который входят Mr. Hausman, в прошлом robotics scientist в Google; Sergey Levine, профессор в Беркли, преподаёт computer science, но сам дико угарает по обучению агентов и RL (кстати, я лично с ним знаком, и вот ещё пост про воркшоп с его участием); и Lachy Groom, бывший executive в Stripe (сейчас все зарубежные подписки оплачиваются через него), так что бизнес он вести умеет. Чуваки недавно опубликовали пейпер, где представили свою первую модель pi0 (они кстати процитировали нашу Movie Gen, кек). Научили две роборуки разным приколам типа складывания одежды и уборки. Всё это мы уже видели тут, тут и тут, ну а главные в этом 1X . Да и вообще, вот есть набор «сделай сам» для точно таких же механических рук — здесь (вместе с тренировкой и записью датасета).

Но это только начало, у Physical Intelligence цель в другом. Не просто научить машину в какой-то конкретной конфигурации выполнять команды, а научить вообще всех ботов всему, в том числе саморепродукции и захвату человечества. По факту, есть закос на general purpose модель, и вот в этом и заключается наибольшая проблема - совсем непонятно смогут ли они перегнать general purpose модели от Anthropic или тех же OpenAI, которые всё лучше и лучше справляются с контролем роботов.

Источник
Пейпер

@ai_newz

Читать полностью…

эйай ньюз

Капчи для LLM - Anthropic провели хакатон в Сан-Франциско

Собралось более двухсот человек, было немало интересных проектов.

🥇 Первое место заняла команда, которая дала Claude мануал по использованию робота, и при помощи Computer Use Claude смог управлять роботом и выполнять инструкции (хотя с заметными задержками). Задача была достаточно простой, и хотя скорость работы Claude оставляет желать лучшего, сам факт того, что это работает, впечатляет.

🥈 Второе место заняла капча, которую сложно обойти современным LLM с Computer Use. Участники показали несколько способов поймать Claude: ➖ Логические задачки — LLM всё ещё часто ошибаются на таких. ➖ Анимированные паттерны, которые видны обычному пользователю, но не видны LLM, ориентирующейся по скриншотам. ➖ Ловушки — задачи на время, которые человек просто не успеет решить, а LLM справится без вопросов. Конечно, эти решения сложно масштабировать, но задача важная и её нужно как-то решать.

🥉 Третье место занял проект по улучшению ТЗ через обсуждение несколькими агентами.

Причин использовать Haiku 3.5, участники хакатона не придумали.

@ai_newz

Читать полностью…

эйай ньюз

Marimo - как Jupyter, только лучше

Огромная часть кода для ИИ пишется и запускается в Jupyter ноутбуках, как локально так и в колабах. Но они не идеальны - дефолтно редактировать код там не очень удобно, часто можно наворотить такого, что решается лишь перезапуском ноутбука. Marimo решает заметную часть проблем Jupyter, при этом привнося кучу новых фич:

➖ Реактивность - при изменении ячейки, зависящие от неё ячейки тоже автоматически пересчитываются (смотреть гифку). Если пересчитывать половину ноутбука при каждом изменении не хочется, то можно включить lazy mode, который будет всего лишь помечать ячейки устаревшими.

➖ Отсутствие "hidden state" - переменная из удалённого когда-то куска кода теперь никак не будет влиять на код текущий, рандомных перезапусков теперь будет поменьше.

➖ Поддержка ИИ ассистентов - как автокомплиты Copilot и Codeium, так и API больших моделей (OpenAI, Anthropic, Google).

➖ Интеграция с пакетными менеджерами - можно указать зависимости для конкретного ноутбука, Поддерживаются все популярные пакетные менеджеры для Python, за исключением Conda.

➖ Интерактивность - использовать местные виджеты куда проще чем в Jupyter так как не нужно использовать колбеки.

➖ Ноутбуки хранятся в обычных питон файлах, так что их куда проще хранить в гит репозиториях и запускать как скрипты.

Основной минус - неполная поддержка LSP, так что об ошибках типизации узнаёшь только когда код запускается. Отсутствие LSP в Jupyter Notebooks - одна из причин почему может быть не очень удобно использовать Cursor (Microsoft блокирует использование Pylance в Cursor, а Jedi не поддерживает Jupyter). Да и работает пока что только в браузере, но надеюсь мы получим и расширение для VS Code.

Хоть тула ещё и в альфе и не всё идеально, то что есть подаёт надежду и ощущается заметно лучше Jupyter, по крайней мере после нескольких часов которые я им пользовался.

Попробовать можно вот так:

pip install marimo && marimo tutorial intro


Github

@ai_newz

Читать полностью…

эйай ньюз

Super Sonic sound special effects с контролем голосом от Adobe (из анонса в этом посте).

Видали прикол? Кричишь в микрофон, а на выходе — рык дракона. txt2sfx от Eleven Labs конечно прикольно генерит, но таким образом тяжело попасть в динамику движений в кадре.

Больше всего завирусился отрывок генерации по голосу, но оказывается, модель умеет генерить ещё и по движению на футаже. Более того, можно сегментировать кадр и делать озвучку только для какой-то отдельной его части (см. видео с примером НЛО). Пока генерация чисто по видео работает не очень хорошо в сложных сценах, так что SFX-еры ещё успеют наиграться с этой тулзой, ведь она даёт наибольший контроль над динамикой и характером звука. Кстати, в кино много эффектов делают именно голосом с жирной пост-обработкой — это база.

Подобные решения уже появлялись на рынке, но без возможности описывать сам звук текстом. Можно было, например, напеть мелодию, и она переводилась в мелодию на гитаре. Хотя чего-то реально юзабельного не было. Интересно, как SuperSonic проявит себя на этом поприще.

@ai_newz

Читать полностью…

эйай ньюз

Тут за последние пару дней было несколько новых фич от LLM провайдеров

Легко было что-то упустить, поэтому я собрал всё в один пост.

OpenAI выпустили в публичный доступ SearchGPT - всё ещё отстаёт от Perplexity по качеству, зато довольно быстрый, да и обычные пользователи про Perplexity и не слышали. Но всё ещё иногда начинает искать в интернете, когда это совсем не нужно (если кто-то знает, как можно отключить эту функцию, напишите, пожалуйста, в комментариях).

Почти одновременно с SearchGPT они выпустили возможность дистиллировать модели. То есть сначала можно отвечать моделью вроде o1 либо 4o, а потом дистиллировать их ответы для вашего конкретного юзкейса в модель поменьше, например 4o-mini. Чтобы вы могли оценить, насколько хорошо это работает, добавили возможность создавать собственные методы оценки моделей. Цены соответствуют стандартным для файнтюнинга.

Ещё случайно сделали доступной полноценную o1 на пару часов - видимо релиз близко. В добавок к возможности загружать файлы и картинки, она заметно умнее o1-preview - та заметно проседает в математике и кодинге и отстаёт в этом даже от o1-mini. Кстати не первый раз случайно дают не те права доступа к модели, но раньше это было с внутренними моделями для тестирования. Интересно, GPT-5 так утечёт?

Anthropic выпустили приложение Claude для Mac и Windows — в принципе, похоже на мобильное, возможно, готовятся к релизу функции computer use для подписчиков. Ну и глобальный шортакт для вызова клода удобный.

Кроме того, теперь Claude может понимать изображения в PDF. Однако контекст для обычных пользователей всё ещё ограничен 200к токенами (против 500к у корпоративных пользователей), поэтому пользоваться, не выходя за пределы контекста, сложно.

Google добавили Grounding для Gemini в AI Studio и API. Теперь запросы к LLM можно привязывать к результатам поиска. Стоимость — $35 за тысячу запросов.

Чем из этого вы уже пользовались? Как вам?

@ai_newz

Читать полностью…

эйай ньюз

Еще один миллиардер мульти-миллионер вышел из OpenAI на пенсию.

Chief Research Officer уволился из OpenAI. Не знаю, чем именно он там занимался, но за свои восемь лет работы, он явно заработал несколько сотен миллионов $$$. Обычно такие ребята зарабатывают от нескольких миллионов в год акциями до нескольких десятков миллионов. Учитывая 10x рост оценки OpenAI c $15 млрд до $157 млрд только за последние 4 года, легко оценить что Бобу больше не нужно будет работать никогда.

И вертел он все эти политические игры в руководстве и перестройку компании с non-profit в for-profit.

@ai_newz

Читать полностью…

эйай ньюз

Avito ML Cup — это соревнование для ML-инженеров и специалистов в области Data Science, где предстоит создать модель для рекомендаций (предсказание клика по рекламе) на основе полусинтетических данных.

🚀Старт: 5 ноября
🔥Призовой фонд: 600 000 рублей.

Участвовать можно как индивидуально, так и в команде до 4 человек. Предлагаемые решения проверяются автоматически по метрике ROC-AUC, а результат будет виден в лидерборде.

Регистрация уже началась, не пропустите возможность! Подробности ➡️ по ссылке.

#промо

Читать полностью…

эйай ньюз

Ого! Кто-то посмел побить Flux 1.1 Pro на text2image арене.

Ребята из стартапа Recraft.ai выпустили свои модель V3, которая прям очень хорошо генерит картинки. Еще они очень круто обучились разным стилям, включая Vector Art, на котором у стартапа и был изначальный фокус.

Кстати, респект ребятам, кто тренил модель! Напишите в комментах (или в лс), если кто-то из вас читает канал:)


Потестить можно на Recraft.ai (50 бесплатных генераций)

@ai_newz

Читать полностью…

эйай ньюз

Mixture of Parrots: Experts improve memorization more than reasoning

Авторы замечают, что когда они проводили абляции моделей с одинаковым количеством параметров на разных задачах, MoE модель при таком же количестве параметров, как и dense модель, показывает себя хорошо на World Knowledge, но сильно проседает по математике и reasoning по сравнению с dense моделью.

Чтобы объяснить, почему возникает такое расхождение на бенчмарках для разных задач, авторы тренируют ряд моделей на синтетических тасках. Для оценки того, как модель может запоминать, генерируется синтетическая телефонная книга, и оценивается какую её часть модель может запомнить. Возможности к рассуждению оцениваются через поиск кратчайшего пути на графе.

Авторы доказывают, что достаточно широкая dense модель может решить задачи на графах, которые параметрически и по глубине заматченная MoE решить не может из-за недостаточной широты, что подтверждают и эксперименты. В то же время способность к запоминанию телефонной книги у модели с таким же количеством параметров не страдает из-за малой широты модели.

Лично мне хотелось бы чуть больше абляций с разной глубиной плюс абляций reasoning с одинаковой широтой модели, но время у авторов пейпера не бесконечное. Скорее всего, увидим это в каких-то follow-up.

Пейпер

@ai_newz

Читать полностью…

эйай ньюз

И смешно и грустно. Увидел тут в ленте линкедина как выпускник магистратуры из ETH Zurich жалуется, как трудно найти интересную ML работу в Европе, если нет PhD. Все меньше ML вакансий, где не требуется узкая специализация и PhD (кроме стартапов). Нужно чтобы ваше резюме действительно выделялось, чтобы вас звали на собесы.

Да, что уж там - даже с PhD это еще не гарантия, что вы будете на расхват у рекрутеров. Нужно качать скилы и своё публичное портфолио. У PhD студента в это плане слегка больше инструментов, так как можно показать свои статьи, если они качественные и релевантные.

Как видите ценность глубоких специалистов возрастает. Так что занимаемся постоянным обучениеи, делаем пет-проекты и прокачиваем свой публичный рабочий профиль. А если есть возможность – публикуем статьи.

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#41)

LLM
- Computer от Anthropic. Вышло обновление моделей и почти автономный агент Computer, который может использовать интерфейс ПК. Пока сыровато, но какой потенциал!
- Jarvis. Почти тот самый! Вслед за Anthropic гугловские решили анонсировать их конкурента, правда, доступ будет только в Хроме.
- Натренеруй свой GPT-2 Small за 12 минут. Процесс настолько заоптимизировали, что теперь это стоит 5 баксов на 8xH100. Как? Подробнее в посте.
- API Grok 2. По деньгам дороговато: $5 input/$15 output на миллион токенов.
- Квантизированные Ламы. Официальные и лучшие сжатые модели на 1 и 3B.
- Llama 70B на 2200 токенов в секунду. Cerebras уже не впервые ставит рекорды скорости.

Подготовка к интервью
- Cracking the coding interview. Скоро релиз новой версии одной из лучших книг по подготовке к собесам. Рекомендасион!

Генеративные модели
- Movie Gen в Голливуде. Блюмхаус получил в руки нашу модельку и вовсю её тестит.
- Stable Diffusion 3.5 Large. Ну не SOTA, но хоть выложили, раз уж обещали.
- Voice Design. Первая text2voice модель. Не просто читает текст, а генерит именно тембр голоса по запросу.
- Бой Маска и Цукерберга. Жалко, что всё это только в латентном пространстве...

> Читать дайджест #40

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

Люблю пасту карбонара. И не очень, когда такие же спагетти у меня в репо.

В Сбере придумали угарный конкурс красоты для кода. Признайтесь, всегда хотелось стать Мистером или Мисс Вселенная 😗. Если вы уверены, что вашему коду подходит звание «Эталонный», а вам — звание «Автор самого красивого кода», то вам на Конкурс красоты кода 2.0 за призы от Сбера: iPhone 16 и умную колонку SberBoom.

Эксперты определят победителей в пяти категориях: Backend, Frontend, DevOps, AI и Mobile, — а награждение пройдёт на ключевом IT-событии HighLoad в Москве, 2 и 3 декабря.
Ну а кроме шуток, более 40-ка участников прошлого конкурса стали частью команды Сбера. Возможно, следующим станете именно вы — переходите по ссылке (ссылка) и изучайте подробности!

#промо

Читать полностью…

эйай ньюз

Advanced Voice для ChatGPT теперь доступен в ЕС!

А также Швейцарии 🕺, Исландии, Норвегии и Лихтенштейне. Поздравляю всех с этим, welcome to the future. Лимиты всё ещё час разговора в сутки, поиграться можно, но постоянно использовать - нет.

@ai_newz

Читать полностью…

эйай ньюз

Anthropic собирается привлечь ещё несколько миллиардов долларов инвестиций

Инвестором снова должен выступить Amazon, который уже инвестировал в компанию 4 миллиарда долларов. Оценка в этом раунде инвестиций ожидается в районе 30-40 миллиардов долларов.

Amazon явно понравились результаты инвестиций - AWS, главная дойная корова компании, показывает очень хороший рост во многом из-за продажи AI API. Плюс Amazon пихает Claude сейчас куда только возможно - от чатботов на сайтах и в приложениях, до их конкурента Github Copilot. А ещё планируемая интеграция в Alexa, по платной подписке.

Загвоздка на этот раз в том, что Amazon хочет, чтобы Anthropic использовал Trainium - собственные чипы Amazon. Они их произвели в огромных количествах, но никто не хочет их использовать. Я даже не припомню ни одной статьи, где использовали бы Trainium. Anthropic в качестве клиента поможет отполировать софт до хорошего уровня, плюс сделает неплохую рекламу, если на них смогут натренировать какие-то передовые модели.

Такие условия не новинка в индустрии — в прошлом году Intel провернула такой же трюк со Stability, предоставив им свои чипы Gaudi 2 вместе с инвестициями. Да и сами Anthropic как минимум использовали TPU для инференса после того, как Google в них инвестировал.

С кнутом есть и пряник - ведутся переговоры о постройке Amazon кластера для обучения для Anthropic - вроде тех, что Microsoft строит для OpenAI, а X.AI и Meta для себя. Будут ли там Trainium или более традиционные чипы от Nvidia - непонятно.

Понятно только одно – инфраструктурная гонка все еще набирает обороты, а клауд провайдеры снимают жирнющие сливки от огромного запроса на инференс и тренировку больших AI моделей.

@ai_newz

Читать полностью…

эйай ньюз

🔥FLUX1.1 [pro] Ultra and Raw Modes

Новый релиз от Black Forest Labs! 4k изображения и более реалистичный режим!

1. FLUX1.1 [pro] Ultra - теперь можно генерить картинки в 4k разрешении! Причем довольно быстро - за 10 сек.

$0.06 за картинку

2. FLUX1.1 [pro] Raw - режим, который передает подлинное ощущение спонтанной фотографии. Генерит изображения с менее синтетической, более естественной эстетикой. Он значительно увеличивает разнообразие человеческих образов и улучшает реализм

@ai_newz

Читать полностью…

эйай ньюз

Об AI в образовании: универы по всему миру все активнее используют нейронки

Яндекс Образование и ВШЭ выпустили карту университетов, которые решили внедрить ИИ в обучение. Получилась кейсотека с примерами того, для каких задач студенты и преподы используют ИИ. Проект поможет вузам определиться с наиболее подходящими стратегиями интеграции нейросетей. Собрал несколько любопытных примеров.

#промо

Читать полностью…

эйай ньюз

Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»

Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML

— @ai_newzэйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте

— @seeallochnayaСиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории

— @gonzo_MLgonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны

— @rybolos_channelKali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности

— @boris_againБорис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM

— @tech_priestessТехножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении

— @dealerAIDealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей

— @sysblokСистемный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках

Читать полностью…

эйай ньюз

Anthropic наконец-то релизнули API Claude 3.5 Haiku

Результаты SWE Bench выше чем у июльского Sonnet 3.5. Cutoff данных тренировки - июль 2024.

Этого мало чтобы перекрыть минусы - цена выросла в 4 раза по сравнению с 3.0, а изображения в качестве инпута модель на старте просто не поддерживает. Кажется Anthropic, которые изначально и начали гонку дешёвых моделей, решили просто заняться рекламой GPT 4o-mini и Gemini Flash.

Я совсем не понимаю зачем использовать эту модель, а что думаете вы?

@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#42)

Робототехника
- CoTracker3 — новая модель для трекинга точек от исследователей из Meta. Как минимум это полезно для обучения роботов и контролируемой генерации видео.
- Как научить роборуку играть в дженгу за 1 час — пособие для начинающих. Все благодаря тому, что демонстрации человека и исправление ошибок встроены прямо в RL-пайплайн.

ЛЛМ
- MoE улучшает память больше, чем reasoning — статья пытается ответить, почему MoE показывает хорошие результаты по World Knowledge, но уступает в математике и логических рассуждениях по сравнению с плотной моделью.
- YandexGPT 4 — звёзд с неба не хватает, но и прогресс есть.
- Github Copilot на подъёме — новые фичи и поддержка актуальных LLM. Наконец-то достойный конкурент Cursor.
- Дайджест по LLM провайдерам — вышло много обновлений, собрал все в одном посте. Даже случайно слили o1 (уже не превью), OpenAI дали общий доступ на пару часов, лол.

Генеративные модели
- Recraft.ai — «Тёмная Лошадка» обошла Flux на арене. Респект ребятам!
- Adobe Max — большой дайджест по презентации Adobe, где показали много реально полезных инструментов. Must-read для дизайнеров.

Прочее
- О ценности PhD — так что, ребят, продолжаем рисерчить.
- Ещё -1 в OpenAI — Chief Research Officer Боб МакГрю ушёл в безвеременный отпуск. Денег он уже набрал достаточно и вертел всю эту «Игру престолов». Коллективно понимаем...

> Читать дайджест #42

#дайджест
@ai_newz

Читать полностью…

эйай ньюз

На днях стали известны итоги прошедшего ML Prize. Заявлено всего было 160 работ, из которых выделили 14 самых значимых. Победители получили денежную премию в зависимости от номинации и ещё гранты в Yandex Cloud для расчетов + остальные плюшки. Пейперы worth to check out, особенно если сами планируете двигать ML. Отобрал неплохие бумаги, вот парочка:

Вот пытаются сделать децентрализованную многоагентную навигацию для робо-роя, исследование на dissercat. Кроме всяких футуристичных штук, полезно в складской логистике.

Ещё разрабатывают методы обучения генеративных моделей на основе теории оптимального транспорта. Планируют применять для проектирования (как ни странно) транспорта, а также материалов и лекарств.

Ещё об оптимизации децентрализованных систем и асинхронных вычислений.

Было еще много всего про многоагентные системы и оптимизации. Ну и здесь стоит добавить, что премия выдавалась не за конкретные пейперы, а по категориям. Подробнее здесь

@ai_newz

Читать полностью…

эйай ньюз

Уже пару недель прошло с выставки Adobe MAX, а только сейчас дошли руки посмотреть, что там они наворотили. Все потому, что презентация шла аж три дня, и новости поступали постепенно. Причем нигде нет какого-то списка нововведений, поэтому я собрал свой дайджест новых фич с упором на GenAI, чтобы убедиться, что вы ничего не пропустили.


Photoshop

1. Firefly 3. Генерит картинки получше. Юзается в Generative Fill и почти во всем, что идет далее.

2. Project Clean Machine. Чистит картинки от всех артефактов и мусора (включая людей). Выделяет мусор автоматически.

3. Harmonize. По сути, релайт, но удобно встроенный в Photoshop. Теперь композить ничего не стоит.

4. Substance 3D. Можно открывать 3D-файлы, крутить их, вращать и менять как материалы, так и освещение. Кроме того, Adobe научили Photoshop генерить гауссиан сплаты, которые потом можно апгрейдить до юзабельного состояния через встроенный img2img рефайнер.

5. Generative Work Space. Встроенный интерфейс Midjourney. Можно генерить картиночки. Из приколов — знакомый нам IP Adapter на стиль и новый Composition Reference, ну и всякие пресетики для ньюбисов.

6. Project Concept. Прикольный поисковик референсов на основе ИИ. Мудборды теперь делаем только там. Кроме того, можно мешать картинки по целому списку параметров: стиль, фон, цвет, освещение и объект. Можно указать, что тебе нравится на референс-картинке, а потом еще и удобным ползунком их смешать. Там же — realtime генерация с перемещением картинок как в Krea. Короче, упор не в промптинг, а в смешивание картинок через img2img или IP-адаптеры всех мастей.


Premiere Pro / After Effects

7. Firefly Video и Generative Extend. Можно продолжить клип на пару секунд. Зачем? Ну, наверное, спасти всратый футаж, ну и видосики генерить.

8. Project Super Sonic. Такого мы еще не видели. Генерирует аудиоэффекты на основе голосового наброска. Короче, рычишь в микрофон своим тоненьким голоском, а на выходе получаешь рык дракона. Весело будет поиграться.

9. Также улучшили выделение объектов по типу как в Segment Anything Video. (Гринскрин больше не нужен). А вот про трекинг новостей вроде бы не было.


Illustrator

10. Gen Shape Fill. Generative Fill для Illustrator. Делаешь набросок формы, а оно его закрашивает и добавляет деталей. И все это вектор. Наверное, лучший txt2svg, но нужно тестить.

11. Rotatable Vectors. Немного ломает мозг — SVG-шки (2D-векторы) крутятся! Зачем — хз, сразу норм нарисовать, не? Хотя выглядит клево.

12. Layout Variations. Мало того, что сам постер нарисовали со скетча от руки, так потом еще и дергают его во все стороны, меняя соотношение сторон, а постер сам подстраивается. Удобно!

Ну и вишенка на торте для тех, кто все еще переживает за авторские права: все это абсолютно легализовано и лицензировано. Так что вот, наслаждаемся.Часть инструментов уже доступна на сайте Adobe, но большинство непонятно когда выпустят.

В целом довольно интересно. Часть решений, конечно, уже год валялись в опенсорсе, но здесь заметен скачок в качестве (всё-таки есть и данные, и железо), и даже показали пару новых фич.


P.S. Примеры смотрим в комментариях.

@ai_newz

Читать полностью…

эйай ньюз

Вот еще мой непредвзятый тест Recraft v3 c одним и тем же промптом и 8-ми разными стилями. Текст тоже хорошо рисует.

На каждый стиль я сгенерил по 2 картинки и выбрал одну лучшую, так что тут минимальный черипик. Одна генерация занимает от 8 до 14 секунд.

@ai_newz

Читать полностью…

эйай ньюз

Github Copilot начинает серьёзно конкурировать с Cursor

На Github Universe показали новые фичи Copilot, похоже после продолжительного застоя компания всерьёз взялась за конкуренцию.

➖ Добавили поддержку новых моделей - Gemini, Claude Sonnet (нужно отдельно включать в настройках) и o1-preview с o1-mini. Модельки будут раскатывать в течении следующих пары недель. У меня уже есть Sonnet и o1, жду Gemini.

➖ Наконец-то добавили multi-file editing.

➖ Кастомные промпты для моделек - наконец-то в чате не нужно будет повторяться каждый раз чтобы добиться нужного результата. Вот инструкция по конфигурации.

➖ Copilot теперь доступен в Xcode и Windows Terminal.

➖ Code Review - теперь коммит можно заревьювить с помощью ИИ прямо в редакторе.

Показали и Spark - платформу для создания и хостинга миниапок с помощью ИИ. Записаться в waitlist можно тут.

Большая часть показаных фич уже доступна, правда некоторые лишь в превью.

@ai_newz

Читать полностью…

эйай ньюз

Я довольно внимательно слежу за русскоговорящими ЛЛМ. Кому-то может показаться, что в этом мало смысла, ведь GPT от OpenAI или какой-нибудь Claude будут всегда лучше, хотя бы просто из-за больших размеров и количества компьюта, потраченного на обучение. Но здесь есть пара нюансов.

Во-первых, модели, у которых русский — это первый язык, которого в тренировочных данных больше чем других, должны говорить на нем как носители, что-ли. Я бы, сколько английский ни учил, говорить как какой-нибудь чел из Бруклина никогда не смогу. Так вот, нативно русскоязычные модельки могут в каких-то уникальных случаях справляться со своей задачей лучше. Ну, навскидку, в каких-нибудь устойчивых выражениях или каламбурах. Про знание всяких ГОСТов и местных законов я вообще молчу.

А во-вторых, мне просто по приколу наблюдать, что там на рынке локальных моделей происходит.

Так вот, недавно вышла YandexGPT 4 в PRO и Lite версии. По внутренним тестам смотрится неплохо, но бенчам доверять, как всегда, не стоит. Хотя Яндекс и не слишком задирают нос, а ставят вполне адекватные цели — добраться до уровня LLaMA 70B, что у них почти получилось. Хотя, если взглянуть на RuArenaGeneral — это chatbot arena для русскоговорящих моделей, где судья GPT-4 — то уровень YandexGPT 4 PRO сейчас на уровне адаптированной и дообученной LLaMA 3 8B. Однако те фишки нативно русскоязычных моделей все еще в силе, так что правда где-то посередине.

Модельку можно потыкать в Yandex Cloud, по API либо через чатовый интерфейс (тут) для рядовых пользователей. Но цель у них явно работа по API для каких-то продуктовых решений.

Еще из приколов — увеличили контекст с 8 до 32к токенов и даже сделали какой-то намек на Chain of Thought. Но, как я понял, они его просто немного подтюнили на рассуждения. Кстати в облаке можно дообучить модельку под свою нужды.

1M токенов обойдется в $12.3. Причем для input/output цена одна. Правда у них там такая мудренная формула для расчета. Можете сами глянуть.

Пока еще не SOTA на русском, но потенциал есть. Для саммари отзывов и результатов выдачи сгодится. А дальше посмотрим.

@ai_newz

Читать полностью…

эйай ньюз

Посмотрите как робот чуть больше часа учится играть в дженгу хлыстом полностью в реальной жизни, без всяких симуляций. По-моему результаты под конец впечатляющие. Настолько быстро учиться выходит из-за того что человеческие демонстрации и исправление ошибок встроено прямо в RL пайплайн.

Кроме дженги подход работает на куче других задач, например разные этапы сборки ПК и мебели, на обучение уходит до двух с половиной часов.

Сайт проекта

@ai_newz

Читать полностью…

эйай ньюз

Вы ждали бой Илона и Марка в октагоне? Вот вам бой. Смотреть со звуком и до конца (никто не ожидал такого исхода).

@ai_newz

Читать полностью…

эйай ньюз

В январе выйдет продолжение культовой книги "Cracking the coding interview". Книгу обновили, добавили новые темы и задачи + дополнительные главы например про то, как торговаться за Total Comp (зп) при получении оффера.

Первую версию этой книги я читал еще в 2014 году, когда готовился к своему первому интервью в FANNG - в Google. Я тогда хоть и зафейлил кодинг, но зато понял, что мало готовился :) И вместо гугла пошел делать PhD, о чем ни капли не жалею.

Книгу думаю все же заказать в свою коллекцию. Надеюсь, там будут какие-то инсайты, о которых я еще не знаю.

#books #interviews
@ai_newz

Читать полностью…

эйай ньюз

Нейродайджест за неделю (#40)
Юбилейный) 🎉

LLM
- Ministral. Борьба в сегменте мобильных LLM набирает обороты.
- Turbo Alignment. Библиотека для быстрого тюнинга LLM.
- Chatbot Arena для кодеров. Копайлот от лучшего бенчмарка, предназначенный для оценки эффективности моделей в написании кода.

Другие модальности
- Гайд по запуску Voice Mode ChatGPT. Классный метод обхода ограничений, который работает.
- tost.ai. Бесплатный сервис для генерации и тренировки LoRA на Flux.

Другие новости

- Месть подается холодной. История о том, как саботировать два месяца работы техногиганта. Надо было всем выделять GPU!
- DGX B200. Монстр от NVIDIA за 500 тысяч долларов.

> Читать дайджест #39

#дайджест
@ai_newz

Читать полностью…
Подписаться на канал