✔️ Google Fitbit внедряет ИИ для персонализированных рекомендаций по здоровью.
Fitbit Labs, новая программа от Google Fitbit, использует Google Gemini для анализа данных о сне, активности и сердечном ритме пользователей, формируя им ценную информацию о своем здоровье.
Первая функция Labs - "проводник по аналитике" - предоставляет ответы на вопросы о здоровье и выявляет тенденции в данных пользователей. Доступ к Labs открыт для ограниченного числа пользователей Fitbit, которые могут присоединиться к программе, выбрав соответствующий пункт во вкладке "Вы" в приложении Fitbit.
phonearena.com
✔️ Foxconn создаст самый быстрый в Тайване суперкомпьютер с помощью Nvidia Blackwell.
Foxconn строит у себя на родине самый мощный суперкомпьютер на базе чипов Nvidia Blackwell. Суперкомпьютер Hon Hai Kaohsiung Super Computing Center будет построен на базе графических процессоров Nvidia Blackwell, оснащен 64 стойками GB200 NVL72 и 4608 ядрами Tensor Core. Общая расчетная производительность составит более 90 экзафлопс.
Foxconn планирует использовать суперкомпьютер для исследований рака, разработки больших языковых моделей и инноваций для "умных городов", чтобы вывести Тайвань в мировые лидеры отрасли ИИ.
Первая фаза проекта будет запущена в середине 2025 года, а полное развертывание суперкомпьютера запланировано на 2026 год.
venturebeat.com
✔️ Hugging Face выпустил OpenAI-Gradio.
OpenAI-Gradio предоставляет возможность создать веб-приложения с ИИ, используя всего несколько строк кода. Для запуска необходимо установить пакет из pip и указать OpenAI API KEY.
OpenAI-Gradio позволяет настраивать внешний вид и функциональность веб-приложений, используя возможности Gradio. Например, можно создавать пользовательские компоненты ввода и вывода, добавлять описания и примеры использования, а также интегрировать LLM в более крупные веб-интерфейсы Gradio.
OpenAI-Gradio поддерживает GPT-4-turbo, GPT-3.5-turbo и GPT-3.5-turbo-16k.
github.com
✔️ Nvidia и MediaTek сотрудничают в создании 3-нм процессора для ПК с ИИ.
Процессор, предположительно, войдет в фазу пробного производства уже в этом месяце, а массовый выпуск запланирован на конец 2025 года. Ожидается, что новый процессор будет работать в паре с графическим процессором Nvidia и будет ориентирован на использование в готовых ПК Lenovo, Dell, HP и Asus.
Предполагаемая цена чипа составит около 300 долларов. Nvidia и MediaTek уже сотрудничают в рамках платформы Dimensity Auto Cockpit, предназначенной для автомобилей и использующей графические технологии Nvidia и Nvidia Drive OS.
tomshardware.com
✔️ O'Reilly публикует первые главы нового руководства по разработке ПО с использованием ИИ.
O’Reilly опубликовала первые главы нового руководства «Жизненный цикл разработки ПО с использованием ИИ» (The AI-Enabled SDLC).
В руководстве, написанном техническим директором Tabnine Эраном Яхавом и основателем Tech Skills Transformations Брентом Ластером, описывается как ИИ меняет каждый этап жизненного цикла разработки ПО.
В первых главах, доступных бесплатно для подписчиков O’Reilly, описывается влияние ИИ на планирование, написание кода, тестирование, исправление кода, а также повышение безопасности и производительности.
В книге также рассматриваются распространенные ошибки и риски, связанные с использованием ИИ в разработке, и предлагаются стратегии интеграции ИИ для повышения эффективности разработчиков и качества кода.
streetinsider.com
@ai_machinelearning_big_data
#news #ai #ml
Ищем автора эталонного кода! 💎
Если вы уверены, что вашему коду подходит звание «Эталонный», а вам — звание «Автор самого красивого кода», то приглашаем принять участие в Конкурсе красоты кода 2.0 и выиграть классные призы от Сбера: iPhone 16 и умную колонку SberBoom.
Опытные эксперты определят победителей в пяти категориях: Backend, Frontend, DevOps, AI и Mobile, — а награждение пройдёт на ключевом IT-событии HighLoad в Москве, 2 и 3 декабря.
Больше 40 участников прошлого конкурса стали частью команды Сбера. Возможно, следующим станете именно вы — переходите по ссылке и изучайте подробности!
2 и 3 декабря 2024 года в Москве, в Кампусе СКОЛКОВО, пройдёт крупнейшая профессиональная конференция для разработчиков высоконагруженных систем — HighLoad++ 2024.
В этом году мероприятие соберёт 3 800 участников, будет проведено 170 докладов в 13 залах. На одной площадке пройдут сразу 3 конференции: HighLoad++, GolangConf 2024 и PHP Russia 2024.
✅Доклады и спикеры конференции: https://clck.ru/3DnKUq?erid=LjN8Jud7o
Будем разбираться в архитектуре сложных проектов, обсудим вызовы работы с распределёнными транзакциями, базами данных и системами хранения. Поговорим про оптимизацию производительности с использованием CGo и применение WebAssembly для решения задач веб-разработки.
До встречи на HighLoad++ 2024!
#реклама
О рекламодателе
⚡️ Релиз Python 3.13 и Git 2.47 ⚡️
Python 3.13, спустя ровно год с начала разработки, выпущен в релиз. Поддержка версии 3.13 планируется в течение 1.5 лет, и, после окончания этого срока еще 3.5 года версия будет получать критические обновления, связанные с безопасностью.
Ключевые изменения:
🟢экспериментальный компилятор JIT. Запуск в CPython –enable-experimental-jit
;
🟢экспериментальный режим сборки CPython без GIL. Запуск –without-gil
;
🟢интерактивный интерпретатор с многострочным редактированием, по подобию PyPy;
🟢изменена семантика locals()
для функций, генераторов и сопрограмм;
🟢включена в состав модифицированная версия mimalloc
от Microsoft;
🟢компилятор теперь очищает лидирующие пробелы из docstring
;
🟢в модуле dbm
реализован бэкенд dbm.sqlite3
по умолчанию для новых файлов;
🟢typing.TypeIs
стала более интуитивной, чем typing.TypeGuard
;
🟢typing.ReadOnly
позволяет помечать элементы TypeDicts
, доступные только для чтения;
🟢warnings.deprecated()
добавлена для указания устаревших элементов в системе типов;
🟢удалены ifc, audioop, chunk, cgi, cgitb, crypt, imghdr, mailcap, msilib, nis, nntplib, ossaudiodev, pipes, sndhdr, spwd, sunau, telnetlib, uu, xdrlib и lib2to3
из стандартной библиотеки;
🟢в copy
добавлена copy.replace()
;
🟢в os
добавлены функции для работы с таймером через timerfd
;
🟢random
получил интерфейс CLI;
🟢macOS версий 10.9 - 10.12 больше не поддерживаются.
▶️Страница релиза 3.13 ▶️Документация 3.13
Git выпустил Git 2.47 с функциями и исправлениями ошибок от более чем 83 разработчиков, 28 из которых - новые.
В этой версии основное внимание уделяется повышению производительности и улучшению пользовательского опыта.
Основные изменения:
🟠инкрементные многопакетные индексы: экспериментальная функция, позволяющая сохранять несколько многопакетных индексов в цепочке слоев MIDX;
🟠ускорена идентификация базовой ветви : новый инструмент for-each-ref
помогает определять базовую ветвь коммита, сводя к минимуму уникальные коммиты от первого родителя и упрощая идентификацию;
🟠обновлена политика поддержки: в Git 2.47 представлен новый документ, описывающий требования к поддержке для различных платформ, включая стандарты C99 или C11 и стабильные версии зависимостей;
🟠DEVELOPER=1 mode: теперь при компиляции с DEVELOPER=1
наличие неиспользуемых параметров является ошибкой времени компиляции;
🟠остальные улучшения : усовершенствования серверной части reftable
, обновление платформы модульного тестирования, усовершенствование git fsck
и интеграция кода Visual Studio с git mergetool
.
▶️Полный список изменений
@ai_machinelearning_big_data
#AI #ML #Python #Git #Release
✔️ Hitachi совместно с Nvidia запустили сервис обслуживания железных дорог на основе ИИ.
Система HMAХ анализирует данные, собираемые с поездов, чтобы предсказывать оптимальное время для замены деталей. Это первый коммерческий продукт Hitachi, использующий ИИ для обслуживания железных дорог, и он уже работает на некоторых маршрутах в Великобритании и Италии.
HMAX использует GPU от NVIDIA для мгновенного анализа изображений и данных о температуре и вибрации. Этот анализ позволяет проводить техобслуживание по мере износа узлов и повышает безопасность поездок.
kyodonews.net
✔️ Huggingface запустила лидерборд для оценки возможностей LLM в финансовой сфере.
OpenFinLLM Leaderboard - рейтинг LLM для финансовых задач. Он оценивает модели на 40 задачах в 7 категориях: извлечение информации, текстовый анализ, вопросы и ответы, генерация текста, управление рисками, прогнозирование и принятие решений. Для оценки используются метрики: точность, F-меру, ROUGE и коэффициент корреляции Мэтьюза.
С момента запуска в рейтинге лидируют модели GPT-4 и Llama 3.1, показавшие высокую точность в задачах по анализу финансовых настроений. В задачах финансового прогнозирования компактные модели Llama-3.1-7b и internlm-7b превосходят более крупные модели.
huggingface.co
✔️ MongoDB создает партнерскую экосистему ИИ.
MongoDB представила обновлённую версию 8.0 своей базы данных линейки Enterprise и облачного сервиса Atlas. Обновления обещают увеличить пропускную способность на 32%, ускорить пакетную запись на 56% и повысить скорость параллельной записи на 20%.
Для решения проблем, связанных с быстрым развитием ИИ, неопределённостью в выборе технологий и нехваткой навыков, MongoDB запустила программу MongoDB AI Application Program (MAAP).
Компания планирует создать глобальную экосистему партнёров, которые будут устанавливать отраслевые стандарты для решений на основе ИИ, сотрудничая с Microsoft Azure, Google Cloud Platform, Amazon Web Services, Accenture, Anthropic и Fireworks AI.
Уже реализованы коммерческие решения для «французской автомобильной компании» и «глобального производителя бытовой техники».
iteuropa.com
✔️ RATIONALYST: Как неявные логические обоснования улучшают логику ИИ.
Исследователи из Университета Джона Хопкинса представили RATIONALYST - модель на базе LLaMa-3-Instruct-8B, разработанную для улучшения логических возможностей LLM за счет неявных логических обоснований, полученных из немаркированных текстовых данных. Rationalyst генерирует и фильтрует обоснования на основе подсказок-примеров, фиксируя основные схемы рассуждения для новых текстов.
Обученный на 79 000 неявных обоснованиях, Rationalyst отслеживает пошаговые решения проблем, генерируя обоснования для каждого этапа, чтобы направлять выбор оптимальных следующих шагов. При оценке различных логических задач RATIONALYST добился повышения точности в среднем на 3,9%, превзойдя GPT-4.
arxiv.org | Github.com
✔️ Выпущена новая версия Python 3.13 🔗 Скачать
✔️ Qualcomm представил чип A7 Elite, оптимизированный для работы с ИИ.
Networking Pro A7 Elite - новый чип для маршрутизаторов и сетевых устройств. Чип основан на новом стандарте Wi-Fi 7. A7 Elite может управлять до 16 потоками данных, это вдвое больше возможности предыдущей версии стандарта. A7 Elite преобразует данные с помощью 4096-QAM, технологии, которая кодирует на 20% больше информации в каждом импульсе по сравнению с методом в Wi-Fi 6.
Другая новая функция, MLO, позволяет маршрутизатору Wi-Fi 7 распределять соединение по нескольким радиочастотным диапазонам. Qualcomm утверждает, что маршрутизаторы, оснащенные A7 Elite, могут обеспечить пропускную способность до 33 ГБ\с.
A7 Elite интегрирован с сопроцессором ИИ, который имеет максимальную производительность 40 TOPS. Этот сопроцессор позволяет устройствам Wi-Fi, оснащенным A7 Elite, запускать модели ИИ локально. Qualcomm предлагает библиотеку из 100 предварительно оптимизированных моделей ИИ, чтобы упростить разработку программного обеспечения для производителей сетевого оборудования.
siliconangle.com
@ai_machinelearning_big_data
#news #ai #ml
📎 Machine Learning: Медицинский дайджест за период 30.09 - 06.10 2024 г.
▶️ Модели машинного обучения и бенчмарки
🔘OmniGenBench: платформа для автоматизированного бенчмаркинга геномных моделей.
Платформа с открытым исходным кодом, предназначенная для бенчмаркинга геномных фундаментальных моделей.
🔘PocketDTA: модель прогнозирования близости препарат - целевой материал.
PocketDTA - модель для предсказания drag-target affinity (DTA), использующая трехмерную структурную информацию о лекарстве и целевом материале.
▶️ Фреймворки и методологии
🔘ZODIAC: многоагентная платформа на основе LLM для кардиологической диагностики.
ZODIAC разработан для помощи кардиологам в диагностике клинически значимых аритмий с использованием данных пациентов, собранных в реальных условиях.
🔘Обучение с "забыванием" знаний для предсказания мутаций белков.
PROEDIT - методика обучения с техникой с "забыванием знаний" (knowledge unlearning) для выборочного удаления информации из предварительно обученной языковой модели белка для прогнозирования эффекта мутации.
🔘ReXplain: конвертация рентгенологических данных в понятные видеоотчеты.
ReXplain (Radiology eXplanation) - система на основе ИИ, которая генерирует понятные для пациентов видеоотчеты по результатам рентгенологических исследований.
🔘Оценка LLM в медицине с помощью прокси-задач.
Методология оценки медицинских аргументов, сгенерированных LLM, основанная на прокси-задачах и ранжировании. Позволяет точнее сопоставить результаты с критериями оценки человека и преодолеть типичные галлюцинации в LLM, используемых в качестве оценщиков.
🔘MVSF-AB: метод предсказания аффинности связывания антитело-антиген.
MVSF-AB - метод, основанный на машинном обучении, который использует информацию о последовательности антитела и антигена для точного предсказания аффинности связывания.
▶️Исследования и обзоры.
🔘Выбор моделей на основе данных для зашумленных биологических систем.
Метод построения математических моделей биологических систем с использованием данных и нейронных сетей.
🔜 Читать полный дайжест
@ai_machinelearning_big_data
✔️ BrainChip анонсировал сверхэнергоэффективную микросхему для ИИ-устройств.
BrainChip анонсировала Akida Pico — нейроморфный процессор с энергопотреблением всего 1 мВт, предназначенный для устройств с ограниченным питанием: смартфоны, носимая электроника и умные устройства.
Akida Pico имитирует работу мозга, обмениваясь электрическими импульсами (спайками) вместо традиционных логических цепей. Чип включает нейронный процессор, блоки обработки событий, SRAM для хранения весов модели, блоки прямого доступа к памяти и дополнительные периферийные устройства. В некоторых случаях он может работать автономно.
BrainChip разработала архитектуры моделей ИИ, оптимизированные для минимального энергопотребления, снижая потребление энергии в пять раз по сравнению с традиционными моделями на обычных микропроцессорах. Akida Pico может использоваться для голосовой активации, шумоподавления в наушниках, AR-очках и слуховых аппаратах.
spectrum.ieee.org
✔️ Google расширит Gemini Live на более чем 40 языков.
Gemini Live запускает поддержку генеративного ИИ-помощника на более чем 40 языках. Инструмент позволит общаться на двух языках на одном устройстве, и в разработке находится дальнейшее расширение одновременно поддерживаемых языков.
Многоязычная поддержка также будет работать с интеграцией Gemini для других приложений и сервисов Google: Google Календарь, Задачи, Keep и Утилиты.
Установить предпочитаемые языки в приложении Android: «Настройки» > «Google Ассистент» > «Языки» и выберите первый предпочитаемый язык. Для второго языка есть опция «Добавить язык».
О планах по выпуску Gemini Live для iPhone не сообщалось.
engadget.com
✔️ Message-Passing Monte Carlo (MPMC): усовершенствованные методы выборки для повышения точности моделирования.
В MIT CSAIL разработали метод Message-Passing Monte Carlo (MPMC), основанный на GNN, которые позволяют точкам самооптимизироваться и достигать лучшей равномерности для решения сложных многомерных задач. GNN преобразуют случайные выборки, минимизируя L2-расхождение, что позволяет MPMC создавать наборы точек, подходящие для конкретных приложений.
В вычислительных финансах MPMC может улучшить результаты в задачах ценообразования опционов и оценки рисков, а в робототехнике - помочь в планировании пути и движении для оптимальной навигации роботов.
news.mit.edu
✔️ CharacterAi выходит из гонки моделей и переключает внимание на платформу чатботов.
CharacterAi решила отказаться от разработки больших языковых моделей и сосредоточиться на улучшении потребительской платформы. Это решение было принято после сделки с Google, в рамках которой интернет-гигант приобрел единовременную лицензию на технологию CharacterAi.
Рост затрат на обучение моделей усложнил конкуренцию с Google, Microsoft, OpenAI и Amazon. Компания решила сконцентрироваться на создании масштабируемой платформы чат-ботов, аудитория которой, по оценкам, насчитывает более 20 миллионов активных пользователей в месяц.
Несмотря на уход основателей и сокращение амбиций в области разработки моделей, компания с оптимизмом смотрит в будущее благодаря финансированию от Google.
btimesonline.com
✔️ IBM и NASA представили Prithvi WxC - модель для прогнозирования погоды и климата.
BM Research и NASA совместно разработали Prithvi WxC – модель глубокого обучения для прогнозирования погоды и моделирования климата с 2,3 млрд. параметров и 160 переменными из набора данных MERRA-2.
Модель использует трансформерную архитектуру для обработки долгосрочных зависимостей, комбинацию локальных и глобальных механизмов внимания для обработки больших объемов данных и эффективного захвата пространственно-временных закономерностей.
Prithvi WxC обучается с помощью комбинированной функции цели, которая объединяет задачи маскированной реконструкции и прогнозирования, что повышает ее универсальность в различных приложениях, включая прогнозирование с авторегрессионным развертыванием и оценку экстремальных погодных явлений.
Arxiv | Модель на HF | Проект на Github
@ai_machinelearning_big_data
#news #ai #ml
Рынок облаков за прошлый год вырос на 40%, а в одной только Москве реализуется как минимум 90 проектов с использованием ИИ. Все это говорит о мощном облачном тренде в культуре разработки и большом интересе сообщества к работе с AI.
24 октября крупнейший российский провайдер облачных и AI-технологий Cloud.ru проводит конференцию GoCloud Tech 2024, на которой соберутся ведущие IT-инженеры, разработчики и тимлиды.
4 параллельных трека, которые будут полезны всем, кто работает с облачными технологиями:
- «useCloud» — сценарии использования облачных решений;
- «Под капотом» — «внутренняя кухня» и тонкости разработки облачных сервисов;
- «Русский AI» — развитие AI/ML и тренды Data Science на российском рынке;
- «Cloud.ru Evolution» — обзор сервисов и обновлений платформы.
А еще обещают демо-зону, на которой будет доступна флагманская платформа Cloud Evolution, платформа для создания частного и гибридного облака Evolution Stack. Также вечером всех ждёт афтерпати.
Регистрация по ссылке.
🌟 NVLM-1.0-D-72B: MMLM от NVIDIA, сопоставимая с лучшими коммерческими аналогами .
NVLM-1.0-D-72B - первая модель семейства NVLM 1.0 производственного уровня, которое позиционируется как SOTA в задачах "vision-language".
Для достижения SOTA - цели в мультимодальное обучение был включен высококачественный набор данных, предназначенный только для текста, наряду со значительным объемом мультимодальных данных по математике и рассуждениям, что расширило математические и программные возможности во всех модальностях.
Архитектура NVLM 1.0 предполагает 3 варианта исполнения:
🟢только декодер NVLM-D,
🟢NVLM-X на основе перекрестного внимания;
🟢NVLM-H с гибридной архитектурой.
Все эти варианты NVLM используют общий визуальный кодер InternViT-6B-448px-V1-5.
Для обработки изображений с высоким разрешением используется динамический подход с высоким разрешением (DHR), при котором изображение разбивается на несколько плиток, каждая из которых кодируется отдельно.
Чтобы повысить эффективность обработки динамических изображений с высоким разрешением в NVLM-D и NVLM-X была разработана конструкция текстового тега плитки. Этот тег добавляется к входной последовательности, чтобы указать начало плитки и ее положение в структуре мозаики. Так генеративные модели лучше понимают структуру изображения.
Эксперименты показали, что добавление тегов плитки значительно улучшает производительность как в задачах, связанных с мультимодальным мышлением (например, MMMU и MathVista), так и в задачах, связанных с распознаванием текста (ChartQA, DocVQA и OCRBench).
Для оценки NVLM 1.0 использовались 9 эталонных тестов Vision language и четыре текстовых теста. Результаты NVLM 1.0 оказались сопоставимыми с результатами ведущих проприетарных и общедоступных моделей, как в задачах на взаимодействие зрения и языка, так и в задачах, ориентированных только на текст.
Разработчики подготовили файл сборки необходимого окружения в Dockerfile для запуска и примеры кода для инференса, использования нескольких GPU и загрузки модели.
📌Лицензирование : CC-BY-NC-4.0 License.
🟡Страница проекта
🟡Модель
🟡Arxiv
@ai_machinelearning_big_data
#AI #ML #MMLM #NVLM #NVIDIA
✔️ Nvidia выпускает плагины для повышения реалистичности Meta Human в Unreal Engine 5.
На конференции Unreal Fest Seattle 2024 NVIDIA представила новые плагины для Unreal Engine 5 на базе технологии NVIDIA Ace, облегчающие создание и развертывание персонажей MetaHuman с искусственным интеллектом на ПК с ОС Windows. Ace — это набор технологий для создания цифровых людей с речью, интеллектом и анимацией на основе генеративного ИИ.
Разработчики теперь имеют доступ к плагину Audio2Face-3D для создания лицевой анимации на базе ИИ, синхронизирующей движения губ и лица с речью. Плагин доступен в Autodesk Maya и имеет открытый исходный код для создания собственных расширений. Для работы с Maya разработчикам понадобится API-ключ или Audio2Face-3D NIM.
NVIDIA также выпустила пример проекта Unreal Engine 5 с использованием NVIDIA Ace, включающий плагины Audio2Face-3D, Nemotron-Mini 4B Instruct для генерации ответов и RAG для контекстной информации.
NVIDIA утверждает, что разработчики могут создавать базы данных с контекстной информацией для своих проектов, генерировать релевантные ответы с низкой задержкой и управлять лицевой анимацией MetaHuman в Unreal Engine 5.
venturebeat.com
✔️ Black Forest Labs представила FLUX1.1 [pro] и API.
FLUX1.1 [pro] — новая модель генерации изображений, в ней шестикратно ускорен инференс по сравнению с предыдущей FLUX [pro], она получила улучшенное качество генераций и более точное соответствие промптам.
Новая модель доступна в сервисах: Together.ai, Replicate, Fal.ai, Freepik.com
FLUX1.0 [pro] тоже был обновлен и получил с двукратным ускорение генерации.
Новый бета-интерфейс BFL API предоставляет разработчикам и компаниям возможности FLUX. API предлагает расширенные настройки для адаптации выходных данных к конкретным потребностям, включая выбор модели, разрешение изображения и модерацию контента. Документация API.
blackforestlabs.ai
✔️ Panasonic разработала модель "Diffusion Contact Model" для управления роботами, выполняющими действия с большим количеством контактов.
Поскольку нехватка рабочей силы становится серьезной социальной проблемой во многих частях мира, использование промышленных роботов прогрессирует. Однако в сфере услуг, существует множество задач, которые связаны с контактом с людьми и объектами, но движения и силы, возникающие при контакте робота с человеком или объектом, чрезвычайно сложны и их трудно моделировать в среде симуляции.
Для достижения точной работы в этих ситуациях необходимо заранее провести множество пробных испытаний с использованием реальных действий. Для решения этой проблемы Panasonic HD разработала Diffusion Contact Model, которая использует "диффузионную модель", часто используемую при генерации изображений, для обучения роботов.
Diffusion Contact Model моделирует поэтапно усилие, прилагаемое при прикосновении робота к объекту, и может с высокой точностью предсказать усилие, прилагаемое при прикосновении робота к объекту.
Технология Diffusion Contact Model будет представлена на конференции в Абу-Даби 14 октября 2024 года.
Технический отчет на arxiv.
news.panasonic.com
✔️ Студенты деанонимизируют незнакомцев с помощью смарт-очков Meta и Instagram streams.
Два студента из Гарварда разработали систему под названием I-XRAY, которая объединяет технологии распознавания лиц, LLM и общедоступные данные, чтобы автоматически получать информацию о людях: имя, профессию и адрес.
Facebook View, приложение, которое поставляется в комплекте с умными очками и подчеркивает ответственность пользователей за соблюдение законодательства о конфиденциальности является явно недостаточной мерой.
engadget.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 От LLM к VLM: как обучали новый Нейро.
🟢Яндекс добавил в Нейро новую мультимодальную нейросеть VLM для улучшения поиска по картинкам. Теперь пользователи смогут не только узнать, что изображено на картинке, но и задать вопрос по каждой её детали.
🟢В своей статье на Хабре ML-разработчик Яндекса Роман Исаченко подробно рассказывает об обучении и внедрении VLM и сравнивает пайплайн для предыдущей LLM-версии Нейро с новой. Старая версия использовала отдельные LLM для рефразирования и генерации, в то время как новая интегрирует VLM-рефразер и VLM-captioner.
🟢Яндекс рассматривает VLM как новую стадию развития компьютерного зрения. Модель способна решать множество стандартных задач «из коробки», а с небольшим дообучением достигает state-of-the-art качества в различных сценариях.
🟡VLM в Нейро
@ai_machinelearning_big_data
#AI #ML #LLM
🌟 Малые языковые модели: обзор, измерения и выводы.
Исследование, проведенное Университетом Кембриджа, Пекинским университетом почты и телекоммуникаций о малых языковых моделях, опубликованных в открытом доступе в период с 2022-2024 гг.
Авторами были проанализированы 59 современных открытых SLM, их архитектуру, используемые наборы данных для обучения и алгоритмы. Целевая группа состояла из моделей с 100M–5B параметрами, построенных на архитектуре декодера-трансформера, которые подходят для устройств от носимых гаджетов до смартфонов и планшетов.
Выводы, к которым пришли авторы:
Архитектура SLM
🟢Наблюдается переход от Multi-Head Attention (MHA) к Group-Query Attention (GQA) для повышения эффективности.
🟢Gated FFN с активацией SiLU и промежуточным соотношением 2-8 становится все более популярным выбором.
🟢Большинство моделей используют RMS-нормализацию и размер словаря более 50 тыс. токенов.
🟢Инновации в архитектуре пока ограничены.
Наборы данных для обучения
🟢The Pile был наиболее часто используемым набором данных, но в последнее время выбор стал более разнообразным, все чаще используются RefinedWeb и RedPajama.
🟢Современные SLM обучаются на значительно большем количестве токенов (обычно >1.5T), чем предполагает закон Chinchilla, что указывает на их «переобучение» для повышения производительности на устройствах с ограниченными ресурсами.
Алгоритмы обучения
🟠Чаще используются новые методы: Maximal Update Parameterization (µP), Knowledge Distillation и Two Stage Pre-training Strategy для повышения стабильности обучения и эффективности переноса знаний.
Возможности SLM
🟠За период с 2022 по 2024 год SLM показали значительное повышение производительности в разных задачах обработки естественного языка, превзойдя серию LLM LLaMA-7B.
🟠Семейство моделей Phi имеет самые высокие показатели точности, соперничая с LLaMA 3.1 8B.
🟠SLM, обученные на общедоступных датасетах, сокращают разрыв с моделями, обученными на закрытых данных, в задачах, связанных со здравым смыслом.
Контекстное обучение
🟢Большинство SLM обладают способностью к контекстному обучению, хотя она зависит от задачи.
🟢Более крупные модели из SLM более восприимчивы к контекстному обучению.
Latency и потребление VRAM
🟢Помимо размера модели, на задержку влияет и архитектура: количество слоев, ширина FFN, размер словаря и совместное использование параметров.
🟢Влияние архитектуры модели на скорость вывода более значительно на этапе предварительной обработки (prefill), чем на этапе декодирования.
🟢Использование памяти во время выполнения обычно линейно коррелирует с количеством параметров модели.
Влияние квантования и оборудования
🟠Преимущества квантования на этапе декодирования больше, чем на этапе предварительной обработки.
🟠Графические процессоры демонстрируют еще большее преимущество перед центральными процессорами на этапе предварительной обработки.
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #SLM #Paper #Arxiv
✔️ OpenAI сделала 4 крупных анонса на DevDay 2024.
На конференции DevDay OpenAI представила четыре ключевых инновации: Vision Fine-Tuning, Realtime API, Model Distillation и Prompt Caching.
Prompt Caching : функция снижает затраты за счет применения 50% скидки на входные токены, которые модель недавно обработала.
Vision Fine-Tuning : позволит разработчикам настраивать возможности визуального восприятия GPT-4o, используя изображения и текст.
Realtime API : находится в стадии публичного бета-тестирования и предлагает мультимодальный доступ с низкой задержкой, особенно в задачах преобразования речи.
Model Distillation : упрощает тонкую настройку небольших моделей с использованием результатов более крупных, делая обучение более доступным.
openai.com
✔️ Google представила новые функции ИИ в ChromeOS и анонсировала две новые модели Chromebook.
С этого месяца все Chromebook будут оснащены функцией «чат с Gemini», а Chromebook Plus получат новые функции Google AI: «Помоги мне читать», «Живой перевод» и улучшения звука.
Samsung Galaxy Chromebook Plus — тонкий Chromebook, с 8 Гб RAM, Intel Core 3 100U, 256 Гб SSD и 15,6-дюймовый экран, 13 часов автономной работы.
Lenovo Chromebook Duet — 11-дюймовый Chromebook, который превращается в планшет для заметок с помощью встроенной подставки и пера USI Pen 2. Он оснащен процессором MediaTek Kompanio 838, до 8 Гб RAM и 128 Гб хранилищем.
siliconangle.com
✔️ Microsoft внедряет ИИ в Paint и приложение «Фотографии».
Microsoft добавит в Paint и «Фотографии» новые функции на базе ИИ для пользователей ПК с Copilot Plus - "генеративное заполнение" и "генеративное стирание".
Генеративное стирание удаляет ненужные фигуры и объекты аналогично функции «Волшебный ластик» на телефонах Google Pixel.
Генеративное заполнение позволяет добавлять сгенерированные ИИ объекты на изображение, используя текстовое описание.
В приложении «Фотографии» также появится генеративное стирание и новая функция сверхвысокого разрешения. Пользователи смогут увеличивать изображения до 8х с регулировкой уровня масштабирования, это больше чем в Adobe Lightroom (4x).
Функция бесплатна и работает быстро, масштабируя изображения «до 4K за считанные секунды» (с).
theverge.com
✔️ Ядерный микрореактор компании Westinghouse может стать источником энергии для будущих ЦОД с ИИ.
Westinghouse Electric представила Предварительный отчет по безопасности проекта для микрореактора eVinci в Национальный центр инноваций в области реакторов при Министерстве энергетики США, это стало важной вехой в процессе, начатом в октябре прошлого года. Америка в значительной степени отказалась от ядерной энергетики после аварии на Три-Майл-Айленде в 1979 году, но она возвращается благодаря астрономическим потребностям в энергии (и охлаждении) современных моделей ИИ.
eVinci работает «как аккумулятор», в нем используется очень мало движущихся частей, он полагается на «первую в мире 4-метровую тепловую трубу ядерного класса» для передачи тепла.
Помимо обеспечения электроэнергией объектов и установок, реактор может генерировать высокотемпературное тепло для производства водородного топлива. Каждый реакторный блок рассчитан на круглосуточную работу в течение восьми лет. Когда реактор выработает все свое топливо, Westinghouse заменит его на другой герметичный реактор.
digitaltrends.com
✔️ Суд в Германии вынес решение против фотографа, подавшего в суд на LAION за нарушение авторских прав.
В апреле 2023 года фотограф Роберт Кнешке обнаружил свои фотографии в датасете LAION, используемом для обучения ИИ. Кнешке потребовал удалить свои фотографии, но LAION отрицала хранение копий, утверждая, что ведет базу данных ссылок на открытые изображения.
Региональный суд Гамбурга постановил, что LAION воспользовалась исключением из нарушения авторских прав. Суд заявил, что набор данных LAION некоммерческий и предназначен для научных исследований. Тот факт, что данные могут быть использованы коммерческими компаниями для обучения систем ИИ, не имеет значения.
petapixel.com
@ai_machinelearning_big_data
#news #ai #ml
OpenCV: как начать работать с компьютерным зрением
Ждем вас на открытом вебинаре 10 октября в 20:00 мск, где мы разберем:
- как работать с библиотекой opencv-python;
- как осуществлять обработку изображений классическими алгоритмами;
- принципы работы с видеопотоком в OpenCV.
Урок для начинающих и продвинутых разработчиков компьютерного зрения.
Встречаемся в преддверии старта курса «Компьютерное зрение». Все участники вебинара получат специальную цену на обучение!
Регистрируйтесь прямо сейчас, чтобы не пропустить мероприятие: https://otus.pw/gvN1/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ", ИНН: 9705100963
🌟 VPTQ: экстремальное квантование векторов LLM с низким битрейтом от Microsoft.
Vector Post-Training Quantization (VPTQ) - экспериментальный метод, который использует векторное квантование LLM c сохранением высокой точности при сверхнизкой битовой ширине (<2 бит).
🔥 VPTQ позволяет сжать 70B до 1-2 бит без переобучения и запустить ее на потребительской 4090.
VPTQ использует технику оптимизации второго порядка для векторного квантования в LLM. Ключевым алгоритмом VPTQ является "Channel-Independent Second-Order Optimization" - квантование каждого столбца матрицы весов независимо и использование взвешенной по матрице Гессе инициализации центроидов.
Оптимизация в VPTQ состоит из применения взвешенных К-средних для центроидов, остаточного векторного квантования (RVQ) в качестве балансировщика ошибки и исключения выбросов в весах для повышения точности .
Эксперименты на моделях LLaMA-2, LLaMA-3 и Mistral-7B показали, что в сравнении с существующими методами, VPTQ обеспечивает сопоставимую или более высокую точность при 2-битном квантовании, уменьшая перплексию
на 0.01-0.34, 0.38-0.68 и 4.41-7.34
соответственно.
🏸 VPTQ отличается низкими вычислительными затратами процесса квантования (10.4-18.6% от времени аналогичных алгоритмов) и высокой пропускной способностью при инференсе (в 1.6-1.8 раза выше, чем у SOTA)
В сообществе VPTQ на Huggingface выложена 41 модель в разрядностях VPTQ-квантования от 1.375 до 4 bits:
🟢Llama 3.1 Instruct (8B, 70B и 405B);
🟢Qwen 2.5 Instruct (7B, 14B и 72B) .
Посчитать битность и размер модели по названию на примере Meta-Llama-3.1-70B-Instruct-v8-k65536-256-woft
:
🟢v8 - длина вектора, равная 8
🟢k65536 - количество центроидов (2^16)
🟢256 - количество остаточных центроидов (2^8)
🟠woft - маркировка without finetune, в расчете не участвует.
Расчет итоговой битности: индекс: log2(65536) = 16 / 8 = 2 bits, остаточный индекс: log2(256) = 8 / 8 = 1 bit, итоговое значение 2 bits+1 bit, = 3 bits.
Расчет размера модели (без учета codebook): 70B * 3 bits / 8 bits = 26.25 GB.
▶️Локальная установка и примеры инференса в разных режимах:
# Set up CUDA PATH:
export PATH=/usr/local/cuda-12/bin/:$PATH
# Clone repo:
pip install git+https://github.com/microsoft/VPTQ.git --no-build-isolation
# Simple generation:
python -m vptq --model=VPTQ-community/Meta-Llama-3.1-70B-Instruct-v8-k65536-0-woft --prompt="..."
# Chatbot example:
python -m vptq --model=VPTQ-community/Meta-Llama-3.1-70B-Instruct-v8-k65536-0-woft --chat
# Gradio Web App
python -m vptq.app
🌟 LeLaN: метод обучения политики навигации для роботов с помощью видео из реальной среды.
LeLaN - метод, использующий модели Owl-ViT2 и OpenVLA для маркировки видеоданных из реальной среды с помощью языковых инструкций для навигации по объектам.
Политика навигации по объектам, обученная на этих данных, показала высокие результаты в задаче навигации по незнакомым объектам в разных условиях: внутри и снаружи помещений.
LeLaN использует аннотации VLM для маркировки видеоданных из различных источников: наборы данных о навигации роботов, видеоролики с экскурсиями с YouTube и данные из носимых видеорегистраторов. Эти аннотации предоставляют инструкции, охватывающие широкий спектр объектов с разной степенью детализации в их описаниях.
В процессе обучения политика навигации оптимизируется по трем направлениям:
🟢достижение целевого объекта;
🟢предотвращение столкновений;
🟢плавность скорости.
После обучения LeLaN была проведена серия экспериментов из более 1000 испытаний, проведенных в реальных условиях.
Результаты показывают, что LeLaN превосходит существующие методы zero-shot политик навигации по способности ориентироваться в различных средах, надежности в условиях нечетких команд, способности следовать за пешеходами и навыке избегать столкновений.
Код, предлагаемый в репозитории LeLaN, разбит на две части: обучение модели на собственных данных и локальное развертывание с предварительно обученными моделями LeLaN на роботизированной платформе с NVIDIA Jetson Orin.
▶️Локальная установка и запуск обучения:
# Clone repository:
git clone https://github.com/NHirose/learning-language-navigation.git
# Set up the conda env:
conda env create -f train/train_lelan.yml
conda activate lelan
# Install the lelan packages:
pip install -e train/
# Install the `diffusion_policy` package:
git clone git@github.com:real-stanford/diffusion_policy.git
pip install -e diffusion_policy/
# Training lelan w/o collision avoidance
python train.py -c ./config/lelan.yaml
📌Подборка фреймворков для локального инференса на устройствах.
Всего полтора года назад казалось, что запустить локально языковую или генеративную модель было чем-то из области фантастики, доступной немногим. Тогда было всего несколько самописных вариантов вариантов, и каждый из них требовал знаний, усилий и ресурсов.
Но время шло, и сфера фреймворков для инференса начала развиваться с невероятной скоростью. Появились новые фреймворки и инструменты, библиотеки, интерфейсы для запуска любых моделей на чем угодно.
Сегодня мы имеем десятки вариантов для инференса LLM, от простых и удобных фреймворков до сложных и требовательных систем. Выбор стал настолько широким, что теперь можно подобрать инструмент под конкретную задачу.
Это настоящая революция, которую мы не замечаем, и она происходит прямо на наших глазах. Интересно будет посмотреть. во что это выльется еще через полтора года.
🟠llama.cpp
Проект, написаный на С++, позволяет запускать LLM, VLM, MMLM на СUDA, AMD, NPU, Metal. Наиболее распространенные реализации - ollama и LMStudio.
🟠MLC
Развертывание LLM на WebGPU. Самая быстрая реализация LLM на WebGPU из существующих на сегодняшний день.
🟠MLX
Самый быстрый фреймворк для Mac. Поддерживает GenAI (Flux, SDXL и др.), speech-2-text (Whisper), LLM.
🟠Candle
Минималистичный кроссплатформенный ML-фреймворк от Huggingface, написанный на Rust. Поддерживает работу с GPU и прост в использовании.
🟠Transformers.js
Фреймворк для запуска моделей напрямую в браузере, без сервера. Написан на Javascript (WebGPU) поверх ONNXruntimeweb.
🟠Ratchet
Кроссплатформенный инструментарий от Huggingface для WebGPU/CPU инференса с поддержкой запуска квантованных версий моделей Whisper, Phi 2 & 3 и Moondream. Написан на Rust.
🟠zml
Кросплатформенный фреймворк с возможностью распределенного запуска модели на разных платформах (CUDA, ROCm и Cloud). Написан на Zig.
🟠gpu.cpp
Простой и эффективный фреймворк для работы с GPU на C++. Работает с CUDA, AMD, Intel GPU, Metal за счет WebGPU.
@ai_machinelearning_big_data
#AI #ML #LLM #Frameworks
✔️ Inflection AI сотрудничает с Intel в создании нового устройства LLM.
Устройство будет построено на базе аппаратного ускорителя машинного обучения Intel Gaudi 3 и будет работать под управлением Inflection 3.0, новейшей LLM от Inflection AI. Inflection 3.0 будет доступна в двух версиях: одна для чат-ботов, а другая — для задач, требующих точного следования инструкциям пользователя.
Последняя также сможет предоставлять ответы в формате JSON, для расширения возможностей интеграции с другими приложениями.
По заявлению Inflection AI, их ПО на процессорах Intel может работать вдвое эффективнее, чем на процессорах некоторых конкурентов. Выпуск устройства запланирован на первый квартал 2025 года.
siliconangle.com
✔️ Hearst и OpenAI заключили партнерство в сфере контента.
Издательский дом Hearst объявил о новом партнерстве с компанией OpenAI, в рамках которого контент газет и журналов Hearst будет интегрирован в продукты OpenAI. Соглашение охватывает более 20 журналов: Esquire, Cosmopolitan, ELLE и Runner’s World и более 40 газет.
Интеграция контента Hearst в продукты OpenAI позволит пользователям ChatGPT получать более широкий спектр информации: местные новости, мода, дизайн, здоровье, фитнес и автомобили.
Контент Hearst в ChatGPT будет сопровождаться соответствующими ссылками на оригинальные источники. Цель партнерства — повысить достоверность информации в продуктах OpenAI и обеспечить доступ к высококачественной журналистике.
openai.com
✔️ США инвестирует в разработку новых материалов для производства чипов с помощью ИИ.
Министерство торговли США объявило конкурс с бюджетом до 100 миллионов долларов на разработку экологически чистых материалов и процессов для производства полупроводников с использованием ИИ.
Проект направлен на сокращение времени и ресурсов для создания новых материалов и фокусируется на AI/AE, объединяющем машинное обучение и автоматизированные лаборатории.
Внедрение AI/AE ускорит поиск и синтез материалов не только в полупроводниковой промышленности, но и в других областях, - энергетике, аэрокосмической и оборонной промышленности, биологии, химии и фармацевтики.
asiatimes.com
✔️ Baidu запускает Baige 4.0 для повышения эффективности кластеров GPU и платформу Qianfan 3.0.
Baige 4.0 контролирует кластеры GPU, автоматически обнаруживая сбои и перенося рабочие нагрузки для предотвращения простоев. С его применением эффективность обучения LLM достигла 99,5%, что на 30% выше средних показателей по отрасли благодаря улучшениям в проектировании кластеров, планировании заданий и оптимизации VRAM. Платформа поддерживает кластеры до 100 000 графических процессоров.
Baidu также обновила платформу Qianfan Foundation Model до версии 3.0, обеспечивая доступ к почти 100 крупным моделям, включая ERNIE, и снизилая стоимость инференса моделей более чем на 90%.
analyticsindiamag.com
✔️ Adobe запускает веб-приложение для защиты авторов от нежелательного использования их работ в сфере ИИ.
Веб-приложение Content Authenticity, выход бета-версии которого запланирован на первый квартал 2025 года, позволит помечать изображения, видео и аудиофайлы атрибутивными метаданными: имя автора, веб-сайт и страницы в социальных сетях.
Ключевой особенностью приложения является возможность запретить использование контента для обучения генеративных моделей ИИ. Метаданные, добавляемые приложением, будет сложно удалить, и они должны сохраняться даже на скриншотах. Приложение Content Authenticity станет ответом на опасения авторов по поводу несанкционированного использования их работ.
adobe.com
@ai_machinelearning_big_data
#news #ai #ml
Финал ИТ-чемпионата и шоу роботов для зрителей
8 ноября состоится True Tech Champ — масштабный ИТ-ивент от МТС.
Центральным событием станет шоу «Гонка роботов» — финальный этап чемпионата для программистов. Команды на глазах у зрителей оживят робомышей с помощью алгоритмов, чтобы провести их по запутанным лабиринтам. На пути к цели им будут мешать вспышки света, дым и другие спецэффекты. Приходи и стань свидетелем шоу роботов.
Гости события также смогут «погонять» робомышей по тренировочным лабиринтам на развлекательной локации. Для участия не обязательно писать код — заезды будут проходить с пультами управления.
Помимо гонки роботов гостей ждут интерактивный лекторий, нестандартные активности и фестиваль технологий и выступления музыкальных хедлайнеров.
Участие бесплатное. Успей зарегистрироваться по ссылке.
🌟 Ctrl-X: генерация T2I по структурным и визуальным референсам без необходимости обучения.
trl-X - метод, который позволяет управлять структурой и внешним видом изображений, создаваемых диффузионными моделями без необходимости дополнительного обучения или использования инструкций.
Ctrl-X предлагает управляемую генерацию, разделяя ее на две основные составляющие: сохранение пространственной структуры и семантически-осведомленный перенос стиля.
Для управления структурой используется прямая инъекция признаков сверточных слоев и карт внимания из входного изображения, который задает структуру.
Для переноса внешнего вида c входного источника применяется метод, основанный на статистике признаков, который учитывает пространственное соответствие между исходным и генерируемым изображениями.
Анализ карт внимания позволяет выявить семантические соответствия между ними и перенести стилистические характеристики с учетом их пространственного расположения.
Метод Ctrl-X не привязан к конкретным моделям и может применяться к любым диффузионным моделям T2I (текст-изображение) и T2V (текст-видео).
Программная реализация Ctrl-X на модели Stable Diffusion XL 1.0 поддерживает запуск с Gradio UI и инференс в CLI.
В обоих типах запуска Ctrl-X (Gradio и CLI) предусмотрена возможность оптимизации потребления VRAM : ключи запуска cpu_offload
и disable_refiner
.
Примерная утилизация VRAM для Gradio с использованием оптимизации выглядит следующим образом:
🟠no flags - 19 GB VRAM;
🟢cpu_offload - 13GB VRAM;
🟠disable_refiner - 15GB VRAM;
🟢cpu_offload + disable_refiner - 8 GB VRAM.
▶️Установка и запуск с Gradio или CLI:
# Clone the repository
git clone https://github.com/genforce/ctrl-x.git
# Create Conda environment
conda env create -f environment.yaml
conda activate ctrlx
# Run Gradio Demo
python app_ctrlx.py
# or run CLI inference
python run_ctrlx.py \
--structure_image assets/images/horse__point_cloud.jpg \
--appearance_image assets/images/horse.jpg \
--prompt "a photo of a horse standing on grass" \
--structure_prompt "a 3D point cloud of a horse"
⚡️ Apple Depth Pro: Карта глубина с расчетом фокусного расстояния менее чем за секунду.
Depth Pro - базовая модель для метрической монокулярной оценки глубины по по одному изображению в режиме zero-shot. Она позволяет синтезировать Hi-Res карты глубины с высокой точностью определения границ объектов, воспроизводя их форму, расположение и абсолютный масштаб без использования метаданных камеры.
Архитектура модели основана на применении энкодеров ViT к фрагментам изображения, извлеченным в нескольких масштабах.
Используются два кодировщика ViT: фрагментный энкодер, обрабатывающий блоки изображения для изучения масштабно-инвариантных представлений и энкодер изображения, фиксирующий предсказания в глобальном контексте.
Модель работает с фиксированным разрешением 1536x1536 пикселей, а каждый из модулей ViT - 384x384 пикселей.
Для обучения используются 5 целевых функций (LMAE, LMSE, LMAGE, LMALE и LMSGE ) на основе канонической обратной глубины и применяется двухэтапный план обучения. Набор данных состоит из 43 датасетов.
Первый этап учит обобщающим признакам, основанным на смеси реальных и синтетических данных, а второй — повышению резкости границ на синтетических данных с точной информацией о глубине.
Модель показала высокую точность на различных наборах данных (Booster, ETH3D, Middlebury, nuScenes, Sintel и Sun-RGBD91011) .
Depth Pro превзошла другие методы по точности оценки фокусного расстояния на наборах данных DDDP, FiveK, PPR10K, RAISE, SPAQ и ZOOM.
Скорость инференса, замеренная в тестировании - 0,3 секунды на генерацию карты глубины 2,25-мегапиксельного изображения.
▶️ Локальная установка и инференс в CLI или Python:
# setting up a venv:
conda create -n depth-pro -y python=3.9
conda activate depth-pro
pip install -e .
# Download pretrained checkpoints:
source get_pretrained_models.sh
# Run the inference from CLI on a single image:
depth-pro-run -i ./data/example.jpg
# Running from python
from PIL import Image
import depth_pro
model, transform = depth_pro.create_model_and_transforms()
model.eval()
image, _, f_px = depth_pro.load_rgb(image_path)
image = transform(image)
prediction = model.infer(image, f_px=f_px)
depth = prediction["depth"] # Depth in [m].
focallength_px = prediction["focallength_px"] # Focal length in pixels.
🌟 AMD GPU Inference: CLI-инференс LLM на AMD.
Проект на Github, который предлагает запуск LLM на графических ускорителях AMD с помощью Docker-контейнера. Образ разработан для работы с моделями из Hugging Face, в первую очередь с семейством моделей LLama.
Для запуска необходимо иметь GPU AMD с поддержкой ROCm (версии 5.4.2 и выше) и установленный Docker.
Для адаптации логики инференса под свои нужды, внесите соответствующие изменения в файл run_inference.py
с последующей пересборкой Docker-образа.
В проекте предусмотрен файл Aptfile
, содержащий список необходимых пакетов ROCm (rocm-dev, rocm-libs, rocm-cmake, miopen-hip и rocblas) , устанавливаемых в Docker-контейнере.
▶️Локальная установка и инференс:
# Clone repo:
git clone https://github.com/yourusername/amd-gpu-inference.git
cd amd-gpu-inference
# Make the run script executable:
chmod +x run-docker-amd.sh
# Run the inference engine with a specified model and prompt:
# Replace "meta-llama/Llama-2-7b-chat-hf" with the HF model you want to use, and provide your own prompt
./run-docker-amd.sh "meta-llama/Llama-2-7b-chat-hf" "Prompt"
🌟 ASR и диаризация речи от RevAI.
RevAI, лидер в области профессиональной транскрипции английской речи выпустила в открытый доступ фреймdорк Reverb и набор моделей для построения конвейера speech-to-text.
Reverb включает в себя: модель ASR на базе WeNet и 2 версии модели диаризации речи. Весь паплайн Reverb можно запускать как на CPU, так и на GPU.
Reverb ASR обучалась на 200 000 часов английской речи, профессионально транскрибированной людьми — это самый большой корпус транскрибированной человеком речи, когда-либо использовавшийся для обучения модели с открытым исходным кодом.
Она позволяет контролировать уровень дословности выходного транскрипта для создания чистого, удобочитаемого текста и справляется с обработкой аудио, требующего транскрипции каждого произнесенного слова, включая запинания и перефразирования.
Reverb ASR использует совместную архитектуру CTC/attention и поддерживает несколько режимов декодирования. Указать один или несколько режимов можно в recognize_wav.py
. Для каждого режима будут созданы отдельные выходные каталоги. Варианты декодирования:
🟢attention;
🟢ctc_greedy_search;
🟢ctc_prefix_beam_search;
🟢attention_rescoring;
🟢joint_decoding.
В оценке Reverb ASR использовались три корпуса длинных аудиозаписей: Rev16 (подкасты), Earnings21 и Earnings22 (телефонные разговоры).
Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм, особенно в Earnings22, где в основном речь носителей английского языка не как родного.
Для традиционного бенчмаркинга использовался GigaSpeech, Reverb ASR запускался в дословном режиме на скриптах оценки Hugging Face Open ASR Leaderboard. По их результатам Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм.
Reverb diarization v1 использует архитектуру pyannote 3.0 и имеет 2 слоя LSTM со скрытым размером 256, всего около 2,2 млн параметров, а Reverb diarization v2 использует WavLM вместо функций SincNet в базовой модели pyannote 3.0.
Обе модели диаризации прошли донастройку на 26 000 часах данных с экспертной разметкой.
▶️Локальное использование предусматривает несколько вариантов: установка с anaconda, использование Docker-образа и масштабное развертывание.
⚠️ Для локальной установки понадобится Huggingface API KEY
🟡Набор моделей
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #ASR #Diarization #REVAI
Игнорирование больших данных и нейросетей сегодня — почти гарантия провала. Именно поэтому стоит начать погружение в востребованную сферу Data Science и понять, чем занимаются специалисты по машинному обучению и анализу данных. За 5 дней вы узнаете, как работают нейросети, и создадите свою для поиска новостей.
📌 Зарегистрируйтесь прямо сейчас и получите эксклюзивный бонус — гайд «Как пользоваться ChatGPT и Midjourney + 25 полезных нейросетей»: https://epic.st/Frfie?erid=2Vtzqws7wUt
Что будем делать на мини-курсе:
— Узнаем, где востребована наука о данных, и разберёмся в различиях 3 основных направлений
— Освоим азы языка Python и визуализируем данные с его помощью
— Изучим базовые конструкции языка SQL
🎁 Вас ждут подарки:
— Год бесплатного изучения английского языка
— Персональная карьерная консультация
— 5 полезных чек-листов для старта карьеры
🎉 Все участники мини-курса получат сертификат на скидку 10 000 рублей на любой курс Skillbox.
Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880
🌟 Model2Vec: создание компактных и быстрых моделей на основе Sentence Transformer.
Model2Vec - библиотека для создания компактных и быстрых моделей на основе предобученных Sentence Transformer моделей.
Model2Vec позволяет создавать эмбединг-модели слов и предложений, которые значительно меньше по размеру, но при этом сопоставимы по производительности с исходными Sentence Transformer моделями.
Отличительные особенности:
🟢быстрая дистилляция, процесс создания модели занимает несколько минут;
🟢быстрый инференс, в 500 раз быстрее на CPU относительно родительской модели;
🟢BYOM и BYOV, можно использовать на любой Sentence Transformer модели с любым словарем;
🟢мультиязычность, все что нужно - только мультиязычная модель в качестве источника;
🟢интеграция с Huggingface, загрузка\выгрузка моделей привычными from_pretrained
и push_to_hub
.
Пайплайн Model2Vec трехэтапный. На первом этапе словарь пропускается через модель Sentence Transformer для получения векторов эмбедингов для каждого слова.
Далее, размерность полученных эмбеддингов сокращается с помощью метода главных компонент (PCA). Наконец, применяется zipf-взвешивание для учета частотности слов в словаре.
Model2Vec работает в двух режимах:
🟠Output, в котором модель работает подобно Sentence Transformer, используя subword токенизацию;
🟠Vocab, в котором создается набор статических эмбедингов слов, аналогично GloVe или Word2Vec.
Оценку производительности Model2Vec делали на наборе данных MTEB на задачах PEARL (оценка качества представления фраз) и WordSim (оценка семантической близости слов).
Результаты показывают, что Model2Vec превосходит по производительности GloVe и модели, основанные на WordLlama по всем задачам оценки.
▶️Пример дистилляции:
from model2vec.distill import distill
# Choose a Sentence Transformer model
model_name = "BAAI/bge-base-en-v1.5"
# Distill the model
m2v_model = distill(model_name=model_name, pca_dims=256)
# Save the model
m2v_model.save_pretrained("m2v_model")
from model2vec import StaticModel
# Load a model from the HuggingFace hub, or a local one.
model_name = "minishlab/M2V_base_output"
# You can optionally pass a token if you're loading a private model
model = StaticModel.from_pretrained(model_name, token=None)
# Make embeddings
embeddings = model.encode(["It's dangerous to go alone!", "It's a secret to everybody."])
Зачем тестировать торговую стратегию?
✅ Разберемся в теме на практическом уроке — Тестирование торговых стратегий с помощью инструмента Backtrading
Урок посвящен курсу «ML для финансового анализа» по окончанию которого вы создадите торгового робота для автоматического проведения операций с оценкой уровня риска
Регистрация на урок 👇
https://otus.pw/zVM8/?erid=LjN8KEAnj
#реклама
О рекламодателе
Word2Vec — классика векторных представлений слов для решения задач текстовой обработки
Приглашаем на практический эфир с преподавателем ВШЭ Марией Тихоновой
✅ Изучение и практика: Векторные представления слов; алгоритм word2vec
Урок посвящен курсу «Machine Learning. Professional» по окончанию которого вы сможете претендовать на Junior+ и Middle позиции Data Scientist
👇 Регистрация на урок:
https://otus.pw/zjNx/?erid=LjN8KQawq
#реклама
О рекламодателе
🌟 SAM 2.1 Developer Suite: очень небольшое обновление.
Segment Anything Model (SAM) - это набор базовых моделей, которые позволяют автоматически сегментировать любые объекты, независимо от их формы, размера и расположения на изображении и видео.
Meta без официального пресс-релиза обновила модели SAM до версии 2.1. Обновление минорное :
🟢повышена точность идентификации на изображении (визуальное отделение от фона) ~ 1.5 % по сравнению с SAM2
🟢увеличена точность сегментации нескольких объектов на изображении ~ 2% от SAM2
🟢повышено качество сегментации объектов во времени для видео ~ 2% от SAM2.
Набор моделей: tiny, small, base_plus и large остался прежним, как и их размеры и производительность.
⚠️ Чтобы использовать новые модели SAM 2.1, необходима последняя версия кода из репозитория. Если установлена более ранняя версия, ее необходимо сначала удалить с помощью pip uninstall SAM-2
.
▶️ Набор кода для самостоятельного обучения базовой модели с подробной инструкцией можно найти в разделе training репозитория SAM2. Все необходимые изменения в связи с обновлением до версии 2.1 внесены.
▶️Подробная инструкция по запуску локальной установки с web-интерфейсом в разделе demo репозитория. Backend - Docker, frontend - yarn.
Демо-ноутбуки для запуска в Google Collab:
🟠автоматическое создание масок объектов;
🟠маскирование объектов по текстовому промпту;
🟠интерактивная сегментация на видео.
📌Лицензирование : Apache 2.0 License.
🟡Коллекция моделей на HF
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #SAM2 #META #Segmentation #CV
✔️ Microsoft предлагает новую систему категоризации для LLM-систем, которые используют внешние данные.
Система классифицирует задачи по типу необходимых внешних данных и сложности рассуждений и выделяет четыре уровня: явные факты, неявные факты, интерпретируемые обоснования и скрытые обоснования.
Явные факты — это когда нужно просто взять информацию из данных. Неявные — когда нужно подумать и сделать вывод. Интерпретируемые обоснования — это когда нужно понять суть и использовать правила или принципы из внешних источников. Скрытые обоснования — это когда нужно найти и использовать неявные способы рассуждения.
venturebeat.com
✔️ Еврокомиссия назначила 13 экспертов для разработки Кодекса в области ИИ.
Этот кодекс предоставит разработчикам GPAI четкие рекомендации по соблюдению требований Закона ЕС об ИИ, который вступил в силу в прошлом месяце и вводит строгие правила для поставщиков моделей GPAI в августе 2025 года.
Кодекс должен быть разработан к апрелю 2025 года и будет включать прозрачность, правила авторского права, таксономию системных рисков, оценку рисков и меры по их снижению.
Сегодня состоялось первое онлайн-заседание с участием около 1000 человек, включая поставщиков моделей GPAI, представителей промышленности, гражданского общества, научных кругов и независимых экспертов
euronews.com
✔️ Отчет об исследовании возможностей OpenAI o1-preview: 280-страничный PDF.
Международная группа ученых оценила производительность модели o1-preview от OpenAI на задачах, требующих сложных рассуждений в областях: информатика, математика, естественные науки, медицина, лингвистика и социальные науки. Модель продемонстрировала высокую эффективность, сравнимую с человеком, и в некоторых случаях превосходящую его.
o1-preview показала отличные результаты в генерации кода, составлении рентгенологических заключений, планировании команд для роботов, количественном инвестировании, переводе на малые языки, образовательных вопросах и ответах, улучшении студенческих работ, создании 3D-макетов, разработке чипов, логическом мышлении, анализе медицинских данных, анализе социальных сетей, аналогическом мышлении и других задачах.
arxiv.org
✔️ Microsoft Research представляет Data Formulator: инструмент на базе ИИ для создания визуализаций данных.
Data Formulator позволяет создавать диаграммы с нуля или выбирать из шаблонов, используя “нити данных”. LLM обрабатывает ввод, генерируя код для создания визуализации и обновляя “нити данных”. Они позволяют просматривать и изменять ранее созданные диаграммы, упрощая редактирование и уточнение благодаря адаптации кода к новым контекстам.
Архитектура Data Formulator отделяет преобразование данных от конфигурации диаграммы, улучшая пользовательский опыт и производительность ИИ. Система генерирует скрипт Vega-Lite на основе спецификаций пользователя, определяющий визуализацию, инструкции ИИ для преобразования данных и создание диаграммы.
microsoft.com
✔️ ИИ учится видеть лица там, где их нет.
Ученые из MIT (CSAIL) создали базу данных из 5000 изображений с парейдолическими лицами для изучения восприятия иллюзорных образов людьми и ИИ. База превосходит предыдущие коллекции по размеру и поможет глубже изучить феномен парейдолии — способности видеть лица и фигуры в случайных объектах.
Для создания "Faces in Things" отобрали около 20 000 изображений из набора данных LAION-5B, размеченных и оцененных людьми. Аннотаторы обводили воспринимаемые лица и отвечали на подробные вопросы о каждом лице: эмоция, возраст, случайность.
Анализ базы данных выявил "Goldilocks Zone of Pareidolia" — класс изображений с определенной визуальной сложностью, где вероятность увидеть лицо высока для людей и ИИ.
Модели ИИ не распознавали парейдолические лица как люди, пока их не обучили распознавать морды животных. Это подтверждает возможную эволюционную связь между способностью распознавать лица животных и склонностью видеть лица в неодушевленных предметах.
news.mit.edu
@ai_machinelearning_big_data
#news #ai #ml
➕ Machine Learning: Медицинский дайджест за период 22.09 - 29.09 2024 года
📌 Модели машинного обучения и бенчмарки
🟩 DREAMS: Фреймворк для создания моделей анализа ЭЭГ.
DREAMS(Deep REport for AI ModelS) - фреймворк для создания прозрачных и интерпретируемых моделей глубокого обучения для анализа ЭЭГ. Он написан на Python и использует модульную архитектуру, включающую этапы предварительной обработки данных, обучения модели, оценки ее производительности и генерации отчета (карточки модели).
🟩 Uni-Med: унифицированная базовая модель для многозадачного обучения с помощью Connector-MoЕ.
Uni-Med - основа для создания универсальных медицинских моделей, способных выполнять различные задачи на основе одного архитектурного решения. Модель успешно справляется с медицинскими задачами: ответы на вопросы, генерацию описаний медицинских изображений, анализ рентгеновских снимков и классификацию изображений.
Uni-Med состоит из трех ключевых модулей: универсального экстрактора признаков изображения, коннектора на основе смеси экспертов (CMoE) и LLM.
🟩 LLM для диагностики психических расстройств по текстам из социальных сетей.
Результаты показали, что GPT-4 и Llama 3 демонстрируют высокую точность в задачах бинарной классификации, достигая 85% на некоторых наборах данных. Важную роль играет prompt engineering, позволяющий существенно улучшить результаты Mixtral 8x22b и Gemma 7b.
В задаче проверки знаний в области психиатрии более современные модели в целом превосходили более старые и большие аналоги (Llama 3.1 405b достигла точности 91.2%).
🟩MEDICONFUSION: оценка надежности медицинских MMLM.
MediConfusion — набор данных для оценки медицинских мультимодальных больших языковых моделей (MLLM), который продемонстрировал их уязвимость к визуально различным, но похожим с точки зрения ИИ изображениям.
Результаты тестов оказались тревожными: все протестированные модели MLLM, включая как общедоступные, так и коммерческие, показали точность ниже случайных догадок. Более того, модели часто выбирали один и тот же вариант ответа для обоих изображений в паре, что свидетельствует об их неспособности различать эти изображения.
🟩 AMPLIFY: протеиновая языковая модель (pLM) для предсказания свойств разработки новых белков.
🟩 SLaVA-CXR: автоматизации рентгенологических отчетов грудной клетки.
🟦 Экосистема цифровых двойников в онкологии.
Авторы платформы предлагают использовать несколько специализированных цифровых двойников: "Двойник медицинской необходимости", "Двойник координатора медицинской помощи" и "Двойник истории болезни", для оптимизации рабочего процесса и персонализации лечения каждого пациента на основе его уникальных данных.
🟦 Повышение безопасности медицинских ИИ-систем: интеграция Llama Guard и NeMo Guardrails.
🟦 InterMind: интерактивная система оценки депрессии с участием врача, пациента и семьи на основе LLM.
🟦 openCHA:фреймворк для чат-агентов на базе LLM.
💉≈ Исследования и обзоры
🟫 Потенциал использования GPT-о1 в медицине.
🟫 Непрерывное дообучение LLM для задач клинической медицины.
🟫 ИИ в брахитерапии: обзор методов и архитектур.
🟫 Поиск информации в электронных медицинских картах: Сравнение эмбединг-моделей и стратегий объединения.
🟫 Обучение специализированных медицинских LLM на основе моделей общего назначения: обзор данных, методологий и способов оценки.
🔥Полный дайджест
@ai_machinelearning_big_data