Дайджест новостей
⚛️ Google DeepMind представила новый подход под названием Parameter Efficient Expert Retrieval (PEER), который решает проблемы масштабирования трансформерных моделей.
PEER использует технику продуктовых ключей для эффективного извлечения информации из более чем миллиона крошечных экспертов. Он улучшает гранулярность моделей Mixture-of-Experts (MoE), что приводит к лучшему соотношению производительности и вычислительных затрат.
В экспериментах на различных наборах данных модели PEER достигли более низких показателей перплексии по сравнению с плотными и MoE моделями.
При бюджете FLOP 2e19 модели PEER достигли перплексии 16.34 на наборе данных C4, что ниже, чем 17.70 для плотных моделей и 16.88 для MoE моделей. Marktechpost.com
🤞OpenAI представила пятиуровневую дорожную карту AGI.
Уровни варьируются от чат-ботов, специалистов по рассуждению и агентов до новаторов и систем, которые могут выполнять работу целых организаций.
На сегодняшний день OpenAI близка к уровню 2 - ИИ, способному решать задачи на уровне человека с PhD. Компания планирует достичь этого в ближайшие 1,5 года с помощью улучшений семейства GPT. The-Decoder.com
🤝 Cтартап SmarterLicense помогает создателям отслеживать и лицензировать работы, используемые ИИ.
SmarterLicense представила платформу для лицензирования контента в эпоху ИИ. Ключевые особенности: глобальный охват, разнообразие активов, ИИ-подбор, блокчейн, гибкие условия.
Платформа упрощает лицензирование, делая его доступнее для бизнеса и частных лиц. Цель - ускорить инновации и сотрудничество в различных отраслях, революционизируя сферу лицензирования ИС. Businesswire.com
@ai_machinelearning_big_data
#news #digest
🌟 Vico — реализация методики, которая позволяет добиться большей точности в генерации композиционных видео.
Vico — это не требующий обучения фреймворк, который анализирует, как отдельные лексемы из входных токенов промпта влияют на генерируемое видео, и корректирует модель для предотвращения доминирования, учитывая все слова из промпта в равной степени.
Для этого Vico строит пространственно-временной граф внимания, при помощи которого оценивает и регулирует представление всех входных концепций в видео.
Vico может быть применен к множеству моделей для обогащения композиционной насыщенности и точности видео.
🖥 Локальный запуск инференса без UI (с Videocrafterv2)
git clone https
:
//
github
.
com
/
Adamdad
/
vico
.
git
pip install diffusers
==
0.26.3
git lfs install
git clone https
:
//
huggingface
.
co
/
adamdad
/
videocrafterv2_diffusers
export PYTHONPATH
=
"$PWD"
python videocrafterv2_vico
.
py \
--
prompts XXX \
--
unet_path $PATH_TO_VIDEOCRAFTERV2 \
--
attribution_mode
"latent_attention_flow_st_soft"
🌟 Mamba Vision: Эффективная альтернатива трансформерам для компьютерного зрения
Mamba Vision - реализация архитектуры Mamba с применением селективных моделей пространства состояний (SSM) в области обработки изображений от Nvidia Lab.
MambaVision демонстрирует более эффективное использование вычислительных ресурсов по сравнению с традиционными архитектурами (VIT и Swin) на основе трансформеров, а использование SSM открывает новые способы извлечения и обработки визуальных признаков. Предлагаемая архитектура показывает хорошую масштабируемость, сохраняя эффективность при увеличении размера модели.
MambaVision применим к различным задачам компьютерного зрения, включая классификацию изображений и семантическую сегментацию.
Проект находится на начальной стадии, и его эффективность в реальных задачах компьютерного зрения еще предстоит полностью оценить.
На данный момент реализовано применение только в задаче классификации изображений.
🗄 Семейство MambaVision Pretrained (ImageNet-1K) моделей (прямая загрузка с Google Drive):
MambaVision-T (32М)
MambaVision-T2 (35М)
MambaVision-S (50M)
MambaVision-B (98M)
MambaVision-L (228M)
MambaVision-L2 (241M)
⚠️ Лицензирование:
Для некоммерческих проектов: CC-BY-NC-SA-4.0
Для коммерческого использования: запрос через форму
🖥 Github [ Stars: 32 | Issues: 0 | Forks: 2 ]
🟡Arxiv
@ai_machinelearning_big_data
#MambaVision #ML
Зачем искать удобный планировщик задач, когда его можно создать самостоятельно? А заодно — узнать, насколько вам интересно программирование.
Бесплатный курс «Основы Python: создаём телеграм-бота» — полезный и надёжный вариант для самоопределения. Там на примере Python вы узнаете, как устроены процессы разработки, самостоятельно создадите планировщик задач и бота-помощника и поймёте, подходит ли вам этот язык.
Доступ в чат с экспертами и однокурсниками для получения ответов на вопросы и помощи в практике, а также сертификат Нетологии после прохождения курса прилагаются → https://netolo.gy/dg7t
Реклама ООО “Нетология” 2VSb5ykDhfv
🌟 Inf-DiT: Upscale изображения до любого разрешения с помощью диффузионного трансформера с эффективным использованием памяти
Диффузионные модели показывают замечательные результаты при создании изображений. Однако из-за квадратичного увеличения памяти при генерации изображений сверхвысокого разрешения (например, 4096×4096) разрешение генерируемых изображений часто ограничивается 1024×1024.
Inf-DiT предлагает однонаправленный механизм внимания блоков, который может адаптивно регулировать затраты памяти во время процесса вывода и обрабатывать глобальные зависимости.
Комплексные эксперименты показывают, что этот метод демонстрирует отличную производительность при создании изображений сверхвысокого разрешения.
По сравнению с широко используемыми структурами UNet, Inf-Dit может 5-кратно сократить использование VRAM при генерации изображений размером 4096 × 4096.
Адаптацию для ComfyUI обещают к концу июля.
🟡 Arxiv
🖥 GitHub [ Stars: 298 | Issues: 12 | Forks: 12 ]
🟡 Модель (прямая загрузка)
#Upscale #DiT #Diffusers #Img2Img
@ai_machinelearning_big_data
⚡️ GraphRAG — методология улучшенного извлечения данных для генерации текста из определенных источников (RAG) от Microsoft.
GraphRAG использует графы знаний для улучшения ответов на запросы. Во время запроса система обращается к графу знаний и использует резюме сообществ и связи между сущностями для формирования контекста, который помогает LLM дать более точный ответ, чем традиционные методы, основанные на поиске по векторным сходствам.
Архитектура GraphRAG состоит из ключевых компонентов:
Indexer : разделяет корпус данных на мелкие текстовые блоки (TextUnits), извлекает из них сущности, связи и ключевые утверждения.
Clustering : группирует данные в иерархическую структуру с использованием метода Лейдена, создавая граф знаний.
Community Summarization : генерирует обобщенные описания для каждой группы данных, что помогает в понимании контекста и смыслового связывания всей информации.
Knowledge Graph : структура, объединяющая сущности и их связи, созданная на основе данных.
GraphRAG значительно улучшает работу моделей языка с частными данными, позволяя им более точно и полно отвечать на сложные вопросы, требующие синтеза информации из разных источников.
⚠️ Рекомендации и предупреждения:
- Эффективность индексации зависит от правильной идентификации понятий
- Индексация может быть дорогостоящей, рекомендуется создание тестового набора данных
- Система предназначена для опытных пользователей в предметной области
- Необходим анализ ответов человеком для получения достоверной информации
- Методология наиболее эффективна на текстовых данных с общей темой и множеством сущностей
📄 Документация:
🟢локальный запуск
🟢конфигурирование
🟢эмулятор Azurite
🖥Github
🖥Github для запуска на API Azure
🟡Страница проекта
🟡Arxiv
@ai_machinelearning_big_data
#LLM #GraphRAG #ML #RAG #NLP #Deeplearning
⚡️ Дайджест интересных новостей
💰 Оценка компании TSMC Co. на короткое время превысила 1 триллион долларов из-за набирающей обороты "гонки за AI". Bloomberg
🟢 Nvidia объявила новый конкурс на создание набора данных с открытым исходным кодом для обучения студентов-магистров по проектированию аппаратного обеспечения с целью в конечном итоге автоматизировать разработку будущих графических процессоров. Nvlabs.Github
🖼 Magnific AI представила новый плагин Photoshop, позволяющий пользователям использовать инструмент масштабирования и улучшения изображения непосредственно в интерфейсе самого популярного редактора графики от Adobe. MagnificAI
👨🏻💻 Платформа Poe (принадлежит Quora) запустила «Previews» — новую функцию, позволяющую пользователям создавать веб-приложения и взаимодействовать с ними непосредственно в чатах, используя Claude 3.5 Sonnet. TechCrunch
🇯🇵 Министерство обороны Японии опубликовало свою первую базовую политику по использованию искусственного интеллекта в военных целях, направленную на решение проблем с набором персонала и не отставание от мировых держав в оборонных технологиях.. The Japan times
🎦 "Менее чем через год будет создано видео с помощью искусственного интеллекта в реальном времени...": интервью главного научный сотрудник Luma Labs. Andersen Horowitz
👩⚕️ Thrive AI Health, стартап, финансируемый OpenAI и Thrive Global, использует ИИ для предоставления персонализированных медицинских консультаций. Помощник с искусственным интеллектом может использовать данные человека, чтобы давать рекомендации по сну, диете, физическим упражнениям, управлению стрессом и социальным связям. Time
⚡️Groq представила молниеносный механизм LLM. Он может обрабатывать запросы со скоростью более 1250 токенов в секунду, что намного быстрее, чем могут делать чипы графических процессоров таких компаний, как Nvidia. Это позволяет движку Groq практически мгновенно отвечать на запросы и задачи пользователей. Venturebeat
🇨🇳 Microsoft не будет следовать за OpenAI в блокировании доступа Китая к моделям искусственного интеллекта. Модели OpenAI доступны клиентам через Microsoft Azure.
Seekingalpha
#news #digest
@ai_machinelearning_big_data
⚡️ Test-Time Training RNN (ТТТ) - принципиально новый метод машинного обучения.
TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.
Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.
Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
По сравнительным бенчмаркам с другими популярными методами машинного обучения, такими как трансформеры и рекуррентные нейронные сети, было обнаружено, что в некоторых задачах TTT работает лучше.
Этот революционный метод позволит приблизиться к созданию более гибких и эффективных моделей искусственного интеллекта, способных лучше адаптироваться к новым данным в реальном времени.
На Github опубликованы адаптации метода:
- адаптация под Pytorch
- адаптация под JAX
🟡Arxiv
🖥 GitHub for Pytorch [ Stars: 277 | Issues: 3 | Forks: 12 ]
🖥 GitHub for Jax [ Stars: 129 | Issues: 1 | Forks: 6 ]
@ai_machinelearning_big_data
#Pytorch #Jax #TTT #LLM #Training
⚛️ Исследователи из MIT разработали новый инструмент на основе генеративного ИИ, предназначенный для анализа сложных табличных данных в базах данных
Этот инструмент, называемый GenSQL, основан на языке программирования SQL и позволяет пользователям выполнять сложные статистические анализы без глубокого понимания внутренних механизмов. GenSQL может использоваться для прогнозирования, обнаружения аномалий, заполнения пропущенных значений, исправления ошибок и создания синтетических данных. Система интегрирует табличный набор данных и генеративную вероятностную модель ИИ, которая может учитывать неопределенность и корректировать процесс принятия решений на основе новых данных.
Одно из основных преимуществ GenSQL заключается в его способности обрабатывать сложные запросы, комбинируя анализ данных и модели. Например, система может определить вероятность того, что разработчик из Сиэтла знает язык программирования Rust, учитывая не только корреляцию между столбцами в базе данных, но и более сложные зависимости. Кроме того, вероятностные модели, используемые GenSQL, являются прозрачными и аудируемыми, что позволяет пользователям видеть, какие данные используются для принятия решений и получать оценку уровня неопределенности.
В ходе исследования GenSQL был сравнен с другими популярными методами, основанными на нейронных сетях, и показал значительно более высокую скорость и точность. Исследователи планируют продолжить разработку инструмента, сделав его более доступным и мощным, а также расширить его возможности для обработки больших объемов данных и обработки естественного языка, чтобы в конечном итоге создать эксперта по ИИ, подобного ChatGPT, для анализа баз данных.
📌 Источник
#базыданных #mit
@ai_machinelearning_big_data
🔹 Как применять нейронные сети в анализе финансовых рынков?
Рассмотрим, нейронные сети в финансах на открытом уроке от Otus.
Эта лекция разработана для тех, кто стремится понять: как нейронные сети могут быть использованы для предсказания рыночных движений и улучшения инвестиционных стратегий
✅ В течении часа рассмотрим реальные примеры и кейсы, использования нейронных сетей в торговых стратегиях, включая анализ временных рядов и алгоритмическую торговлю.
Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска
👉 Регистрация на урок и подробности:
https://otus.pw/kcoE/?erid=LjN8KVYNM
Конференция по машинному обучению
Собрали 30+ спикеров из Т-Банка, Яндекса, VK, MTS AI и AIRI. Будет:
— 4 параллельных потока: NLP & MLOps/LLMops, Research & RnD, CV & Speech, RecSys & TS;
— доклады и обсуждения реальных бизнес-задач;
— афтепати с барбекю и диджеем.
Turbo ML Conf пройдет 20 июля в Москве. Обязательно зарегистрируйтесь, пока за вас это не сделал бот.
erid:2VtzqxZ5ma8
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673
🤔 Билайн.бизнес и венчурный фонд ХАЙВ объявляет о запуске серии Pitch Day AI, посвященной инновационным технологиям в области искусственного интеллекта и больших данных.
Мы ищем перспективные стартапы, у которых есть В2В продукт для корпоративных клиентов, которые получат возможность стать партнерами билайн.бизнес и войти в продуктовый портфель Big Data & AI, а также привлечь инвестиции от венчурного фонда ХАЙВ в размере до 100 млн руб.
Темы:
- Видеоаналитика и компьютерное зрение
- Анализ речи и текста
- Приложения, решения и ПО для повышения эффективности бизнеса и государства на основе машинного обучения и больших данных (кроме видео-, аудио- и текстовой аналитики), включая сервисы для оценки финансовых рисков и прогнозирования оптимального места для открытия торговой точки.
Условия для участия:
- Готовый продукт, соответствующий одной из заявленных тем
- Наличие команды и первых коммерческих клиентов с подтвержденным опытом внедрения и использования продукта.
Этапы проведения:
Прием заявок до 19 июля.
19 июля — 2 августа — отбор проектов.
2 — 14 августа — подготовка к выступлению.
15, 22 и 29 августа — проведение Pitch Day.
Все необходимые для участия и просто полезные ссылки — на билайн now 🐝
Реклама ПАО «ВымпелКом», beeline.ru
⚡️ MOTIA — outpaint видео (добавление контента за границами области просмотра) с сохранением межкадровой согласованности.
MOTIA — двухэтапный конвейер на основе генеративной диффузии.
Первая фаза (input-specific adaptation) выполняет outpaint первого кадра видео и определяет паттерн закономерности для дорисовки в последующих кадрах.
Вторая фаза (pattern-aware outpainting) делает непосредственно outpaint всего видео на основе знаний первой фазы, добавляя шум и контролирует пространственную геометрию, сохраняя возможную плавность и бесшовность.
Судя по бенчмаркам разработчика, MOTIA - один из лучших методов на данный момент.
Запустить:
conda env create -f environment.yml
git clone https://huggingface.co/wangfuyun/Be-Your-Outpainter
bash run.sh
⚡️ RouteLLM - фреймворк с открытым исходным кодом для эффективной маршрутизации между несколькими LLM
Метод построения маршрутов (роутеров) использует данные о предпочтениях для обучения управляющего роутера, который может предсказывать, какие запросы могут быть обработаны слабыми моделями, а какие требуют более мощных.
RouteLLM обещает значительное снижение затрат без ущерба для качества ответов. В тестах, таких как MT Bench и MMLU, RouteLLM достиг высокой производительности при меньшем количестве вызовов на мощные модели.
В фреймворке реализована поддержка вызова по API (OpenAI, Anthropic, Google, Amazon Bedrock) и локального бекэнда (Ollama)
Преднастроены 4 роутера, обученных на паре моделей gpt-4-1106-preview и mixtral-8x7b-instruct-v0.1 :
mf - использует модель матричной факторизации, обученную на данных о предпочтениях
sw_ranking - использует взвешенный расчет ELO для маршрутизации, где каждый голос взвешивается в зависимости от того, насколько он похож на запрос пользователя
bert - использует классификатор BERT
causal_llm - использует классификатор отдельной LLM настроенный на данные о предпочтениях.
random - случайным образом направляет запрос к случайной модели.
🟡Arxiv
🟡Страница проекта
🟡Модели (Augmented for routes) на HF
🖥Github [ Stars: 686 | Forks: 52 | Issues:2]
#LLM #ML #machinelearning #opensource
@ai_machinelearning_big_data
⚡️ Встречайте Kolors — диффузионная модель для генерации изображений с упором на фотореализм
Kolors — это большая диффузионная модель, опубликованная вчера командой Kuaishou Kolors.
Kolors была обучена на миллиардах пар "текст-изображение" и показывает отличные результаты в генерации сложных фотореалистичных изображений.
По результатам оценки 50 независимых экспертов, модель Kolors генерирует более реалистчиные и красивые изображения, чем Midjourney-v6, Stable Diffusion 3, DALL-E 3 и другие модели
🟡 Страничка Kolors
🟡 Попробовать
🖥 GitHub
@ai_machinelearning_big_data
🌟 MiraData: крупный датасет видеоданных с большой продолжительностью и структурированными аннотациями.
При обучении генеративных моделей большую роль в качестве инференса готовых моделей играет датасет обучения.
Одним из неплохих источников может стать MiraData от Tencent — готовый датасет суммарной продолжительностью видео в 16 тысяч часов, предназначенный для обучения моделей генерации текста в видео. Он включает в себя длинные видеоролики (в среднем 72,1 секунды) с высокой интенсивностью движения и подробными структурированными аннотациями (в среднем 318 слов на ролик).
Для оценки качества датасета была даже специально создана система бенчмарков MiraBench из 17 метрик, оценивающих временную согласованность, движения в кадре, качество видео, и другие параметры. Согласно их результатам, MiroData превосходит другие известные датасеты, доступные в открытых источниках , которые в основном состоят из коротких видеороликов с плавающим качеством и короткими описаниями.
🟡Страница проекта
🟡Arxiv
🤗 Hugging Face
🖥 GitHub [ Stars: 241 | Issues: 4 | Forks: 7 ]
@ai_machinelearning_big_data
#Text2Video #Dataset #ML
Дайджест новостей
🎦 Odyssey создает визуальный ИИ «голливудского уровня»
Стартап в области ИИ нацелен на то, чтобы предоставить пользователям полный, тонко настроенный контроль над каждым элементом в их сценах — вплоть до низкоуровневых материалов, освещения, движения и многого другого. Odyssey обучает четыре мощные генеративные модели, чтобы реализовать свои возможности.
Создатели Odyssey утверждают, что эта технология — то, что придет после парадигмы "text2video". Odyssey
🧠 Высокоточная реконструкция части человеческого мозга выполнена в Google
Исследователи из Google завершили крупнейшую в истории цифровую реконструкцию человеческого мозга с помощью искусственного интеллекта. Они представили самую подробную карту человеческого мозга размером всего в 1 кубический миллиметр мозговой ткани, но с высоким разрешением, чтобы показать отдельные нейроны и их связи. Google
🏭 Aitomatic запускает первую собственную LLM с открытым исходным кодом - "SemiKong", разработанную специально для полупроводниковой промышленности.
SemiKong разработан для вывода на новый уровень производства полупроводниковых процессов и технологий, с целью произвести революцию в отрасли стоимостью 500 миллиардов долларов. По предварительным оценкам, SemiKong превосходит стандартные LLM в решении отраслевых задач, демонстрируя улучшения в точности и понимании процессов.
Планируется выпуск следующей версии модели в декабре 2024 года и специализированных моделей для конкретных технологических процессов в сентябре 2024 года.
Модели 8B и 70B уже доступны для загрузки на Huggingface. Попробовать SimiKong можно в он-лайн демо.
Semikong.ai
🔥 Выпущен Flash Attention 3 ,который был оптимизирован под H100 и H800.
🖼 В Stable Assistant добавили новые функции и расширены возможности существующих.
Stable AI добавила в свой ассистент 2 новые функции:
- поиск и замену для редактирования изображений;
- музыкальные треки до трех минут в Stable Audio.
Улучшения коснулись инструментов редактирования изображений - добавили возможность сохранения входного изображения, набор промптов для стилевых эффектов, реставрацию изображений низкого качества, улучшен апскейл.
Помимо этого, добавлен функционал text2video, sketch2image и удаление фона. Stability AI
🟥 AMD приобретает крупнейшую в Европе частную лабораторию искусственного интеллекта Silo AI за 665 миллионов долларов.
Сделка ожидается к завершению во второй половине 2024 года. Цели приобретения - ускорение разработки ИИ, расширение ПО с открытым исходным кодом и создание многоязычных моделей LLM на платформах AMD.
Silo AI - это команда ученых и инженеров мирового класса, выполняющие проекты по заказу Allianz и Unilever. AMD
🟩 NVIDIA представила RankRAG - новый фреймворк RAG, который настраивает одну LLM для выполнения двух задач: ранжирования по контексту Top-k и генерации ответов в RAG.
RankRAG использует двухэтапный конвейер извлечения-повторного ранжирования-генерации для улучшения оценки релевантности и генерации ответов. Улучшения особенно заметны в сложных наборах данных, таких как PopQA и 2WikimQA.
По бенчмаркам, проведенным в ходе исследования, RankRAG превосходит ChatQA-1.5 и конкурирует с более крупными моделями в задачах генерации данных с расширенным поиском. Код и веса не опубликованы. Marktechpost.com
🏭 Xiaomi представил новый завод, который работает 24/7 без человеческого труда.
Xiaomi запустила в Пекине новый автономный интеллектуальный завод, который сможет производить 10 миллионов мобильных телефонов в год и самостоятельно устранять производственные проблемы с помощью технологий искусственного интеллекта.
Завод площадью 80 000 квадратных метров включает 11 производственных линий и производит новейшие смартфоны Xiaomi, в том числе MIX Fold 4 и MIX Flip.
Работая круглосуточно, фабрика использует собственную ИИ-производственную платформу для оптимизации процессов и управления операциями — от закупки материалов до доставки продукции. Gizmochina.com
#digest #news #ai
@ai_machinelearning_big_data
🌟 MobileLLM: оптимизированные субмиллиардные LLM для мобильных устройств.
К презентации на ICML 2024, MetaResearch опубликовали обновленную версию исследования об методах оптимизации LLM с малым количеством параметров для мобильных устройств и представил код для обучения и оценки эффективности таких LLM.
Основная цель проекта - создание компактных и производительных языковых моделей с менее чем миллиардом параметров, способных работать на ресурсно-ограниченных устройствах.
MobileLLM демонстрирует значительное улучшение производительности по сравнению с предыдущими моделями аналогичного размера. Например, версии на 125M и 350M параметров показывают на 2.7% и 4.3% соответственно лучшую точность.
Архитектура разработана с учетом ограничений мобильных устройств по памяти и вычислительной мощности. Применяются методы функции активации (SwinGLU), embedding sharing и группировки внимания.
Методика, представленная в MobileLLM, может быть применен к моделям различных размеров, от 125M до 1.5B параметров.
MobileLLM показывает хорошие результаты в задачах чата и вызова API, приближаясь к производительности гораздо более крупных моделей в некоторых сценариях.
Несмотря на хорошие результаты, MobileLLM все еще уступает по возможностям крупным языковым моделям. Из-за кратно меньшего размера модели, контекст у моделей MobileLLM значительно меньше, чем у классических LLM.
Экспериментальная модель MobileLLM от Meta Research еще не опубликована, она проходит юридический аудит и будет представлена позже.
🖥 Локальный трейн и оценка эффективности:
git clone https://github.com/facebookresearch/MobileLLM.git
pip install -r requirements.txt
python pretrain.py --config configs/125m.json # Конфиг для предобучения
python evaluation/evaluate_zero_shot.py --model_path /path/to/your/model # оценка модели на различных задачах (используйте скрипты в из /evaluation/ )
🌟 Semantic-SAM — универсальная модель сегментации и распознавания сложных объектов с высокой степенью детализации
Semantic-SAM — экспериментальный метод сегментации изображений, опирающийся на на Mask DINO, OpenSeeD, SEEM и VLPart, выполняющий интерактивную сегментацию с возможностью управления уровнем детализации и семантической осведомленностью.
Этот проект - первая попытка обучения модели и на наборах данных (SA-1B) и на данных по сегментации фрагментов изображений (SAM).
Бенчмарки проведенные в ходе исследования демонстрируют, что такое обучение положительно сказывается на точности Semantic-SAM.
🟡 Arxiv
🖥 Github [ Stars: 2,1K | Issues: 65 | Forks: 104 ]
🟡 Модели
🤗 Попробовать интерактивную демонстрация многоуровневой детализации
🤗 Попробовать авто-генерацию с контролируемой детализацией
@ai_machinelearning_big_data
#ML #SAM #Segmentation #Recognition
One Day Offer для Центра робототехники 🤖
13 июля вы сможете пройти все этапы отбора, познакомиться с инновационной командой Сбера и получить оффер Middle/Senior Robotics или Backend Developer.
Наш Центр проводит исследования, создаёт роботов, применяя искусственный интеллект, и работает по направлениям: манипуляция, роботизация логистики и мобильные роботы.
Сейчас перед нами стоит по-настоящему амбициозная задача – разработать антропоморфного робота общего назначения.
В работе мы используем: ROS/ROS2, DDS, Python, PyTorch, JAX, Model-transformers, SOTA, C++, Isaac Sim / MuJoCo / PyBullet.
Какие задачи будут в вашем планере 👇
▪️ разработка алгоритмов и систем управления роботами (core, body, brain) и драйверов для различных устройств в виде ROS2 узлов
▪️ создание алгоритмов внутренней и внешней калибровки сенсоров (лидары, камеры, IMU), робототехнических сервисов на Behavior Trees / State Machines
▪️ работа с симуляторами на базе Isaac Sim / MuJoCo / PyBullet
▪️ проектирование архитектуры системы
Масштабные проекты и работа мечты ждут вас. Регистрируйтесь на One Day Offer 13 июля 😉
Появляется новый тип баз данных — делаем обзор! Дата-инженер из финтех-компании Точка Николай Мозганов расскажет, как пользоваться векторными базами данных для ML-задач. Если коротко: теперь в вектор можно превратить слова, предложения и даже звуки.
Читайте статью и задавайте вопросы в комментариях!
🌟 Paints-Undo - генерация пошагового видео процесса рисования по исходному изображению.
Paints-Undo — это проект lllyasviel ( разработчик ForgeUI, FooocusUI, Controlnet, IC-Light ), целью которого является предоставление базовых моделей человеческого поведения при рисовании с надеждой, что будущие модели искусственного интеллекта смогут лучше соответствовать реальным потребностям людей-художников.
Проект представляет собой семейство моделей, которые принимают изображение в качестве входных данных, а затем выводят последовательность рисования этого изображения.
Модель отображает все виды человеческого поведения: рисование эскизов, рисование, раскрашивание, затенение, преобразование форм, переворот влево-вправо, настройку цветовой кривой, изменение видимости слоев, изменение общей идеи в процессе рисования.
Вычислительные потребности: 24 ГБ VRAM на Nvidia 4090 и 3090TI, минимальные потребности - 12-16 ГБ VRAM.
На обработку одного изображения уйдет в среднем 5-10 минут для видео длительностью 25 секунд с FPS=4 в разрешении 512х320 и ниже.
Проект состоит из 2 моделей :
Paints_undo_single_frame - модель берет 1 изображение и каждый указанный шаг за отдельную итерацию в обратном от результата порядке (пояснение на примере с живым рисованием, где одно движение кисти = одному шагу для модели. Диапазон шагов: от 0 до 999, где 0 - законченное изображение, а 999 - первое движение кисти.)
Paints_undo_multi_frame - модель берет 2 изображения и выводит 16 промежуточных кадров между двумя входными изображениями. Результат гораздо более последовательный, чем у однокадровой модели, но также намного медленнее, менее «творческий» и ограничен 16 кадрами.
Архитектура моделей представляет собой модифицированную SD 1.5, помимо этого включает компоненты 3D-UNet, VAE, CLIP, CLIP-Vision, Image Projection.
Локальный запуск:
git clone https://github.com/lllyasviel/Paints-UNDO.git
cd Paints-UNDO
conda create -n paints_undo python=3.10
conda activate paints_undo
pip install xformers
pip install -r requirements.txt
python gradio_app.py
IT-тусовка для ML-разработчиков от Яндекса.
YACAMP, гранж и лето.
10 августа встречаемся на YACAMP — масштабной IT-тусовке в стиле гранж от сервисов Яндекса.
Полезные доклады от экспертов по вашей теме, нетворкинг и вечеринка.
Поговорим про продуктовую разработку, обсудим сложные кейсы, ну и отдохнём, конечно. В программе 10+ интерактивных площадок, выступления музыкантов, уже нашумевшее IT-казино и вечеринка до самого утра.
Читайте подробности и регистрируйтесь на YACAMP.
Реклама. ООО «Яндекс.Такси» ИНН 7704340310
🌟 GeoWizard — новая модель для оценки 3D-параметров изображений
GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно. Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.
Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.
git clone git@github.com:fuxiao0719/GeoWizard.git
cd
GeoWizard
conda create -n geowizard python
=
3.9
conda activate geowizard
pip install -r requirements.txt
cd
geowizard
🌟 ControlNet++ — улучшенная версия вспомогательной технологии для генерации изображений
ControlNet++ использует дискриминационные модели вознаграждения для оптимизации согласованности между входными условиями (изрбражение-референс) и результатами генерации за счет оптимизации последовательности циклов.
Согласно опубликованным бенчмаркам, ControlNet++ значительно улучшает управляемость процессом генерации.
Новый метод метод превосходит классический ControlNet:
- на 7.9% по mIoU;
- на 13.4% по SSIM;
- на 7.6% по RMSE.
Адаптации под UI для Stable Diffusion пока нет.
Еще круче то, что контролнеты++ успели упаковать в Controlnet Union и собрали в 1 модель.
Теперь можно разом делать 12 препроцессов с одной модели CN.
👉 Репозиторий https://huggingface.co/xinsir/controlnet-union-sdxl-1.0
Модель safetensors без конфига в папку с Контролнетом Автоматика1111 или ComfyUI.
Это все действия которые необходимо сделать)
А самое главное - больше не нужно качать тонну моделей и следить в UI что нужный препроцессор выбран.
Работает controlnet union на SDXL-моделях. Для SD3 свой контролнет, для SD1.5 -свой, этот работать не будет.
👉 Видео: https://www.youtube.com/watch?v=UBFEw1IUX_I
🖥 GitHub [ Stars: 274 | Issues: 2 | Forks: 11 ]
🟡 Страничка проекта ControlNet++
🟡 Arxiv
🟡 Демо на HF
🟡 Модели на HF
#ControlNet #Diffusers #Image2Image
@ai_machinelearning_big_data
🌟 СogVLM2-Video — обновление популярной VLM уровня GPT4V на основе Llama3-8B
CogVLM2-Video обучалась на боле чем 30 тыс пар видео-текст. Метод понимания видеоряда. реализованный в модели основан на автоматизированном процессе обобщения распознанных кадров с временной меткой, которым управляет LLM c навыком ранжирования локализаций и удержанием ключевого контекста.
CogVLM2 способна проанализировать видео, дать ответы на вопросы по контексту видеоряда и предоставить текстовые субтитры значительно быстрее других VLM.
Лицензия на использование:
- для академических исследований бесплатно
- для коммерческих проектов необходима регистрация через специальную форму и выполнение условий по указанию авторства на всех полученных материалах.
🟡 Страничка CogVLM2
🖥 GitHub [ Stars: 1.5к | Issues: 26 | Forks: 79 ]
🟡 Модель на HF
#video #VLM
⚡️ ReproModel — набор no-code инструментов для обучения и тестирования AI-моделей.
ReproModel — GUI, который упрощает эффективность исследований, предоставляя стандартизированные модели, загрузчики данных и процедуры обработки.
Он включает в себя полный спектр уже существующих бенчмарков, экстрактор кода и дескриптор LLM.
Этот набор инструментов помогает исследователям модульно структурировать свою разработку и сравнивать производительность каждого этапа конвейера воспроизводимым способом.
По заявлению разработчика, инструмент помогает сократить время разработки, расчета и обучение модели как минимум на 40%.
*️⃣Лицензирование: MIT License
*️⃣Для локального запуска необходим NodeJS
*️⃣Для локального запуска генератора методологий необходима Ollama
🖥 GitHub [ Stars: 35 | Issues: 0 | Forks: 1 ]
🟡 Демо видео на Youtube
#opensource #train #LLM #SOTA
Изучите применение ChatGPT в рабочих целях, чтобы получить от этого прибыль. Сейчас самое время начать использовать искусственный интеллект.
Здесь вы узнаете, почему стоит освоить ChatGPT. Это поможет вам:
- Использовать ChatGPT в вашей профессиональной сфере.
- Предлагать компаниям разработку индивидуально дообученного ChatGPT по заказу.
- Увеличить свой доход, освоив навык создания индивидуально дообученного ChatGPT.
Зарегистрируйтесь на бесплатный вебинар, чтобы узнать больше деталей.
Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8KPpVo
🌟 CLIP-DINOiser — MaskCLIP с семантической сегментацией под управлением DINO
Метод CLIP-DINOiser использует только один прямой проход CLIP и двух легких сверточных слоев при выводе, при этом не требует дополнительного контроля и дополнительной VRAM.
В результате применение методв значительно снижается уровень шума.
Метод демонстрирует высокие результаты в бенчмарках COCO, Pascal Context, Cityscapes и ADE20k.
Код запуска:
python demo.py --file_path [path to the image file] --prompts [list of the text prompts separated by ',']
🌟 Arcee Agent 7B — свежая модель на базе Qwen2-7B
Arcee Agent 7B превосходит GPT-3.5-Turbo, и многие другие модели в написании и интерпретации кода.
Arcee Agent 7B особенно подходит для желающих реализовать сложные решения на основе ИИ без вычислительных затрат на большие языковые модели.
И да, также имеются квантизованные GGUF-версии Arcee Agent 7B.
🤗 Hugging Face
@ai_machinelearning_big_data