ai_machinelearning_big_data | Технологии

Telegram-канал ai_machinelearning_big_data - Machinelearning

27348

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

🌟 MindSearch: Мультиагентная система веб-поиска под управлением языковой модели

MindSearch - фреймворк от InternLM, объединяющий сильные стороны больших языковых моделей (LLM) и поисковых систем для решения задач поиска и агрегации информации в Интернете.

Привлекательность фреймворка складывается из способности эффективно управлять контекстом поиска, распределяя когнитивную нагрузку между несколькими агентами, навыком сокращения длины контекста для каждого агента и способностью к построению иерархии поисковых запросов.

Архитектура MindSearch состоит из двух частей:

🟢WebPlanner. Этот агент имитирует человеческие рассуждения, декомпозируя запрос пользователя в направленный ациклический граф (DAG). Каждый узел графа представляет собой подвопрос, который может быть решен независимо. WebPlanner динамически строит DAG, генерируя код Python для добавления узлов и связей, тем самым итеративно решет последовательность задач и параллельно выполняет подзадачи.

🟢WebSearcher выполняет иерархический поиск информации для ответа на подвопросы, заданные WebPlanner. Он начинает с генерации нескольких семантически похожих запросов, чтобы расширить область поиска и улучшить запоминание. Затем он выбирает наиболее релевантные веб-страницы для детального прочтения и использует LLM для создания ответа на основе собранной информации.

Эксперименты на задачах с закрытыми (GPT) и открытыми (InternLM) языковыми моделями показали эффективность MindSearch. По сравнению с существующими решениями для поиска (ChatGPT-Web и Perplexity Pro), MindSearch генерирует ответы с большей глубиной и широтой.

Целевая группа людей-экспертов предпочитали ответы от MindSearch, нежели ответы от Perplexity/ChatGPT или поисковую выдачу классической поисковой системы.

Локальная установка может взаимодействовать как с онлайн-сервисами AI (GPT, Claude), так и локально запущенные LLM, с помощью FAST API. Настройка моделей и указание API ключей для онлайн-сервисов Ai производятся в файле models по пути /mindsearch/agent/

В репозитории MindSearch в качестве локального фронтэнда предлагается на выбор UI на Gradio, React или Streamlit.

▶️Локальный запуск на примере локальной LLM InternLM2.5-7b-chat и UI Gradio:

# Dependencies Installation
pip install -r requirements.txt

# Setup FastAPI Server
python -m mindsearch.app --lang en --model_format internlm_server

# Run with Gradio
python frontend/mindsearch_gradio.pyW


📌Лицензирование : Apache 2.0 license


🟡Страница проекта
🟡Arxiv
🟡Demo Video
🟡Demo на китайским языке
🖥Github [ Stars: 61 | Issues: 0 | Forks: 7]


@ai_machinelearning_big_data

#AI #ML #LLM #AgentSearch

Читать полностью…

Machinelearning

Lite-Oute-1: семейство компактных base и instruct моделей

Oute AI представила в открытом доступе модели на 300М, 150M и 65М параметров в base и instruct вариантах и в GGUF-формате. Список релиза:

🟠Lite-Oute-1-300M Base
🟠Lite-Oute-1-300M-Instruct
🟠Lite-Oute-1-300M Base GGUF
🟠Lite-Oute-1-300M-Instruct GGUF
🟠Lite-Mistral-150M-v2-Instruct
🟠Lite-Mistral-150M-v2-Instruct GGUF
🟠Lite-Oute-1-65M Base
🟠Lite-Oute-1-65M-Instruct
🟠Lite-Oute-1-65M Base GGUF
🟠Lite-Oute-1-65M-Instruct GGUF

Lite-Oute-1-300M: "старшая" модель семейства на архитектуре Mistral с 300М параметров и контекстом в 4096 токенов. Эта модель специально разработана в качестве отправной точки для тонкой настройки при выполнении различных задач. Она обеспечивает баланс между компактными размерами и возможностями.
Некоторые оценки 0-shot: MMLU - 24.87, Winogrande- 53.35, OpenBookQA - 30.80

Lite-Oute-1-300M Base GGUF: диапазон квантования от FP16 (600 МВ) до Q2_K (176 MB), всего 15 вариаций.

Lite-Oute-1-300M-Instruct: instruct-версия 300М Base с теми же параметрами. Модель использует шаблон ChatML.
Некоторые оценки 0-shot: MMLU - 24.00, Winogrande- 53.75, OpenBookQA - 32.20

Lite-Oute-1-300M-Instruct GGUF: диапазон квантования от FP16 (600 МВ) до Q2_K(176 MB), всего 15 вариаций.
Модель использует шаблон ChatML

Lite-Mistral-150M-v2-Instruct: модель на основе архитектуры Mistral, включающая около 157М параметров. Основной целью создания этой модели была разработка компактной и эффективной модели, способной работать на широком спектре устройств, сохраняя при этом разумный уровень функциональности и согласованности для своего небольшого размера. Модель была обучена на ~ 8 миллиардах токенов.
Некоторые оценки 0-shot: MMLU - 25.28, Winogrande- 51.78, OpenBookQA - 28.40
⚠️ Модель чувствительна к используемому шаблону чата, уточните его на странице модели на HF.

Lite-Mistral-150M-v2-Instruct GGUF: диапазон квантования от FP16 (314 МВ) до Q2_K (68.5 MB), всего 15 вариаций.
⚠️ Модель чувствительна к используемому шаблону чата, уточните его на странице модели на HF.

Lite-Oute-1-65M Base: экспериментальная ультракомпактная базовая модель, построенная на архитектуре LLaMA и содержащая около 65М параметров.
Эта модель предназначена в качестве отправной точки для тонкой настройки под узкоспециальные задачи. Из-за своего чрезвычайно малого размера эта модель имеет базовые возможности генерации текста, но испытывает трудности с инструкциями или поддержанием связности тем.
Некоторые оценки 0-shot: MMLU - 23.05, Winogrande- 51.70, OpenBookQA - 27.60

Lite-Oute-1-65M Base GGUF: диапазон квантования от FP16 (131 МВ) до Q2_K (31.5 MB), всего 15 вариаций.

Lite-Oute-1-65M-Instruct: instruct-версия 65М Base с теми же параметрами.
Некоторые оценки 0-shot: MMLU - 23.45, Winogrande- 50.04, OpenBookQA - 28.60.
Модель использует шаблон ChatML.

Lite-Oute-1-65M-Instruct GGUF: диапазон квантования от FP16 (131 МВ) до Q2_K(31.5 MB), всего 15 вариаций.
Модель использует шаблон ChatML


🟡Страница проекта
🟡Все модели на HF


@ai_machinelearning_big_data

#AI #TinyLM #ML #OuteAI #GGUF

Читать полностью…

Machinelearning

Новостной дайджест

✔️Конкурент Neuralink интегрировал ChatGPT в мозговой имплантат человека.

Компания Synchron, конкурирующая с Neuralink, интегрировала ChatGPT от OpenAI в свой имплант с интерфейсом BCI, чтобы помочь людям с параличом легче управлять цифровыми устройствами.
BCI Synchron помогает больным с амиотрофическим склерозом предсказывать и предлагать ответы во время общения, которые они могут выбрать с помощью сигналов мозга. Стоимость имплантата Synchron оценивается в 50-100 тысяч долларов при среднем сроке ожидания в 6 месяцев.
newsbytesapp.com

✔️CRAM - новая технология памяти, позволяющая снизить потребление энергии при обработке данных ИИ в 1000 раз.

Исследователи из Университета Миннесоты разработали новую технологию Computational Random-Access Memory (CRAM) которая способна снизить энергопотребление при обработке данных. В отличие от традиционных решений, где данные перемещаются между памятью и процессором, CRAM позволяет обрабатывать данные непосредственно в ячейках памяти.
Это достигается за счет использования высокоплотной и перенастраиваемой спинтронной структуры, встроенной в ячейки памяти. Таким образом, данные не покидают память, что минимизирует задержки отклика и потребление энергии, связанные с передачей информации.
tomshardware.com

✔️AMD выпускает Fluid Motion Frames 2 с поддержкой искусственного интеллекта.

AMD представила техническое превью Fluid Motion Frames 2 (FMF2) в рамках обновления пакета драйверов Adrenalin. Эта новая версия включает "AI-оптимизированные улучшения", которые обеспечивают более плавную работу и сниженную задержку при генерации кадров.
FMF2 теперь совместима с режимами Vulkan и OpenGL, а также поддерживает полноэкранный режим без границ.
Fluid Motion Frames 2 доступен для видеокарт Radeon RX 7000 и 700M и совместим с RX 6000.
Пользователям доступно для скачивания превью версии 24.20.01.02 на сайте AMD.
pcworld.com

✔️Google DeepMind разработали JumpReLU Sparse Autoencoders с рекордной точностью восстановления.

Google DeepMind опубликовали исследование, в котором описали новую архитектуру нейронных сетей под названием JumpReLU Sparse Autoencoders (SAEs), которая значительно улучшает восстановление данных.
JumpReLU SAEs используют модифицированную активационную функцию JumpReLU, которая устраняет предактивации ниже определенного порога, что позволяет уменьшить количество активных нейронов и улучшить обобщающую способность модели. Это решение решает проблему компромисса между разреженностью и точностью восстановления, обеспечивая высокую эффективность в сравнении с традиционными Gated и TopK SAEs.
arxiv.org

✔️NVIDIA анонсирует генеративные AI модели и микросервисы NIM для OpenUSD, ускоряющие разработку цифровых двойников.

NVIDIA представила новые генеративные AI модели и микросервисы NIM для Universal Scene Description (OpenUSD), созданные для ускорения разработки приложений в области робототехники и промышленного дизайна. Они позволяют разработчикам генерировать OpenUSD-код, проводить поиск в библиотеках 3D и изображений с использованием естественного языка, а также проверять совместимость файлов с версиями OpenUSD. Микросервисы помогут создать высокоточные виртуальные миры и цифровые двойники, что откроет новые возможности для применения AI в различных отраслях.
Среди новых микросервисов, которые будут доступны в ближайшее время, — USD Layout для сборки сцен на основе текстовых подсказок и USD SmartMaterial для применения реалистичных материалов к CAD-объектам.
NVIDIA также анонсировала интеграцию OpenUSD с решениями Siemens для поддержки сложных симуляций и визуализации данных в реальном времени.
roboticstomorrow.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🌟Adam-mini: облегченная версия оптимизатора Adam.

Основная идея Adam-mini заключается в том, что матрица Гессиана нейронных сетей, особенно трансформеров, имеет почти блочно-диагональную структуру. Такая структура подразумевает, что для оптимальной работы различных блоков может потребоваться разная скорость обучения.

Adam-mini решает эту проблему, разбивая параметры модели на блоки по наименьшим плотным подблокам в матрице Гессиана. Каждому блоку присваивается одна скорость обучения. Скорость обучения для каждого блока в Adam-mini определяется путем усреднения значений вектора импульса второго порядка Adam (v) в пределах этого блока.

Эта методика сокращает количество необходимых LR, что приводит к значительной экономии памяти. Например, на LLM Adam-mini может сократить до 90% LR, по сравнению с Adam, что в итоге экономит использования памяти на 45-50 %.

Эффективность Adam-mini была проверена сравнением с показателями AdamW в различных сценариях:

Pre-training: на Llama2-7B Adam-mini сокращает использование памяти на 48,04 %, сохраняя при этом сопоставимые с AdamW потери при проверке.

SFТ и RLHF: превосходит AdamW в задачах на основе LoRA и RLHF, удерживая низкое значение perplexity.

Non-LLM Tasks: в задачах, не связанных с LLM - модели СV, ResNet, диффузионные модели, GCN и GAT демонстрирует сравнимую или лучшую производительность, чем AdamW, при этом используя меньше памяти.

Пропускная способность: при предварительном обучении Llama2-7B на 2×A800-80GB Adam-mini показывает производительность на 49,6 % выше, чем AdamW, экономя при этом 33,1 % времени.

▶️Текущая реализация Adam-mini поддерживает популярные фреймворки:

🟢DDP distributed framework;
🟢FSDP distributed framework;
🟢DeepSpeed;
🟢Hugginface Trainer;
🟢Torchtitan.

В репозитории проекта представлены примеры кода для SFT и RLHF претрейна LLM:

🟠GPT2 (125M-1.5B), NanoGPT codebase на фреймворке DDP
🟠Llama3-8B, Torchtitan code base на фреймворке FSDP
🟠SFT и RLHF Llama2-7B, ReMax codebase на фреймворке DeepSpeed

▶️Локальный запуск :

# # import from source
git clone https://github.com/zyushun/Adam-mini
cd Adam-mini
pip install -e .

# Then use Adam-mini optimizer as follows
from adam_mini import Adam_mini

optimizer = Adam_mini(
named_parameters = model.named_parameters(),
lr = lr,
betas = (beta1,beta2),
eps = eps,
weight_decay = weight_decay,
model_sharding = True,
dim = model_config.dim,
n_heads = model_config.n_heads,
n_kv_heads = model_config.n_kv_heads,
)
# all the hyperparameters, including learning rate (lr), weight_decay, beta1, beta2, eps, its recommend using the same values as for AdamW



🟡Arxiv
🖥Github [ Stars: 226 | Issues: 8 | Forks: 9]


@ai_machinelearning_big_data

#AI #ML #Adam #Pytorch #Train

Читать полностью…

Machinelearning

Привет, я Ярослав я окончил МФТИ и рассказываю в канале моей студии о хардкорном внедрении AI в корпорациях и производствах)

Я не выкладываю новости из мира AI и генерации Миджорни, только суровый ентерпрайз, рассказываем о технических и бизнесовых нюансах.

Контент будет интересен разработчикам и продукт-овнерам, которые что-то внедряют у себя. Например, мы рассказываем, как внедряли AI на сталелитейных производставах или как "буше" делали чат-бота на несколько тысяч сотрудников.

Подписывайтесь, если интересно реальное внедрение Ai в корпорации: @r77_ai

Читать полностью…

Machinelearning

🌟 Meta-Llama-3.1-405B-Instruct-FP8: FP8-версии Llama-3.1-405B-Instruct со статическим и динамическим методом квантования.

Компания Neural Magic представила две квантованные FP8-версии модели Meta's Llama 3.1 405B Instruct:

🟢Meta-Llama-3.1-405B-Instruct-FP8-dynamic
🟢Meta-Llama-3.1-405B-Instruct-FP8

Примененная оптимизация уменьшает количество бит на параметр с 16 до 8, сокращая требования к VRAM примерно на 50 %. FP8-модель может быть развернута помощью одного узла 8xH100 GPU.

Процесс квантования применялся исключительно к весам и активациям линейных операторов внутри блоков трансформеров. Использовалось симметричное поканальное квантование, которое включает линейное масштабирование по выходному измерению для отображения представлений FP8 квантованных весов и активаций.
Кроме того, активации квантованы динамически на основе каждого токена.
Для квантования использовалась библиотека оптимизации LLM Compressor с набором 512 последовательностей UltraChat.

Обе FP8 модели сохраняют архитектуру Meta-Llama-3.1 и могут быть запущены на бэкенде vLLM.

В бенчмарке OpenLLM версия FP8-dynamic получила средний балл 86,55. Это максимально близко к результату оригинальной модели - 86,63 (99,91%).

🟡Модель FP8-dynamic на HF
🟡Модель FP8 на HF


@ai_machinelearning_big_data

#AI #ML #LLM #Llama #FP8

Читать полностью…

Machinelearning

Как писать поддерживаемый, воспроизводимый и повторно используемый код в ML/DS?

🔹Расскажем на открытом уроке «Рефакторинг ML-проекта с точки зрения продуктового кода» что такое хороший код и как его писать, и почему Jupyter мешает нам это делать

Практика: Декомпозиция ML/DS-кода, работа с окружением, управление зависимостями

Урок приурочен курсу «MLOps» от Otus.

👉 Регистрация и подробности:
https://otus.pw/xhIN/?erid=LjN8KJAfF

Читать полностью…

Machinelearning

Помнишь времена, когда интернет был медленным, а в шкафу стопкой лежали дискеты?
В новом ролике про IT-тусовку YACAMP не просто ностальгия, а целое путешествие во времени!

10 августа тусовка для middle+/senior-разработчиков снова пройдет в Москве!

В программе: IT-казино, квест по сервисам Яндекса, вечеринки, музыкальные хедлайнеры в лицах самих участников и многое другое.

Регистрируйся! Уверен, будет круто!

Реклама ООО "ЯНДЕКС", ИНН 7736207543, erid LjN8KZcHB

Читать полностью…

Machinelearning

Станьте профессионалом в области Data Science и машинного обучения в магистратуре от Центрального университета!

Центральный университет — современный вуз, созданный при поддержке ведущих компаний России: Т-Банка, Авито и других.

Получите диплом магистра в области математики и компьютерных наук и обучайтесь на основе реальных кейсов ведущих ИТ-компаний у профессоров из МГУ, МФТИ, РЭШ и практиков из индустрии. Хорошая новость для тех, кто уже имеет опыт в Data Science и машинном обучении — вы можете пропустить базовое обучение и закончить магистратуру за 3 семестра.

У каждого студента будет:

-личный ментор по траектории обучения;
-доступ к карьерному центру с коучами и консультантами;
-опыт работы в проектах партнеров уже во время обучения.

Участвуйте в онлайн-отборе, чтобы выиграть грант на обучение до 1,2 млн рублей. Больше подробностей про университет и конкурс грантов по ссылке!

erid:2VtzqwNi35C
Реклама, АНО ВО «Центральный университет», ИНН 7743418023

Читать полностью…

Machinelearning

Новостной дайджест

✔️Актеры видеоигр бастуют из-за проблем с искусственным интеллектом.

Гильдия актеров экрана и Американская федерация артистов телевидения и радио (SAG-AFTRA) приняли решение забастовать с 26 июля в рамках соглашения об интерактивных медиа.
Забастовка затрагивает всех профсоюзных актеров, актеров озвучивания и актеров-симуляторов меток движения.
Забастовка направлена против Activision Blizzard, EA, Insomniac Games и WB Games, причем главной проблемой называются разногласия по поводу применения технологий AI. Несмотря на то, что компании нашли общий язык по многочисленным предложениям, а производители видеоигр предложили согласие на использование ИИ и справедливую компенсацию, SAG-AFTRA и представители гейм-вендоров не смогли достичь полного соглашения, что и привело к забастовке.
theverge.com

✔️SGLang Runtime v0.2 компании LMSYS Organization ускоряет скорость вывода для LLM, таких как Llama 3.1 405B, превосходя vLLM и TensorRT-LLM.

SGLang Runtime v0.2 превосходит vLLM и TensorRT-LLM по пропускной способности и задержке при обработке моделей Llama 3.1 405B. В некоторых сценариях пропускная способность SGLang может достигать 2,1 раза по сравнению с TensorRT-LLM и 3,8 раза по сравнению с vLLM. Исключительная производительность SGLang обусловлена эффективным планировщиком пакетной обработки, оптимизированным процессом вывода и поддержкой новейших аппаратных платформ. SGLang имеет открытый исходный код под лицензией Apache 2.0, написан полностью на Python, а его основной планировщик реализован менее чем в 4 000 строк кода.
lmsys.org

✔️Генератор любовных письма Алана Тьюринга 70-летней давности.

В 1953 году Алан Тьюринг и Кристофер Стрэчи совместно создали генератор любовных писем, объединив технологию и эмоции с помощью любовных писем, продемонстрировав творческий потенциал раннего искусственного интеллекта. Они запрограммировали компьютер на выражение эмоций, предвосхитив потенциал будущего машинного интеллекта для написания оригинальной прозы и глубоко проникнув в суть машинного интеллекта.
Для создания генератора любовных писем Тьюринг и Стрейчи использовали шаблон, который позволял случайным образом подставлять слова из заранее подготовленного банка слов, создавая уникальные и оригинальные сообщения. Этот процесс напоминал игру в Mad Libs, где структура письма оставалась постоянной, а содержание варьировалось.
bigthink.com

✔️KAN или MLP: сравнение.

Исследователи из Национального университета Сингапура провели исследование, в котором сравнили производительность сетей Колмогорова-Арнольда (KAN) и многослойных перцептронов (MLP) в различных областях.
MLP, фундаментальный компонент глубокого обучения, широко используется для аппроксимации нелинейных функций, но сталкивается с такими ограничениями, как плохая интерпретируемость и масштабируемость. KAN, новая сетевая структура, рассматривается как потенциальная замена MLP благодаря меньшему количеству параметров и улучшенной интерпретируемости.
Исследователи провели комплексную оценку KAN и MLP в задачах, включающих представление символьных формул, машинное обучение, компьютерное зрение, обработку естественного языка и обработку звука, контролируя при этом количество параметров и FLOPs. Результаты показали, что KAN превзошел MLP только в задачах представления символьных формул, в то время как MLP продемонстрировал превосходство в других задачах. Кроме того, исследование показало, что KAN страдает от более серьезной проблемы забывания, чем MLP, в сценариях непрерывного обучения.
arxiv.org и github.com

@ai_machinelearning_big_data

#news #digest #ml #ai

Читать полностью…

Machinelearning

Новостной дайджест

✔️Xerox оптимизирует процесс обработки документов с помощью AI в новых МФУ серии AltaLink 8200.

Компания Xerox представила новую технологию AI-Assisted Document Processing.
Ключевым элементом новой системы является использование генеративного ИИ и машинного обучения для анализа и извлечения данных из различных типов документов.
AI-Assisted Document Processing может автоматически классифицировать документы, извлекать ключевую информацию и даже интерпретировать контекст.
Xerox интегрирует эту технологию в свои существующие решения для управления документооборотом, создавая комплексную экосистему для работы с информацией.
Первой линейкой устройств, которые получат технологию будет серия многофункциональных устройств AltaLink 8200.
investors.xerox.com

✔️Google Gemini получил масштабное обновление, появилась быстрая версия Flash 1.5.

Новый Flash 1.5 включает в себя усовершенствования в области скорости обработки данных и точности ответов.
Улучшения в Flash 1.5 включают оптимизацию алгоритмов машинного обучения и внедрение новых моделей обработки естественного языка (NLP).
С ними чат-бот быстрее анализирует запросы пользователей и дает более релевантные и точные ответы. Кроме того, обновление улучшает способность понимать контекст и нюансы разговоров.
Ключевым обновлением отмечается интеграция с другими сервисами Google, такими как Google Search и Google Assistant, это позволяет пользователям использовать чат-бота для выполнения различных задач, от поиска информации до управления устройствами умного дома.
blog.google

✔️Llama 3.1 405B стала доступна в Groq Chat и Groq Dev Console.

Компания Groq объявила о доступности модели Llama 3.1 405B, самой крупной и мощной открытой модели на сегодняшний день, через платформу GroqCloud Dev Console и GroqChat. Модель Llama 3.1 405B, наряду с версиями 70B и 8B.
Groq использует свою запатентованную технологию LPU (Language Processing Unit) для обеспечения высокоскоростной инференции, что позволяет эффективно работать с такой масштабной моделью.
wow.groq.com

✔️Microsoft представила возможность бессерверного файнтюна для своей модели Phi-3.

Эта возможность позволяет разработчикам адаптировать модель под конкретные задачи без необходимости управления сложной инфраструктурой.
Бессерверная тонкая настройка доступна для моделей Phi-3-mini (3,8В) и Phi-3-medium (7,3В) через Azure AI Studio.
Технология бессерверной тонкой настройки использует подход низкоранговой адаптации (LoRA), который позволяет обучать модель на небольших наборах данных, сохраняя при этом базовые знания модели.
Помимо бессерверной тонкой настройки, Microsoft представила обновленную версию Phi-3-mini с улучшенными характеристиками в области следования инструкциям, структурированного вывода и рассуждений.
azure.microsoft.com

✔️Intel AI Playground - бесплатное приложение для PC для Arc.

Intel анонсировала запуск Intel AI Playground, платформы, предназначенной для демонстрации возможностей искусственного интеллекта и предоставления инструментов для разработчиков.
Intel AI Playground включает в себя набор предобученных моделей и программного обеспечения, которые можно использовать для различных задач, таких как обработка естественного языка, компьютерное зрение и генеративные модели. Платформа поддерживает популярные фреймворки для разработки AI: TensorFlow и PyTorch.
AI Playground доступна для загрузки на сайте Intel
hothardware.com

Читать полностью…

Machinelearning

🚀 Заканчивается набор на курс "Компьютерное зрение Advanced"! Стартуем 30 июля. Успейте попасть в группу! 🚀

Присоединяйтесь к нашему продвинутому курсу по компьютерному зрению от OTUS, ведущего образовательного центра с более чем 130 авторскими курсами для IT-специалистов уровня.

Что Вас ждёт на курсе?

Вводная часть и настройка: Разберетесь с настройкой окружения, углубленным изучением PyTorch и дополнительных библиотек.

Нейронные сети и обучение: Изучите эволюцию сверточных сетей, Self-Supervised Learning и адаптивные методы. Рассмотрите современные архитектуры и методы обучения.

Стандартные задачи CV: Освоите методы детектирования, 3D сегментацию, трекинг и ReID.

Генеративные модели: Научитесь использовать VAE, GAN, диффузионные модели, генеративные видеомодели и мультимодальные нейросети.

Продвинутые методы CV: Изучите SAM, стереозрение, 3D реконструкцию, SLAM, модели для автономных ТС и детекцию действий.

Оптимизация инференса: Научитесь выполнять инференс на сервере и аннотацию данных в CVAT.

Проектная работа: Получите консультации по проектам и защитите свои проекты.

🤔Какие навыки Вы сможете отразить в своём резюме после прохождения курса?

Детектирование объектов: Разработка моделей для автономного вождения и других приложений с высокой точностью.

Сегментация изображений: Применение методов для медицинской диагностики и других областей, создание моделей с минимальным количеством размеченных данных.

Распознавание объектов: Разработка системы для автономных транспортных средств и роботов, способных ориентироваться в пространстве.

Оценка позы: Создание 3D модели объектов и сцен для медицины, архитектуры и робототехники.

Генеративные модели: Генерация изображений и видео, разработка мультимодальных моделей для создания контента.

Интеграция данных: Создание системы для обработки и интеграции текстов, изображений и видео, например, для визуального QA.

Пройдите вступительное тестирование и получите 15% скидку до 28 июля! Не упустите шанс! 🌟

👉Для регистрации и тестирования нажмите здесь.
👉Для более детального ознакомления с курсом здесь.

Места ограничены, торопитесь!

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Machinelearning

Всегда буду делать бэкапы vs подумаю об этом завтра...😈

✔️ Порассуждаем на вечную тему на онлайн-дискуссии от MTS Web Services 31 июля в 11.00 МСК!

➡️ Зарегистрироваться ⬅️

☁️☁️Резервное копирование помогает сформировать защищенный архив данных и обеспечивает их удобное восстановление.

☀️ Бэкапы минимизируют последствия внештатных ситуаций и снижают риск вероятности потери данных из-за сбоев, кибератак и человеческого фактора.

🗂 Для эфира мы собрали три кейса из разных сфер: логистики, промышленности и ИТ.

Вы узнаете:

🔴Как сервис резервного копирования выручает компании;

🔴Помогает избежать нарушений бизнес-процессов;

🔴Почему бэкапы нужно делать всем.

Спикеры онлайн-дискуссии:

Павел Брагин,
руководитель cтрима «‎Вычисление, хранение и кибербезопасность», MTS Web Services.

Сергей Шаров, менеджер по развитию облачного направления, Киберпротект.

Приходите!
✉️Всегда рады вашим вопросам и историям!

Читать полностью…

Machinelearning

⚡️ Stable Video 4D: Модель для динамической генерации видео с разных ракурсов.

Stable Video 4D - модель генерации видео от Stability AI, способная преобразовывать одиночное видео объекта в несколько новых видео с различных ракурсов с поддержкой согласованности внешнего вида объекта по пространственным и временным осям..

Модель использует комбинацию из четырех визуальных энкодеров (SigLIP, CLIP, DINOv2 и OpenCLIP ConvNeXt) и пространственный агрегатор зрения для создания 5 кадров для каждого из 8 ракурсов примерно за 40 секунд.

В Stable Video 4D пользователю доступны параметры:

🟢Входное видео: загрузка одиночного видео объекта, которое будет использоваться как основа для генерации новых ракурсов. Поддерживаемые форматы — .gif, .mp4 или секвенция кадров в формате .png\.jpeg\.jpg;

🟢3D-позиции камеры: указание конкретных ракурсов и углов обзора, с которых модель должна сгенерировать новые видео;

🟢Количество кадров: по умолчанию модель генерирует 5 кадров для каждого ракурса, но этот параметр может быть изменен;

🟢Количество ракурсов: стандартно модель создает 8 новых ракурсов, но пользователь может настроить это количество в зависимости от своих потребностей;

🟢Количество шагов оптимизации: регулировка количества шагов, затрачиваемое на 4D-оптимизацию, чем больше шагов - тем лучше результат.


▶️Технические рекомендации по запуску официально не публиковались, но в сообществе пользователей подтверждают о возможности запуска Stable Video 4D на 16 GB VRAM.

▶️Для локального запуска необходимы модели:

🟠Stable Video 3D_U
🟠Stable Video 3D_P
🟠Stable Video 4D

▶️Локальный запуск Stable Video 4D:

с автозагрузкой моделей и дефолтными параметрами

python scripts/sampling/simple_video_sample_4d.py --input_path assets/test_video1.mp4 --output_folder outputs/sv4d


с настраиваемыми параметрами
python scripts/sampling/simple_video_sample_4d.py --input_path <path/to/video> --<sv3d_version> -- <elevations_deg> -- <num_steps> --output_folder_path <output/folder/path>



📌Лицензирование :

🟢бесплатно для исследовательского, некоммерческого и коммерческого использования организациями и частными лицами, получающими годовой доход в размере до 1 млн USD;
🟠для коммерческого использования организациями и частными лицами, получающими годовой доход в размере, превышающим 1 млн USD - запрос-консультация через форму


🟡Страница проекта
🟡Модель на HF
🟡Video на YT
🟡Сообщество в Discord
🟡Arxiv
🖥Github [ Stars: 25K | Issues: 239 | Forks: 2.6K]


@ai_machinelearning_big_data

#AI #StabilityAI #ML #Generative #SV4D

Читать полностью…

Machinelearning

Как начать карьеру в Data Science? Поступите в онлайн-магистратуру «Науки о данных» и учитесь у экспертов из экосистемы Сбера и НИТУ МИСИС 🤖

Получите качественное образование, погрузитесь в индустрию и приобретете первый практический опыт по специальности.

Вы сможете:

🔆 под руководством практикующих data-экспертов решать реальные бизнес-задачи,
🔆 освоить актуальный стек технологий для развития в аналитике данных или Data Science,
🔆 разработать собственный проект уже в ходе обучения,
🔆 развить мягкие навыки по модели Сбера,
🔆 применить полученные знания на практике в экосистеме Сбера или компаниях-партнерах,
🔆 подтвердить профессиональный уровень дипломом магистра НИТУ МИСИС гособразца.

Все обучение онлайн — не нужно ставить на паузу карьеру или переезжать. А еще вам будут доступны все студенческие льготы, включая отсрочку от военной службы.

Подайте заявку, сдайте экзамен — и начинайте учиться уже этой осенью!

Читать полностью…

Machinelearning

🛢 В мире, где данные — новая нефть, растёт спрос на дата-инженеров. Ведь именно они знают, как такую нефть добывать, обрабатывать и хранить. И пока компании осознают потребность в этих специалистах, конкуренция на рынке низкая, а зарплаты — высокие.

Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных». За 2 года вы на практике изучите Python, Java, Scala, Kotlin и SQL, научитесь проектировать пайплайны и обрабатывать данные, работать с системами хранения данных и базами данных в облаке. Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент.

Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения.

Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу: https://netolo.gy/dlaK

Реклама. ООО "Нетология". Erid 2VSb5woGCBz

Читать полностью…

Machinelearning

Продолжается отбор научных статей по искусственному интеллекту и машинному обучению для публикации в журнале конференции AI Journey.

Конкурс проводят организаторы международной конференции AI Journey. Ключевые работы будут опубликованы в специальном выпуске журнала «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics. Это научное издание выходит на площадках мировых электронных библиотек и индексируется в крупнейших библиографических базах данных научного цитирования.

Лучшая статья получит 1 млн рублей, а ее автор – возможность представить свое исследование перед научным сообществом.

Не упустите возможность презентовать свои исследования на площадке конференции и побороться за денежное вознаграждение! Прием статей продолжается до 20 августа, успейте подать заявку.

Читать полностью…

Machinelearning

Исследователи из команды «Адаптивные агенты» AIRI при участии лаборатории T-Bank AI Research собрали датасет XLand-100B для обучения ИИ самостоятельному принятию решений 🌐

Самый большой open-source датасет для Reinforcement Learning уже доступен для всех ученых и разработчиков и насчитывает 100 миллиардов кортежей — фиксированных наборов данных.

Он может пригодиться не только для создания ИИ-систем, которые будет гораздо проще настраивать для решения новых задач без вовлечения узкопрофильных специалистов, но и стать источником полезных синтетических данных.

🔖Подробнее про исследование читайте в новом Хабре научного сотрудника AIRI Александра Никулина, а также в материале ТАСС Наука.

Научная статья | GitHub | Канал команды

Читать полностью…

Machinelearning

⚡️ В России появился аналог LMSYS Chatbot Arena — LLM Arena

Платформу выкатил Роман Куцев в коллаборации с экспертами по нейросетям и бывшими разработчиками TrainingData.ru. В отличие от зарубежного бенчмарка, он дает возможность оценить и российские нейросети (YaGPT, GigaChat и другие).

В остальном принцип работы максимально схожий: пользователи бесплатно получают доступ к языковым моделям, взамен их просят оценивать ответы нейросетей, на основе которых формируется объективный независимый рейтинг. Сейчас для теста доступна 21 модель.

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Новостной дайджест

✔️OpenAI может оказаться на грани банкротства через 12 месяцев, прогнозируя убытки в размере $5 млрд.

Несмотря на рост доходов, прогнозируемых до $1,3 млрд. в 2024 году, OpenAI ожидает убытки в размере $5 миллиардов. Это связано с высокими затратами на обучение и эксплуатацию моделей искусственного интеллекта.
Финансовое положение OpenAI вызывает беспокойство у аналитиков, учитывая, что компания уже привлекла $11,3 миллиарда инвестиций. Без дополнительного финансирования или значительного увеличения доходов OpenAI может столкнуться с банкротством в течение 12-16 месяцев.
theinformation.com

✔️ИИ определяет факторы риска рецидива гепатоцеллюлярной карциномы человека.

Опубликованное в AJMC исследование описывает разработку модели искусственного интеллекта, которая точно определяет факторы риска рецидива гепатоцеллюлярной карциномы (ГЦК). Эта модель была создана для улучшения прогнозирования рецидива заболевания у пациентов, уже перенесших лечение.
Модель анализирует множество клинических данных и биомаркеров, чтобы выявить ключевые факторы, влияющие на вероятность рецидива ГЦК. В результате, она позволяет врачам более точно оценивать риски и разрабатывать индивидуализированные планы лечения для пациентов и улучшить результаты терапии и выживаемость.
ajmc.com

✔️Anthropic работает над синхронизацией папок и функцией цитирования источников.

Компания Anthropic работает над новой функцией синхронизации папок для проектов Claude AI. Эта функция даст пользователям автоматически синхронизировать локальные папки с проектами Claude AI, что значительно упростит процесс загрузки и обновления файлов для взаимодействия с Сlaude.
Дополнительно, Anthropic анонсировала предварительную версию функции цитирования для Claude AI. Эта функция будет предоставлять точные ссылки на источники информации, используемые при генерации ответов.
testingcatalog.com

✔️Нейронная сеть, способная прогнозировать движение тепла в материалах в 1 млн раз быстрее, чем традиционные методы.

Команда под руководством инженеров Массачусетского технологического института (MIT) разработали графовую нейронную сеть с виртуальными узлами (VGNN), которая предсказывает PDR (Phonon Dispersion Relation) в 1000 раз быстрее, чем существующие методы искусственного интеллекта, и в 1 миллион раз быстрее, чем традиционные методы.
VGNN позволяет быстро оценить дисперсионные соотношения фононов и обеспечивает несколько большую точность при прогнозировании теплоемкости материала, утверждается в исследовании.
interestingengineering.com

✔️ZhiSquare представила встраиваемый интеллект, который потенциально сможет расширить AGI на физический мир.

Китайская компания ZhiSquare Technology создала фундаментальные технологии, основанные на больших моделях общего восприятия, сквозных операциях обобщения на основе генеративных моделей, и объединения данных из нескольких источников.
Четыре ее основополагающие метода заложили основу для разработки AGI- системы общего назначения AI2R Brain.
Новая категория интеллектуальных роботов общего назначения Alpha Bot, управляемых AI2R Brain, может точно воспринимать мир в различных сценариях, взаимодействовать естественно, как человек, и выполнять различные задачи.
jiqizhixin.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🌟 MAR+DiffLoss: Autoregressive Image Generation without Vector Quantization

Основная идея метода заключается в применении процедуры диффузии для моделирования вероятностных распределений по токенам. Такой подход исключает традиционную категориальную кросс-энтропийную функцию потерь в пользу функции Diffusion Loss. Так устраняется необходимость в сложных и зачастую несовершенных токенизаторах с дискретными значениями, чувствительных к Gradient Approximation и субоптимальному качеству реконструкции.

В прикладной реализации используется сеть денойзинга, небольшая MLP-сеть, которая работает на основе вектора, производимого авторегрессивной моделью. Эта сеть обучена предсказывать распределение для каждого токена через функцию денойзинг-диффузии.

В результате MAR+DiffLoss модель может быстро генерировать изображения высокого качества , используя внутренние преимущества скорости моделирования последовательностей.

Одним из полученных достижений в ходе исследования стала способность модели генерировать изображения со скоростью менее 0,3 секунды на изображение при достижении впечатляющего показателя Fréchet Inception Distance (FID) менее 2,0 на наборе данных ImageNet.

Для тестирования демонстрации метода предлагается настроенный ноутбук для Google Collab. Помимо этого, в репозитории на Github размещены инструкции и код для самостоятельной тренировки моделей и запуску оценочного бенчмарка на датасете ImageNet.

⚠️ Внимание, тренировочный процесс крайне ресурсоемкий.

▶️Pre-trained модели выложены на Dropbox:
🟢MAR-B (280M)
🟢MAR-L (479M)
🟢MAR-H (943M)


📌Лицензирование : MIT license


🟡Arxiv
🟡Результаты бенчмарка
🟡Demo Collab
🖥Github [ Stars: 184 | Issues: 0 | Forks: 7]


@ai_machinelearning_big_data

#AI #ML #Diffusion #Pytorch

Читать полностью…

Machinelearning

⚡️ FBI-LLM: семейство binary foundation моделей, обученных с нуля.

Лаборатория Университета MBZUAI (ОАЭ) и Университет Carnegie Melon опубликовали в открытом доступе набор моделей, созданных по методологии Fully Binarized Large Language Model (FBI-LLM).

При создании FBI-LLM была использована авторегрессионная дистилляция потерь при сохранении эквивалентной размерности модели (130M, 1.3B, 7B) для достижения производительности, сравнимой с FP16 / BF16.

Для обучения семейства был использован датасет Amber, который состоит из документов Arxiv, книг, С4, данных веб-страниц, StarCoder, StackExchage и Wikipedia.
Суммарный объем датасета - 1259 млрд токенов.

Структурные параметры представленных моделей :

🟢FBI-LLM 130M - 12 layers, 12 attention heads, 769 hidden size, 2048 intermediate size;
🟢FBI-LLM 1.3B - 24 layers, 32 attention heads, 2048 hidden size, 5632 intermediate size;
🟢FBI-LLM 7B - 32 layers, 32 attention heads, 4096 hidden size, 11008 intermediate size;

В FBI-LLM используется токенизатор Llama-2-7b-hf, поддерживается текстовый ввод и текстовый вывод на английском языке.


🟡Модели на HF
🟡Arxiv
🖥Github [ Stars: 29 | Issues: 0 | Forks: 1]


@ai_machinelearning_big_data

#AI #LLM #ML #Autoregression #MBZUAI

Читать полностью…

Machinelearning

🌟 Agent-E: автоматизация повторяющихся действий в браузере с помощью LLM

Agent-E - система, основанная на агентах, цель которой -- снизить когнитивную нагрузку на человека и сэкономить время, которое обычно тратится на выполнение повторяющихся действий в браузере.
Система использует иерархическое итеративное планирование для выполнения многошаговых задач, что дает возможность заранее планировать действия и выстраивать последовательности их последовательности.

Agent-E основан на фреймворке AutoGen, который выполняет взаимодействие с веб-браузером через DOM Distillation на естественном языке:

🟢заполнение веб-форм с использованием информации о пользователе;
🟢поиск и сортировка товаров на сайтах электронных торговых площадок по различным критериям;
🟢поиск определенного контента и на сайтах, от спортивных результатов до контактной информации;
🟢навигация и взаимодействие с веб-медиа, например, воспроизведение и управление настройками видео на YouTube;
🟢выполнять комплексный веб-поиск для получения информации по широкому спектру тем;
🟢управлять задачами и автоматизировать их на платформах управления проектами (например, JIRA);
🟢оказывать персональную помощь в покупках, предлагая товары в зависимости от потребностей.

Подключение локальной LLM (поддерживается через API Ollama) дает Agent-E возможность генерировать текстовые ответы на основе запросов пользователя, т.е не только выполнять команды, но и адаптироваться к контексту.

На данный момент разработано только два агента: User proxy (выполняет навыки) и Browser navigation (взаимодействие с браузером), но у авторов большие планы на реализацию нового функционала:
🟠Проверка действий - ответ от каждого навыка с изменениями, чтобы LLM мог судить, выполнил ли навык правильно или нет;
🟠Планировщик выполнения для LLM, чтобы языковая модель могла принимать решение на несколько шагов вперед;
🟠Автоматическое сохранение предпочтений пользователя в локальную векторную БД:
🟠Голосовое управление;
🟠Расширение взаимодействия с браузером: закладки, навигация по вкладкам, хоткеи;
🟠Групповой чат для нескольких агентов .

▶️Локальный запуск :

# Install UV
pip install uv

# Generate & install requirements.txt from .toml
uv pip compile pyproject.toml -o requirements.txt
uv pip install -r requirements.txt

# Install extras/dev dependancies
uv pip install -r pyproject.toml --extra dev

# Install playwright drivers (Google Chrome)
playwright install

# Run the code with CLI
python -m ae.main

# OR Launch via web endpoint with FastAPI wrapper
uvicorn ae.server.api_routes:app --reload --loop asyncio


📌Лицензирование : MIT license


🟡Страница проекта
🟡Arxiv
🟡Demo Videos
🟡Сообщество Discord
🖥Github [ Stars: 491 | Issues: 8 | Forks: 63]


@ai_machinelearning_big_data

#AI #LLM #ML #Automate #Agents

Читать полностью…

Machinelearning

⚡️ ControlNet ProMax: Обновление набора ControlNet++ для Stable Diffusion XL.

ControlNet++ - это набор моделей ControlNet, собранный на новой архитектуре и упакованный в один единый файл без необходимости скачивать дополнительные препроцессоры и наборы моделей.

Обновление ProMaх включает в себя весь существующий набор ControlNet Union, в который были добавлены возможности комбинации нескольких типов ControlNet к одному исходному изображению и новые функции Tile Deblur, Tile Superresolution, Tile Variation, Inpaint и Outpaint.

C учетом обновления, набор ControlNet ProMax выполняет 12 функций и 5 дополнительных методик редактирования изображений:

🟢Openpose. Оценивает и аннотирует ключевые точки на теле, лице и руках человека, выполняет комплексную оценку позы;
🟢Depth. Предназначен для задач оценки глубины;
🟢Сanny. Обнаруживает края на изображениях с помощью детектора алгоритма Canny;
🟢Lineart. Извлекает контуры объектов из изображений, в частности для создания реалистичного воспроизведения с уточнением толщин контуров;
🟢AnimeLineart. Извлекает контуры, характерные для техник, используемых в аниме;
🟢MLSD (Mobile Line Segment Detection). Выделяет линейные структуры;
🟢Scribble. Обнаруживает неточные и неровные линии. Используется для имитации рисунков, похожих на скетчи;
🟢HED (Holistically-Nested Edge Detection). Извлекает линии с мягкими краями. Он предварительно обрабатывает изображения, чтобы усилить или изолировать особенности линий для задач, требующих детального обнаружения краев или линий;
🟢Pidi (Softedge). Выделяет линии мягких краев с использованием методов PiDiNet. Его цель - улучшить задачи анализа и обработки и предоставить уточненные исходные данные для дальнейшей обработки или анализа;
🟢TEED. Извлекает линии мягких краев с помощью техники TEDDetector;
🟢Segment. Выполняет визуальную сегментацию объектов и их частей;
🟢Normal. Создает карту нормалей на основе визуально-вычислительного анализ глубины;
🟠Tile Deblur. Устраняет размытие методом анализа наложенных плиток (Tiles) заданного размера (от 64х64 до 1024х1024);
🟠Tile Variation. Генерирует вариации с небольшим изменением в деталях методом Tiles;
🟠Tile Super Resolution. Кратно повышает разрешение методом анализа наложенных плиток;
🟠Inpainting. Заменяет или добавляет объекты на существующее изображение;
🟠Outpainting. Расширяет границы изображения, сохраняя общую композицию.

В архитектуре ControlNet++ были разработаны два новых модуля: Condition Transformer и Control Encoder, которые улучшают представление и обработку условий в модели.
Каждому условию назначается уникальный идентификатор типа управления, который преобразуется в эмбеддинги.
Condition Transformer позволяет обрабатывать несколько условий одновременно, используя один кодировщик и включает слой трансформера для обмена информацией между исходным изображением и условными изображениями.
Condition Encoder увеличивает количество каналов свертки для повышения представительной способности, сохраняя оригинальную архитектуру.
Также была использована единая стратегия обучения, которая одновременно оптимизировала сходимость для одиночных условий и управляла слиянием множественных условий, повышая устойчивость сети и ее способность к генерации качественных изображений.

▶️Набор ControlNet Pro Max может быть использован как в виде консольного инференса, так и в интерфейсе ComfyUI, где разработчиками были обновлены наборы нод для работы с моделями ControlNet.
ControlNet Pro Max поддерживает работу с любой генеративной моделью семейства Stable Diffusion XL. Поддержка семейства Stable Diffusion 3 находится в разработке.


📌Лицензирование : Apache-2.0 license


🟡Модель на HF
🖥Github [ Stars: 1.4K | Issues: 31 | Forks: 22]


@ai_machinelearning_big_data

#AI #ControlNet #ML #Diffusers #SDXL

Читать полностью…

Machinelearning

🌟 Shape of Motion: Построение динамических 3D-сцен по видео.

Shape of Motion представляет динамическую сцену как набор 3D-гауссианов, перемещающихся и вращающихся во времени.

Движение каждого элемента сцены параметризуется как линейная комбинация компактного набора базисных движений SE(3), что дает возможность разделить сцену на группы, движущиеся как жесткие тела.
Преодоление неоднозначности реконструкции достигается с помощью низкоразмерных структур 3D-движения через базисы SE(3) и комплексный набор априорных данных, на основе монокулярных карты глубины и долгосрочных 2D-треков.

Процесс финального построения 3D-сцены основан на комбинации статических и динамических гауссианов, с учетом прогноза реконструкции для цвета, глубины и масок и синтезированной согласованности этих соответствий во времени.

На тренировочном наборе данных (Iphone dataset, набор видео размером ~ 300GB) были построены более 40 тысяч динамических и более 100 тысяч статических гауссианов, 20 базисов SE(3).
Время обучения на 1хGPU A100 с использованием оптимизатора Adam разрешением 960x720 составило чуть более 2-х часов при скорости рендеринга 40 кадров в секунду.

По результатам тестов в процессе обучения, Shape of Motion показал хорошие результаты по качеству и консистентности построения сцен.
Однако, метод все еще требует оптимизации для каждой конкретной сцены и не может обрабатывать значительные изменения ракурса камеры. Также установлена критическая зависимость от точных параметров камеры и пользовательского ввода для создания маски движущихся объектов.

▶️Локальный запуск Shape of Motion:


# Install via conda

conda create -n som python=3.10
conda activate som

# pip install

pip install -r requirements.txt
pip install git+https://github.com/nerfstudio-project/gsplat.git

python run_training.py --work-dir <OUTPUT_DIR> --data:<DATA> --data.seq-name <DATASEQ_NAME>


👉Препроцессинговая обработка (построение карт глубины, маскирование объектов, 2D трекинг и оценка камеры) выполняется сторонними библиотеками. Внимательно ознакомьтесь с документацией

👉Лицензирование: MIT


Страница проекта
Arxiv
Датасет на GDrive
Github [ Stars: 365 | Issues: 2 | Forks: 18]


@ai_machinelearning_big_data

#AI #4D #ShapeOfMotion #ML

Читать полностью…

Machinelearning

⚡️Headless-AD: модель, которая умеет обобщаться на новые действия

На ICML 2024 исследователи из лаборатории Т-Bank AI Research и Института AIRI представили первую модель в In-Context Learning, которая умеет обобщаться на новые действия.

Ранее агенты умели адаптироваться только по State, Transition, Reward, а адаптация по действиям (Action) — не была до конца изучена и не использовалась в создании моделей. Агенты умели выполнять только фиксированный набор действий, а при появлении новых требовали переобучения с нуля.

Для решения этой проблемы исследователи взяли за основу Algorithm Distillation), ранее самую передовую разработку в In-Context Learning. Однако ее применение ограничено только тем набором действий, что доступен на этапе обучения.

Headless-AD была создана на основе AD с помощью трех модификаций:

● Отказ от конечного линейного слоя, который ранее ограничивал количество и набор доступных действий, — отсюда название Headless-AD.
● Кодировка действий случайными векторами - позволяет избежать необходимости дообучения для каждого нового действия, обеспечивая автоматическую адаптацию.
● Внедрение контекста, который позволяет информировать модель о доступных действиях.

Arxiv

Github

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 MINT-1T: мультимодальный датасет размером 1 триллионом токенов.

MINT-1T — это мультимодальный чередующийся набор данных с открытым исходным кодом, содержащий один триллион текстовых токенов и 3,4 миллиарда изображений.
Помимо этого, в него включены ранее неиспользованные источники: PDF-файлы и документы из ArXivOrg.

Состав и структура датасета :

🟢HTML-документы: 1029,4 миллиона шт.из дампов CommonCrawl WARC с 2017 по 2024 год;
🟢PDF-документы: 26,8 миллиона шт. из дампов CommonCrawl WAT за 2023-2024 годы;
🟢ArXiv-документы: 0,87 миллиона шт. были получены напрямую из S3-хранилищ ArXiv.

Процесс обработки длился более 6 месяцев, затрачено 4.2 млн процессорных часов и использовано порядка 2350 процессорных ядер вычислительной мощности.

Датасет был отфильтрован от документов низкого качества и дубликатов, очищен от персональных данных (e-mail, IP-адреса, другие идентификаторы), удален NSFW-контент.
Перед публикацией проведена дополнительная проверка фильтром качества текста из Huggingface Datatrove.
В этом команде разработки помогли инструменты:

🟠Детекция NSFW контента - https://github.com/GantMan/nsfw_model
🟠Определение языка - https://fasttext.cc/
🟠Фильтр качества текста - https://github.com/huggingface/datatrove
🟠Дедупликация - https://github.com/allenai/bff
🟠Парсинг PDF-файлов - https://github.com/pymupdf/PyMuPDF
🟠Парсинг HTML - https://github.com/huggingface/OBELICS

Эксперименты показали, что модели, обученные на MINT-1T, превосходят аналоги на существующих датасетах, особенно в задачах визуальных вопросов-ответов и обработки изображений.


📌Лицензирование : CC-BY-4.0


🟡Страница проекта
🟡Датасет на HF
🟡Arxiv
🖥Github [ Stars: 356 | Issues: 1 | Forks: 4]


@ai_machinelearning_big_data

#AI #Dataset #ML #MLLM

Читать полностью…

Machinelearning

🔥 Новостной дайджест

✔️Microsoft представляет Bing Generative Search, обновленную поисковую систему с AI

Анонсированный в феврале 2024 года, Bing AI Search сегодня был выпушен в ранний доступ.
Обновление сочетает в себе основу результатов поиска Bing и возможности больших и малых языковых моделей (LLM и SLM).
Он понимает поисковый запрос, изучает миллионы источников информации, динамически сопоставляет контент и формирует результаты поиска в новом макете, созданном искусственным интеллектом, для более эффективного выполнения намерений пользователя.
blogs.bing.com

✔️Все больше интернет-сервисов и сайтов блокируют доступ для AI к своим данным.

Data Provenance Initiative провела исследование, проанализировав 14 000 веб-доменов и обнаружив увеличение числа заблокированных токенов с 1 % до 7 % с апреля 2023 года по апрель 2024 года. Основными источниками таких ограничений являются новостные сайты, платформы социальных сетей и форумы, причем количество заблокированных токенов на новостных сайтах за год резко возросло с 3 до 45 %.
Специалисты видят риск в том, что дополнительные ограничения, предпринимаемые владельцами интернет-ресурсов в результате повлияет на качество и предвзятость будущих систем AI, которые будут вынуждены обучаться на манипулятивных данных.
the-decoder.com

✔️После успеха с AgentGPT компания Reworkd переключилась на создание ИИ-агентов для веб-скрапинга.

Компания Reworkd переориентировалась на разработку ИИ-агентов для веб-скрапинга. Новый подход Reworkd позволяет извлекать структурированные данные из публичных веб-сайтов с помощью мультимодальной генерации кода. Клиенты могут предоставить список сайтов и указать типы нужных данных, а ИИ-агенты Reworkd автоматически создают уникальный код для скрапинга каждого сайта и извлечения требуемой информации.
Сама Reworkd позиционирует себя как "универсальный API-слой для интернета", стремясь реализовать концепцию Семантической паутины, где компьютеры могут "читать" весь интернет.
techcrunch.com

✔️ИИ добился серебряной медали на решении заданий Международной математической олимпиады.

Системы искусственного интеллекта компании DeepMind (Google), AlphaProof и AlphaGeometry 2, успешно решили четыре из шести задач, получив оценку, эквивалентную серебряному призеру Международной математической олимпиады (IMO).
AlphaProof использует формальный язык Lean и алгоритм обучения с подкреплением AlphaZero для создания и проверки доказательств, AlphaGeometry 2 -- нейро-символическая гибридная система, обученная на большом наборе данных.
deepmind.google

✔️МLLM-модель Douchao компании ByteDance поставила рекорд производительности в 500 миллиардов токенов в сутки.

Достижению поспособствовали недавнее обновление семейства Douchao, которое добавило мультимодальность (text-to-image, speech synthesis, speech-to-text), востребованность среди корпоративных клиентов и низкая потребительская стоимость доступа.
Цена входного токена составляет всего 0,0008 юаня (это примерно 1 цент США) за тысячу токенов, что на 99,3% дешевле, чем в целом в отрасли.
jiqizhixin.com

✔️ OpenAI показала превью SearchGPT, свою новую поисковую систему!. Компания говорит, что это новый способ поиска, который перевернёт весь мир. Поисковик будет работать прямо в ChatGPT — он проверит ВСЕ доступные источники по теме, чтобы быстро выдать лучший ответ - https://chatgpt.com/search

@ai_machinelearning_big_data

#news #digest #ml #ai

Читать полностью…

Machinelearning

⚡️ Mistral Large 2: Новая большая модель 123В от MistralAI

Mistral AI
представила новую модель Mistral Large 2, которая имеет 128 тысяч токенов контекстного окна и содержит 123 миллиарда параметров.

Модель поддерживает десятки языков, включая русский и более 80 языков программирования. Mistral Large 2 набрала 84.0% на тесте MMLU и показывает результаты на уровне GPT-4 и Claude 3 Opus в задачах кодирования и рассуждений и улучшенные способности в многоязычных задачах.

Модель была обучена с акцентом на минимизацию "галлюцинаций" и расширение навыка следованию инструкциям.
Mistral Large 2 получила улучшение вызова функций и может выполнять как параллельные, так и последовательные задачи.

Модель доступна как чат через платформу Mistral AI под названием "mistral-large-2407" , по прямой ссылке для загрузки и в официальном репозитории Huggingface

Вместе с этим релизом MistralAi расширяет сотрудничество с крупными сервис-провайдерами и
с сегодняшнего для Mistral Large 2 доступна в сервисе Vertex AI (Google Cloud Platform), Azure AI Studio (Microsoft Azure), Amazon Bedrock (Amazon) и Watsonx Ai (IBM).



📌Лицензирование: Mistral Research License (для коммерческих проектов приобретение лицензии через форму)



🟡Страница проекта
🟡Модель 123B-Instruct на HF
🟡la Plateforme Chat


@ai_machinelearning_big_data

#AI #MistralLarge2 #ML #MistalAI #LLM

Читать полностью…

Machinelearning

⚡️ Новостной дайджест

✔️Accenture планирует запуск услуги по созданию собственных LLM для организаций на базе NVIDIA.

Accenture объявила о сотрудничестве с NVIDIA для разработки индивидуальных моделей искусственного интеллекта на базе Llama 2 с использованием платформы NVIDIA AI Foundry.
Ключевым аспектом сотрудничества является использование технологии NVIDIA NeMo, которая позволяет настраивать и оптимизировать модели Llama для конкретных приложений.
newsroom.accenture.com

✔️ServiceNow & Oxford Economics выпустили отчет "Индекс зрелости корпоративного искусственного интеллекта 2024"

Индекс исследует значение внедрения AI для организаций всех отраслей. В нем проведен глобальный опрос 4 470 руководителей и измерены показатели эффективности ИИ по пяти ключевым направлениям: стратегия и лидерство, интеграция рабочих процессов, таланты и кадры, управление и реализация ценности.
Результат показывает, что для многих организаций использование AI все еще находится на экспериментальной стадии, и только 18% используют возможности искусственного интеллекта.
oxfordeconomics.com
🔔 Полная версия отчета под этим новостным дайджестом


✔️Новая модель NVIDIA ChatQA-2 превосходит GPT-4 в задачах с длинным контекстом и RAG

NVIDIA представила новую модель ChatQA 2, основанную на архитектуре Llama 3
Модель способна эффективно работать с контекстом длиной до 128 000 токенов, что значительно больше стандартного параметра 8 000 токенов в Llama3-70B.
NVIDIA использовала дообучение, включающее расширение контекстного окна и трехэтапную инструктивную настройку. ChatQA 2 показывает результаты, сопоставимые с GPT-4-Turbo-2024-0409.
Кроме того, исследователи обнаружили, что использование длинноконтекстного ретривера может смягчить проблему фрагментации контекста top-k в RAG, что улучшает результаты для задач понимания длинного контекста.
analyticsindiamag.com

✔️Объединенное обучение с дифференциальной конфиденциальностью для сквозного распознавания речи

Apple опубликовала исследование в котором рассматривается пробел в изучении применения федеративного обучения (FL) с дифференциальной конфиденциальностью (DP) для автоматического распознавания речи (ASR).
Авторы обучили FL-модели, которые работают оптимально даже при использовании разнородных данных, начальной модели из другого домена или при отсутствии предварительно обученной начальной модели.
Также поднимается проблема применения DP к FL для ASR, которая осложняется сильным влиянием шума DP на обучение модели, особенно в больших моделях с сильно несбалансированными градиентами в блоке внимания. Исследование
machinelearning.apple.com

✔️MIT CSAIL разработал MAIA, автоматизированный интерпретируемый агент, который проводит эксперименты для понимания и уточнения поведения нейронных сетей.

MAIA (Multimodal Automated Interpretability Agent) - система, автоматизирующая различные задачи интерпретации нейронных сетей на основе модели "зрение-язык". MAIA может генерировать гипотезы, проводить эксперименты и уточнять свое понимание путем итеративного анализа. Она продемонстрировала эффективность в маркировке нейронных компонентов, очистке классификаторов изображений и обнаружении скрытых предубеждений. Гибкость MAIA позволяет ему отвечать на различные запросы по интерпретируемости и разрабатывать эксперименты "на лету".
news.mit.edu

✔️На Олимпийских играх в Париже будут применяться китайские разработки в AI.

В ходе проведения игр будут использоваться китайские технологии искусственного интеллекта, а компания Alibaba, разработчик языковой модели Qwen, станет первым поставщиком технологии применения AI на спортивных соревнованиях такого масштаба. Международный олимпийский комитет (МОК) сотрудничает с Alibaba и Intel по задачам:
360-градусные спецэффекты при прямой трансляции с помощью технологий Alibaba, AI-колоризацию черно-белых изображений и снижение углеродного следа, а LLM Qwen обеспечит техническую поддержку и будет доступна для использования официальными комментаторами, помогая в комментировании различных событий.
qbitai.com

@ai_machinelearning_big_data

#news #digest #ml #ai

Читать полностью…
Подписаться на канал