ai_machinelearning_big_data | Технологии

Telegram-канал ai_machinelearning_big_data - Machinelearning

27348

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

One Day Offer для Центра робототехники 🤖

13 июля вы сможете пройти все этапы отбора, познакомиться с инновационной командой Сбера и получить оффер Middle/Senior Robotics или Backend Developer.

Наш Центр проводит исследования, создаёт роботов, применяя искусственный интеллект, и работает по направлениям: манипуляция, роботизация логистики и мобильные роботы.

Сейчас перед нами стоит по-настоящему амбициозная задача – разработать антропоморфного робота общего назначения.

В работе мы используем: ROS/ROS2, DDS, Python, PyTorch, JAX, Model-transformers, SOTA, C++, Isaac Sim / MuJoCo / PyBullet.

Какие задачи будут в вашем планере 👇

▪️ разработка алгоритмов и систем управления роботами (core, body, brain) и драйверов для различных устройств в виде ROS2 узлов
▪️ создание алгоритмов внутренней и внешней калибровки сенсоров (лидары, камеры, IMU), робототехнических сервисов на Behavior Trees / State Machines
▪️ работа с симуляторами на базе Isaac Sim / MuJoCo / PyBullet
▪️ проектирование архитектуры системы

Масштабные проекты и работа мечты ждут вас. Регистрируйтесь на One Day Offer 13 июля 😉

Читать полностью…

Machinelearning

Появляется новый тип баз данных — делаем обзор! Дата-инженер из финтех-компании Точка Николай Мозганов расскажет, как пользоваться векторными базами данных для ML-задач. Если коротко: теперь в вектор можно превратить слова, предложения и даже звуки.

Читайте статью и задавайте вопросы в комментариях!

Читать полностью…

Machinelearning

🌟 Paints-Undo - генерация пошагового видео процесса рисования по исходному изображению.

Paints-Undo — это проект lllyasviel ( разработчик ForgeUI, FooocusUI, Controlnet, IC-Light ), целью которого является предоставление базовых моделей человеческого поведения при рисовании с надеждой, что будущие модели искусственного интеллекта смогут лучше соответствовать реальным потребностям людей-художников.

Проект представляет собой семейство моделей, которые принимают изображение в качестве входных данных, а затем выводят последовательность рисования этого изображения.
Модель отображает все виды человеческого поведения: рисование эскизов, рисование, раскрашивание, затенение, преобразование форм, переворот влево-вправо, настройку цветовой кривой, изменение видимости слоев, изменение общей идеи в процессе рисования.

Вычислительные потребности: 24 ГБ VRAM на Nvidia 4090 и 3090TI, минимальные потребности - 12-16 ГБ VRAM.
На обработку одного изображения уйдет в среднем 5-10 минут для видео длительностью 25 секунд с FPS=4 в разрешении 512х320 и ниже.

Проект состоит из 2 моделей :
Paints_undo_single_frame - модель берет 1 изображение и каждый указанный шаг за отдельную итерацию в обратном от результата порядке (пояснение на примере с живым рисованием, где одно движение кисти = одному шагу для модели. Диапазон шагов: от 0 до 999, где 0 - законченное изображение, а 999 - первое движение кисти.)

Paints_undo_multi_frame - модель берет 2 изображения и выводит 16 промежуточных кадров между двумя входными изображениями. Результат гораздо более последовательный, чем у однокадровой модели, но также намного медленнее, менее «творческий» и ограничен 16 кадрами.

Архитектура моделей представляет собой модифицированную SD 1.5, помимо этого включает компоненты 3D-UNet, VAE, CLIP, CLIP-Vision, Image Projection.


Локальный запуск:

git clone https://github.com/lllyasviel/Paints-UNDO.git
cd Paints-UNDO
conda create -n paints_undo python=3.10
conda activate paints_undo
pip install xformers
pip install -r requirements.txt
python gradio_app.py


🟡 Страница c демо
🖥 Github [ Stars: 499 | Issues: 7 | Forks: 29 ]

@ai_machinelearning_big_data

#Image2Video #Image2Sketch #Diffusers #Research

Читать полностью…

Machinelearning

IT-тусовка для ML-разработчиков от Яндекса.
YACAMP, гранж и лето.

10 августа встречаемся на YACAMP — масштабной IT-тусовке в стиле гранж от сервисов Яндекса.
Полезные доклады от экспертов по вашей теме, нетворкинг и вечеринка.

Поговорим про продуктовую разработку, обсудим сложные кейсы, ну и отдохнём, конечно. В программе 10+ интерактивных площадок, выступления музыкантов, уже нашумевшее IT-казино и вечеринка до самого утра.

Читайте подробности и регистрируйтесь на YACAMP.

Реклама. ООО «Яндекс.Такси» ИНН 7704340310

Читать полностью…

Machinelearning

🌟 GeoWizard — новая модель для оценки 3D-параметров изображений

GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно. Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.

Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.

git clone git@github.com:fuxiao0719/GeoWizard.git
cd
GeoWizard
conda create -n geowizard python
=
3.9

conda activate geowizard
pip install -r requirements.txt
cd
geowizard



🟡 Страничка GeoWizard
🖥 GitHub [ Stars: 573 | Issues: 1 |Forks: 23 ]
🟡 Hugging Face
🟡 Arxiv

@ai_machinelearning_big_data

#Normal #3D #Depthmap #Generative #Ai

Читать полностью…

Machinelearning

🌟 ControlNet++ — улучшенная версия вспомогательной технологии для генерации изображений

ControlNet++ использует дискриминационные модели вознаграждения для оптимизации согласованности между входными условиями (изрбражение-референс) и результатами генерации за счет оптимизации последовательности циклов.

Согласно опубликованным бенчмаркам, ControlNet++ значительно улучшает управляемость процессом генерации.
Новый метод метод превосходит классический ControlNet:
- на 7.9% по mIoU;
- на 13.4% по SSIM;
- на 7.6% по RMSE.

Адаптации под UI для Stable Diffusion пока нет.
Еще круче то, что контролнеты++ успели упаковать в Controlnet Union и собрали в 1 модель.

Теперь можно разом делать 12 препроцессов с одной модели CN.

👉 Репозиторий https://huggingface.co/xinsir/controlnet-union-sdxl-1.0

Модель safetensors без конфига в папку с Контролнетом Автоматика1111 или ComfyUI.

Это все действия которые необходимо сделать)

А самое главное - больше не нужно качать тонну моделей и следить в UI что нужный препроцессор выбран.

Работает controlnet union на SDXL-моделях. Для SD3 свой контролнет, для SD1.5 -свой, этот работать не будет.

👉 Видео: https://www.youtube.com/watch?v=UBFEw1IUX_I

🖥 GitHub [ Stars: 274 | Issues: 2 | Forks: 11 ]
🟡 Страничка проекта ControlNet++
🟡 Arxiv
🟡 Демо на HF
🟡 Модели на HF

#ControlNet #Diffusers #Image2Image

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 СogVLM2-Video — обновление популярной VLM уровня GPT4V на основе Llama3-8B

CogVLM2-Video обучалась на боле чем 30 тыс пар видео-текст. Метод понимания видеоряда. реализованный в модели основан на автоматизированном процессе обобщения распознанных кадров с временной меткой, которым управляет LLM c навыком ранжирования локализаций и удержанием ключевого контекста.

CogVLM2 способна проанализировать видео, дать ответы на вопросы по контексту видеоряда и предоставить текстовые субтитры значительно быстрее других VLM.

Лицензия на использование:
- для академических исследований бесплатно
- для коммерческих проектов необходима регистрация через специальную форму и выполнение условий по указанию авторства на всех полученных материалах.

🟡 Страничка CogVLM2
🖥 GitHub [ Stars: 1.5к | Issues: 26 | Forks: 79 ]
🟡 Модель на HF

#video #VLM

Читать полностью…

Machinelearning

⚡️ ReproModel — набор no-code инструментов для обучения и тестирования AI-моделей.

ReproModel — GUI, который упрощает эффективность исследований, предоставляя стандартизированные модели, загрузчики данных и процедуры обработки.
Он включает в себя полный спектр уже существующих бенчмарков, экстрактор кода и дескриптор LLM.

Этот набор инструментов помогает исследователям модульно структурировать свою разработку и сравнивать производительность каждого этапа конвейера воспроизводимым способом.
По заявлению разработчика, инструмент помогает сократить время разработки, расчета и обучение модели как минимум на 40%.

*️⃣Лицензирование: MIT License
*️⃣Для локального запуска необходим NodeJS
*️⃣Для локального запуска генератора методологий необходима Ollama

🖥 GitHub [ Stars: 35 | Issues: 0 | Forks: 1 ]
🟡 Демо видео на Youtube

#opensource #train #LLM #SOTA

Читать полностью…

Machinelearning

Изучите применение ChatGPT в рабочих целях, чтобы получить от этого прибыль. Сейчас самое время начать использовать искусственный интеллект.

Здесь вы узнаете, почему стоит освоить ChatGPT. Это поможет вам:
- Использовать ChatGPT в вашей профессиональной сфере.
- Предлагать компаниям разработку индивидуально дообученного ChatGPT по заказу.
- Увеличить свой доход, освоив навык создания индивидуально дообученного ChatGPT.

Зарегистрируйтесь на бесплатный вебинар, чтобы узнать больше деталей.

Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8KPpVo

Читать полностью…

Machinelearning

🌟 CLIP-DINOiser — MaskCLIP с семантической сегментацией под управлением DINO

Метод CLIP-DINOiser использует только один прямой проход CLIP и двух легких сверточных слоев при выводе, при этом не требует дополнительного контроля и дополнительной VRAM.

В результате применение методв значительно снижается уровень шума.

Метод демонстрирует высокие результаты в бенчмарках COCO, Pascal Context, Cityscapes и ADE20k.

Код запуска:

python demo.py --file_path [path to the image file] --prompts [list of the text prompts separated by ',']

❗️ Дополнительно нужно установить MMCV and MMSegmentation

🟡 Страничка CLIP-DINOiser
🟡 Arxiv
🖥 GitHub
🟡 Jupyter Notebook

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Arcee Agent 7B — свежая модель на базе Qwen2-7B

Arcee Agent 7B превосходит GPT-3.5-Turbo, и многие другие модели в написании и интерпретации кода.
Arcee Agent 7B особенно подходит для желающих реализовать сложные решения на основе ИИ без вычислительных затрат на большие языковые модели.

И да, также имеются квантизованные GGUF-версии Arcee Agent 7B.

🤗 Hugging Face

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 MInference 1.0 by Microsoft pre-release

В преддверии предстоящей ICML 2024 (Вена, 21-27 июля 2024 г.) Microsoft опубликовала результаты исследования проекта MInference. Данный метод позволяет ускорить обработку длинных последовательностей за счет разреженных вычислений, применение уникальных шаблонов в матрицах.
Методика MInference не требует изменений в настройках предварительного обучения.

Проведенные исследователями Microsoft синтетические тесты метода на моделях LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K и Qwen2-128K показывают сокращение задержек и ошибок при предварительном заполнении до 10 раз на A100 с сохранением точности.

🟡 Discuss at Huggingface
🖥 GitHub
🟡 Arxiv
🟡 Страница проекта MInference 1.0

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Опубликована модель CodeGeeX4-ALL-9B семейства CodeGeeX4

CodeGeeX4-ALL-9B - мультиязычная модель для генерации кода, обученная на GLM-4-9B. Новая версия семейства позволяет поддерживать комплексные функции:
- завершение и генерация кода;
- интерпретатор кода;
- вопросы и ответы по коду на уровне репозитория;
- веб-поиск (при наличии агента)

CodeGeeX4-ALL-9B показала конкурентоспособную производительность в общедоступных тестах BigCodeBench и NaturalCodeBench.
По заявлению авторов, это самая мощная модель генерации кода с числом параметров менее 10B, превосходящая в некоторых аспектах более крупные модели общего назначения и обеспечивающая лучший баланс между скоростью вывода и производительности модели.

⚠️ Лицензирование

Модель имеет собственный тип лицензирования:
- бесплатно и неограниченно для для научно-образовательных и исследовательских проектов
- коммерческие проекты должны пройти регистрацию в форме https://open.bigmodel.cn/mla/form и выполнять соблюдение условий

Запустить:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained("THUDM/codegeex4-all-9b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
"THUDM/codegeex4-all-9b",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=True,
trust_remote_code=True
).to(device).eval()
inputs = tokenizer.apply_chat_template([{"role": "user", "content": "write a quick sort"}], add_generation_prompt=True, tokenize=True, return_tensors="pt", return_dict=True ).to(device)
with torch.no_grad():
outputs = model.generate(**inputs)
outputs = outputs[:, inputs['input_ids'].shape[1]:]
print(tokenizer.decode(outputs[0], skip_special_tokens=True))


🖥 GitHub
🟡 HF Models
🟡 Demo
🟡 VS Code Extension
🟡 Jetbrains Extension

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Lazy Diffusion — трансформер для редактирования изображений практически в реалтайме

LazyDiffusion — это диффузионный трансформер, который очень быстро генерирует объекты по промпту в области, заданной маской. Генерируются только пиксели под маской, и время выполнения зависит больше от размера маски, чем от размера изображения.

Если маска размера ~10% от всего изображения, то LazyDiffusion показывает в 10 раз большую скорость, чем другие модели и методы инпейнтинга.

🟡 Страничка Lazy Diffusion
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Long-CLIP — набор моделей на основе CLIP для работы с длинными текстовыми описаниями.

Long-CLIP — это модифицированная вариация классического CLIP, поддерживающая обработку до 248 текстовых токенов и позволяющая генерировать точные изображения на основе длинного промпта.

Тестирование Long-CLIP на 1 миллионе пар "текст - изображение" показало превосходство над CLIP на 20% при работе с длинным текстовым описанием и на 6% при работе с обычным.

🟡Models
🖥 GitHub
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ GraphRAG — методология улучшенного извлечения данных для генерации текста из определенных источников (RAG) от Microsoft.

GraphRAG использует графы знаний для улучшения ответов на запросы. Во время запроса система обращается к графу знаний и использует резюме сообществ и связи между сущностями для формирования контекста, который помогает LLM дать более точный ответ, чем традиционные методы, основанные на поиске по векторным сходствам.

Архитектура GraphRAG состоит из ключевых компонентов:

Indexer : разделяет корпус данных на мелкие текстовые блоки (TextUnits), извлекает из них сущности, связи и ключевые утверждения.
Clustering : группирует данные в иерархическую структуру с использованием метода Лейдена, создавая граф знаний.
Community Summarization : генерирует обобщенные описания для каждой группы данных, что помогает в понимании контекста и смыслового связывания всей информации.
Knowledge Graph : структура, объединяющая сущности и их связи, созданная на основе данных.

GraphRAG значительно улучшает работу моделей языка с частными данными, позволяя им более точно и полно отвечать на сложные вопросы, требующие синтеза информации из разных источников.

⚠️ Рекомендации и предупреждения:

- Эффективность индексации зависит от правильной идентификации понятий
- Индексация может быть дорогостоящей, рекомендуется создание тестового набора данных
- Система предназначена для опытных пользователей в предметной области
- Необходим анализ ответов человеком для получения достоверной информации
- Методология наиболее эффективна на текстовых данных с общей темой и множеством сущностей

📄 Документация:

🟢локальный запуск
🟢конфигурирование
🟢эмулятор Azurite

🖥Github
🖥Github для запуска на API Azure
🟡Страница проекта
🟡Arxiv

@ai_machinelearning_big_data

#LLM #GraphRAG #ML #RAG #NLP #Deeplearning

Читать полностью…

Machinelearning

⚡️ Дайджест интересных новостей

💰 Оценка компании TSMC Co. на короткое время превысила 1 триллион долларов из-за набирающей обороты "гонки за AI". Bloomberg

🟢 Nvidia объявила новый конкурс на создание набора данных с открытым исходным кодом для обучения студентов-магистров по проектированию аппаратного обеспечения с целью в конечном итоге автоматизировать разработку будущих графических процессоров. Nvlabs.Github

🖼 Magnific AI представила новый плагин Photoshop, позволяющий пользователям использовать инструмент масштабирования и улучшения изображения непосредственно в интерфейсе самого популярного редактора графики от Adobe. MagnificAI

👨🏻‍💻 Платформа Poe (принадлежит Quora) запустила «Previews» — новую функцию, позволяющую пользователям создавать веб-приложения и взаимодействовать с ними непосредственно в чатах, используя Claude 3.5 Sonnet. TechCrunch

🇯🇵 Министерство обороны Японии опубликовало свою первую базовую политику по использованию искусственного интеллекта в военных целях, направленную на решение проблем с набором персонала и не отставание от мировых держав в оборонных технологиях.. The Japan times

🎦 "Менее чем через год будет создано видео с помощью искусственного интеллекта в реальном времени...": интервью главного научный сотрудник Luma Labs. Andersen Horowitz

👩‍⚕️ Thrive AI Health, стартап, финансируемый OpenAI и Thrive Global, использует ИИ для предоставления персонализированных медицинских консультаций. Помощник с искусственным интеллектом может использовать данные человека, чтобы давать рекомендации по сну, диете, физическим упражнениям, управлению стрессом и социальным связям. Time

⚡️Groq представила молниеносный механизм LLM. Он может обрабатывать запросы со скоростью более 1250 токенов в секунду, что намного быстрее, чем могут делать чипы графических процессоров таких компаний, как Nvidia. Это позволяет движку Groq практически мгновенно отвечать на запросы и задачи пользователей. Venturebeat

🇨🇳 Microsoft не будет следовать за OpenAI в блокировании доступа Китая к моделям искусственного интеллекта. Модели OpenAI доступны клиентам через Microsoft Azure.
Seekingalpha

#news #digest

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Test-Time Training RNN (ТТТ) - принципиально новый метод машинного обучения.

TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.
Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.

Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
По сравнительным бенчмаркам с другими популярными методами машинного обучения, такими как трансформеры и рекуррентные нейронные сети, было обнаружено, что в некоторых задачах TTT работает лучше.

Этот революционный метод позволит приблизиться к созданию более гибких и эффективных моделей искусственного интеллекта, способных лучше адаптироваться к новым данным в реальном времени.

На Github опубликованы адаптации метода:

- адаптация под Pytorch
- адаптация под JAX

🟡Arxiv
🖥 GitHub for Pytorch [ Stars: 277 | Issues: 3 | Forks: 12 ]
🖥 GitHub for Jax [ Stars: 129 | Issues: 1 | Forks: 6 ]

@ai_machinelearning_big_data

#Pytorch #Jax #TTT #LLM #Training

Читать полностью…

Machinelearning

⚛️ Исследователи из MIT разработали новый инструмент на основе генеративного ИИ, предназначенный для анализа сложных табличных данных в базах данных

Этот инструмент, называемый GenSQL, основан на языке программирования SQL и позволяет пользователям выполнять сложные статистические анализы без глубокого понимания внутренних механизмов. GenSQL может использоваться для прогнозирования, обнаружения аномалий, заполнения пропущенных значений, исправления ошибок и создания синтетических данных. Система интегрирует табличный набор данных и генеративную вероятностную модель ИИ, которая может учитывать неопределенность и корректировать процесс принятия решений на основе новых данных.

Одно из основных преимуществ GenSQL заключается в его способности обрабатывать сложные запросы, комбинируя анализ данных и модели. Например, система может определить вероятность того, что разработчик из Сиэтла знает язык программирования Rust, учитывая не только корреляцию между столбцами в базе данных, но и более сложные зависимости. Кроме того, вероятностные модели, используемые GenSQL, являются прозрачными и аудируемыми, что позволяет пользователям видеть, какие данные используются для принятия решений и получать оценку уровня неопределенности.

В ходе исследования GenSQL был сравнен с другими популярными методами, основанными на нейронных сетях, и показал значительно более высокую скорость и точность. Исследователи планируют продолжить разработку инструмента, сделав его более доступным и мощным, а также расширить его возможности для обработки больших объемов данных и обработки естественного языка, чтобы в конечном итоге создать эксперта по ИИ, подобного ChatGPT, для анализа баз данных.

📌 Источник

#базыданных #mit

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔹 Как применять нейронные сети в анализе финансовых рынков?

Рассмотрим, нейронные сети в финансах на открытом уроке от Otus.

Эта лекция разработана для тех, кто стремится понять: как нейронные сети могут быть использованы для предсказания рыночных движений и улучшения инвестиционных стратегий

✅ В течении часа рассмотрим реальные примеры и кейсы, использования нейронных сетей в торговых стратегиях, включая анализ временных рядов и алгоритмическую торговлю.

Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска

👉 Регистрация на урок и подробности:
https://otus.pw/kcoE/?erid=LjN8KVYNM

Читать полностью…

Machinelearning

Конференция по машинному обучению

Собрали 30+ спикеров из Т-Банка, Яндекса, VK, MTS AI и AIRI. Будет:

— 4 параллельных потока: NLP & MLOps/LLMops, Research & RnD, CV & Speech, RecSys & TS;
— доклады и обсуждения реальных бизнес-задач;
— афтепати с барбекю и диджеем.

Turbo ML Conf пройдет 20 июля в Москве. Обязательно зарегистрируйтесь, пока за вас это не сделал бот.

erid:2VtzqxZ5ma8
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673

Читать полностью…

Machinelearning

🤔 Билайн.бизнес и венчурный фонд ХАЙВ объявляет о запуске серии Pitch Day AI, посвященной инновационным технологиям в области искусственного интеллекта и больших данных.

Мы ищем перспективные стартапы, у которых есть В2В продукт для корпоративных клиентов, которые получат возможность стать партнерами билайн.бизнес и войти в продуктовый портфель Big Data & AI, а также привлечь инвестиции от венчурного фонда ХАЙВ в размере до 100 млн руб.

Темы:
- Видеоаналитика и компьютерное зрение
- Анализ речи и текста
- Приложения, решения и ПО для повышения эффективности бизнеса и государства на основе машинного обучения и больших данных (кроме видео-, аудио- и текстовой аналитики), включая сервисы для оценки финансовых рисков и прогнозирования оптимального места для открытия торговой точки.

Условия для участия:
- Готовый продукт, соответствующий одной из заявленных тем
- Наличие команды и первых коммерческих клиентов с подтвержденным опытом внедрения и использования продукта.

Этапы проведения:
Прием заявок до 19 июля.
19 июля — 2 августа — отбор проектов.
2 — 14 августа — подготовка к выступлению.
15, 22 и 29 августа — проведение Pitch Day.

Все необходимые для участия и просто полезные ссылки — на билайн now 🐝

Реклама ПАО «ВымпелКом», beeline.ru

Читать полностью…

Machinelearning

⚡️ MOTIA — outpaint видео (добавление контента за границами области просмотра) с сохранением межкадровой согласованности.

MOTIA — двухэтапный конвейер на основе генеративной диффузии.
Первая фаза (input-specific adaptation) выполняет outpaint первого кадра видео и определяет паттерн закономерности для дорисовки в последующих кадрах.
Вторая фаза (pattern-aware outpainting) делает непосредственно outpaint всего видео на основе знаний первой фазы, добавляя шум и контролирует пространственную геометрию, сохраняя возможную плавность и бесшовность.

Судя по бенчмаркам разработчика, MOTIA - один из лучших методов на данный момент.

Запустить:

conda env create -f environment.yml
git clone https://huggingface.co/wangfuyun/Be-Your-Outpainter
bash run.sh


🖥 GitHub
🟡 Модели на HF
🟡 Страничка MOTIA
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ RouteLLM - фреймворк с открытым исходным кодом для эффективной маршрутизации между несколькими LLM

Метод построения маршрутов (роутеров) использует данные о предпочтениях для обучения управляющего роутера, который может предсказывать, какие запросы могут быть обработаны слабыми моделями, а какие требуют более мощных.

RouteLLM обещает значительное снижение затрат без ущерба для качества ответов. В тестах, таких как MT Bench и MMLU, RouteLLM достиг высокой производительности при меньшем количестве вызовов на мощные модели.

В фреймворке реализована поддержка вызова по API (OpenAI, Anthropic, Google, Amazon Bedrock) и локального бекэнда (Ollama)

Преднастроены 4 роутера, обученных на паре моделей gpt-4-1106-preview и  mixtral-8x7b-instruct-v0.1 :

mf - использует модель матричной факторизации, обученную на данных о предпочтениях
sw_ranking - использует взвешенный расчет ELO для маршрутизации, где каждый голос взвешивается в зависимости от того, насколько он похож на запрос пользователя
bert - использует классификатор BERT
causal_llm - использует классификатор отдельной LLM настроенный на данные о предпочтениях.
random - случайным образом направляет запрос к случайной модели.

🟡Arxiv
🟡Страница проекта
🟡Модели (Augmented for routes) на HF
🖥Github [ Stars: 686 | Forks: 52 | Issues:2]

#LLM #ML #machinelearning #opensource

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Встречайте Kolors — диффузионная модель для генерации изображений с упором на фотореализм

Kolors — это большая диффузионная модель, опубликованная вчера командой Kuaishou Kolors.

Kolors была обучена на миллиардах пар "текст-изображение" и показывает отличные результаты в генерации сложных фотореалистичных изображений.

По результатам оценки 50 независимых экспертов, модель Kolors генерирует более реалистчиные и красивые изображения, чем Midjourney-v6, Stable Diffusion 3, DALL-E 3 и другие модели

🟡 Страничка Kolors
🟡 Попробовать
🖥 GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Обновление nanoLLaVA-1.5 1B

На днях обновилась Vision-Language модель nanoLLaVA-1.5 1B для работы на edge девайсах.

Значительно улучшилась производительность по сравнению с v1.0, при этом размер остался таким же небольшим, что очень удобно для многих применений

🤗 Hugging Face
🖥 Github

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Дмитрий Зауэрс назвал принципы для регулирования искусственного интеллекта в финансовой отрасли

На Финансовом конгрессе в Санкт-Петербурге обсудили подходы к регулированию искусственного интеллекта.

В дискуссии на эту тему приняли участие представители Газпромбанка, Яндекса, ВТБ, Московской биржи, Центра технологий искусственного интеллекта Сколтеха.

Модератор сессии «Искусственный интеллект: подходы к регулированию» Первый заместитель Председателя ЦБ РФ Ольга Скоробогатова отметила, что банки преуспели в использовании традиционных инструментов с использованием ИИ, но появляются новые инструменты, и в связи с этим возникает вопрос о том, как защитить бизнес и потребителей от некачественных моделей и как должна быть распределена ответственность.

😃Заместитель Председателя Правления Газпромбанка Дмитрий Зауэрс считает, что необходим дифференцированный подход к регулированию использования ИИ в финансовой сфере.

«В целом, можно выделить три вида моделей. Первое — это большие модели общего назначения, например, большие лингвистические модели. Второй уровень — модели, при создании которых банки заинтересованы в сотрудничестве, в частности для анти-фрод решений. И, третье — это модели, за счет которых банки конкурируют друг с другом, и они всегда будут разрабатываться внутри. На мой взгляд, большие модели по сути становятся естественными монополиями. И здесь требуется серьезное регулирование для того, чтобы общество в целом могло получать пользу от этих разработок. Что касается общих для банков решений, то здесь также нужны какие-то нормы, потому что требуется обмен большим количеством данных, и он должен быть регламентирован. Когда речь идет о моделях за счет, которых банки конкурируют, — тут нужно нулевое регулирование», — сказал Дмитрий Зауэрс.


«В том числе тут обсуждалась интерпретируемость моделей, я считаю, что это является ограничением для развития технологий, потому что более сильный класс моделей, например, нейросети, не являются интерпретируемыми. В качестве сравнения: большинство не понимает, как устроены двигатели внутреннего сгорания, но успешно пользуется автомобилями. И также интерпретируемость моделей не влияет на их эффективность», — объяснил он.


Участники дискуссии в целом согласились с предложенным подходом и сошлись на мнении, что регулирование не должно создавать барьеры для развития ИИ-технологий.

«В скором времени конкуренция на финансовом рынке превратится в конкуренцию между дата-сайентистами», — отметил Дмитрий Зауэрс.


@gazprombank

Читать полностью…

Machinelearning

🌟 «Баннерная крутилка» — какую роль в ней играет ML

Яндекс рассказал на Хабре о том, как работает один из самых высоконагруженных сервисов.

Всего за 200 миллисекунд крутилка перебирает базу из миллиарда документов и выдает наиболее релевантные для пользователя.

Автор рассказал, какие решение они применили, как устроены стадии отбора документов и какую роль в них играет ML.

📎Habr

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ InternLM представила XComposer-2.5 - мультимодальную 7B VLM с увеличенным контекстом для ввода и вывода.

InternLM-XComposer-2.5 справляется с задачами по текстовому описанию изображений со сложной композицией, достигая возможностей GPT-4V. Обученная с помощью чередующихся контекстов "изображение - текст" длиной 24 КБ, она может легко расширяться до контекстов длиной 96 КБ посредством экстраполяции RoPE.

По сравнению с предыдущей версией 2.0, InternLM-XComposer-2.5 имеет три основных улучшения:
- понимание сверхвысокого разрешения;
- детальное понимание видео;
- обрабатывать в контексте 1 диалога несколько изображений.

С применением extra Lora, XComposer-2.5 способна выполнять комплексные задачи:
- создание веб-страниц;
- создание высококачественных текстовых статей с изображениями.

XComposer-2.5 была оценена по 28 тестам, превзойдя существующие современные модели с открытым исходным кодом в 16 тестах. Она также близко конкурирует с GPT-4V и Gemini Pro по 16 ключевым задачам.

🖥 GitHub
🟡 Arxiv
🟡 Model
🟡 Demo
📺 Demo video

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 MoMA — open-source модель от ByteDance для генерации изображений по референсу.

MoMA не требует обучения и позволяет быстро генерировать изображения изображения с высокой точностью детализации и сохранением идентичности.
Скорость MoMA обеспечивается оптимизацией механизма внимания, который передает признаки исходного изображения в диффузионную модель.
Модель является универсальным адаптером и может быть применена к различным моделям без изменений.
На сегодняшний день MoMA превосходит в синтетических тестах аналогичные существующие методы и позволяет создавать изображения с высоким уровнем соответствия промпту максимально сохраняя стиль референсного изображения.

✍️ Рекомендованые параметры оптимизации потребления VRAM :

22 GB or more GPU memory:

args.load_8bit, args.load_4bit = False, False

18 GB or more GPU memory:
args.load_8bit, args.load_4bit = True, False

14 GB or more GPU memory:
args.load_8bit, args.load_4bit = False, True


🟡 Страничка MoMA
🖥 GitHub
🤗 Hugging Face
🟡 Demo

Читать полностью…
Подписаться на канал