🌆 AI system to generate 3D worlds from a single image. Check out some early results on our site, where you can interact with our scenes directly in the browser!
World Labs aims to address the challenges many creators face with existing genAI models: a lack of control and consistency. Given an input image, our system estimates 3D geometry, fills in unseen parts of the scene, invents new content so you can turn around, and generalizes to a wide variety of scene types and artistic styles.
Most generative models predict pixels. Predicting a 3D scene instead has many benefits: the scene won’t change if you look away and come back, and it obeys the basic physical rules of 3D geometry. The simplest way to visualize the 3D scene is a depth map, where each pixel is colored by its distance to the camera.
https://worldlabs.ai/blog
@opendatascience
🌟 INTELLECT-1: релиз первой модели децентрализованного обучения.
PRIME Intellect опубликовала INTELLECT-1 (Instruct + Base), первую языковую модель с 10 млрд. параметров, совместно обученную за 50 суток 30 участниками эксперимента по всему миру.
PRIME Intellect использовала собственную платформу PRIME, разработанную для решения главных проблем децентрализованного обучения: ненадежность сети и динамическое управление вычислительными узлами.
Платформа использовала сеть из 112 GPU H100 на 3 континентах и достигла коэффициента использования вычислений в 96% при оптимальных условиях.
Корпус обучения составлял на 1 трлн. токенов публичных датасетов с процентным соотношением: 55% fineweb-edu, 10% fineweb, 20% Stack V1, 10% dclm-baseline, 5% open-web-math.
▶️Технические характеристики:
🟢Parameters: 10B;
🟢Layers: 42;
🟢Attention Heads: 32;
🟢Hidden Size: 4096;
🟢Context Length: 8192;
🟢Vocabulary Size: 128256.
INTELLECT-1 достигла точности 37,5% на тесте MMLU и 72,26% на HellaSwag и превзошла несколько других моделей с открытым исходным кодом в WinoGrande с результатом 65,82%.
Хотя эти показатели немного отстают от современных популярных моделей, результаты эксперимента - важнейший шаг к демократизации разработки ИИ и предотвращению консолидации возможностей ИИ в рамках нескольких организаций.
▶️Квантованные в GGUF версии INTELLECT-1_Instruct в разрядностях от 3-bit (5.46 GB) до 8-bit(10.9 GB) от сообщества LM Studio.
▶️Пример инференса на Transformers:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
torch.set_default_device("cuda")
model = AutoModelForCausalLM.from_pretrained("PrimeIntellect/INTELLECT-1")
tokenizer = AutoTokenizer.from_pretrained("PrimeIntellect/INTELLECT-1")
input_text = "%prompt%"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output_ids = model.generate(input_ids, max_length=50, num_return_sequences=1)
output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print(output_text)
Что происходит на рынке систем управления базами данных?
Редакция TAdviser подготовила обзор рынка СУБД: результаты разработчиков в 2023 году, обзор новых решений и продуктов, перспективы развития и планы по запуску новых направлений.
Коротко о главном:
✔️Postgres Professional — лидер рынка СУБД
✔️Занимаем первое место по количеству представленных в 2023 году новых решений, среди них: встроенный отказоустойчивый кластер BiHA, Postgres Pro Enterprise Manager, распределенная реляционная СУБД Postgres Pro Shardman
✔️Значительно расширили карту совместимости Postgres Pro — сейчас в ней более 300 решений. Со Скала^р разработали новую версию «Машины баз данных Скала^р МБД.П» на базе сертифицированной СУБД Postgres Pro Enterprise
✔️Внедрили СУБД Postgres Pro в крупнейших компаниях и государственных структурах, среди наших заказчиков: Росатом, ПФР, Газпром, РЖД, ПСБ, Транснефть, Россельхозбанк, Росагролизинг, Федеральное Казначейство
🔖 А еще — специально для обзора Иван Панченко, заместитель генерального директора Postgres Professional, прокомментировал ситуацию с импортозамещением и массовым клонированием опенсорс-систем под видом самостоятельных решений на рынке СУБД.
Читать обзор рынка TAdviser
✔️ Stability AI выпустила модели ControlNet для Stable Diffusion 3.5 Large.
Stability AI представила 3 модели ControlNet: Blur, Canny и Depth, которые расширяют возможности Stable Diffusion 3.5 Large. Модели доступны для коммерческого и некоммерческого использования под лицензией Stability AI Community License..
Модель Blur предназначена для апскейла изображений до разрешений 8K и 16K. Canny использует карты границ для структурирования генерируемых изображений. Модель Depth использует карты глубины, созданные DepthFM, для управления композицией изображения.
ControlNet для Stable Diffusion 3.5 Large уже доступны на Hugging Face и поддерживаются в Comfy UI.
stability.ai
✔️ IMAX внедряет ИИ для расширения охвата оригинального контента.
Канадская компания, известная своими огромными кинотеатрами и иммерсивными впечатлениями от просмотра фильмов, объявила о партнерстве со стартапом Camb.ai, базирующимся в Дубае, для использования его моделей речевого ИИ для перевода оригинального контента.
Camb.ai предлагает свою модель Boli для перевода речи в текст и Mars для эмуляции речи. Модели доступны через платформу DubStudio, которая поддерживает 140 языков, включая малые языковые группы. IMAX начнет внедрять переводы на основе ИИ поэтапно, начиная с языков с большим объемом данных.
techcrunch.com
✔️ Anthropic добавила функцию пользовательских стилей в Claude AI.
Новая функция Claude - стиль ответов чат-бота. Обновление доступно для всех пользователей Claude AI и даёт возможность настроить стиль общения или выбрать один из предустановленных вариантов, чтобы быстро изменить тон и уровень детализации.
Пользователям предлагается три предустановленных стиля: формальный для «четкого и отточенного» текста, краткий для более коротких и прямых ответов, и пояснительный для образовательных ответов. Пользователи Claude могут создавать собственные стили, загрузив примеры текстов, отражающих их предпочтительный способ общения.
theverge.com
✔️ Google запустила платформу Health AI Developer Foundations (HAI-DEF) для разработки ИИ в здравоохранении.
Health AI Developer Foundations (HAI-DEF) - публичный ресурс, который должен помочь разработчикам в создании и внедрении моделей ИИ для здравоохранения. HAI-DEF предоставляет разработчикам модели, обучающие блокноты Colab и подробную документацию для поддержки каждого этапа разработки ИИ, от исследований до коммерциализации.
В HAI-DEF входят 3 специализированные модели для медицинской визуализации: CXR Foundation для рентгеновских снимков грудной клетки, Derm Foundation для изображений кожи и Path Foundation для цифровой патологии.
developers.google.com
✔️ Cursor получил обновление с автономными агентами.
Cursor выпустила обновление 0,43, которое обеспечивает частичную автоматизацию написания кода с помощью ИИ-агентов, способных самостоятельно перемещаться по контекстам и выполнять операции в терминале. Обновление позволяет ИИ-агентам реагировать на сообщения об ошибках и принимать автономные решения для устранения проблем. В демонстрации, опубликованной в X, Cursor создает полноценное веб-приложение секундомера с использованием HTML, CSS и JavaScript, включая запуск веб-сервера, все это с помощью одной текстовой подсказки.
Cursor остается бесплатным для загрузки и работает с GPT-4, Claude 3.5 Sonnet и Llama, как локально, так и через API. Платная подписка Pro за 20 долларов в месяц открывает доступ к дополнительным функциям, включая новых ИИ-агентов.
changelog.cursor.sh
@ai_machinelearning_big_data
#news #ai #ml
⚡️ Biggest open text dataset release of the year: SmolTalk is a 1M sample big synthetic dataset that was used to train SmolLM v2.
TL;DR;
🧩 New datasets: Smol-Magpie-Ultra (400K) for instruction tuning; Smol-contraints (36K) for precise output; Smol-rewrite (50K) & Smol-summarize (100K) for rewriting and summarization.
🤝 Public Dataset Integrations: OpenHermes2.5 (100K), MetaMathQA & NuminaMath-CoT, Self-Oss-Starcoder2-Instruct, LongAlign & SystemChats2.0
🥇 Outperforms the new Orca-AgenInstruct 1M when trained with 1.7B and 7B models
🏆 Outperform models trained on OpenHermes and Magpie Pro on IFEval and MT-Bench
distilabel to generate all new synthetic datasets
🤗 Released under Apache 2.0 on huggingface
Apache 2.0
Synthetic generation pipelines and training code released.
Dataset: https://huggingface.co/datasets/HuggingFaceTB/smoltalk
Generation Code: https://github.com/huggingface/smollm
Training Code: https://github.com/huggingface/alignment-handbook/tree/main/recipes/smollm2
@opendatascience
⚡️ DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power!
🔍 o1-preview-level performance on AIME & MATH benchmarks.
💡 Transparent thought process in real-time.
🛠️ Open-source models & API coming soon!
🌐 You can try it now: http://chat.deepseek.com
#DeepSeek #llm
@opendatascience
🔥 Speech to Speech model - Fish Agent v0.1 3B by FishAudio
> Trained on 700K hours of multilingual audio
> Continue-pretrained version of Qwen-2.5-3B-Instruct for 200B audio & text tokens
> Zero-shot voice cloning
> Text + audio input/ Audio output
> Ultra-fast inference w/ 200ms TTFA
> Models on the Hub & Finetuning code on its way! 🚀
https://huggingface.co/fishaudio/fish-agent-v0.1-3b
@opendatascience
Smol TTS models are here! OuteTTS-0.1-350M - Zero shot voice cloning, built on LLaMa architecture, CC-BY license! 🔥
> Pure language modeling approach to TTS
> Zero-shot voice cloning
> LLaMa architecture w/ Audio tokens (WavTokenizer)
> BONUS: Works on-device w/ llama.cpp ⚡
Three-step approach to TTS:
> Audio tokenization using WavTokenizer (75 tok per second).
> CTC forced alignment for word-to-audio token mapping.
> Structured prompt creation w/ transcription, duration, audio tokens.
https://huggingface.co/OuteAI/OuteTTS-0.1-350M
@opendatascience
Ms - SmolLM2 1.7B - beats Qwen 2.5 1.5B & Llama 3.21B, Apache 2.0 licensed, trained on 11 Trillion tokens 🔥
> 135M, 360M, 1.7B parameter model
> Trained on FineWeb-Edu, DCLM, The Stack, along w/ new mathematics and coding datasets
> Specialises in Text rewriting, Summarization & Function Calling
> Integrated with transformers & model on the hub!
You can run the 1.7B in less than 2GB VRAM on a Q4 👑
Fine-tune, run inference, test, train, repeat - intelligence is just 5 lines of code away!
https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9
@opendatascience
Питерский Data Halloween 2024 уже начался!
Трансляции можно смотреть сразу в 2 местах:
🎃Youtube
🧛♀️VK video
💡 SAM2Long, a training-free enhancement to SAM 2 for long-term video segmentation
- Less error accumulation facing occlusion/reappearance.
- A training-free memory tree for dynamic segmentation paths, boosting resilience efficiently.
- Significant improvements over SAM2 across 24 head-to-head comparisons on SA-V and LVOS.
🟡Technical Report: https://huggingface.co/papers/2410.16268
🟡Github: https://github.com/Mark12Ding/SAM2Long
🟡Homepage: https://mark12ding.github.io/project/SAM2Long/
#AIML #VideoSegmentation #SAM2Long #ComputerVision
@opendatascience
Minimalist Vision with Freeform Pixels
На ECCV-24 была секция, посвящённая низкоуровневому устройству систем компьютерного зрения. По настоящему low-level решение предложили в статье Minimalist Vision with Freeform Pixels, которая получила награду Best Paper Award. Авторы создали прототип полностью автономной по электропитанию камеры.
Вместо обычных матриц в камере используются 24 фотодиода. Перед каждым из них установлена маска-фильтр, которая выступает первым слоем нейросети. Оптическая передаточная функция маски зависит от задачи, под которую обучена камера.
По сути первый слой обеспечивает произвольную форму для каждого пикселя — против фиксированной квадратной у традиционных камер. А последующие слои выводят результат задачи. Так авторы демонстрируют возможность мониторинга рабочего пространства и оценки дорожного трафика при помощи всего лишь 8 пикселей из 24.
Кроме того, камера хорошо показала себя в задаче оценки освещённости помещения. Используя те же 8 пикселей, она сумела определить, какие из источников света были включены в каждый конкретный момент. При этом ни один из источников не был виден камере напрямую — она собирала информацию исходя из состояния помещения.
Помимо низкого энергопотребления, такой подход позволяет обеспечивать конфиденциальность людей в кадре, так как записываемой оптической информации недостаточно для восстановления деталей изображения. Прототип камеры оснащён микроконтроллером с Bluetooth. А с четырёх сторон расположены солнечные панели для получения электроэнергии.
Разбор подготовила ❣ Алиса Родионова
CV Time
🌟 Branch-Train-MiX: метод получения MoE-модели
Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса.
После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер.
🟡 Страница проекта
🟡 Разбор метода
@ai_machinelearning_big_data
#MoE #LLM
Вечерний митап для ML-инженеров в Белграде и онлайн
📅 17 октября в 18:00 собираемся в хабе «Сербская Роза», чтобы обсудить тренды, новые подходы, решения и вызовы индустрии в неформальной обстановке.
Спикеры и темы докладов:
🔸 Илья Ирхин, руководитель подразделения аналитики в Яндекс Еде. Подробно рассмотрит рекламу ресторанов в сервисе: аукцион, ранжирование, ценообразование
🔸 Дмитрий Солодуха, руководитель группы в Алисе и Умных устройствах Яндекса. Покажет, как мы учим Алису откликаться без имени
🔸 Антон Клочков, руководитель подгруппы распознавания текста в VLM в Яндекс Поиске. Расскажет о развитии навыков распознавания текста в VLM
🔸 Пётр Вытовтов, руководитель группы в Яндекс Погоде. Рассмотрит трансформеры сервиса и расскажет, как начать прогнозировать до миллиметра осадков
После докладов офлайн-участников ждёт нетворкинг с экспертами из разных компаний!
📎 Регистрация и подробности тут.
Ждём вас на ML Party в Белграде!
Реклама. ООО "Яндекс", ИНН 7736207543.
Яндекс запустил VLM в Нейро
Visual Language Model теперь работает в Поиске по картинкам и Умной камере Яндекса. ML-разработчик компании описал детали на Хабре.
VLM представляет собой новую стадию развития компьютерного зрения, расширяя возможности анализа изображений. Модель способна анализировать детали и отвечать на сложные вопросы пользователей. VLM решает многие задачи «из коробки», что делает её гибким инструментом. При небольшом дообучении она может достигать качества state-of-the-art в различных задачах компьютерного зрения.
🛠 Архитектура: LLM + картиночный энкодер + адаптер. В новом пайплайне VLM-рефразер и VLM-captioner
Подробности процесса создания и сравнение со старым LLM-пайплайном в статье:
▪️ Хабр
@opendatascience
LLM-based agents for Software Engineering
В сентябре вышел большой труд от китайских коллег: "Large Language Model-Based Agents for Software Engineering: A Survey".
Статья рассматривает аспекты применения LLM-основанных агентов в разных задачах программной инженерии (скрин). Чего там только нет! Добрая сотня доменных инструментов, которые ещё и сравниваются между собой и идет дискуссия о том как эти вещи принято строить в разных случаях.
Будем смотреть согласно своим интересам и что-нибудь обозревать.
Если вы нашли что-то интересненькое — делитесь в комментариях.
Да, к статье прилагается репо с большим количеством ссылок по темам: https://github.com/FudanSELab/Agent4SE-Paper-List.
⚡️ Structured Generation w/ SmolLM2 running in browser & WebGPU 🔥
Powered by MLC Web-LLM & XGrammar ⚡
Define a JSON schema, Input free text, get structured data right in your browser - profit!!
To showcase how much you can do with just a 1.7B LLM, you pass free text, define a schema of parsing the text into a GitHub issue (title, description, categories, tags, etc) - Let MLC & XGrammar do the rest!
That's it, the code is super readable, try it out today!
▪ Hf: https://huggingface.co/spaces/reach-vb/github-issue-generator-webgpu
▪Github: https://github.com/Vaibhavs10/github-issue-generator-webgpu
@opendatascience
🌟 cuPyNumeric: замена NumPy от NVIDIA.
По мере роста объемов данных и сложности вычислений, вычисления на Python и NumPy, основанные на CPU, нуждаются в ускорении для выполнения современных исследований.
cuPyNumeric разработана, чтобы стать заменой библиотеки NumPy, предоставляя сообществу Python распределенные и ускоренные вычисления на платформе NVIDIA. cuPyNumeric позволяет масштабировать вычисления без изменения кода проектов с одного CPU до суперкомпьютеров с несколькими GPU и вычислительными нодами.
Библиотека построена на Legate, поддерживает родной Python и интерфейс NumPy. cuPyNumeric доступен из conda (версия не ниже 24.1) в legate channel. На системах с GPU пакеты, поддерживающие графические ускорители будут выбраны автоматически во время установки.
Пример эффективности cuPyNumeric - обработка 10 ТБ микроизображений многоракурсной микроскопии в виде одного массива NumPy за один день с визуализаций в режиме реального времени.
▶️Установка и тест на примере из репозитория:
# Create new conda env
conda create -n myenv -c conda-forge -c legate cupynumeric
# Test via example from repo
$ legate examples/black_scholes.py
Running black scholes on 10K options...
Elapsed Time: 129.017 ms
Приглашаем тебя на крутое IT-мероприятие, посвящённое AI и передовым технологиям разработки рекомендательных систем.
Регистрируйся, и в день мероприятия мы пришлём тебе ссылку на трансляцию. Или приходи очно, если ты живёшь в одном из городов.
Где и когда?
👉 Нижний Новгород, 5 декабря
👉 Санкт-Петербург, 6 декабря
Тебя ждут крутейшие доклады, живая дискуссия и новые знания в сфере рекомендательных систем.
Количество мест ограничено — успей занять своё и прикоснуться к миру рекомендательных систем! 😉
⚡️ SANA: Генерация изображений изображений высокого разрешения от Nvidia Labs.
Sana - семейство моделей для генерации изображений с разрешением до 4096x4096 пикселей. Главное преимущество Sana - высокая скорость инференса и низкие требования к ресурсам, модели можно запустить даже на ноутбуке.
Секрет эффективности Sana в ее архитектуре, которая состоит из нескольких инновационных компонентов:
🟢Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, в результате чего значительно сокращается число латентных токенов, что, в свою очередь, повышает эффективность обучения и позволяет генерировать изображения с разрешением 4K.
🟢Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию с разрешением 4K в 1.7 раза.
В Linear DiT вместо модуля MLP-FFN используется Mix-FFN, который объединяет в себе свертку 3x3 и Gated Linear Unit (GLU). Mix-FFN позволяет отказаться от позиционного кодирования без потери качества.
🟢Decoder-only Small LLM as Text Encoder
Энкодер, основанный на LLM Gemma, который лучше понимает текстовые запросы пользователя и точнее передает их смысл на генерации.
Для точного соответствия "текст - изображение" при обучении энкодера применялись "сложные человеческие инструкции" (CHI), которые научили Gemma учитывать контекст запроса.
Sana создавалась с помощью уникальной стратегии обучения и выборки. В процессе обучения используются несколько VLM (VILA, InternVL2) для создания различных аннотаций к каждому изображению. Затем, на основе CLIP-оценки, были отобраны наиболее подходящие пары "текст-изображение".
Обучение происходило постепенно, начиная с разрешения 512x512 и заканчивая 4096x4096, а алгоритм Flow-DPM-Solver ускорил процесс выборки, сократив количество шагов по сравнению с Flow-Euler-Solver.
Результаты тестирования Sana впечатляют:
🟠Sana-0.6B, работающая с изображениями 512x512, в 5 раз быстрее, чем PixArt-Σ, при этом показывает лучшие результаты по метрикам FID, Clip Score, GenEval и DPG-Bench.
🟠При разрешении 1024x1024 Sana-0.6B в 40 раз быстрее PixArt-Σ.
🟠Sana-0.6B превосходит по скорости Flux-12B в 39 раз при разрешении 1024x1024) и может быть запущена на ноутбуке с 16 GB VRAM, генерируя изображения 1024x1024 менее чем за секунду.
⚠️ Для локального инференса модели 0.6B требуется 9GB VRAM, а для модели 1.6B - 12GB VRAM.
▶️ Установка и инференс c GradioUI:
# official online demo
DEMO_PORT=15432 \
python app/app_sana.py \
--config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
--model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth
Nexusflow released Athene v2 72B - competetive with GPT4o & Llama 3.1 405B Chat, Code and Math 🔥
> Arena Hard: GPT4o (84.9) vs Athene v2 (77.9) vs L3.1 405B (69.3)
> Bigcode-Bench Hard: GPT4o (30.8) vs Athene v2 (31.4) vs L3.1 405B (26.4)
> MATH: GPT4o (76.6) vs Athene v2 (83) vs L3.1 405B (73.8)
> Models on the Hub along and work out of the box w/ Transformers 🤗
https://huggingface.co/Nexusflow/Athene-V2-Chat
They also release an Agent model: https://huggingface.co/Nexusflow/Athene-V2-Agent
@opendatascience
⚡️ Как использование нескольких пользовательских представлений (MUR) улучшает персонализацию в рекомендательных системах
В Google рассказали про схему итеративного взвешивания плотности (iterative density weighting scheme, IDW), которая помогает равномерно распределять интересы пользователя.
Она уменьшает влияние дисбалансированных данных и улучшает кластеризацию элементов, анализируя плотность предметов в пространстве представлений.
В подробном разборе статьи от ml-спецов Яндекса рассказали про устройство IDW и кратко привели результаты эксперимента.
🟡Разбор
🟡Arxiv
@ai_machinelearning_big_data
#AI #ML #tech
Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations
У нейросетевых рекомендательных систем есть одна большая проблема — они плохо масштабируются, в то время как в NLP и CV скейлинг по размеру нейросетевых энкодеров очень хороший. Выделяют несколько причин этого явления: гигантский нестационарный словарь айтемов, гетерогенная природа признаков, а также очень большой объем данных.
В сегодняшней статье авторы предлагают переформулировать задачу рекомендации в генеративной постановке. Для начала, они представляют данные в виде последовательности событий. Вещественные фичи (счетчики и проч.) выкидываются, из взаимодействий с айтемами формируется единая последовательность, и затем в нее добавляются события изменения статической информации, такие как смена локации или изменение любого другого контекста.
Архитектура для генерации кандидатов выглядит довольно стандартно и похожа на SASRec или Pinnerformer: представляем пользователя в виде последовательности событий (item, action), и в тех местах, где следующим событием идет положительное взаимодействие с айтемом, предсказываем, что это за айтем.
А вот для ранжирования новизна достаточно серьезная: чтобы сделать модель target-aware (см. Deep Interest Network от Alibaba), понадобилось сделать более хитрую последовательность, в которой чередуются токены айтемов и действий: item_1, action_1, item_2, action_2, …. Из айтем-токенов предсказывается, какое с ними произойдет действие. Еще говорят, что на практике можно решать в этом месте любую многоголовую мультизадачу. Важно отметить, что авторы не учат единую модель сразу на генерацию кандидатов и ранжирование, а обучают две отдельные модели.
Другое нововведение — отказ от софтмакса и FFN в трансформере. Утверждается, что софтмакс плох для выучивания «интенсивности» чего-либо в истории пользователя. Те вещественные признаки, которые были выкинуты авторами, в основном её и касались. Например, сколько раз пользователь лайкал автора видеоролика, сколько раз скипал и т. д. Такие признаки очень важны для качества ранжирования. То, что отказ от софтмакса эту проблему решает, видно по результатам экспериментов — действительно есть значительное улучшение результатов ранжирования при такой модификации.
В итоге HSTU (Hierarchical Sequential Transduction Unit, так авторы окрестили свою архитектуру) показывает отличные результаты как на публичных, так и на внутренних датасетах. Еще и работает гораздо быстрее, чем прошлый DLRM подход за счет авторегрессивности и нового энкодера. Результаты в онлайне тоже очень хорошие — на billion-scale платформе short-form video (предполагаем, что это рилсы) получили +12.4% относительного прироста целевой метрики в A/B-тесте. Тем не менее, итоговая архитектура, которую авторы измеряют и внедряют, с точки зрения количества параметров не очень большая, где-то сотни миллионов. А вот по размеру датасета и длине истории скейлинг получился очень хороший.
@RecSysChannel
Разбор подготовил ❣ Кирилл Хрыльченко
🔥 Ежегодной премией Yandex ML Prize наградили 14 лауреатов за достижения в области машинного обучения
Победителями стали ученые и преподаватели, чьи исследования способствуют развитию науки в области ИИ и открывают новые возможности для практического применения ML-технологий в различных сферах. Премия, основанная для поддержки молодых исследователей, проводится уже шестой год.
Лауреаты в номинации «Исследования»:
🥇Александр Колесов, занимается разработкой нейросетевых методов на основе оптимального транспорта между вероятностными распределениями, одной из главных задач является построение барицентра Вассерштейна.
🏆 Алексей Скрынник, занимается исследованием и разработкой передовых алгоритмов Follower и MATS-LP, комбинирующих обучение с подкреплением и подходы поиска пути для задач децентрализованного многоагентного планирования.
🧠 Александр Тюрин, занимается задачами оптимизации, включающими сжатия информации и асинхронные вычисления.
https://tass.ru/obschestvo/22283467
@opendatascience
Emergent Properties With Repeated Examples (by FAIR)
Что лучше, прогнать побольше данных за 1 эпоху или взять данных поменьше, но сделать больше эпох (повторений)? Очень актуальный вопрос, учитывая, что доступные текстовые данные скоро закончатся, и LLM по сути прочитают весь интернет. По разным оценкам, сейчас доступно ~90T токенов на английском языке, а для обучения llama-3 уже использовали 15Т — лимит не так уж и далеко.
Похоже, что для трансформеров повторения в обучающих данных могут быть даже полезнее, чем "бесконечное" количество разнообразных данных. Авторы этой статьи изучили как связано качество моделей на синтетических задачах (наибольший общий делитель, умножение по модулю, поиск с.з. матриц) с долей повторений в обучении при фиксированном компьюте. И оказалось, что повторения в датасете критически важны для обучения. Если нет повторений, то некоторые задачи вообще не решаются, сколько бы данных вы ни показывали! Повторения приводят к особому режиму обучения, без которого модель не всегда способна прийти к генерализации. Чем-то напоминает гроккинг, но на гораздо меньшем количестве шагов.
Скорее всего, этот эффект уже активно эксплуатируется при обучении LLM, ведь дублирующихся примеров там и так ооочень много, особенно в коде. Но зато теперь есть повод меньше переживать о дедупликации данных.
Кстати, очень похожий эффект я видел в статье про мультиязычность — там пришли к выводу, что для лучшей работы LLM на нескольких языках сразу, в обучении обязательно должно быть 90% примеров на "доминирующем" языке. Увеличение доли мультиязычных данных выше 10% сильно вредит этой самой мультиязычности.
Статья
⚡️Яндекс открыл доступ к более мощному семейству моделей YandexGPT 4
Pro-версия и облегчённая Lite-версия поддерживают более сложные запросы, расширенный контекст, скрытые рассуждения и работу с внешними инструментами. Модели уже доступны через API в Yandex Cloud.
🤖 Pro-версия превосходит предыдущее поколение в 70% случаев, а Lite не уступает лучшей модели прошлого поколения.
🤖 В четыре раза увеличено количество токенов (до 32 тысяч), которое нейросеть может обрабатывать в промте.
🤖 Улучшенная работа с RAG-сценариями и снижение доли галлюцинаций.
🤖 Внедрены скрытые рассуждения (Chain-of-thoughts) для пошагового анализа проблем, выделения этапов и поиска решений.
https://habr.com/ru/companies/yandex/articles/852968/
@opendatascience
NVIDIA silently release a Llama 3.1 70B fine-tune that outperforms
GPT-4o and Claude Sonnet 3.5
Llama 3.1 Nemotron 70B Instruct a further RLHFed model on
huggingface
🏆 85.0 on Arena Hard, 57.6 on AlpacaEval 2 LC, and 8.98 MT-Bench
🥇 Outperforms GPT-4o and Claude 3.5 Sonnet on these benchmarks
🍓 Can accurately answer "How many r's are in strawberry?"
🦙 Based on Llama-3.1-70B-Instruct and trained using RLHF (REINFORCE)
🧠 Released also Llama-3.1-Nemotron-70B-Reward #2 on RewardBench
🤗 Available on Hugging Face and NVIDIA
https://huggingface.co/collections/nvidia/llama-31-nemotron-70b-670e93cd366feea16abc13d8
@opendatascience
✔️ LVD-2M: A Long-take Video Dataset with Temporally Dense Captions
New pipeline for selecting high-quality long-take videos and generating temporally dense captions.
Dataset with four key features essential for training long video generation models: (1) long videos covering at least 10 seconds, (2) long-take videos without cuts, (3) large motion and diverse contents, and (4) temporally dense captions.
🖥 Github: https://github.com/silentview/lvd-2m
📕 Paper: https://arxiv.org/abs/2410.10816v1
🖥 Dataset: https://paperswithcode.com/dataset/howto100m
@opendatascience
🥪 TripoSR (MIT license) is now available on , free for individual use!
💳 For commercial use, you can generate around 350 - 3D objects for just $1 using runpod_io's serverless infrastructure. 🔥
🧬code: https://github.com/VAST-AI-Research/TripoSR
📄paper: https://arxiv.org/abs/2403.02151
🍇runpod: https://github.com/camenduru/triposr-tost
🍊jupyter: https://github.com/camenduru/TripoSR-jupyter
@opendatascience
⚡️ Most of the models from Mistral are now available for free via the API
What is this attraction of unprecedented generosity? Your queries will probably be used to train new models (although this is not accurate).
https://docs.mistral.ai/getting-started/models/
#mistral #opensource
@opendatascience