✔️ Google DeepMind представил новую модель прогнозирования погоды GenCast.
GenCast – ансамблевая диффузионная модель для прогнозирования погоды и рисков экстремальных погодных условий, обеспечивающая более быстрые и точные прогнозы на срок до 15 дней. GenCast была обученная на 40-летнем архиве исторических метеорологических данных ERA5 от ECMWF.
Модель, работающая на Google Cloud TPU v5, превосходит лидирующую систему прогнозирования ECMWF ENS по точности прогнозов на 97,2% в 1320 различных комбинациях тестируемых параметров. GenCast демонстрирует способность прогнозировать экстремальные погодные явления: периоды сильной жары и холода, сильные ветры и траектории тропических циклонов. Google DeepMind планирует выпустить код, веса и прогнозы модели в открытый доступ, чтобы поддержать метеорологическое сообщество.
deepmind.google
✔️ Япония планирует использовать ИИ для борьбы с онлайн-пиратством манги и аниме.
Власти Японии планируют внедрить систему ИИ для борьбы с пиратскими сайтами, предлагающими мангу и аниме, которые ежегодно обходятся ей в миллиарды долларов упущенной выгоды. По данным японских издателей, существует не менее 1000 веб-сайтов, незаконно предлагающих бесплатную загрузку всемирно известных графических романов манга.
В рамках пилотной программы стоимостью 300 млн. иен (2 млн. долл. США) ИИ будет сканировать интернет в поисках сайтов, занимающихся пиратством книг манги и аниме, с использованием систем обнаружения изображений и текста. Инициатива включена в дополнительный бюджетный запрос агентства на текущий финансовый год. Если проект окажется успешным, его применят и к другому незаконно распространяемому контенту.
japantimes.co.jp
✔️ Генеративная модель видео Veo от Google cтала доступна для бизнес-клиентов.
Veo теперь доступна для предприятий, которые хотят использовать её в процессе создания контента, в предварительной версии на платформе Google Vertex AI. Veo способна генерировать видео высокого качества с разрешением 1080p в различных визуальных и кинематографических стилях, используя текстовые или графические подсказки.
Хотя первоначально сгенерированные клипы могли быть «чуть больше 60 сек.», Google не указывает ограничений длины для предварительной версии. Встроенные средства защиты Veo предназначены для предотвращения создания вредоносного контента или нарушения авторских прав, и все, что создается Veo, встраивается технологией SynthID от DeepMind - невидимым цифровым водяным знаком, который, по словам Google, может «уменьшить проблемы с дезинформацией и неправильным приписыванием».
theverge.com
✔️ NVIDIA представила новейшие решения в области ИИ, робототехники и квантовых вычислений на AWS.
NVIDIA анонсировала на конференции AWS re:Invent доступность платформы NVIDIA DGX Cloud на AWS Marketplace Private Offers, решения для жидкостного охлаждения серверов ИИ в дата-центрах AWS, которые повысят эффективность и производительность.
Компания расширит возможности NVIDIA Omniverse на AWS с помощью Isaac Sim, работающего на инстансах Amazon EC2 G6e с GPU NVIDIA L40S. NVIDIA также интегрирует CUDA-Q с Amazon Braket для упрощения квантовых вычислений, тем самым предоставив разработчикам платформу для создания гибридных квантово-классических приложений.
blogs.nvidia.com
✔️ Physical Intelligence выпустила новую базовую модель ИИ для робототехники Pi-Zero.
Physical Intelligence представила π0 (pi-zero), универсальную базовую модель ИИ для роботов. Pi-zero основана на VLM PaliGemma, которая была дополнительно обучена на пользовательском наборе данных, собранном с 7 различных роботов, выполняющих 68 задач, и на наборе Open X-Embodiment.
Полученная модель может воспринимать команды на естественном языке и выполнять задачи "на элементарном уровне". Physical Intelligence сравнили производительность pi-zero с двумя базовыми моделями, OpenVLA и Octo, по 5 различным задачам, включая складывание белья и уборку со стола; pi-zero добилась "значительных улучшений" по сравнению с базовыми моделями.
infoq.com
🪐 Новый датасет: 100ТБ астрономических данных
@ai_machinelearning_big_data
#news #ai #ml
🌟 LLaVA-CoT: VLM с пошаговыми рассуждениями.
LLaVA-CoT – модель VLM, разработанная на базе Llama-3.2-11B-Vision-Instruct и обученная для автономного многоступенчатого процесса рассуждения. В отличие от классического метода CoT, LLaVA-CoT независимо выполняет последовательные этапы: обобщение, визуальная интерпретация, логическое рассуждение и формирование вывода. Эта структура позволяет LLaVA-CoT значительно повысить точность при решении визуальных задач, требующих интенсивных рассуждений.
LLaVA-CoT обучалась на кастомном наборе данных LLaVA-CoT-100k, который объединил примеры из различных источников VQA и аннотации структурированных рассуждений.
Используя всего 100 тыс. обучающих примеров и простой метод масштабирования во время инференса, LLaVA-CoT не только превосходит свою базовую модель на 8,9% на наборе тестов мультимодальных рассуждений, но и Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.
📌Лицензирование: Apache 2.0 License.
🟡Модель
🟡Arxiv
🟡Demo
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #VLM #LlaVACoT
✔️ Cohere выпустила Rerank 3.5.
Cohere представила Rerank 3.5, обновленную версию собственной платформы поиска на основе ИИ, которая предлагает продвинутые возможности рассуждения и многоязычность для выаолнения точного поиска по сложным корпоративным данным.
Новая версия позволяет компаниям эффективно находить нужную информацию в больших объемах данных. Rerank 3.5 использует алгоритмы ИИ для понимания смысла запросов и поиска наиболее релевантных результатов, даже если они выражены на разных языках.
cohere.com
✔️ Канадские издатели подали иск против OpenAI за нарушение авторских прав.
Группа канадских новостных и медиа-компаний: Globe and Mail, Canadian Press и CBC подала коллективный иск против OpenAI, обвиняя компанию в использовании их статей без разрешения для обучения моделей GPT. Истцы утверждают, что OpenAI незаконно извлекала контент с их веб-сайтов, нарушая их авторские права и получая прибыль за счет их журналистской работы.
В иске требуется возмещение ущерба в размере 20 000 канадских долларов за каждую использованную статью, общее число статей превышает 50 тысяч. OpenAI утверждает, что ее действия подпадают под добросовестное использование, поскольку модели обучались на общедоступных данных.
techspot.com
✔️ США усиливают давление на китайскую полупроводниковую индустрию.
США ввели новые ограничения на экспорт в Китай для вендоров оборудования для производства полупроводников. Меры включают запрет на поставки в Китай микросхем памяти высокой пропускной способности, используемых в обучении ИИ, 24 дополнительных инструмента для производства микросхем и 3 программных инструмента.
Экспортные ограничения также распространяются на оборудование для производства микросхем, изготовленное в Сингапуре и Малайзии. Новые правила направлены на то, чтобы помешать Китаю развивать свою собственную систему производства полупроводников, которую он может использовать для модернизации своих вооруженных сил. Ограничения затронут как американские компании: Lam Research, KLA и Applied Materials, так и зарубежные компании, например, голландскую ASM International.
cnbc.com
✔️ Фотонный процессор для сверхбыстрых вычисления ИИ с экстремальной энергоэффективностью.
В MIT разработали новый фотонный чип, который может выполнять все ключевые вычисления глубокой нейронной сети оптически, открывая возможности для высокоскоростных процессоров, способных обучаться в режиме реального времени. Устройство завершило ключевые вычисления для задачи классификации машинного обучения менее чем за половину наносекунды, достигнув точности более 92 процентов.
Чип состоит из взаимосвязанных модулей, образующих оптическую нейронную сеть, и изготовлен с использованием стандартных процессов литейного производства. В перспективе фотонный процессор может привести к более быстрому и энергоэффективному глубокому обучению для научных исследований в астрономии, физике элементарных частиц и высокоскоростной связи.
news.mit.edu
✔️ Китай внедряет обучение ИИ в начальных и средних школах.
Министерство образования КНР объявило о планах по усилению образования в области ИИ для молодого поколения, чтобы подготовить их к эпохе новых технологий. Школам предложено разработать соответствующие учебные программы, включить ИИ в повседневное содержание обучения и проводить регулярные оценки.
Согласно плану, учащиеся начальной школы получат практический опыт работы с технологиями ИИ. В старших классах начальной школы и средней школы они сосредоточатся на понимании и применении этих технологий, а в выпускных классах учащиеся будут заниматься созданием проектов в области ИИ.
english.news.cn
@ai_machinelearning_big_data
#news #ai #ml
⚡️ HunyuanVideo: модели генерации видео по тексту от Tencent.
Tencent опубликовала в отрытый доступ модели с 13 млрд. параметров для генерации видео по текстовым промптам: HunyuanVideo и HunyuanVideo-PromptRewrite.
Архитектура HunyuanVideo простроена на пространственно-временном сжатии, которое позволяет обрабатывать видео и изображения в едином формате.
Входные текстовые запросы кодируются с помощью MLLM (комбинация CLIP and T5-XXL) и используются в качестве основы для генерации. Модель генерирует латент, который затем декодируется в изображения или видео с помощью 3D VAE.
HunyuanVideo-PromptRewrite - специальный файнтюн для адаптации и автоматического расширения пользовательских промптов к предпочтениям модели. В PromptRewrite 2 режима работы: Normal и Master:
🟢Режим Normal улучшает понимание моделью намерений пользователя, способствуя более точной интерпретации промпта.
🟢Режим Master улучшает описание композиции, освещения сцены генерации и движения камеры, что на выходе дает видео с более высоким визуальным качеством.
HunyuanVideo оценивалась 60 экспертами на 1533 промптах в сравнении с топовыми T2V-моделями: Gen-3, Luma 1.6 и тремя лучшими китайскими коммерческими моделями.
Результаты оценки показали, что HunyuanVideo достигает общего уровня удовлетворенности, особенно выделяясь качеством движения объектов.
▶️Планы развития HunyuanVideo:
🟠Бенчмарк Penguin Video;
🟠Web Demo (Gradio);
🟠Поддержка ComfyUI;
🟠Поддержка Diffusers;
🟠Модель и код инференса Image-to-Video версии.
⚠️ Минимальный объем GPU - 60 GB для 720pX1280pX129f и 45 GB для 544pX960pX129f. Рекомендованный GPU - 80 GB.
▶️Установка и инференс T2V в 720р:
# Clone repo:
git clone https://github.com/tencent/HunyuanVideo
cd HunyuanVideo
# Prepare conda environment
conda env create -f environment.yml
conda activate HunyuanVideo
# Install pip dependencies
python -m pip install -r requirements.txt
# Install flash attention v2
python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.5.9.post1
# Inference
python3 sample_video.py \
--video-size 720 \
--video-length 129 \
--infer-steps 50 \
--prompt "%prompt%" \
--flow-reverse \
--use-cpu-offload \
--save-path ./results
🌟 AIMV2: набор визуальных энкодеров от Apple.
AIMV2 – семейство моделей визуальных энкодеров, предварительно обученных с помощью мультимодальной авторегрессионной цели, которая восстанавливает фрагменты изображений и текстовые токены, что, в итоге, позволяет AIMV2 справляться с задачами распознавания изображений, локализации объектов и мультимодального понимания.
Архитектура AIMV2 основана на ViT и использует каузальный мультимодальный декодер, который сначала регрессирует фрагменты изображения, а затем декодирует текстовые токены авторегрессионно. Визуальный энкодер использует префиксное внимание, что позволяет использовать двунаправленное внимание во время вывода без дополнительной настройки.
Семейство AIMV2 обучалось на комбинации общедоступных (DFN-2B, COYO) и собственных (HQITP) датасетов, содержащих пары "изображение-текст" и синтетические аннотации, сгенерированные предварительно обученным инструментом.
Эксперименты после обучения показали, что AIMV2-3B достигает точности 89,5% на ImageNet с замороженным транком, что лучше, чем у генеративных методов MAE и AIM. AIMV2 превосходит CLIP и SigLIP в большинстве тестов на мультимодальное понимание.
Модель совместима с LiT для zero-shot распознавания и может быть настроена для обработки изображений с различными разрешениями и соотношениями сторон.
В отрытый доступ на HF опубликованы модели:
🟠AIMv2 в разрешении 224px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B
🟠AIMv2 в разрешении 336px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B
🟠AIMv2 в разрешении 448px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B
🟢AIMv2 в Native разрешении : aimv2-large-patch14-native c 0.3B (разрешение в диапазоне от 112 до 4096)
🟢AIMv2 distilled ViT-Large (модели, которые были получены путем дистилляции из AIMV2-3B в архитектуру ViT-Large) : AIMv2-L и AIMv2-L-distilled.
🟠Zero-shot Adapted AIMv2 (модель после LiT- тюнинга): AIMv2-L с 0.3B параметров.
⚠️ ! Примеры инференса с JAX и MLX доступны в репозитории AIMv2
▶️Установка и локальный инференс c Pytorch:
# Clone the repository
pip install 'git+https://github.com/apple/ml-aim.git#subdirectory=aim-v2'
# Example Using PyTorch
from PIL import Image
from aim.v2.utils import load_pretrained
from aim.v1.torch.data import val_transforms
img = Image.open(...)
model = load_pretrained("aimv2-large-patch14-336", backend="torch")
transform = val_transforms(img_size=336)
inp = transform(img).unsqueeze(0)
features = model(inp)
🌟 OLMo 2: Новое поколение полностью открытых языковых моделей.
OLMo 2 - серия открытых языковых моделей, созданная для развития науки о языковых моделях .
Модели OLMo 2 доступны в вариантах 7B и 13B параметров и обучены на массиве данных объемом 5 трлн. токенов. Они демонстрируют производительность, сопоставимую или превосходящую аналогичные по размеру полностью открытые модели на английских академических тестах.
Разработчики OLMo 2 уделили особое внимание стабильности обучения, используя методы RMSNorm, QK-Norm, Z-loss регуляризация и улучшенная инициализация.
Обучение проводилось в 2 этапа. На первом этапе модели обучались на датасете OLMo-Mix-1124 (3,9 трлн. токенов). На втором этапе использовался специально подобранный набор данных Dolmino-Mix-1124 (843 млрд. токенов), состоящий из веб-данных, материалов из академических источников, форумов вопросов и ответов, инструкций и математических задачников. Для объединения моделей, обученных на разных подмножествах данных, применялся метод "model souping".
Для оценки OLMo 2 была разработана система OLMES (Open Language Modeling Evaluation System) из 20 тестов для измерения способностей модели. OLMo 2 превзошел предыдущую версию OLMo 0424 по всем задачам и показал высокую эффективность по сравнению с другими открытыми моделями.
▶️Набор моделей OLMo 2:
🟢Базовые модели: OLMo-2-1124-7B и OLMo-2-1124-13B
🟠GGUF-версии: OLMo-2-1124-7B-GGUF и OLMo-2-1124-13B-GGUF
🟢Инструктивные версии: OLMo-2-1124-7B-Instruct и OLMo-2-1124-13B-Instruct
🟠DPO-версии: OLMo-2-1124-7B-DPO и OLMo-2-1124-13B-DPO
🟠SFT-версии: OLMo-2-1124-7B-SFT и OLMo-2-1124-13B-SFT
🟠Reward Model - версия OLMo-2-1124-7B-RM
▶️Пример инференса OLMo-2-7B c HF Transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-1124-7B")
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMo-2-1124-7B")
message = ["Language modeling is "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
# optional verifying cuda
# inputs = {k: v.to('cuda') for k,v in inputs.items()}
# olmo = olmo.to('cuda')
response = olmo.generate(**inputs, max_new_tokens=100, do_sample=True, top_k=50, top_p=0.95)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])
🌟 SmolVLM: набор компактных VLM от HuggingFace - Base, Synthetic и Instruct.
SmolVLM - серия компактных VLM с 2 млрд. параметров, отличающихся высокой эффективностью использования памяти и могут быть развернуты на локальных устройствах с ограниченными ресурсами.
Архитектура SmolVLM основана на Idefics3, с несколькими отличиями:
🟢В качестве языковой основы используется SmolLM2 1.7B вместо Llama 3.1 8B;
🟢Визуальная информация сжимается в 9 раз с помощью стратегии pixel shuffle, по сравнению с 4-кратным сжатием в Idefics3;
🟢Используются патчи размером 384x384 пикселей, а не 364x364;
🟢Визуальная основа модели изменена на shape-optimized SigLIP с патчами 384x384 пикселей и внутренними патчами 14x14;
🟢Контекстное окно SmolLM2 было расширено до 16 тыс. токенов для поддержки работы с несколькими изображениями.
Модель кодирует каждый патч изображения 384x384 в 81 токен, что позволяет ей обрабатывать тестовые запросы и изображения с использованием всего 1.2 тыс. токенов, в то время как Qwen2-VL использует 16 тыс. токенов. Это преимущество приводит к значительно более высокой скорости предварительной обработки (в 3,3-4,5 раза) и генерации (в 7,5-16 раз) по сравнению с Qwen2-VL.
Для самостоятельной тонкой настройки SmolVLM можно использовать transformers и TRL. Разработчиками представлен блокнот для файнтюна на VQAv2 с использованием LoRA, QLoRA или полной тонкой настройки. SmolVLM интегрирован с TRL для DPO через CLI.
⚠️ При batch sizes=4 и 8-битной загрузке QLoRA файнтюн потребляет около ~16 GB VRAM
📌Лицензирование: Apache 2.0
🟡Статья на HF
🟡Набор моделей
🟡Demo
@ai_machinelearning_big_data
#AI #ML #SmallVLM #Huggingface
Совсем скоро пройдет международная конференция AIJ 2024 с ведущей темой новых горизонтов искусственного интеллекта, в которой примут участие топовые спикеры и технологические компании.
И, следуя традициям, Сбер провел ежегодное международное онлайн-соревнование по искусственному интеллекту — AI Journey Contest при при поддержке Института AIRI. Само соревнование прошло более чем насыщенно: в AIJ Contest 2024 участвовали специалисты из 23 стран мира, а количество участников перевалило за 1500. Естественно не стоит забывать и о призовом фонде, который составил 8,5 млн рублей.
В приоритете перед участниками соревнования была работа с мультимодальными моделями, анализирующими видео. Сперва FusionBrain 4.0 с условием автоматического анализа видеопоследовательностей с особым акцентом на эмоциональное и социальное взаимодействие. Далее Multiagent A с созданием агентов, способных к оптимальному поведению в условиях социальных дилемм. Суть третьей задачи Embodied AI заключалась в разработке системы управления уже созданным агентом по языковым инструкциям. И на последок, E-com AI Assistant — здесь участники создавали AI-ассистента на основе LLM модели GigaChat, выявляющего потребности потребителя для последующих рекомендаций товаров на маркетплейсах.
Победителям осталось совсем немного ждать церемонии награждения — она состоится на международной конференции AI Journey с 11 по 13 декабря.
@ai_machinelearning_big_data
#news #ai
🌟 Wavehax: нейросетевой вокодер без эффекта наложения частот.
Wavehax - нейросетевой вокодер, который синтезирует аудиосигналы без искажений, вызванных наложением частот. Эта проблема часто возникает в моделях, работающих во временной области, где нелинейные операции и слои повышения дискретизации могут привести к наложению высокочастотных компонентов на низкочастотный диапазон.
Wavehax работает в частотно-временной области, оценивая комплексные спектрограммы и преобразуя их во временные сигналы с помощью кратковременного преобразования Фурье (STFT). Использование STFT позволяет получать более высокое качество синтезированной речи, особенно при экстраполяции на высокие значения основной частоты (F0).
Архитектура Wavehax построена на 2D CNN и специальном гармоническом априоре. Априор представляет собой комплексную спектрограмму, полученную из гармонического сигнала, который помогает модели генерировать высококачественные и согласованные по фазе гармонические компоненты.
В экспериментах, проведённых на корпусе японской речи JVS, Wavehax продемонстрировал качество речи, сравнимое с HiFi-GAN V1, при этом значительно сократив количество операций умножения-накопления и параметров модели.
Wavehax работает в 4 раза быстрее HiFi-GAN V1 на CPU и устойчив к экстраполяции на высокие значения F0, где эффект наложения частот становится особенно заметным.
▶️ Пример трейна и инференса с датасетом JVS:
# Set up the env
cd wavehax
pip install -e .
# Extract F0 and mel-spectrogram.
wavehax-extract-features audio=data/scp/jvs_all.scp
# Compute statistics of the training data
wavehax-compute-statistics feats=data/scp/train_no_dev.list stats=data/stats/train_no_dev.joblib
# Train the vocoder model
wavehax-train generator=wavehax discriminator=univnet train=wavehax train.train_max_steps=500000 data=jvs out_dir=exp/wavehax
# Inference via generate speech waveforms
wavehax-decode generator=wavehax data=jvs out_dir=exp/wavehax ckpt_steps=500000
✔️ Amazon разрабатывает собственную GenAi-модель.
Amazon готовит к релизу модель генеративного ИИ, способную обрабатывать изображения, видео и текст. LLM под кодовым названием Olympus позволит клиентам искать определенные сцены в видео, например, победный бросок в баскетболе, используя простые текстовые запросы. Разработка Olympus поможет Amazon снизить зависимость от чат-бота Claude, который является популярным предложением на Amazon Web Services (AWS). Amazon может представить Olympus уже на следующей неделе на ежегодной конференции клиентов AWS re:Invent.
reuters.com
✔️ Google открывает Ai-кампус в Лондоне.
Google запустила образовательную программу AI Campus в Лондоне, чтобы поддержать и разнообразить следующее поколение специалистов в области ИИ. Расположенный в районе Сомерс-Таун, кампус был разработан в сотрудничестве с Camden Council и Camden Learning.
Двухлетняя пилотная программа нацелена на обучение местных студентов старших классов основам ИИ, предоставляя им доступ к прикладным ресурсам, наставничеству от экспертов Google и Google DeepMind, а также к реальным проектам, связывающим ИИ с различными областями. Фонд Google.org выделил грант в размере 865 000 фунтов стерлингов на финансирование программ по обучению основам ИИ по всей стране.
blog.google
✔️ DyCoke: метод динамического сжатия токенов для повышения эффективности моделей обработки видео.
Apple AI/ML совместно с лабораториями нескольких университетов представили DyCoke, метод динамического сжатия токенов в VLM. Метод, работающий без обучения, устраняет временную и пространственную избыточность в процессе анализа входного видео. Метод работает в 2 этапа: слияние временных токенов для консолидации избыточных токенов в соседних кадрах и динамическую обрезку в кеше KV во время декодирования.
DyCoke достигает ускорения инференса до 1,5 раз и сокращения использования VRAM в 1,4 раза по сравнению с базовыми моделями. Метод делает VLM более масштабируемыми для реальных приложений без необходимости точной настройки или дополнительного обучения. Код DyCoke пока не опубликован.
arxiv.org
✔️ TamGen: ИИ ускоряет разработку лекарств, создавая молекулы с учетом целевого белка.
Совместная команда Global Health Drug Discovery Institute и Microsoft Research разработала TamGen, модель генеративного ИИ, которая проектирует новые лекарственные соединения, ориентируясь на конкретные белки-мишени. В отличие от традиционных методов, TamGen не ограничивается анализом существующих соединений, а генерирует новые, химически разнообразные структуры, что позволяет расширить поиск терапевтических решений.
Модель обучается на последовательностях символов, представляющих молекулярные структуры, и использует информацию о 3D структуре белка-мишени. TamGen успешно идентифицировал несколько перспективных ингибиторов для протеазы Mycobacterium tuberculosis, а самое эффективное соединение продемонстрировало высокую биоактивность. TamGen также может оптимизировать существующие молекулы, разрабатывая фрагменты с учетом целевого белка, что потенциально позволяет создавать новые соединения на основе известной молекулярной структуры. Код TamGen и веса модели доступны на Github.
microsoft.com
✔️ xAI разрабатывает новый чат-бот и модель ИИ для потребительского рынка.
xAI Corp работает над созданием потребительского чат-бота, который может быть запущен уже в декабре. Компания обучает новую модель, которая, как ожидается, дебютирует примерно в то же время. xAI надеется, что алгоритм станет «самым мощным ИИ в мире по всем показателям». Новый ИИ станет новым дополнением к флагманской линейке LLM Grok.
siliconangle.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 FastDraft: ускорение инференса LLM с помощью спекулятивного декодирования.
Спекулятивное декодирование (или вспомогательная генерация) — это техника, которая ускоряет генерацию токенов при использовании дополнительной, SLM модели-черновика.
Техника работает следующим образом: модель-черновик предсказывает следующие K-токенов один за другим авторегрессионным способом, а основная LLM проверяет эти предсказания и исправляет их при необходимости.
Процесс проходит по каждому предсказанному токену, и, если обнаруживается разница между SLM-черновиком и LLM, останавливается и сохраняет последний токен, предсказанный основной моделью. Затем SLM-черновик получает последнее предсказание LLM и снова пытается предсказать следующие K-токенов, повторяя цикл.
FastDraft — метод для обучения и согласования модели-черновика с любой LLM для использования со спекулятивным декодированием путем тонкой настройки на синтетических датасетах, сгенерированных целевой LLM.
Предобученные модели-черновики FastDraft (Llama-3.1-8B-Instruct-FastDraft-150M-int8-ov и Phi-3-mini-FastDraft-50M-int8-ov) до 3 раз эффективнее по сравнению с инференсом одиночной LLM в задачах завершения кода и до 2 раз в задачах обобщения, завершения текста и инструкций.
🟡Набор моделей
🟡Ipynb блокнот
🟡Arxiv
@ai_machinelearning_big_data
#AI #ML #LLM #Intel #FastDraft
⚡️ QwQ-32B-Preview: экспериментальная ризонинг-модель от Qwen.
QwQ (Qwen with Questions) – экспериментальная исследовательская модель, разработанная Qwen Team с фокусом на развитие способности рассуждения.
QwQ отличается любознательностью, подходя к каждой проблеме – будь то математика, программирование или знания о мире – с подлинным удивлением и сомнением. Прежде чем остановиться на каком-либо ответе, модель подвергает сомнению свои собственные предположения, исследуя разные пути рассуждений в поисках более глубокой истины.
QwQ-32B-Preview, предварительная версия модели, которая демонстрирует аналитические способности в математике и программировании, показывая топовые результаты в тестах:
🟢65.2% на GPQA (тест на решение научных задач на уровне выпускника);
🟢50.0% на AIME (оценка математических способностей);
🟢90.6% на MATH-500 (тест на понимание математики по различным темам);
🟢50.0% на LiveCodeBench (тест на навыки программирования в реальных сценариях).
Архитектура QwQ основана на transformers
с использованием RoPE, SwiGLU, RMSNorm и Attention QKV bias. Модель имеет 32.5 млрд. параметров, 64 слоя и 40 attention heads для Q и 8 для KV. Контекст модели - 32 768 токенов.
⚠️ Как у любого эксперимента, у QwQ есть ограничения:
🟠Модель может смешивать языки или переключаться между ними неожиданно, влияя на четкость ответов.
🟠QwQ склонна входить в циклические шаблоны рассуждений, что приводит к длинным ответам без окончательного результата.
⚠️ Сообществом LM Studio опубликованы квантованные версии в формате GGUF в разрядности от 3-bit (17.2 Gb) до 8-bit (34.8 GB), совместимые для запуска в llama.cpp
(release b4191) и LM Studio.
▶️Пример инференса на HF Transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/QwQ-32B-Preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many r in strawberry."
messages = [
{"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
✔️ Ключевые тенденции генеративного ИИ в розничной торговле 2025 года по версии Amazon.
В 2025 году ожидается дальнейшее развитие GenAI в ритейле: виртуальные помощники по покупкам, гиперперсонализация и виртуальные примерочные.
Виртуальные помощники помогают покупателям с выбором товаров, используя разговорный поиск. Гиперперсонализация, сочетающая ML с GenAI, создает индивидуальные предложения для покупателя, основываясь на истории покупок, данных о товарах и сторонних данных о клиентах. Виртуальные примерочные позволяют "примерить" товары: одежду или мебель, с помощью моделей ИИ, повышая их уверенность в покупке.
aws.amazon.com
✔️ Сценарии популярных сериалов использовались для обучения ИИ.
Более 139 000 сценариев фильмов и сериалов, среди которых "Клан Сопрано", "Во все тяжкие", "Симпсоны" и "Твин Пикс", были использованы для обучения моделей ИИ. Датасеты, используемые Apple, Anthropic и Nvidia, содержат сценарии всех фильмов, номинированных на премию "Оскар" с 1950 по 2016 год.
В набор данных также входят диалоги, написанные для церемоний вручения премии "Золотой глобус" и "Оскар". Многие сценаристы возмущены тем, что их работы были использованы для обучения ИИ, опасаясь, что это приведет к их замене в будущем.
movieweb.com
✔️ Только 28% ЦОД готовы к внедрению ИИ.
Omnia Strategy Group (OSG) опубликовала отчет о готовности к ИИ, согласно которому только 28% центров обработки данных готовы к внедрению рабочих нагрузок ИИ и предоставлению соответствующих услуг на высоком уровне производительности.
Нехватка GPU и высокопроизводительных CPU, недостаточная мощность электросети и ограниченная внутренняя инфраструктура распределения электроэнергии являются одними из основных препятствий. Также проблемой является недостаточная мощность систем охлаждения, нехватка пространства для внедрения жидкостного охлаждения, а также отсутствие внутренних экспертов по ИИ.
Несмотря на эти проблемы, 86% предприятий считают, что ИИ изменит глобальную цифровую инфраструктуру, и многие стремятся внедрить ИИ любыми возможными способами.
workwithomnia.com
✔️ Spotify интегрируется с Gemini от Google.
Spotify объявила о поддержке расширений Gemini от Google, эта интеграция позволит пользователям искать и воспроизводить музыку с помощью голосовых команд на естественном языке. Расширение доступно для совместимых устройств Android.
Gemini может воспроизводить музыку по названию песни, имени исполнителя, альбома, плейлиста или для определенного вида деятельности. Если у пользователя уже подключен другой музыкальный сервис, например, YouTube Music, ему необходимо будет указать голосом или текстом, какой сервис должен использовать Gemini. После этого ИИ-ассистент будет по умолчанию использовать последний выбранный сервис. Интеграция доступна только на английском языке и не работает в Google Messages, веб-приложении Gemini или приложении Gemini для iOS.
theverge.com
✔️ Исследователи Knostic обнаружили уязвимости в больших языковых моделях.
Knostic Inc., разрабатывающая средства контроля доступа к LLM, выявили новую категорию уязвимостей в LLM, которые могут быть использованы злоумышленниками для обхода защитных механизмов и извлечения конфиденциальной информации.
Уязвимости, получившие название #noRAGrets
, представляют собой два типа атак, которые способны полностью обойти защитные механизмы модели с помощью атаки вида "race condition-like", затрагивая модели ChatGPT и Microsoft Copilot для Microsoft 365.
Race condition-like используют особенности времени выполнения операций внутри системы для манипулирования или обхода цензорных механизмов, вызывая непреднамеренное или несанкционированное поведение. Найденные методы, по словам Knostic, выводят джейлбрейк на новый уровень, используя методы синхронизации, позволяющие атакам полностью обходить защитные механизмы и манипулировать внутренней активностью LLM.
siliconangle.com
@ai_machinelearning_big_data
#news #ai #ml
🎓Как находить мотивацию для обучения и с лёгкостью усваивать новый материал? Расскажет онлайн-тест Яндекс Образования!🚀
В этом тесте нет неправильных ответов — только возможность найти свой уникальный подход к обучению! 💡 Тест пригодится всем, кто чему-то учится или просто стремится к саморазвитию, — школьникам, студентам, взрослым и не только!
Благодаря тесту вы:
- получите персональные рекомендации, как адаптировать любые учебные процессы под себя;
- узнаете, как эффективнее достигать образовательных целей и вдохновляться новыми знаниями;
- сможете точнее подбирать программы обучения и лучше организовывать самостоятельную работу.
Готовы открыть новые горизонты в учёбе? Тогда начните проходить тест прямо сейчас!
🔥17 декабря в 20.00 мск приглашаем на открытый урок "Алгоритмы с подкреплением в стохастических играх" курса Reinforcement Learning, на котором:
- Вспомним о теории игр и равновесии Нэша;
- Поговорим о том какие алгоритмы обучения с подкреплением применимы к стохастическим играм;
- Реализуем один из них в коде и обучим наших агентов взаимодействовать друг с другом.
Участники вебинара получат ноутбук с кодом практического примера реализации алгоритма и поймут как запустить его в игровой среде.
👉Регистрация: https://clck.ru/3Eozij?erid=LjN8KG7Vq
Встречаемся в преддверии старта курса «Reinforcement Learning» в OTUS.
Обучение позволит применять алгоритмы RL для решения разнообразных задач в реальном мире, включая игровую индустрию, робототехнику, управление энергетическими системами и управление финансовым портфелем.
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🌟 MatterSim: DL-модель для предсказания свойств материалов от Microsoft.
MatterSim - усовершенствованная модель глубокого обучения в области материаловедения, предназначенная для моделирования свойств материалов в широком диапазоне элементов, температур и давлений. Она способна точно предсказывать свойства материалов по всей периодической таблице в диапазоне температур от 0 до 5000K и давления до 1000GPa.
MatterSim использует архитектуру M3GNet, которая включает в себя двух- и трехчастичные взаимодействия. Модель обучается с использованием функции потерь, учитывающей энергию на атом, вектор силы на каждом атоме и напряжение.
Особенность MatterSim - способность к активному и непрерывному обучению. Модель способна оценивать неопределенность своих прогнозов и выбирать структуры для активного обучения, что полезно для повышения точности моделирования сложных систем. MatterSim может быть настроена для моделирования на произвольном уровне теории.
Модель демонстрирует высокую точность в предсказании свободной энергии Гиббса и 10-кратное улучшение точности по сравнению с универсальными силовыми полями, обученными на траекториях релаксации на наборах данных MPF-TP и Random-TP.
Модель может быть точно настроена для атомистических симуляций на желаемом уровне теории или для прямых предсказаний "структура-свойство"с сокращением требований к данным до 97%.
▶️В релизе представлены 2 версии модели:
🟢MatterSim-v1.0.0-1M - мини-версия модели, которая работает быстрее;
🟢MatterSim-v1.0.0-5M - увеличенная версия, которая является более точной.
⚠️ Рекомендуется устанавливать MatterSim с помощью mamba
или micromamba
, поскольку conda может работать значительно медленнее при разрешении зависимостей в environment.yaml
.
▶️ Установка и использование на примере ASE калькулятора:
# Install package with the latest version
pip install git+https://github.com/microsoft/mattersim.git
# Create env via mamba
mamba env create -f environment.yaml
mamba activate mattersim
uv pip install -e .
python setup.py build_ext --inplace
# Minimal example using ASE calculator
import torch
from ase.build import bulk
from ase.units import GPa
from mattersim.forcefield import MatterSimCalculator
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Running MatterSim on {device}")
si = bulk("Si", "diamond", a=5.43)
si.calc = MatterSimCalculator(device=device)
print(f"Energy (eV) = {si.get_potential_energy()}")
print(f"Energy per atom (eV/atom) = {si.get_potential_energy()/len(si)}")
print(f"Forces of first atom (eV/A) = {si.get_forces()[0]}")
print(f"Stress[0][0] (eV/A^3) = {si.get_stress(voigt=False)[0][0]}")
print(f"Stress[0][0] (GPa) = {si.get_stress(voigt=False)[0][0] / GPa}")
🤖 Просто добавь ИИ в SIEM-систему
Команда MaxPatrol SIEM из Positive Technologies продолжает «оголяться» технологически и отвечать на ваши вопросы.
На вебинаре 5 декабря в 14:00 вы узнаете
📌 Как работает ML-модуль BAD в MaxPatrol SIEM
📌Что «под капотом» у ML-помощника
📌Как AI помогает работать с SIEM-системами
Задайте вопрос спикерам в прямом эфире и выиграйте приз 😉
Зарегистрироваться
🌟 HDR-GS: скоростной синтез HDR-изображений с помощью гауссовой spline-интерполяции.
HDR-GS — это метод рендеринга, который использует гауссову сплайн-интерполяцию для создания изображений с расширенным динамическим диапазоном и изображений со стандартным динамическим диапазоном (LDR) с заданным временем экспозиции.
HDR-GS превосходит NeRF на 1,91 и 3,84 дБ при рендеринге HDR- и LDR-видов, при этом обеспечивает 1000-кратное увеличение скорости инференса и требует всего 6,3% от времени обучения, которое требуется методу HDR-NeRF.
Пайплайн HDR-GS состоит из модели точечного облака DDR, которая использует сферические гармоники для HDR-цвета и 3 MLP для тональной компрессии, параллельной растеризации рендеринга HDR- и LDR-цветов и алгоритма Structure-from-Motion (SfM), который инициирует гауссово облако точек.
Тестирование HDR-GS проводилось на датасетах с 4 реальными сценами и 8 синтетическими, созданными в Blender. По результатам тестирования, HDR-GS значительно превзошел NeRF, NeRF-W, HDR-NeRF и 3DGS как по качеству, так и по эффективности.
⚠️ Рекомендаций по требованиям к GPU в репозитории проекта нет, тесты проводились на 1 GPU A5000.
▶️ Установка и тестовый инференс с предобученными весами сета bathroom
:
# Clone repo:
git clone https://github.com/caiyuanhao1998/HDR-GS --recursive
# Windows only
SET DISTUTILS_USE_SDK=1
# install environment of 3DGS
cd HDR-GS
conda env create --file environment.yml
conda activate hdr_gs
# Synthetic scenes
python3 train_synthetic.py --config config/bathroom.yaml --eval --gpu_id 0 --syn --load_path output/mlp/bathroom/exp-time/point_cloud/interation_x --test_only
✔️ Эксперта Стэнфорда по дезинформации обвиняют в использовании ИИ для фальсификации заявления в суде.
В ноябре Джефф Хэнкок, основатель Лаборатории социальных сетей Стэнфорда и эксперт по технологиям и дезинформации, представил заявление по делу в суде Миннесоты, оспаривающему закон штата 2023 года, криминализирующий использование дипфейков для влияния на выборы. В 12-страничном документе профессора в защиту закона содержалось 15 ссылок, 2 из которых не удалось найти: «Дипфейки и иллюзия подлинности: когнитивные процессы, лежащие в основе восприятия дезинформации» и «Влияние дипфейковых видео на политические взгляды и поведение» – ни по указанному цифровому идентификатору объекта, ни в архивах указанных журналов. Адвокат истцов назвал ссылки "галлюцинацией искусственного интеллекта" и потребовал исключить заявление Хэнкока из материалов дела.
stanforddaily.com
✔️ World Labs анонсировал ИИ, способный генерировать интерактивные 3D-сцены по одной фотографии.
Стартап World Labs, основанный профессором в области ИИ Фэй-Фэй Ли, представил свою первую разработку: систему ИИ, которая может создавать интерактивные 3D-сцены на основе одной фотографии. В отличие от многих других систем, преобразующих фото в 3D, сцены World Labs интерактивны и модифицируемы и позволяют «войти в любое изображение и исследовать его в 3D».
Система визуализирует сцены в режиме реального времени и поддерживает управление камерой и настройку глубины резкости. Она также позволяет применять к сценам интерактивные эффекты и анимацию, например, изменять цвет объектов и динамически освещать фон. World Labs планирует выпустить свой первый продукт в 2025 году и ориентируется на разработчиков видеоигр и киностудии.
techcrunch.com
✔️ The Browser Company анонсировала Dia - браузер с ИИ.
Компания The Browser Company, разработчик браузера Arc, представила Dia - новый веб-браузер, основанный на искусственном интеллекте. Dia будет запущен в начале 2025 года и предложит пользователям ИИ-функции: "напиши следующую строку", "дай мне идею" и "резюмируй вкладку".
Dia понимает контекст всего окна браузера, может копировать ссылки из открытых вкладок и вставлять их в электронное письмо по команде пользователя. В промо-видеоролике разработчики показали, как Dia находит документ по описанию и отправляет его по электронной почте. Разработчики уверяют, что Arc продолжит свое существование, несмотря на запуск нового продукта.
theverge.com
✔️ Гибридная модель рекомендаций для интернет-пользователей на основе DL.
Гибридная модель рекомендаций HRS-IU-DL сочетает в себе методы коллаборативной фильтрации, контентной фильтрации и нейроколлаборативной фильтрации. Модель использует RNN для выявления последовательных паттернов в поведении пользователей и TF-IDF для анализа атрибутов товаров.
HRS-IU-DL справляется с проблемами традиционных рекомендательных систем - разреженность данных и холодный старт, предоставляя точные и релевантные рекомендации. Для обучения и тестирования модели использовался датасет Movielens 100k. Результаты тестов показали, что HRS-IU-DL превосходит базовые модели по метрикам RMSE, MAE, точности и полноте.
nature.com
✔️ Hugging Face опубликовал руководство для разработчиков по соблюдению Закона ЕС об ИИ.
Закон ЕС об ИИ, вступивший в силу 2 декабря 2024 года, классифицирует системы ИИ по уровням риска: неприемлемый, высокий, ограниченный и минимальный.
В большинстве случаев разработчикам систем ИИ ограниченного риска (например, чат-ботов) потребуется обеспечить прозрачность взаимодействия с пользователем и маркировать контент, созданный ИИ. Разработчикам моделей ИИ общего назначения (GPAI) необходимо предоставить подробное описание данных, использованных для обучения модели, и соблюдать законы ЕС об авторском праве, включая механизмы отказа от использования защищенных авторским правом материалов.
Hugging Face предлагает инструменты, помогающие подготовиться к соблюдению требований: Model Cards, Dataset Cards, Gradio watermarking и поддержку механизмов отказа.
huggingface.co
@ai_machinelearning_big_data
#news #ai #ml
ИИ и наука: как технологии открывают новые возможности
Если вы не знали, бозон Хиггса открыли ещё в 2012 году благодаря алгоритмам машинного обучения, которые обработали огромный объём данных из Большого адронного коллайдера и нашли эту “неуловимую частицу”. С тех пор применение ИИ в науке только набирало обороты: в этом году открытия в сфере ИИ собрали Нобелевские премии и по химии, и по физике.
Руководитель Школы анализа данных (ШАД), одного из ведущих центров подготовки в области AI\ML, объяснил значение искусственного интеллекта для науки. ИИ ускоряет анализ больших массивов данных, снижает стоимость экспериментов и облегчает междисциплинарные исследования.
Притом некоторые нейросети, созданные для ученых, можно применять и в прикладных целях. Например, выпускники ШАД вместе с другими экспертами Яндекса научили алгоритмы анализировать распространение вулканического пепла в атмосфере. Сейчас эта технология помогает минимизировать риски для людей и инфраструктуры от извержений вулканов на Камчатке.
ИИ трансформирует научный мир. Как отметил Толстиков, хотя технологии ещё дороги и требуют тщательного тестирования, их потенциал огромен.
@ai_machinelearning_big_data
#ai #science #news
Ищем DL-разработчика в Точку. Мы — финтех-компания, создаём онлайн-банк и более 60 сервисов для предпринимателей, которые делают их жизнь проще.
📍До 450 000 ₽, удалёнка по всему миру
Из крутого в Точке — свобода действовать. Никто не будет навязывать методы, трекать время и контролировать каждое действие. Если у тебя есть идеи, что можно улучшить — ты будешь услышан и сможешь влиять на процессы и стек.
Работать предстоит в команде RnD, которая занимается экспериментальными ML-проектами. Будешь следить за новыми методами, моделями и инструментами в ML, разворачивать и адаптировать их для задач разных команд Точки.
Больше о задачах и требованиях на сайте.
🌟 INTELLECT-1: релиз первой модели децентрализованного обучения.
PRIME Intellect опубликовала INTELLECT-1 (Instruct + Base), первую языковую модель с 10 млрд. параметров, совместно обученную за 50 суток 30 участниками эксперимента по всему миру.
PRIME Intellect использовала собственную платформу PRIME, разработанную для решения главных проблем децентрализованного обучения: ненадежность сети и динамическое управление вычислительными узлами.
Платформа использовала сеть из 112 GPU H100 на 3 континентах и достигла коэффициента использования вычислений в 96% при оптимальных условиях.
Корпус обучения составлял на 1 трлн. токенов публичных датасетов с процентным соотношением: 55% fineweb-edu, 10% fineweb, 20% Stack V1, 10% dclm-baseline, 5% open-web-math.
▶️Технические характеристики:
🟢Parameters: 10B;
🟢Layers: 42;
🟢Attention Heads: 32;
🟢Hidden Size: 4096;
🟢Context Length: 8192;
🟢Vocabulary Size: 128256.
INTELLECT-1 достигла точности 37,5% на тесте MMLU и 72,26% на HellaSwag и превзошла несколько других моделей с открытым исходным кодом в WinoGrande с результатом 65,82%.
Хотя эти показатели немного отстают от современных популярных моделей, результаты эксперимента - важнейший шаг к демократизации разработки ИИ и предотвращению консолидации возможностей ИИ в рамках нескольких организаций.
▶️Квантованные в GGUF версии INTELLECT-1_Instruct в разрядностях от 3-bit (5.46 GB) до 8-bit(10.9 GB) от сообщества LM Studio.
▶️Пример инференса на Transformers:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
torch.set_default_device("cuda")
model = AutoModelForCausalLM.from_pretrained("PrimeIntellect/INTELLECT-1")
tokenizer = AutoTokenizer.from_pretrained("PrimeIntellect/INTELLECT-1")
input_text = "%prompt%"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output_ids = model.generate(input_ids, max_length=50, num_return_sequences=1)
output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print(output_text)
✔️ Niantic тренирует большую геопространственную модель ИИ на данных Pokémon Go.
Niantic, разработчик Pokémon Go, объявила о создании модели ИИ, обученной на миллионах реальных изображений, собранных игроками Pokémon Go и приложения Scaniverse. Алгоритм, получивший название "большая геопространственная модель", обеспечит такое же свободное ориентирование в физическом мире, какое демонстрирует ChatGPT в мире языка.
Модель основана на данных "Системы визуального позиционирования" (VPS) Niantic, которая использует более 50 млн. нейросетей с более чем 150 трлн. параметров для определения местоположения телефона с точностью до сантиметра по одному изображению. Niantic планирует использовать новую модель для улучшения дополненной реальности в своих играх и разработки автономных систем и роботов.
singularityhub.com
✔️ AMD разрабатывает процессоры на основе стеклянных подложек.
AMD получила патент на использование стеклянных оснований при производстве процессоров. Стеклянные основания лучше отводят тепло, меньше теряют сигнал и точнее по размерам, чем традиционные материалы. Это делает их пригодными для высокочастотных задач, таких как 5G и искусственный интеллект.
Патент описывает технологию Through Glass Vias (TGV) для создания вертикальных каналов передачи данных и питания внутри стеклянного основания. Также в патенте представлен способ соединения нескольких стеклянных оснований с помощью меди.
AMD планирует использовать патент в процессорах Zen и новых GPU, состоящих из нескольких чиплетов.
techspot.com
✔️ Китай представил чип "Global Scheduling Ethernet".
Китайские компании представили чипы, работающие на базе протокола "Global Scheduling Ethernet" (GSE). Этот протокол предназначен для обработки больших объемов данных и обеспечения высокой скорости передачи, необходимых для искусственного интеллекта и других высокопроизводительных задач.
Разработка GSE началась в 2023 году при участии более 50 организаций, включая облачных провайдеров, производителей чипов и вузов. GSE является альтернативой технологии Ultra Ethernet Consortium (UEC), предназначенной для эффективной коммуникации в кластерах высокопроизводительных вычислений и ИИ.
Существующая технология Ethernet не подходит для больших рабочих нагрузок, связанных с обучением ИИ, из-за чего в ЦОДах, использующих GPU Nvidia, применяются проприетарные и дорогие технологии прямого соединения - NVLink. GSE нацелена решить эту проблему, предлагая эффективное и доступное решение для высокоскоростных вычислений.
tomshardware.com
✔️ Нанофотонные нейронные сети в объективах камер для вычислений.
Ученые из Вашингтонского университета разработали нанофотонную нейронную сеть (SVN3), которая встраивается в объективы камер и выполняет вычисления во время съемки, до записи на сенсор. SVN3 использует массив из 50 металлических элементов, оптимизированных для работы с некогерентным светом, которые выполняют параллельные многоканальные свертки со скоростью света без потребления энергии.
Для обучения сети используется метод низкоразмерной репараметризации. SVN3 достигает точности классификации изображений 72,76% на наборе данных CIFAR-10 и 48,64% на ImageNet, что сопоставимо с производительностью современных нейронных сетей.
SVN3 потребляет значительно меньше энергии, так как более 99% вычислений выполняется оптическим путем.
science.org
✔️ Более половины лонгридов в LinkedIn созданы ИИ.
Исследование Originality.ai показало, что 54% длинных постов в LinkedIn созданы искусственным интеллектом. В исследовании анализировались 8 795 длинных постов (не менее 100 слов), опубликованных с января 2018 года по октябрь 2024 года.
Запуск ChatGPT в 2022 году вызвал резкий рост количества контента, созданного ИИ, увеличившись на 189% с января по февраль 2023 года. После всплеска в феврале 2023 года наблюдается стабилизация, что может указывать на новую норму для контента в LinkedIn.
readwrite.com
@ai_machinelearning_big_data
#news #ai #ml
🌟 cuPyNumeric: замена NumPy от NVIDIA.
По мере роста объемов данных и сложности вычислений, вычисления на Python и NumPy, основанные на CPU, нуждаются в ускорении для выполнения современных исследований.
cuPyNumeric разработана, чтобы стать заменой библиотеки NumPy, предоставляя сообществу Python распределенные и ускоренные вычисления на платформе NVIDIA. cuPyNumeric позволяет масштабировать вычисления без изменения кода проектов с одного CPU до суперкомпьютеров с несколькими GPU и вычислительными нодами.
Библиотека построена на Legate, поддерживает родной Python и интерфейс NumPy. cuPyNumeric доступен из conda (версия не ниже 24.1) в legate channel. На системах с GPU пакеты, поддерживающие графические ускорители будут выбраны автоматически во время установки.
Пример эффективности cuPyNumeric - обработка 10 ТБ микроизображений многоракурсной микроскопии в виде одного массива NumPy за один день с визуализаций в режиме реального времени.
▶️Установка и тест на примере из репозитория:
# Create new conda env
conda create -n myenv -c conda-forge -c legate cupynumeric
# Test via example from repo
$ legate examples/black_scholes.py
Running black scholes on 10K options...
Elapsed Time: 129.017 ms
🌟 Методы оценки LLM-моделей
Оценивая качество работы генеративной модели, специалисты сталкиваются с рядом трудностей. Классические методы оценки «ума» LLM, которые включают академические бенчмарки, не отражают реальной ценности моделей в бизнес-задачах — способности вести диалог или помогать с брейнштормингом.
Существуют специальные бенчмарки (COPA, PIQA, OpenBook, WinoGrande) для проверки «здравого смысла», но все они подвержены искажению результатов из-за возможных протечек данных в процессе обучения.
IT-компании, включая Яндекс, создают собственные внутренние бенчмарки под конкретные навыки моделей и реальные бизнес-сценарии использования. Это позволяет оценивать практическую пользу LLM, а не только академические показатели.
Есть и альтернативные способы:
🟠Разумность LLM могут оценивать сами пользователи через LMSYS Chatbot Arena. Есть вопрос и два варианта ответа, за один из которых нужно проголосовать. Система работает как шахматный турнир: за выигрыш получаете очки, за проигрыш — теряете.
🟢Экспертная оценка через AI-тренеров, которых отбирают по способности к фактчекингу. Но у этого подхода есть минусы: эксперт достигает предела компетенции, нужна постоянная система контроля качества, работа с людьми сложна и дорога.
В Яндексе отмечают, что нет единого «правильного» решения для оценки LLM — необходимо комбинировать разные подходы, постоянно исследовать данные и проверять, насколько модель действительно полезна в реальных задачах.
🔜 Разбор
@ai_machinelearning_big_data
#AI #ML #LLM
🤖 Выведите свои навыки машинного обучения на продвинутый уровень!
Приглашаем вас на открытый вебинар "ML Advanced: все, что вы хотели знать о методах машинного обучения, но боялись спросить", где мы расскажем, как рекомендательные системы, временные ряды, RL и байесовские методы могут изменить вашу карьеру в IT.
👩🏫 Спикер: Мария Тихонова — PhD Computer Science, Senior Data Scientist в SberDevices и преподаватель ВШЭ.
📅 Дата: 2 декабря в 18:00 МСК
🎁 Бонус: Участники вебинара получат скидку на обучение на курсе «Machine Learning. Advanced».
👉Записывайтесь на открытый урок по ссылке: здесь ваша ссылка
Не упустите возможность поднять свои навыки на новый уровень! 🚀
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Приглашаем тебя на крутое IT-мероприятие, посвящённое AI и передовым технологиям разработки рекомендательных систем.
Регистрируйся, и в день мероприятия мы пришлём тебе ссылку на трансляцию. Или приходи очно, если ты живёшь в одном из городов.
Где и когда?
👉 Нижний Новгород, 5 декабря
👉 Санкт-Петербург, 6 декабря
Тебя ждут крутейшие доклады, живая дискуссия и новые знания в сфере рекомендательных систем.
Количество мест ограничено — успей занять своё и прикоснуться к миру рекомендательных систем! 😉
🌟 🌟 OuteTTS-0.2-500M: обновление ТTS-модели с возможностью клонирования голоса.
OuteTTS-0.2-500M - улучшенная версия предыдущей модели синтеза речи, основанная на Qwen-2.5-0.5B и обученная на крупных и более качественных датасетах Emilia-Dataset, LibriTTS-R и Multilingual LibriSpeech. Контекст длиной 4096 токенов обеспечивает ~ 54 секунды генерации звука.
Новая версия получила изменения относительно версии 0.1:
🟢Повышенная точность. Модель лучше следует промптам и показывает более высокую согласованность выходных данных по сравнению с предыдущей версией;
🟢Естественная речь. V 0.2 генерирует более естественную и плавную синтезированную речь;
🟢Расширенный словарь. Модель обучена на более чем 5 млрд. токенов аудио;
🟢Клонирование голоса. Улучшены возможности клонирования голоса с большей вариативностью и точностью;
🟢Многоязычная поддержка. Добавлена экспериментальная поддержка китайского, японского и корейского языков.
⚠️ Для инференса GGUF-версии модели необходимо установить llama-cpp-python.
▶️ Установка и пример локального инференса:
# Install from PyPI
pip install outetts
# Interface Usage
import outetts
# Configure the model
model_config = outetts.HFModelConfig_v1(
model_path="OuteAI/OuteTTS-0.2-500M",
language="en", # Supported languages in v0.2: en, zh, ja, ko
)
# Initialize the interface
interface = outetts.InterfaceHF(model_version="0.2", cfg=model_config)
# Optional: Create a speaker profile (use a 10-15 second audio clip)
speaker = interface.create_speaker(
audio_path="path/to/audio/file",
transcript="Transcription of the audio file."
)
# Optional: Load speaker from default presets
interface.print_default_speakers()
speaker = interface.load_default_speaker(name="male_1")
output = interface.generate(
text="%Prompt Text%%.",
temperature=0.1,
repetition_penalty=1.1,
max_length=4096,
# Optional: Use a speaker profile
speaker=speaker,
)
# Save the synthesized speech to a file
output.save("output.wav")
⚡️ NeuZip: метод сжатия весов для обучения и инференса.
NeuZip - алгоритм сжатия весов нейронных сетей, разработанный для снижения требований к памяти во время обучения и инференса без ущерба для производительности.
В основе NeuZip лежит принцип энтропии чисел с плавающей запятой в нейронных сетях. Веса нейронных сетей концентрируются вокруг нуля, что приводит к низкой энтропии битов экспоненты, а значит, почему бы не сжимать биты экспоненты без потерь с помощью асимметричной системы счисления (ANS)?
ANS — это алгоритм сжатия без потерь, который обеспечивает высокую пропускную способность на параллельных вычислительных устройствах, например, на GPU.
/examples
репозитория проекта на Github.# Install from PyPI
pip install neuzip
# Use Neuzip for Pytorch model
model: torch.nn.Module = # your model
+ manager = neuzip.Manager()
+ model = manager.convert(model)
🌟 Hymba-1.5B: Базовая и инструктивная модели от NVIDIA.
Hymba-1.5B-Base имеет embedding size 1600, 25 attention heads, MLP 5504, 32 слоя, 16 состояний SSM, 3 слоя полного внимания, остальные - внимания со скользящим окном.
В отличие от стандартного трансформера, каждый слой внимания в Hymba имеет гибридную комбинацию стандартных attention heads и Mamba heads в параллельном исполнении. Hymba использует технологии Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
Hymba обучалась на 1.5 трлн токенах в 2 этапа предварительного обучения и 3 этапами посттренининга.
Hymba-1.5B-Instruct - файнтон Hymba-1.5B-Base на комбинации открытых наборов данных инструкций и собранных собственными силами синтетических датасетов.
Эта модель настраивалась с помощью SFT и DPO и способна как в математические рассуждения и вызов функций, так и в ролевые сценарии.
⚠️ В Hymba-1.5B-Instruct используется кастомный шаблон промпта, который был интегрирован в токенизатор и может быть применен с помощью tokenizer.apply_chat_template.
▶️Пример инференса Hymba-1.5B-Base:
from transformers import LlamaTokenizer, AutoModelForCausalLM, AutoTokenizer, AutoModel
import torch
# Load the tokenizer and model
repo_name = "nvidia/Hymba-1.5B-Base"
tokenizer = AutoTokenizer.from_pretrained(repo_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(repo_name, trust_remote_code=True)
model = model.cuda().to(torch.bfloat16)
# Chat with Hymba
prompt = input()
inputs = tokenizer(prompt, return_tensors="pt").to('cuda')
outputs = model.generate(**inputs, max_length=64, do_sample=False, temperature=0.7, use_cache=True)
response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
print(f"Model response: {response}")