ai_machinelearning_big_data | Технологии

Telegram-канал ai_machinelearning_big_data - Machinelearning

27348

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

⚡️ LLaVA-NeXT: A Strong Zero-shot Video Understanding Model

LLaVA-NeXT - одна из самых мощных на сегодняшний день моделей для понимания видео, превосходящая все существующие VLM, с открытым исходным кодом.

Новая SoTA!

LLaVA-Next демонстрирует высокую скорость передачи данных и демонстрирует отличные результаты при zero-shot обучении.


git clone https://github.com/LLaVA-VL/LLaVA-NeXT


Github: https://github.com/LLaVA-VL/LLaVA-NeXT
Blog: https://llava-vl.github.io/blog/2024-04-30-llava-next-video/
HF: https://huggingface.co/shi-labs/CuMo-mistral-7b
Dataset: https://huggingface.co/datasets/shi-labs/CuMo_dataset

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔥Gemma 2B with recurrent local attention with context length of up to 10M

Огненная модель Gemma 2B с длиной контекста 10M, которая анализирует до 7 млн слов.

В нее можно закидывать огромные документы и модель всё проанализирует.

Производительность выше Gemini в 10 раз, а памяти нужно всего 32 ГБ.

Github: https://github.com/mustafaaljadery/gemma-2B-10M
HF: https://huggingface.co/mustafaaljadery/gemma-2B-10M
Technical Overview: akshgarg_36829/gemma-10m-technical-overview-900adc4fbeeb" rel="nofollow">https://medium.com/@akshgarg_36829/gemma-10m-technical-overview-900adc4fbeeb

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

💡 Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

Lumina-T2X - новое семейство диффузионных моделей, способных преобразовывать текст в: изображения, динамичные видео с любым разрешением и длительностью, 3D модели и речь с минимальными вычислительными затратами..

В основе Lumina-T2X лежит большой диффузионный Flow-based трансформер (Flag-DiT), который поддерживает до 7 миллиардов параметров и длины контекста в 128 000 токенов.

Github: https://github.com/alpha-vllm/lumina-t2x
Paper: https://arxiv.org/abs/2405.05945
Demo: https://lumina.sylin.host/

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Google Threat Intelligence — AI-решение в сфере кибербеза

Google представила новое решение в сфере кибербезопасности Threat Intelligence, которое позволит клиентам «получать ценную информацию и защищать корпоративную IT-инфраструктуру от угроз быстрее, чем когда-либо прежде», используя аналитические данные подразделения кибербезопасности Mandiant, службы анализа угроз VirusTotal в сочетании с возможностями ИИ-модели Gemini AI.

«Бесспорно, что сегодня Google обеспечивает два наиболее важных столпа анализа угроз в отрасли — VirusTotal и Mandiant. Интеграция обоих в единое предложение, дополненное ИИ и анализом угроз Google, предлагает командам безопасности новые средства для использования актуальных сведений об угрозах для лучшей защиты своих организаций», — отметил Дэйв Грубер (Dave Gruber), главный аналитик Enterprise Strategy Group.

Google отметила, что основным преимуществом Threat Intelligence является предоставление специалистам по безопасности ускоренной аналитики за счёт использования генеративного ИИ. Задействованная в решении большая языковая модель Gemini 1.5 Pro, по словам Google, сокращает время, необходимое для анализа вредоносного ПО и раскрытия его исходного кода.

Компания отметила, что вышедшей в феврале версии Gemini 1.5 Pro потребовалось всего 34 секунды, чтобы проанализировать код вируса WannaCry, программы-вымогателя, с помощью которой хакеры в 2017 году атаковали множество компаний по всему миру.

Также Gemini позволяет ускорить сбор информации о хакерской группе, её целях, тактике взлома и связанных с ней деталях. Кроме того, Gemini обеспечивает обобщение отчётов об угрозах на естественном языке в Threat Intelligence, что позволяет компаниям оценить, как потенциальные атаки могут на них повлиять, и расставить приоритеты, на чём следует сосредоточиться.

📎 Подробнее
🟡 Демонстрация

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🧬 AlphaFold 3 predicts the structure and interactions of all of life’s molecules

Google DeepMind представили Alpha Fold3, новую модель искусственного интеллекта, которая предсказывает структуру и взаимодействия молекул.

Благодаря точному прогнозированию структуры белков, ДНК, РНК и многого другого, а также того, как они взаимодействуют, наше понимание биологического мира может выйти на новый уровень, а в практическом применение поможет разработке новых лекарств.

Эта революционная модель, может предсказывать структуру и взаимодействия всех молекул жизни с беспрецедентной точностью.

На основе входного списка молекул Alpha Fold3 генерирует их общую трехмерную структуру, показывая, как они сочетаются друг с другом. Программа моделирует крупные биомолекулы, такие как белки, ДНК и РНК, а также небольшие молекулы, также известные как лиганды.

Кроме того, Alpha Fold3 может моделировать химические модификации этих молекул, которые контролируют здоровое функционирование клеток, нарушение которых может привести к различным заболеваниям.

Теперь для учёные со всего мира могут работать с AlphaFold 3 совершенно бесплатно.

Blog: https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/
Nature: https://www.nature.com/articles/s41586-024-07487-w
Two Minute Papers: https://www.youtube.com/watch?v=Mz7Qp73lj9o

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔉 AudioSeal is the state of art audio watermarking model

Audio Seal - это SOTA для добавления метаданных на аудио и распознавания их, предназначенная для локального распознавания речи, сгенерированной искусственным интеллектом.

Инструмент прост в настройке и работает молниеносно.

Audioseal обеспечивает самые современные характеристики распознавания как естественной, так и синтетической речи, обеспечивает незначительное изменение качества сигнала и устойчив ко многим типам редактирования аудио.

Audioseal значительно превосходит существующие модели по скорости обнаружения.


pip install audioseal


Github: https://github.com/facebookresearch/audioseal
Paper: https://arxiv.org/abs/2401.17264
Colab: https://colab.research.google.com/github/facebookresearch/audioseal/blob/master/examples/colab.ipynb
HF: https://huggingface.co/facebook/audioseal

#audio

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

➡ Новости: теперь вы можете публиковать свои модели прямо из Keras API в Kaggle или huggingface!

Вот руководство по началу работы на любой из платформ → https://developers.googleblog.com/en/publish-your-keras-models-on-kaggle-and-hugging-face/

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

💥 New tools to help researchers study content authenticity by OpenAi

OpenAi запускает для тестов новый классификатор, который поможет идентифицировать контент, созданный DALLE 3.

В этом году они уже начали добавлять метаданные CPAN ко всем изображениям, созданным и отредактированным DALE 3, в ChatGPT и OpenAI API.

Они также планируют интегрировать метаданные C2PA для Sora, когда модель будет выпущена.

▪ Почитать подробнее можно здесь

#openai #dalle3

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔥Machine learning Interview Questions

Вопросы и ответы с собеседований.

Большая, подборка вопросов и ответов с собеседований по ML, Data Science,Ai, статистике, теории вероятностей python, SQL.

ML
100 вопросов c собесов по машинному обучению 2024
Сборник ответов с собесов по машинному обучению от FAANG, Snapchat, LinkedIn.
Facebook. Вопросы по машинному обучению 2024 год
Google руководство по прохождению собеса в 2024 году
Подготовка к собеседованию по ML: ответы на основные вопросы
14 типичных вопросов с собеседования по ML
Вопросы для собеседования на позицию ML-инженера
Решения вступительных испытаний в ШАД
Решения вступительных испытаний в ШАД архив
AI Interviews at Apple, OpenAI, Bloomberg & JP Morgan – What to Expect
Apple Machine Learning Engineer (MLE) Interview Guide
Junior ML-инженер | Выпуск 1 | Собеседование
Успешное собеседование в Яндекс
Как я проходил собеседования на Machine Learning Engineer
NLP
100 вопросов и ответов для интервью по NLP
Топ-50 вопросов собеседований NLP
Вопросы по NLP 2024 года
DS
Материалы для подготовки к интервью data science
Вопросы/ответы DS
100 вопросов для подготовки к собесу Data Science
Временные ряды. Топ 50 вопросов
Python

100 вопросов для подготовки к собесу Python
50 вопросов по PyTorch
45 Вопросов с собеседований Pandas
400 самых популярных вопросов-ответов для Python-разработчика.
100 вопросов видео
LeetCode Pandas
AI
30 вопросов промпт инжинирингу
15 вопросов по LLM и AI
27 Вопросов по Chatgpt
Math
Вопросы с собеседований по статистике
Вопросы по теории вероятности
LeetCode: разные решения с кодом
Top 75 Statistics Interview Questions
40 вопросов по статистике с собеседований на должность Data Scientist
Statistics Interview Questions & Answers for Data Scientists
SQL
Задачи с собеседований SQL

Подборка будет постепенно обновляться, делитесь в комментариях полезными ресурсами, которые стоит сюда добавить.

#interview #вопросыссобесов #ml #ds

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Pytup в Нижнем Новгороде 1 июня

Вас ждёт большая конференция по Python-разработке Pytup.

В программе — выступления спикеров, новости языка, актуальные кейсы экспертов и, конечно, нетворкинг.

Узнаете, как создать платформу для обработки данных в вашей IT-компании или микросервис обработки геометрических данных. А ещё послушаете крутые доклады, получите ответы на вопросы и пообщаетесь со спикерами и коллегами.

Зарегистрироваться на Pytup! 💛

Читать полностью…

Machinelearning

📌 The Possibilities of AI [Entire Talk] - Sam Altman (OpenAI)

3 дня назаю в Стэнфорде Сэм Альтман поделился своими мыслями об искусственном интеллекте.
Сложно остановиться и перестать пересматривать некоторые моменты.

Вот 6 ключевых мыслей:

🟡"Мне все равно, сожжём ли мы 500 миллионов долларов или 50 миллиардов... мы создадим AGI, и это будет того стоить".

🟡"В краткосрочной перспективе все меняется меньше, чем мы думаем. В долгосрочной перспективе все изменится сильнее, чем мы думаем".

🟡"GPT-5 будет намного умнее GPT-4 в общем смысле. И я думаю, что серьезность этого утверждения недооценивается".

🟡"Глобальный доступ к вычислениям — это право человека, и наша задача — понять, как обеспечить много людей этой возможностью".

🟡"Не ко всему можно заранее подготовиться. Вы учитесь управлять стартапом во время управления стартапом".

🟡"ChatGPT в лучшем случае вызывает легкое недоумение. GPT-4 — самая тупая модель из всех, чем вы сможете пользоваться скоро... намного".

▶️ Вот этот разговор в Стэнфорде

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Finetuning for Text Classification

Если вы ищете чем занаться на выходных и хотите немного почитать и покодить,- вот свежая глава из книги Build an LLM from Scratch, по настройке GPT-модели для классификации СПАМ-сообщений с точностью до 96%.

Модель небольшая и обучение на MacBook Air M3 занимает ~ 5 минут.

Github

#book #tutorial #llm

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⭐️ StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

StoryDiffusion - новый инструмент, для создания, последовательных историй: изображений и видео.

Модель позволяет создавать комиксы в различных стилях, с акцентом на последовательное повествование и поддержание единого стиля окружения, персонажей и их одежды.

StoryDiffusion совместим со всеми моделями на базе SD1.5 и SDXL.

Github: https://github.com/HVision-NKU/StoryDiffusion
Paper: https://arxiv.org/abs/2405.01434
Demo: https://storydiffusion.github.io

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🧠 Улучши ИИ на хакатоне X5 Tech AI Hack! У тебя будет 10 дней, чтобы избавить нейросеть от галлюцинаций или научить ее работать с конфиденциальными данными. Призовой фонд от X5 Tech – 2 000 000 рублей.

Старт ML-соревнования – 17 мая. Не жди дедлайна, регистрируйся прямо сейчас: https://cnrlink.com/x5techaihackml

Приглашаем на хакатон экспертов по Data Science, ML-специалистов, разработчиков на Python и всех остальных, кто хочет прокачать свои знания о создании ИИ. На выбор – один из двух треков:

🥷 Трек 1. Маскирование. При использовании сторонней языковой модели нельзя передавать ей чувствительные данные организации – имена клиентов, доменные адреса и прочие. Поэтому участникам необходимо подготовить алгоритм, который заменит эти сведения в тексте без потери смысла.

🔎 Трек 2. Детекция галлюцинаций. Никто не любит, когда ИИ-ассистент в ответ на вопрос дает неправильную информацию. Задача конкурсантов – разработать систему, которая сможет эффективно выявлять аномалии в текстах, сгенерированных нейросетью.

Хакатон продлится 10 дней. У тебя будет шанс получить консультацию от крутых ML-экспертов и специалистов по Data Science, обсудить решения с единомышленниками, узнать больше о проектах X5 Tech.

28-29 мая по результатам тестирования моделей участников 5 лучших команд в каждом треке получат приглашение на финал в Москве. Церемония награждения пройдет на мероприятии X5 Future Night.

Участвуй в X5 Tech AI Hack и внеси свой вклад в развитие ML-технологий: https://cnrlink.com/x5techaihackml

Реклама. ООО «ИТ ИКС 5 Технологии». ИНН 1615014289. erid: LjN8KLvK4

Читать полностью…

Machinelearning

🖥 Похоже, что OpenAI собирается занять позиции Google и запустить свои поисковик.

Это может быть самой серьезной угрозой, с которой Google когда-либо сталкивался.

В журналах регистрации SSL-сертификатов Openai добавили домен http://search.chatgpt.com

Это не слишком удивительно, учитывая:
1. В OpenAI есть веб сканер GPTBot.
2. Пользователи ChatGPT Plus имеет функциб Browse для поиска информации в Интернете.
3. Microsoft Bing использует движок GPT-4 от OpenAI, настроенный для поиска.

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

KAN + NeRF = 🔥

KAN (Kolmogorov-Arnold Networks) — многообещающий конкурент традиционных MLP.
Почему бы не внедрить его в NeRF?

Оптимизация NeRF занимает от нескольких часов до одного-двух дней (в зависимости от разрешения) и требует GPU.
Рендеринг изображения из оптимизированного NeRF с KAN занимает от секунды до ~30 секунд в зависимости от разрешения.

🖥 GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Deblur-GS: 3D Gaussian Splatting from Camera Motion Blurred Images

Новый метод Deblur-GS
на основе Гауссовских сплатов для качественного восстановления размытой картинки.

Deblur-GS обеспечивает превосходную производительность и качество рендеринга по сравнению с предыдущими методами, что подтверждается бенчмарками, как на синтетических, так и на реальных наборах данных.

Code: https://github.com/Chaphlagical/Deblur-GS
Paper: https://chaphlagical.icu/Deblur-GS/static/paper/Deblur_GS_author_version.pdf
Project: https://chaphlagical.icu/Deblur-GS/

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔦 IC-Light: Imposing Consistent Light 💡

IC-Light - это новый интересный проект для реалистичного управления освещением.

Внутри два типа моделей: модель изменения освещения с из тектовых промптов и модель изменения подсветки фона изображений.

Github: https://github.com/lllyasviel/IC-Light
Jupyter: https://github.com/camenduru/IC-Light-jupyter
Demo: https://huggingface.co/spaces/lllyasviel/IC-Light

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ You Only Cache Once: Decoder-Decoder Architectures for Large Language Models

Microsoft только что представили инструмент You Only Cache Once: Decoder-Decoder : архитектура Decoder-Decoder для больших языковых моделей

YOCO существенно снижает потребление памяти GPU и состоит из двух компонентов - cross decoder'а, объединенного с self-decoder'ом.

Self-decoder кодирует глобальные кэши
значений ключей (KV), которые повторно используются cross decoder'ом с механизмом cross-attention.

Результаты экспериментов показывают, что YOCO достигает более высокой производительности по сравнению с архитектурой Трансформеров при различных настройках масштабирования размера модели и количества обучающих токенов, подробнее тут.

Github: https://github.com/microsoft/unilm/tree/master/YOCO
ABS: https://arxiv.org/abs/2405.05254

#microsoft

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🚀 На Хабре вышел гайд о том, как внедрять YandexGPT API в свои продукты

Команда AllSee показала, как они реализовали SDK для быстрой интеграции YandexGPT в python-приложение. Попутно показали, что модель даёт похожий на ChatGPT результат по метрикам, но при этом её дешевле использовать в своих проектах.

Пользуйтесь )

▪️ Habr: https://habr.com/ru/articles/812979/

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Introduction to Granite Code Models

IBM выпустили Granite Code Models: семейство моделей Open Foundation для интеллектуального анализа и генерации кода

Все модели Granite Code выпущены под лицензией Apache 2.0.

Модели Granite превосходят модели с открытым исходным кодом по всем параметрам. На рисунке показано, как Granite-8B-CodeBase превосходит Mistral-7B, LLama-3-8B и другие модели с открытым исходным кодом в трех задачах кодинга. Полные оценки можно найти здесь.

Модели отлично справляются с задачами генерации кода, исправления багов объяснения кода, генерации документации к кода.

- Размер моделей варьируется от 3B до 34B параметров
- Обученных на 3-4 тыс. токенах, полученных из 116 языков программирования

Github: https://github.com/ibm-granite/granite-code-models
Paper: https://arxiv.org/abs/2405.04324
HF: https://huggingface.co/collections/ibm-granite/granite-code-models-6624c5cec322e4c148c8b330

#llm #codegeneration

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Эффективный метод быстрого освоения ChatGPT.

Обучение нейронной сети и создание правильных промптов – это длительный процесс, который требует значительного времени.

Здесь разработан краткий курс из 5 уроков по ChatGPT. После его завершения вы сможете создать 9 нейронных сетей, которые помогут вам:

- находить ошибки и оптимизировать код
- генерировать посты в Телеграме
- создавать заголовки для рекламы
- делегировать рутинные задачи нейронке

Вы также сможете разработать своих собственных нейро-помощников для продаж, маркетинга и других целей.

Бесплатный доступ предоставляется сразу после регистрации.

Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8K921a

Читать полностью…

Machinelearning

🌟 TrustLLM для оценивания ответов LLM

TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.
TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.

В этом документе подробно объясняется, как использовать инструмент для оценки эффективности собственных моделей.


pip install trustllm


GitHub
Arxiv
Docs
Project

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️OpenDevin

OpenDevin — это open-source проект, цель которого - воспроизвести Devin, автономного AI-программиста, способного выполнять сложные инженерные задачи и активно сотрудничать с пользователями в проектах по разработке ПО.

OpenDevin стремится повторить, улучшить и усовершенствовать Devin.

Запуск OpenDevin с помощью Docker:


# The directory you want OpenDevin to modify. MUST be an absolute path!
export WORKSPACE_BASE=$(pwd)/workspace


docker run \
--pull=always \
-e SANDBOX_USER_ID=$(id -u) \
-e WORKSPACE_MOUNT_PATH=$WORKSPACE_BASE \
-v $WORKSPACE_BASE:/opt/workspace_base \
-v /var/run/docker.sock:/var/run/docker.sock \
-p 3000:3000 \
--add-host host.docker.internal=host-gateway \
ghcr.io/opendevin/opendevin:0.5


GitHub
Страничка OpenDevin

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Quivr — "Obsidian" с ИИ

Quivr — это open-source локальная и приватная альтернатива OpenAI GPTs и ChatGPT.

Позволяет извлекать информацию из локальных файлов (PDF, CSV, Excel, Word, аудио, видео...), используя Langchain, GPT 3.5/4 turbo, Private, Anthropic, VertexAI, Ollama, LLMs, Groq.
Даёт возможность легко делится своей базой знаний через публичную ссылку.

Quivr работает в автономном режиме, поэтому вы можете получить доступ к своим данным в любое время и в любом месте.

🖥 GitHub
🟡 Страничка Quivr

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🧑‍💻 StarCoder2-Instruct: Fully Transparent and Permissive Self-Alignment for Code Generation

StarCoder2-Instruct - это первый полностью самонастраивающийся LLM-разработчик кода с помощью конвейера Hugging Face.

Этот конвейер использует StarCoder2-15B для генерации тысяч пар "промпт-ответ", которые затем используются для точной настройки StarCoder-15B без каких-либо человеческих аннотаций или дистиллированных данных из огромных и проприетарных LLM.

StarCoder2-15B-Instruct набрал 72,6 балла по шкале HumanEval и даже превосходит CodeLlama-70B-Instruct с ее 72,0 балла !

Оценки на LiveCodeBench показывают, что самонастраивающаяся модель работает даже лучше, чем та же модель, обученная на основе данных, полученных из GPT-4, это означает, что LLM может более эффективно учиться на собственных данных.

Blog: https://huggingface.co/blog/sc2-instruct
Model: https://huggingface.co/bigcode/starcoder2-15b-instruct-v0.1
Dataset: https://huggingface.co/datasets/bigcode/self-oss-instruct-sc2-exec-filter-50k
Code: https://github.com/bigcode-project/starcoder2-self-align

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Google just dropped Code Gemma 1.1 7B IT 🔥

СЮРПРИЗ: Google только что выпустила Code Gemma 1.1 7B IT 🔥

Модели постепенно становятся все совершеннее в генерации кода .

Значительный прогресс достигнут для C#, Go, Python 🐍

Вместе с версией 7B они также выпустили обновленную базовую модель 2B.

Наслаждайтесь!

7B: https://huggingface.co/google/codegemma-1.1-7b-it
2B: https://huggingface.co/google/codegemma-1.1-2b
Report: https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🚀 AI2 presents WildChat: 1M ChatGPT Interaction Logs in the Wild

Новый крутой датасет - Wild Chat, состоящий 1 миллиона реальных взаимодействий пользователей с ChatGPT, характеризующихся широким спектром языков и разнообразием промптов.

Он был собран путем предоставления бесплатного доступа всем желающим к ChatGPT и GPT-4 в обмен на сбор истории чатов.

Используя этот датасет, разработчики создали бота WildLlama-7b-user-assistant на базе Llama-2, который способен предсказывать как промптов пользователя, так и ответы, которые может выбрать Chatgpt.

Пользуйтесь )

proj: https://wildchat.allen.ai
abs: https://arxiv.org/abs/2405.01470

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔥 Prometheus-Eval 🔥

Prometheus 2: Языковая модель с открытым исходным кодом, специализирующаяся на оценке других языковых моделей.

По сравнению с Prometheus 1 (13B), Prometheus 2 (8x7B) - обеспечивает более точные оценки моделей и также поддерживает оценку в формате попарного ранжирования (относительной классификации)!

На 8 бенчмарках Prometheus 2 демонстрирует наивысшую корреляцию с оценками, сделанными экспертами.

⚡ Поддерживает оценку Prometheus, GPT-4 и Claude-3 🚀 ⚡



pip install prometheus-eval


Github: https://github.com/prometheus-eval/prometheus-eval
Paper: arxiv.org/abs/2405.01535

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 OSWorld — среда для оценки мультимодальных AI-агентов

OSWorld — это первая в своем роде масштабируемая среда для мультимодальных агентов, поддерживающая постановку задач, оценку на основе выполнения и интерактивное обучение в разных операционных системах.
OSWorld может служить унифицированной средой для оценки бессрочных компьютерных задач, включающих произвольные
приложения.

🖥 GitHub
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…
Подписаться на канал