ai_machinelearning_big_data | Технологии

Telegram-канал ai_machinelearning_big_data - Machinelearning

27348

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

⚡️ Итоги конкурса Технотекст от Хабра в номинации ML

Победителями жюри выбрало три работы:

🟡 Статья Виктора Юрченко из Яндекса про нейронные сети для планирования движения беспилотных автомобилей.
🟡 Статья Котенкова Игоря из Open Data Science про то, как работает ChatGPT.
🟡 Статья Мурата Апишева о методах позиционного кодирования в Transformer.

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Приглашаем Data Engineer на проект «Прикладная аналитическая платформа Сбер B2C» ⚡️

Платформа позволяет создавать аналитические витрины на Data Lake по различным направлениям бизнеса. Мы анализируем клиентские пути, создаём синергию в продуктах и сервисах и формируем целостное предложение для сегментов.

Какие задачи будут в вашем планере:

👉 Ведение стримов разработки витрин.
👉 Управление жизненным циклом разработки витрин, умение находить правильный баланс между скоростью и качеством разработки.
👉 Организация внутрикомандных взаимодействий и мотивация.

Мы активно расширяемся и усиливаем нашу команду, поэтому сейчас ищем талантливых Lead/Senior/Middle Data Engineer с опытом разработки приложений на Spark от двух лет, Scala/Java, знанием конвейеров и инструментов CI/CD.

Читайте подробности и откликайтесь по ссылке 😉

Читать полностью…

Machinelearning

⚡️ Scribble SDXL — позволяет превратить каракули в шедевр

Scribble SDXL создан на основе SDXL ControlNet и его можно без проблем запустить на Hugging Face (спасибо linoy_tsaban из X).
Можно выбирать разные стили и экспериментировать

🤗 Scribble SDXL

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 ChatTTS — генеративная text2speech модель с упором реалистичность

import ChatTTS
from IPython.display import Audio

chat = ChatTTS.Chat()
chat.load_models()

texts = ["<PUT YOUR TEXT HERE>",]

wavs = chat.infer(texts, use_decoder=True)
Audio(wavs[0], rate=24_000, autoplay=True)


ChatTTS — это модель преобразования текста в речь, разработанная специально для сценариев диалога, таких как LLM-ассистент.
ChatTTS поддерживает как английский, так и китайский языки (если кому актуально).

🖥 GitHub
🤗 Погонять в Hugging Face
🟡 Страничка ChatTTS

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Релиз YandexGPT 3 Lite

Яндекс представил облегченную версию генеративной модели третьего поколения. Нейросеть лучше справляется со сценариями, в которых важна скорость ответа. Например, чат-бот на сайте, исправление орфографических ошибок в текстах, анализ данных и так далее.

YandexGPT 3 Lite доступна клиентам Yandex Cloud для интеграции через API. Модель можно протестировать в демо-режиме бесплатно.

▪️Подробнее

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

📔 Curated list of 50+ textbooks on machine learning,

Большой список из более чем 50 учебников по машинному обучению, искусственному интеллекту, глубокому обучению, компьютерному зрению и т.д.

Книги со ссылками для скачивания в PDF и в веб формате.

📚 BOOKS: https://franknielsen.github.io/Books/CuratedBookLists.html

#books #книги

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Sweep — AI-джун, который самостоятельно исправит мелкие ошибки в коде

Установка Sweep CLI:
pip install sweepai

Работает очень просто: нужно описать ошибки, функции, которые необходимо реализовать, и Sweep:
— прочитает вашу кодовую базу
— спланирует изменения
— создаст pull request с нужным кодом

Особенно удобно использовать Sweep для написания тестов

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

✍️ Яндекс открыл приём заявок на международную научную премию Yandex ML Prizeх

Премия вручается молодым исследователям, научным руководителям и преподавателям за достижения в области компьютерного зрения, машинного перевода, распознавания и синтеза речи, анализа данных и генеративных моделей.

В этом году будет 5 номинаций:
▪️ Первая публикация,
▪️ Исследователи,
▪️ Молодые научные руководители,
▪️ Научные руководители,
▪️ Преподаватели ML.

Лауреаты получат денежные премии. Исследователи — по 500 тысяч рублей, научные руководители и преподаватели — по миллиону рублей.
↗️ Приём заявок продлится до 21 июня, вручение премии состоится осенью.

Реклама. ООО "Яндекс", ИНН 7736207543.

Читать полностью…

Machinelearning

⚡️ Adobe выпустила DMD2!

Новый усовершенствованный метод дистилляции, который может превратить диффузионные модели, такие как SDXL, в мощные одношаговые генераторы изображений.

Прошло много времени с тех пор, как мы видели какие-либо интересные обновления в экосистеме SD, так что это круто 🔥

Project page: https://tianweiy.github.io/dmd2/
Code: https://github.com/tianweiy/DMD2
Demo: https://4e4a5c6a8b08f76802.gradio.live

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ SWE-agent — open-source ИИ-агент для дебаггинга или решения какой-то проблемы с кодом

Всё просто: сообщаем SWE-agent, какую проблему он должен решить в нашем коде, и агент пытается автоматически исправить ее, используя GPT-4 или другую LLM.
SWE-agent исправляет 12,29% ошибок в оценочном наборе SWE-bench, что не так много — зато его работа занимает всего 1.5 минуты.

🖥 GitHub
🟡 Обзор SWE-agent, YouTube
🟡 Связанное исследование, PDF
🟡 Посмотреть демо

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 WhisperKit — распознавание речи на устройствах Apple с помощью Whisper

brew install whisperkit-cli

WhisperKit — это пакет Swift, который интегрирует модель распознавания речи Whisper от OpenAI с фреймворком CoreML от Apple для эффективного локального вывода на устройствах Apple.

🖥 GitHub
🟡 Hugging Face

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Релиз Aya 23 8B и 35B от Cohere

Cohere выпустили Aya 23: с 8 и 35 млрд параметрами.
Aya 23 объединяет модели семейства Command с недавно выпущенной коллекцией Aya.
Мультиязычная (поддерживает 23 языка).

Судя по бенчмаркам, 35B версия уделывает BX-7B, Mixtral8x7B, и другие модели, а 8B версия стабильно в тройке лидеров.

▶️ Hugging Face
🟡 Протестировать

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Uni-MoE — унифицированная мультимодальная LLM с архитектурой MoE

Встречайте совсем свежую работу Y. Li, S. Jiang и ещё нескольких человек, в которой они презентуют Uni-MoE.
Комплексные бенчмарки демонстрируют главное преимущество Uni-MoE — значительное снижение погрешности при работе со смешанными мультимодальными наборами данных, а также улучшение совместной работы и обобщения данных несколькими экспертами.

📎 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Mistral-7B-v0.3 доступна на HuggingFace

pip install mistral_inference

Изменения в Mistral-7B-v0.3 по сравнению с предыдущими версиями:
— Увеличен словарь до 32768 слов;
— Добавлена поддержка более новой версии токенизатора v3;
— Модель теперь поддерживает вызов функций;
— Apache 2.0 лицензия.

from huggingface_hub import snapshot_download
from pathlib import Path

mistral_models_path = Path.home().joinpath('mistral_models', '7B-v0.3')
mistral_models_path.mkdir(parents=True, exist_ok=True)

snapshot_download(repo_id="mistralai/Mistral-7B-v0.3", allow_patterns=["params.json", "consolidated.safetensors", "tokenizer.model.v3"], local_dir=mistral_models_path)


🤗 Hugging Face — Base Model
🤗 Hugging Face — Instruct Model

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🖥 BREAKING: Nvidia stock, $NVDA, is now trading with a market cap above $2.5 TRILLION for the first time in history.

Рыночная капитализация Nvidia впервые в истории достигла $2,5 трлн 💸.

Для сравнения, Nvidia сейчас больше, чем Tesla и Amazon ВМЕСТЕ взятые.

Более того, Nvidia сейчас больше, чем весь фондовый рынок Германии.

Капитализация Nvidia превышает рыночную капитализацию итальянского и австралийского фондовых рынков ВМЕСТЕ взятых.

5 лет назад рыночная капитализация Nvidia составляла всего 100 миллиардов долларов.

Сейчас это третья по величине публичная компания в мире, которая на 17% уступает Apple по размеру.

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Codestral от Mistral AI — мощная модель, заточенная под работу с кодом

ollama run codestral:22b

29 мая Mistral представили Codestral с 22 миллиардами параметров.
Это генеративная модель с открытыми весами, предназначенная в первую очередь для задач генерации кода.
Умеет писать и рефакторить код, подсказывает наилучшие решения задач и даже паттерны проектирования. Её можно интегрировать в свои проекты с помощью API или просто использовать в VS Code. Нейросеть знает даже Fortran и COBOL.

🟡 Подробнее о Codestral
🟡 Чат с Codestral
🟡 Codestral на Hugging Face

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🖥 Анонсирован новый ChatGPT Edu, созданный для образовательных учереждений.

Модель основана на GPT-4o, она может работать с текстовой и визуальной информациией, поддерживает передовые инструменты анализа данных.

ChatGPT Edu включает в себя средства безопасности и контроля корпоративного уровня для образовательных учреждений.

Новая модель дает возможность создавать пользовательские версии ChatGPT, и делиться ими для совместных исследований и обучения.

- Значительно более высокие лимиты на количество сообщений, чем в бесплатной версии ChatGPT

- Улучшены языковые возможности по качеству и скорости работы, поддерживается более 50 языков

- Надежная защита информации,конфиденциальность данных и продвинутые административные средства управления ИИ.

ChatGPT Edu призван заменить репетиторов и предоставляет:

* Обратную связь и поддержку
* Обучение и выставление оценок
* Интеграцию с образовательными ресурсами

openai.com/index/introducing-chatgpt-edu/

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

✅ Друзья, этой осенью в Москве состоится Ai Conf 2024 – первая прикладная тематическая конференция по Data Science.

Темы конференции:

- работа со звуком
- компьютерное зрение и генерация изображений
- обработка естественного языка
- рекомендательные системы и поиск
- умные механизмы
- разработка агентов
- академические исследования
- оптимизация использования железа и др.

Программа конференции будет строиться вокруг областей применения машинного обучения, а к выступлению приглашены не только спикеры из отраслей отраслей IT, Интернет и E-commerce, но и из отраслей реального сектора.

Вам есть чем поделиться? Отправляйте заявку на спикерство на сайте

🎁 Для всех наших спикеров предусмотрены бонусы: билет на конференцию; покроем ваши расходы на логистику, будь то поезд, самолет или автобус; предоставим вам номер в комфортабельном отеле рядом с местом проведения конференции; и, конечно, поможем подготовиться к выступлению.

Подробности о конфeренции AiConf

erid:2VtzqvzVtR3
Рекалма ООО «Конференции Олега Бунина»
ИНН 7733863233

Читать полностью…

Machinelearning

⚡️ Cortex — AI-движок для создания LLM-приложений (поддерживает llama.cpp и TensorRT-LLM)

npm i -g @janhq/cortex

cortex init

cortex models pull janhq/TinyLlama-1.1B-Chat-v1.0-GGUF

cortex models start janhq/TinyLlama-1.1B-Chat-v1.0-GGUF

cortex chat --model janhq/TinyLlama-1.1B-Chat-v1.0-GGUF


Cortex — это open-source AI-движок для создания LLM-приложений.
Можно импортировать в виде библиотеки Cortex или использовать как сервер.

В настоящее время Cortex поддерживает:
— Llama.cpp
— TensorRT-LLM

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ SynCHMR — реконструкция движения камеры и изменения положения отдельных точек по видео

На днях Yizhou Zhao, Tuanfeng Y. Wang и ещё несколько ребят из Adobe представили работу по SynCHMR — реконструкции движения камеры на основе видео.
Представленный ими метод позволяет восстанавливать траекторию движения камеры и облака точек сцены по видео.

▶️ Страничка SynCHMR
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Open WebUI — удобный веб-интерфейс для LLM

Open WebUI — это расширяемый и удобный в использовании веб-интерфейс, предназначенный для работы полностью в автономном режиме.
Без проблем отображает выводы от разных LLM, включая Ollama, работает с OpenAI-совместимыми API.

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Elia — UI для получения ответов от LLM прямо в терминале

Elia — удобный терминальный UI для взаимодействия с LLM.
Корректно отображает вывод от ChatGPT, Claude, Llama 3, Phi 3, Mistral, Gemma и не только.

🖥 GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔥 MiniCPM-Llama3-V 2.5 — мультимодальная LLM-ка уровня GPT-4 (почти), которую можно запустить на телефоне

# клонируем репо и перемещаемся в папку
git clone https://github.com/OpenBMB/MiniCPM-V.git
cd MiniCPM-V

# создаём conda-окружение
conda create -n MiniCPM-V python=3.10 -y
conda activate MiniCPM-V

pip install -r requirements.txt


MiniCPM-Llama3-V 2.5 имеет 8 млрд параметров и может принимать на вход изображения и текст.
Имея всего 8 млрд параметров, эта модель в некоторых тестах превосходит GPT-4V-1106, Gemini Pro, Claude 3 Qwen-VL-Max и MLLM на базе Llama 3.

Модель может обрабатывать изображения с количеством пикселей до 1.8 млн, показывает всего 10.3% галлюцинаций на Object HalBench, поддерживает ~30 языков (русский тоже), активно используется квантование для общей оптимизации.

🖥 GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Как понять, подходит ли вам финтех?

Дата-аналитиками работают те, кому нравятся большие данные и большие зарплаты. Если узнали в этом описании себя — финтех для вас.

30 мая в 18:00 мск пройдёт день открытых дверей онлайн-магистратуры МФТИ и Нетологии «Финансовые технологии и аналитика». На встрече вы узнаете о задачах Data Analyst, трендах индустрии и карьерных возможностях для студентов вуза. Отдельно расскажем, как работает онлайн-образование и что нужно для поступления.

Записывайтесь на встречу, если хотите узнать больше о финтехе и возможностях онлайн-образования.
🔗Ссылка: https://netolo.gy/da9Q
Реклама ООО “Нетология” 2VSb5w9QTix

Читать полностью…

Machinelearning

🔥 Ambient Diffusion — схема обучения ИИ-моделей на повреждённых данных

Исследователи из Техасского университета в Остине разработали инновационную схему обучения моделей на сильно поврежденных изображениях, метод получил название Ambient Diffusion. Для чего?
Последнее время то и дело возникают судебные иски — художники жалуются на незаконное использование их изображений.
И Ambient Diffusion как раз позволяет ИИ-моделям не копировать изображения, а скажем «черпать вдохновение» из них.

В ходе исследования команда исследователей обучила модель Stable Diffusion XL на наборе данных из 3 000 изображений знаменитостей. Изначально было замечено, что модели, обученные на чистых данных, откровенно копируют учебные примеры.

Однако когда обучающие данные были испорчены — случайным образом маскировалось до 90% пикселей, — модель все равно выдавала высококачественные уникальные изображения.

Возможности использования Ambient Diffusion выходят за рамки решения проблем с авторскими правами. По словам профессора Адама Кливанса, сотрудника проекта, «Ambient Diffusion может оказаться полезным и для научных и медицинских приложений. Это касается практически любых исследований, где дорого или невозможно получить полный набор неповрежденных данных — от визуализации черных дыр до некоторых видов магнитно-резонансной томографии».

▶️ Подробнее
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Как работает обучение с подкреплением: классические алгоритмы SARSA и Q-learning

Почему 2 этих инструмента лежат в основе всех современных алгоритмов?

Расскажет опытный эксперт на открытом уроке от OTUS, где вы:
- познакомитесь с базовыми алгоритмами RL и поймете, чем оно отличается от остальных;
- узнаете о трех парадигмах ML и разберетесь с основными понятиями;
- определите, чем марковский процесс принятия решений отличается от случайного поиска.

Спикер Игорь Стурейко — PhD Physical and Mathematical Sciences, опытный руководитель команд. Встречаемся 28 мая в 20:00 мск в рамках курса «Reinforcement Learning». Все участники вебинара получат спец. цену на обучение!

Регистрируйтесь: https://clck.ru/3Aozr4

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ", ИНН: 9705100963

Читать полностью…

Machinelearning

🔥🔥🔥 YOLOv10: Real-Time End-to-End Object Detection

⚡️ Вышла новая версия детектора объектов YOLOv10

Добавлена новая функция сквозного обнаружения объектов в реальном времени. Код выпущен под лицензией GNU GPL v3.0

По сравнению с YOLOv9-C, YOLOv10-B имеет на 46% меньшую задержку и использует на 25% меньше параметров при той же производительности.

Paper: arxiv.org/pdf/2405.14458
Github: https://github.com/THU-MIG/yolov10/
Demo :https://huggingface.co/spaces/kadirnar/Yolov10
Colab: https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/train-yolov10-object-detection-on-custom-dataset.ipynb#scrollTo=SaKTSzSWnG7s

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control

🤯 Face Adapter - это нечто!

🚀 Новый мощный адаптер для переноса лиц, который работает с предварительно обученными diffusion моделями.

🔄 Обеспечивает точный контроль над выражениями и чертами лиц.

Работает с видео и фото.

Github: https://github.com/FaceAdapter/Face-Adapter
Paper: https://arxiv.org/abs/2405.12970
HF: https://huggingface.co/FaceAdapter/FaceAdapter
Project: https://faceadapter.github.io/face-adapter.github.io/

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Как юристу построить карьеру в IT, не меняя профессию

По прогнозам экспертов, к 2026 году автоматизацию рабочих процессов внедрят 40% юридических отделов. Услуги таких профессионалов на стыке IT и права нужны в бизнесе, в государственном секторе и в частной практике.

Вместе с НИУ ВШЭ в Нетологии разработали программу магистратуры «LegalTech: автоматизация юридических процессов». На дне открытых дверей вы узнаете о задачах специалиста, направлениях, перспективах профессии и принципах работы онлайн-магистратуры.

Встреча будет полезна начинающим юристам и смежным специалистам, кто хочет сменить направление работы или сделать следующий шаг в карьере. Ждём и опытных юристов — вы узнаете, как вырасти в должности и зарплате.

🕘Когда: 29 мая, 18:00 мск
🔗Запись: https://netolo.gy/da9K
Реклама ООО “Нетология” 2VSb5xXTTTe

Читать полностью…

Machinelearning

🔥 open_clip — open-source реализация CLIP

pip install open_clip_torch

Встречайте открытую реализацию CLIP (Contrastive Language-Image Pre-training от OpenAI).
CLIP — это нейросеть, разработанная OpenAI для выполнения задач визуального, а также языкового понимания. Алгоритмы нацелены на понимание связи между текстом и изображениями.

🖥 GitHub
🟡 Google Colab

@ai_machinelearning_big_data

Читать полностью…
Подписаться на канал