ai_machinelearning_big_data | Технологии

Telegram-канал ai_machinelearning_big_data - Machinelearning

27348

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

🌽 Harnessing Administrative Data Inventories to Create a Reliable Transnational Reference Database for Crop Type Monitoring

EuroCrops - это большая коллекция датасетов, объединяющая все общедоступные сельскохозяйственные наборы данных по из стран Европейского Союза.


🖥 Github: https://github.com/maja601/eurocrops

📕 Paper: https://arxiv.org/pdf/2310.06393v1.pdf

⭐️ Dataset: https://syncandshare.lrz.de/getlink/fiAD95cTrXbnKMrdZYrFFcN8/

ai_machinelearning_big_data

Читать полностью…

Machinelearning

💻 Graph Structure Learning Benchmark (GSLB)

Комплексный бенчмарк для изучения и построения графов (NeurIPS 2023 Datasets and Benchmarks Track).

pip install GSLB

🖥 Github: https://github.com/gsl-benchmark/gslb

📕 Paper: https://arxiv.org/abs/2310.05163v1

⭐️ Paper collection: https://github.com/GSL-Benchmark/Awesome-Graph-Structure-Learning

ai_machinelearning_big_data

Читать полностью…

Machinelearning

💸 Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models: Open Source Code

Новый фреймворк больших языковых моделей с поисковым дополнением, предназначенный для анализа финансовых настроений и обеспечивающий точные и обоснованные прогнозы.
Метод настройки промптов обеспечивает точные прогнозы на поставленные пользователем задачи анализа финансовых новостей.
Проведя обширные оценки, показано, что подход значительно превосходит как традиционные модели анализа настроений, так и известные LLM общего назначения.

git clone https://github.com/AI4Finance-Foundation/FinGPT.git

🖥 Github: https://github.com/AI4Finance-Foundation/FinGPT/tree/master/fingpt/FinGPT-RAG

📕 Paper: https://arxiv.org/abs/2310.04027v1

⭐️ FinNLP: https://github.com/ai4finance-foundation/finnlp

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Guideline following Large Language Model for Information Extraction

Новая модель для извлечения информации, обученная следовать рекомендациям по аннотированию. GoLLIE превосходит предыдущие подходы по извлечению информации без использования обучающих примеров .

🖥 Github: https://github.com/hitz-zentroa/gollie

Tutorial: https://github.com/stanfordnlp/dspy/blob/main/intro.ipynb

⭐️ Project: https://hitz-zentroa.github.io/GoLLIE/

📕 Paper: https://arxiv.org/abs/2310.03668v1

⭐️ Dataset: https://paperswithcode.com/dataset/harveyner

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Ключевой ML-специалист HuggingFace Ahsen Khaliq опубликовал статью о Kandinsky

Khaliq в своем Twitter (X) поделился статьей Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion, которая в разделе DailyPapers заняла первое место, обогнав статьи и Deepmind, и Carnegie Mellon.

В статье рассказывается о диффузионной модели Kandinsky для генерации изображений по тексту.

🕊 X: https://twitter.com/_akhaliq/status/1710106706569478573?s=52&t=hSNPltUk1ZT1M605JGLRnA

📕 Paper: https://huggingface.co/papers

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🤖 GenSim: Generating Robotic Simulation Tasks via Large Language Models

Фреймворк для генерации и моделирования симуляций для роботов с помощью больших языковых моделей.

🖥 Github: https://github.com/liruiw/gensim

✔️ Project: https://liruiw.github.io/gensim

📕 Paper: https://arxiv.org/abs/2310.01361v1

Dataset: https://huggingface.co/datasets/Gen-Sim/Gen-Sim

⭐️ Demos: https://huggingface.co/spaces/Gen-Sim/Gen-Sim

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🦅 Jury: A Comprehensive Evaluation Toolkit

Комплексный набор инструментов для оценки НЛП-экспериментов, предлагающий различные автоматизированные метрики. Jury предлагает удобный и простой в использовании интерфейс.

pip install jury

🖥 Github: https://github.com/obss/jury

📕 Paper: https://arxiv.org/abs/2310.02040v1

🖥 Colab: https://colab.research.google.com/github/obss/jury/blob/main/examples/jury_evaluate.ipynb

⭐️ Demos: https://github.com/Parskatt/DeDoDe/blob/main/demo

ai_machinelearning_big_data

Читать полностью…

Machinelearning

☑️ Efficient Streaming Language Models with Attention Sinks

StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence length without any fine-tuning.

Фреймворк для развертывания больших языковых моделей в потоковых приложениях, таких как многораундовые диалоги, где ожидается длительное взаимодействие, является настоятельной необходимостью, но сопряжено с двумя серьезными проблемами. StreamingLLM позволяет Llama-2, MPT, Falcon и Pythia стабильно и эффективно выполнять моделирование общения с количеством лексем до 4 млн. и более.

🖥 Github: https://github.com/mit-han-lab/streaming-llm

📕 Paper: http://arxiv.org/abs/2309.17453

⭐️ Dataset: https://paperswithcode.com/dataset/pg-19

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Яндекс опубликовал плейлист с докладами конференции Practical ML.

Вот некоторые из них:

— Алексей Морозов, руководитель группы модернизации нейронных сетей Яндекса. Про то, как можно полностью инкапсулировать от ML’щика и исследователя заботу о fault tolerance, распределённой транзакционной записи в storage, асинхронности и минимизации простоев GPU

— Юлий Шамаев, Data Science Team Lead, Банк ВТБ. Про про геоэмбеддинги – векторное представление контекста в пространственной аналитике. Они помогают определить лучшее расположение для банкоматов и банковских отделений.

— Евгений Сидоров, Head of AI, Third Opinion. Про то, как компенсировать недостаток трёхмерной информации на основе множественных проекций при анализе медицинских снимков.

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее мероприятие:

• 7-8 октября — Fast Track для дата-аналитиков, офер за 2 дня в команду Фудтеха.

Зарегистрироваться

Реклама. ООО "Яндекс". erid:2VtzqwaYy5b

Читать полностью…

Machinelearning

🔊 Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation

Модель генерации реалистичных видео из Аудио. Фреймворк способен распознать природу звука и сгенерировать визуальный образ.

git clone git@github.com:guyyariv/TempoTokens.git

🖥 Github: https://github.com/guyyariv/TempoTokens

📕 Paper: https://arxiv.org/abs/2309.16429v1

⭐️ Dataset: https://paperswithcode.com/dataset/audioset

ai_machinelearning_big_data

Читать полностью…

Machinelearning

DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation

A novel 3D content generation framework that achieves both efficiency and quality simultaneously.

DreamGaussian - новый фреймворк для генерации 3D-контента, позволяющий достичь одновременно эффективности и высокого качества генераций.

Работает на безе алгоритма преобразования трехмерных гауссианов в текстурированные сетки с применения файнтюнинга для улучшения деталей. Обширные эксперименты демонстрируют высокую эффективность и конкурентоспособное качество генерации предложенного подхода.


🖥 Github: https://github.com/dreamgaussian/dreamgaussian

☑️ Image-to-3D: https://colab.research.google.com/drive/1sLpYmmLS209-e5eHgcuqdryFRRO6ZhFS?usp=sharing

☑️ Text-to-3d: https://colab.research.google.com/github/camenduru/dreamgaussian-colab/blob/main/dreamgaussian_colab.ipynb

📕 Paper: https://arxiv.org/abs/2309.16653v1

⭐️ Dataset: https://paperswithcode.com/dataset/nerf

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔎 Text-to-3D using Gaussian Splatting

Новый подход к созданию высококачественных 3D-объектов - генерация текста в трехмерном пространстве на основе гауссова расслоения (GSGEN).

🎇 GSGEN: Text-to-3D using Gaussian Splatting

🖥 Github: https://github.com/gsgen3d/gsgen

☑️ Project: https://gsgen3d.github.io/

📕 Paper: https://arxiv.org/abs/2309.16585v1

⭐️ Dataset: https://paperswithcode.com/dataset/nerf

ai_machinelearning_big_data

Читать полностью…

Machinelearning

✏️ Deep Geometrized Cartoon Line Inbetweening

Method can effectively capture the sparsity and unique structure of line drawings while preserving the details during inbetweening.

Создание промежуточных кадров между двумя рисунками - трудоемкий и дорогостоящий процесс, новый фреймворк AnimeInbet позволяет автоматизировать эту задачу.

AnimeInbet, геометризирует растровые линейные рисунки в графы конечных точек, решая задачу слияния графов с перестановкой вершин.

🖥 Github: https://github.com/lisiyao21/animeinbet

☑️ Demo: https://youtu.be/iUF-LsqFKpI?si=9FViAZUyFdSfZzS5

📕 Paper: https://arxiv.org/pdf/2309.16643v1.pdf

⭐️ Dataset: https://drive.google.com/file/d/1SNRGajIECxNwRp6ZJ0IlY7AEl2mRm2DR/view?usp=sharing

ai_machinelearning_big_data

Читать полностью…

Machinelearning

📚 С помощью Telegram-бота GigaChat можно искать IT-курсы

Сервис Сбера в ответ на запрос о курсах предлагает не только названия ресурсов, где их можно найти, но и ссылки. К примеру, на запрос о поиске курсов по kubernetes нейросеть предложила пять популярных сайтов.

@gigachat_bot также умеет писать тексты и генерировать картинки, создавать инструкции и отвечать на вопросы. Кроме того, бота можно добавлять в групповые чаты и пользоваться совместно.

Попробовать GigaChat можно, перейдя по ссылке.

ai_machinelearning_big_data

Читать полностью…

Machinelearning

✔️ Lemur: Harmonizing Natural Language and Code for Language Agents

Lemur - это открытая языковая модель, оптимизированная как для естественного языка, так и для кодинга, которая может служить основой для универсальных языковых агентов. Поскольку языковые модели продолжают превращаться из разговорных чат-ботов в функциональные агенты, способные действовать в реальном мире, им необходимо как глубокое понимание языка, так и способность выполнять различные действия. Lemur обеспечивает баланс между естественным языком и кодингом, позволяя агентам выполнять инструкции, обосновывать задачи и предпринимать обоснованные действия.


🖥 Github: https://github.com/openlemur/lemur

🤗 HF: https://huggingface.co/OpenLemur

📕 Paper: https://arxiv.org/abs/2310.06830v1

⭐️ Dataset: https://paperswithcode.com/dataset/ds-1000

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Привет! Это команда МТС и мы запустили бесплатный курс для тех, кто хочет стать сильным ML-разработчиком

Что будет: 10 месяцев онлайн обучения от экспертов Big Data МТС с возможностью трудоустройства в компанию
Что в программе: Python, математика, основы машинного обучения, ML Ops, ML System design и все, что необходимо для работы в Data Science

Ждем на обучении тех, кто хочет развиваться и в анализе данных, и в ML, и в IT одновременно.
Оставляй заявку и решай вступительное испытание. Лучших пригласим к обучению

Подробности по ссылке, ждем тебя!

Реклама. ПАО "МТС". ИНН 7740000076. erid: LjN8K11Qf

Читать полностью…

Machinelearning

Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее мероприятие:

• 16-20 октября — Fast Track для технических менеджеров, офер за 5 дней в команду Crowd.

Зарегистрироваться

Реклама. ООО "Яндекс". erid:2Vtzqv5JoPP

Читать полностью…

Machinelearning

✅️ T3Bench: Benchmarking Current Progress in Text-to-3D Generation

T3Bench - это новый фреймворк преобразования текста в трехмерное изображение, содержащий разнообразные текстовые промпты трех уровней комплексности, специально разработанные для 3D-генерации. Для оценки качества и выравнивания текста содержит две автоматические метрики, основанные на многоракурсных изображениях, создаваемых 3D-контентом.

🖥 Github: https://github.com/THU-LYJ-Lab/T3Bench

📕 Paper: https://arxiv.org/abs/2310.02977v1

⭐️ Dataset: https://paperswithcode.com/dataset/nerf

ai_machinelearning_big_data

Читать полностью…

Machinelearning

DSPy: Programming—not prompting—Foundation Models

DSPy - это фреймворк от Stanfordnlp для решения сложных задач с помощью языковых моделей и поисковых моделей. DSPy объединяет методы промпт-инжиниринга и тонкой настройки ЛМ, а также подходы к рассуждениям, самосовершенствованию и дополнению поисковых моделей и инструментов. Все это выстроено в модулях, которые компонуются и обучаются.

DSPy представляет автоматический компилятор, который учит LM, как выполнять декларативные шаги в вашей программе. В частности, компилятор DSPy осуществляет внутреннюю трассировку вашей программы и затем составляет высококачественные пропиты для больших ЛМ.

pip install dspy-ai

🖥 Github: https://github.com/stanfordnlp/dspy

Tutorial: https://github.com/stanfordnlp/dspy/blob/main/intro.ipynb

🖥 Colab: https://colab.research.google.com/github/stanfordnlp/dspy/blob/main/intro.ipynb

📕 Paper: https://arxiv.org/abs/2308.05734

⭐️ Dataset: https://paperswithcode.com/dataset/hotpotqa

ai_machinelearning_big_data

Читать полностью…

Machinelearning

👀 Как используются нейросети для планирования движения беспилотных автомобилей

Разработчик Яндекса рассказал, как беспилотный автомобиль предсказывает действия других участников движения и планирует свои действия с помощью нейросетей.

Тут и разбор логики свёрточных и трансформерных архитектур моделей для предсказания движения, и много формул для расчёта вероятных траекторий других машин и пешеходов.

Читайте о том, в чём проблемы Behavioral Cloning и как их решать, а ещё в чём преимущества машинного обучения перед эвристиками и чем может помочь Reinforcement Learning.

Habr: https://habr.com/ru/companies/yandex/articles/763348/

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Emcee — это раннер для параллельного тестирования.


Разработчики из AvitoTech прокачали Emcee до облачного решения и нашли способ организовать сендбоксинг через виртуализацию на macOS, чтобы обезопасить трафик.


Подробности и ссылка на сам Emcee ищите здесь

Реклама ООО "Авито Тех", ИНН 9710089440
erid: LdtCK7JmP

Читать полностью…

Machinelearning

⚡️ Memory Gym: Partially Observable Challenges to Memory-Based Agents in Endless Episodes

Среда для обучения, тестирования и запуска агентов основе памяти.

🖥 Github: https://github.com/marcometer/endless-memory-gym

🖥 Colab: https://colab.research.google.com/drive/1LjlUOEer8vjGrz0rLM8pP5UyeNCsURkY?usp=sharing

📕 Paper: https://openreview.net/forum?id=jHc8dCx6DDr

⭐️ Dataset: https://paperswithcode.com/dataset/arcade-learning-environment

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🤖 AutoAgents: A Framework for Automatic Agent Generation

Generate different roles for GPTs to form a collaborative entity for complex tasks.

AutoAgents, инновационный фреймворк, который адаптивно генерирует и координирует множество специализированных агентов для создания ИИ-команды в соответствии с различными задачами.

🖥 Github: https://github.com/LinkSoul-AI/AutoAgents

📕 Paper: https://arxiv.org/abs/2309.17288v1

⭐️ Demo: https://huggingface.co/spaces/LinkSoul/AutoAgents

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Demystifying CLIP Data

MetaCLIP takes a raw data pool and metadata and yields a balanced subset over the metadata distribution.

Новый масштабируемый алгоритм MetaCLIP, работающий в конвейере обработки данных. MetaCLIP, примененная к CommonCrawl с 400 млн. пар данных "изображение-текст", превосходит данные CLIP по многим стандартным показателям. В классификации ImageNet точность MetaCLIP составляет 70,8%, что превосходит точность CLIP в 68,3% на моделях ViT-B.

🖥 Github: https://github.com/facebookresearch/metaclip

📕 Paper: https://arxiv.org/pdf/2309.16671v1.pdf

⭐️ Dataset: https://paperswithcode.com/dataset/laion-400m

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🖥 40+ IT-компаний ищут студентов на оплачиваемую стажировку

 
На форуме “Найти IT” Сбер, Росатом, Kaspersky и другие топовые компании завалят вас предложениями о работе!

Найти IT” — это:
🔹 Мастер-классы и кейсы от крутых компаний
🔹 Предварительные собеседования и Q&A со спикерами
🔹 Мерч, призы и вкусная еда

И все это бесплатно 😲 Нужно только прийти!

Выбирате город и регистрируйтесь 👇
📍 Москва: 3 октября
📍 Санкт-Петербург: 7 октября
📍 Новосибирск: 26 октября 

Реклама. ООО "ФТ". ИНН 7731611424. erid: LjN8KUcKb

Читать полностью…

Machinelearning

🔎 Датасет для анализа русскоязычных отзывов на организации

Яндекс опубликовал крупнейший русскоязычный датасет, в котором содержится 500 тысяч отзывов, собранных с января по июнь 2023 года. Туда входят адреса и названия организаций, список рубрик, оценки пользователей и отзывы. Датасет позволяет, к примеру, производить сентимент-анализ и лингвистический анализ.

Github: https://github.com/yandex/geo-reviews-dataset-2023
Habr: https://habr.com/ru/companies/yandex/articles/763832/

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Опрос для опытных ИТ-специалистов.

Поделитесь мнением об ИТ-работодателях. Напишите, что вам нравится, а что — нет. Так компании смогут исправить ошибки, улучшить условия и присылать офферы, на которые хочется соглашаться.

Посмотрите, это займет не больше 10 минут

Читать полностью…

Machinelearning

🤖 Machine Learning Tutorials Repository
Добро пожаловать в репозиторий учебников по машинному обучению. Примеры кода и поянения по:

1.🖥 Python
2.
👁‍🗨 Computer Vision: Techniques, algorithms
3.
🖋 NLP
4.
📊 Matplotlib
5.
🔢 NumPy
6.
🐼 Pandas
7.
🎇 MLOps
8.
🧠 LLMs
9.
🔥 PyTorch/TensorFlow

git clone https://github.com/patchy631/machine-learning

Github

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔊 Listen, Think, and Understand

AI model that has both audio perception and a reasoning ability.

LTU-AS - модель универсального восприятия звука , которая способна к рассуждению. В частности, благодаря интеграции Whisper в качестве модуля восприятия и LLaMA в качестве модуля рассуждений, LTU-AS может одновременно распознавать и совместно понимать устный текст, паралингвистику, практически все, что можно воспринять из аудиосигналов.

🖥 Github: https://github.com/YuanGongND/ltu

☑️ Demo: https://18c618fc8f07ec494e.gradio.live/

📕 Paper: https://arxiv.org/abs/2309.14405v1

🤗 HH: https://huggingface.co/spaces/yuangongfdu/ltu-2

⭐️ Dataset: https://paperswithcode.com/dataset/iemocap

ai_machinelearning_big_data

Читать полностью…
Подписаться на канал