ai_machinelearning_big_data | Технологии

Telegram-канал ai_machinelearning_big_data - Machinelearning

27348

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

Яндекс продолжает приём заявок на Yandex ML Prize — премию для учёных и преподавателей в области Machine Learning

Принять участие могут исследователи, научные руководители и преподаватели в области машинного обучения.

Премия вручается за исследования в следующих направлениях:
— компьютерное зрение,
— обработка естественного языка и машинный перевод,
— распознавание и синтез речи,
— информационный поиск и анализ данных,
— генеративные модели.

География премии охватывает 11 стран. Подать заявку на соискание премии могут исследователи и преподаватели из России, Азербайджана, Армении, Беларуси, Казахстана, Кыргызстана, Молдовы, Таджикистана, Туркменистана, Узбекистана и Сербии.

Лауреаты Yandex ML Prize получат денежные призы от 500 тысяч до 1 млн рублей, гранты от Yandex Cloud для использования сервиса в своих исследованиях, а также подписки на Яндекс 360 и Плюс Мульти.

Больше информации по ссылке.

Реклама. ООО «Яндекс»

Читать полностью…

Machinelearning

🧠 LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios

Метод комбинирования древовидного поиска Монте-Карло и глубокого обучения с подкреплением, представленный AlphaZero и MuZero, позволил достичь сверхчеловеческого уровня в различных играх, таких как Go и Atari, а также добиться заметного прогресса в научных областях, таких как предсказание структуры белков, поиск алгоритмов перемножения матриц и т.д.

🖥 Github: https://github.com/opendilab/LightZero

📕 Paper: https://arxiv.org/abs/2310.08348v1

⭐️ Tasks: https://paperswithcode.com/task/atari-games

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Mini-DALLE3: Interactive Text to Image by Prompting Large Language Models

Модель Mini-DALLE3: Интерактивное преобразование текста в изображение с помощью больших языковых моделей.

🖥 Github: https://github.com/Zeqiang-Lai/Mini-DALLE3

📕 Paper: https://arxiv.org/abs/2310.07653v1

⭐️ Dataset: https://paperswithcode.com/dataset/mmlu

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌽 Harnessing Administrative Data Inventories to Create a Reliable Transnational Reference Database for Crop Type Monitoring

EuroCrops - это большая коллекция датасетов, объединяющая все общедоступные сельскохозяйственные наборы данных по из стран Европейского Союза.


🖥 Github: https://github.com/maja601/eurocrops

📕 Paper: https://arxiv.org/pdf/2310.06393v1.pdf

⭐️ Dataset: https://syncandshare.lrz.de/getlink/fiAD95cTrXbnKMrdZYrFFcN8/

ai_machinelearning_big_data

Читать полностью…

Machinelearning

💻 Graph Structure Learning Benchmark (GSLB)

Комплексный бенчмарк для изучения и построения графов (NeurIPS 2023 Datasets and Benchmarks Track).

pip install GSLB

🖥 Github: https://github.com/gsl-benchmark/gslb

📕 Paper: https://arxiv.org/abs/2310.05163v1

⭐️ Paper collection: https://github.com/GSL-Benchmark/Awesome-Graph-Structure-Learning

ai_machinelearning_big_data

Читать полностью…

Machinelearning

💸 Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models: Open Source Code

Новый фреймворк больших языковых моделей с поисковым дополнением, предназначенный для анализа финансовых настроений и обеспечивающий точные и обоснованные прогнозы.
Метод настройки промптов обеспечивает точные прогнозы на поставленные пользователем задачи анализа финансовых новостей.
Проведя обширные оценки, показано, что подход значительно превосходит как традиционные модели анализа настроений, так и известные LLM общего назначения.

git clone https://github.com/AI4Finance-Foundation/FinGPT.git

🖥 Github: https://github.com/AI4Finance-Foundation/FinGPT/tree/master/fingpt/FinGPT-RAG

📕 Paper: https://arxiv.org/abs/2310.04027v1

⭐️ FinNLP: https://github.com/ai4finance-foundation/finnlp

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Guideline following Large Language Model for Information Extraction

Новая модель для извлечения информации, обученная следовать рекомендациям по аннотированию. GoLLIE превосходит предыдущие подходы по извлечению информации без использования обучающих примеров .

🖥 Github: https://github.com/hitz-zentroa/gollie

Tutorial: https://github.com/stanfordnlp/dspy/blob/main/intro.ipynb

⭐️ Project: https://hitz-zentroa.github.io/GoLLIE/

📕 Paper: https://arxiv.org/abs/2310.03668v1

⭐️ Dataset: https://paperswithcode.com/dataset/harveyner

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Ключевой ML-специалист HuggingFace Ahsen Khaliq опубликовал статью о Kandinsky

Khaliq в своем Twitter (X) поделился статьей Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion, которая в разделе DailyPapers заняла первое место, обогнав статьи и Deepmind, и Carnegie Mellon.

В статье рассказывается о диффузионной модели Kandinsky для генерации изображений по тексту.

🕊 X: https://twitter.com/_akhaliq/status/1710106706569478573?s=52&t=hSNPltUk1ZT1M605JGLRnA

📕 Paper: https://huggingface.co/papers

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🤖 GenSim: Generating Robotic Simulation Tasks via Large Language Models

Фреймворк для генерации и моделирования симуляций для роботов с помощью больших языковых моделей.

🖥 Github: https://github.com/liruiw/gensim

✔️ Project: https://liruiw.github.io/gensim

📕 Paper: https://arxiv.org/abs/2310.01361v1

Dataset: https://huggingface.co/datasets/Gen-Sim/Gen-Sim

⭐️ Demos: https://huggingface.co/spaces/Gen-Sim/Gen-Sim

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🦅 Jury: A Comprehensive Evaluation Toolkit

Комплексный набор инструментов для оценки НЛП-экспериментов, предлагающий различные автоматизированные метрики. Jury предлагает удобный и простой в использовании интерфейс.

pip install jury

🖥 Github: https://github.com/obss/jury

📕 Paper: https://arxiv.org/abs/2310.02040v1

🖥 Colab: https://colab.research.google.com/github/obss/jury/blob/main/examples/jury_evaluate.ipynb

⭐️ Demos: https://github.com/Parskatt/DeDoDe/blob/main/demo

ai_machinelearning_big_data

Читать полностью…

Machinelearning

☑️ Efficient Streaming Language Models with Attention Sinks

StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence length without any fine-tuning.

Фреймворк для развертывания больших языковых моделей в потоковых приложениях, таких как многораундовые диалоги, где ожидается длительное взаимодействие, является настоятельной необходимостью, но сопряжено с двумя серьезными проблемами. StreamingLLM позволяет Llama-2, MPT, Falcon и Pythia стабильно и эффективно выполнять моделирование общения с количеством лексем до 4 млн. и более.

🖥 Github: https://github.com/mit-han-lab/streaming-llm

📕 Paper: http://arxiv.org/abs/2309.17453

⭐️ Dataset: https://paperswithcode.com/dataset/pg-19

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Яндекс опубликовал плейлист с докладами конференции Practical ML.

Вот некоторые из них:

— Алексей Морозов, руководитель группы модернизации нейронных сетей Яндекса. Про то, как можно полностью инкапсулировать от ML’щика и исследователя заботу о fault tolerance, распределённой транзакционной записи в storage, асинхронности и минимизации простоев GPU

— Юлий Шамаев, Data Science Team Lead, Банк ВТБ. Про про геоэмбеддинги – векторное представление контекста в пространственной аналитике. Они помогают определить лучшее расположение для банкоматов и банковских отделений.

— Евгений Сидоров, Head of AI, Third Opinion. Про то, как компенсировать недостаток трёхмерной информации на основе множественных проекций при анализе медицинских снимков.

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее мероприятие:

• 7-8 октября — Fast Track для дата-аналитиков, офер за 2 дня в команду Фудтеха.

Зарегистрироваться

Реклама. ООО "Яндекс". erid:2VtzqwaYy5b

Читать полностью…

Machinelearning

🔊 Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation

Модель генерации реалистичных видео из Аудио. Фреймворк способен распознать природу звука и сгенерировать визуальный образ.

git clone git@github.com:guyyariv/TempoTokens.git

🖥 Github: https://github.com/guyyariv/TempoTokens

📕 Paper: https://arxiv.org/abs/2309.16429v1

⭐️ Dataset: https://paperswithcode.com/dataset/audioset

ai_machinelearning_big_data

Читать полностью…

Machinelearning

DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation

A novel 3D content generation framework that achieves both efficiency and quality simultaneously.

DreamGaussian - новый фреймворк для генерации 3D-контента, позволяющий достичь одновременно эффективности и высокого качества генераций.

Работает на безе алгоритма преобразования трехмерных гауссианов в текстурированные сетки с применения файнтюнинга для улучшения деталей. Обширные эксперименты демонстрируют высокую эффективность и конкурентоспособное качество генерации предложенного подхода.


🖥 Github: https://github.com/dreamgaussian/dreamgaussian

☑️ Image-to-3D: https://colab.research.google.com/drive/1sLpYmmLS209-e5eHgcuqdryFRRO6ZhFS?usp=sharing

☑️ Text-to-3d: https://colab.research.google.com/github/camenduru/dreamgaussian-colab/blob/main/dreamgaussian_colab.ipynb

📕 Paper: https://arxiv.org/abs/2309.16653v1

⭐️ Dataset: https://paperswithcode.com/dataset/nerf

ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Приглашаем на ML Party — неформальный митап для экспертов в области машинного обучения, который впервые пройдёт в Белграде!

Обсудим последние тренды, новые подходы и вызовы индустрии:

🔘 Фёдор Лебедь, разработчик отдела NLP группы YandexGPT Alignment, Яндекс Поиск. Расскажет, как методы обучения с подкреплением позволяют повысить полезность, безопасность и правдивость генеративных моделей

🔘 Максим Мачула, руководитель службы качества контента в Поиске по товарам, Яндекс. Объяснит, как мы группируем предложения магазинов в карточки товаров и при чём тут HNSW и CatBoost

🔘 Алексей Березникер, руководитель команды генерации рекламы, Яндекс. Поделится историей о проекте на стыке ML-технологий и ecom-продукта и расскажет про нейросетевую генерацию объявлений

После будет нетворкинг с приятной музыкой, едой, напитками и дружеской атмосферой.

Встреча пройдёт 25 октября в Белграде, будет онлайн-трансляция.

📤 Зарегистрироваться можно здесь

До встречи!

Реклама. ООО "Яндекс". erid:2Vtzqx6dm1N

Читать полностью…

Machinelearning

2VtzqumwymE

@Insaider_X5

Реклама: ООО «Корпоративный центр ИКС 5». ИНН:7728632689 erid:2VtzqumwymE

Читать полностью…

Machinelearning

🔥Международное AI соревнование — AI Journey Contest 2023 в самом разгаре!

Продемонстрируй свои навыки, ведь на кону ценный опыт, признание от экспертов и впечатляющий призовой фонд в размере более 11 миллионов рублей!

Задачи конкурса в этом году – настоящий вызов: от создания мультимодальных диалоговых систем до распознавания русского жестового языка на основе видео. Предстоит не только показать свои технические навыки, но и проявить креативность.

Успей отправить своё решение до 7 ноября, участвовать может каждый старше 18 лет.
Присоединяйся к AI Journey Contest 2023 и ворвись в лидерборды, где кто-то уже замер в ожидании победы!

Читать полностью…

Machinelearning

✔️ Lemur: Harmonizing Natural Language and Code for Language Agents

Lemur - это открытая языковая модель, оптимизированная как для естественного языка, так и для кодинга, которая может служить основой для универсальных языковых агентов. Поскольку языковые модели продолжают превращаться из разговорных чат-ботов в функциональные агенты, способные действовать в реальном мире, им необходимо как глубокое понимание языка, так и способность выполнять различные действия. Lemur обеспечивает баланс между естественным языком и кодингом, позволяя агентам выполнять инструкции, обосновывать задачи и предпринимать обоснованные действия.


🖥 Github: https://github.com/openlemur/lemur

🤗 HF: https://huggingface.co/OpenLemur

📕 Paper: https://arxiv.org/abs/2310.06830v1

⭐️ Dataset: https://paperswithcode.com/dataset/ds-1000

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Привет! Это команда МТС и мы запустили бесплатный курс для тех, кто хочет стать сильным ML-разработчиком

Что будет: 10 месяцев онлайн обучения от экспертов Big Data МТС с возможностью трудоустройства в компанию
Что в программе: Python, математика, основы машинного обучения, ML Ops, ML System design и все, что необходимо для работы в Data Science

Ждем на обучении тех, кто хочет развиваться и в анализе данных, и в ML, и в IT одновременно.
Оставляй заявку и решай вступительное испытание. Лучших пригласим к обучению

Подробности по ссылке, ждем тебя!

Реклама. ПАО "МТС". ИНН 7740000076. erid: LjN8K11Qf

Читать полностью…

Machinelearning

Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее мероприятие:

• 16-20 октября — Fast Track для технических менеджеров, офер за 5 дней в команду Crowd.

Зарегистрироваться

Реклама. ООО "Яндекс". erid:2Vtzqv5JoPP

Читать полностью…

Machinelearning

✅️ T3Bench: Benchmarking Current Progress in Text-to-3D Generation

T3Bench - это новый фреймворк преобразования текста в трехмерное изображение, содержащий разнообразные текстовые промпты трех уровней комплексности, специально разработанные для 3D-генерации. Для оценки качества и выравнивания текста содержит две автоматические метрики, основанные на многоракурсных изображениях, создаваемых 3D-контентом.

🖥 Github: https://github.com/THU-LYJ-Lab/T3Bench

📕 Paper: https://arxiv.org/abs/2310.02977v1

⭐️ Dataset: https://paperswithcode.com/dataset/nerf

ai_machinelearning_big_data

Читать полностью…

Machinelearning

DSPy: Programming—not prompting—Foundation Models

DSPy - это фреймворк от Stanfordnlp для решения сложных задач с помощью языковых моделей и поисковых моделей. DSPy объединяет методы промпт-инжиниринга и тонкой настройки ЛМ, а также подходы к рассуждениям, самосовершенствованию и дополнению поисковых моделей и инструментов. Все это выстроено в модулях, которые компонуются и обучаются.

DSPy представляет автоматический компилятор, который учит LM, как выполнять декларативные шаги в вашей программе. В частности, компилятор DSPy осуществляет внутреннюю трассировку вашей программы и затем составляет высококачественные пропиты для больших ЛМ.

pip install dspy-ai

🖥 Github: https://github.com/stanfordnlp/dspy

Tutorial: https://github.com/stanfordnlp/dspy/blob/main/intro.ipynb

🖥 Colab: https://colab.research.google.com/github/stanfordnlp/dspy/blob/main/intro.ipynb

📕 Paper: https://arxiv.org/abs/2308.05734

⭐️ Dataset: https://paperswithcode.com/dataset/hotpotqa

ai_machinelearning_big_data

Читать полностью…

Machinelearning

👀 Как используются нейросети для планирования движения беспилотных автомобилей

Разработчик Яндекса рассказал, как беспилотный автомобиль предсказывает действия других участников движения и планирует свои действия с помощью нейросетей.

Тут и разбор логики свёрточных и трансформерных архитектур моделей для предсказания движения, и много формул для расчёта вероятных траекторий других машин и пешеходов.

Читайте о том, в чём проблемы Behavioral Cloning и как их решать, а ещё в чём преимущества машинного обучения перед эвристиками и чем может помочь Reinforcement Learning.

Habr: https://habr.com/ru/companies/yandex/articles/763348/

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Emcee — это раннер для параллельного тестирования.


Разработчики из AvitoTech прокачали Emcee до облачного решения и нашли способ организовать сендбоксинг через виртуализацию на macOS, чтобы обезопасить трафик.


Подробности и ссылка на сам Emcee ищите здесь

Реклама ООО "Авито Тех", ИНН 9710089440
erid: LdtCK7JmP

Читать полностью…

Machinelearning

⚡️ Memory Gym: Partially Observable Challenges to Memory-Based Agents in Endless Episodes

Среда для обучения, тестирования и запуска агентов основе памяти.

🖥 Github: https://github.com/marcometer/endless-memory-gym

🖥 Colab: https://colab.research.google.com/drive/1LjlUOEer8vjGrz0rLM8pP5UyeNCsURkY?usp=sharing

📕 Paper: https://openreview.net/forum?id=jHc8dCx6DDr

⭐️ Dataset: https://paperswithcode.com/dataset/arcade-learning-environment

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🤖 AutoAgents: A Framework for Automatic Agent Generation

Generate different roles for GPTs to form a collaborative entity for complex tasks.

AutoAgents, инновационный фреймворк, который адаптивно генерирует и координирует множество специализированных агентов для создания ИИ-команды в соответствии с различными задачами.

🖥 Github: https://github.com/LinkSoul-AI/AutoAgents

📕 Paper: https://arxiv.org/abs/2309.17288v1

⭐️ Demo: https://huggingface.co/spaces/LinkSoul/AutoAgents

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Demystifying CLIP Data

MetaCLIP takes a raw data pool and metadata and yields a balanced subset over the metadata distribution.

Новый масштабируемый алгоритм MetaCLIP, работающий в конвейере обработки данных. MetaCLIP, примененная к CommonCrawl с 400 млн. пар данных "изображение-текст", превосходит данные CLIP по многим стандартным показателям. В классификации ImageNet точность MetaCLIP составляет 70,8%, что превосходит точность CLIP в 68,3% на моделях ViT-B.

🖥 Github: https://github.com/facebookresearch/metaclip

📕 Paper: https://arxiv.org/pdf/2309.16671v1.pdf

⭐️ Dataset: https://paperswithcode.com/dataset/laion-400m

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🖥 40+ IT-компаний ищут студентов на оплачиваемую стажировку

 
На форуме “Найти IT” Сбер, Росатом, Kaspersky и другие топовые компании завалят вас предложениями о работе!

Найти IT” — это:
🔹 Мастер-классы и кейсы от крутых компаний
🔹 Предварительные собеседования и Q&A со спикерами
🔹 Мерч, призы и вкусная еда

И все это бесплатно 😲 Нужно только прийти!

Выбирате город и регистрируйтесь 👇
📍 Москва: 3 октября
📍 Санкт-Петербург: 7 октября
📍 Новосибирск: 26 октября 

Реклама. ООО "ФТ". ИНН 7731611424. erid: LjN8KUcKb

Читать полностью…

Machinelearning

🔎 Датасет для анализа русскоязычных отзывов на организации

Яндекс опубликовал крупнейший русскоязычный датасет, в котором содержится 500 тысяч отзывов, собранных с января по июнь 2023 года. Туда входят адреса и названия организаций, список рубрик, оценки пользователей и отзывы. Датасет позволяет, к примеру, производить сентимент-анализ и лингвистический анализ.

Github: https://github.com/yandex/geo-reviews-dataset-2023
Habr: https://habr.com/ru/companies/yandex/articles/763832/

@ai_machinelearning_big_data

Читать полностью…
Подписаться на канал