ai_machinelearning_big_data | Технологии

Telegram-канал ai_machinelearning_big_data - Machinelearning

27349

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

📚 Large (Language) Models and Foundation Models (LLM, LM, FM) for Time Series and Spatio-Temporal Data

Профессионально курируемый список больших языковых моделей и базовых моделей (LLM, LM, FM) для темпоральных данных (временных рядов, пространственно-временных и событийных данных) с полезными ресурсами (статьи, код, датасеты и т.д.), целью которого является всестороннее обобщение последних достижений в этой области.

В Проекте собрана информацию о докладах, учебниках и обзорах по ИИ для временных рядов (AI4TS)с ведущих конференций и в журналов по ИИ.

🖥 Github: https://github.com/qingsongedu/awesome-timeseries-spatiotemporal-lm-llm

📝 AI4TS: https://github.com/qingsongedu/awesome-AI-for-time-series-papers

📕 Paper: https://arxiv.org/abs/2310.10196v1

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🖕 Voyager: An Open-Ended Embodied Agent with Large Language Models

Voyager consists of three key components: an automatic curriculum for open-ended exploration, a skill library for increasingly complex behaviors, and an iterative prompting mechanism that uses code as action space.

Voyager - агент пожизненного обучения, который играет в Minecraft и непрерывно совершенствуется. Voyager постоянно улучшается, генерируя, изменяя и переписывая собственный код .

GPT-4 открывает новую парадигму: "обучение" - это генерация и выполнение кода, а не градиентный спуск. "Обучаемая модель" - это кодовая база навыков, которую Voyager итеративно составляет, а не матрицы плавающих чисел. Это безградиентная архитектуру.

Voyager быстро становится опытным исследователем. В Minecraft он получает в 3,3 раза больше уникальных предметов, преодолевает в 2,3 раза больше расстояний и открывает ключевые этапы технологического дерева на 15,3 раза быстрее, чем предыдущие методы.

В Minecraft Voyager способен принимать решения путем моделирования мира. Пример:
"очков голода осталось немного"
-> если я не получу еду в ближайшее время, то умру
-> я вижу поблизости кошку, свинью и деревенского жителя.
-> на кого из них я должен охотиться?
-> на свинью, потому что убийство двух других не даст мне еды, даже если я добьюсь успеха
-> проверить инвентарь, нет хорошего оружия
-> [пойти сделать каменный меч]
-> свинья убежала
-> [начать охоту на овец]".


Этот способ мышления предполагает постоянные рассуждения и активное вмешательство в текущее состояние агента и мира. Voyager предвидит, что ему нужно, мысленно моделируя будущее, и соответственно планирует это "воображаемое будущее". Он проводит обширную разведку и приобретает новые навыки по пути с помощью механизма библиотеки навыков. Агент совершает ошибки, но корректирует ход действий.

🖥 Github: https://github.com/MineDojo/Voyager

📕 Paper: https://arxiv.org/abs/2305.16291

⭐️ Project: https://voyager.minedojo.org/

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Pixel Codec Avatars

В 2021 году была выпущена статья под названием Pixel Codec Avatars (PiCA). Ее значимость стала понятна, когда Lex Fridman выпустил свой подкаст в метаверсе.

PiCA - это фактически формат MP4 для VR. Совершенно новый протокол для потокового 3D-вещания.

Интуиция метода такова:
- Сначала энкодер сжимает изображение, полученное с помощью лицевой камеры VR, в латентный код. Этот код фиксирует тонкую мимику и все нюансы лица, которые придают интервью Лекса гиперреалистичность.
- Латентный код передается через Интернет - это гораздо эффективнее, чем пересылка 3D-сетки или изображений.
- Декодер выполняет две задачи:
(1) Реконструирует глобальную 3D-геометрию лица и выражения в реальном времени.
(2) Перерисовывает цвет каждого пикселя с учетом определенного угла обзора.

PiCA НЕ перерисовывает пиксели, которые находятся в окклюзии, т.е. затылки Лекса и Марка фактически не существуют. Интригующая связь с гипотезой симуляции: мир не существует, пока вы активно на него не смотрите.

📕 Paper: https://arxiv.org/abs/2104.04638

☑️ Video: https://www.youtube.com/watch?v=MVYrJJNdrEg

ai_machinelearning_big_data

Читать полностью…

Machinelearning

ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models

Новый инструмент для генерации изображений по предварительно обученным диффузионным моделям с разрешением, значительно превышающим размеры обучающих изображений.

🖥 Github: https://github.com/yingqinghe/scalecrafter

📕 Paper: https://arxiv.org/abs/2310.07702v1

⭐️ Project: https://yingqinghe.github.io/scalecrafter/
ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Приглашаем на ML Party — неформальный митап для экспертов в области машинного обучения, который впервые пройдёт в Белграде!

Обсудим последние тренды, новые подходы и вызовы индустрии:

🔘 Фёдор Лебедь, разработчик отдела NLP группы YandexGPT Alignment, Яндекс Поиск. Расскажет, как методы обучения с подкреплением позволяют повысить полезность, безопасность и правдивость генеративных моделей

🔘 Максим Мачула, руководитель службы качества контента в Поиске по товарам, Яндекс. Объяснит, как мы группируем предложения магазинов в карточки товаров и при чём тут HNSW и CatBoost

🔘 Алексей Березникер, руководитель команды генерации рекламы, Яндекс. Поделится историей о проекте на стыке ML-технологий и ecom-продукта и расскажет про нейросетевую генерацию объявлений

После будет нетворкинг с приятной музыкой, едой, напитками и дружеской атмосферой.

Встреча пройдёт 25 октября в Белграде, будет онлайн-трансляция.

📤 Зарегистрироваться можно здесь

До встречи!

Реклама. ООО "Яндекс". erid:2Vtzqx6dm1N

Читать полностью…

Machinelearning

2VtzqumwymE

@Insaider_X5

Реклама: ООО «Корпоративный центр ИКС 5». ИНН:7728632689 erid:2VtzqumwymE

Читать полностью…

Machinelearning

🔥Международное AI соревнование — AI Journey Contest 2023 в самом разгаре!

Продемонстрируй свои навыки, ведь на кону ценный опыт, признание от экспертов и впечатляющий призовой фонд в размере более 11 миллионов рублей!

Задачи конкурса в этом году – настоящий вызов: от создания мультимодальных диалоговых систем до распознавания русского жестового языка на основе видео. Предстоит не только показать свои технические навыки, но и проявить креативность.

Успей отправить своё решение до 7 ноября, участвовать может каждый старше 18 лет.
Присоединяйся к AI Journey Contest 2023 и ворвись в лидерборды, где кто-то уже замер в ожидании победы!

Читать полностью…

Machinelearning

✔️ Lemur: Harmonizing Natural Language and Code for Language Agents

Lemur - это открытая языковая модель, оптимизированная как для естественного языка, так и для кодинга, которая может служить основой для универсальных языковых агентов. Поскольку языковые модели продолжают превращаться из разговорных чат-ботов в функциональные агенты, способные действовать в реальном мире, им необходимо как глубокое понимание языка, так и способность выполнять различные действия. Lemur обеспечивает баланс между естественным языком и кодингом, позволяя агентам выполнять инструкции, обосновывать задачи и предпринимать обоснованные действия.


🖥 Github: https://github.com/openlemur/lemur

🤗 HF: https://huggingface.co/OpenLemur

📕 Paper: https://arxiv.org/abs/2310.06830v1

⭐️ Dataset: https://paperswithcode.com/dataset/ds-1000

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Привет! Это команда МТС и мы запустили бесплатный курс для тех, кто хочет стать сильным ML-разработчиком

Что будет: 10 месяцев онлайн обучения от экспертов Big Data МТС с возможностью трудоустройства в компанию
Что в программе: Python, математика, основы машинного обучения, ML Ops, ML System design и все, что необходимо для работы в Data Science

Ждем на обучении тех, кто хочет развиваться и в анализе данных, и в ML, и в IT одновременно.
Оставляй заявку и решай вступительное испытание. Лучших пригласим к обучению

Подробности по ссылке, ждем тебя!

Реклама. ПАО "МТС". ИНН 7740000076. erid: LjN8K11Qf

Читать полностью…

Machinelearning

Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее мероприятие:

• 16-20 октября — Fast Track для технических менеджеров, офер за 5 дней в команду Crowd.

Зарегистрироваться

Реклама. ООО "Яндекс". erid:2Vtzqv5JoPP

Читать полностью…

Machinelearning

✅️ T3Bench: Benchmarking Current Progress in Text-to-3D Generation

T3Bench - это новый фреймворк преобразования текста в трехмерное изображение, содержащий разнообразные текстовые промпты трех уровней комплексности, специально разработанные для 3D-генерации. Для оценки качества и выравнивания текста содержит две автоматические метрики, основанные на многоракурсных изображениях, создаваемых 3D-контентом.

🖥 Github: https://github.com/THU-LYJ-Lab/T3Bench

📕 Paper: https://arxiv.org/abs/2310.02977v1

⭐️ Dataset: https://paperswithcode.com/dataset/nerf

ai_machinelearning_big_data

Читать полностью…

Machinelearning

DSPy: Programming—not prompting—Foundation Models

DSPy - это фреймворк от Stanfordnlp для решения сложных задач с помощью языковых моделей и поисковых моделей. DSPy объединяет методы промпт-инжиниринга и тонкой настройки ЛМ, а также подходы к рассуждениям, самосовершенствованию и дополнению поисковых моделей и инструментов. Все это выстроено в модулях, которые компонуются и обучаются.

DSPy представляет автоматический компилятор, который учит LM, как выполнять декларативные шаги в вашей программе. В частности, компилятор DSPy осуществляет внутреннюю трассировку вашей программы и затем составляет высококачественные пропиты для больших ЛМ.

pip install dspy-ai

🖥 Github: https://github.com/stanfordnlp/dspy

Tutorial: https://github.com/stanfordnlp/dspy/blob/main/intro.ipynb

🖥 Colab: https://colab.research.google.com/github/stanfordnlp/dspy/blob/main/intro.ipynb

📕 Paper: https://arxiv.org/abs/2308.05734

⭐️ Dataset: https://paperswithcode.com/dataset/hotpotqa

ai_machinelearning_big_data

Читать полностью…

Machinelearning

👀 Как используются нейросети для планирования движения беспилотных автомобилей

Разработчик Яндекса рассказал, как беспилотный автомобиль предсказывает действия других участников движения и планирует свои действия с помощью нейросетей.

Тут и разбор логики свёрточных и трансформерных архитектур моделей для предсказания движения, и много формул для расчёта вероятных траекторий других машин и пешеходов.

Читайте о том, в чём проблемы Behavioral Cloning и как их решать, а ещё в чём преимущества машинного обучения перед эвристиками и чем может помочь Reinforcement Learning.

Habr: https://habr.com/ru/companies/yandex/articles/763348/

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Emcee — это раннер для параллельного тестирования.


Разработчики из AvitoTech прокачали Emcee до облачного решения и нашли способ организовать сендбоксинг через виртуализацию на macOS, чтобы обезопасить трафик.


Подробности и ссылка на сам Emcee ищите здесь

Реклама ООО "Авито Тех", ИНН 9710089440
erid: LdtCK7JmP

Читать полностью…

Machinelearning

⚡️ Memory Gym: Partially Observable Challenges to Memory-Based Agents in Endless Episodes

Среда для обучения, тестирования и запуска агентов основе памяти.

🖥 Github: https://github.com/marcometer/endless-memory-gym

🖥 Colab: https://colab.research.google.com/drive/1LjlUOEer8vjGrz0rLM8pP5UyeNCsURkY?usp=sharing

📕 Paper: https://openreview.net/forum?id=jHc8dCx6DDr

⭐️ Dataset: https://paperswithcode.com/dataset/arcade-learning-environment

ai_machinelearning_big_data

Читать полностью…

Machinelearning

💪 Что такое Байесовское А/B-тестирование и как его провести? 

Подробно обсудим 19 октября в 20:00 мск на открытом уроке в OTUS. Занятие приурочено к старту онлайн-курса «Machine Learning. Advanced». 

 🔹 На вебинаре мы разберем, какие преимущества дают Байесовские A/B тесты по сравнению с обычными, как проводить Байесовские A/B тесты и как работать с Байесовскми моделями в PyMC3.

📌  Результаты урока:
Познакомитесь с основами A/B тестирования и получите новый, простой и эффективный инструмент для A/B тестирования

👉 РЕГИСТРАЦИЯ
https://otus.pw/JmBM/

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KUFd5

Читать полностью…

Machinelearning

Человек на 60% состоит из воды, а Тинькофф на 100% из масштабных ИТ-задач и ежедневных вызовов

Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.

Выбрать вакансию и стать частью ИТ-команды можно тут:
https://w.tinkoff.ru/it.career

АО «Тинькофф Банк», ИНН 7710140679

Читать полностью…

Machinelearning

🔥 Burn - A Flexible and Comprehensive Deep Learning Framework in Rust

Новый фреймворк глубокого обучения, построенный полностью на Rust, который призван обеспечить баланс между гибкостью, производительностью и простотой использования для исследователей, инженеров ML и разработчиков.

cargo new new_burn_app

🖥 Github: https://github.com/burn-rs/burn

📕 Burn Book: https://burn-rs.github.io/book/

⭐️ Guide: https://www.kdnuggets.com/rust-burn-library-for-deep-learning

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Яндекс продолжает приём заявок на Yandex ML Prize — премию для учёных и преподавателей в области Machine Learning

Принять участие могут исследователи, научные руководители и преподаватели в области машинного обучения.

Премия вручается за исследования в следующих направлениях:
— компьютерное зрение,
— обработка естественного языка и машинный перевод,
— распознавание и синтез речи,
— информационный поиск и анализ данных,
— генеративные модели.

География премии охватывает 11 стран. Подать заявку на соискание премии могут исследователи и преподаватели из России, Азербайджана, Армении, Беларуси, Казахстана, Кыргызстана, Молдовы, Таджикистана, Туркменистана, Узбекистана и Сербии.

Лауреаты Yandex ML Prize получат денежные призы от 500 тысяч до 1 млн рублей, гранты от Yandex Cloud для использования сервиса в своих исследованиях, а также подписки на Яндекс 360 и Плюс Мульти.

Больше информации по ссылке.

Реклама. ООО «Яндекс»

Читать полностью…

Machinelearning

🧠 LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios

Метод комбинирования древовидного поиска Монте-Карло и глубокого обучения с подкреплением, представленный AlphaZero и MuZero, позволил достичь сверхчеловеческого уровня в различных играх, таких как Go и Atari, а также добиться заметного прогресса в научных областях, таких как предсказание структуры белков, поиск алгоритмов перемножения матриц и т.д.

🖥 Github: https://github.com/opendilab/LightZero

📕 Paper: https://arxiv.org/abs/2310.08348v1

⭐️ Tasks: https://paperswithcode.com/task/atari-games

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Mini-DALLE3: Interactive Text to Image by Prompting Large Language Models

Модель Mini-DALLE3: Интерактивное преобразование текста в изображение с помощью больших языковых моделей.

🖥 Github: https://github.com/Zeqiang-Lai/Mini-DALLE3

📕 Paper: https://arxiv.org/abs/2310.07653v1

⭐️ Dataset: https://paperswithcode.com/dataset/mmlu

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌽 Harnessing Administrative Data Inventories to Create a Reliable Transnational Reference Database for Crop Type Monitoring

EuroCrops - это большая коллекция датасетов, объединяющая все общедоступные сельскохозяйственные наборы данных по из стран Европейского Союза.


🖥 Github: https://github.com/maja601/eurocrops

📕 Paper: https://arxiv.org/pdf/2310.06393v1.pdf

⭐️ Dataset: https://syncandshare.lrz.de/getlink/fiAD95cTrXbnKMrdZYrFFcN8/

ai_machinelearning_big_data

Читать полностью…

Machinelearning

💻 Graph Structure Learning Benchmark (GSLB)

Комплексный бенчмарк для изучения и построения графов (NeurIPS 2023 Datasets and Benchmarks Track).

pip install GSLB

🖥 Github: https://github.com/gsl-benchmark/gslb

📕 Paper: https://arxiv.org/abs/2310.05163v1

⭐️ Paper collection: https://github.com/GSL-Benchmark/Awesome-Graph-Structure-Learning

ai_machinelearning_big_data

Читать полностью…

Machinelearning

💸 Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models: Open Source Code

Новый фреймворк больших языковых моделей с поисковым дополнением, предназначенный для анализа финансовых настроений и обеспечивающий точные и обоснованные прогнозы.
Метод настройки промптов обеспечивает точные прогнозы на поставленные пользователем задачи анализа финансовых новостей.
Проведя обширные оценки, показано, что подход значительно превосходит как традиционные модели анализа настроений, так и известные LLM общего назначения.

git clone https://github.com/AI4Finance-Foundation/FinGPT.git

🖥 Github: https://github.com/AI4Finance-Foundation/FinGPT/tree/master/fingpt/FinGPT-RAG

📕 Paper: https://arxiv.org/abs/2310.04027v1

⭐️ FinNLP: https://github.com/ai4finance-foundation/finnlp

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Guideline following Large Language Model for Information Extraction

Новая модель для извлечения информации, обученная следовать рекомендациям по аннотированию. GoLLIE превосходит предыдущие подходы по извлечению информации без использования обучающих примеров .

🖥 Github: https://github.com/hitz-zentroa/gollie

Tutorial: https://github.com/stanfordnlp/dspy/blob/main/intro.ipynb

⭐️ Project: https://hitz-zentroa.github.io/GoLLIE/

📕 Paper: https://arxiv.org/abs/2310.03668v1

⭐️ Dataset: https://paperswithcode.com/dataset/harveyner

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Ключевой ML-специалист HuggingFace Ahsen Khaliq опубликовал статью о Kandinsky

Khaliq в своем Twitter (X) поделился статьей Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion, которая в разделе DailyPapers заняла первое место, обогнав статьи и Deepmind, и Carnegie Mellon.

В статье рассказывается о диффузионной модели Kandinsky для генерации изображений по тексту.

🕊 X: https://twitter.com/_akhaliq/status/1710106706569478573?s=52&t=hSNPltUk1ZT1M605JGLRnA

📕 Paper: https://huggingface.co/papers

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🤖 GenSim: Generating Robotic Simulation Tasks via Large Language Models

Фреймворк для генерации и моделирования симуляций для роботов с помощью больших языковых моделей.

🖥 Github: https://github.com/liruiw/gensim

✔️ Project: https://liruiw.github.io/gensim

📕 Paper: https://arxiv.org/abs/2310.01361v1

Dataset: https://huggingface.co/datasets/Gen-Sim/Gen-Sim

⭐️ Demos: https://huggingface.co/spaces/Gen-Sim/Gen-Sim

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🦅 Jury: A Comprehensive Evaluation Toolkit

Комплексный набор инструментов для оценки НЛП-экспериментов, предлагающий различные автоматизированные метрики. Jury предлагает удобный и простой в использовании интерфейс.

pip install jury

🖥 Github: https://github.com/obss/jury

📕 Paper: https://arxiv.org/abs/2310.02040v1

🖥 Colab: https://colab.research.google.com/github/obss/jury/blob/main/examples/jury_evaluate.ipynb

⭐️ Demos: https://github.com/Parskatt/DeDoDe/blob/main/demo

ai_machinelearning_big_data

Читать полностью…

Machinelearning

☑️ Efficient Streaming Language Models with Attention Sinks

StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence length without any fine-tuning.

Фреймворк для развертывания больших языковых моделей в потоковых приложениях, таких как многораундовые диалоги, где ожидается длительное взаимодействие, является настоятельной необходимостью, но сопряжено с двумя серьезными проблемами. StreamingLLM позволяет Llama-2, MPT, Falcon и Pythia стабильно и эффективно выполнять моделирование общения с количеством лексем до 4 млн. и более.

🖥 Github: https://github.com/mit-han-lab/streaming-llm

📕 Paper: http://arxiv.org/abs/2309.17453

⭐️ Dataset: https://paperswithcode.com/dataset/pg-19

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Яндекс опубликовал плейлист с докладами конференции Practical ML.

Вот некоторые из них:

— Алексей Морозов, руководитель группы модернизации нейронных сетей Яндекса. Про то, как можно полностью инкапсулировать от ML’щика и исследователя заботу о fault tolerance, распределённой транзакционной записи в storage, асинхронности и минимизации простоев GPU

— Юлий Шамаев, Data Science Team Lead, Банк ВТБ. Про про геоэмбеддинги – векторное представление контекста в пространственной аналитике. Они помогают определить лучшее расположение для банкоматов и банковских отделений.

— Евгений Сидоров, Head of AI, Third Opinion. Про то, как компенсировать недостаток трёхмерной информации на основе множественных проекций при анализе медицинских снимков.

@ai_machinelearning_big_data

Читать полностью…
Подписаться на канал