ai_machinelearning_big_data | Технологии

Telegram-канал ai_machinelearning_big_data - Machinelearning

27349

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Подписаться на канал

Machinelearning

🛠 Improving Long Document Topic Segmentation Models With Enhanced Coherence Modeling

SpokenNLP: Официальный репозиторий кодовых баз по самым разным исследовательским проектам, разработанным командой SpokenNLP Speech Lab, Alibaba DAMO Academy.

🖥 Github: https://github.com/alibaba-damo-academy/spokennlp

📕 Paper: https://arxiv.org/pdf/2310.11772v1.pdf

🚀Dataset: https://paperswithcode.com/dataset/wikisection

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Как автоматизировать переобучение ML-моделей
Разработчики ML-моделей из Газпромбанка рассказывают, как в условиях банковской регуляторики, требований безопасников и запрета на использование некоторых инструментов (того же Git LFS) сократить срок переобучения модели с месяца до одного дня.

В статье говорится об разделении и параллельном выполнение процесса сканирования и выкатки кода по CI/CD-процессу, благодаря архитектурному разграничению весов модели и самого кода как разных сущностей сборки.

https://habr.com/ru/companies/gazprombank/articles/766736/

Читать полностью…

Machinelearning

Всем, привет, мы исследовательское агентство SmartMinds и сейчас проводим опрос среди IT специалистов. Что хотим узнать: что важно при выборе работодателя, какие каналы являются эффективными при поиске работы и ходите ли вы на мероприятия для IT. Опрос анонимный, займет не более 3-х минут и мы будем благодарны всем, кто примет участие ❤️

Пройти опрос

Читать полностью…

Machinelearning

Erid: Kra23uXjQ

28 октября стриминг выйдет за пределы ваших экранов на конференции PlayButton 2023

Спикеры из команд разработки соберутся на большой конференции Кинопоиска о стриминге и обсудят, как из смелых идей появляются фичи и продукты будущего.

Ребята поделятся решениями, которые создают и развивают на контентных сервисах, расскажут про умные рекомендации и работу с платформами.

Приходите, чтобы узнать, как из мира фантазий создаётся реальность. В программе доклады про нейросети, генеративные технологии и другие решения, которые уже сейчас упрощают жизнь разработчикам.

Мероприятие пройдёт онлайн и оффлайн в Москве. Чтобы стать участником, нужно заполнить анкету и пройти модерацию. Количество мест ограничено.

Реклама. ООО «КИНОПОИСК» ИНН 7710688352

Читать полностью…

Machinelearning

💪 Что такое Байесовское А/B-тестирование и как его провести? 

Подробно обсудим 19 октября в 20:00 мск на открытом уроке в OTUS. Занятие приурочено к старту онлайн-курса «Machine Learning. Advanced». 

 🔹 На вебинаре мы разберем, какие преимущества дают Байесовские A/B тесты по сравнению с обычными, как проводить Байесовские A/B тесты и как работать с Байесовскми моделями в PyMC3.

📌  Результаты урока:
Познакомитесь с основами A/B тестирования и получите новый, простой и эффективный инструмент для A/B тестирования

👉 РЕГИСТРАЦИЯ
https://otus.pw/JmBM/

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KUFd5

Читать полностью…

Machinelearning

Человек на 60% состоит из воды, а Тинькофф на 100% из масштабных ИТ-задач и ежедневных вызовов

Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.

Выбрать вакансию и стать частью ИТ-команды можно тут:
https://w.tinkoff.ru/it.career

АО «Тинькофф Банк», ИНН 7710140679

Читать полностью…

Machinelearning

🔥 Burn - A Flexible and Comprehensive Deep Learning Framework in Rust

Новый фреймворк глубокого обучения, построенный полностью на Rust, который призван обеспечить баланс между гибкостью, производительностью и простотой использования для исследователей, инженеров ML и разработчиков.

cargo new new_burn_app

🖥 Github: https://github.com/burn-rs/burn

📕 Burn Book: https://burn-rs.github.io/book/

⭐️ Guide: https://www.kdnuggets.com/rust-burn-library-for-deep-learning

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Яндекс продолжает приём заявок на Yandex ML Prize — премию для учёных и преподавателей в области Machine Learning

Принять участие могут исследователи, научные руководители и преподаватели в области машинного обучения.

Премия вручается за исследования в следующих направлениях:
— компьютерное зрение,
— обработка естественного языка и машинный перевод,
— распознавание и синтез речи,
— информационный поиск и анализ данных,
— генеративные модели.

География премии охватывает 11 стран. Подать заявку на соискание премии могут исследователи и преподаватели из России, Азербайджана, Армении, Беларуси, Казахстана, Кыргызстана, Молдовы, Таджикистана, Туркменистана, Узбекистана и Сербии.

Лауреаты Yandex ML Prize получат денежные призы от 500 тысяч до 1 млн рублей, гранты от Yandex Cloud для использования сервиса в своих исследованиях, а также подписки на Яндекс 360 и Плюс Мульти.

Больше информации по ссылке.

Реклама. ООО «Яндекс»

Читать полностью…

Machinelearning

🧠 LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios

Метод комбинирования древовидного поиска Монте-Карло и глубокого обучения с подкреплением, представленный AlphaZero и MuZero, позволил достичь сверхчеловеческого уровня в различных играх, таких как Go и Atari, а также добиться заметного прогресса в научных областях, таких как предсказание структуры белков, поиск алгоритмов перемножения матриц и т.д.

🖥 Github: https://github.com/opendilab/LightZero

📕 Paper: https://arxiv.org/abs/2310.08348v1

⭐️ Tasks: https://paperswithcode.com/task/atari-games

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Mini-DALLE3: Interactive Text to Image by Prompting Large Language Models

Модель Mini-DALLE3: Интерактивное преобразование текста в изображение с помощью больших языковых моделей.

🖥 Github: https://github.com/Zeqiang-Lai/Mini-DALLE3

📕 Paper: https://arxiv.org/abs/2310.07653v1

⭐️ Dataset: https://paperswithcode.com/dataset/mmlu

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌽 Harnessing Administrative Data Inventories to Create a Reliable Transnational Reference Database for Crop Type Monitoring

EuroCrops - это большая коллекция датасетов, объединяющая все общедоступные сельскохозяйственные наборы данных по из стран Европейского Союза.


🖥 Github: https://github.com/maja601/eurocrops

📕 Paper: https://arxiv.org/pdf/2310.06393v1.pdf

⭐️ Dataset: https://syncandshare.lrz.de/getlink/fiAD95cTrXbnKMrdZYrFFcN8/

ai_machinelearning_big_data

Читать полностью…

Machinelearning

💻 Graph Structure Learning Benchmark (GSLB)

Комплексный бенчмарк для изучения и построения графов (NeurIPS 2023 Datasets and Benchmarks Track).

pip install GSLB

🖥 Github: https://github.com/gsl-benchmark/gslb

📕 Paper: https://arxiv.org/abs/2310.05163v1

⭐️ Paper collection: https://github.com/GSL-Benchmark/Awesome-Graph-Structure-Learning

ai_machinelearning_big_data

Читать полностью…

Machinelearning

💸 Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models: Open Source Code

Новый фреймворк больших языковых моделей с поисковым дополнением, предназначенный для анализа финансовых настроений и обеспечивающий точные и обоснованные прогнозы.
Метод настройки промптов обеспечивает точные прогнозы на поставленные пользователем задачи анализа финансовых новостей.
Проведя обширные оценки, показано, что подход значительно превосходит как традиционные модели анализа настроений, так и известные LLM общего назначения.

git clone https://github.com/AI4Finance-Foundation/FinGPT.git

🖥 Github: https://github.com/AI4Finance-Foundation/FinGPT/tree/master/fingpt/FinGPT-RAG

📕 Paper: https://arxiv.org/abs/2310.04027v1

⭐️ FinNLP: https://github.com/ai4finance-foundation/finnlp

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Guideline following Large Language Model for Information Extraction

Новая модель для извлечения информации, обученная следовать рекомендациям по аннотированию. GoLLIE превосходит предыдущие подходы по извлечению информации без использования обучающих примеров .

🖥 Github: https://github.com/hitz-zentroa/gollie

Tutorial: https://github.com/stanfordnlp/dspy/blob/main/intro.ipynb

⭐️ Project: https://hitz-zentroa.github.io/GoLLIE/

📕 Paper: https://arxiv.org/abs/2310.03668v1

⭐️ Dataset: https://paperswithcode.com/dataset/harveyner

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Ключевой ML-специалист HuggingFace Ahsen Khaliq опубликовал статью о Kandinsky

Khaliq в своем Twitter (X) поделился статьей Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion, которая в разделе DailyPapers заняла первое место, обогнав статьи и Deepmind, и Carnegie Mellon.

В статье рассказывается о диффузионной модели Kandinsky для генерации изображений по тексту.

🕊 X: https://twitter.com/_akhaliq/status/1710106706569478573?s=52&t=hSNPltUk1ZT1M605JGLRnA

📕 Paper: https://huggingface.co/papers

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

📒 GigaChat нового поколения.

Разработчики @gigachat_bot изменили подход к обучению модели, а потому практически все умения модели были улучшены. В частности, речь идет о сокращении текстов, ответов на вопросы и генерации идей.

Появился и бот GigaChat в социальной сети «ВКонтакте» — после активации, его можно использовать для самых разных целей: от создания текстов до генерации изображений (за счет интеграции с Kandinsky).

Число уникальных пользователей GigaChat достигло 1 млн.

Попробовать

@data_analysis_ml

Читать полностью…

Machinelearning

👨 AG3D: Learning to Generate 3D Avatars from 2D Image Collections (ICCV 2023)

AG3D: Фреймворк для генерации трехмерных аватаров из двумерных изображений

🖥 Github: https://github.com/zj-dong/AG3D

📕 Paper: https://arxiv.org/abs/2305.02312

🚀Video: https://youtu.be/niP1YhJXEBE

⭐️ Project: https://zj-dong.github.io/AG3D/

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Cross-Episodic Curriculum for Transformer Agents

Трансформеры отлично справляются с выявлением закономерностей, но не справляются с ограниченными данными, что часто встречается в робототехнике.

При Cross-Episodic обучении, агент-трансформер учится совершенствоваться с помощью внутриконтекстной программы обучения. По сути, обучающий сигнал заложен в последовательность все более трудных задач и ии развивается, находя решение на них.

pip install git+https://github.com/cec-agent/CEC

🖥 Github: https://github.com/CEC-Agent/CEC

📕 Paper: https://cec-agent.github.io/src/bib.txt

⭐️ Project: https://cec-agent.github.io

ai_machinelearning_big_data

Читать полностью…

Machinelearning

📚 Large (Language) Models and Foundation Models (LLM, LM, FM) for Time Series and Spatio-Temporal Data

Профессионально курируемый список больших языковых моделей и базовых моделей (LLM, LM, FM) для темпоральных данных (временных рядов, пространственно-временных и событийных данных) с полезными ресурсами (статьи, код, датасеты и т.д.), целью которого является всестороннее обобщение последних достижений в этой области.

В Проекте собрана информацию о докладах, учебниках и обзорах по ИИ для временных рядов (AI4TS)с ведущих конференций и в журналов по ИИ.

🖥 Github: https://github.com/qingsongedu/awesome-timeseries-spatiotemporal-lm-llm

📝 AI4TS: https://github.com/qingsongedu/awesome-AI-for-time-series-papers

📕 Paper: https://arxiv.org/abs/2310.10196v1

ai_machinelearning_big_data

Читать полностью…

Machinelearning

🖕 Voyager: An Open-Ended Embodied Agent with Large Language Models

Voyager consists of three key components: an automatic curriculum for open-ended exploration, a skill library for increasingly complex behaviors, and an iterative prompting mechanism that uses code as action space.

Voyager - агент пожизненного обучения, который играет в Minecraft и непрерывно совершенствуется. Voyager постоянно улучшается, генерируя, изменяя и переписывая собственный код .

GPT-4 открывает новую парадигму: "обучение" - это генерация и выполнение кода, а не градиентный спуск. "Обучаемая модель" - это кодовая база навыков, которую Voyager итеративно составляет, а не матрицы плавающих чисел. Это безградиентная архитектуру.

Voyager быстро становится опытным исследователем. В Minecraft он получает в 3,3 раза больше уникальных предметов, преодолевает в 2,3 раза больше расстояний и открывает ключевые этапы технологического дерева на 15,3 раза быстрее, чем предыдущие методы.

В Minecraft Voyager способен принимать решения путем моделирования мира. Пример:
"очков голода осталось немного"
-> если я не получу еду в ближайшее время, то умру
-> я вижу поблизости кошку, свинью и деревенского жителя.
-> на кого из них я должен охотиться?
-> на свинью, потому что убийство двух других не даст мне еды, даже если я добьюсь успеха
-> проверить инвентарь, нет хорошего оружия
-> [пойти сделать каменный меч]
-> свинья убежала
-> [начать охоту на овец]".


Этот способ мышления предполагает постоянные рассуждения и активное вмешательство в текущее состояние агента и мира. Voyager предвидит, что ему нужно, мысленно моделируя будущее, и соответственно планирует это "воображаемое будущее". Он проводит обширную разведку и приобретает новые навыки по пути с помощью механизма библиотеки навыков. Агент совершает ошибки, но корректирует ход действий.

🖥 Github: https://github.com/MineDojo/Voyager

📕 Paper: https://arxiv.org/abs/2305.16291

⭐️ Project: https://voyager.minedojo.org/

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Pixel Codec Avatars

В 2021 году была выпущена статья под названием Pixel Codec Avatars (PiCA). Ее значимость стала понятна, когда Lex Fridman выпустил свой подкаст в метаверсе.

PiCA - это фактически формат MP4 для VR. Совершенно новый протокол для потокового 3D-вещания.

Интуиция метода такова:
- Сначала энкодер сжимает изображение, полученное с помощью лицевой камеры VR, в латентный код. Этот код фиксирует тонкую мимику и все нюансы лица, которые придают интервью Лекса гиперреалистичность.
- Латентный код передается через Интернет - это гораздо эффективнее, чем пересылка 3D-сетки или изображений.
- Декодер выполняет две задачи:
(1) Реконструирует глобальную 3D-геометрию лица и выражения в реальном времени.
(2) Перерисовывает цвет каждого пикселя с учетом определенного угла обзора.

PiCA НЕ перерисовывает пиксели, которые находятся в окклюзии, т.е. затылки Лекса и Марка фактически не существуют. Интригующая связь с гипотезой симуляции: мир не существует, пока вы активно на него не смотрите.

📕 Paper: https://arxiv.org/abs/2104.04638

☑️ Video: https://www.youtube.com/watch?v=MVYrJJNdrEg

ai_machinelearning_big_data

Читать полностью…

Machinelearning

ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models

Новый инструмент для генерации изображений по предварительно обученным диффузионным моделям с разрешением, значительно превышающим размеры обучающих изображений.

🖥 Github: https://github.com/yingqinghe/scalecrafter

📕 Paper: https://arxiv.org/abs/2310.07702v1

⭐️ Project: https://yingqinghe.github.io/scalecrafter/
ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Приглашаем на ML Party — неформальный митап для экспертов в области машинного обучения, который впервые пройдёт в Белграде!

Обсудим последние тренды, новые подходы и вызовы индустрии:

🔘 Фёдор Лебедь, разработчик отдела NLP группы YandexGPT Alignment, Яндекс Поиск. Расскажет, как методы обучения с подкреплением позволяют повысить полезность, безопасность и правдивость генеративных моделей

🔘 Максим Мачула, руководитель службы качества контента в Поиске по товарам, Яндекс. Объяснит, как мы группируем предложения магазинов в карточки товаров и при чём тут HNSW и CatBoost

🔘 Алексей Березникер, руководитель команды генерации рекламы, Яндекс. Поделится историей о проекте на стыке ML-технологий и ecom-продукта и расскажет про нейросетевую генерацию объявлений

После будет нетворкинг с приятной музыкой, едой, напитками и дружеской атмосферой.

Встреча пройдёт 25 октября в Белграде, будет онлайн-трансляция.

📤 Зарегистрироваться можно здесь

До встречи!

Реклама. ООО "Яндекс". erid:2Vtzqx6dm1N

Читать полностью…

Machinelearning

2VtzqumwymE

@Insaider_X5

Реклама: ООО «Корпоративный центр ИКС 5». ИНН:7728632689 erid:2VtzqumwymE

Читать полностью…

Machinelearning

🔥Международное AI соревнование — AI Journey Contest 2023 в самом разгаре!

Продемонстрируй свои навыки, ведь на кону ценный опыт, признание от экспертов и впечатляющий призовой фонд в размере более 11 миллионов рублей!

Задачи конкурса в этом году – настоящий вызов: от создания мультимодальных диалоговых систем до распознавания русского жестового языка на основе видео. Предстоит не только показать свои технические навыки, но и проявить креативность.

Успей отправить своё решение до 7 ноября, участвовать может каждый старше 18 лет.
Присоединяйся к AI Journey Contest 2023 и ворвись в лидерборды, где кто-то уже замер в ожидании победы!

Читать полностью…

Machinelearning

✔️ Lemur: Harmonizing Natural Language and Code for Language Agents

Lemur - это открытая языковая модель, оптимизированная как для естественного языка, так и для кодинга, которая может служить основой для универсальных языковых агентов. Поскольку языковые модели продолжают превращаться из разговорных чат-ботов в функциональные агенты, способные действовать в реальном мире, им необходимо как глубокое понимание языка, так и способность выполнять различные действия. Lemur обеспечивает баланс между естественным языком и кодингом, позволяя агентам выполнять инструкции, обосновывать задачи и предпринимать обоснованные действия.


🖥 Github: https://github.com/openlemur/lemur

🤗 HF: https://huggingface.co/OpenLemur

📕 Paper: https://arxiv.org/abs/2310.06830v1

⭐️ Dataset: https://paperswithcode.com/dataset/ds-1000

ai_machinelearning_big_data

Читать полностью…

Machinelearning

Привет! Это команда МТС и мы запустили бесплатный курс для тех, кто хочет стать сильным ML-разработчиком

Что будет: 10 месяцев онлайн обучения от экспертов Big Data МТС с возможностью трудоустройства в компанию
Что в программе: Python, математика, основы машинного обучения, ML Ops, ML System design и все, что необходимо для работы в Data Science

Ждем на обучении тех, кто хочет развиваться и в анализе данных, и в ML, и в IT одновременно.
Оставляй заявку и решай вступительное испытание. Лучших пригласим к обучению

Подробности по ссылке, ждем тебя!

Реклама. ПАО "МТС". ИНН 7740000076. erid: LjN8K11Qf

Читать полностью…

Machinelearning

Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее мероприятие:

• 16-20 октября — Fast Track для технических менеджеров, офер за 5 дней в команду Crowd.

Зарегистрироваться

Реклама. ООО "Яндекс". erid:2Vtzqv5JoPP

Читать полностью…

Machinelearning

✅️ T3Bench: Benchmarking Current Progress in Text-to-3D Generation

T3Bench - это новый фреймворк преобразования текста в трехмерное изображение, содержащий разнообразные текстовые промпты трех уровней комплексности, специально разработанные для 3D-генерации. Для оценки качества и выравнивания текста содержит две автоматические метрики, основанные на многоракурсных изображениях, создаваемых 3D-контентом.

🖥 Github: https://github.com/THU-LYJ-Lab/T3Bench

📕 Paper: https://arxiv.org/abs/2310.02977v1

⭐️ Dataset: https://paperswithcode.com/dataset/nerf

ai_machinelearning_big_data

Читать полностью…

Machinelearning

DSPy: Programming—not prompting—Foundation Models

DSPy - это фреймворк от Stanfordnlp для решения сложных задач с помощью языковых моделей и поисковых моделей. DSPy объединяет методы промпт-инжиниринга и тонкой настройки ЛМ, а также подходы к рассуждениям, самосовершенствованию и дополнению поисковых моделей и инструментов. Все это выстроено в модулях, которые компонуются и обучаются.

DSPy представляет автоматический компилятор, который учит LM, как выполнять декларативные шаги в вашей программе. В частности, компилятор DSPy осуществляет внутреннюю трассировку вашей программы и затем составляет высококачественные пропиты для больших ЛМ.

pip install dspy-ai

🖥 Github: https://github.com/stanfordnlp/dspy

Tutorial: https://github.com/stanfordnlp/dspy/blob/main/intro.ipynb

🖥 Colab: https://colab.research.google.com/github/stanfordnlp/dspy/blob/main/intro.ipynb

📕 Paper: https://arxiv.org/abs/2308.05734

⭐️ Dataset: https://paperswithcode.com/dataset/hotpotqa

ai_machinelearning_big_data

Читать полностью…
Подписаться на канал