😐 Toon3D: Seeing Cartoons from a New Perspective
Новый инструмент для реконструкции сцен из мультфильмов и аниме.
Toon 3D может восстанавливать ракурсы камеры и плотную геометрию помещений.
Такие методы, как COLMAP, не могут реконструировать негеометрические изображения, нарисованные от руки, но Toon 3D справляется с этой задачей. Вы только посмотрите на примеры выше!
▪Github: https://github.com/ethanweber/toon3d
▪Paper: https://arxiv.org/abs/2405.10320
Dem
▪Proj: https://toon3d.studio
@ai_machinelearning_big_data
⚡️ Grounding DINO 1.5: Most Capable Open-World Object Detection Model Series.
DINO 1.5: самая мощная серия моделей IDEA Research для обнаружения объектов.
Это наиболее эффективный опенсорс инструмент для запуска на edge девайсах, с хорошей оптимизацией и высокой скоростью работы.
Исходный код выпущен в версии Apache 2.0. 💙
▪Github
▪Paper
▪Demo
@ai_machinelearning_big_data
🖥 Так можно использовать API GPT-4o vision в Jupyter Notebook
Удобство Python и мощь GPT-4o.
GPT-4o распознаёт вводимые жесты и подбирает максимально подходящие по виду графики кривых и генерирует код.
Распознаются даже довольно сложные композиции из разных линий и текста.
▪Github
@ai_machinelearning_big_data
Ищем дата-сайентистов, которые буду создавать и улучшать ML-модели для банковских и небанковских сервисов.
Обещаем свободу в своей зоне ответственности и сильное комьюнити, в котором можно учиться. Никто не будет навязывать свои методы, трекать время и контролировать каждое действие.
Читай подробнее на сайте и оставляй резюме к вакансиям:
Data Scientist
ML-разработчик
ML-разработчик (LLM)
⚡ Zeus Новый инструмент экосистемы Pytorch
Глубокое обучение потребляет довольно много энергии.
Например, обучение одного 200B LLM на инстансах AWS p4d потребляет около 11,9 ГВт-ч (источник: CIDR 2024 keynote), это же количество энергии позволяет в одиночку обеспечивать энергией более тысячи домохозяйств в среднем по США в течение года.
📌 Zeus - это инструмент с открытым исходным кодом от Pytorch, для измерения и оптимизации энергопотребления рабочих нагрузок при обучении моделей.
- Cредства измерения энергопотребления графического процессора
- Несколько инструментов оптимизации энергопотребления, которые позволяют найти наилучшие конфигурации ML и/или GPU
Zeus может принести пользу тем, кто хотел бы:
- измерить и оптимизировать затраты на электроэнергию
- снизить тепловыделение GPU (за счет снижения энергопотребления)
▪Github
▪Подробнее
▪Docs
@ai_machinelearning_big_data
Community Day на I’ML 2024: часть докладов доступна бесплатно 🔥
Онлайн-конференция по ML в продакшене I’ML 2024 впервые пройдет 21–22 мая онлайн. На ней будет Community Day — то есть бесплатный доступ к части докладов. Это хороший способ бесплатно поучаствовать в новой конференции, если не готовы купить билет.
В программу Community Day входит мастер-класс по построению RAG-приложения с использованием YaGPT, обсуждение перспектив LLM и 5 докладов. Все эти доклады и активности — для вас!
Общайтесь с коллегами во встроенном чате и переходите в дискуссии напрямую с сайта.
❗️Для участия в Community Day достаточно зарегистрироваться до 22 мая включительно.
А если хотите получить доступ ко всем докладам, используйте промокод MACHINELEARNING
. Он даст скидку на билет «Для частных лиц».
Реклама. ООО «Джуг Ру Груп». ИНН 7801341446
Хотите попробовать себя в роли аналитика и попрактиковаться на реальных задачах?
Приходите на бесплатный курс-симулятор Нетологии и Yandex Cloud «Основы анализа данных в SQL, Python, Power BI, DataLens».
В этой профессии много разных направлений — аналитик данных, BI-аналитик, продуктовый аналитик, Data Scientist. Но везде пригодится навык работы с инструментами-помощниками, которые вы и освоите на курсе.
Эксперты-практики расскажут, как делать простые отчёты, исследовать данные и строить интерактивные дашборды. А чтобы понять, что анализ данных — это точно ваше, вместе решите практические задачи из реальных кейсов.
Воспользуйтесь шансом попробовать новые инструменты и запишитесь на бесплатный курс Нетологии.
Регистрация: https://netolo.gy/c9KK
Реклама. ООО "Нетология" LatgBakJq
🪄 И снова Google, они только что анонсировали Illuminate → https://illuminate.withgoogle.com
Illuminate использует ИИ для переосмысления процесса обучения, превращая сложные исследовательские работы в увлекательные беседы.
Обсуждения создаются с помощью искусственного интеллекта и основаны на загруженных научных статьях.
Illuminate - это экспериментальная технология, которая использует ИИ для адаптации контента к вашим предпочтениям в обучении.
📌 Бегом записываться в лист ожидания, тут же можно послушать примеры: https://illuminate.withgoogle.com/home
@ai_machinelearning_big_data
Не представляете свою жизнь без математики и хотите применять её в работе над IT-проектами?
Научиться этому помогут короткие образовательные программы от экспертов-практиков. Плюсы таких форматов — большой объём полезной информации в короткий срок, фокус на узкие дисциплины, новые проекты в портфолио, а также активный нетворкинг и обмен идеями.
Где найти такие программы? Например, у Яндекс Образования. В июле у них стартует студкемп по математике в ИИ на базе Иннополиса. За две недели вы погрузитесь в актуальные вопросы машинного обучения и больше узнаете о математических методах в искусственном интеллекте.
На бесплатной программе ждут студентов старших курсов, обучающихся по направлению Computer Science. Подать заявку можно до 26 мая. Всем, кто успешно пройдёт отбор, организаторы оплатят дорогу и проживание. Переходите на сайт прямо сейчас и заполняйте анкету! Поторопитесь, количество мест ограничено.
Стартовал набор в Академию Аналитиков Авито.
Это бесплатный образовательный онлайн-курс с практикой в реальном бигтехе.
Традиционно в Академии два направления: аналитик данных и DS-инженер.
Выбери, что ближе тебе, познакомься с требованиями к поступлению, программой и преподавателями на странице Академии. И спеши подать заявку!
💪 Разбираемся, у кого контекст длиннее!
У GEMINI обещают контекстное окно 2млн токенов. Это в 16 раз больше, чем у GPT-4o .
У GPT-4o 128k токенов, это две копии книги «Великого Гетсби», в Gemini 1.5 Pro можно загрузить всю «Войну и мир».
- Gemini теперь будет во ВСЕХ продуктах Google: Поисковике, gmail, photo, Workspace, NotebookGmail, Google Meet
, модель может писать письма, делать выжимки из них, вести диалог, искать нужные для вас части письма, читает вложения и может отвечать по любым длинным документам, видео, изображениям во вложениях, управляется голосом.
- Еще Google представили Gemini 1.5 Flash оптимизированную модель с низкой задержкой.
-Новый Project Astra - это прототип от GoogleDeepMind, ИИ-ассистенты, с которыми можно общаться в реальном времени. ИИ работает прямо с вашего телефона и даже с умных очков! Project Astra может быть по-настоящему полезен в повседневной жизни.
Агенты могут взаимодействовать с окружающим миром, воспринимая информацию, запоминая то, что видит, обрабатывая эту информацию и понимая окружение и детали.
- Представлен Veo - прямой конкурент Sora для генерации видео.
Модель принимает текст и может генерировать видео с разрешением до 1080p продолжительностью более минуты.
- Представлен Imagen 3 - самая соверщенная модель Google для генерации изображений.
- Песочница с искусственным интеллектом для преобразования текста в музыку.
- Google наконец-то прилагают серьезные усилия для интеграции искусственного интеллекта в свой поисковик
@ai_machinelearning_big_data
⚡️ AT-EDM: Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models
Компания Adobe нашла способ снизить вычислительные затраты на диффузионные модели данных без переобучения.
Они назвали метод AT-EDM, и это позволяет добиться сокращения FLOPs до 40% при сохранении почти такого же качества изображения, как и в исходной модели.
▪Почитать подробнее: https://atedm.github.io
▪Видео: https://www.youtube.com/watch?v=ZmOdN4F_8Ew
▪Статья: https://arxiv.org/abs/2405.05252
Код на подходе.
@ai_machinelearning_big_data
🔥 Некоторые крутые скрытые фишки новой GPT4o
1) GPT4o на 2 головы опередил всех в создании текста на изображениях, сгенерированных искусственным интеллектом. Великолепный результат.
2) Новая модель позволяет генерировать шрифты.
3) Поддерживает 3d-рендеринг.
4/ GPT4o может создавать звуковые эффекты, а не только речь.
5) Эффективная и стабильная работа в преобразовании изображений в зависимости от контекста.
А на последнем видео, вы можете посмотреть как модель отвечает на русском языке.
Сегодня намечена Google I/O, где нам покажут обновленный Gemini, ждем достойного ответа.
@ai_machinelearning_big_data
🌟 LocalAI — свободная альтернатива предложений от OpenAI
LocalAI — это open-source альтернатива решений от OpenAI. LocalAI выступает в качестве замены REST API, совместимого со спецификациями OpenAI API для локальных выводов.
Позволяет локально запускать LLM, генерировать изображения, аудио (и не только), клонировать голос; при этом не требует GPU.
Поддерживается множество семейств LLM и архитектур, LocalAI работает с gguf, transformers, diffusers и не только.
Запуск LocalAI с помощью Docker:
— docker run -p 8080:8080 --name local-ai -ti localai/localai:latest-aio-cpu
При наличии GPU Nvidia (аналогично для CUDA 12):
— docker run -p 8080:8080 --gpus all --name local-ai -ti localai/localai:latest-aio-gpu-nvidia-cuda-11
🖥 GitHub
🟡 Страничка LocalAI
@ai_machinelearning_big_data
⚡️ MatterSim — модель глубокого обучения для моделирования атомных структур; поддерживает все элементы, температуры и давления
MatterSim — Deep Learning, которая позволяет моделировать свойства атомных структур на высоком уровне и точно предсказывать свойства материалов во всей периодической таблице, при температурах от 0 до 5000 К и давления до 1000 ГПа.
MatterSim может быть тонко настроена для моделирования атомных структур на желаемом уровне теории.
Или же можно использовать модель для прямого прогнозирования свойств на основе заданной структуры.
📎 Arxiv
@ai_machinelearning_big_data
💥 Последний шанс попасть на международный хакатон «Лидеры цифровой трансформации». Тебя ждет 25 задач и призовой фонд – 50 000 000 рублей!
👨💻👨💻Старт разработки уже 3 июня! Не жди дедлайна, регистрируйся прямо сейчас
ЛЦТ-2024 – это не просто хакатон, а событие масштаба мирового уровня:
🔴10.000+ участников со всех уголков страны и мира
🔴5 международных партнеров, готовых поддержать твои идеи
🔴крупнейший ИТ-фестиваль 28-29 июня в Москве
Вместе с представителями столичных департаментов постановщиками задач стали: Сбербанк, Банк России, Госкорпорация «Росатом», Федеральная служба по интеллектуальной собственности (Роспатент), «Северсталь», Газпромбанк.Тех, национальный видеохостинг RUTUBE, приложение вертикальных видео Yappy, компания «Самолет», многопрофильная технологическая группа «Рексофт», Холдинг Т1, Sitronics Group, DDX TECH, компания «Автономные технологии». От регионов – Правительство Камчатского края и Администрация Волгоградской области.
🔴Подавай заявку прямо сейчас! Ищи команду в чате лидеров!
Друзья, этой осенью состоится грандиозное событие: Ai Conf 2024 – первая прикладная конференция по Data Science.
Программа будет строиться вокруг областей применения машинного обучения, а к выступлению приглашены не только спикеры из отраслей IT, ECommerce, но и реальный сектор.
Основные темы конференции:
- звук, зрение, изображения
- обработка естественного языка
- рекомендательные системы и поиск
- умные механизмы
- оптимизация использования железа и др.
До 15 июня принимаются заявки на доклады. Есть чем поделиться - подайте заявку https://tglink.io/44b4f48d80c3.
А 23 мая в 18:00 приглашаем на встречу докладчиков с программным комитетом, где обсудим какие темы будут актуальны на AI Conf. Встреча онлайн, регистрируйтесь на сайте!
Подробности о конфeренции AiConf 👉 https://tglink.io/a0f5deaa8d02
🔥 Исследование «AlphaMath Almost Zero: process Supervision without process» — прорыв в области решения математических задач с помощью LLM
Недавние достижения в области LLM значительно расширили их способности к математическим рассуждениям. Однако эти модели все еще не справляются со сложными задачами, требующими множества шагов рассуждения, что часто приводит к логическим или числовым ошибкам.
В данном исследовании представляется инновационный подход, который устраняет необходимость в ручном аннотировании, при помощи фреймворка Monte Carlo Tree Search (MCTS) для автоматического контроля и оценки процесса.
В работе показано, что усовершенствование LLM с помощью MCTS значительно повышает эффективность модели при решении сложных математических задач.
В отличие от других методов, таких как Program-of-thought и Chain-of-thought, при использовании MCTS не требуется никаких готовых решений.
📎 Arxiv
🟡 Обсуждение в треде X
@ai_machinelearning_big_data
🌟 LibreChat — улучшенный свободный клон ChatGPT
LibreChat — open-source клон ChatGPT:
— предоставляет удобный API
— работает с Groq, GPT-4 Vision, Mistral, Bing, Anthropic, OpenRouter, Vertex AI, Gemini и другими моделями
— можно запустить полностью локально
Запуск локально:
git clone https://github.com/danny-avila/LibreChat.git
cd LibreChat
cp .env.example .env
docker compose up -d
Это круто!
ИИ-агент Google просматривает демонстрацию агентов Openai и комментирует ее 🤯
@ai_machinelearning_big_data
⚡️ Continue — open-source расширение для VS Code и продуктов JetBrains для удобного внедрения AI-чатботов в свои рабочие процессы
Continue помогает очень удобно организовать использование AI в таких рабочих задачах как:
— Объяснение отдельных мест кода
— Автодополнение, рефакторинг функций
— Получение ответов на вопросы о своей кодовой базе
— Быстрое использование документации (и просто отдельных файлов) в качестве контекста
— Быстрый запуск действий с помощью /
-команд
— Мгновенное объяснение ошибок прямо в терминале
Continue позволяет использовать подходящую LLM для работы, будь то открытый или закрытый исходный код, локальная или удаленная работа, использование чата или автозаполнения.
Можно очень гибко настроить расширение в соответствии с существующими рабочими процессами.
🖥 GitHub
🟡 Доки
@ai_machinelearning_big_data
⚡️ Lobe Chat — open-source фреймворк ChatGPT/LLM
Поддерживает синтез речи, разные режимы и расширяемую (вызов функций) систему плагинов.
Позволяет реализовать развертывание в один клик частного чат-приложения OpenAI ChatGPT/Claude/Gemini/Groq/Ollama.
🖥 GitHub
@ai_machinelearning_big_data
⭐️ PaliGemma by Google is out! A family of 116 new models.
Еще один ништячок от Google, - "PaliGemma"! 🚀
Семейство из 116 новых моделей, которые могут подписывать изображения, отвечать на вопросы, распознавать объекты, сегментировать изображения и многое другое!
PaliGemma (Github) - это семейство моделей визуализации с архитектурой, состоящей из SIGLIP-So 400m в качестве кодера изображений и Gemma-2B в качестве декодера текста.
SigLIP - это современная модель, которая может распознавать как изображения, так и текст. Как и CLIP, он состоит из кодера изображений и текста. Как и в случае с PALI-3, комбинированная модель Paligemma работает на основе графических и текстовых данных, а затем может быть легко адаптирована для последующих задач, таких как создание субтитров.
Gemma - это модель для генерации текста, предназначенная только для декодера. Сочетание графического кодера Siglip и линейного адаптера Gemma позволяет использовать Paligemma в качестве мощной модели визуализации.
▪Блог: https://hf.co/blog/paligemma
▪Модели: https://hf.co/collections/google/paligemma-release-6643a9ffbf57de2ae0448dda
▪Demo: https://hf.co/spaces/google/paligemma
@ai_machinelearning_big_data
🌟 Tabby — локальный аналог Copilot
Tabby — это локальный AI-помощник для кодинга, open-source альтернатива GitHub Copilot.
Некоторые особенности Tabby:
— полная самодостаточность, отсутствие необходимости в СУБД или в облаке
— имеет интерфес OpenAPI, легко интегрируемый с существующей инфраструктурой (например, Cloud IDE)
— поддерживает GPU среднего класса
Быстрый старт с Docker:
docker run -it \
--gpus all -p 8080:8080 -v $HOME/.tabby:/data \
tabbyml/tabby \
serve --model TabbyML/StarCoder-1B --device cuda
🔥🔥🔥 Google объявила конкурс для всех разработчиков Gemini API с призовым фондом в $3 млн и Custom Electric 1981 DeLorean (Легендарной машины из фильма Назад в будущее)
В рекламе снялся легендарный Кристофер Ллойд, актер снимавшийся в трилогии Назад в будущее.
🛻 Главный приз: полностью электрическая версия DeLorean 1981, произведенная на заказ.
Общий призовой фонд: $3 млн.
Конкурс Google Gemini API открыт как для отдельных участников, так и для команд. Разработчикам предлагается создать и представить приложения с использованием API Gemini.
⚡️Критерии оценки
Google оценивает приложения по пяти основным критериям:
* Креативность
* Полезность
* Исполнение
* Новизна
* Влияние
Компания будет выбирать приложения, которые:
*Ииспользуют API Gemini
* Решают реальные проблемы
* Оригинальны и хорошо продуманы
* Дают потяьный пользовательский опыт
Призы
В рамках конкурса также будут вручаться денежные призы в различных категориях:
* Лучшее приложение для Android
* Лучшее веб-приложение
* Лучшая игра
Кроме того, будут присуждаться крупные денежные призы за:
* Самое полезное приложение
* Самое эффективное приложение
* Самое креативное приложение
Крайний срок подачи заявок
Крайний срок подачи заявок: 12 августа 2024 года.
Онлайн-голосование в категории «Выбор пользователей» ожидается 16 августа.
В остальных категориях победителей выберет внутренняя команда Google. Результаты конкурса Gemini API будут объявлены в октябре.
Подать заявку: https://ai.google.dev/competition?hl=ru
@ai_machinelearning_big_data
🖥 А вот и ответный удар от Google
Смотрит Google I/O ‘24 онлайн, ждем достойного ответа Open AI.
https://www.youtube.com/watch?v=XEzRZ35urlk
@ai_machinelearning_big_data
🧠 Прокачай свои знания о Data Science! X5 Tech запускает хакатон X5 Tech AI Hack – узнай на практике больше об алгоритмах маскирования данных и избавлении нейросетей от галлюцинаций. Призовой фонд – 2 000 000 рублей.
🔔 Старт ML-соревнования уже через несколько дней – 17 мая. Не жди дедлайна, регистрируйся прямо сейчас!
Приглашаем на хакатон Python-разработчиков и специалистов по машинному обучению вне зависимости от их опыта. На выбор – один из двух треков:
1️⃣ Маскирование. Предстоит разработать алгоритм, который будет заменять чувствительные данные в датасете без потери смысла. Ты научишься решать задачу Named Entity Recognition и обучать модели обработки естественного языка.
2️⃣ Детекция галлюцинаций. Задача конкурсантов – создать систему, которая сможет эффективно выявлять аномалии в тексте, сгенерированном нейросетью. Решение поможет лучше понять, как работают языковые модели, разобраться, как анализировать и классифицировать большие данные.
Хакатон продлится 10 дней. У тебя будет шанс получить советы от крутых ML-экспертов и специалистов по Data Science, обсудить задачи соревнования с единомышленниками, узнать больше о проектах X5 Tech.
28-29 мая 5 лучших команд в каждом треке получат приглашение на финал в Москве. Церемония награждения пройдет 30 мая на X5 Future Night, где ты сможешь вживую пообщаться с представителями компании и коллегами по Data Science.
🔥 Участвуй в X5 Tech AI Hack и внеси свой вклад в развитие ML-технологий
✅ Приложение, в котором вы можете посмотреть прогресс открытых и проприетарных моделей LMS с течением времени✅
Это приложение отображает изменения показателей моделей, который оценивается чат-ботом LMSYS Arena, крутая штука, чтобы поиграться. Показатель ELO (ось y)
- это показатель относительной силы модели, основанный на ее показателях по сравнению с другими моделями на арене.Дата публикации (по оси x)
соответствует моменту, когда модель была впервые опубликована публично.
Линии тренда основаны на обычной регрессии методом наименьших квадратов (МНК) и корректируются в соответствии с критериями фильтрации.
https://huggingface.co/spaces/andrewrreed/closed-vs-open-arena-elo
@ai_machinelearning_big_data
Yandex приглашает поучаствовать в Practical ML Conf 14 сентября!
На конференции поговорим о том, как применять ML-технологии в бизнесе и реальных продуктах. Регистрируйтесь уже сейчас — те, кто сделает это раньше всех, попадут на закрытый мини-ивент в июле.
А если хотите поделиться своим опытом в ML, станьте спикером, оставив заявку. Ключевые темы конференции — CV, RecSys, MLOps, NLP, Speech и Analytics. После подачи программный комитет рассмотрит заявки и примет решение об участии каждого претендента.
🔹 Сбор заявок завершится 13 июля.
Реклама. ООО "Яндекс", ИНН 7736207543.
🔥 Грег Брокман, соучредитель OpenAI, опубликовал 5-минутное видео, в котором он общается с языковой моделью GPT-4 Omni и демонстрирует ее возможности компьютерного зрения.
А вот еще 33 видео с примерами работы ИИ - https://vimeo.com/openai.
А если интерсно, тут обращение самого Сэма Альтмана - https://blog.samaltman.com/gpt-4o
@ai_machinelearning_big_data