🌟 ИИ применили для восстановления утраченного полотна Веласкеса
⏩В Испании художник-реставратор Фернандо Санчес Кастильо с помощью нейросети смог воссоздать утраченную при пожаре картину «Изгнание морисков» Веласкеса. Для обучения ИИ он использовал эскиз полотна и описания современников художника.
⏩Веласкес создал «Изгнание морисков» в 1627 году по заказу короля Филиппа IV. Картина изображала изгнание из Испании 300 тысяч перешедших в католичество мусульман из-за возможного предательства. В 1734 году картина была утрачена при пожаре.
⏩ИИ сгенерировал видео продолжительностью чуть более четырёх минут, которое вначале демонстрирует повреждения полотна, но затем постепенно реконструирует его. Этот ролик использовали для воссоздания холста размером 335х274 см. Также художники применили последнюю версию Adobe Photoshop с функциями ИИ. В частности, они использовали «генеративную заливку», чтобы незаметно объединить разные изображения.
⏩Работа заняла более ста часов. Как отмечает Кастильо, 80% работы соответствует «художественному творчеству», а 20% принадлежит ИИ.
@ai_machinelearning_big_data
🔥 Яндекс представил третье поколение больших языковых моделей YandexGPT
YandexGPT 3 Pro, первая нейросетка линейки, уже появилась на Yandex Cloud. Её можно встроить через API, а перед этим, например, самостоятельно дообучить в сервисе ML-разработки Yandex DataSphere под конкретные задачи бизнеса.
Стоимость использования новой нейросети снизилась почти в два раза. Перед интеграцией в свои продукты у бизнеса есть возможность протестировать модель в отдельном чате на ограниченном количестве запросов. Для новых пользователей бесплатно доступно 100 запросов.
Языковая модель лучше понимает и держит контекст беседы, допускает меньше стилистических и фактических ошибок, а ещё теперь умеет представлять данные в формате JSON (JavaScript Object Notation).
@ai_machinelearning_big_data
⚡️ DBRX, a groundbreaking open-source Large Language Model (LLM) with a staggering 132 billion parameters.
Компания Databricks только что представила DBRX, новую модель большого языка с открытым исходным кодом (LM) с ошеломляющими 132 миллиардами параметров.
Модель превосходит все открытые модели на большинстве бенчмарков.
Вот что вам нужно знать 👇
• DBRX - это новая бесплатная модель искусственного интеллекта с 132 миллиардами параметров.
•Может обрабатывать до 32 000 токенов одновременно.
•Обучен на 12 триллионах токенов.
•Точное следование инструкциям.
•С открытым исходным кодом на GitHub.
•Интегрирован с HuggingFace.
•Оптимизирован для систем NVIDIA.
•Расширенная настройка с поддержкой Docker.
▪Github: https://github.com/databricks/dbrx
▪HF: https://huggingface.co/databricks/dbrx-base
▪Demo: https://huggingface.co/spaces/databricks/dbrx-instruct
▪Docs: https://docs.databricks.com/en/machine-learning/foundation-models/index.html
@ai_machinelearning_big_data
Узнай первым о GitVerse – платформе для работы с исходным кодом
29 марта в 10:00 на онлайн-презентации «GitVerse: открой вселенную кода» СберТех расскажет о новой функциональности GitVerse. Он представит дорожную карту развития и анонсирует инструменты для повышения продуктивности разработчиков.
GitVerse – полностью российский сервис, который позволяет бесплатно создавать проекты с открытым и закрытым кодом, приглашать новых участников и общаться с единомышленниками в ИТ-сообществе.
О чем узнают гости мероприятия:
· Тренды разработки и роль открытого ПО в современном ИТ
· Возможности GitVerse и планы развития
· GigaCode – AI-помощник разработчика (AI, artificial intelligence — искусственный интеллект)
· Участие комьюнити в проекте
· Пакет облачных сервисов и его преимущества для разработчиков
· Обзор интересных репозиториев на GitVerse
· Реальные кейсы разработки и оптимизации с помощью GitVerse
· Общение в прямом эфире
Регистрируйся прямо сейчас.
Ждем тебя на мероприятии!
☕️ Latte: Latent Diffusion Transformer for Video Generation
Новый трансформер скрытой диффузии Latte, для генерации видео.
Latte сначала извлекает пространственно-временные маркеры из входных видео, а затем использует серию блоков-трансформеров для генерации видео в скрытом пространстве.
▪Github
▪Project
▪Paper
@ai_machinelearning_big_data
🌊 LaVague: automate automation with Large Action Model framework
Модель для генерации selenium скриптов для автоматизации интернет-серфинга, действий на сайтах и парсинга🔥
▪Github: https://github.com/lavague-ai/LaVague
▪Docs: https://docs.lavague.ai/en/latest/docs/
▪Colab: https://colab.research.google.com/github/lavague-ai/LaVague/blob/main/docs/docs/get-
started/quick-tour.ipynb
@ai_machinelearning_big_data
🔥 OpenAI готовит революцию в голосовом взаимодействии с техникой
⏩Как стало известно, компания OpenAI не только работает над следующей версией фирменной языковой модели GPT, но и готовит к релизу продвинутый голосовой движок Voice Engine. На запуск нового проекта ранее намекал и Сэм Альтман, глава OpenAI.
⏩Предполагается, что голосовой движок от OpenAI перевернёт представление о взаимодействии с техникой, поскольку он будет понимать человеческую речь так же хорошо, как и другой человек. Это позволит объяснять задачу естественным способом и разными словами, а не конкретными запрограммированными фразами и командами.
⏩Более того, этот голосовой движок потенциально сможет генерировать речь, неотличимую от человеческой. Бывший сотрудник OpenAI Андрей Карпати не исключает появление виртуальных помощников, напоминающих «Джарвиса». Есть даже слухи, что OpenAI готовит какой-то физический продукт с использованием этого движка. Несложно также представить его появление в человекоподобных роботах, как уже было с чат-ботом ChatGPT.
⏩Позже в этом году OpenAI также планирует выпустить нейросеть для генерации реалистичных видео Sora.
@ai_machinelearning_big_data
🔥 В MIT придумали, как в 30 раз ускорить генерацию изображений с помощью ИИ
⏩Исследователи из Массачусетского технологического института (MIT) смогли заметно ускорить создание изображений по текстовым описаниям с помощью генеративного искусственного интеллекта. Новый метод позволяет генерировать изображения высокой чёткости в 30 раз быстрее существующих.
⏩Обычно в генеративных ИИ применяется техника так называемой «диффузии», когда создаётся максимально размытая картинка, а затем она детализируется до окончательного результата, максимально соответствующего тому, что ИИ может выдать в ответ на запрос пользователя. Диффузия занимает довольно много времени, поэтому исследователи MIT поставили цель её ускорить.
⏩Исследователи из Лаборатории компьютерных наук и искусственного интеллекта MIT свели генерацию изображений к единственному проходу, а новый метод назвали «дистилляцией с согласованным распределением» (distribution matching distillation). Очевидно, что генерация картинки в один проход заметно быстрее, чем за типичные для диффузионных моделей 30–50 шагов. Так, на современном оборудовании Stable Diffusion 1.5 создаёт изображение за 1,5 секунды, в то время как новая модель на основе DMD справляется за 0,05 секунды.
⏩Это не первая попытка дистилляции диффузионных моделей для ускорения генерации изображений. В Instaflow и LCM пытались применить похожий подход, но результаты не впечатляли. Компания Stability AI также пыталась ускорить диффузионные модели и добилась некоторых успехов, выпустив Stable Diffusion Turbo, создающую картинку с разрешением до 1 мегапикселя за один проход, однако сгенерированные в несколько проходов изображения всё равно получались заметно лучше.
@ai_machinelearning_big_data
🧬 Evolving New Foundation Models: Unleashing the Power of Automating Model Development
Одна из самых оригинальных статей о LLM за последнее время. Слияние эволюционных моделей: новый подход, приближающий нас к автоматизации создания моделей.
Авторы используют эволюционные алгоритмы для поиска лучших способов объединения моделей с открытым исходным кодом для автоматического создания новых мощных моделей с заданными пользователем возможностями!
▪Blog: https://sakana.ai/evolutionary-model-merge/
▪Paper: https://arxiv.org/abs/2403.13187
@ai_machinelearning_big_data
💥 Embedding quantization!
Новый метод квантования эмбедингов, который позволяет ускорить работу в 45 раз при сохранении точности 96%.
🔥 Binary quantization: требует в 32 раза меньше памяти и работает до 45 раз быстрее поиск, сохраняя производительность ~96%
✨ int8 quantization: в 4 раза меньше памяти и до 4 раз быстрее поис.
💰 Для 250 миллионов эмбедингов двоичному MxBai требуется 29 ГБ памяти против 953 ГБ для float32.
https://huggingface.co/blog/embedding-quantization
@ai_machinelearning_big_data
💥 Готовы проникнуть в сердце инноваций?
Тогда приглашаем на урок «От пикселей к словам: image-2-text модели в компьютерном зрении», где мы развенчаем все тайны машинного зрения!
На уроке мы расскажем о том, как работают image-2-text модели, и каким образом они помогают переводить изображения в текст.
Мы рассмотрим методы обучения моделей на распознавание объектов на изображениях. Обсудим разнообразные области их применения — от генерации описаний для фотографий до анализа данных в компьютерном зрении.
🌟 Результат урока:
Вы узнаете о различных архитектурах image-2-text моделей (например, BLIP, GIT и других), научитесь эффективно соединять изображения и текст, и выясните, как использовать эти модели для решения разнообразных задач в области компьютерного зрения.
Не упустите возможность погрузиться в мир инновационных технологий и узнать о фундаментальных принципах работы image-2-text моделей!
Регистрация
https://otus.pw/WKb2/?erid=LjN8KaM3F
💻 Yandex Cloud выпустила большое обновление платформы для работы с данными
Облачная платформа запустила сервис для управления метаданными Yandex MetaData Hub, повысила безопасность баз данных, а инструмент BI-аналитики Yandex DataLens получил новые возможности. Всё это позволит компаниям быстро и надёжно создавать дата-проекты в облаке — от корпоративных хранилищ данных до аналитических и рекомендательных систем.
💬 Больше об обновлениях платформы данных читайте в статье.
Есть ли мемы на Марсе? Как вытянуть репку с помощью кода? Попробуйте разгадать все тайны Гиперкуба на Tinkoff CTF.
20 и 21 апреля пройдет ИТ-соревнование с призами до 420 000 ₽.
Выберите лигу по скиллам и участвуйте даже без опыта в спортивном хакинге. Задания будут интересны сильным разработчикам, QA- и SRE-инженерам, аналитикам и другим ИТ-специалистам.
Играйте как вам удобно: онлайн из дома или офлайн — в одном 16 городов России, Беларуси и Казахстана. В офлайне вас ждет общение с другими игроками, квизы, мерч и другие развлечения.
Узнайте больше о соревновании и зарегистрируйтесь до 19 апреля
erid:2VtzqxAwfTB
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673
Приглашаем на бесплатную ML-тренировку Data Dojo!
Разберём решения победителей больших соревнований и сами подумаем над парочкой задач, а ещё проведём экскурсию по петербургскому офису. Пока мы только формируем программу, но уже известен первый доклад:
🔸 Артём Топоров, ex Lead ML в ROGII Inc. Расскажет о своём втором месте на соревновании Kaggle по распознаванию жестового языка.
Data Dojo пройдёт 30 марта в Санкт-Петербурге в онлайн- и офлайн-форматах. Если хотите прийти на офлайн — подавайте заявку, мы проведём отбор участников и отправим приглашение за три дня до тренировки.
Регистрируйтесь и приходите — будем вместе искать ML-просветления 🪬
⚡ Lightning Thunder: It makes PyTorch programs faster on single accelerators and distributed.
Thunder, новый компилятор для Python!
В задачах обучения LLM (например, Llama 2 7B) он может ускорить работу на 40% по сравнению с обычным PyTorch.
Вы можете использовать его с pytorch.compile
для повышения эффективности. И, конечно же, он также поддерживает обучение с несколькими графическими процессорами через DDP и SDP SDP
.
▪Github
@ai_machinelearning_big_data
4 апреля в 18:00 на ютуб-канале AvitoTech пройдет собеседование на позицию аналитика в Авито, где вы сможете отвечать на вопросы интервьюера и задавать свои.
Вас ждут реальные задачи и кейсы, развернутый фидбек – всё то, что поможет подготовиться к важному этапу. Не упустите возможность узнать больше о том, как пройти интервью!
А 6, 7 апреля для самых смелых аналитиков пройдет Weekend Offer в Авито. Оставляйте заявку – готовьтесь быть на высоте! 🚀
У VK есть VK Cloud — безопасная платформа для разработки и работы с данными
Любая компания может повысить безопасность и надежность своего приложения, разместив его в VK Cloud. Или же вообще разработать ПО с нуля, используя преднастроенные облачные сервисы.
🔹 Все, что нужно для разработки: виртуальные машины, базы данных, Kubernetes, S3-хранилище, бэкапы, решения для машинного обучения и работы с Big Data.
🔹 Аудит, миграция, мониторинг и другие лучшие практики VK от команды опытных инженеров.
🔹 Комплексная защита веб-сервисов от атак и взломов.
Зарегистрируйтесь в VK Cloud и получите 3 000 ₽ для тестирования облачных сервисов в течение 60 дней!
🚀 Lumiere - это модель пространственно-временной диффузии от Google Research.
Используя одно эталонное изображение, Lumiere может создавать видеоролики в нужном вам стиле, используя точно настроенные веса модели преобразования текста в изображение.
▪Узнайте больше о Lumiere → https://lumiere-video.github.io/?utm_source=social
▪Video: https://www.youtube.com/watch?v=wxLr02Dz2Sc&t=2s
▪Paper: https://arxiv.org/abs/2401.12945
@ai_machinelearning_big_data
🌍 𝗠𝗮𝗷𝗼𝗿 𝗧𝗢𝗠: 𝗣𝗹𝗮𝗻𝗲𝘁 𝗘𝗮𝗿𝘁𝗵 𝗶𝘀 𝗯̶𝗹̶𝘂̶𝗲̶ 𝟱.𝟰𝟬𝟱 𝗚𝗛𝘇
MajorTom-Core-S1RTC новый стандарт изображений со спутников и датасет, который содержит 1 469 955 снимков.
16 ТБ радиометрически откалиброванных изображений.
▪HF: https://huggingface.co/Major-TOM
▪Github: https://github.com/ESA-PhiLab/Major-TOM/
▪Colab: https://colab.research.google.com/github/ESA-PhiLab/Major-TOM/blob/main/03-Filtering-in-Colab.ipynb
▪Paper: https://www.arxiv.org/abs/2402.12095
▪MajorTOM-Core-Viewer: https://huggingface.co/spaces/Major-TOM/MajorTOM-Core-Viewer
@ai_machinelearning_big_data
📢 Совет для всех, кто работает с данными и увлекается машинным обучением.
📚 Ищите что почитать про данные, диджитал и технологии в Telegram?
LEFT JOIN — это маст-хэв медиа о технологиях и данных, где вы найдете самую актуальную информацию о:
🔵 Применение AI-моделей практически во всех областях работы и жизни,
🔵 Фишках SQL и работу с базами данных,
🔵 Стартапы, основанные на нейронных сетях, которые заслуживают не меньшего внимания, чем ChatGPT,
🔵 Как нейронные сети могут упростить работу аналитика данных.
🎙️ Авторы этого канала этой весной запускают четвертый сезон подкаста "Data Heroes" — честные беседы с настоящими супергероями, чья сила в данных. Если вы еще не слушали первые три сезона, то скорее наверстывайте упущенное, это реальный кладезь знаний...
🔜 Подписывайтесь на @leftjoin для увлекательного контента о данных, технологиях и AI! 🚀
🔝 Где искать работу аналитику данных в различные направления DS,SQL, Аналитики и ML
Подборка с каналами, где можно найти вакансии или подработку:
▪Data Jobs
▪Data engineering/SQL
▪Python Jobs
▪Папка с вакансиями по различным направлениям
▪Аналитика данных
▪Машинное обучение полная папка
🔎 Полный ресурсов для поиска работы аналитику данных.
@sqlhub
Уникальный сервер для любых задач в Амстердаме за 2$ в месяц
1 Gb RAM / 1 core CPU / 10 Gb NVMe - 2$ в месяц
https://www.vdsina.com/ru/pricing/standard
- Уникальная фиксированная цена в долларах США, которая не будет меняться
- Компания зарегистрирована в Дубае
- Оплата с рублёвой карты, криптой, иностранной картой через Stripe
- Готовые шаблоны с Outline, WireGuard, IPsec
- Подключение к сети интернет — 10 Гбит/сек
- Доступны все популярные сайты, включая ChatGPT, Netflix
Почему я должен верить компании? VDSina работает с 2014 года и сейчас обслуживает более 40 000 серверов. Сомневаетесь? Вот чат в телеграме — задавайте вопросы другим пользователям: /channel/vdsina
erid: 2VtzqwEU6vg
Реклама, ИП Краснов Сергей Владимирович ИНН: 911104107858
⚡Успейте в группу обучения курса "Reinforcement Learning". Промокод: HARDML
Старт 27 марта. 3 месяца. Advanced уровень.
🔥На курсе вы:
- овладеете основными и продвинутыми алгоритмами RL;
- научитесь строить свои модели среды и обучать агента на своих уникальных условиях;
- изучите Deep RL и алгоритмы с использованием нейросетей;
- познакомитесь с продвинутыми темами в RL.
Фокус на практике и проектной работе для реализации RL алгоритмов в своих собственных проектах и приложениях.
По итогу большинства вебинаров получите Jupyter Notebook с разбором практических кейсов.
👉Отправить заявку https://otus.pw/ZsOIa/?erid=LjN8KZabc
Промокод: HARDML
Возможны разные способы оплаты и рассрочка платежа. Используйте промокод, чтобы получить скидку.
🔥 Nvidia опубликовала в открытом доступе бесплатные обучающие курсы для пользователей любого уровня подготовки по нейросетям и нейромоделям для понимания работы ИИ
⏩ объяснение генеративного ИИ: базированный 2-часовой курс, который подробно объяснит устройство нейронок, их применение и возможности;
⏩ создаём «мозг» за 10 минут: объяснит, как нейронка обучается на данных и покажет всю математику у неё под капотом;
⏩ введение в ИИ в центре обработки данных: всё про машинное обучение и глубокое обучение; какие есть фреймворки и как видеокарты двигают ИИ;
⏩ усиляем свою LLM с помощью RAG: объяснит всю базу по генерации с дополненной выборкой;
⏩ создание своих RAG-агентов: мощнейший 8-часовой курс про масштабируемые стратегии развертывания для LLM и векторные базы данных;
⏩ ускорение работы с Data Science без изменения кода: всё об обработке данных и машинном обучении без переписываний кода;
⏩ усиление рекомендательных систем с помощью ИИ: курс-коллаб NVIDIA и YouTube;
⏩ устройство сетей: база про протоколы TCP/IP и Ethernet — необходимо для понимания процессов обработки данных.
@ai_machinelearning_big_data
⚡️ Разработчик с помощью дипфейка в реальном времени прошёл собеседование за друга
Пользователь X под никнеймом facelessboy00 рассказал о том, как он помог другу пройти собеседование в технологическую компанию с помощью дипфейка. Сам он опытный разработчик, поэтому на созвон приходил сам и демонстрировал навыки, но в реальном времени заменял своё лицо на лицо друга. Со второй попытки удалось получить офер на 4 тыс. долларов в валюте.
На первом этапе другу собрали продающее резюме, которое помогло бы пройти первичный отбор. Для этого на LinkedIn отобрали профили людей из доменной области, которые работают в крупных компаниях. Другу искали работу в финтехе. Из выбранных профилей взяли пункты, которые хорошо бы смотрелись. Потом их перенесли в итоговое резюме, а в качестве опыта добавили несколько малоизвестных компаний. Для каждой из них накрутили минимум 2,5 года опыта.
После этого начали готовиться к интервью. Для этого использовали программу DeepFaceLive, которая захватывает видео и возвращает его с уже подменённым лицом. Задержка составляет 500 мс. Перед использованием нейросеть надо обучить на фото человека, которым будет заменяться лицо на видео. В качестве источника данных использовали датасет из 10 тыс. фотографий друга. Отмечается, что можно снять интервью и сделать нарезку кадров с крупным планом лица. Модель обучали 14 часов, а видеокарту RTX 3070 пришлось обновить до серии 4090.
📎 Читать подробнее
@ai_machinelearning_big_data
⚡ StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control
Интерактивная генерация изображений с нуля с детальным управлением областями, с помощью текста.
▪Сode: https://github.com/ironjr/StreamMultiDiffusion
▪Paper: https://arxiv.org/abs/2403.09055
@ai_machinelearning_big_data
☕️ LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis
NVIDIA выпустила еще одну новинку в области преобразования текста в 3D - LATTE3D. Потребность в высококачественных 3d-ресурсах огромна и охватывает медиа и развлечения, робототехнику и симуляцию, и это лишь некоторые из них.
DreamFusion, выпущенный примерно в 2022 году, был медленным и некачественным, но положил начало революции в области создания 3D. Такие модели, как ATT3D (амортизированный синтез текста в 3D-объекты), давали скорость за счет качества.
LATTE3D это высокое качество и генерация менее чем за секунду! Это означает, что вы можете быстро выполнить генерации и создать 3D-мир, используя преобразование текста или изображения в 3D. Это прорыв в использовании как нейронного поля, так и текстурированной поверхности для создания высокодетализированных текстурированных сеток за один проход.
https://research.nvidia.com/labs/toronto-ai/LATTE3D/
@ai_machinelearning_big_data
📢 𝐕𝐨𝐢𝐜𝐞𝐂𝐫𝐚𝐟𝐭: Zero-Shot Speech Editing and Text-to-Speech in the Wild🪄
SotA как для редактирования речи, и для преобразования текста в речь, превосходящий VALL-E, XTTS-v
2 и т.д.
VoiceCraft работает с фильмами, видеороликами, подкастами и тд.
▪Github
▪Paper
▪Project
@ai_machinelearning_big_data
🪴 SceneScript, a novel method for reconstructing environments and representing the layout of physical spaces
Scene Script - новый метод реконструкции окружающей среды и объектов в пространстве от RealityLabs
SceneScript способен напрямую определять геометрию помещения с помощью сквозного машинного обучения и описывать его.
По сравнению с предыдущими подходами, описание являются компактны и полными.
Scene Script использует предсказание следующего токена, как LLM, но вместо естественного языка он использует архитектурные токены. Чтобы обучить Scene был создан синтетический набор данных из 100 000 уникальных пространств.
Scene Script представляет собой важную веху на пути к идеальной дополненной реальности, которые соединят физический и цифровой миры.
▪Paper
▪Project
▪Dataset
@ai_machinelearning_big_data
🌐 EdgeЦентр — Гарантия стабильности и безопасности вашего бизнеса в цифровой среде 🚀
🔹 Локации по всей России, превосходная связность: Мы предоставляем широкий охват локаций по всей России, обеспечивая высокую скорость и надежность связи.
🔹 Инфраструктура для любого бизнеса: Наши дата-центры Tier III обеспечивают безопасное хранение и доставку контента, а также гарантированную киберзащиту.
🔹 Облачные и edge‑решения от единого поставщика: Мы предлагаем высокую надёжность и гибкость в облачных и edge‑решениях, позволяя вашему бизнесу эффективно развиваться.
🔹 Российская разработка: Наши серверы находятся в России, и мы гордимся тем, что не только остаёмся здесь, но и предлагаем технологически продвинутые решения, не уступающие зарубежным конкурентам.
🔹 Впечатляющие цифры: У нас более 3 000 физических серверов, 30+ точек присутствия, мы работаем с пиковыми ежедневными нагрузками более 10 Тбит/с, и мы успешно отражаем атаки свыше 3 Тбит/с каждый день.
Присоединяйтесь к EdgeЦентр — вашему надёжному партнёру инновационных облачных решений! 💡💻
#EdgeЦентр #Облака #Киберзащита #Россия
Реклама. ООО "ЭДЖЦЕНТР", ИНН 7704848336. erid: LatgC4CAN