Наука, технологии, изобретения и урбанистика — прямо сейчас говорим о том, что уже скоро повлияет на каждого. по всем вопросам - @workakkk @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы
🔥 Parlant — это фреймворк для управления поведением AI-агентов в сценариях взаимодействия с клиентами!
🌟 С его помощью разработчики могут развернуть LLM-агента за считанные минуты, используя гибкий API для управления сессиями и построения диалогов. Главная особенность Parlant — возможность задавать и поддерживать поведенческие правила для агентов, чтобы они строго следовали бизнес-требованиям в зависимости от контекста.
🔐 Лицензия: Apache-2.0
🖥 Github
@vistehno
🔥 OpenAI заблокировали разработчика, который использовал API ChatGPT в качестве оружия!
💡 Этот разработчик создал проект, который может реагировать на голосовые команды с помощью Realtime API ChatGPT.
🌟 Компания OpenAI подтвердила факт блокировки, сославшись на нарушение своей политики, запрещающей использование ее ИИ в оружейных приложениях.
🌟 Турель может интерпретировать такие команды, как «повернуть налево» или «отреагировать соответствующим образом», с точными корректировками в реальном времени, что показывает, насколько легко языковые модели могут быть интегрированы в смертоносные системы.
🌟 Этот инцидент усиливает опасения относительно потенциальной роли ИИ в автоматизации военных систем, подобно автономным дронам, которые могут идентифицировать и наносить удары без человеческого контроля. Критики утверждают, что это может размыть ответственность за военные преступления и нормализовать автономные атаки.
🔎 Более широкая проблема распространяется и на модели с открытым исходным кодом. В сочетании с достижениями в области 3D-печатных деталей оружия, самодельные автономные системы могут стать растущим риском безопасности.
@vistehno
🔥 Майнкрафтеры ликуют — Arnis генерирует любое место с карты мира внутри Minecraft, используя для этого снимки с OpenStreetMap!
🔐 Лицензия: GPL-3.0
🖥 Github
@vistehno
🔥 Adobe выпустили в открытый доступ мощный генератор видео на прозрачном фоне — идеальный выбор для создания спецэффектов, таких как взрывы, дым, огонь, вода и другие анимации.
Нейросеть также способна оживлять статические изображения, превращая их в динамичные GIF-файлы.
Это новое удобное и быстрое решение значительно облегчает процесс видеомонтажа! Попробуем демо прямо сейчас.
📌 Демо: https://huggingface.co/spaces/wileewang/TransPixar
📌Github: https://github.com/wileewang/TransPixar
📌 Статья: https://arxiv.org/pdf/2501.03006
@vistehno
🔍 Примерно так выглядел бы мир, если бы он существовал только в местах, где есть панорама улиц от Google.
@vistehno
📚 Новогодние праздники продолжаются и пришло время провести крутой розыгрыш.
На этот раз мы разыграем целых 3 места на наших курсах и целую коллекцию актуальных книг для изучения и погружения в машинное обучение и python.
Условия просты:
• подписаться на Pythonl
• подписаться на Поступашки
Победители рандомно получат доступы к курсам или одну из книг, которые перечислены ниже:
— System Design. Машинное обучение. Подготовка к сложному интервью | Сюй Алекс
— Алгебра, топология, дифференциальное исчисление и теория оптимизации для компьютерных наук и машинного обучения
— Глубокое обучение Курвилль Аарон, Гудфеллоу Ян
— Как быть успешным в Data Science.
— Все, что нужно, чтобы понимать математику в одном толстом конспекте
Итоги подведем при помощи бота, который рандомно выберет победителя. Всем удачи ❤️
• подписаться на Pythonl
• подписаться на Поступашки
#Конкурс
🖥 NVIDIA представила видеокарты серии RTX 50 — всего четыре модели.
RTX 5090 оказалась в 1,5 раза производительнее предыдущей версии RTX 4090! Более того, благодаря технологии DLSS 4, даже самая доступная модель RTX 5070 за $550 способна обеспечить производительность на уровне RTX 4090.
Мы все ожидали от RTX 5090, крутые характеристики и все такое. Но все ли поняли, что Дженсен сказал о графике?
Что новая карта использует нейронные сети для генерации 90+% пикселей в играх?
Традиционные алгоритмы трассировки лучей отрисовывают только ~10%, своего рода «скетч», а затем генеративная модель заполняет остальные мелкие детали. За один проход в режиме реального времени.
ИИ - это новый уровень графики, дамы и господа.
Цены и технические характеристики:
GeForce RTX 5090:
- Процессор: GB202-300
- CUDA-ядер: 21 760
- Память: 32 ГБ GDDR7 (1792 Гбайт/с)
- Шина: 512 бит
- Потребление энергии: 575 Вт
- Цена: $1999
GeForce RTX 5080:
- Процессор: GB203-400
- CUDA-ядер: 10 752
- Память: 16 ГБ GDDR7 (960 Гбайт/с)
- Шина: 256 бит
- Потребление энергии: 360 Вт
- Цена: $999
GeForce RTX 5070 Ti:
- Процессор: GB203-300
- CUDA-ядер: 8 960
- Память: 16 ГБ GDDR7 (896 Гбайт/с)
- Шина: 256 бит
- Потребление энергии: 300 Вт
- Цена: $749
GeForce RTX 5070:
- Процессор: GB205-300
- CUDA-ядер: 6 144
- Память: 12 ГБ GDDR7 (672 Гбайт/с)
- Шина: 192 бит
- Потребление энергии: 250 Вт
- Цена: $549
Продажи стартуют уже в этом месяце!
@ai_machinelearning_big_data
#nvidia
🔍 Сложно встретить в этом мире что-то страшнее...
@vistehno
🔥 Приятного аппетита!
@machinelearning_ru
🖥 NVIDIA RTX 5090 будет оснащена 32 ГБ памяти GDDR7, вероятнее всего, рассчитанной на 28 Гбит/с!
🔍 Benchlife добавил больше подробностей к предварительным слухам о RTX 5090.
💡 Карта также будет использовать 600 Вт TGP (Total Graphics Power, что означает общую мощность, подаваемую на графическую подсистему).
🔗 Подробнее: *клик*
@vistehno
Уголок AI-энтузиастов от Сбера 🤖
Sber AI Lab — центр экспертизы Сбера в области искусственного интеллекта и активный участник глобального научного комьюнити.
✅ Команда создаёт полезные алгоритмы, фреймворки и технологии в разных сферах: от банкинга до медицины.
✅ Топ по количеству научных статей на A*/A конференции и Q1 журналы в Сбере
✅ Среди open-source решений лаборатории ИИ: LightAutoML (победитель Kaggle Grand Prix 2024), RePlay, pytorch-lifestream, eco2ai и другие инструменты. Узнать больше о решениях можно на GitHub.
Ты можешь стать частью нашей команды и сделать свой вклад в развитие AI-проектов в интересных тебе направлениях тут.
🔥 Вот вам немного "новогодних" видео от Kling!
@vistehno
🔍 Обман зрения: на этой картинке нет красного цвета, однако ваш мозг сам его дорисовывает. Живите с этим.
@vistehno
📱 Telegram стал прибыльным и преодолел рубеж в 1 миллиард долларов выручки!
💡 Павел Дуров поделился успехами Telegram по итогам 2024 года, отметив, что мессенджер впервые в своей истории стал прибыльным. В 2024 году количество подписчиков Telegram Premium увеличилось в три раза, превысив 12 миллионов пользователей, что положительно сказалось на финансовых показателях компании. Доходы от рекламы также значительно возросли, а общая выручка Telegram за год составила более 1 миллиарда долларов. Денежные резервы компании достигли 500 миллионов долларов, не считая криптоактивов.
🌟 Кроме того, за последние четыре года Telegram выпустил долговых обязательств на сумму около 2 миллиардов долларов, значительная часть которых была погашена осенью 2024 года. Дуров подчеркнул, что успехи в монетизации подтверждают, что социальные медиа-платформы могут оставаться финансово устойчивыми, сохраняя независимость и соблюдая права пользователей. В начале декабря Telegram также получил обновление с новыми функциями, включая партнёрские программы и ИИ-поиск стикеров.
@vistehno
⭐️ AI-Crash-Course
Ускоренный бесплатный курс по искусственному интеллекту, который рассчитан на 2-4 недели.
Курс поможет освоить передовые направления исследований в области искусственного интеллекта.
✅Github
@vistehno
🧠 ML DIGEST
💬Выпущена Новая TTS модель OuteTTS 0.3, 1 B и 500M
> Zero-shot - клонирование голоса > Многоязычный (en, jp, ko, zh, fr, de)
> Обучен 20 000 часам аудиозаписей
> Работает от OLMo-1B и Qwen 2.5 0.5B
> > Функции контроль скорости речь и эмоций
✅ HF
🤗 Hugging Face выпустили открытый курс по изучению AI-агентов на практике.
За прохождение курса можно получить сертификат и самое главное, что при обучении упор идет на практику.
Вы погрузитесь в популярные фреймворки агентов, такие как LangChain, LlamaIndex и smolagents. Эти инструменты предоставляют строительные блоки для создания сложных поведений агентов.
✅Записаться можно здесь
🎥 Компания Luma AI только что выпустила #Ray2 - новую модель видео с искусственным интеллектом, которая создает реалистичные видеоролики с естественным и последовательным движением. Поддерживает text-to-video и image-to video. Доступна платно.
✅Подробнее
🎓 Transformer2: Self-adaptive LLMs
SakanaAi представили новую структуру самоадаптации моделей, при которой LLM адаптируется для невидимых задач в реальном времени, выборочно корректируя только отдельные компоненты своих весовых матриц.
Во время вывода используется система диспетчеризации, которая определяет свойства задачи, а затем использует векторы «экспертов» для конкретной задачи, обученные с помощью reinforcement learning👀
✅ Статья
✅ GitHub
🧞Omni-RGPT: очередная SOTA MLLM
NVIDIA представляли Omni-RGPT, MLLM, для понимания изображений и видео на уровне отдельных объектов и регионов на видео.
✅Статья
✅Проект
⚡️ Bespoke Curator
Curator - библиотека с открытым исходным кодом, разработанная для упрощения создания синтетических данных!
✅Github
🌏 Earth View предлагает огромную коллекцию мультиспектральных изображений
Земли из нескольких спутниковых источников, включая Satellogic, Sentinel-1, NEON и предстоящий Sentinel-2.
✅HF
@ai_machinelearning_big_data
#ml #news #digest #machinelearning
🔍 Гений.
@vistehno
🎮 Запуск Doom (1993) в PDF файле.
Порт исходника Doom, который запускается в PDF-файле.
Оказалось, что старые версии Emscripten могут компилировать C в код asm.js, автор запустится внутри ограниченного времени выполнения JS в движке PDF.
Он использовал форк doomgeneric (https://github.com/ozkl/doomgeneric) оригинального исходного кода Doom, так как это позволило довольно легко написать IO.
Все, что нужно было сделать, это реализовать фреймбуфер и клавиатурные входы.
В отличие от предыдущих интерактивных PDF-демонстраций, вывод в DoomPDF осуществляется путем создания текстового поля для каждого ряда пикселей на экране, а затем установки их содержимого в различные ASCII-символы.
Обратите внимание, что этот PDF может работать только в браузерах на базе Chromium, использующих движок PDFium.
Таким образом, получается 6-цветный монохромный дисплей, который может обновляться достаточно быстро (80 мс на кадр).
▪ Исходный код доступен здесь: https://github.com/ading2210/doompdf
▪Демо: https://doompdf.pages.dev/doom.pdf
@vistehno
#doom #c #gamedev
🤖 Новый уровень теста Тьюринга: это настоящий рабочий робот!
controller - это нейронная сеть, обученная в симуляторе Isaac с помощью обучения с подкреплением, а затем в Sim2real.
Уверенная походка - это круто, человечеству нужны такие роботы для тушения пожаров и других опасных работ как можно скорее!
@vistehno
🔍 Исследователи из Корнелльского университета создали MouseGoggles — VR-гарнитуру для мышей.
😞 Живите с тем, что в этом мире мышь может позволить себе больше, чем некоторые люди...
@vistehno
🔍 На видео — демонстрация первой в мире нейронной сети для распознавания чисел в 1993 году!
@vistehno
🔍 Тем временем в Японии тестируют новый сверхскоростной поезд...
@vistehno
🔥 Невероятно полезный инструмент — Storm посещает сотни веб-сайтов и создает огромные статьи на заданную вами тему!
🔍 К сожалению, работает только на английском, однако ничего не мешает вам перевести получившуюся статью в любой другой нейросети.
🔗 Ссылка: *клик*
@vistehno
🌟 Google Cloud собрала 321 реальный пример использования GenAI от ведущих мировых компаний.
Большая подборка примеров внедрения генеративного ИИ от ведущих компаний, правительств, исследовательских институтов и стартапов по всему миру. Они демонстрируют, как организации используют ИИ-агентов для повышения производительности, автоматизации процессов и улучшения клиентского опыта, что в итоге приводит к ощутимой отдаче от инвестиций.
▶️ Розничная торговля
🟢Best Buy использует Gemini для создания виртуального ассистента, способного решать проблемы с продуктами и управлять доставками;
🟢BrainLogic использует Claude для персонального ИИ-ассистента Zapia, ориентированного на латиноамериканский рынок;
🟢Carrefour Taiwan разработал AI Sommelier, который помогает клиентам выбирать вино.
▶️ Автоконцерны
🟠Continental интегрировал разговорный ИИ в Smart Cockpit HPC, решение для управления речевыми командами в автомобиле;
🟠General Motors улучшила OnStar с помощью разговорного помощника, который лучше распознают намерения собеседника;
🟠Volkswagen создал виртуального ассистента в приложении myVW, который помогает водителям изучать руководства и задавать вопросы.
▶️ Здравоохранение
🟢Freenome разрабатывает диагностические тесты на основе ИИ для раннего выявления рака;
🟢Orby применяет ИИ и нейротехнологии для реабилитации пациентов.
▶️Финансы
🟠NG Bank разработал чат-бота для поддержки сотрудников, чтобы повысить качество ответов на запросы клиентов.
🟠Scotiabank использует Gemini для персонализации клиентского опыта.
▶️Производство
🟢Motorola использует Gemini и Imagen для улучшения UX/UI смартфонов;
🟢Samsung применяет Gemini Pro и Imagen 2 в Galaxy S24 для обработки текста и редактирования изображений;
🟢ScottsMiracle-Gro создал ИИ-агента для консультаций по садоводству.
▶️ Госсектор
🟠Justicia Lab разрабатывает AI-помощника для упрощения юридических процессов для иммигрантов;
🟠Министерство труда Катара запустило платформу Ouqoul для поиска работы выпускниками-экспатами.
▶️ Медиа
🟢Formula E может создает 2-минутные подкасты на любом языке из двухчасовых комментариев.
🟢Globant разработала Advance Video Search для поиска контента по кадрам.
🔜 Читать полную подборку примеров
@ai_machinelearning_big_data
#ai #ml
😞 А ведь он просто хотел завести новых друзей...
@vistehno
🔥 Пользователь X отправил модели Qwen QVQ 72B фотографию в поезде метро Нью-Йорка и спросил, когда ему выходить, если он направляется в Чайнатаун, на что модель выдвинула огромную цепочку рассуждений и дала верный ответ.
🔍 Вот, кстати, демо этой модели на HuggingFace: *клик*
@vistehno
✔️ AGUVIS: платформа для автономных агентов GUI на основе компьютерного зрения.
Salesforce Research представил AGUVIS, фреймворк, использующий компьютерное зрение для автономных агентов GUI пользователя, работающего с web, mobile и PC-интерфейсами. AGUVIS использует единые визуальные данные и согласованное пространство действий для повышения обобщаемости в GUI-средах.
Модель обладает возможностями планирования и рассуждения и использует набор траекторий агентов GUI с многомодальным основанием. AGUVIS показал среднюю точность 89,2% в GUI-задачах, превзойдя другие методы, и снижение затрат на вывод на 93% по сравнению с GPT-4o.
Веса модели и код инференса - в планах, код для тренировки, траектории планирования и рассуждений доступны на Github.
aguvis-project.github.io
✔️ Google повела итоги года в области ИИ: 60 главных анонсов 2024 года.
Google подвела итоги 2024 года, отметив значительный прогресс в области развития технологий ИИ. За год было сделано 60 крупных анонсов: в начале 2024 года были представлены обновления для Gemini, Chrome, Pixel и Search и функция Circle to Search. В феврале дебютировала модель Gemini 1.5, а Bard стал Gemini. В марте акцент был сделан на использовании ИИ в здравоохранении, а в мае на конференции Google I/O были представлены новые продукты и функции на базе ИИ.
В течение года Google запустила новые инструменты для Google Workspace, образования, перевода, поиска и покупок. В декабре была представлена Gemini 2.0, модель нового поколения наступающей агентной эры ИИ.
blog.google
✔️ Лазерный искусственный нейрон имитирует функции нервных клеток со скоростью света.
Исследователи Университета Гонконга разработали лазерный искусственный нейрон, который полностью имитирует функции, динамику и обработку информации биологического градиентного нейрона. Новая разработка достигает скорости обработки сигнала в 10 ГБод, что в миллиард раз быстрее, чем у биологических аналогов.
Лазерный градиентный нейрон преодолевает ограничения скорости фотонных версий спайковых нейронов и имеет потенциал для еще более быстрой работы. Ученые использовали его для создания системы резервуарных вычислений, которая демонстрирует исключительную производительность в задачах распознавания образов и прогнозирования последовательностей. Тестовая среда обработала данные 100 миллионов сердечных сокращений или 34,7 миллиона рукописных цифровых изображений всего за одну секунду.
eurekalert.org
✔️ xAI выпустила мобильное приложение Grok для iOS с возможностью генерации изображений.
xAI выпустила Grok для iOS, которое в настоящее время находится на стадии бета-тестирования в Австралии и некоторых других регионах. Приложение имитирует основные функции Grok и использует модель искусственного интеллекта Grok-2.
Приложение может переписывать и обобщать текст, отвечать на вопросы и создавать изображения на основе текстовых запросов, а также получать доступ к данным из интернета и X в режиме реального времени. Одной из отличительных особенностей Grok - возможность генерации изображений, которая не имеет таких строгих ограничений, как у некоторых конкурентов, и позволяет анализировать изображения, загруженные пользователями.
techradar.com
✔️ Соучредитель Anthropic прогнозирует "еще более резкий" прогресс в развитии ИИ в 2025 году.
Джек Кларк, соучредитель Anthropic, в своей публикации на LinkedIn предположил, что в 2025 году темпы развития ИИ значительно ускорятся, благодаря сочетанию традиционных методов масштабирования моделей и масштабирования вычислительных ресурсов во время выполнения, используемое в моделях o-серии OpenAI. Кларк уверен, что сочетание традиционного масштабирования с новыми методами приведет к "еще более резким" достижениям в области ИИ в 2025 году.
Anthropic пока не выпустила модель, конкурирующую с o-серией OpenAI или Gemini от Google. Их модель Opus 3.5 была отложена из-за высоких затрат, но она помогла в разработке Sonnet 3.5.
the-decoder.com
@ai_machinelearning_big_data
#news #ai #ml
Сделали для вас подборку из полезных статей по AI/ML
Недавно наткнулись на блог YADRO на Хабре. Кто не знает, это крупный производитель IT-оборудования, и в их блоге мы нашли годные статьи по AI/ML.
Если интересуешься AI-задачами в бизнесе, то это для тебя:
→ Как мы исследовали энергоэффективность инференса нейросетей на планшете
→ Действительно ли большие языковые модели галлюцинируют? Эксперимент
→ Как мы построили модель прогнозирования выхода жестких дисков из строя
И подписывайся на блог — статьи по AI/ML тут выходят минимум раз в месяц.
🌟 ASAL: автоматизированный поиск искусственной жизни с использованием VLM для исследования открытых систем.
ASAL (Automated Search for Artificial Life) - метод автоматизации поиска симуляций искусственной жизни (ALife). В его оcнове лежит использование VLM для оценки и анализа результатов симуляций.
Традиционные техники симуляции базируются на ручном проектировании и методах проб и ошибок, ограничивая возможности для открытий новых форм жизни. ASAL не имеет таких ограничений и предлагает 3 алгоритма поиска:
🟢контролируемый поиск целевых симуляций (Supervised Target);
🟢поиск открытых систем с временной новизной ( Open-Endedness);
🟢исследование всего разнообразия симуляций (Illumination).
ASAL использует CLIP и DINOv2 для оценки видео, созданных в ходе симуляций, количественно анализируя качественные феномены в ALife. Метод был успешно применен к субстратам Boids, Particle Life, Game of Life, Lenia и Neural Cellular Automata.
В проведенных экспериментах ASAL обнаружил ранее неизвестные формы жизни в Lenia и Boids, а также Cellular Automata, демонстрирующие открытую динамику, подобную Game of Life.
Также, эти эксперименты показали, что ASAL способен находить симуляции, соответствующие как единичным, так и последовательным целям. Например, поиск последовательности "одна клетка", а затем "две клетки" приводит к обнаружению правил, способствующих самовоспроизведению.
Для поиска открытых систем в Life-like CA использовался полный перебор, где Game of Life вошла в 5% наиболее открытых систем. Для визуализации разнообразия был разработан алгоритм освещения на основе генетического алгоритма, позволивший создать "атласы" для Lenia и Boids.
▶️Локальная установка и запуск настроенного блокнота со всеми тремя алгоритмами:
# Clone repo
git clone https://github.com/SakanaAI/asal.git
cd asal
# Create conda env
conda env create -f environment.yaml
# Install requirements
pip install -r requirements.txt
# Running ASAL
asal.ipynb