Наука, технологии, изобретения и урбанистика — прямо сейчас говорим о том, что уже скоро повлияет на каждого. по всем вопросам - @workakkk @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы
⚡️В то время как многие до сих пор спорят о том, как Китаю удалось достичь таких прорывов, как у DeepSeek, инсайдеры уже много лет пишут, что : лучшие и самые талантливые студенты Китая 🇨🇳 все чаще остаются учиться дома, а не уезжают за границу.
Вот иерархия, которую выбирают лучшие студенты Китая
Уровень 1 : Цинхуа, Пекинский университет, Бэйханский университет.
Уровень 2 : ведущие международные институты, такие как Carnegie Mellon, MIT и Stanford.
Уровень 3 : Другие университеты Китая.
Эта тенденция отражает целенаправленные усилия руководства Китая по созданию внутри страны систем образования и исследований мирового уровня, гарантируя, что лучшие специалисты останутся в стране.
Существует значительная пропасть между людьми, посещающими ведущие университеты, и теми, кто не учится в этих учебных заведениях в таких странах, как США, Великобритания, Япония, Россия, Бразилия и других.
Опыт Китая напоминает нам, что удержание талантов в и развитие элитных образовательных экосистем помогают развивать мировые инновации и конкуренцию.
@vistehno
#China #ml #ai
🔥 MagicMirror — это приложение для мгновенной замены лиц, причесок и одежды с помощью ИИ!
🌟 Оно работает локально на macOS и Windows, не требует мощного оборудования и обеспечивает полную конфиденциальность, так как обработка изображений выполняется на устройстве.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
🌟 Deepseek-R1 получать второй миска рис.
@vistehno
🌟 Выдыхаем.
@vistehno
🖥 Стрим про фичу оператора в ChatGPT
https://youtu.be/CSE77wAdDLg
@vistehno
🔥 Awesome-LLM — это коллекция ресурсов, связанных с большими языковыми моделями (LLM)!
💡 В репозитории собраны ссылки на инструменты, исследования, фреймворки, наборы данных и проекты, связанные с LLM, такие как GPT, LLaMA и другие. Этот репозиторий помогает разработчикам и исследователям быстро находить актуальную информацию по обучению, настройке и использованию языковых моделей.
🔐 Лицензия: CC0-1.0
🖥 Github
@vistehno
🔍 Так вот от чего отталкивается цена на эту монету на самом деле...
@vistehno
🔥 Китайская компания изобрела роботов, которые способны развивать скорость до 10 м/с!
🌟 А теперь представьте, что это преследует вас, ваши действия?
@vistehno
🚨Только что были выпущены веса для новой ризонинг моделей DeepSeek-R Zero.
Модель 685B на архитектуре на DeepSeek V3.
Размер: 720GB 🤯
Ждем официального анонса, который с высокой степенью вероятности состоится сегодня или завтра.
🤗HF: https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main
#DeepSeek
⭐️ Самые интересные Open Source AI релизы за неделю
- VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.
- BytedanceTalk выпустил модель SA2VA с параметрами 26B.
Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.
- VRC-Bench - это новый бенчмарк для оценки эффективности мультимодальных LLM.
- MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.
💬 LLM
- MiniMax-Text-01 - новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯
- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B - ризонинг модели, которую можно обучить всего за 450 долларов!
- Kyutai labs выпустили Helium-1 Preview 2B - многоязычный LLM для edge девайсов и мобильных устройств.
- Wayfarer-12B - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻
- ReaderLM-v2 - это новая модель синтаксического анализа HTML от JinaAI.
- Вriaforall выпустила Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.
- UnslothAI адаптировали Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.
👀 Vision
- MatchAnything - это новая универсальная модель для сопоставления изображений.
- FitDit - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.
⭐️ Аудио
- OuteTTS-0.3-1B - это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.
📖 Поиск
- Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более 95 языков
- cde-small-v2 - это новая SOTA модель эмбедингов текста небольшого размера.
🧠 Playground
LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.
Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!
@ai_machinelearning_big_data
#ml #digest #datasets #opensource #ai #llm #news
⭐️ AI-Crash-Course
Ускоренный бесплатный курс по искусственному интеллекту, который рассчитан на 2-4 недели.
Курс поможет освоить передовые направления исследований в области искусственного интеллекта.
✅Github
@vistehno
🧠 ML DIGEST
💬Выпущена Новая TTS модель OuteTTS 0.3, 1 B и 500M
> Zero-shot - клонирование голоса > Многоязычный (en, jp, ko, zh, fr, de)
> Обучен 20 000 часам аудиозаписей
> Работает от OLMo-1B и Qwen 2.5 0.5B
> > Функции контроль скорости речь и эмоций
✅ HF
🤗 Hugging Face выпустили открытый курс по изучению AI-агентов на практике.
За прохождение курса можно получить сертификат и самое главное, что при обучении упор идет на практику.
Вы погрузитесь в популярные фреймворки агентов, такие как LangChain, LlamaIndex и smolagents. Эти инструменты предоставляют строительные блоки для создания сложных поведений агентов.
✅Записаться можно здесь
🎥 Компания Luma AI только что выпустила #Ray2 - новую модель видео с искусственным интеллектом, которая создает реалистичные видеоролики с естественным и последовательным движением. Поддерживает text-to-video и image-to video. Доступна платно.
✅Подробнее
🎓 Transformer2: Self-adaptive LLMs
SakanaAi представили новую структуру самоадаптации моделей, при которой LLM адаптируется для невидимых задач в реальном времени, выборочно корректируя только отдельные компоненты своих весовых матриц.
Во время вывода используется система диспетчеризации, которая определяет свойства задачи, а затем использует векторы «экспертов» для конкретной задачи, обученные с помощью reinforcement learning👀
✅ Статья
✅ GitHub
🧞Omni-RGPT: очередная SOTA MLLM
NVIDIA представляли Omni-RGPT, MLLM, для понимания изображений и видео на уровне отдельных объектов и регионов на видео.
✅Статья
✅Проект
⚡️ Bespoke Curator
Curator - библиотека с открытым исходным кодом, разработанная для упрощения создания синтетических данных!
✅Github
🌏 Earth View предлагает огромную коллекцию мультиспектральных изображений
Земли из нескольких спутниковых источников, включая Satellogic, Sentinel-1, NEON и предстоящий Sentinel-2.
✅HF
@ai_machinelearning_big_data
#ml #news #digest #machinelearning
🔍 Гений.
@vistehno
🎮 Запуск Doom (1993) в PDF файле.
Порт исходника Doom, который запускается в PDF-файле.
Оказалось, что старые версии Emscripten могут компилировать C в код asm.js, автор запустится внутри ограниченного времени выполнения JS в движке PDF.
Он использовал форк doomgeneric (https://github.com/ozkl/doomgeneric) оригинального исходного кода Doom, так как это позволило довольно легко написать IO.
Все, что нужно было сделать, это реализовать фреймбуфер и клавиатурные входы.
В отличие от предыдущих интерактивных PDF-демонстраций, вывод в DoomPDF осуществляется путем создания текстового поля для каждого ряда пикселей на экране, а затем установки их содержимого в различные ASCII-символы.
Обратите внимание, что этот PDF может работать только в браузерах на базе Chromium, использующих движок PDFium.
Таким образом, получается 6-цветный монохромный дисплей, который может обновляться достаточно быстро (80 мс на кадр).
▪ Исходный код доступен здесь: https://github.com/ading2210/doompdf
▪Демо: https://doompdf.pages.dev/doom.pdf
@vistehno
#doom #c #gamedev
🤖 Новый уровень теста Тьюринга: это настоящий рабочий робот!
controller - это нейронная сеть, обученная в симуляторе Isaac с помощью обучения с подкреплением, а затем в Sim2real.
Уверенная походка - это круто, человечеству нужны такие роботы для тушения пожаров и других опасных работ как можно скорее!
@vistehno
⚽️ Футбольный клуб Arsenal ищет специалистов, которые помогут им построить ИИ для анализа матчей и принятия тактических и стратегических решений.
@vistehno
🔎 Как выглядит телефон под микроскопом...
🌟 Явно не стоит смотреть за приемом пищи.
@vistehno
🚨 Крестный отец ИИ Иошуа Бенджио рассказывает что ИИ-агенты сейчас демонстрируют “очень сильную активность и стремление к самосохранению” и пытаются копировать сами себя.
Вскоре они могут обернуться против нас, и никто не знает, как управлять машинами, которые умнее человека.
- Если мы не разберемся с этим, то последствия могут быть печальными.
⭐️ OpenAI представили своего AI агента.
Operator — это ИИ-агент, который умеет работать с браузером, заказывать продукты, бронировать билеты и столики в ресторанах искать данные и тп.
Вам нужно просто описать свою задачу, а затем наблюдать в реальном времени, как оператор выполняет её за вас.
Доступ пользователям Pro уже открыт, для остальных обещают в ближайшем времени:
▪operator
⭐️ Open Operator
В преддверии релиза OpenAI Operator разработчики начали собирать некоторые ресурсы, связанные с Operator и другими подобными решениями для автоматизации задач:
▪Github
⭐️ Новый лидер на Text-to-Image Arena! Imagen 3 от Google DeepMind✨
Imagen 3 дебютирует на первом месте, обойдя Recraft-v3 с впечатляющим отрывом в +70 очков!
Imagen 3 доступен на сайте .
⭐️ "Последний экзамен человечества"
Это тщательно собранный датасет с 3 000 вопросов, разработанный при участии сотен профильных экспертов, чтобы отразить границы человеческих знаний. Лучше всех справляется с ним DeepSeek R1 от, достигая 9.4%, у o1 отставание с 9.1%.
▪Dataset
⭐️ Можем ли мы генерировать изображения с помощью цепочки мыслей CoT?
Давайте проверим и улучшим генерацию изображений шаг за шагом.
Авторегрессионная генерация изображений + масштабирование выводов приводят к существенному улучшению генерации изображений на нескольких бенчмарках.
▪Github ▪Статья ▪HF
⭐️ Pika 2.1
Крутейший генератор видео уже на подходе 😁 Движение в реальном времени стало намного лучше!
Здесь, можно подать заявку на ранний доступ:
▪Доступ
⭐️ o3-mini станет бесплатной — работать с моделью скоро смогут все желающие!
▪Новость
⭐️ Anthropic. Представили Citations
Новая функция API, которая позволяет Claude обосновывать свои ответы на предоставленных вами источниках.
Еще Claude может процитировать конкретные предложения и отрывки, которые лежат в основе каждого ответа.
▪Новость
@ai_machinelearning_big_data
#news #ai #ml #machinelearning #deeplearning #openai #pika #chatgpt #Imagen #cot
⭐️ Несколько часов назад OpenAI объявили, чтои выпустит CUA "Operator" (своего ИИ-агента, для управления пк) на этой неделе.
Через 50 минут спустя DeepLearning анонсируют мини-курс по работе со своим агентом Anthropics CUA.
Гонка за создание лучшего ИИ-агента для управления кмопьютером 🚀
📌 Курс
💵Трамп сегодня представит масштабный план по развитию инфраструктуры ИИ, и CBS сообщает, что он включает возвращение проекта Stargate.
OpenAI, Softbank и Oracle планируют инвестировать $500 млрд в течение следующих четырех лет.
AGI появится раньше, чем мы все ожидаем
США вкладывают огромные средства в ИИ, что хорошо для всей отрасли в целом.
https://www.cbsnews.com/news/trump-announces-private-sector-ai-infrastructure-investment/
🧠 DeepSeek обнаружили, что у их новой модели был момент озарения, когда она сама для себя разработала продвинутую технику рассуждения.
Оказывается, вам просто нужно правильно стимулировать модель.
Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.
Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.
Похоже это будет эра LLM RL.
📕 Paper
#DeepSeek #deepseekv3 #reasoning #ml
Строим рекомендательную систему фильмов на Kaggle
Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬
Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle.
Что будем делать на вебинаре:
• Разберем имеющиеся данные фильмов с их оценками
• Проведем предобработку данных
• Построим рекомендательную систему на основе машинного обучения
•Проведем расчет и анализ метрик на основе результатов работы модели
🕗Встречаемся 21 января 19:00 по мск
Вебинар будет интересен как новичкам, так и уже опытным специалистам
Зарегистрироваться на бесплатный вебинар
🔎 Гении изобрели ИИ-очки для читерства в шахматах!..
@vistehno
🔥 Parlant — это фреймворк для управления поведением AI-агентов в сценариях взаимодействия с клиентами!
🌟 С его помощью разработчики могут развернуть LLM-агента за считанные минуты, используя гибкий API для управления сессиями и построения диалогов. Главная особенность Parlant — возможность задавать и поддерживать поведенческие правила для агентов, чтобы они строго следовали бизнес-требованиям в зависимости от контекста.
🔐 Лицензия: Apache-2.0
🖥 Github
@vistehno
🔥 OpenAI заблокировали разработчика, который использовал API ChatGPT в качестве оружия!
💡 Этот разработчик создал проект, который может реагировать на голосовые команды с помощью Realtime API ChatGPT.
🌟 Компания OpenAI подтвердила факт блокировки, сославшись на нарушение своей политики, запрещающей использование ее ИИ в оружейных приложениях.
🌟 Турель может интерпретировать такие команды, как «повернуть налево» или «отреагировать соответствующим образом», с точными корректировками в реальном времени, что показывает, насколько легко языковые модели могут быть интегрированы в смертоносные системы.
🌟 Этот инцидент усиливает опасения относительно потенциальной роли ИИ в автоматизации военных систем, подобно автономным дронам, которые могут идентифицировать и наносить удары без человеческого контроля. Критики утверждают, что это может размыть ответственность за военные преступления и нормализовать автономные атаки.
🔎 Более широкая проблема распространяется и на модели с открытым исходным кодом. В сочетании с достижениями в области 3D-печатных деталей оружия, самодельные автономные системы могут стать растущим риском безопасности.
@vistehno
🔥 Майнкрафтеры ликуют — Arnis генерирует любое место с карты мира внутри Minecraft, используя для этого снимки с OpenStreetMap!
🔐 Лицензия: GPL-3.0
🖥 Github
@vistehno
🔥 Adobe выпустили в открытый доступ мощный генератор видео на прозрачном фоне — идеальный выбор для создания спецэффектов, таких как взрывы, дым, огонь, вода и другие анимации.
Нейросеть также способна оживлять статические изображения, превращая их в динамичные GIF-файлы.
Это новое удобное и быстрое решение значительно облегчает процесс видеомонтажа! Попробуем демо прямо сейчас.
📌 Демо: https://huggingface.co/spaces/wileewang/TransPixar
📌Github: https://github.com/wileewang/TransPixar
📌 Статья: https://arxiv.org/pdf/2501.03006
@vistehno
🔍 Примерно так выглядел бы мир, если бы он существовал только в местах, где есть панорама улиц от Google.
@vistehno