data_analysis_ml | Неотсортированное

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Подписаться на канал

Анализ данных (Data analysis)

✔️ Gemini планирует интеграцию с GitHub.

Gemini для GitHub упростит работу с чужим кодом. Интеграция позволяет прикрепить репозиторий к запросу и получить от ИИ помощь: разобраться в структуре проекта, объяснить функции, предложить оптимизацию или найти баги.

Пока функционал ограничен: нельзя просматривать историю коммитов, пул-реквесты или вносить изменения напрямую в репозиторий. Загрузить можно только один проект (до 5000 файлов и 100 МБ), а для приватных репозиториев потребуется привязать GitHub-аккаунт к Google. Импорт доступен через веб-версию Gemini, но начатый диалог можно продолжить в мобильном приложении. Интеграция появится в настройках Gemini в ближайшее время.
9to5google.com

✔️ Релиз моделей серии Phi-4 с ризонингом.

Microsoft выпустила Phi-4-reasoning, Phi-4-reasoning-plus и Phi-4-mini-reasoning с 14 миллиардов параметров у первых двух и 3.6 млрд. у mini.

Phi-4-reasoning-plus обошёл 671-миллиардную DeepSeek-R1 в тестах AIME 2025, а mini-reasoning была создана для работы на смартфонах или IoT-устройствах: она решает задачи от школьного уровня до научных расчетов, не нагружая систему.
Детали создания доступны в техническом отчете, а сами модели - на Azure или HuggingFace.
azure.microsoft.com

✔️ Anthropic добавила интеграцию приложений и улучшила исследовательские возможности Claude .

Anthropic представила 2 ключевых обновления для своего Claude: интеграцию сторонних сервисов и расширенный инструмент для глубокого анализа. Новая функция "Integrations" позволяет подключать Claude к бизнес-приложениям вроде Confluence, Zapier или PayPal через серверы на базе протокола MCP. Это даст ИИ доступ к данным проектов, автоматизирует задачи и улучшает контекстную работу.

Параллельно запущен Advanced Research: теперь Claude может анализировать сотни источников (включая корпоративные данные и локальные диски) за несколько минут, формируя детальные отчеты со ссылками на источники. Обновление использует «рассуждающие» модели ИИ.

Функции доступны в бета-версии для подписчиков Claude Max, Team и Enterprise, а также скоро появятся в плане Pro. Anthropic также увеличила лимиты для кодинг-инструмента Claude Code.
anthropic.com

✔️ Google тестирует рекламу в диалогах с AI-чатами через AdSense.

Google начал внедрять рекламу в чаты пользователей с некоторыми сторонними ИИ-ассистентами через сеть AdSense. Функция, запущенная в этом году, уже тестировалась с стартапами Ask и Liner. Представитель компании подтвердил: «AdSense для Поиска доступен сайтам, которые хотят показывать релевантную рекламу в своих AI-диалогах».

Этот шаг выглядит попыткой монетизировать растущую популярность ИИ-чатов вроде ChatGPT или Claude, которые постепенно заменяют традиционный поиск. Ранее компания уже добавляла рекламу в ИИ-сниппеты поиска. Однако интеграция с внешними сервисами — новый этап.
bloomberg.com

✔️ Умные очки Ray-Ban будут собирать пользовательские данные для обучения ИИ.

Facebook-research внесли ключевые изменения в правила конфиденциальности своих умных очков Ray-Ban. С 29 апреля владельцы устройств больше не могут отключать сохранение голосовых записей в облаке — удалить их можно только вручную через настройки. По словам компании, аудио и транскрипты хранятся до года для улучшения продуктов, а случайные активации удаляются через 90 дней.

Фото и видео с камеры очков по-прежнему остаются в галерее смартфона и не используются для обучения ИИ, если не загружены в облачные сервисы компании или сторонние приложения. Однако голосовой помощник теперь всегда активен, пока пользователь не отключит его вручную. Это решение направлено на сбор данных для тренировки алгоритмов.
theverge.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Анализ данных (Data analysis)

🚀 17 000 промптов в одной базе — собрано всё, что нужно для работы с ИИ!

Разработчики собрали огромное хранилище запросов для всех топовых нейросетей: от Midjourney и ChatGPT до Runway и DALL·E.

✅ Что внутри:
• Все промпты удобно отсортированы по категориям, задачам, стилям и инструментам — не заблудитесь.
• К каждому запросу прикладываются примеры использования.
• Сервис помогает адаптировать ваши собственные промпты под конкретные задачи.
• Можно публиковать свои промпты и делиться ими с другими.
• Есть быстрое расширение для Chrome.
• И всё это бесплатно.

https://promptport.ai/

Читать полностью…

Анализ данных (Data analysis)

Welcome Time для аналитиков: дружелюбная встреча с командой Поиска с Нейро в штаб-квартире Яндекса

Расскажем в чем специфика аналитики в продукте, проведем диагностику навыков и ответим на все ваши вопросы.

Где и когда: 17 мая в 12:00, штаб-квартира Яндекса «Красная Роза» (Льва Толстого, 16)

Что в программе:

-Как устроена аналитика Поиска
-В чём специфика аналитики доли и дистрибуции
-Как работает продуктовая аналитика YandexGPT
-Всё об аналитике срезов в Поиске
-Диагностика навыков и нетворкинг

Да, один из главных пойнтов встречи — диагностика навыков аналитики и математической статистики. Если пройдёте успешно — в течение двух лет сможем засчитать как техническую секцию собеседования в Яндекс.

Поиск с Нейро — первый и самый широко используемый сервис Яндекса. Наши аналитики развивают сложный и высоконагруженный сервис, который постоянно обновляется и нуждается в свежих идеях! Возможно, в ваших.

➡️ Регистрируйтесь на Welcome Time для аналитиков здесь

Читать полностью…

Анализ данных (Data analysis)

🖥 GPT-4 больше не будет доступен с завтрашнего дня.

Прощай, легенда.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📄 Sparrow интеллектуальный парсинг документов с помощью LLM. Этот проект сочетает компьютерное зрение и языковые модели для извлечения информации из счетов, банковских выписок и других сложных документов.

Инструмент имеет модульную архитектуру, позволяющую запускать pipelines как локально, так и в облаке через Hugging Face. Интересно, что Sparrow не просто распознает текст, а понимает семантику документов — система может извлекать конкретные поля по JSON-шаблону и даже обрабатывать многостраничные PDF с сохранением структуры.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Скайнет, который мы заслужили

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

Python: t.me/pythonl
Linux: t.me/linuxacademiya
Собеседования DS: t.me/machinelearning_interview
Нерйросети t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev
Haskell: t.me/haskell_tg
Физика: t.me/fizmat

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Анализ данных (Data analysis)

🔍 AgentOps — платформа для мониторинга AI-агентов. Проект предлагает готовые интеграции с популярными фреймворками вроде LangChain и AutoGen — достаточно добавить всего пару строк кода для подключения мониторинга.

Интересный момент: система умеет отслеживать не только ошибки, но и затраты на LLM-запросы, что особенно актуально для продакшн-сред.

🤖 GitHub

Читать полностью…

Анализ данных (Data analysis)

🧩 Rivet — визуальная среда для создания сложных AI-агентов. Этот проект предлагает необычный подход к работе с LLM: вместо написания цепочек промптов в коде, вы собираете их как ноды в визуальном редакторе.

Особенность инструмента возможность встраивать созданные графы прямо в ваше приложение через TypeScript-библиотеку. Это превращает его из просто IDE в инструмент для production-разработки.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Tina: Tiny Reasoning Models via LoRA — это работа, в которой показано, как можно эффективно обучить небольшие llm (1.5B параметров) для reasoning задач , с помощью 🔧 LoRA + RL.

🧪 Что сделали:
Разработчики взяли 1модель 5B параметров, дообучили её, используя LoRA-RL на качественно отобранных reasoning-задачах.

Потратили всего $9.

Получили +20% улучшения и 43% на бенчмарке AIME24.

✅ LoRA-RL > Full RL:
Дообучение через LoRA работает лучше, чем RL и гораздо дешевле.

Лучшие результаты модели совпадают не с пиками точности, а с моментами, когда модель меняет стиль ответа (формат/структуру), подстраиваясь под формат вознаграждения.

Модель обучается эффективно изменять структуру рассуждений, сохраняя своё "ядро знаний".

📌 Модели: https://huggingface.co/Tina-Yi
📌Сататья: https://arxiv.org/abs/2504.15777
📌Релиз: https://shangshangwang.notion.site/tina

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

✔️ OpenAI добавляет невидимые символы в инференс моделей o3 и o4-mini.

Платные подписчики ChatGPT получили доступ к обновлённым моделям o3 и o4-mini в середине апреля, но пользователи быстро заметили странности: в длинных текстах появляются невидимые Unicode-символы - "Неразрывные пробелы" (U+202F). Они выглядят как обычные пробелы, но обнаруживаются через специальные инструменты.

Стартап RumiAI проанализировал ситуацию и предположил, что это попытка добавить водяные знаки для отслеживания ИИ-генерации. Однако символы легко удалить через поиск-замену, что ставит под вопрос их эффективность. Альтернативная версия — модели просто переняли форматирование из обучающих данных, где неразрывные пробелы используются для предотвращения разрывов строк.

OpenAI пока не дала никаких комментариев о причинах появления непечатных символов в результатах генерации.
winbuzzer.com

✔️ CharacterAI запускает AvatarFX: генерация видео с ИИ.

CharacterAI представила AvatarFX — систему, которая превращает изображения в говорящие, поющие и эмоционирущие видео за пару кликов. Технология сочетает фотореализм, синхронизацию движений губ, тела и рук, а также поддержку длинных роликов.

Под капотом — модифицированная архитектура DiT с flow-based диффузионными моделями, которые обучаются на разнообразных данных: от реалистичных людей до анимированных объектов. От конкурентов систему отличает работа с готовыми изображениями (не только текстовыми описаниями), поддержка нескольких говорящих в кадре и стабильность анимации.
Первыми доступ к AvatarFX получат подписчики CAI+. Остальным придется подождать или записаться в лист ожидания.
blog.character.ai

✔️ Dia: открытая ИИ-модель для генерации речи с контролем над интонацией и невербальными элементами.

Два корейских студента без глубокого опыта в ИИ разработали Dia — модель для создания подкаст-диалогов, способную конкурировать с Google NotebookLM. Используя TPU от Google, они обучили модель на 1,6 млрд. параметров, которая позволяет настраивать тон голоса, добавлять паузы, смех и клонировать голоса.

Dia доступна на Hugging Face и GitHub, для запуска на ПК нужен GPU от 10 ГБ VRAM. В отличие от аналогов, Dia даёт пользователям контроль над сценарием: можно прописать реплики, выбрать «характер» говорящего или загрузить образец для клонирования. Короткое тестирование, проведенное редакцией TechCrunch показало, что Dia справляется с диалогами на любые темы, а качество голосов не уступает коммерческим решениям.
techcrunch.com

✔️ Physical Intelligence выпустила модель для робототехники π-0,5.

Physical Intelligence представила модель π0.5 — шаг к роботам, которые справляются с задачами в совершенно новых условиях. В отличие от предшественников, эта система на базе VLA обучалась на разнородных данных: от распознавания объектов до демо движений роботов. Это позволяет ей понимать не только как действовать, но и что именно делать в незнакомой среде — например, класть посуду в раковину, даже если раньше её не видела.

Модель анализирует семантику задачи, разбивает её на шаги и генерирует команды для моторных систем. π0.5 умеет реагировать и на голосовые команды разной детализации — от «убери посуду» до точечных указаний. В планах — улучшение автономного обучения и запросов помощи в сложных ситуациях.
physicalintelligence.company

✔️ Фильмы с ИИ смогут претендовать на «Оскар».

Академия киноискусств официально разрешила номинировать на «Оскар» фильмы, созданные с использованием ИИ. Как заявили организаторы, технологии генеративного ИИ не станут преимуществом или препятствием при оценке. Но теперь, чтобы голосовать в финале, члены Академии обязаны посмотреть все номинированные работы — это часть новых правил.

Несмотря на прогресс, споры вокруг ИИ не утихают. Актеры и сценаристы опасаются, что алгоритмы заменят их в создании сценариев или дубляжа. Хотя некоторые студии уже внедряют ИИ, аниматоры и режиссеры сомневаются: технологии пока не способны конкурировать с эмоциональной глубиной человеческой работы.
bbc.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Анализ данных (Data analysis)

🗣 Dia — это новаяоткрытая модель текст‑в‑речь от Nari Labs с 1.6 млрд параметров, способная генерировать полноценный диалог с богатой экспрессией.

Ключевые возможности:
- Ультра‑реалистичный диалог. Генерация согласованных реплик двух «говорящих» персонажей, помеченных тэгами [S1] и [S2] в одном тексте.

- Эмоции и тон. Можно задавать тональность и интонацию через акустический запрос (audio prompt), а также управлять «невербалкой»: смех, кашель, вздохи и т. д.

- Voice cloning. Клонирование голоса по короткому образцу: подгрузите аудио и его транскрипт, и модель адаптируется под заданный тембр
GitHub

Модель написана на Python (100 % кода) с использованием PyTorch 2.0 и CUDA 12.6

Производительность и требования:

Полная версия требует ≈10 GB VRAM; в будущем планируется квантование модели.

Установка и запуск:


pip install git+https://github.com/nari-labs/dia.git
git clone https://github.com/nari-labs/dia.git
cd dia
uv run app.py
# или python app.py

В интерфейсе Gradio сразу можно оценить разницу с ElevenLabs и Sesame CSM‑1B

Лицензия: Apache 2.0.

Dia отлично подходит для ML‑исследований в TTS: вы получаете открытые весовые файлы, гибкий API для скриптов и UI для быстрой проверки гипотез.

На данный момент Dia поддерживает генерацию речи только на английском языке

Demo
Github
HF

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Поступление в ШАД: даже одна попытка откроет путь к большим возможностям!

Попробовать поступить в Школу анализа данных Яндекса может каждый, кто увлечён Data Science: неважно, учитесь вы в вузе, работаете в IT или просто любите разбираться в сложном. Если вас тянет к задачам, над которыми ломают голову лучшие умы, — попробовать точно стоит!

В ШАДе вас ждёт не просто теория — здесь с первого дня погружаются в практику: осваивают сложные концепции машинного обучения, решают ИИ-задачи, которые вчера казались невозможными, и получают мощный буст для карьеры.

Создавать инновационные решения, продвигать науку, запускать стартапы или делиться опытом — всё это доступно выпускникам ШАДа! Если хотите стать одним из них, не теряйте времени — подайте заявку до 4 мая!

Классные плюшки: обучение бесплатное, а если в вашем городе нет филиала, заниматься можно онлайн. Не упустите шанс: попробуйте поступить и откройте перед собой новые горизонты!

Читать полностью…

Анализ данных (Data analysis)

В основе любого сильного проекта стоит сильный специалист.

В IT-мире сложно представить востребованного специалиста, который не разбирается в том, как работают: архитектура, API, базы данных, алгоритмы.

Без этого никуда.

И не страшно, если вы пока плохо разбираетесь в каких-то современных системах. Хуже, если продолжаете игнорировать свои пробелы в hard skills.

Начните с бесплатных уроков по архитектуре и интеграциям:

▪️мощный инструмент — SOAP UI
▪️подробное описание процесса загрузки сайта
▪️модель TCP/IP и устройства
▪️XML — это вам не ХSD

Присоединяйтесь в чат-боте по ссылке:
👇
@studyit_help_bot

🚀 Скидка на полный курс от канала — 1 000 ₽ на Stepik по промокоду DATAA до конца апреля

Читать полностью…

Анализ данных (Data analysis)

🦾 Исследователи NYU представили RUKA (да-да)

Это — открытый робот‑манипулятор с приводом на сухожилиях и 15 степенями свободы, стоимостью всего $1.3 тыс., который может работать 20 часов подряд без потери производительности.

Он обучается моделям «сустав–привод» и «кончик пальца–привод» на основе данных системы захвата движения.

🔜 Подробнее

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚨 Microsoft представила Phi-4 Reasoning — ризониг модель на 14B параметров для сложных задач!

📐 Phi-4 Reasoning — это версия Phi-4, дообученная для математики, науки и программирования. Несмотря на относительно компактный размер (14B параметров), она конкурирует с более крупными моделями, вроде DeepSeek-R1 и OpenAI o3-mini, на бенчмарках вроде AIME 2025 и OmniMath.

🔍 Ключевые моменты:
• 14B параметров
• версия Phi-4-Reasoning-Plus дообучена с Reinforcement Learning
• превосходит DeepSeek-R1-Distill-Llama-70B
• почти догоняет оригинальную DeepSeek-R1 (70B) по качеству

https://huggingface.co/collections/unsloth/phi-4-all-versions-677eecf93784e61afe762afa

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Microsoft: до 30 % кода уже пишет AI

На конференции LlamaCon CEO Microsoft Сатья Наделла объявил, что от 20 % до 30 % кода в репозиториях компании сегодня «написаны программным обеспечением», то есть с использованием искусственного интеллекта.

## Ключевые моменты

- Зависимость от языка. Лучшие результаты при генерации — на Python, более слабые — на C++.
- Интеграция на всех этапах. AI применяется не только для генерации чернового кода, но и для его ревью.
- Сравнение с конкурентами. Google уже сообщает о более 30 % AI-сгенерированного кода, Meta прогнозирует до 50 % при разработке своих языковых моделей.
- Долгосрочная перспектива. По прогнозам CTO Microsoft, к 2030 г. доля AI-генерируемого кода может вырасти до 95 %.
- Ограничения метрик. Пока не до конца ясно, что именно учитывается в «AI-коде» (автодополнение, шаблоны, бизнес-логика), поэтому цифры стоит воспринимать с осторожностью.

## Почему это важно

1. Ускорение разработки. Рутинные задачи автоматизируются, разработчики получают больше времени на архитектуру.
2. Новый уровень качества. Автоматическое ревью помогает быстрее находить ошибки, но требует строгой проверки.
3. Риски безопасности. Сгенерированный код нуждается в дополнительном анализе на уязвимости.
4. Эволюция ролей. Разработчики всё больше становятся архитекторами и аудиторами, а не «создателями» кода.

Читать полностью…

Анализ данных (Data analysis)

У DeepSeek на подходе новая версия (671B math/prover model), но это не R2

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Релиз Qwen 3 от Alibaba

В релиз вошли 2 MoE-модели и 6 Dense models (плотные модели), размером от 0.6B до 235B параметров.

🏆 Флагманская модель Qwen3-235B-A22B демонстрирует конкурентные результаты в задачах Кодина, математики и общих способностей, уверенно соперничая с передовыми моделями, такими как DeepSeek-R1, o1, o3-mini, Grok-3 и Gemini-2.5-Pro.
⚡ Небольшая MoE-модель Qwen3-30B-A3B превосходит QwQ-32B, испрльзуя в 10 раз больше параметров.
🔥 Компактная модель Qwen3-4B сопоставима по производительности с Qwen2.5-72B-Instruct.


🔜Blog: https://qwenlm.github.io/blog/qwen3/
🔜GitHub: https://github.com/QwenLM/Qwen3
🔜Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
🔜 ModelScope: https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@ai_machinelearning_big_data

#Qwen

Читать полностью…

Анализ данных (Data analysis)

🦉Модели Qwen 3 были опубликованы на ModelScope и затем были быстро удалены.



Теперь мы знаем параметры (0.6B / 1.7B / 4B / 8B / 30B-A3B / 238B ) и архитектуру.

> Tripled language coverage, новые архитектурные фишки и контекст до 32k — всё в одной серии моделей.

- 🔧 Новые техники: global-batch load balancing (MoE), qk layernorm, тонкая настройка гиперпараметров через scaling laws
- 🚀 Dens + Mixture-of-Experts линейка: разные размеры и режимы для любых задач
- 📈 Улучшена стабильность и качество выводов по сравнению с Qwen 2.5

🤖 Модель Qwen3-8B в цифрах
- Тип: causal language model
- Параметры всего: 8,2 B (6,95 B без эмбеддингов)
- Слои: 36
- Attention heads (GQA): 32 для Q и 8 для KV
- Контекстное окно: 32 768 токенов
- разработчикам — компактная, но мощная 8B-модель с длинным контекстом
- продвинутая MoE-архитектура
- это мультиязычная plug-and-play LLM и

https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧠 MaxKB — open-source ИИ-ассистент для бизнеса с RAG-движком. Это не просто чат-бот, а целая платформа для создания умных ассистентов на базе языковых моделей. Система умеет работать с документами, поддерживает сложные workflows и интеграцию через API.

Для своей работы инструмент использует комбинацию проверенных технологий: Django для бэкенда, LangChain для работы с LLM и pgvector для хранения эмбеддингов. Проект универсален, уже сейчас можно подключить как локальные модели, так и облачные.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

✔️ Google анонсировали Genie 2 — крупномасштабную «foundation»-модель мира, способную на лету порождать интерактивные 3D-окружения. Ключевые моменты:

📌 Что такое Genie 2
Это автрорегрессивная латентно-диффузионная модель, обученная на огромном видеодатасете. Получив всего одно изображение-подсказку (например, кадр, сгенерированный Imagen 3), Genie 2 разворачивает целый виртуальный мир, в котором можно свободно перемещаться клавиатурой и мышью — как человеку, так и ИИ-агенту. Длительность консистентного эпизода достигает минуты.

Зачем она нужна
Главный барьер в исследованиях «телесных» (embodied) агентов — ограниченный спектр тренировочных сред. Genie 2 снимает это ограничение: модель способна бесконечно генерировать новые ландшафты, объекты, физику и взаимодействия, создавая «безграничный учебник» для RL-агентов.

В работе демонстрируется связка с SIMA — многоцелевым агентом DeepMind: тот получает языковые инструкции («открой синюю дверь») и действует внутри миров, созданных Genie 2. Такое сочетание позволяет быстро генерировать unseen-задачи для оценки или дообучения агентов.

Архитектура вкратце

✔️ Видео-кадр → автоэнкодер → латент.

Большой трансформер предсказывает следующий латент, учитывая прошлые кадры и действие.

Диффузионный декодер
восстанавливает видимый кадр; classifier-free guidance повышает управление действием.
После дистилляции возможен real-time рендер с умеренным падением качества.

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Мечтаете не просто разбираться в управлении данными, а использовать уникальные инструменты для работы с Big Data? Научитесь этому на бесплатном студкемпе Яндекс Образования и ИТМО по дата-инженерии!

🧠 Программа — интенсивная, актуальная, от лидеров индустрии. С 30 июня по 12 июля вы погрузитесь в мир распределённых хранилищ, микросервисной архитектуры, DataOps/MLOps и пайплайнов для сбора, анализа и визуализации данных. А ещё познакомитесь с технологиями, которые используют в крупных компаниях. В общем, получите реальные навыки, которые ценят на рынке!

🏙 Кампус — в самом центре Санкт-Петербурга. Несмотря на то, что студкемп проходит на базе ИТМО, заявки ждут от студентов из любых вузов и регионов России. Проезд и проживание будут оплачены Яндекс Образованием, так что вам останется сосредоточиться на главном — знаниях, опыте и новых возможностях.

🕐 Регистрация — открыта до 4 мая, но подать заявку можно уже сейчас! Если давно хотели пообщаться с топовыми айтишниками и почувствовать, каково это — учиться в одном из ведущих технических вузов, не откладывайте и заполняйте анкету по ссылке.

Читать полностью…

Анализ данных (Data analysis)

Магистратура от VK и МФТИ — буст для вашей карьеры в ИИ- и ML-сферах

С первого семестра на программе «Искусственный интеллект и социальные медиа» — практика в VK AI и обучение на реальных кейсах у экспертов компании.

После сможете претендовать на вакансии ИИ-исследователей, ML- и NLP-инженеров, дата-аналитиков, разработчиков ПО, рекомендательных систем и поисковых технологий.

Сомневаетесь? Протестируйте направление на программе для абитуриентов от VK Education. Это 2,5 месяца интенсивной практики. Выпускники получат рекомендательные письма от VK в портфолио.

🔗 Больше о программе

Читать полностью…

Анализ данных (Data analysis)

📎 X-AnyLabeling — профессиональный инструмент для автоматической разметки данных с интегрированным ИИ. Он представляет собой расширенную версию популярного AnyLabeling, дополненного промышленными функциями для профессионального использования.

Проект поддерживает работу как с изображениями, так и с видеофайлами, включая сложные задачи трекинга объектов в потоковом режиме. Все благодаря встроенной интеграции с более чем 20 современными моделями компьютерного зрения, а также гибкой системе работы с форматами аннотаций, охватывающая все основные стандарты отрасли

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как повысить свои навыки в аналитике данных за 90 минут?

Прийти на бесплатный практический урок 28 апреля, где мы расскажем, как эффективно работать с данными с помощью Python и Pandas: как заполнять пропуски, устранять дубликаты и правильно работать с выбросами.

👥 Кому будет полезен вебинар?
- тем, кто только начинает свой путь в Data Science и хочет освоить базовые навыки
- тем, кто работает с данными в электронных таблицах, но хочет перейти на Python и Pandas
- тем, кто сталкивался с ошибками при анализе из-за «мусора» в данных
- тем, кто планирует изучать машинное обучение (ML), где чистота данных критически важна

📍 Зарегистрируйтесь и получите скидку на большое обучение «Специализация Machine Learning»: https://otus.pw/iYWj/?erid=2W5zFG4k8bA

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Анализ данных (Data analysis)

🔧 LMOps — исследовательская платформа Microsoft для работы с LLМ.

В данном проекте собраны ключевые разработки, включая Promptist и LLMA. Особый интерес представляет исследование in-context learning — авторы показали, что LLM неявно выполняют тонкую настройку через механизмы внимания.

Проект активно развивается: только за 2024 год вышло 6 статей на EMNLP с новыми методами retrieval-augmented generation и alignment.

🔗 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔮 Instill Core — универсальный инструмент для работы с неструктурированными данными.

Этот open-source проект предлагает комплексное решение для ETL-обработки, подготовки данных для ИИ и развертывания LLM-моделей. Платформа объединяет в единый workflow обработку документов, изображений и видео, что особенно ценно для RAG-сценариев и построения AI-пайплайнов.

Instill Core легко встраивается в существующие системы через Python/TypeScript SDK или CLI. Локальный запуск возможен через Docker, а готовые рецепты позволяют быстро развернуть парсинг PDF, веб-скрапинг или сегментацию изображений.

🔗 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 LLM Reasoners — это библиотека с открытым исходным кодом, разработанная для улучшения способности больших языковых моделей выполнять сложные рассуждения с использованием передовых алгоритмов! Она рассматривает многошаговые рассуждения как процесс планирования и поиска оптимальной цепочки рассуждений, достигая баланса между исследованием и эксплуатацией с помощью концепций "Мировой модели" и "Вознаграждения".

🔎 Основные особенности LLM Reasoners:

🌟 Современные алгоритмы рассуждений: Библиотека предлагает новейшие алгоритмы поиска для рассуждений с LLM, такие как Reasoner Agent, масштабирование на этапе вывода с помощью PRM, рассуждение через планирование, MCTS, Tree-of-Thoughts и другие.

🌟 Интуитивная визуализация и интерпретация: LLM Reasoners предоставляет инструменты визуализации, помогающие пользователям понимать процесс рассуждений. Даже для сложных алгоритмов, таких как Монте-Карло Tree Search, пользователи могут легко диагностировать и понимать процесс с помощью одной строки кода на Python.

🌟 Эффективные рассуждения с LLM: Библиотека оптимизирует производительность передовых методов рассуждений, интегрируя SGLang, высокопроизводительную инфраструктуру вывода LLM, поддерживающую структурированную генерацию. Также поддерживаются другие бэкенды LLM, такие как Huggingface Transformers, OpenAI API, Exllama, Fairscale, Llama.cpp и другие.

🌟 Строгая реализация и воспроизводимость: LLM Reasoners уделяет приоритетное внимание точности и надежности своих реализаций, обеспечивая, что алгоритмы не являются лишь теоретическими концепциями, а практически применимыми инструментами. Все методы тщательно разработаны, чтобы соответствовать их оригинальным формулировкам и производительности.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

✔️ Gemma 3 QAT — обновлённую версию своей модели Gemma 3, оптимизированную с помощью технологии Quantization-Aware Training (QAT).

Эта модификация позволяет запускать модель на видеокартах с ограниченными ресурсами, сохраняя при этом высокое качество генерации.​

🔍 Что нового в Gemma 3 QAT
QAT-оптимизация: Благодаря использованию Quantization-Aware Training модель требует меньше оперативной памяти, что делает её доступной для запуска на более широком спектре устройств.​

Поддержка BF16: Gemma 3 QAT использует формат BFloat16, обеспечивая высокую производительность при меньших требованиях к вычислительным ресурсам.​

Улучшенная доступность: Теперь разработчики могут использовать мощные возможности Gemma 3 на стандартных GPU, таких как NVIDIA H100, без необходимости в специализированном оборудовании.​

Эти улучшения делают Gemma 3 QAT привлекательным выбором для разработчиков, стремящихся интегрировать передовые возможности ИИ в свои приложения без значительных затрат на оборудование.​

Подробнее о релизе можно узнать в официальном блоге Google: https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/

@data_analysis_ml

Читать полностью…
Подписаться на канал