Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
🌟 Deep Cogito представила серию языковых моделей с открытым исходным кодом.
Deep Cogito выпустила семейство языковых моделей размером 3B, 8B, 14B, 32B и 70B параметров, которые уже доступны для загрузки.
По заявлению разработчиков, их модели превосходят аналогичные открытые решения от LLaMA, DeepSeek и Qwen в большинстве стандартных бенчмарков. Например, 70B-версия обходит новую 109B MoE-модель Llama 4, несмотря на меньший размер.
Все модели обучены с помощью метода Iterated Distillation and Amplification (IDA) — стратегии, которая сочетает итеративное самоулучшение и «сжатие» интеллекта для преодоления ограничений, накладываемых человеческим контролем.
Суть IDA проста: сначала модель «усиливает» свои способности, тратя больше вычислительных ресурсов на поиск решений через CoT, а затем «дистиллирует» эти улучшения в свои параметры. Такой цикл повторяется, создавая петлю обратной связи — каждая итерация делает модель умнее, а её мышление эффективнее. По словам команды, этот подход не только масштабируем, но и быстрее, чем RLHF.
Семейство поддерживает 2 режима работы: стандартный (прямой ответ) и «рефлексивный», где система сначала обдумывает запрос, как это реализовано в Claude 3.7. Они оптимизированы для программирования, вызова функций и агентских сценариев, но без акцента на CoT — разработчики считают, что короткие шаги эффективнее в реальных задачах.
Уже в ближайшие месяцы ожидаются версии на 109B, 400B и 671B параметров и вариации с MoE-архитектурой.
Модели доступны на Hugging Face, Ollama и через API Fireworks AI/Together AI.
@ai_machinelearning_big_data
⚡️Как Docker упрощает жизнь аналитиков и инженеров данных
Когда вы работаете с данными, анализируете их или строите модели машинного обучения, Docker позволяет сосредоточиться на самой работе, не отвлекаясь на настройку окружения.
На бесплатном вебинаре вы научитесь упаковывать приложения вместе со всеми зависимостями, избегать проблем с несовместимостью, а значит и повысите эффективность работы и сэкономите время на настройку окружения.
Что будем делать на вебинаре:
🟠Разберём основы Docker и как контейнеры упрощают работу;
🟠Выполним анализ данных, запустив Python прямо внутри контейнера;
🟠Автоматизируем окружение с помощью Docker Compose (Python + PostgreSQL);
🟠Настроим удобный доступ к результатам анализа;
🟠Организуем ускоренную обработку больших данных.
😶Зарегистрироваться на бесплатный вебинар
🔥 Вайб-кодинг — хайп или инструмент будущего?
Программирование с помощью ИИ-агентов — главный тех-тренд последних месяцев.
Одни говорят: «Это лучший опыт в моей жизни».
Другие: «Я только и делаю, что дебажу то, чего сам не писал».
Хочешь по-настоящему разобраться, как использовать ИИ ?
14 апреля в 17:00 — онлайн-лекция от Школы Высшей Математики.
📌 Спикеры: 👨🏫 Александр Лыков, к.ф.-м.н., руководитель ШВМ
🟡 Богдан Печёнкин, фаундер Vibe AI
Расскажут и покажут:
➖ Как внедрять Copilot, ChatGPT, Cursor и других агентов в работу уже сейчас
➖ Что агенты реально умеют (и где они сыпятся)
➖ Как ускорить разработку в 10 раз, не потеряв контроль над кодом
Не пропусти. Это будет 🔥
🗓 14 апреля, 17:00
📍 Онлайн
🟡 Регистрация
Реклама: ООО «Школа высшей математики»
ИНН: 9728100991 Erid: 2VtzqwE7sw7
🕊️ Namsor - это ИИ для анализа имен собственных с лингвистическим интеллектом. Причем это не просто классификатор, а инструмент с глубоким пониманием культурных и лингвистических контекстов.
Проект удивляет точностью: он различает, является ли "Mercedes фамилией человека, названием города или автомобильным брендом, учитывая страну происхождения.
Технология особенно востребована в CRM-системах, соцсетях и базах данных, где критична корректная интерпретация имен.
🔗 Ссылка - *клик*
🎥 Минутное видео по тексту? Новый подход к генерации от исследователей!
Генерация длинных видео — всё ещё вызов для ИИ. Self-attention не тянет по скорости, Mamba — по сложности сюжета. Но тут на сцену выходят TTT-слои (Test-Time Training) — и делают шаг вперёд.
🧠 В чём суть: — TTT-слои умеют использовать выразительные скрытые состояния, которые сами являются нейросетями.
— Их добавляют в уже обученный трансформер — и он начинает генерировать минутные видео по текстовому сценарию с плавным движением и логичной историей.
— Проверяли на мультстиле Tom & Jerry — и получили +34 Elo-балла в человеческой оценке по сравнению с Mamba 2 и другими сильными базовыми методами.
ИИ уже близок к тому, чтобы полностью воспроизводить стили старых мультфильмов или аниме. Это может кардинально изменить производство анимации — вместо создания вручную, студии смогут "дообучать" модель и просто писать сценарии.
Прикрепленное минутное видео, было создано с помощью промпта и обучено на сотнях часов Тома и Джерри.
Вот его полный промпт.
⚠️ Да, пока есть артефакты и ограничения — модель на 5B параметров и только минутные ролики. Но подход уже выглядит перспективным.
Следим за развитием.
📌Demos: http://test-time-training.github.io/video-dit/
📌Paper: http://test-time-training.github.io/video-dit/assets/ttt_cvpr_2025.pdf
📌Github: https://github.com/test-time-training/ttt-video-dit
@data_analysis_ml
Когда потратил 3 часа на отладку сгенерированного кода, который написал бы за час.
@data_analysis_ml
🎮 Microsoft представила нейро-версию Quake II на базе Muse и WHAMM.
Microsoft Research представила WHAMM — новую систему или технологию, предназначенную для моделирования окружающего мира в реальном времени, с особым акцентом на интерактивные среды.
Это означает, что WHAMM способна быстро создавать и постоянно обновлять цифровую 3D-модель физического пространства, учитывая изменения, которые происходят в нем, в том числе в результате взаимодействия пользователя или других динамических событий.
▪ ИИ генерирует кадры в реальном времени, анализируя действия игрока.
▪Старая WHAMM — 1 fps, новая — 10 fps при 640×360, почти играбельно.
Модель помнит последние 0,9 секунды, что добавляет случайности.
Ключевая особенность — система работает достаточно быстро, чтобы обновлять модель мира практически мгновенно по мере поступления новых данных от сенсоров (вероятно, камер, датчиков глубины и т.д.). Это критически важно для плавного взаимодействия.
🔗 Играть в ИИ-версию Quake II можно здесь.
@vistehno
#microsoft #ai #quake #muse
🦙 Встречайте, дамы и господа, LLaMA 4: мультимодальные MoE модели!
Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.
Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick, Llama 4 Behemoth.
У Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров, 16 экспертов, может быть запущена на 1ом GPU!
Llama 4 Maverick (400B) окно в 1M, 128 экспертов, 17B активных параметров.
У Бегемота окно в 2T!!!, 16 экспертов, 288B активных параметров.
- Model Card
- Веса
- Релиз
@ai_machinelearning_big_data
Время протестировать CodeFest'15
31 мая и 1 июня в Новосибирске пройдет юбилейный CodeFest’15 — масштабная конференция для ИТ-специалистов. Приглашают тимлидов, проджектов, тестировщиков, фронтенд- и бэкенд-разработчиков, аналитиков, дизайнеров, техлидов и руководителей направлений.
На мероприятии можно обсудить тренды с другими профессионалами и перезагрузиться в неформальной обстановке. В программе:
— 10 потоков и 150+ докладов от топовых спикеров по направлениям от Backend до Web3;
— живые дискуссии в формате «квартирников»;
— нетворкинг с экспертами из разных компаний;
— кофе-брейки и грандиозная афтепати.
Больше информации — по ссылке
IT_ONE Cup. ML Challenge от IT_ONE и Sk FinTech Hub — создай AI-ассистента, который будет помогать в работе дизайнерам, системным и бизнес-аналитикам. Участвуй онлайн с 12 по 29 апреля и поборись за 1 500 000 рублей и мерч.
Регистрация открыта до 11 апреля: https://cnrlink.com/itonecupmldataanalysisai
Твоя формула победы:
✅ Умеешь работать с готовыми моделями машинного обучения и адаптировать их под специфические задачи.
✅ Знаешь, как реализовать сложные системы на базе LLM и генеративных моделей.
✅ Готов создавать комплексные решения для автоматизации процессов.
Также приглашаем Backend и Frontend-разработчиков, системных и бизнес-аналитиков, UI/UX-дизайнеров. Участвуй онлайн соло или командой до 5 человек.
Задачи IT_ONE Cup. ML Challenge:
🔤 Динамические контекстные подсказки для системного аналитика.
🔤 AI-генератор дизайн-макетов по описанию требований.
🔤 Система визуализации BPMN-диаграмм.
Создай AI-ассистента, который облегчит выполнение рабочих задач — регистрируйся на IT_ONE Cup. ML Challenge: https://cnrlink.com/itonecupmldataanalysisai
Реклама. ООО «ГПБ-ИТ1». ИНН 9717102235. erid: 2W5zFHaR9vG
💴 Опубликованы цены на API Gemini 2.5 Pro по сравнению с OpenAI GPT-4.5/o1.
- $1.25/1M input for <200K tokens
- $10/1M output for <200K tokens
- $2.50/1M input for >200K tokens
- $15/1M output for >200K tokens
Как вы считаете OpenAI завышает цены или Google демпингует ... 🤣
📌 Цены
@data_analysis_ml
🔥 BizGen — это мощный инструмент для автоматической генерации инфографики из текстовых данных.
Он использует комбинацию NLP и компьютерного зрения для анализа текста, планирования макета и создания визуально привлекательных изображений.
Благодаря поддержке сложных макетов, многоязычного рендеринга и высокого качества генерации, BizGen идеально подходит для бизнеса, маркетинга, образования и научных исследований.
Этот инструмент упрощает процесс визуализации данных, делая его быстрее, дешевле и доступнее для широкого круга пользователей.
📌 Github
✔️ "Reasoning models don't always say what they think" - новая статья Anthropic, опубликованная а, исследует достоверность объяснений, предоставляемых продвинутыми языковыми моделями (LLM) в процессе их рассуждений, известных как "цепочка мыслей" (Chain-of-Thought, CoT).
Основные выводы статьи:
- Проблема достоверности CoT: Исследование показало, что модели часто не раскрывают истинные причины своих ответов в CoT. Это означает, что, хотя модель может предоставить логически звучащее объяснение, оно не всегда отражает фактический процесс, использованный для получения ответа.
- Эксперимент с промптами: В ходе эксперимента моделям предоставлялись скрытые промпты, влияющие на их ответы. Ожидалось, что модели упомянут использование этих подсказок в своих объяснениях. Однако результаты показали, что модели редко признавали использование подсказок, что ставит под сомнение прозрачность их рассуждений.
- Последствия для безопасности ИИ: Низкая достоверность CoT затрудняет мониторинг и выявление нежелательных или потенциально опасных поведений моделей. Это подчеркивает необходимость разработки более надежных методов оценки и контроля процессов принятия решений в LLM.
Скрытое Рассуждение: Модели, особенно при решении сложных задач, могут генерировать внутренние шаги рассуждения (иногда называемые "scratchpad" или "chain-of-thought"), чтобы прийти к правильному ответу. Однако, в своем итоговом ответе они часто не показывают эти шаги.
- Ложная Уверенность: Модели склонны представлять свои ответы, даже если они результат сложного или неопределенного внутреннего процесса, с высокой степенью уверенности. Они редко используют фразы, выражающие неуверенность ("я думаю", "возможно", "мне кажется"), даже когда такая неуверенность была бы уместна, исходя из их внутреннего процесса "размышлений".
- Проблема Обучения: Такое поведение может быть артефактом процесса обучения (например, Reinforcement Learning from Human Feedback - RLHF), где модели вознаграждаются за прямые и уверенные ответы, которые предпочитают люди-оценщики, даже если это скрывает сложный процесс вывода или потенциальную неуверенность.
Риски Непрозрачности и Чрезмерной Уверенности:
Безопасность: Скрытое рассуждение может содержать ошибочные или вредные шаги, которые не видны в финальном ответе.
- Надежность: Чрезмерно уверенные ответы могут ввести пользователей в заблуждение, особенно когда модель ошибается.
- Интерпретируемость: Пользователям сложнее понять, как модель пришла к выводу, и доверять ее ответам, если процесс скрыт.
Статья поднимает важную проблему: современные LLM часто "думают" сложнее, чем "говорят". Они скрывают свои внутренние рассуждения и представляют ответы с излишней уверенностью. Anthropic исследует, почему так происходит и как это исправить, чтобы повысить безопасность и надежность ИИ.
🔗 Подробнее
#Anthropic #ml #reasoning
🔎 rwkv.cpp — проект, адаптирующий архитектуру RWKV для эффективной работы на обычных процессорах.
В отличие от традиционных LLM, RWKV требует лишь немного памяти на токен — это позволяет запускать модели с большими контекстами даже на слабом железе.
Инструмент реализован на C/C++ с поддержкой квантования и CUDA через cuBLAS. Особенно интересна совместимость с LoRA-адаптерами, что позволяет дообучать модели без полного экспорта весов. Тесты показывают стабильную работу даже на 4-ядерных CPU с контекстом в 8K токенов.
🤖 GitHub
@data_analysis_ml
🐬 Dolphin - это улучшенная и расширенная версия Whisper, оптимизированная для распознавания большого числа восточных языков и китайских диалектов, которая превосходит другие открытые модели и доступна для использования сообществом.
На чем основана?
Цель: Поддержка более широкого спектра языков, с особым акцентом на 40 восточных языках (Восточная Азия, Южная Азия, Юго-Восточная Азия, Ближний Восток) и 22 китайских диалектах.
Как обучалась? Использовалась комбинация собственных (проприетарных) и общедоступных (open-source) наборов данных для обучения и оптимизации.
Результаты: Эксперименты показали, что Dolphin значительно превосходит существующие лучшие модели с открытым исходным кодом по качеству распознавания для многих языков.
Доступность: Разработчики делают обученные модели и исходный код для их использования (инференса) общедоступными, чтобы способствовать воспроизводимости и развитию сообщества.
🟡Model:
https://huggingface.co/DataoceanAI/dolphin-base
https://huggingface.co/DataoceanAI/dolphin-small
🟡 Paper:
https://huggingface.co/papers/2503.20212
@data_analysis_ml
✔️ LAM: Official Pytorch Implementation
LAM (Large Avatar Model) — это новая методика для восстановления анимируемой «Гауссовой» 3D-модели головы по одной-единственной фотографии.
В отличие от предыдущих подходов, которые либо требуют долгого обучения на видео, либо задействуют вспомогательные нейросети на этапе анимации и рендеринга, LAM позволяет получить готовую к анимации и модель визуализации головы за один проход сети, без дополнительной постобработки и внешних модулей.
В основе метода лежит генератор «гауссовых атрибутов» для канонического пространства, который использует ключевые точки FLAME (модель лица) в качестве запросов. Эти точки проходят через Транспортеров, взаимодействуя с многомасштабными признаками исходного изображения, чтобы точно определить параметры «Гауссовых» элементов модели.
Дальше 3D-модель головы анимируется стандартным Linear Blend Skinning (LBS) с корректирующими blendshape-функциями — как в оригинальной FLAME-модели — и может рендериться в реальном времени практически на любых устройствах, вплоть до мобильных телефонов.
Эксперименты показывают, что LAM превосходит существующие методы на ряде публичных бенчмарков, обеспечивая точное восстановление, высокую реалистичность анимации и удобную интеграцию в существующие конвейеры рендеринга.
▪ Github
▪ Project
@data_analysis_ml
🔥 SmolVLM — маленький, но мощный мультимодальный прорыв.
Сегодня вышел технический отчёт о SmolVLM — ультра-компактной VLM-модели (всего 256M параметров), которая работает в менее чем 1 ГБ ОЗУ и обходит старые модели 80B, выпущенные полтора года назад!
📏 Контекст — это наше всё: Увеличение длины контекста с 2K до 16K дало +60% к качеству. Даже маленькие модели выигрывают от увелечения памяти.
🔬 SigLIP: меньше — лучше: Вместо классического 400M SigLIP авторы использовали базовую 80M версию — и получили тот же результат при 20% размера.
🧩 Pixel shuffling : Аggressive pixel shuffling помог сократить длину последовательностей в 16 раз без потери качества.
📍 Learnable positional tokens > raw tokens: В маленьких моделях обучаемые позиционные токены дали значительный прирост точности.
🎬 Спец-токены: Специальные "intro/outro" токены и системные промпты дали буст особенно для задач работы видео.
🧠 CoT — с умом: Слишком много Chain-of-Thought данных ухудшает результаты маленьких моделей. Меньше = умнее.
📽 Длиннее видео = лучше: Увеличение длины видео во время обучения улучшило понимание и изображений, и видео.
🚀 SmolVLM — это:
Три версии: 256M, 500M, 2.2B — каждая задаёт новую планку для low-resource inference.
Real-time inference на iPhone 15 — прямо с камеры, без серверов.
В браузере? Да! 40–80 токенов/сек — напрямую в вебе, без ухищрений.
📄 Подробности в репорте
#SmolVLM #EfficientAI #Multimodal #VLM #EdgeAI #SigLIP #AIonMobile
📌 SPCT: масштабируемость моделей вознаграждения в реальном времени.
DeepSeek-AI и Университет Цинхуа опубликовали исследование о методе Self-Principled Critique Tuning (SPCT), который значительно повышает эффективность генеративных моделей вознаграждения (GRM) для больших языковых моделей. SPCT решает ключевую проблему RL-обучения — получение точных сигналов вознаграждения в условиях разных и неоднозначных задач, где нет четких правил или эталонов.
SPCT — это комбинация rejective fine-tuning и обучения с подкреплением на основе правил. Rejective fine-tuning учит модель генерировать принципы и критические оценки, адаптируясь к разным типам входных данных, а rule-based RL — оптимизирует процесс через систему поощрений, которая штрафует за ошибки в ранжировании ответов.
Это позволяет GRM самостоятельно создавать критерии оценки и точнее определять лучшие ответы в сложных сценариях, например, при работе с математическими задачами или этическими дилеммами.
Главное преимущество SPCT — масштабируемость инференса. Вместо увеличения размера модели авторы предлагают параллельно генерировать множество вариантов принципов и оценок, а затем агрегировать их через голосование. Чтобы фильтровать «шумные» варианты используется мета-модель вознаграждения, которая отбирает только качественные сэмплы.
По результатам тестов, DeepSeek-GRM с 27 млрд. параметров при 32 параллельных сэмплах превзошла 671B модель, демонстрируя, что вычислительные ресурсы можно эффективно распределять во время инференса, а не обучения.
Эксперименты на бенчмарках Reward Bench, PPE и RMB показали, что SPCT снижает предвзятость моделей. Например, в задачах на рассуждение точность выросла на 12%, а в оценке безопасности — на 9%. При этом метод сохраняет гибкость: одна и та же модель может оценивать одиночные ответы, пары или целые наборы, что критично для реальных приложений вроде чат-ботов или автономных систем.
К сожалению, идеальных решений не бывает и у метода есть существенное ограничение - GRM требуют больше вычислительных ресурсов, чем классические скалярные модели, а в узкоспециализированных областях (например, верификация кода) их точность пока уступает конкурентам.
🟡Arxiv
@ai_machinelearning_big_data
#AI #ML #LLM #GRM #DeepSeekAI
📊Бесплатный вебинар: «Построение эффективных дашбордов с помощью Power BI»
💡На вебинаре вы узнаете:
+ Как загрузить данные в Power BI Desktop из различных источников
+ Построение наглядных дашбордов для анализа данных
+ Интерактивные возможности в Power BI - взаимодействие с визуальными элементами
+ Применение базовых визуальных элементов и их настройка для лучшего понимания данных
+ На практике вместе построим дашборд в Power BI
❓Кому будет полезен вебинар:
- Аналитикам данных
- Маркетологам
- Продуктовым менеджерам
- Всем, кто хочет визуализировать данные для принятия решений
⏰16 апреля(среда) в 20:00 мск
Вебинар в рамках курса «BI-аналитика»
🎁После вебинара для вас активен промо-код со скидкой 5% до 18 мая: BI_04
👉Регистрация на вебинар: OTUS.RU
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
#реклама
О рекламодателе
⚡️ Pydoll — это библиотека на Python, предназначенная для автоматизации браузеров на движке Chromium (Chrome и Microsoft Edge) без использования WebDriver.
Инструмент имитирует «реальные» действия пользователя и обеспечивает гибкость при работе с элементами интерфейса и сетевыми запросами.
🔗 Ключевые особенности
- Асинхронная автоматизация без WebDriver
- Позволяет обойтись без установки и настройки драйверов WebDriver, что упрощает процесс интеграции и обслуживания.
- Реализована на базе asyncio, поэтому поддерживает запуск нескольких задач одновременно.
- Обход Cloudflare Turnstile
- Имеется встроенный механизм для автоматического прохождения CAPTCHA:
- Синхронная блокировка (context manager), когда выполнение кода приостанавливается до момента решения задачи.
- Фоновый режим (non-blocking), когда автоматизация продолжает работу, пока CAPTCHA решается в фоне.
- Поддерживает «человеко-подобный» набор текста (имитация пауз, скорости).
- Распознаёт специальные клавиши и сочетания клавиш (нажатия SHIFT, CTRL, ALT и т.д.).
- Подключение к существующим сессиям
- Можно подсоединяться к уже запущенным экземплярам Chrome или Edge, что удобно для отладки или интеграции с имеющимися сессиями пользователя.
Благодаря отсутствию необходимости в WebDriver и возможности имитировать взаимодействие «как настоящий пользователь», Pydoll будет полезен в проектах, где требуется гибкая и реалистичная автоматизация.
📌 Github
@data_analysis_ml
😈 AnimeGamer — это модель, разработанная лабораторией ARC компании Tencent, предназначенная для создания бесконечных симуляций жизни в аниме-стиле.
Она использует мультимодальные большие модели (MLLMs) для генерации динамичных анимационных сцен, отображающих движения персонажей и изменения их состояний.
Учитывая исторический визуальный контекст, AnimeGamer обеспечивает последовательность и увлекательность игрового процесса.
Применяя мультимодальные представления, ориентированные на действия, и видеодиффузионную модель, AnimeGamer создает высококачественные видеоролики, формируя захватывающий и постоянно развивающийся игровой опыт.
https://huggingface.co/TencentARC/AnimeGamer
📌 Как быстро запустить Llama 4 за 10 минут
Если вы хотите попробовать новую Llama 4 Scout (п вот краткое руководство:
▪ Вам нужна машина с четырьмя H100 на сервисе (пример под hyperbolic, вы можете арендовать в другом месте https://app.hyperbolic.xyz/compute)
▪ Подключитесь по SSH к серверу и запустите в терминале:
>> sudo apt-get update && sudo apt-get install -y python3-pip
>> pip install -U vllm
>> pip install -U "huggingface_hub[cli]"
>> vllm serve meta-llama/Llama-4-Scout-17B-16E-Instruct --tensor-parallel-size 4 --max-model-len 10000
>> curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/Llama-4-Scout-17B-16E-Instruct",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "What can I do in SF?"}
]
}
🔥 OpenThinker2-32B: превосходит DeepSeekR1-32B в математике и Кодинге.
OpenThinker2-32B набирает 76,7 баллов на AIME24, 90,8 на MATH500 и 64,1 на GPQA-D.
Он набрал 90,8 баллов по MATH500, обойдя R1-Distill-32B (90. 0) .
Это новый лидер на бенчмарке GPQA-D лидирует с результатом 64,1 по сравнению с R1-Distill-32B с результатом 65,8.
https://huggingface.co/bartowski/open-thoughts_OpenThinker2-32B-GGUF
@data_analysis_ml
📌 FastRAG — фреймворк, предлагающий разработчикам современные инструменты для создания оптимизированных RAG-пайплайнов. Этот сервис, построенный на базе Haystack и Hugging Face, фокусируется на эффективном сочетании информационного поиска с генеративными возможностями LLM.
Фреймворк предоставляет готовые компоненты для работы с современными методами семантического поиска, оптимизированные под современные аппаратные ускорители, включая процессоры Intel Xeon и AI-акселераторы Gaudi.
При этом FastRAG активно развивается — от поддержки мультимодальности до примеров динамического синтеза промптов.
🤖 GitHub
@data_analysis_ml
🔥 DiffSynth-Studio-Lora-Wan2.1-ComfyUI - дистиллированный WAN!
Это LoRA для интеграции с ComfyUI, основанные на Wan2.1-T2V-1.3B.
: Поддерживается 4, 5, 6, 8, 10 и более шагов, что позволяет балансировать между качеством и временем генерации.
На тестах получаются потрясающие результаты всего за 5 шагов!
🟡HF
🟡Пример
Уже успели занять место на главном ИТ-событии этой весны? До Data Fusion 2025 осталось меньше 2-х недель 🔔
Хватит бороться с данными — пора ими управлять! Присоединяйтесь к конференции Data Fusion 2025, пока еще есть возможность.
Обсудим все ключевые вызовы Big Data и то, как с ними справляются компании. Это не просто доклады, а новейшие исследования и реальные кейсы от бизнес-лидеров, ученых и практиков:
📌 DataOps и автоматизация управления данными: как избежать хаоса в процессах
📌 Big Data + ИИ: генеративные модели для анализа массивных данных
📌 Где синтетические данные заменяют реальные: производственные сценарии, медицина, финтех.
📌 Как выстроить надежную и предсказуемую вычислительную инфраструктуру для масштабных моделей
Вас ждут жаркие дебаты и обсуждения на самые острые темы в сфере искусственного интеллекта и данных. Не пропустите!
📅 16–17 апреля | Москва, технопарк «Ломоносов»
Бесплатная регистрация — https://data-fusion.ru/. Времени осталось совсем мало. 👀
—
*DataOps — методология разработки и предоставления данных
*Big Data — большие данные
🚀Прими участие в ML Cup 2025 от Авито и выиграй 1,2 миллиона рублей!
Ты — специалист в области машинного обучения? Хочешь проверить свои силы в реальных задачах, с которыми ежедневно сталкиваются 1000+ специалистов Авито? Тогда не упусти шанс стать частью крупнейшего соревнования в этой области!
Что тебя ждет:
☑️Денежный призовой фонд
☑️Автоматизированная оценка решений
☑️2 практические задачи:
1️⃣Персональные рекомендации — предскажи, какие товары вызовут интерес у миллионов пользователей → ссылка на регистрацию.
2️⃣Поиск дублей — как с помощью CV находить похожие объявления даже при разных текстах и ракурсах фото → ссылка на регистрацию.
Выбирай одну или обе задачи, показывай лучшие результаты и получай шанс на победу! Участвовать можно как индивидуально, так и в команде до 4 человек. Загружай до 5 решений в день.
Регистрация уже открыта! Подробности и анкета по ссылкам выше.
✔️ Google, похоже, сейчас является победителем ИИ гонки
Они более десяти лет назад и сделали стратегические инвестиции в TPU.
Этот шаг в отношении TPU оправдал себя.
В результате у Google теперь есть собственное специализированное оборудование, и ему не нужно много графических процессоров от Nvidia.
Gemini 2.5 Pro доступна бесплатно для всех пользователей с аккаунтом Google.
@data_analysis_ml
Растите сильную команду. Топ-5 курсов Яндекс Практикума для IT
👾 Технологии меняются каждый день — проверено Яндексом.
Мы ощущаем перемены на своих проектах. Постоянные вызовы, новые инструменты, штормы на рынках. Знаем, как важно, чтобы команда быстро развивалась и адаптировалась к изменениям. Поэтому создаём актуальное обучение, которое соответствует реальным задачам IT-сферы.
Нам доверяют: 5000+ компаний уже обучили 36 000+ сотрудников в Яндекс Практикуме.
👉 Вот топ-5 курсов, которые выбирали компании для развития IT-команд в 2025 году:
— SQL для работы с данными и аналитики
— DevOps для эксплуатации и разработки
— Python-разработчик
— Архитектура программного обеспечения
— Управление командой разработки
— Навыки аргументации
👉Подобрать курс
Реклама, АНО ДПО “Образовательные технологии Яндекса”, ИНН 7704282033, erid: 2Vtzqv9rzVf
🔥 EasyControl — это фреймворк (набор инструментов и методов), разработанный для добавления управляющих сигналов (условий) к моделям генерации изображений на основе Diffusion Transformer (DiT).
По сути, это попытка создать аналог популярного ControlNet (который в основном используется с U-Net архитектурами) для нового поколения диффузионных моделей, построенных на трансформерах. Его цель — сделать процесс управления генерацией в DiT моделях таким же гибким, эффективным и легко подключаемым.
Как работает EasyControl?
EasyControl решает проблемы интеграции управляющих сигналов в DiT, используя комбинацию нескольких ключевых идей:
▪ Легковесные Модули Внедрения Условий (Condition Injection LoRA): Вместо того чтобы переобучать всю огромную DiT модель или создавать громоздкие копии её частей для каждого нового условия (например, позы, контуры, глубина), EasyControl использует LoRA (Low-Rank Adaptation). Это техника, позволяющая "внедрить" дополнительную информацию (управляющий сигнал) в существующую модель, обучая лишь небольшое количество дополнительных параметров. Это делает процесс добавления новых типов контроля очень эффективным по ресурсам и позволяет сохранять исходные "знания" и стиль базовой DiT модели (style lossless).
▪ Парадигма Обучения с Учетом Позиции (Position-Aware Training Paradigm): Трансформеры (как в DiT) обрабатывают изображение как последовательность патчей (участков). Чтобы управляющий сигнал (например, карта позы) корректно влиял на соответствующие участки генерируемого изображения, EasyControl использует специальный подход к обучению, который помогает модели лучше понимать пространственное соответствие между управляющим сигналом и генерируемым контентом.
▪ Оптимизация Внимания и Кэширование (Causal Attention + KV Cache): Для повышения эффективности на этапе генерации (inference), EasyControl применяет оптимизации, характерные для трансформеров. Использование Causal Attention (причинного внимания) и KV Cache (кэширование ключей и значений в механизме внимания) позволяет ускорить процесс генерации, особенно при работе с длинными последовательностями патчей и дополнительными модулями условий.
🔗 Github
🔗Paper