data_analysis_ml | Неотсортированное

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Подписаться на канал

Анализ данных (Data analysis)

⚙️ Rig — современная Rust-библиотека для работы с LLM, предлагающая унифицированный интерфейс для разных провайдеров ИИ. Проект выделяется акцентом на модульность и эргономику, позволяя интегрировать языковые модели в приложения с минимальным бойлерплейтом.

Инструмент уже используют в продакшене такие проекты, как Dria Compute Node и Linera Protocol. Библиотека поддерживает не только чат-модели вроде GPT-4, но и векторные базы данных, включая MongoDB и LanceDB.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🛠️ Вышел Public Roadmap для Gemini CLI — команды хотят создать мощного, open-source Coding Agent, ориентированного на сообщество.

Проект развивается сразу по 4 ключевым направлениям:

1. Extensible
CLI должен быть легко расширяемым под любые среды и сценарии: кастомные slash-команды, удалённые протоколы, запуск .gemini.md файлов с пользовательскими тулзами.

2. Everywhere
Агент можно запускать как фоновый процесс в разных окружениях: локально, в контейнерах, GitHub Actions, облаке. Поддерживается делегирование задач субагентам.

3. Intelligent
Фокус на качестве моделей и инструментов. Цель — попасть в топ по метрикам вроде SWE Bench. Все критические баги (P0) будут закрыты до релиза версии 1.0.

4. Open Source
Проект строится в диалоге с сообществом: быстрое реагирование на ишью и PR’ы, минимальный бэклог и удобные процессы участия.

🔄 Workstreams уже распределены:
- Качество модели (улучшение рассуждений, устранение повторов)
- Производительность (кеширование, умная маршрутизация моделей)
- Расширяемость (агенты в фоне, деплой в облако)
- Автоматизация сообщества (улучшение dev-флоу)

📌 Если хочешь участвовать в разработке следующего поколения AI-инструментов для кодинга — сейчас самое время подключиться к Gemini CLI.

https://github.com/google-gemini/gemini-cli/discussions/4226

Читать полностью…

Анализ данных (Data analysis)

⚡️ Klavis AI — открытая платформа для интеграции MCP в AI-приложения. Проект предлагает готовые решения для работы с популярными сервисами вроде YouTube, Gmail и GitHub через единый API, избавляя разработчиков от необходимости писать клиентский код для каждого сервиса.

Инструмент имеет поддержку мультиплатформенных сценариев. Klavis позволяет одновременно использовать инструменты разных сервисов через единый интерфейс. Есть возможность как облачного использования, так и self-hosted развертывания.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Бывший сотрудник OpenAI поделился откровенными впечатлениями о годе работы внутри одной из самых обсуждаемых компаний мира.

Он присоединился к команде в мае 2024, ушёл три недели назад — и решил написать личные размышления, пока всё ещё свежо в памяти.

Он подчёркивает:
никаких скандалов или внутренних конфликтов — просто желание снова что-то строить с нуля. Несмотря на это, он признаёт: сложно уйти с работы, где ты видишь рождение AGI своими глазами и участвуешь в запуске Codex.

Культура OpenAI — это хаос, скорость и независимость.

Компания за год выросла с 1000 до более чем 3000 сотрудников. Почти все руководители делают совершенно другую работу, чем пару лет назад. И всё внутри строится снизу вверх: roadmap’ов не было, а идеи рождались и запускались без бюрократии.

Всё общение происходит в Slack — никаких email, почти никакого планирования. Команды могут быть хаотичны и перегружены, но часто это работает: если идея крутая, люди просто начинают делать, и вокруг появляется команда.

Руководители не мешают, а помогают — особенно в исследовательских командах. Исследователь воспринимается как мини-руководитель: выбрал интересную задачу — вперёд. Главное — не «казаться», а «делать». Политика и презентации — не в цене. Лучшие идеи побеждают.

OpenAI умеет разворачиваться на ходу. Как только появляется новая информация, стратегия может кардинально поменяться — и в этом сила. Вдохновлённый атмосферой Segment, автор признаёт: OpenAI удалось сохранить эту гибкость даже при таком масштабе.

Закрытость — часть культуры.
Из-за огромного внимания общества и прессы компания крайне аккуратно делится информацией. Многое не анонсируется даже внутри. Но при этом она остаётся самой открытой из «больших AI-лабораторий»: модели попадают в API, доступны не только корпорациям, но и отдельным пользователям.

Внимание к реальным рискам (злоупотребления, манипуляции, self-harm) — важный фокус внутри. Хоть фундаментальные угрозы (в духе "intelligence explosion") тоже обсуждаются, упор в работе на конкретные и прикладные сценарии.

Технологически OpenAI — монорепозиторий на Python, немного Rust и Go. Всё крутится на Azure, но доверяют только 2–3 сервисам. Инфраструктура напоминает ранний Facebook: всё движется быстро, дублируется, много внутренней разработки и отсутствие строгих архитектурных комитетов.

Он отдельно отметил уникальность команды Codex, с которой провёл последние 3 месяца. За 7 недель (!) они с нуля запустили продукт: с контейнерным рантаймом, fine-tuning моделей, git-интеграцией и полноценным асинхронным агентом. В ночь перед запуском они сидели до 4 утра, а утром уже нажимали на кнопку.

Codex показал: будущее программирования будет похоже на общение с ассистентом, а не набор кода строка за строкой. С момента запуска Codex сгенерировал более 630 000 pull request’ов — это десятки тысяч на каждого инженера в команде.

Несмотря на скандалы в пресе — тысячи людей, искренне верящих, что строят нечто важное. OpenAI остаётся одной из самых амбициозных организаций в мире: не только чат, не только API, но и hardware, агенты, изображения — и это ещё не всё.

📌 Читать

@data_analysis_ml

#openai #ai #ml #llm #chatgpt

Читать полностью…

Анализ данных (Data analysis)

⚡️ Skywork-R1V3 — новейшая мультимодальная LLM с открытыми весами от китайской компании SkyworkAI. Модель демонстрирует SOTA-результаты в бенчмарках мультимодального мышления, превосходя аналогичные open-source решения и некоторые проприетарные модели.

Проект использует RL-дообучения для улучшения логических и визуальных цепочек рассуждений. Доступны квантованные версии для запуска на видеокартах с 30+ GB памяти.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Вас интересует, как искусственный интеллект может повысить эффективность вашего бизнеса?

Большие языковые модели уже давно вышли за рамки экспериментов и сегодня работают в реальных бизнес-процессах. На вебинаре “Будущее бизнеса с RAG и LLM: автоматизация, выгоды и новые возможности искусственного интеллекта” вы узнаете, как современные технологии помогают автоматизировать и ускорять поддержку, аналитику и работу с корпоративными знаниями, повышая точность бизнес-решений.

Мы сравним облачные и локальные решения, разберем конкретные кейсы и выгоды, а также обсудим шаги по внедрению в компанию ИИ.

Узнаете, как правильно, а главное – эффективно начать цифровую трансформацию!

📅 17 июля в 14:00 по Москве

➡️ Зарегистрироваться

Все слушатели вебинара получат запись и презентацию выступающего, которые можно использовать в работе!

Реклама. ООО "ДССЛ-ПЕРВЫЙ". ИНН 7701081730. erid: 2W5zFHygTbE

Читать полностью…

Анализ данных (Data analysis)

📈 METR: у ИИ начинается свой "закон Мура"

Когда ИИ сможет самостоятельно выполнять долгие проекты?

Исследователи из METR нашли закономерность:
временной горизонт задач, которые осиливают AI‑агенты, удваивается каждые ~7 месяцев.

Теперь они проверили это на 9 новых бенчмарках:
MATH, OSWorld, LiveCodeBench, Mock AIME, GPQA Diamond, Tesla FSD, Video-MME, RLBench и SWE-Bench Verified.

Результаты:
🧠 Аналогичные темпы роста и в науке, математике, робототехнике, программировании и даже в автопилоте.
⚡️ Новые модели, вроде o3, растут быстрее прогноза — медианное удвоение теперь ~4 месяца.
🕐 На reasoning-задачах агенты держатся 1+ час.
🖱 А вот в OS и браузере — всё ещё ~2 минуты, из-за слабых инструментов.

> «Moore’s Law для ИИ»: не про чипы — про способность мыслить и работать дольше. Быстрее. Самостоятельно.

ИИ-агенты растут не по дням, а по бенчмаркам.

Читать полностью…

Анализ данных (Data analysis)

GitHub Copilot Agent получил мощное обновление 🚀

Самое интересное

• Сам тестирует изменения UI с помощью Playwright и прикладывает скриншоты к PR
• Подключается к удалённым MCP — больше инструментов, больше контекста
• Управляет задачами через новый удобный дашборд
• Использует всего один premium-запрос на сессию — экономно и эффективно

Доступно для Copilot Pro и Business.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧠 MetaStone‑S1 — первая открытая Reflective Generative Model, сопоставимая с OpenAI o3

Новая модель MetaStone‑S1 от MetaStone-AI представляет собой рефлексивную генеративную архитектуру, ориентированную на эффективное масштабирование при инференсе (TTS).

🔍 Ключевые особенности:

SPRM (Self-supervised Process Reward Model)
Позволяет модели самостоятельно оценивать качество промежуточных шагов рассуждения — без ручной разметки процесса. Это объединяет policy‑модель и reward‑модель в одном бэкенде, экономя 99% параметров PRM.

Три режима рассуждения (TTS Modes)
Выбирайте уровень усилия: low / medium / high — для контроля глубины reasoning на инференсе.

Масштабируемость и производительность
MetaStone‑S1 (32B параметров) показывает результаты на уровне OpenAI o3-mini, при этом оставаясь полностью открытой.

📐 Scaling Law
Авторы выявили эмпирическую закономерность между вычислительной нагрузкой и качеством reasoning — и нашли "aha-момент", где резкий рост качества наступает при определённой глубине мышления.

📊 Бенчмарки:
Модель достигает SOTA-результатов на:
- AIME24 / AIME25
- LiveCodeBench
- C-EVAL и др.

💡 Если вы работаете над LLM-агентами, интерпретируемыми системами или reasoning-моделями — MetaStone‑S1 обязательно к изучению. Это новая парадигма в генеративных ИИ: мышление + самооценка = устойчивое, масштабируемое поведение.

https://huggingface.co/papers/2507.01951

Читать полностью…

Анализ данных (Data analysis)

🤖 Илон Маск: ИИ станет умнее любого человека — меньше чем за 2 года,
а умнее всего человечества вместе — меньше чем за 5 лет

По мнению Маска, у ИИ нет потолка — рост идёт экспоненциально, и конца этому тренду не видно.
Он прямо говорит: через несколько лет модели смогут выполнять работу целых корпораций, действуя как единая система.

📌 Почему это звучит серьёзно?
Потому что Dario Amodei, CEO Anthropic, говорит буквально то же самое — с теми же сроками.
Он ожидает, что к 2027 году появится суперинтеллект, способный управлять крупными компаниями как цифровой "мозг-конгломерат".

🔥 Если они правы — нас ждёт резкий сдвиг:
– ИИ перестаёт быть инструментом и становится экономическим субъектом
– Компании превращаются в оболочки для моделей
– Решения, стратегии, оптимизация — передаются системам ИИ
– Конкуренция меняется: человек против облачного суперинтеллекта с API

Мы приближаемся не просто к новой технологии —
а к новой форме разума, способной оперировать как корпорация, но быстрее, точнее и дешевле.

#AI #ElonMusk #Superintelligence #DarioAmodei #Anthropic #FutureOfWork #AGI

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🛢 В мире, где данные — новая нефть, растёт спрос на дата-инженеров.

Ведь именно они знают, как такую нефть добывать, обрабатывать и хранить. И пока компании осознают потребность в этих специалистах, конкуренция на рынке низкая, а зарплаты — высокие.

Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных».

За 2 года вы на практике:
— изучите Python, Java, Scala, Kotlin и SQL,
— научитесь проектировать пайплайны и обрабатывать данные,
— научитесь работать с системами хранения данных и базами данных в облаке.

Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент.

Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения.

Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу: https://netolo.gy/efQF

Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5yfkCnk

Читать полностью…

Анализ данных (Data analysis)

🍏 Apple всерьёз задумалась о покупке Mistral — Bloomberg / Марк Гурман

По информации Bloomberg, Apple серьёзно рассматривает покупку французского стартапа Mistral AI, чтобы наконец войти в ИИ-гонку.

Это очень поздний шаг — но он показывает, насколько сильно Apple отстала от OpenAI, Google и даже xAI.

Пока другие выкатывают публичные LLM, мультимодальные ассистенты и интеграции в поиске, Apple остаётся в роли наблюдателя.

📌 Почему это важно:
- Mistral — один из главных open-source игроков на рынке ИИ (выпускают мощные LLM и Mixture of Experts-модели)
- У Apple пока нет ни собственной модели, ни сильной стратегии в области ИИ
- Приобретение Mistral может стать экстренной попыткой догнать конкурентов

Если сделка состоится — это будет крупнейший AI-манёвр Apple за всё время.

#Apple #Mistral #AI #LLM #ГонкаИИ

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎥 Making Flux Run Fast — оптимизация инференса PyTorch моделей

Как ускорить генерацию изображений с текстом до менее чем полсекунды? Joel Schlosser из PyTorch Core показывает, как это сделать с помощью:

- torch.compile — ускорение инференса без изменения модели
- torch.export — подготовка модели к компиляции и интеграции
- torchao — библиотека для квантования, критично важная для скорости

Эти техники не только улучшают Flux, но универсальны и легко применимы к любым трансформерным моделям.

📺 Видео — часть серии PyTorch Compiler Series, где команда делится советами, лайфхаками и внутренностями оптимизирующего стека PyTorch.

🔗 Смотреть: https://www.youtube.com/watch?v=VNYBgqGQ98E

Читать полностью…

Анализ данных (Data analysis)

⚡️ Учёные нашли способ сделать электронику в 1000 раз быстрее

Американские исследователи сделали прорыв в управлении квантовыми материалами. Они научились переключать 1T-TaS₂ — особый кристалл — между состояниями изолятора и проводника при обычных температурах и на стабильное время.

▪ Ключ к переключению — метод thermal quenching
▪ Материал реагирует на свет, изменяя свои электронные свойства
▪ Работает как транзистор, но в разы быстрее и без кремния
▪ Главное: переключение обратимое и мгновенное

💡 Почему это важно:

Такие материалы способны заменить традиционные транзисторы, которые уже упёрлись в физические ограничения кремния. Это открывает путь к:
- сверхбыстрым процессорам
- минимальным размерам чипов
- новой архитектуре вычислений

Если технология масштабируется — это будет шаг к новой квантовой электронике, где компьютеры станут быстрее не на 20%, а в сотни раз.

Источник: https://sciencealert.com/quantum-breakthrough-could-make-your-devices-1000-times-faster


@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Meta строит ИИ-монстра: кластер Prometheus уже потребляет 1 ГВт

По данным SemiAnalysis, Meta заливает $30 млрд в перезапуск суперИИ — новые дата-кластеры, миллионы GPU и зарплаты уровня "заберите всех ресерчеров".

📍 В Огайо Meta строит один из крупнейших кластеров для обучения ИИ в мире — Prometheus (1 ГВт потребления).
📍 В Луизиане — Hyperion, цель к 2027 году: 2 ГВт. Всё на базе NVIDIA и собственных газовых турбин. Без дизеля — умная система охлаждения + временные тентовые ЦОДы, которые ставятся за месяцы.

🚫 Что пошло не так в прошлой попытке Llama‑гиганта:
- плохая реализация chunked attention
- сбои в expert choice routing
- низкое качество данных
- плохая координация масштабирования

Теперь Meta берёт в расчёт всё: вычисления, инфраструктуру, данные и кадры. Ставка — на абсолютное лидерство в суперИИ.

Война моделей — это уже не про параметры, а про ГигаВатты.

*Meta признана экстремистской и запрещена в России.

📌 Подробнее

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Рискните зарегистрироваться на One Day Offer и получите работу в команду блока «Риски» ⚡️

25 июля Сбер приглашает дата-инженеров и аналитиков данных пройти ускоренный отбор и открыть доступ к реально интересным задачам в 120+ витринах и 25+ петабайтах данных.

Встречаемся онлайн 25 июля в 10:30 — ссылка на регистрацию здесь!

Читать полностью…

Анализ данных (Data analysis)

Как уменьшить расходы на КХД в 7 раз и не отстать от AI гонки?

Нужно использовать КХД на архитектуре Lakehouse. 74% западных корпораций уже мигрировали на архитектуру Lakehouse, которая объединяет сильные стороны DWH и Data Lake, а также служит фундаментом для быстрого внедрения AI-инициатив.

Протестируйте VK Data Lakehouse — КХД нового поколения для уменьшения стоимости хранения данных и ускорения аналитики до 10 раз.

→ Дешевое хранение данных в S3-хранилище. Стоимость хранения 1 ГБ с репликацией в облаке уменьшается в 10 раз — с 30 до 3 рублей по сравнению с DWH.

→ Транзакционность для данных в S3-хранилище. Табличный формат поверх S3 обеспечивает ACID и полноценную работу в сценариях DWH.

→ Ускорение аналитики. MPP SQL-движок для параллельной работы с данными из разных источников без тяжелого ETL.

→ Уменьшение расходов за счет разделения compute и storage. Платите только за то, что используете. Нет затрат на простаивающие ресурсы.

→ Линейный рост затрат вместо экспоненциального при масштабировании.

→ Не нужно содержать отдельные команды под DWH и Data Lake.


→ Универсальное решение для работы с любым объемом данных. От гигабайт до сотен петабайт. Без сложного масштабирования и миграций.

→ Работа с ML становится быстрее без рисков уронить DWH. DS команда может экспериментировать с ad hoc запросами без опаски уронить DWH и BI.

Чтобы получить до 150 000 бонусных рублей для тестирования VK Data Lakehouse в VK Cloud с поддержкой архитекторов:

👉Оставляйте заявку

Будем рядом на всех этапах пилота и поможем довести MVP до результата.

Читать полностью…

Анализ данных (Data analysis)

Не прошло и дня: эра 3D-вайфу на базе ИИ набирает обороты.

Первые open-source версии этого чуда уже на доступны на GitHub

https://github.com/Jackywine/Bella

@data_analysis_ml

#ai #ml

Читать полностью…

Анализ данных (Data analysis)

💥 Исследователи из Университета Торонто представили первую в мире атаку типа Rowhammer, работающую на видеопамяти GPU — GPUHammer. Им удалось взломать защиту NVIDIA A6000 и изменять данные в памяти GDDR6, что особенно опасно для систем машинного обучения.

Для атаки использовали особенности CUDA и оптимизации доступа к памяти. NVIDIA рекомендует включать ECC, но это снижает производительность на 10%. Код эксплойта уже выложен в открытый доступ.

🔗 Ссылка - *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎓 Новые лекции от UCLA: *Reinforcement Learning of Large Language Models* (весна 2025)

Свежий курс, полностью посвящённый обучению LLM с помощью RL. Отличный ресурс для тех, кто хочет разобраться не только в RLHF, но и в новых направлениях, которые появляются на стыке обучения с подкреплением и больших языковых моделей.

📚 Что в курсе:
– Базовые принципы RL применительно к LLM
– RLHF (reinforcement learning from human feedback)
– RL с верифицируемыми наградами (RLVR)
– RL на этапе inference: оптимизация в момент выполнения
– Архитектуры, policy shaping, reward modeling и др.

Это не просто обзор — это системная попытка осмыслить будущее RL для LLM, где важно не только fine-tuning, но и работа с обратной связью в режиме реального времени, доверие к награде и оптимизация вычислений.

🧠 Полезно всем, кто:
– интересуется агентами и автономными системами
– работает над LLM‑продуктами
– хочет выйти за пределы SFT и попробовать более «горькие» методы обучения

#LLM #RLHF #RLVR #AIeducation #ReinforcementLearning #UCLA

🔜 Youtube: https://youtube.com/playlist?list=PLir0BWtR5vRp5dqaouyMU-oTSzaU5LK9r

🔜 Курс: https://ernestryu.com/courses/RL-LLM.html

Читать полностью…

Анализ данных (Data analysis)

🤔 Хммм… интересно, почему же Grok снова на первом месте в апсторе в Японии?)

Grok Anime-Waifu: новый Ghibli-хайп?

Аниме-вайфу от Grok сейчас переживает тот же всплеск интереса, что и Ghibli‑стиль после выхода инструмента генерации изображений от ChatGPT🎌

xAI поймали незанятую нишу: 3D-аватары с крутым голосовым режимом и небольшой провокацией. Как бы вы ни относились к этой теме — массовый рынок тут есть, и он пока был пуст.

CharacterAI всё ещё в топ‑10 самых посещаемых AI-приложений в мире. Молодёжь массово проводит там часы в общении с вымышленными персонажами. Это о многом говорит — но мы не будем давать оценок деградация это или нет.

Важно другое: ни Google, ни OpenAI, ни Microsoft пока не вышли с 3D-аватарами с продвинутым голосовым режимом.

Все знали, что это огромный рынок, но опасались репутационных последствий — вспомните скандалы вокруг CharacterAI в прошлом году.

А xAI рискнули — и пока пожинают плоды . Аудитория молодая, хайп органический, конкуренты только приглядываются к теме. Быть первым в такой категории — значит занять особое место в головах (пустых и не очень) пользователей.

Так что да: xAI сделали ставку — и, похоже, угадали.


@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Обработка данных на Spark — от GPS-треков до прогнозирования трендов. 
Не теряйте время на ручную обработку данных и неправильный выбор инструментов. 

Вебинар "Обработка геопространственных и временных данных на Spark" покажет, как избежать распространенных ошибок, связанных с обработкой геоданных и временных рядов с помощью одного из самых мощных инструментов в Big Data — Apache Spark.

Что вы узнаете?
📍Как обрабатывать и анализировать геопространственные данные с помощью Spark
📍Как работать с GPS-координатами и картографией
📍Как эффективно взаимодействовать с временными данными и использовать возможности Spark для анализа трендов и сезонности
📍Реальные примеры из практики: анализ маршрутов, данные с IoT-сенсоров, прогнозирование с временными метками.

Спикер Вадим Заигрин, один из разработчиков международной платежной системы, автор курса Spark Developer, проведет вебинар и поделится реальными кейсами.

17 июля в 19:00 МСК.
Бесплатно

Подарки для участников!
🔥7% скидка на обучение
🔥Гайд "Как найти кратчайший маршрут с помощью Apache Spark и GraphFrames"

Не упустите возможность получить у эксперта реальные знания, которые помогут в проектах!
Записаться: https://tglink.io/48c06a9a411b

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: 2W5zFH5sFzG

Читать полностью…

Анализ данных (Data analysis)

✔️ Эмбеддинг-модель Gemini от Google стала общедоступной.

Google объявила о выходе в общий доступ модели для создания текстовых эмбеддингов - Gemini-Embedding-001. Она доступна разработчикам через Gemini API и Vertex AI. С момента своего экспериментального запуска модель стабильно занимает лидирующие позиции в бенчмарке MTEB и поддерживает более 100 языков.

Gemini Embedding использует технику Matryoshka Representation Learning. Она позволяет разработчикам гибко настраивать размерность выходных векторов, чтобы оптимизировать производительность и затраты на хранение. Максимальная длина входных данных составляет 2048 токенов.

Стоимость использования модели : $0.15 за 1 миллион входных токенов. Доступ к ней можно получить через Gemini API, а бесплатно протестировать - в Google AI Studio.
developers.googleblog.com

✔️ Лаборатория суперинтеллекта в компании Марка Цукерберга обсуждает отказ от open-source.

Недавно созданное подразделение по разработке AGI инициировало дискуссию о кардинальном изменении стратегии компании. Ключевая идея - отказаться от развития флагманской open-source модели Behemoth в пользу закрытой архитектуры, по аналогии с OpenAI и Google. Такой шаг стал бы серьезным философским сдвигом для компании, которая годами продвигала открытый код и завоевала признание разработчиков.

Обсуждения пока находятся на ранней стадии и требуют одобрения Марка Цукерберга. Однако сама дискуссия, начатая новой командой под руководством Александра Ванга, указывает на возможный стратегический разворот гиганта соцсетей.
nytimes.com

✔️ В Grok появились анимированные 3D-персонажи.

xAI начала развертывание новой функции «Companions» для чат-бота Grok в приложении для iOS. Обновление добавляет в интерфейс интерактивных трехмерных персонажей, цель которых - сделать общение более персонализированным и выйти за рамки текстовых ответов. На данный момент функция доступна платным подписчикам SuperGrok.

Пользователи могут выбрать одного из двух анимированных аватаров: аниме-девушку Ani или красную панду Bad Rudy. Включить их можно в меню настроек. В компании обещают позже добавить третьего персонажа.
Elon Mask в сети Х

✔️ Топовые немецкие ученые в области Med AI переехали работать в Китай.

Два выдающихся специалиста из Германии, Роланд Эйльс и Ирина Леманн, присоединились к Университету Фудань в Шанхае. Их работа была ключевой в создании атласа клеток поджелудочной железы человека и использовании ИИ для прогнозирования рисков заболеваний.

Эйльс - всемирно известный математик и биолог, руководивший крупными национальными исследовательскими проектами. Леманн - профессор в области эпигенетики, возглавлявшая несколько международных научных конференций. Супруги опубликовали более 1000 научных работ и имеют свыше 100 000 цитирований.

В Университете Фудань они присоединились к Институту интеллектуальной медицины и планируют создать совместную немецко-китайскую ИИ-лабораторию.
scmp.com

✔️ Perplexity будет дообучать модели Kimi.

Глава Perplexity Аравинд Шринивас рассказал о планах компании начать пост-тренинг моделей Kimi от Moonshot AI. Решение было принято после внутренних тестов, которые показали, что потенциал Kimi сопоставим с GPT-4 и Claude.

Решающим фактором стало превосходство Kimi K2 в бенчмарках на программирование. В частности, в тесте SWE-bench Verified она показала результат 65.8%, значительно опередив Claude с его 50.2%.

В Perplexity рассчитывают, что дальнейшее дообучение модели усилит ее агентные возможности.
CEO Perplexity сети X

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Анализ данных (Data analysis)

Новость для тех, кто планирует поступление в магистратуру в этом году — МТС открывает набор на программу по искусственному интеллекту на ФКН ВШЭ

Самое важное:
– 30 оплачиваемых мест от МТС;
– Обучение проходит в очном формате в московском кампусе ВШЭ;
– Занятия ведут преподаватели ВШЭ и действующие эксперты-практики из МТС и MTS AI, а для проектов можно использовать виртуальную инфраструктуру компании;
– После и во время обучения можно получить оффер;
В канале абитуриентов делимся новостями и помогаем с подготовкой к поступлению

В программе передовые методы машинного и глубинного обучения: большие языковые модели, генеративные нейросети, инструменты компьютерного зрения и распознавания естественного языка.

Подробная информация о программе и документах на сайте. Ждем тебя 🥚

Читать полностью…

Анализ данных (Data analysis)

🧠 NeuralOS — симуляция операционной системы с помощью нейросети

Новое исследование *NeuralOS: Towards Simulating Operating Systems via Neural Generative Models* показывает, как можно эмулировать поведение GUI операционки с помощью нейросетей — прямо как игру, но из нейронки.

Что сделали авторы:
▪ Соединили RNN (отвечает за отслеживание состояния ОС)
▪ с диффузионным рендерером, который генерирует экран кадр за кадром
▪ На вход идут реальные события: движение мыши, клики, нажатия клавиш
▪ На выходе — визуально достоверный интерфейс, который реагирует на действия

🧪 Обучение:
Модель обучалась на огромном датасете сессий Ubuntu XFCE — с действиями как от рандомных, так и от AI-агентов.

📈 Что получилось:
— правдоподобное поведение UI
— корректное отображение кликов, перемещений
— распознавание переходов состояний: запуск приложений, переключение окон
— пока есть трудности с детальной клавиатурой (например, ввод текста), но базовая навигация работает

💡 Почему это важно:
NeuralOS — это шаг в сторону генеративного интерфейса, где весь UI может быть создан и управляем не кодом, а нейросетью, способной понимать, прогнозировать и адаптироваться к действиям пользователя.

📄 https://huggingface.co/papers/2507.08800

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧠 MindsDB — универсальный MCP-сервер с поддержкой SQL и ИИ

Если вам нужен мощный способ подключать LLM к реальным данным — вот он.

MindsDB — это инструмент, который позволяет обращаться к более чем 200 источникам данных (Slack, Gmail, Google Sheets, базы данных, соцсети и т.д.) с помощью:

▪ обычных SQL-запросов
▪ или просто на естественном языке (например: "покажи все письма от клиента за прошлый месяц")

Что делает его особенным?

▪ Умеет объединять данные из разных систем — как единый запрос
▪ Позволяет вызывать и обучать ML/LLM‑модели прямо из SQL
▪ Работает как MCP‑сервер — можно подключать агентов, чат-ботов и использовать в продуктивной среде
▪ Полностью open-source, с активным сообществом и 33 000+ звёзд на GitHub

💡 Это готовое решение, чтобы построить:
– интеллектуального ассистента с доступом к данным
– LLM-интерфейс к корпоративным системам
– гибкий слой интеграции для агентов

🔗 github.com/mindsdb/mindsdb

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎓 Фанфакт у статьи Google’s Gemini 2.5  arXiv:2507.06261 — 3295 авторов!

https://arxiv.org/abs/2507.06261

Читать полностью…

Анализ данных (Data analysis)

Кто создает будущее: исследователи или бизнес?

Дискуссия с экспертами в области искусственного интеллекта:
🔶 Иван Оселедец, генеральный директор института AIRI
🔶 Андрей Рыбинцев, старший директор по ИИ в Авито

Модератор: Анастасия Мануйлова, обозреватель «Коммерсантъ» — эксперт в сфере социально-экономических трансформаций общества.

📅 17 июля, 19:00
📍 офис Авито в Москве и онлайн
➡️ заявка на участие по
ссылке

Авито приглашает студентов и исследователей на дискуссию о развитии карьеры и выборе пути в сфере ИИ. А после паблик-тока — на неформальный вечер с экспертами, где участники смогут задать вопросы и наладить полезные контакты.

Эксперты обсудят:
- Что дает наука бизнесу и может ли современный технологический сектор развиваться без фундаментальных исследований?
- Как происходит трансфер технологий в области ИИ из науки в коммерческий сектор и обратно?
- Как начинающему специалисту выбрать между академической карьерой и работой в бизнесе?
- Какие возможности открываются для молодых специалистов от сотрудничества науки и бизнеса?

Приглашаем для полезного нетворкинга, новых знакомств и возможности получить ответы на ваши вопросы напрямую от экспертов рынка!

Подать заявку на участие можно по ссылке – места ограничены, участники будут подтверждены исходя из темы дискуссии. Для подтверждения придет приглашение на почту. А все желающие смогут следить за трансляцией онлайн.

Читать полностью…

Анализ данных (Data analysis)

🧠 Как оживить open-source LLM без дообучения?

Большинство открытых языковых моделей "замерзают" во времени: они не умеют гуглить, не могут обновляться и, как следствие, проваливаются на свежих научных задачах.

📄 Новый подход — X‑Master

Он превращает любую LLM в агента с доступом к коду, вебу и самокритике, не изменяя веса модели.

💡 Как это работает:

– Модель может вставить Python-код прямо в ответ
– Код выполняется в песочнице, результат возвращается в чат
– Это позволяет модели использовать «внешнюю память»: веб-скрапинг, вычисления, даже вызов инструментов

Чтобы избежать случайных ошибок, авторы запускают 5 Solver-клонов, а затем роли Critic → Rewriter → Selector доводят ответ до ума.

Этот «поиск → чистка» напоминает reinforcement rollouts, но не требует переобучения.

📈 Результат:
– DeepSeek-R1 на задаче «Humanity’s Last Exam»: с 17.7% до 32.1%
– Обходит закрытые модели на сложном биотесте на +5 пунктов

💥 И всё это — без дообучения. Просто обёртка.

Промпты, sandbox, и немного здравого смысла — и ваша модель снова в игре.

arxiv.org/abs/2507.05241

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎓 Machine Learning Visualized — лучший способ понять, как работает ML *на самом деле*

Обычно машинное обучение учат по формулам или просто вызывают fit(). Но если ты хочешь увидеть, как алгоритмы учатся шаг за шагом, — этот проект создан для тебя.

🔍 Что это:
Открытый Jupyter Book с интерактивными ноутбуками, в которых:
- Алгоритмы реализованы «с нуля» на NumPy
- Каждый шаг визуализирован: потери, веса, градиенты, границы решений
- Можно изменять параметры и наблюдать, как это влияет на обучение

📘 Темы:

- Градиентный спуск
- Логистическая регрессия
- Перцептрон
- K‑Means и PCA
- Обратное распространение в нейросетях

🧠 Полезно:
- Если ты изучаешь машинное обучение и хочешь понять, что происходит внутри моделей
- Если преподаёшь ML и ищешь понятные наглядные материалы
- Если хочешь объяснить ML-процессы коллегам без магии

🚀 Запуск:


git clone https://github.com/gavinkhung/machine-learning-visualized
cd machine-learning-visualized
./download_notebooks.sh
jupyter-book build .

Или просто заходи на сайт:
🔗 https://ml-visualized.com/

📦 Open Source, MIT
⭐️ 460+ звёзд, можно вносить вклад, добавлять новые алгоритмы и улучшать визуализации.

👉 Репозиторий: https://github.com/gavinkhung/machine-learning-visualized


▶️ Учимся здесь

Читать полностью…
Подписаться на канал