opendatascience | Технологии

Telegram-канал opendatascience - Data Science by ODS.ai 🦜

46226

First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev

Подписаться на канал

Data Science by ODS.ai 🦜

всем привет, сегодня-завтра последние дни, когда можно податься с докладом на сибирский ДатаФест 18 октября!

если у вас есть задумка доклада, не стесняйтесь, мы поможем ее довести до продашен-реди состояния, будем рады всех видеть

еще раз ссылка на подачу: https://ods.ai/tasks/speakers_siberia6

Читать полностью…

Data Science by ODS.ai 🦜

🤔Экспериментальная модель 🖥Extract-0 за $196 превзошла 👩‍💻 GPT-4 и 👩‍💻 o3 в извлечении данных?

Исследователь Энрике Годой из 🇧🇷Бразилии представил ИИ-модель Extract-0, специализированную LLM с 7 миллиардами параметров, которая демонстрирует новый уровень эффективности в извлечении структурированной информации из документов. Согласно исследованию, данная языковая модель превосходит по производительности популярные универсальные модели, включая GPT-4.1, o3 и GPT-4.1-2025. Ресёрчер ставит под сомнение устоявшуюся парадигму, где доминирующим фактором эффективности считается исключительно масштаб модели.

Ключ к успеху Extract-0 кроется в новаторской трехэтапной методологии обучения, которая позволила достичь высокой точности при минимальных затратах. Процесс включает генерацию 280 128 синтетических примеров данных с сохранением контекстной памяти, параметроэффективную тонкую настройку (LoRA), затрагивающую всего 0.53% весов модели, и обучение с подкреплением (GRPO) с использованием семантической функции вознаграждения. Такой подход позволяет ИИ-агенту понимать смысловую эквивалентность данных, а не простое текстуальное совпадение.

В ходе тестирования на эталонном наборе из 1000 задач по извлечению информации Extract-0 достиг среднего показателя вознаграждения 0.573, значительно опередив GPT-4.1 (0.457) и o3 (0.464).

◀️Для адаптации ❗️ DeepSeek-R1-Distill-Qwen-7B применялся метод Low-Rank Adaptation (LoRA), который изменил всего 0.53% от общего числа параметров модели (40.4 млн из 7.66 млрд).

◀️Изначально базовая модель без дообучения имела средний результат 0.232 и валидность JSON на уровне 42.7%.

◀️После этапа контролируемой тонкой настройки (Supervised Fine-Tuning) производительность модели выросла до 0.507, а валидность JSON достигла 79.9%.

◀️Финальный этап обучения с подкреплением (GRPO) позволил достичь итогового результата в 0.573 со средней валидностью JSON в 89.0%, что представляет собой кумулятивное улучшение на 147.0% по сравнению с базовой моделью.


🖥 Примечательно, что общая стоимость всего цикла обучения модели на одном графическом процессоре NVIDIA H100 составила всего $196.

Цифры наглядно демонстрируют экономическую и техническую состоятельность целенаправленной оптимизации под конкретную задачу. Исследование убедительно пытается доказать, что узкоспециализированные ИИ-решения могут быть не только конкурентоспособными, но и более эффективными по сравнению с масштабируемыми моделями общего назначения.

👆Ограничение исследования коренится в его валидационной парадигме, которая оценивает производительность модели исключительно на in-distribution данных. Обучающий и тестовый наборы сэмплированы из одного и того же синтетического распределения, поэтому продемонстрованная высокая производительность не позволяет сделать надежных выводов о способности модели работать также эффективно в реальных условиях на практических задачах. Таким образом, полученные метрики обладают высокой внутренней валидностью (в рамках созданного синтетического мира), но их внешняя валидность (применимость к реальным задачам) остается под вопросом.

👀 В любом случае ознакомиться с исследованием не помешает.

@Russian_OSINT

Читать полностью…

Data Science by ODS.ai 🦜

🦆xAI обвиняет OpenAI в 💣диверсии и 📖краже исходного кода

В самом сердце Кремниевой долины разворачивается драма, достойная шпионского романа. Компания 😎Илона Маска xAI обвиняет своего главного конкурента, OpenAI, не просто в переманивании сотрудников, а в организации целенаправленной стратегической кампании по хищению коммерческих тайн.

xAI заявляет о краже двух главных активов: 🖥всего исходного кода и уникальной стратегии развертывания дата-центров, которую назвали 📄 "секретным соусом".

Как утверждает xAI в иске, в этой истории замешаны 🥷❗️три ключевые фигуры. Один из инженеров (Сюэчэнь Ли) признался в хищении всей кодовой базы xAI, второй (Джимми Фрейтюр) использовал технологию AirDrop для копирования исходного кода на личные устройства, а один из финансовых руководителей передал OpenAI конфиденциальные данные об операционной эффективности компании. OpenAI наняла его с целью получения конфиденциальных данных об операционной эффективности компании.

👍В иске представлены конкретные даты, имена, технологии и цифровые артефакты. У xAI есть вырисовывается весьма серьезная обвинительная доказательная база, вероятно, полученная в результате внутреннего 🕵️форензик-расследования.

Cогласно материалам дела, охота велась целенаправленно, ведь, вербовкой обоих инженеров, находящихся по разные стороны Атлантики, занимался один и тот же рекрутер из OpenAI по имени Тифа Чен, а это указывает на скоординированный характер действий.

👆Представитель OpenAI называет иск xAI "попыткой преследования со стороны господина Маска", пытаясь свести технический и юридический спор к личной неприязни.

@Russian_OSINT

Читать полностью…

Data Science by ODS.ai 🦜

Пост для любителей обучать нейросети на работе, после работы, вместо работы, на выходных, в отпуске, с женой или вместо жены.

На прошлой неделе стартовал Wunder RNN Challenge —соревнование по нейронкам от HFT-фонда Wunder Fund.
Участникам предстоит создать модель, предсказывающую следующее состояние рынка на основе последовательности предыдущих состояний. Именно с такими задачами каждый день работают кванты.

Когда
15 сентября — 1 декабря

Призовой фонд
$13,600

Вы будете работать с реальными биржевыми данными.
Победители получат денежные призы, возможность пообщаться с нашими квантами, а главное — утонченное интеллектуальное удовлетворение от решения сложной задачи.

Wunder Fund с 2014 года занимается HFT, высокочастотным алгоритмическим трейдингом. Мы торгуем на многих биржах по всему миру — как традиционных, так и криптовалютных. Наш дневной торговый оборот превышает $10 млрд.

>_ Участвовать

Читать полностью…

Data Science by ODS.ai 🦜

Обзор PostgreSQL 18 от Павла Лузанова — что нового в открытой СУБД? 🖥

Вышла новая версия PostgreSQL. По традиции, делимся обзором обновлений от Павла Лузанова, нашего руководителя отдела образовательных программ.

Павел рассказал о том, как реализованы изменения в части производительности, мониторинга, работы очистки, команд SQL.

▶️ Полный обзор смотрите на наших видеохостингах: Rutube, YouTube, Дзен и ВК.

Значительное количество изменений в новой версии внесли разработчики из России, в том числе специалисты Postgres Professional. Ежегодно за вклад в открытую СУБД мы получаем десятки памятных медалей сообщества.

🐘 Новые функции ваниллы будут доступны и в Postgres Pro. Через несколько недель представим обновления СУБД — быстрый релиз возможен благодаря непрерывному слиянию изменений в течение года. Чтобы не пропустить — подпишитесь на техническую рассылку.

Читать полностью…

Data Science by ODS.ai 🦜

✔️ Deutsche Bank: бум ИИ держит экономику США, но он нестабилен

Deutsche Bank предупреждает: нынешний рост инвестиций в ИИ неустойчив.

Расходы на дата-центры и оборудование удерживают США от рецессии, но без них рост ВВП близок к нулю. Goldman оценивает капзатраты в $368 млрд к августу 2025 года.

К 2030 году отрасли потребуется $2 трлн годовой выручки, но прогнозируется дефицит в $800 млрд. Продуктивность от ИИ придёт, но слишком медленно, чтобы оправдать такие масштабы инвестиций.
Fortune

✔️ KAT-Dev-32B и KAT-Coder - новые модели для Кодинга.

KAT-Dev-32B достигает 62,4% на SWE-Bench Verified, входя в топ-5 среди всех open-source моделей.
KAT-Coder идёт ещё дальше - 73,4%, что ставит его в один ряд с ведущими проприетарными решениями.
HF

✔️ InclusionAI выпустила Ring-flash-linear-2.0 — эффективную гибридную модель

InclusionAI анонсировала Ring-flash-linear-2.0, открытое решение с комбинированным вниманием (линейным + стандартным). При активации лишь 6,1 млрд параметров она демонстрирует производительность, сопоставимую с плотной моделью на 40 млрд параметров.

Модель основана на Ling-flash-base-2.0 и дообучена на 1 триллионе токенов. Благодаря использованию MoE и гибридной архитектуре она достигает почти линейной временной сложности и устойчивого потребления памяти - что ускоряет и удешевляет инференс.

Ring-flash-linear-2.0 поддерживает контексты длиной до 128 000 токенов, показывая конкурентные результаты в задачах рассуждения, математики, программирования и генерации текста.
Модель распространяется под лицензией MIT.
HF

✔️ Новый прорыв в Science Magazine: технология для «переписывания» ДНК

В Science Magazine опубликовано исследование, которое описывает новую технологию редактирования ДНК. Она позволяет вносить крупные и точные изменения прямо в нужное место генома человека — то, чего не могли обеспечить существующие методы вроде CRISPR.

CRISPR работает грубо: разрезает ДНК и надеется, что клетка правильно её восстановит. Более точные версии редактируют лишь крошечные участки - десятки или сотню «букв» ДНК. Но большинство болезней связано не с одной мутацией, а с распределёнными изменениями по всему геному.

Учёные нашли решение в бактериальных «прыгающих генах» - так называемых мостовых РНК. Они позволяют безопасно и точно вставлять, удалять или переставлять фрагменты длиной до 1 миллиона пар оснований.

В эксперименте новая технология исправила ДНК-повторы, вызывающие атаксию Фридрейха - редкое неврологическое заболевание. Тот же подход можно применить к болезни Хантингтона и другим тяжёлым наследственным патологиям.

В институте Arc уверены: комбинация их ДНК-модели Evo (для проектирования «здоровых» последовательностей) и метода Bridge recombination (для внедрения изменений) может стать основой будущей «Тьюринговой машины для биологии» — системы, способной переписывать геном с высокой точностью.
Paper

✔️ ByteDance выпустила модель Lynx, которая превращает одну фотографию человека в реалистичный видеоролик.

Лицо сохраняется точным, а движения выглядят плавно и естественно.

Главное новшество - два специальных адаптера. ID-adapter закрепляет лицо во всех кадрах, чтобы оно не «менялось» при генерации, а Ref-adapter переносит детали исходного фото - волосы, глаза, текстуру кожи.

Lynx построена на Diffusion Transformer и обучена на базе из 50,2 млн пар изображений и видео с разными выражениями лица, светом и фоном. Это помогает модели уверенно сохранять идентичность человека даже в сложных условиях.

Моделька выйдет персонализированное видео высокого качества, где совпадают лицо, мимика и мелкие детали внешности.
byteaigc

✔️ Kaggle и Google проведут бесплатный пятидневный интенсив по ИИ-агентам.

С 10 по 14 ноября участников ждут ежедневные лекции, практические задания и финальный проект для портфолио. В программе — основы архитектуры агентов, работа с Tool Use и API, контекст-инженеринг и память, метрики качества и оптимизация, а также создание первой мультиагентной системы по протоколу Agent2Agent. Регистрация открыта, участие доступно всем без отбора.
Rsvp

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Data Science by ODS.ai 🦜

🔥 Китайский ИИ ставит рекорды: Qwen3-Max набирает 100 баллов по математике!

Алибаба представляет новое поколение флагманских моделей, которые устанавливают новые стандарты в мире искусственного интеллекта. Главная звезда — Qwen3-Max — впервые в истории китайских больших языковых моделей набрала максимальные 100 баллов в престижных математических тестах AIME25 и HMMT.

Ключевые достижения:
Qwen3-Max (Base): Более 1 триллиона параметров, обучена на 36 триллионах токенов, поддерживает контекст до 1 млн. токенов
Qwen3-Max (Thinking): Показывает 100% точность на сложных математических тестах AIME 25 и HMMT
Qwen3-Max (Instruct): 69.6% в SWE-Bench (кодинг) и 74.8% в Tau2 Bench (инструменты)

Но это только начало! На конференции Yunqi представлена целая экосистема мощных моделей.

👁️ Qwen3-VL: Монстр визуального понимания
Мультимодальная модель, которая уже доступна в открытом доступе. Она способна:
- Превращать рукописные эскизы веб-страниц в HTML/CSS код
- Детально анализировать изображения и видео
- Понимать сложные временные последовательности

🔊 Qwen3-Omni: Универсальный мультимодальный ИИ
Первая в мире end-to-end модель, объединяющий текст, изображения, аудио и видео. Достигает state-of-the-art результатов в 22 бенчмарках.

🌐 Qwen3-LiveTranslate: Революция в переводе
Модель для живого перевода с поддержкой 18 языков, включая шумные среды. Уже превосходит аналоги от Google и OpenAI.

Вывод: Алибаба демонстрирует впечатляющий прогресс в разработке ИИ, особенно в областях математики, компьютерного зрения и мультимодального обучения. Их открытые модели задают новые ориентиры для всей индустрии.

Qwen Chat | Cайт исследований Qwen

#КитайскийИИ #КитайAI #Qwen3 #ИскусственныйИнтеллект #МашинноеОбучение #Нейросети #AIРеволюция

Читать полностью…

Data Science by ODS.ai 🦜

Исследователи вынудили ChatGPT решать CAPTCHA

Специалисты компании SPLX, специализирующейся на автоматизированном тестировании безопасности для ИИ-решений, продемонстрировали, что с помощью промпт-инжектов можно обойти защиту агента ChatGPT и заставить его решать CAPTCHA.

Читать полностью

#xakep
@linux_potok

Читать полностью…

Data Science by ODS.ai 🦜

Поэтому не забываем отдыхать 😅

Читать полностью…

Data Science by ODS.ai 🦜

👣 Rust становится обязательным для Git 3.0: что это значит?

19 сентября 2025 — Команда Git объявила: начиная с версии Git 3.0, Rust станет обязательной зависимостью.

Без него система контроля версий просто не запустится.

Ключевое: Почему Rust?

- До сих пор Git писали в основном на C, но Rust добавляет больше безопасности и защиты от ошибок, таких как утечки памяти. Это шаг к более надежному коду.

Брайан Карлсон, один из ключевых разработчиков Git, заявил: «В Git 3.0 без Rust ничего не будет работать — он станет обязательной частью».

Что это значит для пользователей?

Для обычных пользователей Git ничего особо не изменится — достаточно установить Rust при сборке или обновлении Git.
Разработчикам плагинов и расширений стоит проверить совместимость.
Когда ждать? Релиз Git 3.0 пока не датирован, но обсуждение уже идет в списках рассылки Git lore.kernel.org/git.

Rust уже доказал свою полезность в проектах вроде Linux kernel, а теперь укрепляет позиции в Git, обещая меньше багов и выше стабильность.

🟠 Подробнее

@rust_code

Читать полностью…

Data Science by ODS.ai 🦜

👨‍🔬 В России зафиксирован мировой рекорд в квантовых вычислениях на ионах иттербия

Учёные в рамках национального «Квантового проекта» (ФИАН и Российский квантовый центр) установили новый мировой рекорд. Им удалось реализовать крупнейший в мире алгоритм на кудитах — многокубитную операцию на десяти ионах иттербия.

Почему это важно?

— Рекордная операция — «обобщенный гейт Тоффоли».

— Это прорыв в точности вычислений для решения практических задач: от логистики до создания новых материалов.
— Разработанный метод универсален и может быть применен к другим платформам (сверхпроводники, атомы, фотоны).

Как отметил директор ФИАН Николай Колачевский, этот результат является важным шагом на пути к созданию 50-кубитного квантового компьютера к 2030 году.

Читать полностью…

Data Science by ODS.ai 🦜

👨‍💻 22-26 сентября в Ереване (Армения) состоится XV Международная конференция по компьютерным наукам и информационным технологиям CSIT 2025.

👍В рамках CSIT 2025 Институт системного программирования РАН имени В.П. Иванникова (ИСП РАН) организует Форсайт-сессию, посвященную доверенному ИИ.

➡️Ключевая задача Форсайта — объединение экспертов, ученых, представителей бизнеса и заинтересованных ведомств для обсуждения ключевых проблем в разработке доверенного искусственного интеллекта и определения перспективных областей его развития и внедрения.

🔵Модераторами дискуссии выступят Денис Турдаков, заведующий Исследовательским центром доверенного ИИ ИСП РАН, и Александр Соколов, заместитель директора Института статистических исследований и экономики знаний НИУ ВШЭ

Со стратегическими докладами выступят участники из Южной Азии, Европы, Ближнего Востока, стран СНГ и России.

Само мероприятие станет частью серии Международных форсайтов по развитию ИИ. Ранее они были успешно проведены в Марокко (GITEX Africa 2025) 16 апреля, Дубае (Machines Can See 2025) 24 апреля, Шэньчжэне (Global AI Expo) 22 мая, Сербии 25 мая и Санкт-Петербурге 16 июня. Ереванская сессия сосредоточит внимание на внедрении и использовании доверенного ИИ.

➡️ Ожидается, что по итогам Форсайт-сессии будет сформирован перечень стратегических приоритетов и перспективных направлений развития технологий искусственного интеллекта.

📍Событие пройдет на площадке Российско-Армянского университета

🟠 Подписаться на ИСП РАН

Читать полностью…

Data Science by ODS.ai 🦜

Подводные камни ИИ-браузеров.

Как говорили в одном старом кинофильме, скоро ничего не будет. Ни кино, не театра, ни книг, ни газет, одно сплошное телевидение ИИ.

Вот и внутри браузеров сегодня активно растут и норовят вылупиться ИИ-модели, приблизительно как в другом кинофильме под названием «Чужой».

Замечу, что перерождение браузера в “продвинутого попугая” создаёт целый пласт, скажем так, сложностей в плане приватности и безопасности.

Особенно если этот браузер научили что-то делать из практического типа покупки картошки и новых носков (то есть если ему добавили “агентских функций”).

Можно смело ожидать, что влияние такой интеграции на онлайн-жизнь, а также неприкосновенность и безопасность личной информации будет многообразным и сложным.

Собрали большой обзор темы. Во-первых, почему ИИ-браузеры становятся реальностью. Если совсем коротко: они упрощают работу, автоматизируют рутинные задачи, от покупок до анализа контента.

А также – какова изнанка этого процесса с точки зрения безопасности, а там: серьёзные риски, так как у браузера полный доступ ко всему вашему веб-трафику, истории, файлам и платежным данным, и при этом в них случаются и уязвимости, а ИИ еще и подвержен социнженерным манипуляциям.

Работы в отрасли ИБ обещает быть много, и на долгие годы.

Читать полностью…

Data Science by ODS.ai 🦜

Эра 1-битных LLM наступила 🫥

🔹 DeepSeek-V3.1, квантованный всего до 1-бита или 3-бит, обошёл Claude Opus 4 и GPT-4.5.

🔹 Unsloth GGUF смог сжать DeepSeek-V3.1 на 75%, при этом модель превзошла топовых конкурентов в бенчмарке Aider Polyglot.


🟠Подробности: https://docs.unsloth.ai/new/unsloth-dynamic-ggufs-on-aider-polyglot

@data_analysis_ml

Читать полностью…

Data Science by ODS.ai 🦜

Всем привет! 16 сентября на ODS начнется онлайн-курс по обработке естественного языка (Natural Language Processing). Регистрация уже открыта.

Для кого:

Для всех, кому интересна тема обработки естественного языка и хочется, чтобы этот интерес перерос в знания, полезные для карьеры.

Что мы будем проходить:

начнем, как всегда с классики - закон Ципфа, TF-IDF, потом перейдем к более близким вещам - RNN, CNN, Transformer - и закончим LLM, куда же без них (вообще будет довольно много про языковые модели и их применение);

познакомимся с основными задачами NLP: классификацией текста, тегированием и генерацией;

погрузимся в более специфичные области, вроде диалоговых систем или NLP для кода.

В этот раз будет задание на агентов!

Время проведения и сроки:

Встречаемся по вторникам в 18:35 (МСК) - онлайн.


Первое занятие уже 16 сентября. Присоединяйтесь!

Если есть вопросы, то приходите с ними в ODS Mattermost – там будут все ответы, время семинаров и ссылки.

Читать полностью…

Data Science by ODS.ai 🦜

🚨 Уязвимости в Google Gemini: утечка данных и геолокации

В AI-ассистенте Google Gemini нашли три критические дыры. Из-за них злоумышленники могли похищать личные данные и отслеживать местоположение.

Схема атаки простая: хакер внедрял вредоносный промпт, а Gemini выполнял его как обычную команду.

🔹 Gemini Cloud Assist — через prompt-injection можно было атаковать облачные ресурсы и запускать фишинг.
🔹 Gemini Search Personalization Model — баг в персонализации поиска позволял управлять Gemini через историю Chrome.
🔹 Gemini Browsing Tool — давал возможность напрямую выкачивать сохранённые данные.

Подробнее: cybersecuritynews.com/google-gemini-vulnerabilities

#cybersecuritynews

Читать полностью…

Data Science by ODS.ai 🦜

🔥 Новая SOTA среди моделей на 1.5B параметров

QuestA 🤖 показывает двузначный прирост Pass@1 и даже обгоняет ранние 32B-модели:
- AIME24: 72.50% (+10.73%)
- AIME25: 62.29% (+12.79%)
- HMMT25: 41.67% (+10.11%)

🚀 Секрет в обучении: QuestA использует RL с scaffolded-problems — это снимает конфликт между лёгкими и сложными задачами и даёт более масштабируемое рассуждение.

🔓 Всё в открытом доступе:
- Модель: https://huggingface.co/foreverlasting1202/QuestA-Nemotron-1.5B
- Тренировочный пайплайн: https://github.com/foreverlasting1202/QuestA
- Статья: https://arxiv.org/abs/2507.13266
- Блог: https://mercurial-kidney-02d.notion.site/QuestA-Expanding-Reasoning-Capacity-in-LLMs-via-Question-Augmentation-216b21d08abb81a1bcecfe79e7d1e88a?pvs=73

#LLM #Reasoning #AI #SOTA

@data_analysis_ml

Читать полностью…

Data Science by ODS.ai 🦜

🚀 Обновление Giga-Embeddings: лидер ruMTEB и открытая лицензия

Мы выпускаем обновление Giga-Embeddings — 3B модель для преобразования текста в семантические векторы. Идеально для RAG, поиска и кластеризации.

📈 Метрики #1 в ruMTEB (74.1) — уверенный отрыв среди open-source.

🧩 Зачем это вам
• Надёжный RAG без галлюцинаций: точнее извлекает факты из базы.
• Поиск по документам и тикетам, FAQ-боты, дубликаты/кластеризация.
• Быстрый старт в проде: свободная лицензия, коммерческое использование разрешено.

⚙️ Как попробовать за 60 секунд

# pip install sentence-transformers
from sentence_transformers import SentenceTransformer
m = SentenceTransformer("ai-sage/Giga-Embeddings-instruct")
emb = m.encode([
"Как настроить доступ к базе знаний?",
"Инструкция по онбордингу саппорта",
])
print(emb.shape) # (2, D)


📚 Полезные ссылки:
GitVerse
HF

Читать полностью…

Data Science by ODS.ai 🦜

Qwen3Guard: Китайский ИИ-страж для безопасного AI

Компания Qwen представила специализированную модель-сторож — Qwen3Guard, первая в своем семействе модель ИИ, созданная исключительно для безопасности. Эта модель определяет уровень риска в запросах пользователей и ответах моделей на 119 языках.

Что это такое?
Qwen3Guard — это "песочница" для ИИ, которая анализирует контент и присваивает ему один из трех уровней риска: Безопасный, Спорный или Небезопасный.

Две версии для разных задач
Qwen3Guard-Gen — для анализа готовых текстов (офлайн-фильтрация датасетов)
Qwen3Guard-Stream — для реального времени проверки во время генерации ответа

Ключевые преимущества
• Трехуровневая классификация рисков
• Поддержка 119 языков, включая русский
• Модели разного размера (0.6B, 4B, 8B) для любых мощностей
• Лидирующие результаты в тестах безопасности

Технические детали
Qwen3Guard-Stream использует архитектурное решение с двумя легковесными классификаторами в последнем слое Transformer, что позволяет анализировать токены по мере их генерации без значительных задержек.

Где использовать?
— Безопасная фильтрация обучающих данных
— Сигналы вознаграждения в RLHF
— Реальная модерация чатов
— Предотвращение jailbreak-атак

HuggingFace | ModelScope | Aliyun Service

#КитайскийИИ #КитайAI #AIбезопасность #Qwen #Модерация #ИИ

Читать полностью…

Data Science by ODS.ai 🦜

Всем привет!

Встречайте тринадцатый выпуск подкаста "Капитанский мостик", он посвящен важным новостям прошедшей недели. Ведущие выпуска - Валентин Малых и Дмитрий Колодезев. Снова с участием Алексея Натекина.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).

Читать полностью…

Data Science by ODS.ai 🦜

🎙 Vikhr Borealis ● Speech-to-Text ● Транскрипция русской речи в текст ● Portable by NerualDreming

Ссылка на оригинальный релиз: https://huggingface.co/Vikhrmodels/Borealis
Репакер: #NerualDreming
Дата обновления: 25 сентября 2025
Версия: 1.0
Категории: #stt, #speechtotext, #audiollm
Платформа: #Windows
Место на диске: 20 ГБ
Системные требования: NVIDIA GPU с не менее 6 ГБ VRAM
Совместимость: #Nvidia

🖥 Описание софта

Borealis - это первая audio llm c ASR для русского языка от команды Vikhr. Важным отличием от других моделей является поддержка пунктуации в распознанных аудио. По замерам команды Vikhr, Borealis показывает меньшее количество ошибок и лучше соблюдает пунктуацию по сравнению с Whisper.
В этой портативной сборке я сделал удобную оболочку, в которую можно загрузить как аудио, так и видео и легко превратить речь в текст. Давайте поддержим отечественного производителя!


😬 Основные возможности Vikhr Borealis:
🟣 Распознавание речи в текст для русского языка
🟣 Корректная расстановка знаков препинания
🟣 Более низкое количество ошибок по сравнению с аналогами
🟣 Возможность обработки как аудио, так и видео файлов
🟣 Удобный и простой в использовании интерфейс


💿 Установка и запуск:
⁍ Скачайте Установщик или готовое Окружение.
⁍ Распакуйте архив в удобное место (без кириллицы и пробелов в пути).
⁍ Если скачали установщик, запустите файл install.bat и дождитесь окончания установки.
⁍ Для запуска программы используйте файл run_demo.bat.
⁍ Интерфейс приложения автоматически откроется в вашем браузере.


➡️ Скачать Vikhr Borealis Portable (Установщик) - сам скачает и установит все необходимые компоненты.

➡️ Скачать Vikhr Borealis Portable (Готовое окружение) - архив со всеми компонентами - скачает модели после запуска.

💬 Обсудить в чате | ⭐️ Поддержать канал

👾 НЕЙРО-СОФТ — Делаем нейросети доступнее.

Читать полностью…

Data Science by ODS.ai 🦜

Друзья, у нас для сообщества ODS отличная новость! 🚀

Overnight Finance Challenge: ETH/USDC Predictions – новое соревнование, где нужно спрогнозировать курс ETH/USDC. Организатор – проект Overnight.fi (DeFi-протокол с дельта-нейтральными стратегиями и своим стейблкоином). Задача - реальный кейс из мира финансовых данных.

Призовой фонд – $2,500, $1,500, $1,000 за три лучшие модели.

👉 Вся информация и ссылка для регистрации: https://linkly.link/2F5sN

Читать полностью…

Data Science by ODS.ai 🦜

✔️ Мэттью МакКонахи сказал в интервью, что хочет собственную LLM — обученную только на его книгах, заметках, дневниках и личных интересах.

Идея в том, чтобы он мог задавать ей вопросы и получать ответы исключительно из этого источника, без какого-либо внешнего влияния.

Личная модель как цифровое отражение себя — это не просто тренд, а новый формат взаимодействия с ИИ.

Полное интервью

@vistehno

Читать полностью…

Data Science by ODS.ai 🦜

Всем привет!

Представляем вашему вниманию двенадцатый выпуск подкаста "Капитанский мостик", он посвящен важным новостям прошедшей недели. Ведущие выпуска - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).

Читать полностью…

Data Science by ODS.ai 🦜

🧬🤖 Paper2Agent: оживляем научные статьи
Open-source инструмент от исследователей из Stanford, который превращает статические статьи в интерактивных AI-ассистентов.

📌 Как это работает:
- Paper2MCP анализирует статью и её код( если есть), извлекает ключевые методы и превращает их в инструменты внутри MCP-сервера.
- Agent layer подключает этот сервер к чат-агенту (например, Claude Code или Chatgpt).

Поле чего, у каждой статьи появляется свой ИИ-ассистент, который:
- объясняет папиру на простом языке;
- запускает код без ручного копания в репозиториях, зависимостях и API-ключах;
- объединяет данные и пайплайны из разных работ.

Каждый MCP-сервер включает:
- Tools — функции (например, прогноз изменения экспрессии генов).
- Resources — текст, код, датасеты.
- Prompts — шаблоны для пошаговых сценариев.

Фактически Paper2Agent помогает конвертировать научные работы в полноценные рабочие инструменты.


Чтобы повторить методы их статьи, приходилось вручную ставить окружения, импортировать десятки модулей и гадать с входными данными. Paper2Agent позволяет это сделать через диалоговый интерфейс.

🟠Github

@ai_machinelearning_big_data


#ai #ml #aiagent

Читать полностью…

Data Science by ODS.ai 🦜

группа энтузиастов, которая включает людей из ODS, в частности Валентина Малых и Дмитрия Бабаева, сделала бенчмарк для агентного написания кода SWE-MERA

подробности про бенчмарк можно прочитать в статье на Habr; также бенчмарк будет представлен на конференции EMNLP в Китае в ноябре, научная статья тут

если вы интересуетесь ИИ-генерацией кода, присоединяйтесь к тестированию моделей, инструкция есть на сайте, будем рады вашему фидбеку!

Читать полностью…

Data Science by ODS.ai 🦜

Друзья, на связи вновь Петр Ермаков.

27 сентября пройдет Practical ML Conf - лучшая практическая конференция по ML в России. За качество отвечаю лично.
Скоро мы закроем регистрацию на офлайн.

Регистрируйтесь на офлайн сейчас. А если не сможете быть в Москве, регистрируйтесь на онлайн (в этом году для онлайна делаем дополнительный трек).

Обещаю интересные доклады, мастер-классы и дискуссии, крутую экспозону и качественный нетворк.

Репосты приветствуются.

Читать полностью…

Data Science by ODS.ai 🦜

Secure Vibe Coding Guide

Всем привет!

Vibe Coding стал уже чем-то обыденным и все больше и больше людей его используют и создают ПО «совместно» с LLM.

И где-где, а вот тут безопасность точно нужна. В соответствии с исследованием, около 40% генерируемого кода не является безопасным.

В статье Автор рассматривает check list, который, по его мнению, может быть полезен при обеспечении ИБ для Vibe Coding.

Например:
🍭 Vibe Coding Security Fundamentals
🍭 Application Security и API Security-практики
🍭 AI Specific Risks
🍭 Secure Vibe Coding Prompts и не только

Для каждого раздела приводятся общие рекомендации и небольшие уточнения по ним.

Чего-то сверх детального вы не найдете, но «общий взгляд» на вопрос получился достаточно интересный.

Читать полностью…

Data Science by ODS.ai 🦜

Всем привет!

Встречайте десятый выпуск еженедельного подкаста "Капитанский мостик", в котором обсуждаем новости из мира ИИ за прошедшую неделю и не только. Ведущие выпуска - Дмитрий Колодезев и Валентин Малых.
Смотрите видео на каналах ⤵️

ODS VK Video

ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в ODS Mattermost

Читать полностью…

Data Science by ODS.ai 🦜

Открыл папку

Исследователи обнаружили в AI-редакторе Cursor уязвимость, позволяющую выполнять произвольный код сразу после открытия репозитория.

Всему виной функция Workspace Trust, которую излюбленный вайбкодерами форк VS Code по умолчанию отключает. Злоумышленник может подготовить файл .vscode/tasks.json с параметром runOptions.runOn: "folderOpen", который автоматически запустит вредоносную команду при открытии папки проекта. Никаких предупреждений или запросов разрешений пользователь не увидит.

В отличие от VS Code, где Workspace Trust включён по умолчанию и блокирует подозрительные задачи до явного подтверждения пользователем, Cursor выполняет такие команды молча. Атакующий может украсть переменные окружения, токены доступа, API-ключи или выполнить любые команды от имени жертвы.

Особенно опасно это для разработчиков, чьи машины имеют доступ к облачным сервисам и CI/CD системам. Один заражённый репозиторий способен скомпрометировать всю инфраструктуру компании.

Cursor заявляет, что пользователи могут включить функцию самостоятельно, установив security.workspace.trust.enabled: true в настройках и обещает обновить рекомендации по безопасности в ближайшее время.

Пока что лучший способ защиты — перестать вайбкодить 😱

НеКасперский

Читать полностью…
Подписаться на канал