toshoseti | Неотсортированное

Telegram-канал toshoseti - То шо нейросети

846

На пальцах, местами с матом, местами с претензией на юмор, но познавательно.

Подписаться на канал

То шо нейросети

DreamerV3, написанный внятно, понятно и без шелухи. Дай бог здоровья автору. Кто читал код оригинального DreamerV3, тот оценит.

https://github.com/InexperiencedMe/NaturalDreamer

@toshoseti

Читать полностью…

То шо нейросети

https://www.youtube.com/shorts/NDj6wPW9G7c?feature=share

Читать полностью…

То шо нейросети

Вышла QwQ-32B – новая ризонинг модель от Qwen

По качеству она соответствует DeepSeek-R1, а на некоторых тестах даже обходит его. И это при том, что в R1 в 20 раз больше параметров.

И снова: все благодаря мощному скейлингу RL. Согласно блогпосту, обучали в два этапа:

1. RL только для задач математики и кодинга, причем без разметки и традиционной ревард модели. Вместо этого использовали интерпретатора кода и верификатор ответов для математических задач.

2. RL для общих способностей, уже с привычным ревардом и некоторыми rule-based верификаторами. На этом этапе модель училась «нравиться» пользователю и следовать инструкциям.

Исследователи написали, что видят еще много потенциала в RL и продолжат над этим работать. «Возможно, в следующий раз сочетание более сильных предобученных моделей с RL приведет нас к AGI».

Блогпост | Веса

Пообщаться с моделью абсолютно бесплатно уже можно в чате

Читать полностью…

То шо нейросети

Важно, друзья!

Вас стало так много! Безумно ценю каждого! Вы уделяете время контенту канала — и я бесконечно благодарна. ❤️‍🔥

Наверное, пора написать о себе.
Меня зовут Сабрина. Я люблю котиков и область объяснимого искусственного интеллекта («Explanable AI»). Областью занимаюсь с 2021. Началось всё с толстого ресерча на тему «Какие методы интерпретации существуют и насколько они практически доступны?» и продолжилось удивительным путешествием, которое не закончилось (и я работаю над тем, чтобы продолжать расти как специалист и исследователь в этой области).

Являюсь автором курса по объяснимости ML и DL моделей (первого и единственного на русском языке), очень горжусь. У курса есть бесплатная часть, которую я очень советую всем, кто начинает знакомство с машинным обучением.

И автором кучи других материалов, потому что одно из моих «кредо» в этой жизни — делиться тем, что знаю и тем, что потенциально может помочь кому-то. Поэтому, помимо постов в канале и курса есть:

1. Таблица с фреймворками, позволяющими интерпретировать ML и DL модели, с удобной навигацией. Библиотеки классифицированы по типу данных и типу фреймворка обучения.

2. Банк туториалов по объяснению моделей — из свежего — туториалы по YOLO и GPT, также там есть материалы по важностям признаков в бустингах и методу LIME.

3. Хабр! Когда сюда не лезет — пишу туда.

4. YouTube. Это место планирую ещё наполнять контентом — от своей road map до туториалов, разобранных с голосом и видео.

Ещё меня можно встретить в ВШЭ. Там я курирую студентов направления ИИ и иногда веду семинары по интерпретируемости (ближайший будет 8 марта!).

А по жизни — я математик и кошкомать. Сейчас пишу диплом и планирую дальше развиваться в науке.

Буду рада, если вы напишите пару слов о себе!
Как пришли на канал, почему подписаны и даже можете поделиться тем, как относитесь к котам :)

Спасибо, что вы здесь!
Обожаю вас! ❤️

Читать полностью…

То шо нейросети

Боты дуреют от этой прикормки: Спойлеры в телеграм каналах

Читать полностью…

То шо нейросети

Друзья, подскажите, пожалуйста, недавно в пабликах пробегал пост про лекцию на русском (среди прочих) про создание текстовых квестов/DnD с использованием LLM. Не могу найти.

Читать полностью…

То шо нейросети

Экспериментальный протокол для общения ИИ агентов с помощью аудио сигналов.
https://youtu.be/EtNagNezo8w?si=uXC7bhPqmTqztkjA

https://github.com/ggerganov/ggwave


Теперь надо допилить подобие Coconut для взаимодействия агентов на уровне латентных представлений.

@toshoseti

Читать полностью…

То шо нейросети

Наткнулся на интересную подборку тестов производительности Ollama на разных конфигурациях.

Нужно учитывать, что она однобока и не отражает всю мощь параллелизма ГПУ с большим объемом памяти или multi-gpu. Также если значения скорости на единицы - значит модель не влезла в ГПУ.

Но для одного потока дает референсные значения производительности. И они кстати весьма унылы - когда сравниваешь ГПУ в стоимости различающиеся в несколько раз.

Все протестированные модели были взяты из библиотеки Ollama по умолчанию (Q4). Цены, указанные автором, рассчитаны только на основе стоимости GPU в Германии на сентябрь 2024 года.

Ссылка на всю таблицу тестов

Читать полностью…

То шо нейросети

github.com/ArcInstitute/evo2

Читать полностью…

То шо нейросети

https://www.microsoft.com/en-us/research/blog/introducing-muse-our-first-generative-ai-model-designed-for-gameplay-ideation/

Читать полностью…

То шо нейросети

Любители конспиративных теорий – ваш выход:
Кто-то сжёг 500 ETH (1,38 млн долларов США), чтобы распространить сообщение на китайском языке:

Руководители Kuande Investment — Фэн Синь и Сюй Ючжи — использовали технологии «мозг-машина», чтобы преследовать всех сотрудников и бывших сотрудников компании. При этом они сами тоже находятся под контролем.

Мозг-компьютерные чипы были милитаризированы и развернуты в крупных масштабах; все военные державы используют базовые станции, радиоустройства и наночипы «мозг-компьютер» для контроля над всеми гражданами.

Дорогое сообщение миру получилось:
https://etherscan.io/tx/0x5e8bef5dcb69206fa1bacc8d0b0c0204e12f1e45483d12b9f69dc1829ac74315

Справка:
Адрес 0x0....000 (часто называемый «нулевым» или Null) куда отправили деньги – не контролируется никаким пользователем или кошельком, то есть если вы пошлете туда эфир-монеты, они сгорят

Читать полностью…

То шо нейросети

Народ, который шарит в explainable AI, а вот был ли какой ресерч про паттерны внутри трансформера, возникающие в отношении EOS токена? А именно, от чего зависит вероятность возникновения этого токена и можно ли это как то использовать для Reasoning/контроля галлюцинаций?

Читать полностью…

То шо нейросети

Честно говоря, довольно достойно

🤗DeepScaleR-1.5B-Preview
🤗Датасет

Интересно, мы сейчас проходим все-таки сигмоидальный рост или экспоненциальный

Читать полностью…

То шо нейросети

И, чтоб два раза не вставать, https://unsloth.ai/blog/r1-reasoning

Читать полностью…

То шо нейросети

ИИ открыл новый способ считать. Но вы всё равно продолжите пользоваться калькулятором

ИИ должен упростить нашу жизнь, да? Ну так вот, вместо того, чтобы просто запомнить, что 2+2=4, GPT-J делает что-то похожее на тригонометрический ритуал. Он кодирует числа на многомерной спирали, раскладывает в базис косинусов, а сложение выполняет через преобразования, которые нормальный человек даже на экзамене по линалу не вспомнит.

Исследователи попытались разобраться, как LLM складывают числа, и обнаружили, что модели вроде GPT-J-6B кодируют и обнаружили метод, который назвали Clock algorithm, потому что сложение выполняется как сложение углов: через cos(a), cos(b) → cos(a+b) и напоминает сложение углов на циферблате.

Векторные представления чисел исследовали через остаточный поток модели, прогоняя GPT-J-6B на всех числах из диапазона [0,360]. Спектральный анализ показал, что представление разрежено в пространстве Фурье, а главная компонента PCA оказалась линейной. А что у нас такое периодическое и линейное? Спираль!🌀

x = r cos t
y = r sin t
y = c t

Проверили это гипотезу, подбирая параметры спирали для представления каждого числа. Оказалось, что токены, представляющие суммы (a+b), хорошо описываются этой же основой, что говорит о реальном использовании модели такого механизма.

🛠️ Как проверить, что модель действительно так считает?
✔️ Intervention patching: заменили активации слоёв модели на вычисленные вручную спиральные представления и обнаружили, что это почти так же хорошо, как полная подмена слоя! Значит, модель действительно использует эту структуру.
✔️ Разделение ролей между слоями: слои MLP 14-18 формируют спиральное представление (a+b), а слои 19-27 считывают его и поднимают соответствующий токен в логитах.
✔️ Разбор нейронов: используя атрибуционные техники, исследователи выяснили, что активации нейронов MLP тоже следуют периодическим паттернам, что дополнительно подтверждает гипотезу о геликоидальном (спиральном) сложении.

Почему это важно?
Оказывается, вместо того, чтобы просто запоминать суммы, модель самостоятельно выучивает сложную, но универсальную алгоритмическую структуру! Этот же метод ранее встречался в исследованиях модульного сложения в трансформерах, который раньше описывал Neel Nanda. LLM не просто таблицы с вероятностями, а какие-то самоорганизующиеся вычислительные системы.
В любом случае, может, машинное обучение и не всегда дает интуитивно понятные решения, но точно умеет находить красивые и неожиданные пути.

🔗 Источники:
📜 arxiv
📝 Блог
💻 Код

Читать полностью…

То шо нейросети

С днем солидарности женщин за права и эмансипацию!
Даешь модели не только на HF, но и в каждом ресерч отделе! И чтоб хирш у каждой больше чем возраст. Вперед, дамы! 💪

Читать полностью…

То шо нейросети

А что, если бы LLM эволюционировали, как живые существа? Вышла статья, в которой исследователи попытались соединить идеи генетических алгоритмов и LLM

Представим, что модели – это индивиды, а их веса – это гены. Тогда к ним можно применить классический набор модификаций: кроссовер (объединение весов родительских моделей для создания потомства), мутации (небольшие случайные изменения весов для увеличения разнообразия популяции), наследование опыта или естественный отбор.

Это и есть идея, которую предложили в статье. Подход назвали GENOME (GENetic Optimization for Model Evolution). Понятно, что он не для претрейна – это скорее какое-то переосмысление ансамблей и файнтюнинга на базе старых как мир генетических алгоритмов. Вот что происходит:

1. Берем несколько готовых моделей, прогоняем их по нашему датасету. Отбираем тех, кто решает задачу успешнее всего.
2. Скрещиваем их, то есть создаем новые модели, веса которых – это линейная комбинация весов родительских.
3. Добавляем мутацию, то есть какую-то случайную компоненту.
4. Переходим обратно к пункту 1.
5. На выходе получаем успешную популяцию моделей, которые дальше можем ансамблировать привычно. Например, с помощью majority voiting.


Невероятно, но факт: это работает. GENOME действительно кое-где превосходит другие методы адаптации и при этом требует совсем немного данных и ресурсов. Средний прирост метрик составил +24% относительно лучшей отдельной модели. Особенно хорошо работает на задачах, требующих логики и математического рассуждения.

arxiv.org/pdf/2503.01155

Читать полностью…

То шо нейросети

Выложил Сайгу на базе YandexGPT-5 Lite.

HF: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b
Кванты: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf

В полтора раза меньше Немо, лучше токенизация, а качество примерно то же: на ПингПонге чуть лучше Немо, на Арене чуть хуже.

Модель SFT + RL. В SFT долил диалогов из бота за последние полгода. RL делал с Вихрвёским SMPO, он гораздо стабильнее SimPO.

Визуально всё в порядке, в ранних версиях была проблема с повторами, но сейчас вроде всё хорошо.

Лицензия только фиговая 😭

Читать полностью…

То шо нейросети

не реклама, личная рекомендация. По Explainable AI очень мало годного.

Читать полностью…

То шо нейросети

Когда посмотрел код ядер от DeepSeek

Читать полностью…

То шо нейросети

Я тут недавно вопрос задавал.

Оказывается, есть такая работа:

https://www.aimodels.fyi/papers/arxiv/latent-space-chain-embedding-enables-output-free

@toshoseti

Читать полностью…

То шо нейросети

Помните, мы рассказывали про AlphaXiv?

Это проект Стэнфорда: аналог всем известного arxiv, но с возможность писать комментарии и обсуждать вопросы поверх любой статьи.

Так вот, проект живет и, оказывается, с недавнего времени туда завезли буквально Cursor для рисерчеров. В любой статье можно выделить кусочек текста и попросить модель (там крутится Gemini 2 Flash) объяснить его или ответить на какой-то вопрос.

Киллер-фича: через @ можно в своем вопросе сослаться на другую статью. Тогда она загрузится в контекст модели и можно будет, например, попросить ассистента сравнить результаты, бенчмарки, подходы и тд.

С таким читать статьи гораздо приятнее, сами попробуйте: alphaxiv.org/

Читать полностью…

То шо нейросети

https://www.youtube.com/watch?v=wSHmygPQukQ

Читать полностью…

То шо нейросети

Интересная статья про scaling laws для world modelling:
https://arxiv.org/abs/2411.04434

tl;dr: повторяются законы масштабирования LLM, сильно зависит от качества токенизатора и природы токенов\модальности.

Читать полностью…

То шо нейросети

Qwen2.5-7B-Instruct-Tool-Planning-v0.1

Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!

🔗модель
🔗датасет

Читать полностью…

То шо нейросети

Как назвать тупой искуственный интеллект?

ЫЫ

Читать полностью…

То шо нейросети

⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .


🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r

Читать полностью…

То шо нейросети

Шикарное объяснение на пальцах, для тех, кто хотел знать как работает современный 3D Rendering в интерактивных приложениях (приближенно).

Все это так же применимо в CV, Embodied AI, Generative 3D, RL Simulations и многих других областях ML.

https://www.youtube.com/watch?v=C8YtdC8mxTU

Читать полностью…

То шо нейросети

Скоро начнется бесплатный курс HuggingFace AI Agents, успевайте записаться
https://huggingface.co/learn/agents-course/unit0/introduction

@toshoseti

Читать полностью…

То шо нейросети

https://github.com/OpenHealthForAll/open-health

Читать полностью…
Подписаться на канал