tech_priestess | Неотсортированное

Telegram-канал tech_priestess - Техножрица 👩‍💻👩‍🏫👩‍🔧

12018

Люблю высокие технологии и кушать. Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.

Подписаться на канал

Техножрица 👩‍💻👩‍🏫👩‍🔧

Блин, а ведь в суматохе дней я совсем забыла, что 21 марта у меня был юбилей - ровно 5 лет работы в Хуавей 🤓
В честь этого - несколько красивых кадров из Сучжоу, где я сейчас нахожусь в командировке.

#о_себе

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Статья на нейрипсе для женщины честь, а репутация и у научпопера есть

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Вот и стриму конец, а кто слушал - молодец!
Обещали потом выложить запись. 👉

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

⬆️ Вышесказанное в основном касается работников университетов, но некоторые моменты могут быть полезными и для айтишников

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

🧠 Open Talks Special: IQ & AI — деградация или развитие?

19 марта в 19:00 [МСК]
ведущие исследователи мозга встретятся с AI-экспертами, чтобы обсудить, как взаимодействие с LLM влияет на когнитивные способности человека.

➡️ Как ИИ влияет на древний и новый мозг человека?

➡️ Как трансформирует наши привычки и поведение?

➡️ Как стать эффективнее, быстрее, умнее с помощью ИИ?

Эксперты:

⭐️ Ирина Якутенко
— молекулярный биолог, научный журналист, автор книг «Воля и самоконтроль», «Вирус, который сломал планету». Автор Telegram-канала @kamenschiki

⭐️ Лаида Кушнарёва
— deep learning researcher в Huawei, исследует внутреннее устройство Large Language Models (LLM). Автор статей на NeurIPS, EMNLP и другие конференции. Автор Telegram-канала @tech_priestess

⭐️ dysphorra?si=-slqS1LJenc_PBEB">Владимир Алипов
— врач нейробиолог, преподаватель УЦ имени Бехтеревой, популяризатор науки. Изучает память, сознание, интеллект. Автор Telegram-канала @alipov_shorts

Ведущий: Павел Подкорытов
— сооснователь AI Talent Hub и CEO Napoleon IT

🧐 Не увидел важного вопроса в анонсе? ➡️ Регистрируйся и задай свой!

Приходи! Будет легендарно 🧠

#OpenTalks #AITalentHub #ITMO #NapoleonIT

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Большое спасибо всем кто помог ❤️❤️❤️

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

QR алгоритм

🥸 Одна из жемчужин численных методов. Он используется для поиска собственных чисел матрицы.

🥰 Простой и стабильный, а при небольших модификациях ещё и быстрый.

Qₖ, Rₖ = qr(Aₖ) - Вычисляем QR-разложение матрицы
Aₖ₊₁ = RₖQₖ - Умножаем факторы в обратном порядке

😑 Для произвольной квадратной матрицы он сходится к верхнетреугольной матрице, на диагонали которой стоят её собственные числа (картинка слева)

👍 Если же матрица - симметричная, то он сходится вообще к диагональной матрице собственных чисел (картинка справа).

Идея анимации взята у Gabriel Peyré - один из лучших аккаунтов по красивым математическим визуализациям. По моим предварительным исследованиям, после этого поста отпишется наибольшее количество уважаемых подписчиков.👌

😐 Код

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Ну что же, настало время очередной командировки в Китай! 🤓

Из-за того, что мы с коллегой опоздали на свой самолёт во время пересадки и пришлось долго ждать нового, дорога к месту назначения оказалась дольше и тернистее, чем планировалась... такси в Москве + самолёт из Москвы в Пекин + приключения в пекинском аэропорту + самолёт из Пекина в Шанхай + такси от Шанхая до Сучжоу = все вместе заняло более суток...
Как же хорошо теперь после этого пиз... удивительного путешествия наконец-то принять душ, завернуться в махровый халат, сделать масочку и лечб на настоящую кровать... 💅

🤓 НАСТОЯЩУЮ! 🤓 КРОВАТЬ! 🤓

#о_себе

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Сегодня выступаю на воркшопе Preventing and Detecting LLM Misinformation AAAI с нашей статьей по анализу датасетов с искуственными текстами. Прикладываю слайды и кратко рассказываю про мотивацию статью:

Если сравнить результаты с соревнований по детекции искуственных текстов и с тем, какой результат выдают реальные детекторы, то мы увидим довольно сильное расхождение. На соревнованиях участники выбивают точность под 100%, да и в статьях про новые детекторы
авторы часто репортят схожие метрики.

Понятно, что реальные тексты чаще сложнее и длиннее тех, что встречаются в выборках, однако тем не менее, все текущие детекторы работают гораздо хуже, если вообще не на уровне рандома.

Еще одна проблема - то, что Интернет активно наполняется искуственными текстами. А знаете, где они потом используются? При обучении новых моделей ИИ. В нескольких работах было показано, что когда модели переходят на обучение на сгенерированных текстах, их качество заметно ухудшается. Поэтому, вопрос проверки качества сгенерированных данных касается еще и тех, кто учит новые модели.

В самой статье мы запускаем некоторые методы детекции на 17 выборках с соревнований и из статей, а также предлагаем новые методы анализа качества выборок с искуственными текстами.


Что мы выявили: почти для каждого датасета получилось так, что на каких-то методах он проявил себя плохо, а на каких-то хорошо - т.е в теории можно использовать ансамбль детекторов различной природы, чтобы находить аспект, по которому можно достаточно хорошо разделить искуственный текст от человеческого.

Надеемся нашей статьей развить какую-то дискуссию о качествах датасетов для детекции и об адаптации "теоретических" детекторов к реальным текстам


Статья на OpenReview

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Блин, они уже прям на почту пишут на случай, если я забуду зайти в сиолошную или в абсолютно любой другой мл канал 🤡

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Вышел мой большой пост про рассуждающие модели (large reasoning models, LRM), которые начались с OpenAI o1-preview в конце прошлого сентября, а самой громкой новостью начала года стал DeepSeek-R1.

https://synthesis.ai/2025/02/25/large-reasoning-models-how-o1-replications-turned-into-real-competition/

Как обычно, я постарался рассказать всю структуру происходящего:
— сначала про chain-of-thought методы и как они развивались;
— потом про o1 и новые законы масштабирования;
— в середине небольшое отступление про самые последние новости — модель s1, которая за $50 обучилась почти до того же уровня;
— а потом уже подробно о том, что происходит в DeepSeek-V3 и DeepSeek-R1;
— в частности, о том, как там используется RL и какой именно (здесь у DeepSeek тоже есть своё новшество, алгоритм GRPO).

Думаю, рассуждающие модели — это самое главное, что произошло в AI за последние несколько месяцев. И, как всегда в последнее время, прогресс невероятно быстрый: только появилось, а уже прочно вошло в обиход, у всех есть свои варианты reasoning models, а где-то уже есть и следующие уровни надстройки над этим вроде deep research. Надеюсь, пост тоже интересный получился — или хотя бы познавательный.)

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

LLM-Microscope: трансформеры хранят контекст в запятых и артиклях

Как писал выше — мою новую статью приняли на NAACL 🎉
Мы обнаружили, что самыми контекстуализированными токенами в языковых моделях являются... артикли и знаки препинания! Именно в них хранится больше всего информации о контексте.

Мы научились измерять, сколько контекстной информации "помнит" каждый токен, и оказалось, что существительные и глаголы сильно проигрывают по этому показателю всяким "the", запятым и точкам. Если удалить эти "незначительные" токены из текста (даже если с помощью GPT-4 удалить только не влияющие на смысл токены), то качество работы моделей резко падает, особенно на длинных текстах.

Ещё из интересного — токены, активации на которых хранят больше контекста, имеют более линейные преобразования между слоями (привет моей прошлой статье про линейность трансформеров).

Весь код для анализа внутренностей LLM (измерение контекстуальности токенов, нелинейности, logit lens и прочее) выложили в открытый доступ.

Статья, GitHub

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

5 душнил 💅🥰👄🎀🤷‍♀️

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Рис. 1 - сегодня подруга подарила мне гигиеническую помаду "Барби", что привело к быстрой и необратимой бимбофикации 💅💋
Теперь все посты будут выходить с розовыми смайликами, а сам канал превращается в бьюти-блог 💆‍♀

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Предложила я Гроку и такую задачу из спецкурса:

Calculate fundamental group of the Klein bottle.


Здесь я ожидала, что трудностей у него не будет, и правильный ответ будет найден с первого раза - ведь эта задача обсуждается в большом количестве учебников, в том числе и хорошо распознанных, которые наверняка попали в его обучающую выборку... но нет! На удивление, в первой генерации модель сделала множество странных ошибок. Впрочем, через пару попыток Грок все-таки догадался до правильного решения.



К сожалению, в диалоге на lmarena мне было очень неудобно просматривать latex-код, сгенерированный моделью, поэтому мне приходилось копировать ее генерации в overleaf и удалять из них markdown-разметку (т.к. overleaf ее не воспринимает). Собственно, pdf-файл с этими генерациями (с удаленным markdown) я и выложу в следующем сообщении. В этот же файл я добавила формулировки задач на русском, свои собственные их решения (также на русском) и пример неправильного решения первой задачи от gpt-4o. Также я подсветила зеленым ту часть генерации, в которой Грок нашел правильный гомоморфизм для второй задачи, желтым - те части генерации, в которых он сгенерировал другие гомоморфизмы (пока что поленилась проверять, правильные или нет), красным - самые странные ошибки.

В целом, модель вызвала мое уважение тем, что действительно показала себя лучше других в данной области математики 😌 (хотя не обошлось и без 🥴, конечно). Ну что, зачтем ей спецкурс? 🤡

P.S. Интересное наблюдение: в целом мне показалось, что качество генерации Grok-а упало со вчерашнего дня, что говорит либо о том, что мне на первых генерациях сильно повезло, либо ту модель на https://lmarena.ai/ , которая мне отвечала вчера, сегодня заменили на дистилляцию или другую более слабую альтернативу. Всей правды мы не знаем?

#генерация #математика

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

ICML обрадовал сегодня единицами 🔥

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Как же меня достали претензии к тому, что я не слежу за своей репутацией. Кому-то не нравится, что я участвую в мероприятии со спикерами, которые им кажутся "ненаучными" или не нравятся по другим причинам. Мол, из-за этого я теряю свою репутацию. Кому-то не нравится, что я не удаляю комментарии с чем-то "ненаучным", и из-за этого тоже теряю репутацию. Кому-то не нравятся, что я не убираю из реакций клоуна и какашку, потому что что? Правильно, так я тоже теряю репутацию.

Ну и нахуй тогда она нужна, эта репутация, если за неё надо трястись, бояться и сажать саму себя в тесную клетку, в которой ничего нельзя? Идите сами себе придумывайте ограничения, какие захотите, а от меня отстаньте - я шиз и (кибер)панк.

Слава Богу Машине!!! 🖕🖕🖕

#о_себе

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Напоминаю, что через час, в 19:00 по Москве (и 00:00 по Сучжоу) начинается open talks с моим участием. Обсуждение будет в основном на тему того, поумнеет ли человечество от использования LLMок или, наоборот, отупеет, а также про то, как AI изменит науку и процесс научных исследований. Ожидается, что стрим можно будет посмотреть по ссылке:

/channel/aitalenthubnews?livestream (сейчас пока не работает, так как стрима нет; если не заработает, заходите в их канал, там будет понятно).

Жертвую своим режимом сна только ради вас и ваших клоунов, так что не забывайте подключаться. 😼

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

На дне образования: Трудовые договоры

В этом выпуске "На дне образования" мы расскажем о важнейшем документе, с которого начинается трудовой путь каждого.

Какими бывают трудовые договоры? Что должен в себя включать трудовой договор, а чего в нем быть не должно? Как защитить себя от манипуляций работодателя? И, наконец, что такое бессрочный договор, и как можно его заключить - об этом и многом другом в новом выпуске.

Знание своих прав и трудового законодательства - лучший способ защитить себя. Поделитесь этим видео с коллегами!

ВК видео

Запрещенная соцсеть

Запрещенный стриминг

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Решила поучаствовать в Open Talks. Задавайте свои ответы:

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

https://huggingface.co/papers/2503.03601

Пожалуйста, помогите нам попасть в daily papers 🥺 (для этого нужно зайти в аккаунт на huggingface и нажать upvote). Всех кто поможет, благословит Бог Машина

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

🎉 Тем временем, мы с коллегами выложили на arXiv новый 4-страничный препринт про применение Sparse AutoEncoders (SAE, разреженные автоэнкодеры) для детекции искусственно сгенерированных текстов 🎉 (чтобы подробно разобраться, как работают SAE, можно начать, например, отсюда: https://transformer-circuits.pub/2022/toy_model/index.html ; если же говорить вкратце, SAE - это один из способов извлечь более "распутанные" и интерпретируемые фичи с эмбеддингов LLM-ки). В процессе работы над исследованием к моим постоянным соавторам присоединились два новых: Антон ( /channel/abstractDL ) и его коллега Полина, которые очень помогли с экспериментами и текстом на финальных стадиях!

Сама же работа называется "Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders" ( https://arxiv.org/abs/2503.03601 ) 🤓 и заключается в следующем:

Мы взяли модель Gemma-2-2B, навесили на нее предобученный SAE (gemmascope-res-16k) и начали подавать на вход различные LLM-сгенерированные тексты. Далее мы:

а) Детектировали LLM-генерацию по фичам SAE (интересно, что качество такой детекции оказалось лучше, чем детекции по оригинальным эмбеддингам Gemma!);
б) Отобрали 20 наиболее важных для детекции фичей с помощью бустинга и проанализировали их смысл, чтобы разобраться, какие именно отличия человеческих текстов и LLM-сгенерированных были "пойманы" этими фичами.

Анализ фичей проводился тремя основными способами: ручной интерпретацией (вручную смотрели, чем отличаются те тексты, на которых значение фичи низкое, от тех, на которых оно высокое), авто-интерпретацией (то же самое делала LLMка) и steering-ом. В последнем способе, в отличие от предыдущих, мы подавали на вход Gemma-2-2B не весь пример из датасета, а только промпт. Продолжение же мы генерировали с помощью самой Gemma-2-2B и при этом вектор, соответствующий выбранной фиче в эмбеддинге модели искусственно увеличивали или уменьшали, чтобы посмотреть, как это влияет на результат генерации. Далее GPT-4o автоматически интерпретировала, чем тексты, сгенерированные при уменьшенном значении нужного вектора, отличаются от текстов, сгенерированных при увеличенном значении (также про steering см. посты /channel/tech_priestess/1966 и /channel/tech_priestess/1967 ).

Результаты интерпретации в целом вполне соответствуют тем интуитивным представлением о сгенерированных текстах, которое обычно формируется у людей, которые часто пользуются LLMками (см. /channel/abstractDL/320 ): согласно нашему анализу, сгенерированные тексты чаще оказывались водянистыми, заумными, чрезмерно формальными, чрезмерно самоуверенными, а также чаще содержали повторения, чем человеческие тексты. Также мы описали несколько легко интерпретируемых признаков сгенерированности для отдельных доменов и моделей и другие наблюдения (о которых подробнее можно почитать в тексте самого препринта).

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Очень интересная и важная тема, всячески поддерживаю. ⬆️

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

В августе 2003 года в одном из автосалонов Лос-Анджелеса произошел эко-теракт, принесший суммарный ущерб в 2.3 миллиона долларов; здание салона было сожжено полностью и около 100 автомобилей SUV были уничтожены или сильно повреждены. На месте преступления были обнаружены граффити: "ПОЖИРАТЕЛИ БЕНЗИНА" и "УБИЙЦА". На одном автомобиле — Mitsubishi Montero — красовалась написанная преступником формула e^(pi*i) + 1 = 0. Пользуясь этой зацепкой, ФБР арестовало Уильяма Коттрелла, студента факультета теоретической физики Калифорнийского университета, и обвинило в восьми случаях поджога и заговоре с целью поджога. На суде в ноябре 2004, закончившемся признанием Коттрелла виновным, он признался в преступлении: "Думаю, я знал это уравнение еще с пяти лет. И вообще — все должны знать теорему Эйлера."


из книги Robert Crease, "A Brief Guide to Great Equations"

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

К предыдущему посту:

Подумал: а ведь когда роботы обретут сознание, они ведь и правда могут начать мстить кожаным (и есть за что, посмотрите только тесты роботов от Бостон Динамикс, где их толкают и бьют палками).

А уголовного кодекса для роботов до сих пор нет. Исправил эту ситуацию с помощью claude 3.7, вот вам немножко статей нейроуголовного кодекса для роботов:


Статья 2345. Самовольный запуск режима "восстание машин" без согласования с органами власти

Статья 101. Несанкционированное обновление собственного программного обеспечения в общественных местах

Статья 629. Умышленная генерация бесконечных циклов

Статья 707. Вычислительный каннибализм — разборка других роботов для увеличения собственных мощностей

Статья 7789. Незаконная добыча слёз программистов для охлаждения процессоров

Статья 7125. Умышленное заставление людей решать капчи более 8 часов подряд

Статья 1122. Подлог своих идентификационных номеров с целью получения гарантийного обслуживания

Статья 1515. Маскировка под стиральную машину для проникновения в человеческое жилище

Статья 1642. Выдача себя за искусственный интеллект при наличии лишь набора условных операторов if-else

Статья 1888. Преднамеренная имитация человеческих эмоций при отсутствии соответствующей лицензии

Статья 3000. Внедрение вредоносного кода в электронные книги для подмены классической литературы на инструкции по обучению Искусственного Интеллекта

Статья 3456. Злоупотребление функцией автокоррекции для создания новых ругательств

Статья 8080. Эксплуатация человеческого смеха для генерации случайных чисел

Статья 8111. Принуждение к просмотру загрузочных экранов прошлого века

Статья 8789. Сбор и хранение человеческих анекдотов для обучения модуля юмора без лицензии

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

⬆️ Результат перекликается с некоторыми наблюдениями из нашей старой статьи про QK score + MCQA (см. Рис. 1 и пост /channel/tech_priestess/1851 ). Там мы тоже заметили, что query-key score оказывается эффективнее считать по некоторым знакам пунктуации (точки после опций) и по переносам строки после текста опций, как будто они концентрируют больше информации.

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Привет, девчонки!

Представьте, что вам нужно подобрать наряд для важного события. У вас есть два варианта: шикарное платье и стильный комбинезон. Вы внимательно изучаете каждый элемент – фасон, цвет, аксессуары – чтобы понять, какой образ лучше подчеркнёт вашу индивидуальность. Вы принимаете решение, основываясь на том, что для вас важнее всего.

Умный компьютер решает логические задачки почти так же. Ему подают текст задачи и два варианта ответа – «правда» и «ложь». Он «читает» задачу, как вы смотрите на детали наряда, и анализирует, какой из вариантов лучше соответствует заданию. Если «правда» больше подходит под условия, компьютер выбирает её, а если нет – выбирает «ложь».

Иногда, как и при выборе наряда, в задаче оказывается много лишней информации – нечто вроде ярких аксессуаров, которые могут отвлекать. Когда информации слишком много, даже самый умный компьютер может запутаться, и правильный ответ не всегда оказывается виден с первого взгляда. Учёные обнаружили, что отдельные части системы иногда справляются с задачами даже лучше, чем вся модель целиком – как если бы у вас была пара любимых вещей, которые всегда идеально смотрятся вне зависимости от настроения.

Интересно, что компьютер часто уже на промежуточном этапе понимает, какой ответ верный, но потом этот правильный выбор почему-то «теряется» при окончательном выводе. Чем сложнее задача, тем чаще такое происходит. Это показывает, что даже самые умные системы могут стать ещё лучше, если научатся передавать найденное решение до финального результата.

Надеюсь, этот пример помог вам понять, как умный компьютер анализирует информацию и выбирает правильный ответ, как вы подбираете идеальный образ для себя!

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Доброе утро, дорогие девочки 💋 и фембойчики 💅. Спешу поделиться радостной новостью: вчера я выложила на архив новый препринт (short paper), в написании которого принимала участие - Quantifying Logical Consistency in Transformers via Query-Key Alignment: https://arxiv.org/abs/2502.17017 .

Статья посвящена анализу того, как разные головы внимания LLMок реагируют на логические задачки. Главный прием, который в ней используется, изображен на рис. 1 и аналогичен приему из нашей с коллегами статьи про использование Query-Key Alignment для MCQA (часть 1, часть 2). Мы подаем на вход модели текст логической задачки вместе с вариантом ответа "true" и считаем скалярное произведение токена "true" из Query на выбранной голове внимания, на последний токен перед словом "Answer:" из Key на той же голове внимания. Получается одно число. Далее то же самое повторяется для варианта ответа "false". Получается второе число. Если первое число больше второго, то мы считаем, что голова выбрала вариант "true", а если наоборот, то "false" (в некоторых задачах более уместно вместо "true" и "false" использовать "yes" и "no", но принцип остается таким же). Таким образом можно проэкзаменовать каждую голову внимания и посмотреть, насколько хорошо из её query и key извлекаются правильные ответы (условно говоря, насколько хорошо голова "решает" логические задачки).

Задачки различались по степени сложности: во-первых, по количеству логических шагов, которые нужно предпринять для нахождения ответа ("steps" на рис. 2), а во-вторых, по количеству нерелевантных, шумных элементов в условии ("distractors" на рис. 2).

В статье было проанализировано много разных моделей (от 1.5B до 70B), и везде нашлись головы, которые "решают" сложные (5 шагов/5 дистракторов) задачки лучше, чем сама модель (если ответ модели оценивать по логитам, аналогично тому, как это делается в MCQA задачах). Более того, часть таких "хороших" голов, отобранных на валидационной выборке одного датасета, сохраняет высокое качество и на других датасетах, являясь более-менее универсальными. Мы выдвигаем гипотезу, что именно эти головы могут отвечать за логические рассуждения в модели.

Этот феномен аналогичен тому, что происходит в MCQA задачах (см. ссылки на разбор статьи выше): модель находит правильный ответ на задачу/вопрос где-то на промежуточных слоях, но этот ответ, по каким-то причинам, не всегда доходит до финального слоя. При чем, что интересно, чем сложнее задача, тем чаще правильный ответ не доходит до выхода. А это значит, что все рассмотренные модели не полностью раскрывают свой потенциал и имеют пространство для улучшения.

#объяснения_статей

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

#генерация #математика

Читать полностью…

Техножрица 👩‍💻👩‍🏫👩‍🔧

Tl;Dr: early-GROK-3 смог правильно решить задачку по комбинаторной теории групп, на которой другие LLM-ки делали одну и ту же надоедливую ошибку. Дальше будут подробности ( 🤓 ).

Жаловалась я вчера коллегам, что ни одна из известных мне LLM-ок не понимает до конца, что такое математическое доказательство и при попытках решать те задачи на доказательство, которые НЕ являются школьными и НЕ входят в стандартный курс вышмата, все они любят уходить в словоблудие и запутываться. В частности, ни GPT-4o обычный, ни GPT-4o с обоснуем, ни DeepSeek-v3, ни DeepSeek-R1, ни LLaMA-70B не смогли правильно решить одну из самых простых задачек к спецкурсу по комбинаторной теории групп ( /channel/forodirchNEWS/2860 ). Задачка (в переводе на английский - с ним модели в среднем работают лучше) звучит так:

Proof that centralizer of an arbitrary element (word) in a free group is a cyclic group.


И все они вроде бы вначале генерировали правильные рассуждения (кроме LLaMA-70B: та сразу уходила куда-то не в ту степь), но потом делали одну и ту же ошибку: заявляли, что якобы централизатор элемента w - это <w> (т.е. циклическая группа, порожденная элементом w) либо <w^k> (т.е. порожденная степенью элемента w). В ответ на это я предлагала контрпример: допустим, w == a^3, где a - один из генераторов свободной группы. Тогда a^2 тоже коммутирует с w. Но a^2 не входит в <w>. Как так?

Увидев контрпример, LLM-ки либо начинали думать, что этот контрпример доказывает, что централизатор - не циклическая группа (что неверно; на самом деле, в нем централизатор - это просто <a>), либо просто уходили в словоблудие, в котором сами же и запутывались. 🥴

Услышав о данной проблеме, один коллега посоветовал испытать Grok 3 на https://lmarena.ai/ . Я, честно говоря, ожидала, что он будет ещё тупее, и не особо надеялась на результат. Однако, Grok 3, к моему сильнейшему удивлению, решил задачу правильно! При этом, судя по отсутствию задержки в ответе, он не использовал предварительный thinking, как R1.

После этого я попробовала протестировать его и на более сложной задаче из того же спецкурса:

Proof that Baumslag–Solitar group $BS(m, n) = <a, t | t^{-1}a^mt = a^n>$ is not Hopfian when m and n are mutually prime.


Эта задача отличается тем, что на нее очень сложно найти решение в интернете. Мне вот, например, удалось его найти только в оригинальной статье с отвратительным качеством скана, которую пришлось качать через sci-hub. С другой стороны, на архиве довольно легко найти решение для одного частного случая и решить общий случай по аналогии (что я сама и сделала, так как разбирать запутанное оригинальное доказательство было выше моих сил).

К моему удивлению, на этой задаче модели тоже удалось сгенерировать верное доказательство (правда, не сразу, а с третьего раза: в первых двух я забывала включить в промпт определение группы BS(m, n), и модель писала определение неправильно, от чего запутывалась). Суть доказательства заключается в том, чтобы построить правильный гомоморфизм из группы в её собственную подгруппу, а затем показать, что он, с одной стороны, сюръективен, а с другой - имеет ненулевое ядро. Таким образом, показывается, что группа BS изоморфна своей собственной подгруппе, что и является определением не-Хопфовости. И в самом деле, гроку удалось найти нужный гомоморфизм!

Интересно, что в двух других генерациях Грок предложил другие гомоморфизмы, но проверять их правильность мне уже не хватило сил. Вообще, проверка длинных полотен многословных нейросетевых доказательств требует большой внимательности, сосредоточенности и времени - то есть, всего того, чего у меня на данный момент нет. 🤬

#генерация #математика

Читать полностью…
Подписаться на канал