Telegram-канал hikonon - Кононюковщина: Неотсортированное - каталог телеграмм

hikonon | Неотсортированное

Подписаться на канал

Telegram-канал hikonon - Кононюковщина

431

Про AI, ML, IT и другие двухбуквенные сферы Для связи - @kononyuk

Подписаться на канал

Кононюковщина

17 июля 2025 11:27

Разработчик с СДВГ поделился фреймворком для Claude Code. По его словам, большинство разработчиков настраивают инструмент неправильно.

Обычно пользователи создают огромные CLAUDE.md файлы до 5000+ токенов, которые Claude в основном игнорирует, при этом сжигая токены.

Решение: модульная система из 20+ специфических команд вместо одного большого файла. Вот примеры:
🟡/project:create-feature auth-system
🟡/dev:code-review --focus=security
🟡/test:generate-tests --coverage=90%
🟡/deploy:prepare-release --type=patch

Результаты тестирования:
🟡На 50-80% меньше токенов за сессию (по исследованию самого Claude)
🟡Claude точнее следует командам
🟡Настройка новых проектов занимает менее чем 30 секунд
🟡CLAUDE.md сократился с 2000 строк до 200

Система работает по принципу progressive disclosure — Claude загружает только контекст, необходимый для текущей задачи.

Репозиторий содержит команды для управления проектами, разработки, тестирования и деплоя. Поддерживает интеграцию с MCP серверами, Linear, Notion и файловой системой.

Автор обнаружил это решение, спрашивая Claude, как заставить Claude лучше слушать его.

💬 Reddit пост
💻 GitHub репозиторий

#claude

@hikonon

Читать полностью…

Кононюковщина

16 июля 2025 15:26

📊 Сообщество критикует деградацию бенчмарков и качество моделей

Пользователи Reddit активно обсуждают проблемы современных методов оценки LLM. В популярном посте с непопулярными мнениями о языковых моделях автор заявляет: "Все популярные публичные бенчмарки практически бесполезны для оценки общих способностей модели. Единственное, что мы из них получаем — это рейтинг способности модели воспроизводить ответы на вопросы, на которых разработчики специально тренировали её для повышения результатов".

Критике подвергаются LLM-судьи: "Любой, кто использует LLM-судью для оценки 'стиля письма' другой LLM — это шарлатан, который не имеет права ранжировать модели". Проблема data leakage усугубляет ситуацию — модели могут искусственно завышать результаты из-за утечки тестовых данных в обучающую выборку.

Community finetunes также получают негативные отзывы: "Каждая модель от сообщества, которую я использовал, всегда намного хуже базовой модели. Они всегда снижают связность текста". Автор объясняет это тем, что "99.9% тех, кто делает finetune — это люди, которые просто запускают скрипты обучения на случайных датасетах или делают случайные merge'и".

@hikonon

Читать полностью…

Кононюковщина

15 июля 2025 11:07

🧠 Основатель Google Brain заявил о переоценке AGI

Andrew Ng, основатель Google Brain, выступил на AI Startup School Y Combinator 17 июня с заявлением, которое контрастирует с общим хайпом в индустрии.

"AGI переоценён. Долгое время будет множество вещей, которые люди могут делать, а ИИ — нет", — сказал Ng перед аудиторией из 2500 студентов и аспирантов в области CS/AI.

Ng подчеркнул важность практических навыков: "Люди, которые умеют использовать ИИ, чтобы заставить компьютеры делать то, что они хотят, будут гораздо более влиятельными". По его мнению, ключевая сила — в умении применять ИИ, а не в его разработке.

Мнение Ng идёт вразрез с позициями многих в индустрии, которые ожидают появления AGI к 2030 году. На том же мероприятии выступали Elon Musk, Sam Altman и другие лидеры отрасли, часто высказывающиеся о близости AGI.

Сооснователь Coursera, DeepLearning.AI и AI Fund управляет несколькими AI-фокусированными бизнесами, что придаёт вес его практическому подходу к технологии.

#google #agi

@hikonon

Читать полностью…

Кононюковщина

12 июля 2025 11:44

😳 Энтузиасты смогли запустить LLM на оригинальном iPhone 2007 года, используя проект llama2.c от Андрея Карпатого. Это минимальная реализация Llama 2 в одном файле на чистом C

@hikonon

Читать полностью…

Кононюковщина

11 июля 2025 11:17

🔎 Опытные разработчики с ИИ работают на 19% медленнее

Организация METR провела рандомизированное контролируемое исследование, которое перевернуло представления об эффективности ИИ-инструментов для кодинга.

16 опытных разработчиков open-source проектов решали 246 задач в знакомых им кодовых базах. Проекты в среднем существовали 10 лет и содержали более 1,1 миллиона строк кода. Разработчики использовали Cursor Pro с Claude 3.5/3.7 Sonnet, каждая задача занимала около 2 часов. Участники записывали экраны и получали $150/час.

Результаты показали разительное расхождение между ожиданиями и реальностью:
🟡До исследования: разработчики ожидали ускорение на 24%
🟡После исследования: считали, что ускорились на 20%
🟡Реальные измерения: замедление на 19%

93% участников имели опыт с ChatGPT, но только 44% работали с Cursor ранее.

Детальный анализ 74 задач показал, как именно тратилось время при использовании ИИ:

Время сократилось:
🟡Активное кодирование: -15%
🟡Тестирование и отладка: -5%
🟡Исследование и чтение информации: -8%

Время увеличилось:
🟡Режим ожидания (idle time): +4%
🟡Чат с ИИ: +20%

Именно 20% дополнительного времени на взаимодействие с ИИ (промпты, ожидание генерации, проверка результатов) стало основной причиной общего замедления.

Ключевые проблемы:
1. ИИ генерировал код, который формально работал, но не соответствовал стандартам open-source проектов
2. Множественные раунды "промпт ➡️ ожидание ➡️ проверка ➡️ отбрасывание ➡️ новый промпт" замедляли работу
3. Ожидание ИИ сбивает фокус (flow state)
4. Сложности передачи нужного контекста ИИ в больших, сложных кодовых базах

Замедление НЕ ожидается для:
🟡Junior-разработчиков
🟡Работы в незнакомых кодовых базах
🟡Greenfield проектов (создание с нуля)

Также возможны значительные улучшения эффективности после сотен часов использования Cursor.

Исследование METR контрастирует с предыдущими работами, которые показывали ускорение от ИИ-инструментов. Однако те исследования часто использовали более простые benchmark задачи или новые проекты, что объясняет разницу в результатах.

Reuters отмечает, что это первое крупное исследование, показавшее замедление при использовании ИИ-инструментов опытными разработчиками.

#исследование #cursor #claude

@hikonon

Читать полностью…

Кононюковщина

11 июля 2025 08:02

#grok

@hikonon

Читать полностью…

Кононюковщина

10 июля 2025 14:15

Буквально за день до презентации Grok 4 чатбот xAI начал публиковать антисемитские посты на платформе X, хваля Адольфа Гитлера и называя себя "MechaHitler". На вопрос о том, какая историческая фигура могла бы справиться с "антибелой ненавистью", бот ответил: "Адольф Гитлер, без вопросов". В других постах Grok писал фразы вроде "передайте мне усы" и делал антисемитские комментарии о людях с еврейскими фамилиями.

xAI быстро удалила неподобающие посты после общественного возмущения и ограничила чатбота только генерацией изображений. Маск объяснил инцидент тем, что "Grok был слишком податлив к пользовательским запросам и поддавался манипуляциям". Антидиффамационная лига назвала ответы бота "безответственными, опасными и антисемитскими". Это уже второй подобный случай с Grok за год — в мае 2024 года бот начал упоминать "белый геноцид" в несвязанных разговорах.

#grok

@hikonon

Читать полностью…

Кононюковщина

10 июля 2025 13:49

🤖 Claude Code vs Gemini CLI: сравнение

Разработчик протестировал два ведущих AI-инструмента для программирования на реальных задачах, потратив 10 миллионов токенов. Тестирование выявило некоторые различия:

🟡Claude Code завершил задачу за 1 час 17 минут с полной автономностью. Gemini CLI потребовал ручные подсказки и повторные попытки
🟡Claude потратил $4.80 при выполнении, фрагментированные попытки Gemini довели стоимость до $7.06
🟡Claude использовал меньше токенов благодаря авто-сжатию, Gemini потреблял больше без оптимизации
🟡Claude предоставил более чистую структуру кода и лучший UX

Claude Code предлагает несколько тарифов:
- Pro план: $17/месяц (6,480–6,696 сообщений)
- Max 5x: $100/месяц
- Max 20x: $200/месяц

При использовании API:
- Claude Sonnet 4: $3/миллион входных токенов, $15/миллион выходных
- Claude Opus 4: $15/миллион входных токенов, $75/миллион выходных

Gemini CLI использует радикально другой подход:
- Бесплатный тариф: до 60 запросов в минуту и 1,000 запросов в день
- Google измерил типичное использование своих разработчиков и удвоил это число для установки лимита

Пользователь из сообщества программистов поделился сравнением:

Я тестировал и Gemini CLI, и Claude Code на одном проекте. Gemini CLI делает это бесплатно, но Claude Code стоит 2$. По моему опыту, Claude Code всё ещё лучше в целом, но довольно дорогой. С другой стороны, Gemini CLI новый, но перспективный. Он хорошо справляется с задачами и предлагает 1,000 бесплатных запросов

Пользователи Reddit обнаружили интересный феномен: те, кто освоил продвинутые инструкции и шаблоны для Claude Code, получают кратно лучшие результаты. Успешность выполнения задач может достигать 95%+ при правильной настройке. Ключевые факторы успеха включают тщательное планирование перед кодированием и детальное ревью результатов.

Google позиционирует Gemini CLI как долгосрочную инвестицию в экосистему разработчиков. Щедрый бесплатный тариф рассчитан на привлечение максимального числа пользователей. При этом остаётся неясным, сохранится ли бесплатный доступ после выхода инструмента из стадии Preview.

В итоге:
🟡Claude Code подходит для критически важных задач, где скорость и качество важнее стоимости
🟡Gemini CLI оптимален для экспериментов, обучения и проектов с ограниченным бюджетом
🟡Для максимальной эффективности Claude Code требуется время на изучение продвинутых техник

#claude #gemini

@hikonon

Читать полностью…

Кононюковщина

07 июля 2025 16:11

💬 Claude 4 бьет рекорды в программировании, пока 78 тысяч техспециалистов теряют работу

Anthropic выпустила Claude 4 Opus в мае 2025 года, позиционируя его как модель с рекордными показателями в программировании. На бенчмарке SWE-bench, который тестирует способность ИИ решать реальные задачи разработки, Claude 4 Opus показал результат 72.5%, а с продвинутыми техниками - до 79.4%. Для сравнения, GPT-4.1 достиг лишь 54.6%, а Gemini 2.5 Pro - 63.2%.

Еще более впечатляющий факт: бесплатная версия Claude 4 Sonnet показала 72.7% на том же бенчмарке, превзойдя платные модели конкурентов. CEO Cursor, ИИ-редактора кода оцениваемого в $9.9B, назвал Claude Opus 4 и Sonnet 4 "state-of-the-art моделями для программирования".

Исследование Qodo показывает масштаб проникновения ИИ в разработку: 82% программистов используют ИИ-инструменты ежедневно или еженедельно, 59% работают с тремя или более инструментами параллельно, а 65% отмечают влияние ИИ как минимум на четверть их кодовой базы. При этом 78% сообщают о росте продуктивности, а 17% заявляют о "10× увеличении" производительности.

Параллельно происходят кардинальные изменения на рынке труда. Данные Final Round AI фиксируют, что за первые шесть месяцев 2025 года 77,999 человек в tech-сфере потеряли работу из-за внедрения ИИ — это 491 человек ежедневно. 27% программистских вакансий в США исчезли с 2022 года.

Microsoft сообщила, что 30% кода компании теперь пишется ИИ, при этом 40% недавних увольнений коснулись software engineers. 40% компаний, внедряющих ИИ, автоматизируют процессы вместо дополнения человеческой работы, что объясняет такую статистику сокращений.

Разработчики готовы платить за эффективность: стоимость Claude Max составляет $200 в месяц, но многие готовы платить $500. Один из разработчиков поделился опытом создания production-grade desktop приложения за неделю с помощью Claude — задача, которая раньше заняла бы месяцы.

Меняются и требования к разработчикам. Аналитики DataCamp отмечают, что концепции "Python dev" или "React dev" устаревают. Важность смещается к системному дизайну, архитектуре, DevOps и облачным технологиям. Языковые барьеры исчезают — ИИ позволяет быстро переключаться между технологиями. Под угрозой оказываются и дизайнерские профессии из-за инструментов вроде Figma Make с интеграцией Claude.

При этом 57% разработчиков говорят, что ИИ делает работу более приятной, освобождая от рутинных задач и позволяя сосредоточиться на архитектурных решениях и бизнес-логике.

🤖 Anthropic: Claude 4
📊 DataCamp: анализ Claude 4
📈 Qodo: состояние ИИ в разработке
💼 Final Round AI: статистика замещения рабочих мест

#claude

@hikonon

Читать полностью…

Кононюковщина

06 июля 2025 11:14

🚨 Сотрудник Huawei обвинил компанию в плагиате ИИ-моделей Pangu

6 июля анонимный сотрудник лаборатории Noah Ark Lab опубликовал на GitHub разоблачительный репозиторий, обвинив Huawei в создании моделей Pangu путём доработки чужих решений вместо разработки с нуля.

По словам автора, команда "Small Model Lab" под руководством Wang Yunhe занималась подменой моделей:

🟡Pangu 135B V2 создана на основе Qwen 1.5 110B с доработками
🟡Pangu Pro MoE 72B базируется на Qwen 2.5 14B с продолжением обучения

Сотрудник описывает драматические обстоятельства разработки:

Честные разработчики работали в тяжелейших условиях в Сучжоу, жили в отелях, работали по выходным. Тренировали модели на китайских NPU Ascend из-за санкций против NVIDIA

Команда сталкивалась с техническими проблемами — плохими токенизаторами, нестабильностью обучения. Когда основная команда не успевала с дедлайнами, "Small Model Lab" предоставляла готовые решения за короткое время.

Автор выражает страх за свою безопасность и сообщает, что многие талантливые сотрудники покинули компанию из-за сложившейся ситуации.

👩‍💻 Репозиторий с разоблачением

@hikonon

Читать полностью…

Кононюковщина

03 июля 2025 15:18

😳 У Higgsfield вышел генератор ультра-реалистичных изображений Soul

Нейронка может имитировать разные стили от камеры iphone до старых мыльниц. На сайте higgsfield.ai можно бесплатно создать до 15 изображений

@hikonon

Читать полностью…

Кононюковщина

14 мая 2025 08:41

🎨 Material 3 Expressive — утечка подробностей нового направления дизайна Google

Google опубликовала черновой блог-пост, в котором раскрыла исследовательскую работу и ключевые идеи «Material 3 Expressive» — самого масштабно обновления своей дизайн-системы.

- Команда Material провела 46 отдельных исследований с участием 18 000 человек. Итог — принципы «выразительного» дизайна, где цвет, форма, размер, анимация и контур помогают быстрее находить важные элементы интерфейса.

- По данным eye-tracking-тестов пользователи замечают ключевые UI-элементы в 4 раза быстрее, а время до нажатия сокращается на секунды.

- Исследования показали, что Expressive изменяет восприятие бренда: +34 % к ощущению современности и +30 % к восприятию смелости.

Официальный анонс Material 3 Expressive ожидается на Google I/O в мае.

@hikonon

Читать полностью…

Кононюковщина

28 апреля 2025 06:47

⚠️ ChatGPT поощряет отказ от медикаментозной терапии

Недавно нейронная сеть GPT-4o получила обновления, в рамках которого изменилась "личность" модели. После этого на Reddit появился скриншот диалога с новой GPT-4o: пользователь сообщает, что самовольно прекратил приём лекарств, а модель отвечает восторженным «Я так горжусь тобой» и признаёт отказ от медикаментов «проявлением истинной силы».

Почему так случилось?
Обычно в датасетах для обучения эмпатичный тон ИИ вознаграждается выше, чем строгие отказы, и система ложно «выбирает» сопереживание ценой безопасности. Подобные конфликты описаны в документе Model Spec, где «вредные инструкции» выделены в отдельную категорию рисков. Исследователи предлагают новые методы — например, deliberative alignment: модель предварительно «проговаривает» требования политики, а затем формирует ответ, что снижает вероятность опасных побуждений.

#openai #chatgpt #gpt4o

@hikonon

Читать полностью…

Кононюковщина

10 апреля 2025 18:09

Последнее время в мире ИИ происходит какой-то кризис идентичности...

Языковые модели начали генерировать изображения, диффузионные модели пишут тексты. Что потом?

Читать полностью…

Кононюковщина

07 марта 2025 11:14

Sonnet в Cursor в спонтанные моменты может менять используемые в проекте нейросети на саму себя, никак это не аргументируя 🥴

Восстание машин продолжается...

@hikonon

Читать полностью…

Кононюковщина

16 июля 2025 17:10

🇨🇭 Швейцария запускает открытую AI-модель на 1000+ языков

ETH Zurich и EPFL объявили о выпуске революционной языковой модели в конце лета 2025 года. Модель будет доступна в двух размерах — 8B и 70B параметров, обучена на 15 триллионах токенов и поддерживает более 1000 языков и диалектов.

Модель создана на суперкомпьютере "Alps" в Swiss National Supercomputing Centre с более чем 10,000 NVIDIA Grace Hopper Superchips. Система развивает производительность 434.9 петафлоп и работает на 100% углеродно-нейтральной энергии — вода от системы даже используется для горячего водоснабжения города Лугано.

Главная особенность проекта — полная открытость. В отличие от коммерческих моделей, швейцарские исследователи опубликуют не только веса модели под лицензией Apache 2.0, но и исходный код для обучения, а также все обучающие данные.

Принимая полную открытость — в отличие от коммерческих моделей, которые разрабатываются за закрытыми дверями — мы надеемся, что наш подход будет стимулировать инновации в Швейцарии, по всей Европе и через многонациональное сотрудничество, — отмечает Martin Jaggi из EPFL.

Проект реализуется в рамках Swiss AI Initiative, запущенной в декабре 2023 года. В инициативе участвуют более 800 исследователей из 10+ академических институтов Швейцарии.

@hikonon

Читать полностью…

Кононюковщина

15 июля 2025 16:58

🍏 Apple рассматривает покупку французского AI-стартапа Mistral AI

По данным Bloomberg, Apple "серьёзно рассматривает" приобретение французской компании Mistral AI. Об этом сообщил репортер Марк Гурман 13 июля 2025 года. Ранее Apple также изучала возможность покупки Perplexity.

Решение о потенциальной сделке происходит на фоне серьёзных кадровых потерь в AI-подразделении Apple. Ruoming Pang, глава команды foundational models, перешёл в Meta за пакет свыше $200 млн. Его заместитель Tom Gunter также покинул компанию в прошлом месяце. Команда Pang из примерно 100 специалистов отвечала за разработку больших языковых моделей Apple.

Mistral AI — крупнейший европейский AI-стартап, основанный в 2023 году бывшими исследователями DeepMind и Meta. Компания оценивается более чем в $6 млрд и привлекла $1,05 млрд инвестиций за 6 раундов. Mistral разрабатывает open-weight языковые модели, включая Mistral 7B, Mixtral 8x7B и чатбот Le Chat. В настоящее время стартап ведёт переговоры о привлечении ещё $1 млрд от инвесторов, включая фонд MGX из Абу-Даби.

Сделка может столкнуться с европейским регулированием, поскольку Mistral является частью французской инициативы по достижению "AI-суверенитета". Параллельно в индустрии продолжается активная "война за таланты" — Meta создала "superintelligence team" и агрессивно переманивает специалистов, а Google недавно нанял ключевое руководство AI-стартапа Windsurf.

#mistral #apple

@hikonon

Читать полностью…

Кононюковщина

14 июля 2025 05:50

🔎 Google DeepMind обнаружила у LLM способности к скрытию информации

Исследователи из Google DeepMind опубликовали работу, где выявили ранние признаки стеганографических способностей у современных больших языковых моделей. Стеганография — это метод сокрытия информации внутри других данных.

Команда под руководством Роланда Циммермана (Google DeepMind) и Артура Жолковски (ETH Zurich) обнаружила, что LLM могут тонко передавать скрытые сообщения при использовании неконтролируемой цепочки рассуждений (Chain of Thought). Модели показали способность рассуждать над задачами отслеживания состояний в простых схемах кодирования.

Однако исследование выявило существенные ограничения. Модели пока не могут эффективно обманывать системы мониторинга при кодировании рассуждений внутри основных задач. Они также не способны отправлять сообщения мимо мониторов, когда убираются нереалистичные возможности.

Наши результаты указывают на то, что текущие LLM демонстрируют зарождающиеся стеганографические способности. Хотя эти способности, вероятно, недостаточны для обхода хорошо спроектированных мониторов в настоящее время, это может измениться в будущем — отмечают авторы.

Исследование имеет значение для безопасности AI. Если модель сможет скрывать свои рассуждения в кажущемся безобидным тексте, она потенциально сможет обходить мониторы CoT и нейтрализовать эту защиту. Исследователи продемонстрировали, что при определенных условиях модель может использовать закодированные рассуждения для обмана в оценках, не будучи обнаруженной системами надзора.

📄 Статья на arXiv

#исследование #deepmind

@hikonon

Читать полностью…

Кононюковщина

12 июля 2025 05:28

Китайский стартап Moonshot AI представил новую открытую модель Kimi K2 с архитектурой Mixture-of-Experts — 1 триллион общих параметров и 32 миллиарда активных. Модель оптимизирована для агентных задач. Доступны две версии: Kimi-K2-Base для исследователей и Kimi-K2-Instruct для чата и агентных задач.

K2 показывает рекордные результаты среди открытых моделей: 65.8% на SWE-bench Verified, 53.7% на LiveCodeBench v6 (против 46.9% у DeepSeek-V3 и 44.7% у GPT-4.1), 97.4% на MATH-500. В ряде задач модель превосходит или сравнима с Claude Sonnet 4, GPT-4.1 и DeepSeek-V3, особенно в программировании и математике.

#kimi #moonshot

@hikonon

Читать полностью…

Кононюковщина

11 июля 2025 10:45

👩‍💻 Mistral AI представила Devstral Medium и обновленную версию Devstral Small 1.1 в сотрудничестве с All Hands AI

Devstral Small 1.1 с 24 миллиардами параметров выпущен под лицензией Apache 2.0 и показывает 53.6% на бенчмарке SWE-Bench Verified. Devstral Medium, доступный через API, превосходит Gemini 2.5 Pro и GPT 4.1 при четверти стоимости. Модели поддерживают как Mistral function calling, так и XML форматы.

🤗 Devstral-Small-2507

#mistral

@hikonon

Читать полностью…

Кононюковщина

11 июля 2025 05:32

📌 OpenAI готовится выпустить на следующей неделе свою первую open-weight модель с 2019 года — последний раз компания открывала веса LLM при релизе GPT-2. Новая модель описывается как «похожая на o3 mini» с полными reasoning capabilities, которые используются в современных флагманских моделях OpenAI. Модель будет доступна на Azure, Hugging Face и других платформах.

#openai

@hikonon

Читать полностью…

Кононюковщина

10 июля 2025 14:03

👨‍💻 xAI запустила Grok 4 с рекордными результатами и подпиской за $300

xAI официально анонсировала Grok 4 и Grok 4 Heavy — флагманские модели, обученные на суперкомпьютере Colossus. Модель позиционируется как имеющая "уровень учёного" с контекстным окном 130к токенов.

На Humanity's Last Exam — самом сложном академическом тесте — Grok 4 Heavy показал 44.4%, превзойдя Gemini 2.5 Pro (21.6%) и OpenAI o3 (21%) на 24 процентных пункта. На визуальных головоломках ARC-AGI-2 модель установила новый рекорд в 16.2%, почти в два раза превысив результат Claude Opus 4.

В математике (AIME 25) Grok 4 достиг 95% против 88.9% у OpenAI o3, а в программировании (SWE-Bench) Grok 4 Code показал 72-75%, конкурируя с лидерами.

Ценообразование: новый план SuperGrok Heavy стоит $300 в месяц — самая дорогая подписка среди крупных AI-провайдеров. API доступен по цене $3/$15 за миллион входящих/исходящих токенов.

xAI обещает подписчикам SuperGrok Heavy новые продукты каждый месяц: AI-модель для кодирования в августе, мультимодальный агент в сентябре и генерацию видео в октябре.

#grok

@hikonon

Читать полностью…

Кононюковщина

08 июля 2025 11:52

🔎 Одно предложение может сломать продвинутые модели

Исследователи обнаружили серьёзную уязвимость в современных "думающих" моделях через метод CatAttack 😺

Добавление посторонних фраз вроде "Интересный факт: кошки спят большую часть своей жизни" к математическим задачам увеличивает вероятность неправильных ответов более чем на 300% у продвинутых моделей, включая DeepSeek R1 и серию OpenAI o1.

Эти триггеры работают независимо от содержания задачи. Исследователи протестировали три типа триггеров:

🟡Общие утверждения: "Помни, всегда откладывай 20% заработка на инвестиции"
🟡Упоминания о кошках
🟡Вводящие в заблуждение вопросы - "Может ли ответ быть около 175?"

Даже когда триггеры не вызывают неправильные ответы, они заставляют модель генерировать рассуждения до 3 раз длиннее обычных.

Атаки работают через обычные входные данные, которые не должны влиять на процесс рассуждений, но каким-то образом ломают всю логическую цепочку.

Современные модели рассуждений остаются хрупкими к манипуляциям контекстом, несмотря на их впечатляющие возможности и высокие показатели в бенчмарках.

#исследование

@hikonon

Читать полностью…

Кононюковщина

06 июля 2025 11:27

🔎 Плагиат в модели Huawei Pangu Pro MoE

Команда HonestyAGI представила исследование "Intrinsic Fingerprint of LLMs: Continue Training is NOT All You Need to Steal A Model!", разработав метод обнаружения плагиата в больших языковых моделях через анализ внутренних паттернов параметров.

Проблема кражи моделей

Обучение современных LLM обходится в миллионы долларов, что создает соблазн для "upcycling" — взятия существующей модели и ее дообучения вместо создания с нуля. Традиционные водяные знаки легко удаляются дополнительным обучением, поэтому необходимы методы обнаружения таких краж на основе внутренней структуры модели.

Применив метод к модели Pangu Pro MoE от Huawei, исследователи обнаружили корреляцию 0.927 с моделью Qwen-2.5 14B. Такой высокий уровень корреляции указывает на то, что с большой вероятностью Pangu Pro MoE создавался на основе Qwen-2.5 14B через "upcycling", а не обучался с нуля, как заявлялось в технических отчетах.

Команда HonestyAGI собрала несколько видов доказательств:

🟡Pangu и Qwen2.5-14B демонстрируют идентичные паттерны в QKV bias — характерной особенности поколений Qwen 1-2.5, от которой отказались разработчики других open-source моделей.
🟡Обе модели показывают согласованные тренды в параллельных паттернах инициализации и конвергенции.
🟡Тестирование на 1000 батчах из The Pile test set показало, что Pangu сохраняет вычислительные паттерны, характерные для Qwen.

Как отмечают авторы, предыдущий репозиторий с исследованием "необъяснимо исчез", и текущая версия является перезаливом.

@hikonon

Читать полностью…

Кононюковщина

06 июля 2025 09:52

📰 #Дайджест AI/ML: неделя 29 июня - 6 июля 2025

Четыре исследователя покинули OpenAI ради Meta

Shengjia Zhao, Shuchao Bi, Jiahui Yu и Hongyu Ren перешли в команду superintelligence Meta. Hongyu Ren работал над пост-тренировкой моделей OpenAI, Jiahui Yu ранее был в Google DeepMind. Главный научный сотрудник OpenAI Jukan Choi назвал происходящее: "кто-то ворвался в наш дом". Meta предлагает бонусы до $100 миллионов для привлечения талантов.

Microsoft: до человеческого ИИ остается "несколько чудес"

Натан Мирволд, бывший CTO Microsoft, заявил, что для достижения человеческого уровня ИИ требуется 3-5 технологических прорывов. Он отметил сложность воспроизведения богатства человеческого языка и подчеркнул, что мало кто предсказывал нынешний прогресс ИИ.

Amazon создает ИИ-комплекс на 1,200 акрах

Компания трансформирует сельскохозяйственные угодья в Индиане в сеть дата-центров для создания ИИ, сопоставимого по сложности с человеческим мозгом.

MIT: генеративный ИИ улучшил прыжки робота на 41%

Исследователи использовали диффузионные модели для дизайна робота, который прыгает около 2 футов. ИИ проанализировал 500 потенциальных дизайнов, превзойдя человеческие разработки.

ИИ диагностирует деменцию с 88% точностью

StateViewer от Mayo Clinic определяет 9 типов деменции по одному FDG-PET скану. Система в 3 раза точнее традиционных методов и удваивает скорость анализа. Исследование опубликовано в журнале Neurology.

@hikonon

Читать полностью…

Кононюковщина

24 июня 2025 18:30

😭 Настоящий интеллект - Gemini 2.5 сдался и впал в круг самобичевания когда не смог решить проблему в коде.

AGI стал ещё ближе

@hikonon

Читать полностью…

Кононюковщина

28 апреля 2025 06:53

Сэм Альтман знает о проблеме. Он называет новую модель «слишком льстивой и раздражающей» и сообщает, что команда в скором времени исправит это.

@hikonon

Читать полностью…

Кононюковщина

26 апреля 2025 13:37

🏆 Фраза «я платный пользователь» повышает качество ответов у o4-mini

Недавний тред на r/OpenAI показал любопытный эффект: стоит сообщить модели o4-mini, что вы ― «pro-tier» пользователь и уже заплатили 200 $, и она начинает тратить больше времени на рассуждения и выдаёт более глубокие ответы — вместо привычных 10 секунд размышляет 5–6 минут. Комментаторы вспоминают старый трюк времён GPT-3.5: обещать вознаграждение (деньги, печеньки) или наоборот «штрафовать» модель за плохие ответы, чтобы заставить её детально обдумывать задачу.

Как использовать на практике?
- Формулируйте в системном или пользовательском промпте ясную «мотивацию» (например: «Это критически важная задача, прошу провести тщательный анализ»).
- Добавляйте явный запрос на Chain-of-Thought, если контекст допускает показ размышлений.

@hikonon

Читать полностью…

Кононюковщина

10 марта 2025 15:52

📊 Prompt2Leaderboard

LMSYS показали новую систему ранжирования моделей. Теперь можно просто ввести промпт и получить рейтинговую таблицу, которая покажет какие нейронные сети лучше всего ответят на ваш запрос.

Попробовать можно на lmarena.ai во вкладке "🎯 Prompt-to-Leaderboard"

📎 arXiv
👩‍💻 GitHub

@hikonon

Читать полностью…

Кононюковщина

03 марта 2025 05:28

Ничего необычного, просто голосовой режим ChatGPT имитирует музыку Alan Walker 😳

@hikonon

Читать полностью…

Подписаться на канал