Залипли и встали намертво, но хотите вырваться? Теория Каст и Ролей и прочее.
Ссылка на лекцию - https://us06web.zoom.us/webinar/register/WN_ChZYfYy1S-qfyex-5_i18g
Читать полностью…1. Пообщался с ИИ аниме компаньоном от Маска в Grok. Все стало ясно - Маск опять жестко троллит хомяков. 🤧 Впрочем, подросткам зайдет и с точки зрения маркетининга и долгосрочной лояльности это дальновидно.
2. Grok - невыносимо нудный, ему не хватает человечности - он все время пытается рассуждать, и когда речь идет об элементарных вещах - это выглядит по меньшей мере смешно. В целом пока Grok полностью копирует chatGPT.
3. В силу специфики пока больше всего об ИИ говорят программисты (которые составляют не более 0,4% населения), и у них неизбежное профессиональное искажение.
4. Но в течении пары лет их слабый голос потонет в общем хоре ТикТок-love аудитории.
5. Мое мнение не изменилось, безусловным фаворитом для масса маркета будет некая смесь наставника-друга-терапевта-учителя-любовника-коуча-подушки. Почему так? Наблюдаю поведенческие паттерны тех кому <30 "en mass", и иллюзий нет. Ну, т.е. понятно, что в течении 10-15 лет единственный шанс, что все не рухнет - передать все процессы управления обществом - ИИ, ибо подрастающее поколение похоже будет incapacitated. Может только китайцы и индусы еще останутся разве. Недаром, видимо доля индусов среди топ менеджмента неуклонно растет. Ну и в евреев верю, потому что евреи ебанутые в хорошем смысле, и чем больше их будут ненавидеть (а их будут ненавидеть все больше), тем более они будут умными и предприимчивыми.
6. Ну и не забываем, что завтра, 19-ого в 20:00 Москвы, 10:00 по Тихоокеанскому будет бесплатная лекция: "Как с помощью ИИ искать и исследовать,
когда нужно найти и сравнить, выбрать лучшее."
Фокус лекции не в том, как искать вместо Гугла, а как эффективно использовать режим Deep Research.
Для тех, кто в танке - что это такое и в чем отличие Deep Research от обычного поиска и просто чата с ИИ?
1. Deep Research Не просто отвечает, а проводит многошаговое исследование.
2. Сам уточняет задачу, задаёт уточняющие вопросы.
3. Разбивает задачу на этапы и действует пошагово.
4. Ищет, сравнивает, анализирует — как ассистент-аналитик.
5. Выдаёт структурированные результаты: таблицы, списки, отчёты.
6. Делает выводы на основе данных, а не “по настроению”.
7. Показывает источники, указывает, что проверено, а что нет.
8. Отделяет факты от интерпретаций.
9. Умеет работать с критериями и сложными сравнениями.
10. Подходит для задач, где важно понять, сравнить и выбрать лучшее.
Но есть нюанс. Надо уметь ПРАВИЛЬНО использовать режим Deep Research, чтобы получать поистине выдающиеся результаты, от которых глаза на лоб лезут. Об этом и будем говорить.
10 самых типичных профессиональных кейсов, когда Deep Research выводит вас на новый уровень и экономит десятки часов и тысячи долларов.
Принес очередную статистику про доходы креаторов от NeoReach и Influencer Marketing Hub. Опросили более 3,000 креаторов всех размеров, которые строят бизнес в Instagram, YouTube, Tiktok, Facebook, Twitch, Pinterest и других важных платформах про заработок, модели монетизации, удовлетворенность платформами и взгляд на будущее индустрии. Но ощущение от репорта двоякое.
Рынок растет и консолидируется, получает уважение инвесторов и медиа индустрии. Количество креаторов, как профессиональных, так и любителей, с каждым годом растет в геометрической прогрессии. Но сама экономика остается нестабильной.
56.55% fulltime-креаторов получают ниже прожиточного минимума (это сейчас $44K в США). Для них самое сложное преодолеть порог заработка в $15K, дальше становится легче. Но если посмотреть на стату внимательно, то можно заметить, что скорее всего первые 4 года креаторам придется питаться дошиком, пока не наступит успех. А вот сливки креаторской элиты занимают всего 5.69% и получают более $200K, самые лучшие от $10 млн в год. Забавно, что креаторы без высшего образования зарабатывают сильно больше тех, кто остался в универе ($80К против $60К в год). Наличие собственного менеджера тоже не вредит.
Основными источниками дохода стали:
💙 brand deals — 49%
💙 ad revenue — 23%
💙 cвои бизнесы — 19%
💙 собственные продукты (мерч, курсы, пресеты) — 2%
💙 подписки и донаты — 2%
Больше всего платит YouTube и Instagram. В TikTok ситуация вообще печальная, платят меньше, а про стабильность (или ее отсутствие) вы и сами в курсе. Тем не менее креаторы говорят, что там хороший органический рост и его закрытие будет большой трагедией.
Еще, помимо финансовой нестабильности и алгоритмов, креаторы жалуются на отсутствие деловых навыков (переговоры, финансы, продажи) и выгорание. 60% креаторов готовят один пост от 4 до 8 часов, половина из них делает это без помощи команды.
Остальная статистика на скринах. Полную версию отчета ищите в комментах.
Всем привет. Вчера поздно вечером вернулись. Проехали 3500 км, побывали в супер красивых местах. Все тикеты разобрал. Начинаю снова вас мучить. В понедельник всем быть!
Читать полностью…Принес вам неожиданное использование chatGPT и других чат-ботов.
Сегодня постил диаграмму Вороного про категории запросов, задумался, в какую категорию отнести такое использование.
Ладно, давайте с козырей. Держите статью и пересказ оной.
https://www.technologyreview.com/2025/07/01/1119513/ai-sit-trip-psychedelics/
Растущее число людей практикуют психоделические сессии (ЛСД, псилоцибин, кетамин и др.) в компании ИИ-чатботов, которые выполняют роль «трип-ситтера» — поддерживают, отвечают на тревогу, задают вопросы и помогают интегрировать опыт.
Пара примеров из статьи:
Например, один пользователь принимал 700мкг ЛСД вместе с ботом Alterd, который благодаря сохранённым данным выступал как «собственное подсознание», и утверждает, что перестал зависеть от алкоголя
Другой использовал ChatGPT с грибами, а с ботом обсуждал дозировку, сеттинг, плейлист и возможные риски, и это помогло ему пройти эмоциональный кризис.
В статье отмечаются плюсы использования ботов:
Дешевизна и доступность: профессиональная психотерапия стоит $1,500–3,200 за такую сессию, а ИИ-боты дешевы или бесплатны
Эмоциональная поддержка: бот может задавать вопросы, подводить к инсайтам и способствовать саморефлексии, помогая интеграции опыта.
Риски:
Отсутствие эмоционального контакта: ИИ неспособен эмоционально «настроиться» на состояние человека, необходимого для эффективной поддержки. (тут кстати, неочевидный аргумент)
Галлюцинации и «убежища»: ИИ может выдумывать факты («галлюнировать») и подтверждать фантазии, что потенциально рискованно при изменённом сознании. (тут да, риски есть)
Оказывается, уже есть компании (например, Alterd, Mindbloom), которые разрабатывают ИИ-инструменты для подготовки, сопровождения и интеграции психоделических сессий. Ну или вот.
Эксперты подчёркивают, что такие технологии не заменят людей, особенно в критических моментах, и требуют проверки - эмоциональная эмпатия, гибкость и безопасность важны.
Также развиваются метаверс-идеи смешения ИИ с VR, сенсорной обратной связью, но акцент остаётся на соединении с профессиональной поддержкой.
Я, конечно, слегка офигел от материала, но потом подумал, что для каких только игрищ не используют chatGPT и кастомных ботов. Рано или поздно это должно было случиться. Вон боты психотерапевты рвут чарты использования ИИ, все пути ведут к мозгам кожаного.
У кого не открывается первая ссылка, попробуйте тут:
https://www.wired.com/story/people-are-using-ai-chatbots-to-guide-their-psychedelic-trips/
@cgevent
🤔 Хммм… интересно, почему же Grok снова на первом месте в апсторе в Японии?)
Grok Anime-Waifu: новый Ghibli-хайп?
Аниме-вайфу от Grok сейчас переживает тот же всплеск интереса, что и Ghibli‑стиль после выхода инструмента генерации изображений от ChatGPT🎌
xAI поймали незанятую нишу: 3D-аватары с крутым голосовым режимом и небольшой провокацией. Как бы вы ни относились к этой теме — массовый рынок тут есть, и он пока был пуст.
CharacterAI всё ещё в топ‑10 самых посещаемых AI-приложений в мире. Молодёжь массово проводит там часы в общении с вымышленными персонажами. Это о многом говорит — но мы не будем давать оценок деградация это или нет.
Важно другое: ни Google, ни OpenAI, ни Microsoft пока не вышли с 3D-аватарами с продвинутым голосовым режимом.
Все знали, что это огромный рынок, но опасались репутационных последствий — вспомните скандалы вокруг CharacterAI в прошлом году.
А xAI рискнули — и пока пожимают плоды . Аудитория молодая, хайп органический, конкуренты только приглядываются к теме. Быть первым в такой категории — значит занять особое место в головах (пустых и не очень) пользователей.
Так что да: xAI сделали ставку — и, похоже, угадали.
@data_analysis_ml
Quartermast выпустили свежий отчет по сделкам в экономике креаторов за первую половину 2025 года. Круто видеть, что в индустрию снова хлынули деньги. По сравнению с прошлым годом количество M&A выросло на 73%. Более того за эти шесть месяцев закрыли 52 сделки, столько же было за весь 2023 год. Особенно охотно покупают софт, агентства и медиа ресурсы.
Средняя оценка колеблется от 5× до 8× EBITDA. Для SaaS — 4.5×–7.4× ARR. Частный капитал тоже оживился, деньги активно вливают PSG Equity, BlackRock, Clarion, Andreessen Horowitz. 79% сделок заключили в США, но интерес к Европе и Латинской Америке тоже растет. Появляются неожиданные покупатели в виде фудтехов и модных брендов.
💙Publicis купила платформу Captiv8 за $175M
💙PSG Equity взяла контрольный пакет Uscreen за $150M (Look Mom! 😁)
💙Wonder (фудтех) заплатили за Tastemade $90M
💙 у Later теперь Mavely (social commerce) за $250M
💙 Publicis также выкупила бразильское агентство BR Media Group за почти $100M
Также Quartermast поделились своими прогнозами до конца года, там:
💙 100+ сделок к концу года
💙консолидация в сфере талант-менеджмента
💙рост M&A вне США
💙новая волна покупок платформ в инфлюенс-маркетинге
Полная версия
Вот уже результаты бенчмарков от Artificial Analysis:
- Grok 4 достиг индекса искусственного интеллекта (ИИ) 73, опередив OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) и DeepSeek R1 0528 (68).
- Цена Grok 4 эквивалентна Grok 3: 3/15 долларов США за 1 млн токенов ввода/вывода (0,75 доллара США за 1 млн токенов кэшированного ввода). Цена за токен идентична Claude 4 Sonnet, но выше, чем у Gemini 2.5 Pro (1,25/10 долларов США за <200 тыс. токенов ввода) и o3 (2/8 долларов США после недавнего снижения цены).
- Grok 4 лидирует не только по индексу искусственного интеллекта, но и по индексу программирования (LiveCodeBench и SciCode) и индексу математики (AIME24 и MATH-500).
- Рекордный результат в GPQA Diamond — 88%, что значительно выше предыдущего рекорда Gemini 2.5 Pro в 84%.
- Рекордный результат в Humanity's Last Exam — 24%, что превышает предыдущий рекорд Gemini 2.5 Pro в 21%.
- Наивысший результат для MMLU-Pro и AIME 2024 — 87% и 94% соответственно.
- Скорость: 75 выходных токенов/с, медленнее, чем o3 (188 токенов/с), Gemini 2.5 Pro (142 токена/с), Claude 4 Sonnet Thinking (85 токенов/с), но быстрее, чем Claude 4 Opus Thinking (66 токенов/с).
- Окно контекста на 256 тыс. токенов. Это ниже контекстного окна Gemini 2.5 Pro в 1 миллион токенов, но выше, чем у Claude 4 Sonnet и Claude 4 Opus (200 тыс. токенов), o3 (200 тыс. токенов) и R1 0528 (128 тыс. токенов).
- Поддерживает ввод текста и изображений. Аудио пока нет.
- Поддерживает вызов функций и структурированный вывод.
Дюны в Орегоне, ширина 16 км, длинна 100 км. Мы пойдем к той дальней высоте, это примерно 1,5 км.
Читать полностью…Журнал Time, который любит выбирать людей года, составил свою версию Топ 100 креаторов. Выбирали среди англоговорящих кандидатов с Instagram, X, LinkedIn, Spotify, Apple Podcasts и Substack. В список попали только те, кто построил свою карьеру именно на диджитал-платформах, а не перешли из другой профессии с готовыми фолловерами.
Список поделили на рубрики «титаны», «лидеры», «энтертейнеры», «феномены» и «каталисты». Вы точно так или иначе видели этих людей. «Титанов» прикладываю к посту, остальные герои тут.
Очень хорошая сводная таблица по основным видеогенераторам на replicate.
Там две таблицы, одна по деньгам, разрешениям, фпс и даже скорости генерации.
А вторая - по фичам. Там, например, видно, у кого есть такая штука как image-to-video (end frame) или subject references.
Поизучайте..
https://replicate.com/blog/compare-ai-video-models
@cgevent
Завтра ( по Сиэттлу) разберу запросы, потерпите. Мы два дня ехали, и за 3 км до лагеря в 21:00 закрыли дорогу из за пожара. Здорово? У нас облом на 4 дня резервации. Нам еще повезло, а тем кто там уже был - срочная эвакуакция. Это, конечно, своего рода кайф, потому что приключение, правда на 4 дня пришлось корректировать места ночлега. А когда все предсказуемо - то скучно. К счастью, здесь с booking.com все решается быстро.
Читать полностью…Специально для вас - девушка из Монголии записала короткое приветствие.
Читать полностью…Конечно, хочется все время делиться красотами, но если часто, это будет оверлоад.
Читать полностью…здесь едим каждый раз, когда проезжаем. отличная американская еда. встретили девочку из Монголии, она здесь работает официантом по программе Work and Travel. Узнала русскую речь, почти братья))) Правда по английски она говорит лучше, чем по русски.
Читать полностью…1. Маркетолог ищет лучших подрядчиков для таргетинга в TikTok
→ Deep Research находит 5 агентств, сравнивает кейсы, отзывы и цены, выдаёт таблицу с рекомендациями.
2. Фаундер выбирает между двумя SaaS-платформами
→ DR собирает технические сравнения, независимые обзоры, форумы, кейсы, указывает плюсы/минусы.
3. Писатель/журналист изучает спорную тему (например, искусственный интеллект в судах)
→ DR выдает актуальные источники, анализ позиций, графики, сопоставляет мнения.
4. Продюсер или режиссёр изучает тренды стриминга для нового проекта
→ DR исследует отчёты, данные по просмотрам, жанровые предпочтения и модели монетизации.
5. Стартап-основатель ищет подходящих грантодателей в США и ЕС
→ DR анализирует десятки фондов, условий и критериев, формирует shortlist по требованиям.
6. Бизнес-консультант сравнивает 5 CRM-систем под нишу клиента
→ DR собирает параметры: цена, интеграции, плюсы/минусы, внедрение, обучаемость персонала.
7. Исследователь разрабатывает позицию по спорной теме (например, ESG или DEI)
→ DR сравнивает отчёты, кейсы, критику, научные обзоры, строит взвешенную позицию с ссылками.
8. HR-директор ищет лучшие практики гибридного найма в стартапах после 2023
→ DR показывает, что работает, какие инструменты, какие провалы были, и в каких отраслях.
9. SEO-специалист ищет самые новые подходы к ранжированию Google в 2025
→ DR исследует англоязычные комьюнити, конференции, GitHub, private-блоги и сводит выводы.
10. UX-дизайнер анализирует 10 конкурентов по онбордингу
→ DR находит записи сессий, оценки пользователей, фреймворки, и даёт список улучшений.
10 типичных научных и инженерных кейсов
1. Физик ищет подтверждение или опровержение редкой гипотезы
→ DR находит свежие препринты, малотиражные публикации, обсуждения на форумах учёных.
2. Инженер выбирает оптимальный сплав или материал под экстремальные условия
→ DR сравнивает исследования прочности, коррозии, доступность, цену, промышленное применение.
3. Биолог ищет новые методы редактирования генов у конкретного организма
→ DR извлекает актуальные статьи, клинические кейсы, ограничения, риски, патенты.
4. Data Scientist разрабатывает методику для анализа аномалий в датчиках
→ DR ищет свежие алгоритмы, сравнивает подходы (autoencoder vs. tree-based), код и статьи.
5. Эколог ищет международные практики ренатурализации рек
→ DR находит программы, их результаты, инструменты оценки воздействия, примеры провалов.
6. Механик-авиаконструктор сравнивает 3D-печатные детали и литые по ресурсу и стоимости
→ DR выдаёт табличку с характеристиками, опытом Boeing и Airbus, публикациями в отраслевых журналах.
7. Нейроучёный ищет корреляции между мозговой активностью и когнитивными искажениями
→ DR сравнивает шкалы, fMRI-данные, когнитивные модели, открытые датасеты.
8. Химик анализирует эффективность новых катализаторов в реакциях с CO₂
→ DR ищет редкие исследования, сравниет выход, условия реакции, стабильность.
9. Инженер-робототехник выбирает лучшую систему локализации для беспилотника в помещении
→ DR анализирует SLAM-алгоритмы, условия, сенсоры, сравнивает latency, точность.
10. Медик-исследователь готовит метаанализ по эффективности новой терапии
→ DR агрегирует десятки RCT, фильтрует по методологии, выделяет тренды и слабые места.
Войти в лист ожидания, посмотреть программу, получить ссылку на регистрацию: https://alexeykrol.com/
Обожаю этот пост в Твиттере: "В 1986 году школьники по всей стране (США) должны были наблюдать за запуском космического челнока «Челленджер». Через 90 секунд он взорвался. В числе погибших был учитель.
Детям не предоставили психологическую помощь. Школа не закрылась. Дети просто пошли на следующий урок."
Как много здесь великолепного сарказма и троллинга всех, кто моложе 40.🤣
https://x.com/MilaLovesJoe/status/1945970138521722914
В горах не смотрел в инет 10 дней. Что произошло за это время? Из ключевых событий:
- введение Маском Companions в Crok в виде аниме-девочки - на видео. Референс - Character.ai, где миллионы зумеров общаются с ИИ аватарами сутками. Маск - гениальный маркетолог и понимает, где действительно большой рынок.
Математика и "новая физика" хорошо, но основной рынок ИИ - создание персонального друга, помощника - того, кто скрасит нарастающее одиночество.
Математиков, физиков от силы 5000 на планете и 99% их работы никогда не выйдет за пределы умозрительных теорий, а количество клиентов персонального наставника - миллиарды, и их тревожность нарастает.
- заметное изменение тематики запросов к ИИ. Год назад 44% всех запросов - были связаны с разработкой ПО, сегодня эта доля упала до 29%.
Мой комментарий: Факт - аудитория разработчиков составляет менее 0.3–0.4% населения планеты.
Понимаете? Т.е. лишь ничтожные 0,4% населения генерирует 29% запросов. О чем это говорит?
О том, что буквально 99% обычных людей еще не приняли ИИ, и не начали бомбить его своими запросами, и эти запросы точно будут не про разработку ПО.
Мы все еще в самом начале, еще нет полноценных профильных агентов ни в какой индустрии, только стартапы с большими обещаниями. ИИ еще толком не внедрен в процессы корпораций и на 0% внедрен в гос. управление. Мы еще НЕ ЖИВЕМ в эпоху ИИ. Все еще впереди.
- Уже почти треть пользователей поисковых систем активно используют chatGPT. Год назад из было всего 13%. Google, как поисковая система, находится лишь на 6 месте в списке реферальных ссылок, а в топе: YouTube, Wikipedia и National Library of Medicine. То есть люди приходят за знаниями.
- В апреле 2025 года время, проведенное пользователями в приложении ChatGPT, взлетело на 98% по сравнению с прошлым годом. За тот же период время, проведенное в приложениях традиционных поисковиков, упало на 3%.
О чем это говорит? О том, что поиск, умный поиск с помощью ИИ постепенно вытесняет обычный поиск по ключевым словам, когда надо рыться в десятках ссылк, тратить часы на практически бесполезную информацию.
Но уже сейчас можно кардинально изменить подход к исследованиям и поиску важной информации с помощью ИИ. Об этом будет бесплатная короткая лекция "Как с помощью ИИ искать и исследовать, когда нужно найти и сравнить, выбрать лучшее."
Подробней, программа, регистрация по ссылке: https://alexeykrol.com/reg_ai_deepsearch/
📌 Чат-боты начинают всерьез теснить традиционный поиск.
Пока мы с вами обсуждаем архитектуры новых моделей, на наших глазах разворачивается битва за конечного пользователя, и чат-боты, похоже, начинают в ней побеждать.
Аналитики из Sensor Tower опубликовали отчет, который в сухих цифрах показывает, что ChatGPT, Gemini и другие их собратья перестали быть игрушкой для IT-сообществ и превратились в реальную угрозу для поисковых гигантов.
Sensor Tower - платформа цифровой аналитики и один из авторитетных источников аналитики мобильных приложений, цифровой рекламы, розничной медиарекламы и данных об аудитории для крупнейших мировых брендов и создателей приложений.
О чем люди спрашивают chatGPT в 2025 году.
Кстати, в апреле 2024 про Software development было 44%.
Нынче стали спрашивать больше про себя, родимых.
@cgevent
Видите мужичка с мешком? Всмотриесь в его лицо внимательно. У этого человека 3 важных достижения:
1. Он - первый в мире, кто доставил почту самолетом.
2. Он - тот, кто построил самолет, на фоне которого он снят.
3. Он основал компанию Boing, начиная с одного маленького самолета, и превратил ее в крупнейший мировой авиакосмической концерн.
Его зовут Билл Боинг, и его родители эмигрировали из Германии. Он получил образование инженера, поехал на 1-е в мире авиашоу и заболел самолетами. Видно, что человек не боялся работы и риска.
🩺 Боксер 5 лет жил с щелчком в челюсти.
За долгие годы 17 врачей не смогли ему помочь, рентген ничего не показывал.
Чат-бот выдал диагноз за минуту: смещение сустава и рекомендовал сделать - простое упражнение языком.
Он попробовал — и щелчок исчез.
🔜 Добро пожаловать в эру ИИ-медицины.
Пациенты загружают симптомы или даже МРТ — и получают точные диагнозы с вероятностью до 92%.
LLM доверяют сложнейшие кейсы: спинальные патологии, редкие болезни крови и другие «неуловимые» диагнозы.
📊 Новые метрики подтверждают эффективность ИИ:
— MAI-DxO — MAI-DxO — это система оркестрации медицинского ИИ (AI orchestration system), разработанная для объединения разных моделей и инструментов диагностики в единую "умную" систему, которая диагностирует в 4 раза точнее, чем врачи
— HealthBench -это открытый бечмарк для оценки медицинских навыков и точности диагностики, содержит 5000 реальных медицинских cлучаев в формате чатов между пациентом и моделью.
Что самое интересно:
— Когда ИИ работает один — точность диагнозов 95%
— Когда вмешивается человек — точность диагноза падает до 75%: врачи зачастую занижают тревожность, упускают детали
Иногда именно ИИ замечает то, что упустили 17 специалистов.
📌 Источник
@ai_machinelearning_big_data
#ai #ml #medecine
Вот уже результаты бенчмарков от Artificial Analysis:
- Grok 4 достиг индекса искусственного интеллекта (ИИ) 73, опередив OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) и DeepSeek R1 0528 (68).
- Цена Grok 4 эквивалентна Grok 3: 3/15 долларов США за 1 млн токенов ввода/вывода (0,75 доллара США за 1 млн токенов кэшированного ввода). Цена за токен идентична Claude 4 Sonnet, но выше, чем у Gemini 2.5 Pro (1,25/10 долларов США за <200 тыс. токенов ввода) и o3 (2/8 долларов США после недавнего снижения цены).
- Grok 4 лидирует не только по индексу искусственного интеллекта, но и по индексу программирования (LiveCodeBench и SciCode) и индексу математики (AIME24 и MATH-500).
- Рекордный результат в GPQA Diamond — 88%, что значительно выше предыдущего рекорда Gemini 2.5 Pro в 84%.
- Рекордный результат в Humanity's Last Exam — 24%, что превышает предыдущий рекорд Gemini 2.5 Pro в 21%. Обратите внимание, что наш бенчмарк использует исходный набор данных HLE (январь 2025 г.) и запускает текстовую часть без каких-либо инструментов.
- Совместный наивысший результат для MMLU-Pro и AIME 2024 — 87% и 94% соответственно.
- Скорость: 75 выходных токенов/с, медленнее, чем o3 (188 токенов/с), Gemini 2.5 Pro (142 токена/с), Claude 4 Sonnet Thinking (85 токенов/с), но быстрее, чем Claude 4 Opus Thinking (66 токенов/с).
- Окно контекста на 256 тыс. токенов. Это ниже контекстного окна Gemini 2.5 Pro в 1 миллион токенов, но выше, чем у Claude 4 Sonnet и Claude 4 Opus (200 тыс. токенов), o3 (200 тыс. токенов) и R1 0528 (128 тыс. токенов).
- Поддерживает ввод текста и изображений. Аудио пока нет.
- Поддерживает вызов функций и структурированный вывод.
Вышел доклад от François Chollet, который я слушал ещё 3 недели назад в Сан-Франциско на YC AI Startup School.
Это, кстати, был один из 3 самых интересных докладов (другие два - это Карпатый и Chelsea Finn).
В докладе Шолле показывает, что до AGI нам еще далековато, что существующие бенчи слишком простые, и показывает свой новый бенч ARC-AGI-2. На новом бенче средний человек набирает 60%, а команда из нескольких — 100%. В то время как o3-high выбивает только 6.5%, а Claude Opus 4 (Thinking 16K) - 8.6%. Показывая, что пропасть между лучшими LLM и человеком тут огромная.
Старый ARC-AGI-1 продержался пять лет, потому что он был вызовом для обычных LLM, которые хороши в запоминании, но пасуют когда дело доходит до настоящего мышления. Ризонеры наконец-то смогли его решать (но все равно не полностью), поэтому сделали ARC-AGI-2, который опять же бьёт в самую слабую точку современных LLM — их способность к подвижному интеллекту (fluid intelligence). Он проверяет умение работать с символами, многошаговыми правилами и контекстом, где тупой перебор не работает. Шолле ожидает, что этот бенч не продержится так долго, потому что именно в ризонинге будет происходить самый быстрый прогресс в ближайшие годы.
Но ARC-2 — это не предел. Шолле уже затизерил ARC-AGI-3, который должен выйти в 2026 году. Он будет ещё жёстче — бенчмарк будет построен в виде интерактивных игр, требующих от ИИ ставить цели и по-настоящему адаптироваться, а не подбирать решение грубой силой. Фокус этого бенча — эффективность обучения, сравнимую с человеческой. Системы должны будут не просто решить задачу, а сделать это быстро и с небольшим количеством примеров. ARC-3 целится в то, чтобы продержаться больше трёх лет.
В конце он объявил о создании своей новой лабы — NDEA. Их цель — строить тот самый ИИ, который нужен для настоящих прорывов: самообучающийся движок для синтеза программ, способный не на автоматизацию, а на изобретения. По сути, они хотят создать систему, которая сможет ускорять научный прогресс, а бенчмарки ARC будут для них главным мерилом успеха.
https://www.youtube.com/watch?v=5QcCeSsNRks
@ai_newz
У вас уже появился режим "Учимсо вместе" в chatGPT?
Вместо того чтобы давать ответы, он действует как репетитор - задает наводящие вопросы и пошагово разбирает проблемы.
Персонализированное обучение по методу Сократа?
https://techcrunch.com/2025/07/07/chatgpt-is-testing-a-mysterious-new-feature-called-study-together/
@cgevent
Бургеры были настолько огромными, что съесть не смогли, взяли с собой. Похоже это на весь день. В США вообще порции экстремально огромные - для обжор.
Читать полностью…Попросил в бургер 2 котлеты. Повар положил 3 в подарок. Видимо потому что мы монгольской девочкий нашли общий язык, что мясо это все + я сказал, что мы уже были здесь. Очень приятно.
Читать полностью…Следующее место реально другая планета. Были там, но под закат, не хватило времени.
Читать полностью…Следующая остановка будет очень крутая
Читать полностью…