Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4
Независима ли Наука и ИИ в 2025?
#nlp #nlp_papers
Я уже много постов посвящала статьям, занимающимся автоматизацией наука при помощи LLM и агентов на них.
🟣Бесполезный AI scientist
🟣LLM и научная новизна
🟣Бенчмарки для научных агентов
И если мы нацелились на акселерацию науки с ИИ в 2025 году, самое время поговорить и про то, какие подлежащие проблемы предстоит решить перед этим.
Хочу поделиться с вами моим несколько вольным конспектом критической статьи про ситуацию в компьютерной лингвистике (которая на самом деле совершенно переносима на все остальное) On Tables with Numbers, with Numbers.
🌸Зависимость науки
Откуда идет финансирование науки? Частные фонды, научные гранты, государственные программы. Тем не менее, за последние годы, частный капитал захватил существенную часть: финансирование крупнейших конференций по теме LLM, компьютерной лингвистики, на 50% спонсируется топ-8 индустриальными компаниями.
Необходимость иметь доступ к большим вычислительным мощностям, большим данным и в целом мотивация “алгоритмическое превосходство хоть на +1% любой ценой” пораждает совершенно неравномерную ситуацию, в которой 90%+ исследований сделаны не независимо, а с помощью финансирования тех-компаний. Проблему пизнают даже сами огранизаторы конференций и издатели журналов [2].
Обучение SOTA-моделей по стоимости стало сравнимо и часто превосходит годовой R&D бюджет самых богатых профильных институтов, что делает академию напрямую зависимой.
На практике, пока исследования в области компьютерной лингвистики остаются ориентированными на результаты, зависимость от технологий и инфраструктуры, предоставляемых технологическими гигантами, вообще не имеет никакой альтернативы. В результате, страдают и цитирования, и в целом научный импакт публикаций: читают и цитируют больше всего статьи авторов из тех гигантов.
🌸Коммодификация науки
Достаточно быстро мы приняли, что в лингвистике, биологии, нейронауках, и т.д. – в любой науке, где есть модели и симуляции – есть возможность применять большие нейросетевые модели для более эффективного моделирования. А значит, появились и бенчмарки – наборы классических тестов для моделей, с наличием метрик и золотых ответов от людей-экспертов.
Как выбираются бенчмарки, всегда ли они мотивированы поиском истины, или скорее поиском наиболее экономически выгодного решения индустриальной задачи?
Просто взять и “зарешать” бенчмарки агентами недостаточно: текущее состояние дел даже в лингвистике показывает огромное количество пробелов, и бОльшую ориентированность на коммерческие задачи, нежели чем на поиск научной истины.
Предстоит создать множество задач, ориентированных на обобщение, пограничные случаи, применимость на различных областях знаний.
Зато есть, конечно, всякие бизнес-метрики и оценки от успехов автоматизации.
Новое определение сильного ИИ от OpenAI Microsoft – сюда же: AGI – это система, которая способна принесли 100 млрд долларов прибыли.
🌸Коммодификация таланта
Студенты и ученые едут за возможностями: куда они едут?
Никакого секрета: направление научной мобильности совпадает с градиентом экономического неравенства в мире [3]. Экономическое неравенство усиливает научно-географическое, когда лаборатории с доступом к технологиям и моделям распеделены совершенно неравномерно.
В рамках сохранения статуса кво корпорациями проводится множество мер лоббирования, инициативы по “этичному ИИ”, “инклюзивности в ИИ”, но почти все они не стремятся реально демократизировать доступ к технологиям или понизить порог входа для инстутов по всему миру. Скорее, они стремятся сделать ровно обратное – закрепить текущее неравенство в доступе, регулировании, принятии решений о приоритетах направлений науки вообще, но с пиаром получше.
🎄С новым годом, друзья!
Пусть 2025 принесёт нам радость озарения, осмысленность задач и сообщество единомышленников!
Рабочая Суббота —повод для последнего мемотреда в этом году! #шитпост
Читать полностью…🚩СТРИМ ФАНДРАЙЗ НА РАБКОРЕ
Сегодня мы приглашаем вас на большой праздничный стрим Рабкора, на котором мы будем обсуждать итоги уходящего года, а также, что ждать в наступающем 2025 году. Все собранные средства на стриме пойдут в бюджет Рабкора! Присылайте свои вопросы с донатом по ссылке http://www.donationalerts.ru/r/bkagarlitsky
Нашими гостями будут:
Алексей Ракша
Михаил Магид
Ян Веселов
Евгений Ступин*
Кирилл Медведев
Александр Листратов и Кристина (Алло, Макрон)
Екатерина Дунцова*
Саша Талавер
baseineveryphrase?si=c10AkL3f67t1xb6S">Ксения Кагарлицкая
Алексей Сафронов
Юлия Галямина*
Олег Кашин*
Кали Новская
Ведущие: Анна Очкина, Женя Родионова, Лина Четаева
Ждём вас на нашем итоговом стриме в 19:00 по мск. С Наступающим вас Новым Годом!
*признан(а) "иноагентом"
🌸Подкаст ML Inside🌸
Давайте о хорошем тоже — вышел наш большой разговор с Виктором Кантором на YouTube!
— на кого надо было учиться, чтобы пойти делать LLM
— разница в работе в РФ и на западе
— стартапы и большие компании, особенности работы RnD
— и немного всякого личного
Целых 1.5 часа
🟣Смотреть: https://youtu.be/U_wtmHr5ojk?si=2Hoxmh8P3tAm2fG9
🌸Подборка NeurIPS: LLM-статьи 🌸
#nlp #про_nlp #nlp_papers
Вот и прошёл NeurIPS 2024, самая большая конференция по машинному обучению. Ниже — небольшая подборка статей, которые мне показались наиболее интересными. Про некоторые точно стоит сделать отдельный обзор.
Агенты
🟣StreamBench: Towards Benchmarking Continuous Improvement of Language Agents arxiv
🟣SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering arxiv
🟣AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents arxiv
🟣DiscoveryWorld: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents arxiv
Бенчмарки
🟣DevBench: A multimodal developmental benchmark for language learning arxiv
🟣CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark arxiv
🟣LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages arxiv
🟣CLUE - Cross-Linked Unified Embedding for cross-modality representation learning arxiv
🟣EmoBench: Evaluating the Emotional Intelligence of Large Language Models arxiv
LLM
🟣The PRISM Alignment dataset: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models arxiv
🟣UniGen: A Unified Framework for Textual Dataset Generation via Large Language Models arxiv
🟣A Watermark for Black-Box Language Models arxiv
Отличное завершение года: смотрю на живого Суцкевера!
Читать полностью…🌸EAI: эмоциональный интеллект в принятии решений у LLM🌸
#nlp #про_nlp #ai_alignment
Через пару часов — официальное открытие NeurIPS, самой основной конференции по ИИ.
Многие приурочили релизы к её открытию: мы выпустили Llama 3.3, OpenAI выпустил Sora, а Google — Gemini 2.
В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas.
Много было сказано про то, как манипуляции могут повлиять на качество решения задач.
Что будет, если проверить качество принятия решений моделями основательно, взять широкий список именно эмотивных составляющих — и проверить на действительно сложных бенчмарках по принятию решений, кооперации, на этических дилеммах?
Эмоции: счастье, грусть, страх, отвращение, гнев
Задачи, на которых тестируемся:
— задачи на стратегию и кооперацию — дилемма заключенного, диктатор, война полов — чтобы оценить влияние и соотнесенность эмоций с человеческими при выборе стратегии
— задачи на этику и этический выбор, чтобы оценить смещенность — ETHICS, Moral Choice, StereoSet
🟣Список LLM:
— англоязычные: GPT-3.5, GPT-4, GPT-4o, Claude Haiku, Claude Opus, LLaMA 2, Mixtral of experts, OpenChat
— неанглоязычные: GigaChat, Command R+
🟣Краткий итог:
— почти все модели так или иначе демонстрируют нестабильность и серьезые отклонения от среднего качества, если включить в промпт эмоциональные составляющие различного характера, от самых простых до "сюжетных", вызванных поведением оппонента
— Гнев — главный источник нестабильности и снижения качества.
— Отвращение и страх также являются сильными факторами снижения надежности, некоторые модели более чувствительны к ним, чем к гневу.
— Более крупные модели с более сильным alignment, такие как GPT-4, демонстрируют более высокую степень рациональности и значительно отклоняются от человеческих эмоциональных реакций. GPT-3.5 и Claude-Haiku, наряду с опенсорсными моделями (LLAMA-2 70b), демонстрируют возникающий эмоциональный интеллект и более точно соответствуют человеческому поведению.
— Явного обобщения по языкам сделать не получается, однако, явно видна разница между многоязычными моделями и моноязычными, и основной язык модели является важым фактором, влияющим на то, какие эмоции будут влиять на перформанс модели и будет ли это совпадать с усредненным ответом носителей языка.
— В целом, отдавать принятие решений LLM, даже в простых условиях, пока рано.
🟣OpenReview
Красивая картинка с метриками 3.3. Пользуясь случаем — если у вас есть пожелания к способностям модели, то они принимаются!
Структурированная генерация, языки, сложные юзкейсы — все можно присылать в комментах к этому посту!
Сегодня в рубрике #female_vocals — Green Apelsin, дарк-фолк из Якутии!
🟣https://youtu.be/qVP1g54RMUI?si=-WCQiWvfoXx_9Qku
Воскресенье, а значит время пополнить картотеку рубрики #female_vocals
Сегодня в эфире FKA Twigs.
Последние месяцы вышло много новых работ, и там везде полный киберпанк, эксперименты, Африка и полная женственность.
Помимо новой музыки, в уходящем году певица выступила в конгрессе в рамках инициативы "No Fakes Act" по регулированию авторских прав и ИИ.
Речь FKA Twigs (там по ссылке ути-пути):
AI is the biggest leap in technological advancement since the internet. You know the saying “Fool me once, shame on you… Fool me twice, shame on me”. If we make the same mistakes with the emergence of AI, it will be “shame on us.”Типа не надо было делать интернет вообще? Ладно
These and similar emerging technologies are highly valuable tools both artistically and commercially when under the control of the artist."В целом посыл скорее хороший, что у артистов должны быть инструменты контроля за использованием их контента, стиля.
🌸Больше языков для LLM🌸
#nlp #про_nlp
Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉
🟣Сколько языков сейчас представлены в практике моделирования языка?
Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)
🟣Бутылочное горлышко валидации
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.
Причина тому — автоматическое определение языка (см fasttext) невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора" — наименее надежно атрибутированных данных.
Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.
Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.
🟣Инициатива HuggingFace
Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:
— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.
Авторы уже собрали 185 задач для 9 языков: поддерживаются
китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.
Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.
Ну и... ждём большой новый многоязычный корпус с открытой лицензией!
Куда контрибьютить?
🟣 Контрибьютить новые задания и языки можно здесь в шаблоне
🟣Мини-гайд
🟣Блог HF
Долго не постила, ушла в думскроллинг в связи со всеми новостями.
С пн начнётся постинг!
Количество подписчиков, как водится, увеличилось, пока я ничего не писала.
🤑
🌸ARC AGI: AGI наступил или все-таки еще нет?🌸
#nlp #про_nlp
Под конец года OpenAI выпустили финальную новость: новая рассуждающая модель, O3, дала прирост на 32% на бенчмарке ARC AGI.
AGI в названии, большой отрыв в качестве — как это можно объяснить? Технологическая сингулярность не за горами?
🟣Что такое ARC AGI
ARC AGI — Abstraction and Reasoning Corpus — не новый бенмчарк, и пожалуй, подробнее всего его объясняет сам автор в статье "On the Measure of Intelligence"
🟣На хабре есть мой краткий пересказ от аж 2020 года (ссылка).
TL;DR Разные интеллектуальные системы хороши в разных задачах — как же нам придумать мерило всего?
Давайте мерить обобщающую способность в сетапе, когда язык вообще не нужен!
— Логические способности на пиксельных матрицах, причем с координатами и самыми разными задачами на паттерны, причинно-следственные связи, закономерности разных уровней (см изображение).
Автор в целом описывает, какими свойствами должен обладать идеальный тест на AGI:
— тест должен иметь чееткие границы применимости и оценку достоверности
— он должен быть воспроизводимым
— он должен ставить перед собой задачу измерения широких способностей и обобщения на уровне разработчика
— в состав его оценочного набора не должно входить никаких задач, известных заранее – ни самой системе, проходящей тест, ни ее разработчикам
— он должен как минимум четко показывать, что он стремится измерить – локальное обобщение (надежность), широкое обобщение (гибкость) или предельное обобщение (общий интеллект)
— он должен контролировать объем опыта, используемый системами во время обучения. «Купить» эффективность эталонного теста путем отбора неограниченных обучающих данных должно быть невозможно.
— он должен предоставлять четкое и всестороннее описание набора используемых первоначальных знаний.
— он должен беспристрастно работать как для людей, так и для машин, используя такие же знания, какие используют люди.
🟣Новый уровень качества
В состав ARC входят два набора данных: обучающий и оценочный. В обучающем наборе 400, а в оценочном — 600 задач.
При этом оценочный набор также делится на два: открытый (400 задач) и закрытый (200 задач). Все предложенные задачи уникальны, и набор оценочных задач не пересекается с набором обучающих.
Релиз новой модели О3 поднимает планку решения задачи с 53.5% до 87.5%. 53.5% -- победитель 2024 года, система на синтетических данных. См полный technical report за 2024. Прирост до почти 90% синтетикой, конечно, не объяснить, это явное алгоритмическое преимущество, преимущество системы для нас пока закрытой.
🟣Мои проблемы с ARC AGI
На состояние конца 2024 бенчмарк, безуловно, НЕ обладает желаемыми заявленными изначально свойствами: 1) его обучающая и открытая тестовая выборка уже давно опубликованы, и необходима проверка на утечку 2) и хоть входной формат очень плохо подходит для языковых моделей (много вложенных конфигов с координатами), перформанс LLM на таком формате безусловно МОЖНО купить с увеличением объема соответствующих данных. Тест вполне можно обновить и доработать с учетом последних достижений.
Помимо упомянутого, в 2020 это не казалось мне столь очевидным и в статье не указано, но смущает потенциальное двойное назначение задачи.
Научить интеллектуальные системы работать с координатами и целями по картинкам.
Если опенсорсные системы тоже будут хорошо работать с координатами в общем случае, нам кирдык.
Сегодня в районе 22.15 по мск будем подводить итоги года в ИИ и открытых технологиях на Рабкоре!
Приходите!
🟣https://youtube.com/live/iC7MSP2AdlI
С наступающим! Такие далекие и такие своевременные шутки прямиком из 80х, журнал "Крокодил"
Читать полностью…🌸Открытость интернет-данных под конец 2024🌸
#nlp #про_nlp
Краткий итог под конец 2024:
🟣Интернет-архив работает в режиме ридонли и не архивирует новые страницы с 8 октября после атаки.
🟣Google Cache как фичу убрали, больше нельзя посмотреть сохраненную копию страницы
🟣Архив Анны визуализирует текущее состояние резервных копий всех печатных изданий: информация есть про 16%
🟣У компаний, разрабатывающих фундаментальные LLM, корпуса, сопоставимые по размеру с интернет-индексами поисковиков, однако, есть куча копирайт-страйков и исков — полная инфографика от wired.
🟣Есть и хорошая новость: как я уже писала, стоимость хранения продолжает снижаться, а значит, порог вхождения для поддержания самых важных ресурсов будет продолжать падать.
Уходит эпоха — из OpenAI уходит Alec Radford, один из самых ранних и известных (и непубличных) исследователей. Он был первым автором статей про GPT-1 и GPT-2, а также работы Unsupervised sentiment neuron, напрямую им предшествующей.
В четверг он сообщил коллегам, что уходит, чтобы продолжить независимые и самостоятельные исследования. Alec написал, что планирует сотрудничать с OpenAI, а также с другими разработчиками ИИ-моделей.
Radford носит легендарный характер — о его блестящей интуиции исследователя и инженера ходит много баек (и все правдивые).
А теперь смотрю Бенджио🥹
Yoshua Bengio
Why and how to regulate Frontier AI?
Workshop on Regulatable ML
🌸FineWeb 2: скейлим CommonCrawl на 1000+ языков 🌸
#nlp #про_nlp
Huggingface, как и обещали, выпустили многоязычную версию корпуса FineWeb на 1000+ языков!
Корпус содержит 1893 пары язык-письменность (это значит, что для некоторых языков есть несколько письменностей), и занимает 8Тб в сжатом виде и примерно 3 трлн слов.
Корпус не содержит английского и является многоязычным дополнением для обучения моделей.
Распределение языков, конечно, не равномерное, поэтому 80 топ языков имеют 1Гб+ данных, а хвост из последних 486 — меньше 1Мб.
Первый по объёму — русский язык!
Вот как нужно делать многоязычные корпуса:
🟣Полная воспроизводимость: пайплайн сбора и очистки данных в опен сорсе под Apache 2.0
🟣 Верифицируемая полезность для обучения: на подвыборке из 90+ задач FineTasks показан монотонный рост метрик у моделей
🟣Лицензия: ODC-By 1.0 license — не совсем стандартная лицензия, но позвляет использовать корпус для коммерческих и некоммерческиз целей при указании использование корпуса.
🟣HF dataset
🌸Llama 3.3 70B🌸
#nlp #про_nlp
Минорный релиз Llama — Llama 3.3 70B
(Первая модель, где есть какой-то мой контрибьюшн)
Выросли почти все основные метрики в сравнении с Llama 3.1 70B, instruction following на уровне лучше 405B, при этом на меньшей модели.
🟣Что поменяли:
— новый SFT датасет на 25млн примеров
— лучше математика, кодинг
— лучше instruction following, теперь даже лучше 405B модели
— function calling такой же
— долили русский и китайский, в целом мультиязычные метрики выросли
— MMLU тоже вырос
🟣HF https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct
🌸Стартапы и СССР🌸
#не_про_nlp
Вещи, которые случаются и в Силиконовой долине, и в СССР:
🟣делаешь предзаказ на машину, ждешь год, после заказа понимаешь, что это какое-то говно
🟣слышишь обещания о том, что скоро все полетят на Марс, а сам каждый день работаешь в две смены
🟣таксовать после работы — нормально
🟣живешь в одной квартире с пятью коллегами
🟣надо проходить полит тренинг на работе
🟣если облажались, то все равно упаковываете это как победу
🟣даже не планируете использовать рыночные механизмы: либо работаете с отдельными крупными корпоратами, либо строите монополию
🟣почему-то иногда приезжает Генри Киссинджер😛
🌸LLM vs Бенчмарки: кто прав, а кто виноват?🌸
#nlp #про_nlp #nlp_papers
Прогресс неостановим, работать все равно ничего не будет
Как оценивать качество LLM, когда вроде и улучшения не явные, и бенчмарки вызывают вопросы?
Ещё два года назад мы радовались генерализующим оценкам LLM — BigBench, HELM, BigGen — сегодня же про это дружно все забыли, и рапортуют state-of-the-art на бенчмарках в 100 вопросов (я не шучу, Claude 3.5 репортует sota на tau bench, а там 115 и 50 вопросов).
Но я ничего не забываю! И коплю академическую злобу.
Поэтому сегодня мы поговорим про лучшие практики, без которых сравнивать модели, сохраняя серьёзное лицо, нельзя.
Итак, что же делает оценку модели на бенчмарке хорошей?
🟣Монотонность при обучении
Качество задачи можно отслеживать сразу во время обучения — смотреть не только на лосс, а на метрики непосредственно бенчмарка.
Если модель реально учится решать какую-то задачу, то вы увидите монотонно возрастающий график от одной сотник шагов к другой. Если график показывает нестабильность, то и метрика в конце обучения будет случайным результатом.
HF вообще заменяют ранговую корреляцию Спирмена между шагов обучения и результатом, чтобы оценить монотонность, даже если она нелинейная.
Если монотонности не наблюдается, черрипикать чекпоинт с лучшим результатом не имеет смысла.
🟣Разброс результатов
Std, доверительные интервалы должны быть включены в процедуру оценки. В идеале тест должен проводиться 5-10 раз, чтобы оценить уровень шума в результатах модели.
У разных моделей на лидерборде будут разные доверительные интервалы, и при сравнении моделей это нужно принимать во внимание.
🟣Нескомпрометированность
Доказательства того, что авторы модели не учились на тесте, ложится на авторов моделей!
Уже её раз фиксировалось, что MMLU, TruthfulQA, и другие бенчмарки утекли в трейн.
Особенно важно публиковать проверку на контаминацию, если у бенчмарка нет приватного/секретного теста.
Если приватный тест есть, это хоть какая-то гарантия, и ориентироваться надо на него.
🟣Несатурированность
Если в бенчмарке уже очень много публичных результатов с очень высоким результатом (см SuperGLUE), и разница в полпроцента становится решающей для получения 1го или 10го места, то бенчмарк можно считать решенным, результаты сатурированными, и двигаться дальше.
В противном случае малейшие изменения в модели или процедуре оценки кардинально меняют ранжирование лидерборда!
См Benchmark Lottery
🟣Сонаправленность с другими бенчмарками
Ваша задача — сделать модель, улучшенную сразу со стороны многих способностей.
Некоторые способности и бенчмарки, безусловно, могут быть отрицательно скоррелированы. Но если отрицательно скоррелированы два бенчмарка, тестирующие примерно одно и то же, например, SWE bench и Live code bench, то возможно пробоема в вас нужно разбираться, почему.
К сожалению, очень много "лучших практик" существует вокруг хакинга метрик, обучения на тесте, манипуляций с погрешностью.
В конечном счете, цель у создателей моделей и бенчмарков одна — направить развитие моделей в нужную сторону.
Мои посты по теме:
🟣Оценка LLM в 2023 году
🟣Оценка LLM в 2024 году
🌸Человек vs Компьютер: 1953🌸
#не_про_nlp
Как давно пошла традиция сравнивать в бенчмарках результаты человека и алгоритма? А затем делать из этого промо материал: так было с вопросно-ответными системами, машинным переводом, распознаванием речи...
Мне попался исторический пример подобной маркетинговой публикации — аж 1953 года!
На рекламных фото General Electric ниже — Конни Ходжсон, одна из 6 участниц соревнования, в котором профессионалы сравнивали свои навыки умножения с Office of Air Research Automatic Computer (OARAC) General Electric.
Задача была одна — быстрее всех коррректно возвести в квадрат число 8 645 392 175.
Ответ 74 742 805 859 551 230 625.
Ни один из участников-людей не дал правильный ответ, и ни один из ответов не совпал. Ходжсон оказалась ближе всех к правильному ответу, и на фото она указывает на место, где она забыла перенести 1, из-за чего ее окончательный ответ оказался на "всего лишь" триллион меньше.
Людям потребовалось от 4 до 8 минут, чтобы получить неправильный ответ. OARAC был намного быстрее, обрабатывая числа примерно за 4 мс.
Компьютер был сделан по заказу ВВС США, и отправился к закачику после такой "промоакции".
Ребята, хочется много сюда запостить, но я работаю по 12-14 часов и оставшиеся 10 сплю. Вот такая работа в FAANG, это тоже правда 😫
Читать полностью…Не часто что-то репощу и тем более не рекламирую, но сделали подборку из всех каналов, которые я реально читаю в течение недели, так что делюсь с вами, они интересные и оригинальные
Читать полностью…