Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4
Сегодня в районе 22.15 по мск будем подводить итоги года в ИИ и открытых технологиях на Рабкоре!
Приходите!
🟣https://youtube.com/live/iC7MSP2AdlI
С наступающим! Такие далекие и такие своевременные шутки прямиком из 80х, журнал "Крокодил"
Читать полностью…🌸Открытость интернет-данных под конец 2024🌸
#nlp #про_nlp
Краткий итог под конец 2024:
🟣Интернет-архив работает в режиме ридонли и не архивирует новые страницы с 8 октября после атаки.
🟣Google Cache как фичу убрали, больше нельзя посмотреть сохраненную копию страницы
🟣Архив Анны визуализирует текущее состояние резервных копий всех печатных изданий: информация есть про 16%
🟣У компаний, разрабатывающих фундаментальные LLM, корпуса, сопоставимые по размеру с интернет-индексами поисковиков, однако, есть куча копирайт-страйков и исков — полная инфографика от wired.
🟣Есть и хорошая новость: как я уже писала, стоимость хранения продолжает снижаться, а значит, порог вхождения для поддержания самых важных ресурсов будет продолжать падать.
Уходит эпоха — из OpenAI уходит Alec Radford, один из самых ранних и известных (и непубличных) исследователей. Он был первым автором статей про GPT-1 и GPT-2, а также работы Unsupervised sentiment neuron, напрямую им предшествующей.
В четверг он сообщил коллегам, что уходит, чтобы продолжить независимые и самостоятельные исследования. Alec написал, что планирует сотрудничать с OpenAI, а также с другими разработчиками ИИ-моделей.
Radford носит легендарный характер — о его блестящей интуиции исследователя и инженера ходит много баек (и все правдивые).
А теперь смотрю Бенджио🥹
Yoshua Bengio
Why and how to regulate Frontier AI?
Workshop on Regulatable ML
🌸FineWeb 2: скейлим CommonCrawl на 1000+ языков 🌸
#nlp #про_nlp
Huggingface, как и обещали, выпустили многоязычную версию корпуса FineWeb на 1000+ языков!
Корпус содержит 1893 пары язык-письменность (это значит, что для некоторых языков есть несколько письменностей), и занимает 8Тб в сжатом виде и примерно 3 трлн слов.
Корпус не содержит английского и является многоязычным дополнением для обучения моделей.
Распределение языков, конечно, не равномерное, поэтому 80 топ языков имеют 1Гб+ данных, а хвост из последних 486 — меньше 1Мб.
Первый по объёму — русский язык!
Вот как нужно делать многоязычные корпуса:
🟣Полная воспроизводимость: пайплайн сбора и очистки данных в опен сорсе под Apache 2.0
🟣 Верифицируемая полезность для обучения: на подвыборке из 90+ задач FineTasks показан монотонный рост метрик у моделей
🟣Лицензия: ODC-By 1.0 license — не совсем стандартная лицензия, но позвляет использовать корпус для коммерческих и некоммерческиз целей при указании использование корпуса.
🟣HF dataset
🌸Llama 3.3 70B🌸
#nlp #про_nlp
Минорный релиз Llama — Llama 3.3 70B
(Первая модель, где есть какой-то мой контрибьюшн)
Выросли почти все основные метрики в сравнении с Llama 3.1 70B, instruction following на уровне лучше 405B, при этом на меньшей модели.
🟣Что поменяли:
— новый SFT датасет на 25млн примеров
— лучше математика, кодинг
— лучше instruction following, теперь даже лучше 405B модели
— function calling такой же
— долили русский и китайский, в целом мультиязычные метрики выросли
— MMLU тоже вырос
🟣HF https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct
🌸Стартапы и СССР🌸
#не_про_nlp
Вещи, которые случаются и в Силиконовой долине, и в СССР:
🟣делаешь предзаказ на машину, ждешь год, после заказа понимаешь, что это какое-то говно
🟣слышишь обещания о том, что скоро все полетят на Марс, а сам каждый день работаешь в две смены
🟣таксовать после работы — нормально
🟣живешь в одной квартире с пятью коллегами
🟣надо проходить полит тренинг на работе
🟣если облажались, то все равно упаковываете это как победу
🟣даже не планируете использовать рыночные механизмы: либо работаете с отдельными крупными корпоратами, либо строите монополию
🟣почему-то иногда приезжает Генри Киссинджер😛
🌸LLM vs Бенчмарки: кто прав, а кто виноват?🌸
#nlp #про_nlp #nlp_papers
Прогресс неостановим, работать все равно ничего не будет
Как оценивать качество LLM, когда вроде и улучшения не явные, и бенчмарки вызывают вопросы?
Ещё два года назад мы радовались генерализующим оценкам LLM — BigBench, HELM, BigGen — сегодня же про это дружно все забыли, и рапортуют state-of-the-art на бенчмарках в 100 вопросов (я не шучу, Claude 3.5 репортует sota на tau bench, а там 115 и 50 вопросов).
Но я ничего не забываю! И коплю академическую злобу.
Поэтому сегодня мы поговорим про лучшие практики, без которых сравнивать модели, сохраняя серьёзное лицо, нельзя.
Итак, что же делает оценку модели на бенчмарке хорошей?
🟣Монотонность при обучении
Качество задачи можно отслеживать сразу во время обучения — смотреть не только на лосс, а на метрики непосредственно бенчмарка.
Если модель реально учится решать какую-то задачу, то вы увидите монотонно возрастающий график от одной сотник шагов к другой. Если график показывает нестабильность, то и метрика в конце обучения будет случайным результатом.
HF вообще заменяют ранговую корреляцию Спирмена между шагов обучения и результатом, чтобы оценить монотонность, даже если она нелинейная.
Если монотонности не наблюдается, черрипикать чекпоинт с лучшим результатом не имеет смысла.
🟣Разброс результатов
Std, доверительные интервалы должны быть включены в процедуру оценки. В идеале тест должен проводиться 5-10 раз, чтобы оценить уровень шума в результатах модели.
У разных моделей на лидерборде будут разные доверительные интервалы, и при сравнении моделей это нужно принимать во внимание.
🟣Нескомпрометированность
Доказательства того, что авторы модели не учились на тесте, ложится на авторов моделей!
Уже её раз фиксировалось, что MMLU, TruthfulQA, и другие бенчмарки утекли в трейн.
Особенно важно публиковать проверку на контаминацию, если у бенчмарка нет приватного/секретного теста.
Если приватный тест есть, это хоть какая-то гарантия, и ориентироваться надо на него.
🟣Несатурированность
Если в бенчмарке уже очень много публичных результатов с очень высоким результатом (см SuperGLUE), и разница в полпроцента становится решающей для получения 1го или 10го места, то бенчмарк можно считать решенным, результаты сатурированными, и двигаться дальше.
В противном случае малейшие изменения в модели или процедуре оценки кардинально меняют ранжирование лидерборда!
См Benchmark Lottery
🟣Сонаправленность с другими бенчмарками
Ваша задача — сделать модель, улучшенную сразу со стороны многих способностей.
Некоторые способности и бенчмарки, безусловно, могут быть отрицательно скоррелированы. Но если отрицательно скоррелированы два бенчмарка, тестирующие примерно одно и то же, например, SWE bench и Live code bench, то возможно пробоема в вас нужно разбираться, почему.
К сожалению, очень много "лучших практик" существует вокруг хакинга метрик, обучения на тесте, манипуляций с погрешностью.
В конечном счете, цель у создателей моделей и бенчмарков одна — направить развитие моделей в нужную сторону.
Мои посты по теме:
🟣Оценка LLM в 2023 году
🟣Оценка LLM в 2024 году
🌸Человек vs Компьютер: 1953🌸
#не_про_nlp
Как давно пошла традиция сравнивать в бенчмарках результаты человека и алгоритма? А затем делать из этого промо материал: так было с вопросно-ответными системами, машинным переводом, распознаванием речи...
Мне попался исторический пример подобной маркетинговой публикации — аж 1953 года!
На рекламных фото General Electric ниже — Конни Ходжсон, одна из 6 участниц соревнования, в котором профессионалы сравнивали свои навыки умножения с Office of Air Research Automatic Computer (OARAC) General Electric.
Задача была одна — быстрее всех коррректно возвести в квадрат число 8 645 392 175.
Ответ 74 742 805 859 551 230 625.
Ни один из участников-людей не дал правильный ответ, и ни один из ответов не совпал. Ходжсон оказалась ближе всех к правильному ответу, и на фото она указывает на место, где она забыла перенести 1, из-за чего ее окончательный ответ оказался на "всего лишь" триллион меньше.
Людям потребовалось от 4 до 8 минут, чтобы получить неправильный ответ. OARAC был намного быстрее, обрабатывая числа примерно за 4 мс.
Компьютер был сделан по заказу ВВС США, и отправился к закачику после такой "промоакции".
Ребята, хочется много сюда запостить, но я работаю по 12-14 часов и оставшиеся 10 сплю. Вот такая работа в FAANG, это тоже правда 😫
Читать полностью…Не часто что-то репощу и тем более не рекламирую, но сделали подборку из всех каналов, которые я реально читаю в течение недели, так что делюсь с вами, они интересные и оригинальные
Читать полностью…🌸Про ABBYY и будущее лингвистики🌸
#nlp #про_nlp
По тг разошёлся текст Системного Блока про ABBYY, да и правда, после истории массовых увольнений очень хотелось подвести какую-то черту. Напишу свои 5 копеек, потому что можно сказать, что вокруг ABBYY начиналась моя карьера.
ABBYY долгое время считалась самой лучшей компанией, куда мог бы устроиться лингвист.
Когда я только поступала на ОТиПЛ, туда шли работать лучшие выпускники. При этом ходило мнение, что вот, дескать, интеллектуальная эксплуатация — забирают лучших выпускников, которые могли бы быть успешными учёными, и фуллтайм заставляют писать правила на Compreno. (Ну и правда, в 2012 году там 40-60к платили, а в академии меньше.)
Помимо прочего, ABBYY оранизовывала самую большую NLP конференцию — Диалог, а также создала интернет-корпус русского языка, спонсировала кучу NLP-соревнований и shared tasks, которые распаляли многих проверить свои гипотезы на практике.
🟣Что же теперь делать лингвистике?
Лингвистика разберётся!
Я думаю, текущий вызов даже не самый серьёзный за историю существования кафедры. Да, последние годы приходилось работать под давлением общественного мнения, хайпом LLM...ну так он пройдёт.
Аналитическая, теоретическая лингвистика нужна самой себе и другим наукам:
— как понять и описать происхождение языка,
— как определить биологические ограничения, повлиявшие на язык
— как язык влияет на мышление и обратно,
— как смоделировать максимально общую теоретическую модель языка, описывающую процессы в языках мира,
— как проверить и описать, что находится в корпусе.
Все эти вопросы остаются нужны, и остаются ключевыми вопросами лингвистики.
А языковые модели и NLP потихоньку поглощают уже другие науки:
— OpenAI нанимает филдсевских лауреатов в т ч для составления SFT датасета по математике
— они же нанимают PhD в разных дисциплинах для разметки и валидации данных.
Так что в жернова ИИ пойдут уже выпускники других специальностей. А лингвистика будет заниматься делом.
🚩СТРИМ ФАНДРАЙЗ НА РАБКОРЕ
Сегодня мы приглашаем вас на большой праздничный стрим Рабкора, на котором мы будем обсуждать итоги уходящего года, а также, что ждать в наступающем 2025 году. Все собранные средства на стриме пойдут в бюджет Рабкора! Присылайте свои вопросы с донатом по ссылке http://www.donationalerts.ru/r/bkagarlitsky
Нашими гостями будут:
Алексей Ракша
Михаил Магид
Ян Веселов
Евгений Ступин*
Кирилл Медведев
Александр Листратов и Кристина (Алло, Макрон)
Екатерина Дунцова*
Саша Талавер
baseineveryphrase?si=c10AkL3f67t1xb6S">Ксения Кагарлицкая
Алексей Сафронов
Юлия Галямина*
Олег Кашин*
Кали Новская
Ведущие: Анна Очкина, Женя Родионова, Лина Четаева
Ждём вас на нашем итоговом стриме в 19:00 по мск. С Наступающим вас Новым Годом!
*признан(а) "иноагентом"
🌸Подкаст ML Inside🌸
Давайте о хорошем тоже — вышел наш большой разговор с Виктором Кантором на YouTube!
— на кого надо было учиться, чтобы пойти делать LLM
— разница в работе в РФ и на западе
— стартапы и большие компании, особенности работы RnD
— и немного всякого личного
Целых 1.5 часа
🟣Смотреть: https://youtu.be/U_wtmHr5ojk?si=2Hoxmh8P3tAm2fG9
🌸Подборка NeurIPS: LLM-статьи 🌸
#nlp #про_nlp #nlp_papers
Вот и прошёл NeurIPS 2024, самая большая конференция по машинному обучению. Ниже — небольшая подборка статей, которые мне показались наиболее интересными. Про некоторые точно стоит сделать отдельный обзор.
Агенты
🟣StreamBench: Towards Benchmarking Continuous Improvement of Language Agents arxiv
🟣SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering arxiv
🟣AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents arxiv
🟣DiscoveryWorld: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents arxiv
Бенчмарки
🟣DevBench: A multimodal developmental benchmark for language learning arxiv
🟣CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark arxiv
🟣LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages arxiv
🟣CLUE - Cross-Linked Unified Embedding for cross-modality representation learning arxiv
🟣EmoBench: Evaluating the Emotional Intelligence of Large Language Models arxiv
LLM
🟣The PRISM Alignment dataset: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models arxiv
🟣UniGen: A Unified Framework for Textual Dataset Generation via Large Language Models arxiv
🟣A Watermark for Black-Box Language Models arxiv
Отличное завершение года: смотрю на живого Суцкевера!
Читать полностью…🌸EAI: эмоциональный интеллект в принятии решений у LLM🌸
#nlp #про_nlp #ai_alignment
Через пару часов — официальное открытие NeurIPS, самой основной конференции по ИИ.
Многие приурочили релизы к её открытию: мы выпустили Llama 3.3, OpenAI выпустил Sora, а Google — Gemini 2.
В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas.
Много было сказано про то, как манипуляции могут повлиять на качество решения задач.
Что будет, если проверить качество принятия решений моделями основательно, взять широкий список именно эмотивных составляющих — и проверить на действительно сложных бенчмарках по принятию решений, кооперации, на этических дилеммах?
Эмоции: счастье, грусть, страх, отвращение, гнев
Задачи, на которых тестируемся:
— задачи на стратегию и кооперацию — дилемма заключенного, диктатор, война полов — чтобы оценить влияние и соотнесенность эмоций с человеческими при выборе стратегии
— задачи на этику и этический выбор, чтобы оценить смещенность — ETHICS, Moral Choice, StereoSet
🟣Список LLM:
— англоязычные: GPT-3.5, GPT-4, GPT-4o, Claude Haiku, Claude Opus, LLaMA 2, Mixtral of experts, OpenChat
— неанглоязычные: GigaChat, Command R+
🟣Краткий итог:
— почти все модели так или иначе демонстрируют нестабильность и серьезые отклонения от среднего качества, если включить в промпт эмоциональные составляющие различного характера, от самых простых до "сюжетных", вызванных поведением оппонента
— Гнев — главный источник нестабильности и снижения качества.
— Отвращение и страх также являются сильными факторами снижения надежности, некоторые модели более чувствительны к ним, чем к гневу.
— Более крупные модели с более сильным alignment, такие как GPT-4, демонстрируют более высокую степень рациональности и значительно отклоняются от человеческих эмоциональных реакций. GPT-3.5 и Claude-Haiku, наряду с опенсорсными моделями (LLAMA-2 70b), демонстрируют возникающий эмоциональный интеллект и более точно соответствуют человеческому поведению.
— Явного обобщения по языкам сделать не получается, однако, явно видна разница между многоязычными моделями и моноязычными, и основной язык модели является важым фактором, влияющим на то, какие эмоции будут влиять на перформанс модели и будет ли это совпадать с усредненным ответом носителей языка.
— В целом, отдавать принятие решений LLM, даже в простых условиях, пока рано.
🟣OpenReview
Красивая картинка с метриками 3.3. Пользуясь случаем — если у вас есть пожелания к способностям модели, то они принимаются!
Структурированная генерация, языки, сложные юзкейсы — все можно присылать в комментах к этому посту!
Сегодня в рубрике #female_vocals — Green Apelsin, дарк-фолк из Якутии!
🟣https://youtu.be/qVP1g54RMUI?si=-WCQiWvfoXx_9Qku
Воскресенье, а значит время пополнить картотеку рубрики #female_vocals
Сегодня в эфире FKA Twigs.
Последние месяцы вышло много новых работ, и там везде полный киберпанк, эксперименты, Африка и полная женственность.
Помимо новой музыки, в уходящем году певица выступила в конгрессе в рамках инициативы "No Fakes Act" по регулированию авторских прав и ИИ.
Речь FKA Twigs (там по ссылке ути-пути):
AI is the biggest leap in technological advancement since the internet. You know the saying “Fool me once, shame on you… Fool me twice, shame on me”. If we make the same mistakes with the emergence of AI, it will be “shame on us.”Типа не надо было делать интернет вообще? Ладно
These and similar emerging technologies are highly valuable tools both artistically and commercially when under the control of the artist."В целом посыл скорее хороший, что у артистов должны быть инструменты контроля за использованием их контента, стиля.
🌸Больше языков для LLM🌸
#nlp #про_nlp
Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉
🟣Сколько языков сейчас представлены в практике моделирования языка?
Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)
🟣Бутылочное горлышко валидации
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.
Причина тому — автоматическое определение языка (см fasttext) невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора" — наименее надежно атрибутированных данных.
Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.
Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.
🟣Инициатива HuggingFace
Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:
— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.
Авторы уже собрали 185 задач для 9 языков: поддерживаются
китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.
Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.
Ну и... ждём большой новый многоязычный корпус с открытой лицензией!
Куда контрибьютить?
🟣 Контрибьютить новые задания и языки можно здесь в шаблоне
🟣Мини-гайд
🟣Блог HF
Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»
Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML
— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте
— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории
— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны
— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM
— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности
— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении
— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей
— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках
🌸GPT-4o system card🌸
#nlp #про_nlp #nlp_papers
Вышла статья с оценками модели GPT-4o, с мультимодальностью, оценкой рисков, оценкой автономности.
Пока впервые вижу, что по публикуемым замерам OpenAI иногда Claude 3.5 лучше 🫢
🟣https://arxiv.org/abs/2410.21276
В 20.00 начинаем, приходите!
Вопросы можно задавать в комментариях к посту или на стриме
🟣https://youtube.com/live/9w6DzHflFaI