sysblok | Unsorted

Telegram-канал sysblok - Системный Блокъ

10846

«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Финалист премии «Просветитель» sysblok.ru vk.com/sysblok fb.com/sysblok instagram.com/sysblok/ Присоединяйтесь к команде: sysblok.ru/join

Subscribe to a channel

Системный Блокъ

«Объясните так, чтобы понял пятиклассник» — как узнать, насколько легко читать текст? Рассказываем о сервисе «Текстометр»

Исследовательница Антонина Лапошина из Института Пушкина разработала онлайн-инструмент для оценки сложности текстов на русском языке: «Текстометр» стал доступен пользователям в 2021 году.

Сайт позволяет вставить в него текст и затем выставляет балл по уровню сложности чтения. Доступно два режима оценивания: для носителей русского языка и для изучающих русский как иностранный. Шкала сложности для каждого режима своя: для носителей сайт показывает минимальный возраст или курс вуза предполагаемых читателей, а для иностранцев выдает уровень от А1 до С2 по международной шкале CEFR. Также «Текстометр» отображает некоторые метрики текста: например, списки частотных и устаревших слов.

Сервис не просто обобщает уже известные методики анализа читаемости: автор «Текстометра» провела собственные эксперименты и улучшила алгоритм оценки. Об одном из исследований мы уже рассказывали: пользователей сайта Пушкинского университета просили сравнивать по сложности тексты из учебников русского как иностранного. Благодаря ответам удалось уточнить классификацию этих текстов по уровню сложности.

В другом исследовании участвовали дети: с помощью айтрекинга лингвисты оценивали, что влияет на скорость восприятия текста маленькими читателями. В результате самым важным параметром оказалась частотность встречающихся слов — в то время как в классических формулах оценки читаемости учитываются другие признаки, в частности, длина предложений и слов.

Подробнее о способах анализа сложности текста вы можете прочитать в нашей статье. А сейчас предлагаем читателям попробовать себя в роли программы-анализатора: как вы думаете, что сложнее читать — «Котлован» Андрея Платонова или «Школу для дураков» Саши Соколова? Можете ответить интуитивно или посмотреть фрагменты романов в комментариях.

Отмечайте в опросе ниже, а вечером мы опубликуем вердикт «Текстометра»!

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Тест: угадайте город с почтовой открытки

Отличите ли вы Псков от Варшавы, а Вильнюс — от Самары? Узнаете ли город по фотографии начала века? Пройдите новый тест и отгадайте, где были сделаны фотографии достопримечательностей и пейзажей.

В этом тесте мы продолжаем исследовать цифровой корпус почтовых открыток проекта «Пишу тебе», в котором собрано более 45000 расшифрованных текстов открыток.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Подборка каналов о современном образовании от издания «Системный Блокъ»

Даже если вы уже окончили школу и получили профессиональное образование, вам все равно придется учиться. Непрерывное обучение — это не просто тренд, а новая норма в мире активного развития цифровых технологий и постоянных социальных изменений. Как учатся современные люди? Что такое EdTech? Чем занимаются педагогические дизайнеры? Системный Блокъ сделал для вас подборку каналов о современном образовании.

— @ru_educationОбразование, которое мы заслужили
Канал для тех, кто хочет быстро погрузиться в EdTech во всем его разнообразии. Здесь вы найдете новости, обзоры кейсов, а также размышления автора — Михаила Свердлова.

— @LXD_educationд*ИИ*зайн Образования
Канал посвящен педагогическим инновациям — в первую очередь цифровым. Автор канала Андрей Комиссаров рассказывает о своем опыте разработки образовательных инструментов для педагогов и учеников на основе искусственного интеллекта. А ещё здесь обсуждаются этичность использования геймификации, идеи для школьных проектов на основе поиска и визуализации данных и разные инструменты педагогического дизайна.

— @edunetflixNetflix в сфере образования
Как выглядит современное обучение? Как сделать его эффективным? И как доказать эту эффективность бизнесу? EdTech-продакт Григорий Волчков делится наблюдениями в работе, быту и видеоиграх. Рассказывает о современных образовательных приложениях и приглашает учителей и методистов также делиться своим опытом на канале.

— @elearningskillsЦарёва в Курсе
Канал Анны Царёвой для методистов, методологов, педагогических дизайнеров, дизайнеров образовательного опыта и всех, кто занимается созданием обучения. Здесь собраны профессиональные гайды, схемы, а в рубрике «Спросите методиста» автор канала отвечает на вопросы подписчиков. Какие навыки необходимы методисту, чтобы быть востребованным? Как активизировать учебный чат? Чем обусловлена любовь педагогов к излишней академичности?

— @kaktomoguУчусь как умею
Заметки о том, как учатся взрослые люди. Автор канала Лина Адамаускене изучает философию познания и помогает взрослым осваивать новые профессии. Пишет о трудностях, с которыми сталкиваются ученики, и высказывает критику современному миру, где постоянное обучение и переобучение стало необходимым. Как возвращаться в учебу после долгого молчания? Что делать, если в середине долгосрочного обучения надоело учиться? Если вам знакомы синдром самозванца и боязнь белого листа, если бывает трудно понять новый материал — загляните в этот канал.

— @sonyaaboutcamover the river cam
Блог Сони Смысловой об образовании, а также о философии, политике, социологии применительно к обучению. Автор рассказывает о прочитанных книгах, о своем опыте обучения в Кембридже и делится интересными находками. Например, исследованием вопроса «почему студенты не вовлекаются в онлайн-обучение?» или статьей, в которой анализируются компетенции, необходимые для дизайнера педагогического опыта.

— @sysblokСистемный Блокъ
Ваш виртуальный краш, проводник по миру цифровых технологий в образовании, искусстве и гуманитарных науках. Как использовать цифровые архивы и базы данных по истории для школьных проектов? Как дети учатся читать и что об этом говорит наука? Как цифровые технологии помогают преодолеть гендерное неравенство в образовании? В постах Системного Блока вы найдете обзоры исследований и практические советы для преподавателей.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

170 лет школьной программы: проект «Список чтения»

Цель проекта «Список чтения» — представить состав школьной программы по литературе на протяжении 170 лет и проследить, как он менялся. «Системный Блокъ» рассказывает о проекте Высшей школы экономики, который будет партнером на мастерской Дата-журналистики на «Летней Школе».

Что такое «Список чтения»?

Созданная в 2023 году интерактивная карта — результат исследования учебных программ по литературе с 1852 по 2023 год. Идея проекта — показать содержание школьной программы по литературе в детализированном и понятном формате. Авторы использовали два датасета, размещенных в электронном репозитории ИРЛИ РАН, а также некоторые данные собирали и подготавливали самостоятельно.

Что мы узнали из «Списка чтения»?

Сайт проекта состоит из двух разделов. В разделе «Таймлайн» находится график, отражающий количество изучаемых авторов и произведений в течение каждого года. Например, в 1870-х изучались всего 14 авторов и 40 произведений, а в 1920-х — уже 54 автора и 183 произведения. В разделе «Топы» собраны авторы и книги-долгожители, а также писатели с наибольшим количеством произведений. Например, «Евгений Онегин» Пушкина изучался практически на всем протяжении исследуемого периода, а татарского писателя К. Наджми проходили лишь в 1932 году.

Что дальше?

В «Списке чтения» представлены три среза: исторический, литературоведческий и социологический. Проект помогает понять, как складывается канон (устойчивый набор текстов), и изучить влияние школьного материала на социокультурную атмосферу конкретного исторического периода. Одно из возможных направлений исследования — соотнесение программыс историческими реалиями, с задачами, которые стоят или стояли перед образованием в соответствующую эпоху. 

Более подробно об устройстве проекта, его ограничениях и будущих улучшениях читайте в полной версии статьи и на сайте «Списка чтения».

Время чтения: 9 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Тест: Угадайте русского классика по одному слову!

Продолжаем праздновать День рождения НКРЯ! В честь него подготовили для вас тест по словам, по которым можно узнать русских писателей. 

Словари языка писателей существовали и до цифровой эпохи. Например, «Словарь языка Пушкина» создавался почти век и собирался вручную. А он насчитывает 20 тысяч слов! Сегодня на смену таким словарям пришли корпуса писателей, в первую очередь — в составе НКРЯ. 

Филолог Борис Орехов использовал НКРЯ и метод извлечения ключевых слов TF-IDF  для изучения русской литературы XIX века. Если тоже хотите узнать или вспомнить уникальные слова в произведениях русских писателей, проходите тест и проверьте, в чьих текстах раздавалось «хохотание»‎ и происходило «требоисправление»‎. 

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

«Системный Блокъ» запускает мастерскую Дата-журналистики на «Летней Школе»!

Вы тоже любите данные, полевую кухню, сосны и исследования? В июле-августе «Летняя школа» на Волге открывает свой 21-й сезон. В этом году в ее программе и мастерская «Системного Блока».

Что такое дата-журналистика?

Данные (data) — это просто сырые сведения, зафиксированные на каком-то носителе. Например, статистика потребления воды в квартирах в течение суток. Сырые данные мало что значат для человека. Чтобы приобрести смысл, данные должны быть обработаны, обобщены и проинтерпретированы. Например, ежемесячная устойчивая корреляция потребления воды и просмотра вечерних телепрограмм по телевизору может дать нам какое-то новое знание. Обработанные данные, отвечающие на какой-то поставленный вопрос, — это уже информация. Дата-журналист работает с «датой» (данными) как с исходным материалом. Задача журналиста — как раз преобразование данных в информацию, доступную всем людям. Мы писали об этом с примерами.

🎓Для кого наша мастерская?

Мы ждем журналистов, дата-журналистов, студентов и выпускников медийных и других гуманитарных специальностей, а также программистов, аналитиков данных и визуализаторов, готовых попробовать себя в новой сфере.

✍🏼 Что будем делать?

Сначала учиться, а потом применять знания на практике. Программа состоит из образовательной и проектной части.

В программе участники нашей мастерской узнают, каким данным можно верить и какими источниками пользоваться, как сделать материал интересным, какие бывают виды графиков и как визуализировать данные?

В проектной части вас ждет хакатон. Мы сформируем из участников 10 редакций, которые пройдут полный цикл создания медиаматериала на базе подготовленных датасетов. Каждая команда завершит мастерскую с публикацией своего исследования в “Системном Блоке” или у наших партнеров.

🧑🏻‍💻 Кто делает мастерскую?

Нашими партнерами будут платформа «Если быть точным» @tochno_st, фокусирующаяся на социальных проблемах в России, и «Лаборатория университетской прозрачности» @uni_loup, исследующая качество образования и политику вузов. Образовательный партнер нашей мастерской — центр научной коммуникаций ИТМО @scicomm.

Нашими лекторами будут Ксюша Тихомирова — куратор дата-отдела «Системного Блока», Надя Андрианова — дизайнер в группе исследований Яндекса и дата-артист, Ксюша Орлова — дата специалистка в АНО Инфокультура, Настя Кокоурова — главный редактор «Если быть точным», Ксюша Бабихина — аналитик в проекте «Если быть точным», Илья Воронцов — исследователь, преподаватель, научный сотрудник института Общей генетики РАН

📍Когда и где?


Даты проведения: с 21 июля по 5 августа 2024 года на Волге недалеко от Дубны.

❗️Как к вам попасть?

Подать заявку на участие можно на странице нашей мастерской до 20 мая. Обучение бесплатное, на питание и проживание участников «Летняя школа» собирает добровольные взносы (рекомендованная сумма от 800 рублей в день с человека). Более подробно вы можете прочитать в FAQ.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Llama 3: новое поколение одной из самых популярных языковых моделей от Meta*

18 апреля компания Meta выпустила третью версию языковой модели Llama. Модель доступна в двух размерах – 8 и 70 миллиардов параметров. Максимальная длина текста, который модели Llama 3 могут обработать за раз, составляет 8192 токенов  (токен – часть слова или целое слово). Это на порядки меньше, чем могут обработать GPT-4 (128 тысяч токенов), Gemini (один миллион токенов) и многие другие современные модели.

Обе версии доступны для коммерческого использования. Однако если у компании больше 700 миллионов активных пользователей в месяц и она хочет использовать Llama 3, она вынуждена запросить разрешение на использование у Meta.

Меньшая модель была обучена на выборке с 15-ю триллионами токенов: для сравнения, Llama 2 обучали на выборке в 7.5 раз меньше. За счёт этого в ряде основных тестов модель превосходит все доступные модели близкого размера, включая Mistral (модель французского стартапа, который основан бывшими сотрудниками Meta, участвовавшими в создании первой версии Llama) и Gemma от Google.

Версия Llama 3 с 70-ю миллиардами параметров в большинстве тестов по качеству лучше Google Gemini и Cohere Claude Sonnet, одних из лидирующих коммерческих моделей на данный момент.

По многочисленным оценкам пользователей платформы LMSYS, где каждый желающий может сравнить ответы двух разных моделей, Llama 3 на английском языке уступает лишь GPT-4, текущему лидеру рейтинга.

Также в процессе обучения Llama 3 с 400 миллиардами параметров. Её релиз состоится позже, однако уже сейчас по метрикам она сравнима с GPT-4.

*Компания Meta признана экстремистской в России, ее деятельность запрещена

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Архивы, сети и шифры в дневниках и письмах: цифровые исследования эго-документов

Изучение дневников и писем — это возможность услышать голоса людей из прошлого и понять, как они жили и воспринимали мир вокруг. В новой подборке мы рассказываем, как цифровые методы помогают сохранять, исследовать и публиковать исторические эго-документы.

📚 Как устроена оцифровка дневников: Интервью с основателем «Прожито»

В цифровом архиве «Прожито» более 640 тысяч дневниковых записей с середины XVIII века и почти до наших дней. Из интервью с Михаилом Мельниченко, директором проекта, узнаете о том, как создавался корпус дневников, кто и почему помогает исследователям оцифровывать документы и как люди находят друг друга через сайт проекта. А еще откуда в дневнике знаменитой поэтессы Ольги Берггольц дырка посередине.

📖 «Впереди сущий сахарный голод»: что говорит о дневниках 1917 года анализ данных

Мы исследовали дневники, собранные проектом «1917. Свободная история», количественными методами. Благодаря тематическому моделированию мы поняли, что переживания очевидцев революции не ограничивались восстаниями и другими политическими событиями: например, их по-прежнему волновало искусство. О ключевых словах, которыми писали о войне и культуре, а также о том, чьи дневники вошли в изученный корпус узнаете из этого поста.

💌 Chekhov Digital: как Чехов писал письма жене и куда течет время в его текстах

К эго-документам относятся не только дневники, но и письма. Благодаря проекту Chekhov Digital мы изучили письма Чехова с 1899 по 1904 годы и выяснили, что многие из них стилистически похожи на эпистолярные рассказы (спойлер: кроме писем жене). А ещё – что время у Чехова представлено в трёх вариантах. О них и о других выводах узнаете здесь.

А если хотите научиться самостоятельно использовать цифровые инструменты для анализа дневников или узнать о коммуникации европейских ученых XVI – XVIII веков и шифрах Марии Стюарт, переходите к полной версии подборки. Там вас ждут ещё три материала!

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Новая открытая языковая модель, обновление GPT-4 и скорый выход LLaMa 3: дайджест новостей из мира ИИ

GPT-4 снова впереди всех


Компания OpenAI выпустила обновление своей языковой модели GPT-4. Она должна отвечать более прямо и естественно.

Согласно рейтингу платформы LMSYS, где каждый может сравнить работу двух популярных моделей, обновлённая GPT опередила бывшего лидера Claude Opus, который недавно обошёл предыдущую версию GPT-4.

Анонсировано следующее поколение LLaMa

Корпорация Meta* планирует в следующем месяце выпустить новое поколение своей языковой модели LLaMa. По заявлению Meta*, планируется релиз моделей разных размеров с разным качеством, а также продуктов, основанных на них. Релиз первой версии LLaMa сыграл большую роль в развитии открытых языковых моделей и подтолкнул другие крупные компании публиковать в открытый доступ свои разработки в области LLM.

Grok расшифрует мемы 

xAI, лаборатория Илона Маска, выпустила обновление языковой модели Grok. По качеству Grok-1.5 сопоставим с лидерами рынка: GPT-4, Gemini, Claude, Mistral. Также xAI объявила о своей первой мультимодальной модели — Grok-1.5 Vision, которая понимает, что изображено на картинке, и способна отвечать на вопросы по ней, например, объяснять мемы и конвертировать изображение макета сайта в код. На данный момент модели не доступны для использования.

Command-R+ выложена в открытый доступ

Вышла новая языковая модель от компании Cohere. Она имеет 104 млрд параметров и доступна для всех желающих. Так же, как и Command-R, более компактная модель этой компании (35 млрд параметров), Command-R+ поддерживает работу с несколькими языками (теперь доступных языков стало больше — 13 против 10). Command-R+ была специально обучена для RAG (Retrieval Augmented Generation) — техники, при которой помимо вопроса пользователя модели дают на вход релевантную вопросу информацию, что позволяет получать более достоверные ответы. Помимо этого, модель способна эффективно использовать внешние инструменты. Например, в качестве инструмента может выступать браузер, исполнитель программного кода или API какого-то сервиса.

*Компания Meta признана экстремистской в России, ее деятельность запрещена

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Тест Тьюринга, лемматизация и регулярные выражения: новинки глоссария 

Мы регулярно пополняем рубрику «глоссарий» на сайте «Системного Блока», чтобы рассказать вам о ключевых понятиях в цифровых исследованиях. В этом посте рассказываем о трех новых материалах рубрики.

🤖 Тест Тьюринга

Тест Тьюринга появился в 1950 году чтобы определить, достиг ли компьютер интеллектуального уровня человека. Он осуществляется так: человек-оператор ведет текстовое общение с двумя невидимыми для себя собеседниками — одним человеком и одной машиной. Оператор может задавать вопросы и реагировать на ответы, чтобы определить, кто из собеседников является машиной. С момента появления этот тест пытались пройти множество систем и программ: от виртуального собеседника ELIZA до PARRY, которая имитировала поведение параноидального шизофреника.

Узнать, как они справлялись с этой задачей, за что критикуют тест Тьюринга и какие альтернативы предлагают, можете из полной версии статьи.

🌲 Лемматизация

Как компьютеры понимают, что «зло», «зла» и (из двух) «зол» — формы одного и того же слова? Благодаря лемматизации. Это процесс приведения слова к его базовой, начальной форме и один из основных методов предобработки текстов, который помогает компьютеру лучше их понимать. Лемматизация применяется, например, ​​в поисковых системах для повышения точности поиска. 

О том, как её автоматизировать и какие сложности могут возникнуть, например, со словом «ели», прочитаете в материале на сайте.

📨 Регулярные выражения

Как найти в тексте все числа из четырех цифр или все email-адреса? Рассказываем о регулярных выражениях — простом, но мощном инструменте для анализа и редактирования текстов, который используется программистами, специалистами в NLP и Digital Humanities, а также биоинформатиками. Этот инструмент позволяет искать и изменять подстроки в тексте, соответствующие заданному шаблону. Например, адрес электронной почты состоит из двух строк, разделённых символом «@», и чтобы найти все почты в одном файле нужно задать такое выражение: (.+)@(.+)\.(com|ru). 

Почему именно такое? Рассказали в полной версии текста на сайте.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Госкаталог, семейная память и электронные ноты: подборка блогов «Системного Блока»

Три поста наших блогеров, которые вы могли пропустить, и одна конференция, на которую вы точно успеете.

🎶 Электронные ноты: особенности использования

Сегодня часто можно увидеть музыкантов, играющих, глядя не в бумажные ноты, а на планшет. Но это чтение распространено не так широко, как, например, чтение электронных книг. Ключевых причины три: во-первых, музыканты не читают, а изучают. Добавлять пометки в PDF сложнее, чем на бумагу, а удобный формат, подходящий для отображения нотного текста, пока не создан из-за отсутствия единого стандарта кодирования музыкальных символов. Во-вторых, машиночитаемые электронные ноты малодоступны. И, наконец, в-третьих, росту и развитию рынка электронных изданий препятствует пиратство. 

Подробнее об этих причинах узнаете из текста в блоге Василисы Александровой.

🖼 Госкаталог — немного статистики

Не так давно мы рассказывали о необычных экспонатах Госкаталога, а наш блогер Олег Лашманов — Научный руководитель лаборатории «Искусство и искусственный интеллект» Школы искусств и культурного наследия в ЕУСПБ — изучил данные о произведениях, хранящихся в фондах музеев. Выяснилось, например, что множество записей не содержит никакой информации об авторе произведения, а следующие по популярности — «Неизвестный мастер» и «Неизвестный художник». Если объединить их в один тип, получится, что примерно для 32% живописных полотен автор неизвестен. 

Что именно чаще всего изображают известные и неизвестные авторы и на что снимают Госкаталог, посмотрите в полной версии статьи.

📸 Выставка «Исчезнет или превратится»: как куратор воспроизводит семейную память

Студенты магистратуры Digital Humanities в ИТМО составили хендбук для продюсеров цифровых проектов, в который вошло и это эссе о выставке «Исчезнет или превратится». Она была посвящена исследованию семейной памяти и традиций в нескольких регионах, и чтобы превратить чужой опыт в экспозицию, куратору необходимо было работать с тремя ключевыми понятиями — метафора, традиция и человек. Фокус на человека позволяет актуализировать тему, традиции — поговорить о трансформациях, а метафоры — донести личный, духовный аспект повествования. 

О том, как эти три элемента стали основой кураторской экскурсии Ксении Диодоровой узнаете из полного текста блога.

❓Гуманитарные проблемы актуальных наук

Актуальность наук — загадочная конструкция. Особенно в случае наук гуманитарных, которые превращают доброту — в этические проблемы, а дружбу — в тесные связи социального графа. Когда же такие исследования дополняются «цифровизацией», она не только даёт новые методы, но и предполагает переустройство самих режимов работы в науке. Этому переустройству посвящен новый пост руководительницы DH ИТМО Полины Колозариди. А чтобы обсудить их и разобраться с междисциплинарными и цифровыми областями знаний, можно присоединиться к конференции «Гуманитарные проблемы актуальных наук». Она состоится 15–17 апреля в DH-центре Университета ИТМО и на других площадках, а также онлайн. Подробнее — в блоге ИТМО на сайте «Системного Блока».

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

GPT-4 больше не лучшая языковая модель, суперкомпьютер за 100 млрд долларов и новые открытые модели: дайджест новостей из мира ИИ

Claude 3 Opus возглавила рейтинг языковых моделей

Модель Claude 3 Opus компании Anthropic была признана лучшей языковой моделью согласно рейтингу платформы LMSYS, опередив предыдущего лидера GPT-4. На этой платформе любой желающий может сравнить работу двух разных языковых моделей и отдать предпочтение одной из них. На основе собранных предпочтений пользователей по системе Elo рассчитывается позиция модели в рейтинге. Та же система используется для сравнений двух игроков в парных играх — например, в шахматах. 

В сравнении LMSYS присутствуют как коммерческие модели (GPT-4, Gemini, Mistral Medium и др.), так и публично доступные модели вроде OpenChat, Command-R, LLama.

Семейство моделей Claude 3 (версии Opus, Sonnet и Haiku) были представлены 4 марта 2024 года. Более компактные версии модели, Sonnet и Haiku, также занимают лидирующие позиции.

Слухи о суперкомпьютере Microsoft и OpenAI

По словам трёх источников издания The Information, Microsoft и OpenAI разрабатывают проект нескольких беспрецедентно энергозатратных суперкомпьютеров для обучения нейросетей. Завершение работы над первым суперкомпьютером планируется в 2026 году, его стоимость составит около 10 миллиардов долларов. Второй суперкомпьютер планируется к 2028 году и оценивается в 100 миллиардов долларов. Стоимость обоих значительно превосходит стоимость существующих компьютеров. Оба вычислительных центра будут расположены в Америке.

Jamba – новая языковая модель гибридной архитектуры

Лаборатория AI21 опубликовала языковую модель Jamba. Архитектура Jamba является гибридом Mamba и Transformer. Благодаря этому модель сочетает преимущества обеих архитектур: она поддерживает большую длину контекста (256 тысяч токенов), в несколько раз быстрее и ресурсоэффективнее обычных Transformer моделей и при этом по качеству сопоставима с лучшими публичными моделями. Jamba доступна для всех желающих, в том числе для коммерческого использования.

Модель Grok-1 выложена в открытый доступ

Лаборатория xAI Илона Маска опубликовала код и веса своей первой языковой модели Grok-1. Grok-1 содержит 314 миллиардов параметров, что делает её самой большой публичной моделью. Модель является Mixture of Experts, другими словами, во время ее работы используются только 25% параметров, а набор задействованных параметров зависит от входных данных. А ещё… в ней нет цензуры (в отличие от большинства конкурентов).

Публикация Grok-1 в открытый доступ была сделана на фоне иска против OpenAI, поданного Илоном Маском. В нём миллиардер обвиняет компанию в несоблюдении изначальных соглашений (Илон Маск — один из первых инвесторов OpenAI), согласно которым OpenAI должна быть открытой и некоммерческой.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Четыре проекта по борьбе с коррупцией онлайн. Как они работают? 

Может ли работа с данными помочь в борьбе с коррупцией? «Системный Блокъ» выяснил, какие цифровые сервисы и проекты занимаются антикоррупционной деятельностью с помощью открытых и не очень открытых данных.

💸 «Тендерскоп» 
Проект позволяет использовать весь массив данных о государственных закупках, контролировать такие закупки, а также искать признаки картельных сговоров. С его помощью воронежские активисты обнаружили, что семья замгубернатора зарабатывает сотни миллионов на сдаче недвижимости государству, и добились увольнения чиновника. Краткая инструкция о том, как пользоваться сервисом доступна по ссылке. 

📑 «Дума Бинго» 
На сайте можно найти информацию о каждом депутате или сенаторе: чьи интересы он продвигает, с какими государственными или частными структурами связан и т. д. Особое внимание уделяется законотворческой деятельности каждого депутата.

🎓 Лаборатория университетской прозрачности

Благодаря проекту студенты учатся находить коррупцию в своих вузах и противостоять ей. Жульничество и махинации при целевом поступлении, несправедливые пересдачи и вымогательства оценок и зачетов, закрытые сессии у студентов, которые ни разу не были на парах, и другие мутные схемы российской высшей школы. Помимо расследований и исследований, Лаборатория рассказывает о том, какие права есть у студентов и как можно их защитить.

🗂️ Декларатор
В этой базе данных собраны декларации российских публичных лиц (от депутатов до чиновников администраций городов и районов). Проект помогает гражданским активистам и журналистам осуществлять общественный контроль за чиновниками и проводить расследования.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Тест: Что сгенерировала нейросеть?

Гном Гномыч или угрюмый тролль? Офисный кот или кот-гангстер? Специально для вас мы попросили нейросети сгенерировать изображения… но какие именно? Пройдите тест и проверьте, сможете ли вы понять, результатом какого запроса является картинка перед вами.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Материнство в России. В цифрах

На словах российские власти очень громко поддерживают рождаемость, семью и демографический рост. На деле в России 44% семей, состоящих из матери-одиночки и трёх детей, имеют среднедушевой доход ниже 15 тысяч рублей. А работодатели гораздо хуже относятся к матерям с детьми. В наших карточках — невесёлая статистика материнства в России.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Безмолвные свидетели: как нечеловеческая ДНК помогает криминалистам

Помните, как в сериале BBC Шерлок Холмс по составу налипшей на кроссовки пыльцы выясняет, где жил их владелец? Это не фантазия сценариста, а научный метод геолокации, которому больше 55 лет. В нашем материале рассказываем, как по следам пыльцы раскрывают преступления, зачем криминалистам ДНК растений и можно ли по пыли на вашей двери определить, где вы живёте. 

 🌺 Почему пыльца?

Пыльца незаметна и крайне устойчива. Ни 20 миллионов лет, ни стирка с отбеливателем не избавят вашу одежду от её следов полностью: спорополленин, покрывающий пыльцевое зерно, — одна из самых химически стабильных органических субстанций, по которой можно выяснить регион происхождения образца. Это помогает отследить трафик наркотиков и ввоз санкционных товаров или доказать, что бабочка-репейница, которую вы встретили на побережье Испании, зимовала в Африке и побывала в Сахаре.

 🧬 А ДНК зачем?


Определить видовую принадлежность растения, глядя на пыльцу, не всегда возможно. К счастью, для этого есть секвенирование ДНК. Небольшой максимально информативный фрагмент генома образца (баркод) прицельно прочитывают, а затем сравнивают с известными баркодами из базы данных. Это, конечно, нужно не только криминалистам. С помощью такого метода идентифицируют патогены, находят новые виды, следят за биоразнообразием и состоянием экосистем, проверяют составы продуктов и растительных препаратов. Так что библиотеки баркодов собираются совместными усилиями разных специалистов.

 🔎 Можно ли верить таким показаниям?

В криминалистике эти методы пока применяются не очень активно, но предварительные исследования вдохновляют. Например, в Китае так опознали тело женщины, которая не числилась в местном списке пропавших. Криминалисты заглянули к ней в легкие, поскольку часть пыльцевых зёрен, попавших в дыхательные пути, остаётся в них навсегда. Поэтому человек, долгое время проживший в одном районе, оказывается «помечен» пыльцой окрестных растений. Этот метод сузил поиски до двух провинций — женщину удалось найти в списках пропавших в одной из них.

Подробнее об исследованиях пыльцы и ДНК, а также о том, как грязь с ботинок помогла раскрыть преступление в 1969 году, узнаете из полной версии статьи.

Время чтения: 15 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

«Воскрешение» исторических личностей и лекция от суперзвезды: как использовать дипфейки в образовании

Эйнштейн объясняет старшеклассникам теорию относительности, Маяковский читает стихи у доски, а у педагогов остаётся время на саморазвитие. Как дипфейки могут сделать учебный процесс интереснее?

Кратко: о чем статья?

Дипфейк (англ. deepfake) — это технология создания реалистичных аудио, фото и видео на основе искусственного интеллекта. Сегодня она встречаются в рекламе и кино, но можно использовать её и в сфере образования.

Например, при разработке онлайн-курса. Преподавателю достаточно записать только первую лекцию, а остальную информацию, загруженную в программу, озвучит его цифровой двойник — дипфейк. Подобный эксперимент уже провели в СПбГУ.

Другой вариант использования – «подключение» к уроку исторических личностей. Как у издательства «Эксмо», которое в 2022 провело книжное шоу «Что читать дальше». В нём «Анна Ахматова», «Эдгар По» и «Михаил Булгаков» рассказали о книжных новинках сезона. 

Список нейросетей для создания дипфейков варьируется от бесплатных Zao и Doublicat до платных Deepfakes web β и Synthesia. Узнать об особенностях каждой из них и посмотреть на Арнольда Шварцнегера в роли «Системного Блока» можно на сайте.

Время чтения: 9 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

От трех шагов к чтению до разговора о Большом терроре: подборка «Системного Блока» про образование

Многие блогеры «Системного Блока» преподают в школах или университетах, поэтому образование – одна из ключевых тем в их текстах. В этой подборке — четыре важных материала о теории и практике в обучении.

Как дети учатся читать

Если речь в детстве «приходит сама», то чтению ребенка нужно научить. В своем блоге Анастасия Лопухина рассказывала, как дети учатся читать и что знают об этом современные когнитивные науки. Например, в обучении чтению есть три шага: «взлом» орфографического кода, эффективное чтение отдельных слов и понимание текста. Подробнее о каждом из них узнаете из поста.

Как провести урок истории на основе цифрового архива «Прожито»

Дневники цифровой коллекции «Прожито» могут превратить урок в исследование локальной истории или событий мирового масштаба. Например, в коллекции дневников можно найти целых 223 записи 1945 года о бомбардировке Хиросимы и Нагасаки и изучить, как её восприняли в СССР. О других вариантах применения «Прожито» на уроке истории узнаете из блога Юлии Папановой.

Как увлечь школьников историей страны

Ещё один вариант разнообразить уроки — обратиться к электронным базам по истории. Юлия Папанова рассказала о таком методе на примере цифровых архивов ХМАО. Благодаря ним в рамках разговора о большом терроре можно изучить архивно-следственные дела семей. Изучая другие темы, угадывать, как раньше применялись предметы быта и культа из музейной коллекции.

Как работают цифровые гуманитарии

В DH-магистратуре в ИТМО люди учатся делать и проекты, и исследования, и совмещение этих двух подходов может многому научить. Цифровые гуманитарии умеют превращать культуру в коллекцию образцов, выставленных в музее, а науку — раскладывать на схемы, которые вытравят всё живое из открытий и сомнений. О том, с какими последствиями цифровизации работают студенты и как с этим связан «Пушкин Цифровой», можно узнать из материала на сайте.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Две новых языковых модели и обучающая выборка в 15 триллионов токенов: дайджест новостей из мира ИИ

Компания Snowflake выпустила самую большую языковую модель, открытую для коммерческого использования. Разработчикам доступна новая обучающая выборка из 15 триллионов токенов. Microsoft представила новое поколение компактной модели Phi. Рассказываем, что произошло в мире ИИ на прошлой неделе.

Доступна обучающая выборка с 15 триллионами токенов

Опубликована новая выборка текстов для обучения языковых моделей — FineWeb. Она содержит отфильтрованные англоязычные тексты разных веб-сайтов и покрывает период с лета 2013 года до начала весны 2024 года. Мультиязычную версию обещают выложить в ближайшее время. Всего в выборке 15 триллионов токенов (это часть слова или слово). Для проверки качества данных на части выборки было обучено несколько языковых моделей. Их качество получилось выше, чем у тех, которые обучали на других известных наборах данных (C4, Pile, Dolma и другие).

Новая самая большая публичная LLM

Компания Snowflake выпустила языковую модель Arctic с 480 миллиардами параметров. Модель использует архитектуру Mixture of Experts. Иными словами, в процессе её работы задействована только часть всех параметров (какая именно — модель выбирает в зависимости от входных данных). В случае Artic используется всего лишь 3,5% параметров. По качеству она сопоставима с LLama 3 70B. На данный момент Arctic — самая большая модель, которую можно использовать в коммерческих целях без каких-либо ограничений.

Phi-3 — маленькая, но умная языковая модель

Компания Microsoft выпустила третье поколение своих компактных языковых моделей Phi. Модель Phi-3 выделяется относительно небольшим размером: 3,8 миллиарда параметров (для сравнения самая большая на текущий момент публичная модель в 126 раз больше) и высокими показателями в основных тестах. По качеству она сопоставима с недавно вышедшей LLama 3 с восемью миллиардами параметров. По заявлениям Microsoft, этого удалось достичь с помощью обучения модели на данных высокого качества: часть данных — сильно отфильтрованный набор текстов из интернета, другая часть — данные, сгенерированные с помощью GPT-4. Однако в сообществе исследователей и разработчиков некоторые относятся к возможностям Phi-3 скептически: критики подозревают, что в обучающих данных присутствовали тексты, на которых её впоследствии тестировали. Такие же дискуссии вызвали и её предшественники, Phi-1 и Phi-2.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

От Гарри Поттера до Стихов.ру: лучшие материалы «‎Системного Блока»‎ о НКРЯ

Национальному корпусу русского языка (НКРЯ🦆) исполнилось 20 лет!🎉 Как развивается главная цифровая коллекция текстов на русском языке, что в ней есть и что она дает науке?

Корпус для всех: как используют НКРЯ

Зачем нужен корпус? Ответ на этот вопрос дают школьники, студенты-лингвисты и учёные. В статье рассказано о самых разных исследованиях: от сложностей перевода на другой язык культурных реалий на примере книг Набокова до возникновения фразы «ибо нефиг» и особенностей применения частного и местного падежей в современном русском языке.

От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна

В последние годы НКРЯ преобразился: дизайн стал удобнее и современнее, появилась мобильная версия. Изменения были не только внешними: добавились новые инструменты и новые корпуса, например, блогов и социальных сетей (в том числе интернет-сленга), литературы для детей от 2 до 15 лет (там можно найти «Гарри Поттера» и «Вафельное сердце»).

Что мы узнали об ударении в русском языке и о наивной поэзии из корпуса stihi.ru

НКРЯ — не единый массив текстов, а сложная структура, включающая в себя разные корпуса: параллельные, исторические, мультимедийный… Эта статья рассказывает об акцентологическом корпусе, полезном для изучения ударений.

Тест: Узнаете ли вы подкорпус НКРЯ по характерным для него словам?

Какие слова чаще встречаются в анекдотах, а какие — в деловых документах? Попробуйте проверить свою интуицию, разбираясь в жанрах, тематиках и стилях текстов, а заодно познакомьтесь с корпусами НКРЯ поближе🙂

Русско-китайский корпус НКРЯ, или Как превратить ботвинью в гаспачо

Первый параллельный корпус — русско-английский — появился в НКРЯ в 2005 году. Сейчас в его составе уже 28 параллельных корпусов. Русско-китайский корпус был запущен в 2016 году. Он содержит более 1000 текстов и поддерживает ввод запроса кириллицей, иероглифами и пиньинем — китайской транскрипцией.

Я/МЫ НКРЯ: что происходи(ло) с национальным корпусом в 2019

В 2019 году будущее НКРЯ было неясным: в какой-то момент перестали работать некоторые функции, и лингвисты забили тревогу. Проблемы в итоге решились, а материал «‎Системного Блока» про историю НКРЯ и сложности поддержки настолько масштабного проекта — остался. Сегодня это скорее исторический документ, но все равно интересно вспомнить, как лингвисты и просто неравнодушные люди встали на защиту корпуса.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Подборка каналов про культурное наследие в цифре от издания «Системный Блокъ»

Когда-то слово «архив» вызывало в мыслях образ пыльного библиотечного пространства, доступного избранным по пропускам. Теперь многое оцифровано, и изучать прошлое можно по расшифровкам дневников, сканам иллюстраций старых книг или фотографиям мозаик. В этой подборке — каналы с такими данными.

@prozhito — Прожито
Проект, занимающийся исследованиями эго-документов, в первую очередь дневников. В электронной библиотеке представлено более 626 тысяч дневниковых записей XVIII-XX веков. «Прожито» позволяет изучать прошлое не только по учебникам истории или мемуарам известных личностей, но и через восприятие обычных людей: гимназистов, врачей, автомехаников.

@vlesah — В ЛЕСАХ
Медиа про культурное наследие в регионах. Если все церкви в классическом стиле и памятники Ленину слились в вашей голове в одно, приходите читать про саркофаги от тульских оружейников, дома с привидениями и музей ЖЭК-арта. Можно не только читать, но и помогать: «В ЛЕСАХ» пишут в том числе о волонтёрских экспедициях, посвящённых сохранению наследия.

@okartinki — о-картинки
Канал Центра исследований Оттепели посвящен книжному дизайну второй половины XX века. В коллекции много детских книг времен оттепели, например, рассказ о московском метро (тогда ещё с четырьмя ветками), чрезвычайное происшествие с обезьяной Чичи в казанском цирке и инструкция, как сделать из огурца крокодила Гену.

@pishuteberu — Пишу тебе
Как открытки рассказывают о прошлом? Разбирая старые открытки, авторы проекта рассказывают о популярных театральных премьерах начала XX века, благотворительных инициативах Красного креста или студенческих бунтах времён революции 1905-1907 годов. А в рубрике «Путешествие с открыткой» можно прочесть, например, о нижегородском фуникулёре или первом каменном здании в Екатеринбурге.

@sysblok — Системный Блокъ
В рубрике «цифровое наследие» Системный Блокъ рассказывает о технологиях и практиках цифрового сохранения культуры, будь то оцифровка граффити на храме Исиды или собрание музыки, сопровождавшей американские немые фильмы. А ещё пишет о том, как оцифровке помогают новые технологии: компьютерное зрение, 3D-моделирование и дополненная реальность.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Cultural heritage in action: лучшие практики сохранения и популяризации культурного наследия в Европе

Проект Cultural heritage in action собрал 60 лучших инициатив по работе с культурной памятью в 23 странах Европы. Главная цель проекта — позволить специалистам делиться своими методами по восстановлению, сохранению, цифровизации и популяризации культуры, искусства и истории. В этом посте рассказываем о трех цифровых инициативах, с которыми можно познакомиться не выходя из дома.

🇮🇹 Интерактивная карта культурных общин Национального парка Валь-Гранде

Коренные жители Национального парка Валь-Гранде сделали красивую карту с достопримечательностями своих родных земель и поделились личными архивными фотографиями. Благодаря сайту можно узнать не только об истории общин, но и о праздниках, фестивалях и карнавалах, которые ежегодно проходят в Валь-Гранде.

🇸🇮 База устаревших ойконимов

Культурное наследие может принимать разные формы, в том числе и лингвистические. Сохранением языковой культуры обеспокоились в Гореньской области Словении: проект Slovenska Hisna Imena создал базу ойконимов (наименований домов, усадеб и других объектов недвижимости), забытых в XX веке в результате урбанизации и других социально-экономических изменений.

🇫🇷 Сайт о культурном наследии города Нант

На французском сайте Nantes Patrimonia есть энциклопедия города, интерактивная карта достопримечательностей и тематические маршруты. А ещё – мультимедийные ресурсы о городе: фотографии, видео, подкасты, архивные материалы, анекдоты и многое другое. Правда, чтобы познакомиться с ними из России вам понадобятся VPN и знание французского (или переводчик!)

О цифровых и нецифровых проектах, которые придумали в Греции, Испании, Португалии и других странах, узнаете из полной версии статьи.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Как делать большую науку в бесконечном бегстве: Роман Якобсон vs XX век

Роман Осипович Якобсон — лингвист, филолог и культуролог. Вынужденная эмиграция не помешала ему исследовать русский авангард, заниматься сербо-хорватским эпосом и изучать нарушения речи. Рассказываем о том, как даже сложные времена не способны остановить искреннее желание заниматься наукой.

Кратко: о чем статья?

Якобсон родился в 1896 году и уже в 19 лет стал сооснователем Московского лингвистического кружка. В нём обсуждали проблемы теории и истории литературы, теории и истории языка, следили за всеми достижениями западноевропейской лингвистики.

В 1920-х годах Якобсон продолжил лингвистическую деятельность в Праге. В конце 1930-х, находясь в оккупированной нацистами Праге и пытаясь получить документы на выезд в Данию, писал, что хотел бы использовать месяцы в Копенгагене, чтобы закончить свою книгу о структуре и классификации фонем. В 1941 добрался до Нью-Йорка, где стал соучредителем… Нью-Йоркского лингвистического кружка. А затем преподавал в Гарвардском университете и Массачусетском технологическом институте.

Якобсон продолжал работать над исследованиями независимо от своего местоположения и проблем, которые ему преподносила история XX века. Подробнее о его работе и её обстоятельствах узнаете из полного текста материала.

Время чтения: 13 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

От интроспекции до Amazon: как провести лингвистический эксперимент онлайн?

Что такое лингвистический эксперимент и как его программируют? Какие инструменты используют при его проведении и где находят участников? Узнаем в материале «Системного Блока».

👨‍🔬 В эфире эксперименты

Экспериментальная лингвистика как область науки зародилась во второй половине XX века. До этого лингвисты-теоретики основывали свои суждения на интроспекции (то есть пытались представить, как они сказали бы сами). Эксперименты же помогают выяснить, как люди взаимодействуют с языком или языковыми элементами (звуками, словами, фразами) и каковы оптимальные варианты их употребления.

🦾 (Не)зависимость

Эксперименты могут выглядеть по-разному, но в них в любом случае будут независимые и зависимые переменные. Зависимые — это интересующие ученых характеристики наблюдаемого результата (например, время реакции и результаты выполнения заданий). Независимые – те, которыми исследователь может манипулировать, вроде типа синтаксической структуры или характеристик псевдослова.

🙋‍♀️ Где ищут испытуемых

Самые известные в мире платформы такого рода — это Amazon Mechanical Turk, Prolific и Sona Systems. Их аналог российского происхождения — Толока.

🛠️ 3 инструмента

Создать лингвистический эксперимент можно онлайн. Например, с помощью инструмента Ibexfarm (Internet-Based Experiments). Другой вариант — программа PsychoPy. Её интерфейс более интуитивен, и эта программа совместима с айтрекерами и электроэнцефалографами. Наконец, есть Lab.js, где написание кода для многих задач не требуется: вы просто вводите нужные данные в уже заготовленные поля.
О других инструментах и деталях проведения лингвистических экспериментов, можно узнать из полной версии статьи.

Время чтения: 15 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Невыносимая лёгкость атрибуции: новая пьеса Милана Кундеры

Милан Кундера всемирно известен своими романами, но на самом деле он писал ещё и пьесы. Более того, чешские филологи подозревают, что его перу принадлежит больше пьес, чем мы думаем: например, переосмысление фольклорного сюжета «Юро Яношик», изданное за авторством Карела Штайгервальда. Как так вышло и кто (с огромной вероятностью) на самом деле написал пьесу — в материале «Системного Блока».

Кратко: о чем статья?

Ученые проверили гипотезу о настоящем авторе «Юро» с помощью стилометрического анализа. Корпус, с которым они работали, состоял из девяти текстов: три пьесы Кундеры, четыре пьесы Штайгервальда, одна его радиопьеса, и, конечно же, пьеса «под вопросом». Чтобы увеличить размер данных, каждый текст был поделен на отрезки в 2000 слов.

Для атрибуции исследователи применили метод опорных векторов, Support Vector Machine (SVM). В 94% случаев модель правильно определяла автора, причем ошибки чаще всего приходились на радиопьесу Штайгервальда «Слабое полуденное солнце» (видимо, из-за жанровых различий). А вот пьесу «Юро Яношик» модель во всех случаях приписывала Кундере.

Так, в авторстве Кундеры больше не приходится сомневаться, но если вы хотите узнать о работе исследователей подробнее и выяснить, почему писатель опубликовал пьесу под чужим именем — загляните в полную версию статьи.

Время чтения: 6 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Березки и программисты в школьных учебниках подсчитаны

На этой неделе школьники вернулись с каникул, поэтому самое время вместе с «Системным Блоком» вспомнить, как в Институте имени Пушкина создали технологию лингвистической оценки учебников. При сравнении цифрового Яндекс.Учебника с другими школьными пособиями по русскому языку исследователи нашли интересные отличия.

Кратко: о чем статья?

Методика заключается в выявлении статистических закономерностей в текстах учебных пособий. Например, авторы исследования выяснили, что объем словарного состава цифрового учебника превосходит средний объем традиционного. В цифровом пособии более широко представлены современные профессии и реалии городской жизни. При этом реже упоминается «береза», зато очень много бабушек и дедушек.

Лингвистическая оценка по формальным параметрам (жанрам, стилям, словарному составу) поможет создателям цифровых учебников соотнести содержание заданий с приоритетами современного образования.

Графики с упоминаниями бабушек, агрономов и программистов, а также другие различия между пособиями ищите в полной версии статьи.

Время чтения: 5 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Бамбарбия киргуду: нейросеть «оживила» Юрия Никулина

Образ Юрия Никулина воссоздали с помощью ИИ для фильма «Манюня: Приключения в Москве». Разрешение на использование внешности и голоса советского актера студия получила у его семьи. Создатели фильма Гевонд и Сарик Андреасяны рассказывают, что работа над цифровым Никулиным заняла около 8 месяцев и утверждают, что это первый в России успешный опыт воссоздания образа покойного актера с помощью нейросетей. Авторы «Бюллетеня кинопрокатчика» после просмотра трех сцен с участием актера написали, что «результат действительно впечатляет». 

1️⃣ Такое уже бывало

Создатели фильма не совсем правы, заявляя свое первенство: еще 2 года назад для сериала «Диверсант» был «воскрешен» умерший актер Владислав Галкин. Тогда задача команды, как рассказывал продюсер сериала Николай Попов, состояла в том, чтобы найти «двойника» Галкина. После чего нейросети, используя 90-процентное совпадение антропометрии лица подобранного актера и предыдущие работы Галкина, воссоздали образ умершего артиста. Однако как работают эти технологии сегодня, насколько изменилось «качество» с тех пор и будет ли оно приемлемым для зрителей?

2️⃣ Как нейросети воссоздают образы умерших актеров

Используется технология создания Deepfake-видео. В классическом виде она основана на генеративно-состязательных нейросетях (GAN). Она состоит из двух частей, генератора и дискриминатора. На вход такой нейросети подается обучающий набор данных, например, видео с актером. Генератор создает новые данные, которые похожи на обучающий набор, в то время как дискриминатор пытается отличить настоящие данные от сгенерированных. Этот процесс приводит к постоянной борьбе между генератором и дискриминатором, пока последний не начнет путать сгенерированную фейковую картинку с оригиналом. Таким образом лицо актера создается автокодировщиком и улучшается GAN-ом. 

3️⃣ Кого еще хотят «воскресить»

Владимира Высоцкого. По словам режиссера и продюсера Александра Жигалкина, в новом фильме «Володя» будет использована технология deepfake:

«Это полнометражный фильм, в котором впервые в истории кино будет воссоздан реальный исторический персонаж со 100% идентичностью при помощи нейросети. […] У нас актер Александр Шпагин, он находка для нашей истории. Это человек, который уже много лет существует в этом образе. Манера говорить, походка, игра на гитаре и так далее очень идентичны при дополнительной работе. […] Петь будет Высоцкий, а говорить он будет голосом Никиты, с которым мы изначально все это дело вместе придумывали».

4️⃣ А могут и заменить

Исполнительницу главной роли в шведском фильме «Персона» Лив Ульман при помощи нейросетей заменят на финскую актрису Альму Пёвсти. Это совместный эксперимент фонда Ингмара Бергмана, после которого планируется дискуссия об актерской игре и новых технологиях. Зимой 2024 года на международном фестивале в Гётеборге представят измененную картину, но в массовом прокате ее не будет.

5️⃣ Нейросети как инструмент цензуры

Иногда дипфейк используется чтобы вырезать актера, который резко стал неугодным и вошел в списки запрещенных. Так случилось с Максимом Виторганом, лицо которого вырезали из сериала «Контакт» и заменили на сгенерированное нейросетью после его антивоенных высказываний. 

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Исследование картин с помощью рентгена

27 марта в 1845 году родился Вильгельм Рентген — физик, нобелевский лауреат, первооткрыватель рентгеновского излучения. Его изобретение помогает не только медикам, но и искусствоведам. День рождения Рентгена — хороший повод перечитать статью «Системного Блока» о том, как рентген и ультрафиолет раскрыли тайну четырёх картин с одним сюжетом.

Кратко: о чем статья?

Исследуемые картины написаны на один и тот же важный для христианства сюжет: изгнание Христом торгующих из храма в Иерусалиме. Полотна приписывают последователям Иеронима Босха и Питера Брейгеля-старшего, и картины, хотя и выглядят похожими, полны двусмысленных деталей, которые делают каждую уникальной.

Чтобы исследовать все слои картин, спрятанные под конечным слоем, и увидеть дорисовки, ученые воспользовались технологиями инфракрасной съемки, рентгенографии и ультрафиолетового облучения. Они выяснили, что все четыре картины имели множество подрисовок, которые явно были сделаны разными людьми. Например, хотя авторство картины из коллекции Копенгагена приписывали Босху, сегодня многие искусствоведы согласны, что работа имеет с этим художником мало общего как с точки зрения техники живописи, так и с точки зрения палитры. 

О том, что такое дендрохронология, и более подробно обо всех исследуемых полотнах читайте в полной версии статьи.

Время чтения: 6 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Бунтующий young, ностальгирующий adult: как книжный рынок монетизировал взросление

В трендах и на полках книжных магазинов всё чаще мелькает young adult: только в России тираж книг для подростков и молодежи за последние 10 лет увеличился в два раза. «Системный Блокъ» решил разобраться, что стоит за этим веянием и можно ли считать его новым.

Кратко: о чем статья?


Young adult – большое культурное явление, которое можно скорее назвать литературным направлением, а не жанром. Часто его приравнивают к литературе для подростков, но 44% читателей young adult’а старше 30 лет. Да и сами книги этого направления зачастую выходят с рейтингом 18+.

Их герои обычно сталкиваются с подростковой любовью, половым созреванием поиском идентичности и другими проблемами перехода от детства к зрелости. Поэтому young adult часто становится инструментом психологической самопомощи (для подростков) и рефлексии (для взрослых).

Повышенное внимание издательств к этому направлению соизмеримо спросу – к нему можно отнести 6 из 10 книг самых продаваемых книг первого полугодия 2023 года в России. Причём издатели начинают «переупаковывать» в young adult всевозможные произведения: от «1984» до «Мастера и Маргариты».

Подробнее о прошлом, настоящем и будущем young adult узнаете из полного текста статьи.

Время чтения: 8 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Секретная жизнь ранних ЭВМ

Почему история первого двоичного программируемого компьютера была засекречена? Что связывает искусственный интеллект и криптографию? Как спецслужбы стали одними из важнейших клиентов IBM? Об истории первых шифровальных машин и устройств для дешифрования, о том, как дешифровальные службы повлияли на развитие ЭВМ и компьютерной лингвистики рассказываем в материале, который для «Системного блока» подготовил научный сотрудник Музея криптографии Егор Ефремов.

80 лет назад первый двоичный компьютер Colossus, британское вычислительное устройство с пятью с лишним тысячами ламп, выдал первые полезные результаты. Он был разработан в 1943 году для взлома немецкой шифровальной машины Lorenz SZ-40. До 1974 года его существование оставалось тайной.

1️⃣ С чего всё начиналось?
Сразу после Первой мировой войны произошло бурное развитие шифровальных машин. Наиболее известной из которых является дисковая «Энигма», сюжет о взломе которой уже стал частью массовой культуры. Однако в то же время был разработан и шифр Вернама - первый двоичный шифр, который используется в криптографии до сих пор. В этом шифре буквы сначала преобразуются в двоичный код (с конца XIX века в телеграфии широко использовался код Бодо).

К 1930-м годам на основе шифра Вернама были разработаны шифровальные машины с электромеханическими генераторами псевдослучайных чисел, к которым относился немецкий Lorenz SZ-40. Если анализировать зашифрованные SZ-40 сообщения как поток букв, найти в них закономерность очень сложно. Но если посмотреть на них как на последовательность двоичных чисел, то паттерн становится гораздо более очевидным. Для того, чтобы ускорить эти вычисления, и понадобился компьютер Colossus.

2️⃣ Как развивался симбиоз ЭВМ и криптоанализа дальше?
После войны перспективы использования компьютеров для криптоанализа стали очевидны, поэтому спецслужбы как стран НАТО, так и соцблока стали инвестировать в разработки ЭВМ. Они же стали покупателями первых суперкомпьютеров. А вчерашние криптоаналитики и криптографы (самыми известными из которых являются Клод Шеннон и Алан Тьюринг) продолжили работу в области ЭВМ и искусственного интеллекта.

3️⃣ Искусственный интеллект или «искусственная разведка»?
Первые задачи, которые ставились перед ИИ в рамках проекта DARPA, связаны именно с разведкой: машинный перевод с русского языка, анализ текстов, выделение паттернов в разведданных, машинное зрение. И сегодня за яркими ширмами ChatGPT, DALL-E и голосовых ассистентов в тени прячутся другие сферы применения ИИ — распознавание лиц, деанонимизация, обработка больших данных в OSINT.

4️⃣ Шифропанки и свободная криптография
К концу двадцатого века, с распространением персональных компьютеров и компьютерных сетей важность защиты личных данных стала очевидна. Сейчас мы воспринимаем как само собой разумеющееся шифрование банковских данных при покупках онлайн и безопасные мессенджеры, но доступность этих технологий стала результатом длительной борьбы активистов и шифропанков за либерализацию и популяризацию криптографических технологий.

О криптоаналитиках и шифропанках, первых двоичных шифрах и суперкомпьютерах, читайте в полной версии статьи.

🤖 «Системный Блокъ» @sysblok

Читать полностью…
Subscribe to a channel