sysblok | Unsorted

Telegram-канал sysblok - Системный Блокъ

10846

«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Финалист премии «Просветитель» sysblok.ru vk.com/sysblok fb.com/sysblok instagram.com/sysblok/ Присоединяйтесь к команде: sysblok.ru/join

Subscribe to a channel

Системный Блокъ

Как распознать тексты и сделать корпус для исследования: пошаговая инструкция

В новой статье «Системного Блока» разбираемся, как собрать корпус, используя ресурсы цифровых библиотечных коллекций, и как преобразовать отсканированные документы в машиночитаемый текст с помощью различных инструментов оптического распознавания символов.

Кратко: о чем статья?

Оптическое распознавание символов (OCR) — это преобразование отсканированных документов в машиночитаемый текст, по которому можно искать и который можно редактировать. Превращение цифровых копий книг в распознанный машиночитаемый текст предполагает три этапа: сбор коллекции документов, распознавание текста с помощью OCR и вычитка.

Для оптического распознавания текста существуют разные инструменты, в том числе десктопные, мобильные и веб-приложения. Например, можно воспользоваться ABBYY FineReader PDF или Tesseract. FineReader предлагает много функий для работы с текстом и вычитки, а ещё ему знаком русский язык не только в новой, но и в старой орфографии. Если же этот вариант не подходит, есть Tesseract — программная библиотека, с которой можно работать через командную строку или с использованием Python-оболочки.

Подробную инструкцию по работе с каждым из инструментов, информацию о том, как проверить распознанный текст на полноту и точность, и некоторые ресурсы, где можно найти оцифрованные копии книжных и периодических изданий, найдёте в полной версии статьи.

Время чтения: 12 минут.

Читать полностью…

Системный Блокъ

Правда глаза колет: 150 лет истории айтрекеров

Айтрекинг, или регистрация движений глаз, используется в психолингвистике и психологии, исследованиях зрительной системы и в устройствах взаимодействия между человеком и компьютером. «Системный Блокъ» уже писал про айтрекинг и паттерны чтения.

А в этом материале рассмотрим историю айтрекеров. Готовы ли вы поместить на своё веко тупую иглу, передающую движения глаз в виде звука? А надеть гипсовую контактную линзу, соединённую с рычагом, записывающим движения глаза на барабан? А прикрепить к глазу радиоантенну на резиновой присоске? Всё это приходилось делать участникам айтрекинговых экспериментов до изобретения бесконтактных технологий.

Кратко: о чем статья?

Интерес к изучению движений глаз возник за много веков до появления первых айтрекеров. Особенности зрения интересовали Аристотеля, древнеримского медика и хирурга Клавдия Галена и средневекового ученого Ибн аль-Хайсама.

История айтрекеров же полноценно началась в 1883 году, когда М. Ламар вместе с Л. Жавалем использовали для наблюдений прибор, трансформировавший движения глаз испытуемого в звук, улавливаемый экспериментатором. Но у технологий конца XIX века были очевидные недостатки, поэтому постепенно разрабатывались устройства, не требующие непосредственного крепления глаза к регистрирующей поверхности.

В последние годы технологии позволяют создавать айтрекеры, не требующие фиксации головы. Они представляют собой очки или шлем с двумя вмонтированными видеокамерами: одна из камер записывает изображение, которое видит испытуемый, а вторая фиксирует изображение глаза с помощью отражённого света. Испытуемого в таких очках можно отправить в магазин, в музей или за руль автомобиля.

Подробнее о важных именах и вехах в истории айтрекинга, а также о том, какие ограничения связаны с такими исследованиями в психолингвистике, читайте в полном материале.

Время чтения: 14 минут.

Читать полностью…

Системный Блокъ

Что читают в 2023? Тест на знание книжного рынка в России

После 24 февраля 2022 года необратимые изменения произошли практически во всех сферах жизни. Издательское дело не стало исключением. Как издательства разбирались с запретом на пропаганду ЛГБТ? Какой процент в ассортименте книжных магазинов составляет доля… книг? Кто отобрал у Стивена Кинга первенство в российском книжном рейтинге?

Наш тест поможет понять, насколько хорошо вы разбираетесь в сегодняшних реалиях книготорговли.

Читать полностью…

Системный Блокъ

Учителя-мужчины в школе: сколько их и что они преподают

5 октября в России и в мире отмечается День учителя. К празднику «Системный Блокъ» решил проверить, правда ли, что в школе работают в основном женщины, сколько всё-таки учителей-мужчин и какие предметы они ведут. Ответы на эти вопросы мы искали в открытых данных Минпросвещения.

Кратко: о чём статья?

Согласно открытой статистике Минпросвещения в последние шесть лет в среднем 83% всех работников школы — это женщины. Единственная мужская специальность в современной общей школе — это мастера производственного обучения: 68% преподавателей-мужчин. Правда, это исчезающая профессия: на начало прошлого учебного года всех мастеров обоих полов было меньше тысячи человек.

Правда, в ряде регионов распределение сильно отличается, особенно там, где доля мужчин значительно выше среднего. В трёх регионах — Дагестане, Якутии и Чечне — мужчин в профессии аномально много: они составляют почти пятую часть всех учителей, а в средних и старших классах учителей-мужчин 24–26%. В частных школах ситуация тоже несколько отличается, возможно, потому что в них меньше бюрократической волокиты и выше зарплаты. Впрочем, учителя в них составляют всего 2% от общего числа учителей в России.

О самом «мужском» и самых «женских» предметах, а также о гендерном дисбалансе в школах других стран узнаете из полного текста материала.

Время чтения: 7 минут.

Читать полностью…

Системный Блокъ

Утечка в IT: как эмигранты создали бренд русского программиста

«Если проблема нерешаема, мы предлагаем её русским», — заявил в 2007 году президент Intel Russia Стив Чейз. Эти слова говорили о большой популярности русских программистов на глобальном рынке IT. Предпосылки к высокой востребованности IT-специалистов из России были заложены в конце XX века, когда зарубежные компании познакомились с технарями, покинувшими Советский Союз и Россию. Разбираемся, как русский программист стал мировым брендом.

Кратко: о чем статья?

Многие программисты, эмигрировавшие за границу или развивавшие IT в постсоветской России, начинали свой путь в советских физико-математических школах. При этом возможности попрактиковаться именно в программировании в Советском Союзе были ограничены, а информатика как полноценный учебный предмет появилась в советских школах только после 1985 года, когда был взят курс на компьютеризацию образования.

После школы путь к программированию лежал через технические специальности высшего образования. И хотя студенты-физики и инженеры редко имели опыт написания программ, когда они покидали страну, сфера IT оказывалась для них наиболее удобной. Туда можно было попасть благодаря относительно простому (при наличии математической и инженерной базы) обучению и связям с другими русскими эмигрантами, уже занимающимися программированием. Диаспоры, сложившиеся в результате тесных коммуникаций внутри эмигрантской среды и за её пределами, стали решающим фактором для превращения русских программистов в узнаваемое сообщество. А затем транснациональные связи укрепили бренд русского программиста и вывели его с уровня диаспор на глобальный рынок.

Подробнее о том, когда и почему специалисты покидали СССР, как России удалось остановить наибольшую волну эмиграции 1990–2000-х годов и как работает концепция «утечки мозгов» читайте в полной версии статьи.

Время чтения: 13 минут.

Читать полностью…

Системный Блокъ

Стилометрия кинодиалогов: шесть жанров в поисках автора

Какие закономерности можно обнаружить в речи персонажей, если фильмы относятся к одному жанру? Меняется ли стиль диалогов в зависимости от сценариста или режиссёра? Похожи ли все фильмы одной франшизы друг на друга? Ответы на эти вопросы — в новом материале «Системного Блока».

Кратко: о чем
статья?

Исследование Яна Рыбицкого и Агаты Холобут (оба — Ягеллонский университет, г. Краков) посвящено анализу кинодиалогов с помощью стилометрии и сентимент-анализа (оценки эмоциональности кинодиалогов). Для него ученые собрали многожанровый корпус транскрибированных кинодиалогов из 178 англоязычных фильмов, охватывающий около 84 лет жизни киноиндустрии.

Фильмы разделили на шесть групп: мелодрама/женское кино, вампиры и супергерои. По жанру это романтика, триллер и экшен/приключения. Благодаря стилометрическому анализу выяснилось, что некоторые из них легко делятся на подргруппы. Например, диалоги в романтических фильмах о вампирах явно отличаются от диалогов в хоррорах на ту же тему. «Сумерки», кстати, демонстрируют постепенное «сгущение красок»: первые две части скорее романтичны, а дальнейшие становятся ближе к жанру ужасов. А многие франшизы блокбастеров с точки зрения стилометрии оказываются близки друг другу. Среди них «Пираты Карибского моря», «Матрица», «Властелин Колец» и «Хоббит».

О том, к какому жанру стилометрия отнесла «Титаник», какие фильмы оказались самыми «радостными» и чья стилистика — Квентина Тарантино или Альфреда Хичкока — более явно выражена в диалогах их героев, узнаете из полного текста статьи.

Время чтения: 8,5 минут.

Читать полностью…

Системный Блокъ

Поясни за стиль. Какому поэту подражает нейросеть?

Цифровые филологи научились «измерять стиль»: у «Системного Блока» есть подборка статей о стилометрии и гайд о том, как провести собственное стилометрическое исследование. Нейросети зашли еще дальше: современные технологии уже позволяют выделять стиль текстов и даже подражать ему (об этом мы писали здесь). Сегодня мы расскажем о новом эксперименте Бориса Орехова, в котором исследователь оценивает, насколько хорошо модель может скопировать узнаваемый авторский стиль.

Кратко: о чем статья?

Исследуя тот или иной авторский стиль, мы фокусируемся не только на том, что сказано, но и на том, как сказано. И если нам необходимо воспроизвести стиль определенного поэта, на помощь могут прийти нейросети. Чтобы проверить, насколько хорошо им это удается, Борис Орехов обратился к трем LSTM-моделям, обученным на корпусах Николая Некрасова, Осипа Мандельштама и раннего Бориса Пастернака.

Студентам-филологам предлагали три случайно выбранных сгенерированных четверостишия и просили определить, на чьём корпусе стихотворений училась нейросеть. Подражание Некрасову студенты определили верно в 40,4% случаях, Мандельштаму — в 43,6%, а Пастернаку — в 48,9%.

О том, можно ли считать этот результат успешным и как на него влияла честность студентов, узнаете из полного текста статьи.

Время чтения: 5,5 минут.

Читать полностью…

Системный Блокъ

Юдифь и Саломея: как мифические девицы искусство делили

Помните ли вы истории двух библейских героинь Юдифь и Саломеи? C помощью Викиданных мы выяснили, какая из двух героинь пользуется большей популярностью, и попытались понять почему. Всё самое главное — в наших карточках, а подробности — в этом посте.

Читать полностью…

Системный Блокъ

Персоналисткие диктатуры, как они живут и как погибают

Половина диктатур в мире — персоналистские. Именно они наименее склонны к демократизации и чаще других режимов начинают и эскалируют вооруженные конфликты.

Что мы знаем о персоналистских авторитарных режимах, диктатурах и возможностях перехода к демократии? Разбираемся с политологом Эрикой Франц, специалисткой по авторитарным режимам.

Читать полностью…

Системный Блокъ

Программисток и программистовс праздником!

13 сентября отмечается День программиста. Сегодня в этой профессии больше мужчин, чем женщин, но так было не всегда. Например, во времена Ады Лавлейс 100% программистов были женщинами 😆

Мы решили вспомнить тех программисток, которые положили начало развитию IT и вычислительной техники. Этим мы хотим вдохновить больше девушек и женщин пойти в програмирование.

Кроме Ады Лавлейс это адмирал и программистка Грейс Хоппер, разработчица кода для лунного «Аполлона-11» Маргарет Гамильтон, создательница автокода Кэтлин Бут, изобретательница протокола STP Радья Перлман и создательница одного из первых высокоуровневых языков программирования Екатерина Ющенко.

А каких женщин-программисток знаете вы? Напишите в комментариях

Читать полностью…

Системный Блокъ

Что мы узнали об ударении в русском языке и о наивной поэзии из корпуса stihi.ru

Подкорпус Национального корпуса русского языка, в котором можно изучать ударения русских слов, содержит произведения поэтов-любителей с сайта Стихи.ру. Каким образом они могут быть полезны для науки — читайте в нашем материале.

Кратко: о чем статья?

Стихи.ру — старейший русскоязычный сайт, на котором могут публиковаться наивные (непрофессиональные) поэты. Их произведения не проходят специальной редактуры и находятся в открытом доступе, а ещё у них есть важная особенность — ориентация на школьные стихи. Авторы-любители зачастую создают нечто похожее на то, что проходят на уроках литературы, поэтому ученые предположили, что автоматически предсказывать ударение для таких текстов должно быть очень удобно. Так и оказалось.

Хотя в некоторых текстах силлабо-тоническое стихосложение нарушалось. Впрочем, объяснялось это не переменой размера внутри одного стихотворения, а простыми ошибками. Так что произведения, в которых больше 30% строк содержали нарушения метра, ученые просто не стали добавлять в корпус.

Подробнее об отборе текстов и о том, как специально обученная программа научилась расставлять ударения, можно узнать из полной версии материала на сайте.

Время чтения: 6,5 минут.

Читать полностью…

Системный Блокъ

Тест: Что вы знаете о проблеме домашнего и партнёрского насилия 

Чем партнерское насилие отличается от домашнего? Как правильно называть того, кто его свершает? Почему кто-то сталкивается с насилием, а кто-то — нет? Пройдите тест и узнайте актуальную информацию о ситуации с домашним насилием в России.

Читать полностью…

Системный Блокъ

ChatGPT стал работать хуже? Ответ исследователей. Часть 2

ChatGPT — основанный на работе нейросетей чат-бот — появился в ноябре 2022 года и быстро завоевал популярность у пользователей. Сейчас его даже официально используют в работе некоторые корпорации — например, Bing и Slack — а Coca-Cola тестирует возможности бота для помощи в маркетинге.

«Под капотом» у ChatGPT две языковых модели: пользователи могут выбирать между GPT-3.5 и GPT-4 (последняя, впрочем, доступна только по платной подписке). Про «третью» GPT мы подробно писали в этой статье, а четвертая версия была презентована создателями как более продвинутая — лучше отвечает на запросы, знает больше языков и даже может работать с изображениями. На момент выпуска (в марте этого года), согласно проведенным компанией-разработчиком тестам, GPT-4 действительно была гораздо эффективнее предыдущей версии. Однако уже спустя пару месяцев пользователи отметили, что чат-бот стал отвечать гораздо хуже. Проблемой заинтересовались исследователи из Стэнфорда и Беркли, и в июле вышла статья, согласно которой с новыми версиями поведение GPT-4 действительно может значительно меняться (не всегда — к лучшему). Авторы статьи связывают эти изменения с обновлениями нейросетей, которые проводила создавшая их компания OpenAI ради улучшения показателей в некоторых типах задач. В то же время, методология исследования вызывает некоторые вопросы, так что окончательного вердикта об эволюции (или деградации) GPT-4 придется еще подождать.

Читать полностью…

Системный Блокъ

Фонограммархив для науки: Светлана Подрезова о коллекции аудиозаписей Пушкинского Дома и работе с источниками

Как связаны Блок, Есенин, Ахматова и Гумилёв с историей крупнейшей коллекции этнографических аудиозаписей? Что происходит, если идеология вмешивается в научный процесс? Почему ученые, собирающие звуковые свидетельства культуры, не стремятся публиковать свои материалы? Где вступают в противоречия этические принципы и идеология открытых данных? Об этом в интервью «Системному Блоку» рассказывает Светлана Подрезова, заведующая Фонограммархивом Пушкинского Домаа (ИРЛИ РАН).

Кратко: о чём интервью?

Существует стереотипное представление о скучной архивной работе: груды однотипных документов, пыль прошлых десятилетий, выцветающие рукописи, состоящие из непонятных закорючек, и маленькие открытия, интересные узким специалистам. Но Светлана Подрезова представляет историю и работу одного из самых необычных научно-исследовательских отделов Пушкинского Дома как увлекательный исследовательский опыт.

Первый шаг при каталогизации любой из звуковых коллекций (особенно самых ранних ― конца XIX–начала XX веков) ― обращение к истории ее появления. И уже здесь можно сделать открытие. Например, что идея изучить живое слово, художественную речь и интонацию через авторское чтение поэтов и писателей принадлежала Гумилеву, но реализовали её в 1920 году, записав Блока.

Сам фонограммархив был основан в 1927 году, а в конце 1938-го было окончательно установлено, что фольклористика — раздел литературоведения, не этнографии. При этом в работу архива постоянно вмешивалась политика. Например, в середине 1930-х сотрудники Отдела фольклора и Фонограммархива работали над большими темами, посвященными песням народов СССР (были подготовлены несколько антологий), фольклору рабочих, русской революционной песне. А в 2000-ые годы сотрудники Фонограммархива практически перестали ездить в экспедиции.

О том, с чем были связаны эти изменения, какие ещё эпохи были в истории архива и почему людям иногда кажется, что работники архива — «злодеи-музыковеды», читайте в полном тексте интервью.

Время чтения: 29 минут.

Читать полностью…

Системный Блокъ

«Системному Блоку» 5 лет! Итоги работы — в цифрах

Системному Блоку исполнилось 5 лет. За это время мы превратились из маленького паблика в немаленькое медиа, которое вещает из каждого утюга. В разных соцсетях к нам суммарно пришли около 150000 читателей (спасибо вам, что вы с нами!).

Мы опубликовали на нашем сайте больше 1000 материалов, устроили практику для сотен студентов, помогли провести десятки пар в университетах… И все это с нулем бюджета и на чистом волонтерстве. На карточках — итоги 5 лет нашей работы. Если хотите поучаствовать — подключайтесь.

Читать полностью…

Системный Блокъ

Вы Лев Толстой на словах или на деле? Викторина по редким словам из корпуса текстов писателя

Кого Лев Толстой называл голышом, и где в усадьбе тырла? Кем лучше быть ― келарем или щелкопёром? Писатель был знатоком редких и диковинных слов. Пройдите наш тест и попробуйте отгадать их значения. Сможете ли вы сравниться с графом Толстым в эрудиции?

Читать полностью…

Системный Блокъ

Женщины в IT: существует ли гендерное неравенство?

Нобелевская премия 2023 присуждена за исследование роли женщин в экономике и причин дискриминации женщин в оплате труда. Проблема гендерного неравенства очень заметна и в сфере IT. «Системный Блокъ» изучил, какова доля женщин в IT, сколько девушек готовы обучаться компьютерным наукам и какие стереотипы ограничивают их на рынке труда.

Кратко: о чем статья?

Доля женщин в сфере информационных технологий с каждым годом растёт: в мире доля IT-специалисток за последние четыре года увеличилась до 25%. Тем не менее разрыв в численности и в зарплате сохраняется. Например, во время получения высшего образования мужчины в пять раз чаще намереваются работать в области инженерии и компьютерных наук, в системе высшего образования США женщины составляют лишь 38% бакалавров в традиционных областях STEM (естественные науки, технология, инженерия и математика), а в России разница в заработной плате между специалистами разного пола, имеющими одинаковую квалификацию, составляет 28%.

У такой ситуации несколько причин, но если кратко — все дело в стереотипах. Так, существует популярное мнение о том, что математика не для девочек. Несмотря на то что женщины, имеющие детей, демонстрируют более эффективную работу в коллективе, руководители часто отдают предпочтение трудоустройству мужчин, опасаясь, что женщины внезапно могут уйти в декрет. Кроме того, есть стереотип о том, что «женский склад ума» не подходит для IT-сферы.

Подробнее о том, как проявляется гендерное неравенство в области компьютерных наук в России и за рубежом, а также каковы его причины, читайте в полной версии статьи.

Время чтения: 8 минут.

Читать полностью…

Системный Блокъ

Научим любить Родину… и мать твою: о чем говорят в «Разговорах о важном»

С сентября 2022 года в российских школах идут «Разговоры о важном». Это внеклассные уроки, направленные, по словам авторов идеи, на «укрепление традиционных российских духовно-нравственных ценностей» и «воспитание патриотизма» среди российских школьников. Ко дню учителя «Системный Блокъ» изучил содержание этих уроков, применив метод тематического моделирования.

Кратко: о чем статья?

На главном сайте «Разговоров о важном» в течение года выкладывались видео- и аудиоматериалы, сценарии уроков и методические рекомендации. Сейчас там размещены материалы 2023 года: инициатива продолжается в школах и в этом учебном году.  

Мы скачали 175 методических рекомендаций: по 5 файлов к каждому уроку, – собрали информацию из пункта «Формирующие(ся) ценности» и посчитали количество упоминаний одних и тех же ценностей. Главными ценностями, согласно замыслу авторов, оказались «патриотизм» и «любовь к родине». Также в тройку лидеров с большим отрывом от остального списка входят «самореализация/развитие/самоопределение» и «историческая память/преемственность поколений» — не менее 80 уроков для разных возрастов затрагивали каждую тему. Для сравнения, «милосердие» упоминается в рекомендациях к 9 урокам, «гуманизм» — к 4. 

О том, какие темы обсуждаются и какие слова встречаются в «Разговорах о важном» чаще всего, а также о том, как выяснить это с помощью тематического моделирования, читайте в полной версии статьи.

Время чтения: 8,5 минут.

Читать полностью…

Системный Блокъ

Что общего у литературы и биологии, или как развивались Digital Humanities в России

Точные методы в гуманитарных науках появились задолго до компьютеров — и в России их история превышает уже полтора века. Вспоминаем, как филологи, историки, лингвисты, математики и другие исследователи развивали количественные подходы к анализу литературы, языка и других гуманитарных объектов — и создавали базу для становления на российский почве.

Кратко: о чем статья?

История количественного литературоведения в нашей стране началась более ста лет назад — с работ поэта Андрея Белого. В 1910-х годах он разработал свою методику исследования метра и ритма, а затем изучение поэзии квантитативными методами продолжил Московский лингвистический кружок (МЛК). Именно из МЛК выросли лингвистические кружки в Праге, Копенгагене, Нью-Йорке и впоследствии — Международная лингвистическая ассоциация.

Одной из важных фигур в МЛК был Борис Ярхо. В своей «Методологии точного литературоведения» (1936) он объяснял литературу в биологических понятиях эволюции и рассматривал подобно живому организму. В 50-е и 60-е годы на смену биологической перспективе пришла математическая. Благодаря ней появились планы по разработке Машинного фонда русского языка и идея создания корпуса, подобного сегодняшнему Национальному корпусу русского языка.

Подробнее о главных этапах и лицах в истории Digital Humanities (DH) в России, а также о сходствах и различиях российского и мирового опыта DH — читайте в полной версии статьи.

Время чтения: 10,5 минут.

Читать полностью…

Системный Блокъ

Кому на Руси пить хорошо: какой алкоголь сегодня можно найти в магазинах и кто его покупает

Похвастаться стабильностью в кризисные времена может не каждая отрасль. Но вот кто точно в России не несёт убытки, так это рынок алкогольной продукции. Казалось, санкции должны были сократить и объёмы производства, и ассортимент. Однако ни производить, ни пить россияне меньше не стали. Разбираемся, в чём здесь может быть дело.

Кратко: о чем статья?

После 24 февраля 2022 года крупные западные компании, занимающиеся производством алкоголя, либо полностью ушли с российского рынка, либо ограничили поставки продукции. Однако проблемы труднодоступности известных западных марок ощутимы для относительно малого числа россиян. 75% рынка крепкого алкоголя приходятся на водку, которая преимущественно производится внутри страны.

Больше всего её, кстати, выпускают в ноябре и декабре, поскольку для показателей розничной продажи алкоголя характерна сезонность, и производители ориентируются на спрос. Шампанское чаще всего покупают к новогоднему столу, а пиво, наоборот, — пьют преимущественно летом.

Правда, российские пивовары рискуют сильно пострадать в ближайшем будущем: в стране почти не производится хмель и до санкций его всегда закупали в западных странах. Кроме того, повысятся цены на алюминиевые банки.

О проблемах, с которыми могут столкнуться виноделы, и их потенциальном решении, а также о том, где в России пьют больше и меньше всего, читайте в полной версии материала.

Время чтения: 10 минут.

Читать полностью…

Системный Блокъ

Интернет на службе коммунизма: как СССР создавал свою электронную сеть

В конце 60-х гг. не только США разрабатывали компьютерные сети. В СССР также строили грандиозные планы по созданию системы, которая в конечном итоге поможет привести страну к коммунизму. Рассказываем, почему из амбициозного проекта ОГАС и других проектов советского интернета ничего не получилось.

Кратко: о чем статья?

Первым создать «советский интернет» предложил ученый Анатолий Китов. В начале 1950-х он увлекся кибернетикой, а затем предложил построить всесоюзную компьютерную сеть (написав об этом Никите Хрущеву). Правда, из этой идеи ничего не вышло.

Зато новый проект советского интернета — Общегосударственную автоматизированную систему учёта и обработки информации (ОГАС) — предложил математик и кибернетик Виктор Глушков. ОГАС должен был собирать информацию со всех предприятий СССР и предлагать экономические решения для наиболее эффективного управления плановым хозяйством. Однако по подсчетам экономистов проект обошелся бы стране слишком дорого, и правительство не хотело делегировать свою власть компьютерным системам. Поэтому после многих рассмотрений и доработок ОГАС окончательно закрылся.

Зато сегодня опыт Китова, Глушкова и других советских кибернетиков активно изучают экономисты и историки как в России, так и за рубежом. 

О том, почему им интересна история советского интернета, когда кибернетика перестала считаться лженаукой и какие проекты автоматизации плановой экономики были в других странах, читайте в полной версии статьи.

Время чтения: 10,5 минут.

Читать полностью…

Системный Блокъ

Мандельштам или Некрасов: какому поэту подражает нейросеть?

В рамках недавнего эксперимента Бориса Орехова нейросеть подражала одному из русских поэтов, а студенты-филологи — определяли, чей стиль она воспроизводит. Предлагаем и вам отгадать, на чьем корпусе LSTM-модель научилась писать следующие строки.

А ещё даём небольшую подсказку: у нейросети не было цели написать качественное и связное четверостишие, ей нужно было только уловить особенности поэтического стиля, чтобы читатель явно понял, кто перед ним — Борис Пастернак или Петр Вяземский.

И карточки не слышал.
Он был уж добрый свет,
Но как бы мог прибавил
Какой-то бедного покой.

Читать полностью…

Системный Блокъ

Что вы знаете об абьюзерах: тест об участниках домашнего насилия

Некоторое время назад мы предлагали вам пройти тест о домашнем и партнерском насилии и вспомнить, кто и как часто с ним сталкивается. В новом тесте разбираемся с абьюзом и с авторами насилия.

Что заставляет человека жестоко обращаться с близкими? Какие предпосылки могут быть у такого поведения? Неужели абьюзер — это приговор?

Читать полностью…

Системный Блокъ

Государственный музей Востока оцифровал Коран{ы}

«Московские Кораны» — digital-коллекция оцифрованных списков Корана XI–XIX вв., проект Государственного музея Востока. Все файлы доступны для скачивания, а тем, кто мало знает об арабской культуре, будет интересно заглянуть в лекторий и глоссарий. 

Кратко: о чем статья?

Несмотря на монолитность текста Священного Писания мусульман, художественные традиции оформления Корана варьируются в зависимости от региона. В 2022 году Государственный музей Востока открыл выставку «Московские Кораны», на которой были представлены 40 коранических списков различных редакций X–XIX вв. Дополнением к выставке стал одноимённый виртуальный проект, который позволяет увидеть 17 списков Корана в художественных редакциях Ирана, Индии, Турции, Узбекистана и Средней Азии.

Благодаря проекту оцифрованные редакции Корана можно напечатать, скачать и рассмотреть детально. А ещё любой желающий может посмотреть мини-лекции куратора выставки, прочитать сопутствующий каждому видео текст и познакомиться с глоссарием арабских слов, часто встречающихся в контексте Корана.

Подробнее о «Московских Коранах» и возможностях, которые они открывают для исследователей и других посетителей, узнаете из полного текста статьи.

Время чтения: 3,5 минуты.

Читать полностью…

Системный Блокъ

Плюс «спецоперация» минус «свобода»: пример количественного анализа корпусов СМИ

С 24 февраля 2022 прошло полтора года, которые оставили явный цифровой след, в том числе в новостных интернет-медиа. Если вы ежедневно читали хотя бы какие-то новости в Telegram, то количество слов, просмотренных вами за это время, будет равняться числу слов в романе Льва Толстого «***** и ***».

При этом какой бы источник вы ни выбрали, мы утверждаем, что он описывал явления и события иначе, чем другие СМИ. И у нас есть инструментарий, чтобы это доказать. О том, как исследовать такие различия с помощью самых простых средств вычислительной лингвистики, — в материале «Системного Блока».

Предварительное замечание: ни издание «Системный Блокъ», ни автор статьи не аффилированы с какими-либо СМИ, тексты которых стали материалом для этого корпусного исследования. При этом мы подчёркиваем, что анализировались не столько тексты, сколько декомпозированные множества слов и словосочетаний. Статья не содержит ни одной прямой цитаты и/или ссылки на материалы каких-либо нежелательных организаций.

Кратко: о чем статья?

Главный канон журналистики — объективность, но любое медиа выражает себя через текст и формирует собственный дискурс. Отказавшись от амбициозной задачи проанализировать весь ландшафт российских СМИ в период с августа 2020 до августа 2023 (т. е. полтора года до 24 февраля 2022 и полтора года после), мы решили выбрать и сравнить между собой одно государственное и одно либеральное медиа. При этом оба отвечали четырем одинаковым критериям.

Все четыре корпуса составили примерно 7,5 миллионов слов, но их распределение неравномерно. После февраля 2022 года провластное медиа выпустило меньше новостей, чем за то же время «до», хотя средняя длина новости немного возросла. В альтернативном СМИ — наоборот: и новостей, и текста стало больше.

И хотя многие наиболее частотные слова можно найти в обоих СМИ (среди них, например, «сообщать», «военный» и «российский»), у множества слов и фраз встречаемость в разных медиа отличалась в десятки и даже сотни раз. Более того, если визуализировать корпус каждого медиа в виде облака слов, мы увидим две совершенно разные языковые реальности.

Подробноее об очевидных и неочевидных выводах «Системного Блока», а также о том, по каким критериям подбирались СМИ, можно узнать из полного текста статьи. В ней же вы найдете заготовки, благодаря которым можно повторить, дополнить или опровергнуть наши выводы без необходимости писать код.

Время чтения: 24,5 минуты.

Читать полностью…

Системный Блокъ

Шесть рукопожатий Владимира Маяковского

В год 130-летия со дня рождения Владимира Маяковского «Системный Блокъ» представляет цифровое исследование сети социальных связей в эпоху Серебряного века. Узнайте, к кому был близок Маяковский и кто с кем общался столетие назад! При помощи Gephi мы подготовили интерактивный граф на основе материалов архива мемуарных бесед «Устная история». 

Кратко: о чем статья?

Для этого материала мы исследовали социальные связи внутри культурного общества Серебряного века, сосредоточенного вокруг Маяковского. Чтобы это сделать, мы обратились к записям и транскрипциям бесед Виктора Дувакина — филолога и архивиста, который исследовал творчество поэта и общался со многими его современниками.

Благодаря ним на интерактивном графе с социальными связями Маяковского и его окружения оказались не только Лиля и Осип Брик, но и группа большевистстких лидеров. А ещё — придворное окружение Николая II.

Конечно, не все люди, оказавшиеся на графике, были приближены непосредственно к Маяковскому. Например, супруги Сосинские, как наиболее далёкие от общества Маяковского, организовали вокруг себя объёмный обособленный кластер связей, которые пересекаются с основной группой только через Максима Горького и Илью Эренбурга.

Создание такой «Сети рукопожатий» стало возможно благодаря применению цифровых методов к историко-литературному материалу, подробнее об этом — в полной версии материала.

Время чтения: 7 минут.

Читать полностью…

Системный Блокъ

Будь мужиком! Маскулинность в эпоху цифровизации и новой этики

Развиваясь, общество постепенно меняет представления о мужественности и женственности. Сегодня «маскулинность» (от лат. masculinus, мужской) стала особенно острым предметом обсуждения и переосмысления. О том, как эпоха цифровизации повлияла на концепцию маскулинности, — в материале «Системного Блока».

Кратко: о чем статья?

В современном обществе существует множество гендерных стереотипов о том, каким «должен» быть «настоящий» мужчина. Согласно опросу ВЦИОМ, проведенному в 2021 году, 19% россиян считают самыми ценными мужскими качествами честность, искренность и прямоту. Не менее важные аспекты роли связаны с отцовством и военной службой.

Со временем стандарты мужества установились и в онлайн-среде, поэтому, согласно исследованию ученых из СПбГУ, мужчины часто создают в виртуальном пространстве «улучшенные образы себя». Как правило, они добавляют в описание своего профиля для онлайн-знакомств больше информации, чем женщины, но реже используют эмодзи: они присутствуют в 24% мужских профилей и 38% женских.

При этом в современном мире есть и «токсичная маскулинность», которая ассоциируется с брутальностью, жестокостью, цинизмом и высокомерием по отношению к женщинам. Новое понимание мужественности больше не сводится к силе, выносливости и воле, а, наоборот, делает акцент на созидании и создании чего-то нового. Теперь мужчине можно и нужно проявлять эмоции, быть чутким и заботливым. 

Чтобы узнать о том, какие страхи свойственны мужчинам в интернет-среде, в какой стране мужчины обязательно уходят в декретный отпуск и можно ли сделать это в России (спойлер: можно, но этим мало кто пользуется) — читайте полную версию статьи.

Время чтения: 8 минут.

Читать полностью…

Системный Блокъ

ChatGPT стал работать хуже? Часть 1

В марте этого года вышла новая версия популярного чат-бота от компании OpenAI. Разработчики представляли ее как прорыв в сфере текстовых помощников и даже сделали доступ к новой технологии платным (более старая версия является бесплатной с момента появления). Однако сейчас главные новости про ChatGPT — это многочисленные сообщения пользователей о том, что новая версия вскоре после выхода стала работать намного хуже.

Мы решили проверить, заметны ли отличия между разными версиями ChatGPT, и задали им вопрос: «Как научиться скорочтению?», попросив сократить ответ до семи строк и включить туда только неочевидные советы. Результаты запросов вы можете увидеть ниже; попробуйте угадать, где ответ более новой версии, а где — «старой».

Текст №1
Скорочтение требует практики и осознанности:
1. Минимизируйте подвижки глаз, используя указатель.
2. Читайте целыми фразами, а не слово за словом.
3. Избегайте произношения слов в уме (субвокализация).
4. Используйте специализированные инструменты и приложения для тренировки.
5. Постепенно увеличивайте сложность материалов чтения.
6. Регулярно оценивайте своё понимание текста, а не только скорость.
7. Будьте настойчивы и терпеливы в обучении.

Текст №2
1. Уберите субвокализацию: Прекратите произносить слова в уме.
2. Используйте палец: Ведите им под текстом, это ускоряет движение глаз.
3. Развивайте периферийное зрение: Смотрите на целые фразы, не только на слова.
4. Практикуйте периодически: Регулярная практика улучшает скорость.
5. Увеличивайте темп постепенно: Не жертвуйте пониманием.
6. Изучайте слова: Расширьте словарный запас для быстрого распознавания.
7. Выбирайте подходящий текст: Структурированный и понятный контекст облегчит чтение.

Читать полностью…

Системный Блокъ

Тест: какая летняя открытка вам подходит?

Есть два способа сохранить на память уходящее лето: приготовить варенье и получить открытку. Варенье мы вам подарить не можем, а открытку можем. В первый осенний день пройдите наш серьезный психологический тест и получите послание из лета из коллекции проекта «Пишу тебе». Мы подобрали их специально для вас!

Читать полностью…

Системный Блокъ

Бабка, гаишник и Чапаев входят в бар, а он им как раз. Тест: Узнаете ли вы подкорпус НКРЯ по характерным для него словам?

Какие слова чаще встречаются в анекдотах, а какие — в деловых документах? Узнать это можно, пройдя наш новый тест, сделанный на основе Национального корпуса русского языка.

Чтобы лучше представить себе особенности разных типов русскоязычных текстов, в НКРЯ есть функция сравнения их со всем корпусом: например, можно посмотреть на то, какие слова стали встречаться чаще, а какие — реже. Проверьте, насколько хорошо вы разбираетесь во всем разнообразии текстов на русском языке — от смс-сообщений до классической литературы.

Читать полностью…
Subscribe to a channel