sysblok | Неотсортированное

Telegram-канал sysblok - Системный Блокъ

10752

«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Финалист премии «Просветитель» sysblok.ru vk.com/sysblok fb.com/sysblok instagram.com/sysblok/ Присоединяйтесь к команде: sysblok.ru/join

Подписаться на канал

Системный Блокъ

«В России история интернета не написана никем»: Леонид Юлдашев об изучении интернета, кибернетике, Starlink и Чебурнете

Как исследователи пишут историю интернета? Почему глобальная сеть вытеснила национальные проекты вроде французского Minitel? Почему достижения советской кибернетики не привели к созданию работающих сетей? Кто стоял у истоков Рунета и куда Рунет движется сегодня? Обо всём этом «Системному Блоку» рассказал Леонид Юлдашев, социолог, исследователь истории интернета, в прошлом координатор клуба любителей интернета и общества.

Кратко: о чем интервью?

В 1990-е годы считалось, что интернет меняет мир, что мы в Сети — не то же самое, что мы в офлайне. С интернетом связывались утопические надежды. Правда, всё оказалось гораздо сложнее, и сегодня есть целая область исследований, которая называется Internet Histories. Она ставит перед собой задачу создать описание истории интернетов во всех странах планеты.

В России история интернета не написана никем и существенно отличается в каждом городе. Например, в Арзамасе в 2005 году провайдеры использовали военный телефонный кабель, потому что их инвестор мог его достать, а в Томск в 1997-м приехали американские инвесторы и предложили строить интернет на телевизионном кабеле, потому что в Америке он тогда использовался очень широко.

И если пока интернет еще можно регулировать с помощью провайдерских центров админтрафика, то реализация идеи глобального интернета может всё изменить. Илон Маск, например, пытается создать космический интернет, соединяя спутники лазером. Его регулировать будет негде.

Впрочем, эта страница истории интернета ещё не написана. Если хотите узнать больше о прошлом и настоящем интернета в России и в мире, переходите к полной версии интервью.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Лазер из iPhone: как найти древнюю цивилизацию с помощью LiDAR

Современным археологам недостаточно лопаты, мастерка и кисточки для полевой работы. Чтобы обнаружить скрытые под слоем почвы города и дороги, ученые сканируют поверхность Земли с помощью лазера. Рассказываем, как работает LiDAR — технология, которая сегодня есть в обычном айфоне, и как LiDAR помогает делать археологические открытия в джунглях Амазонки, на Тихоокеанских островах и прямо посреди Европы.    

⚙️ Что такое Lidar?

Лидар или LiDAR (Light Detection and Ranging) — это технология лазерной локации, позволяющая определять расстояние до объектов и строить двухмерную или трехмерную модель окружающего пространства. Существуют как лидары ближнего действия, например, для работы в помещениях, так и дальние, “видящие” на расстоянии сотен километров. 

🤖 Где его используют? 

Лидары создают пространственные модели планеты, которые используют экологи, строители и топографы. Ещё они помогают беспилотным автомобилям не врезаться в другие машины и прохожих, а роботам на конвейере – обрабатывать только нужные детали. Для археологов лидар создает карту поверхности, на которой заметны фундаменты домов, остатки стен, контуры улиц и прочие сооружения.

🏛️ Затерянные города Упано в долине Амазонки

С помощью лидара ученые обнаружили остатки крупнейшего комплекса доколумбовых поселений – городов с сетями улиц и системами каналов для отвода воды. Раньше здесь уже проводили раскопки, но исследователи находили только мелкие предметы быта,  не подозревая, что под джунглями скрывается обширная система городов. 

🗿 Камни латте на острове Гуам в Тихом океане

Эти камни не имеют ничего общего с кофе, но чем-то схожи с каменными монолитами с острова Пасхи — такие же древние, загадочные и океанические. Чтобы найти их, ученые сканировали территорию с самолета лидарами, определяя местоположение артефактов и строений.

🏚️ Империя XII века в джунглях Камбоджи

Как показали результаты аэросъемки с использованием лидара, в XII веке Кхмерская империя была одной из крупнейших на Земле. Правда, многие здания кхмеры строили из дерева и других биоразлагаемых материалов, которые со временем просто исчезли. К счастью, лидар способен определять земляные насыпи, фундаменты, дороги и другие следы строительства, по которым можно воссоздать строение и облик древнего города.

О других интересных открытиях, сделанных с помощью лидара, а также о том как и где можно опробовать эту технологию самостоятельно, узнаете из полной версии статьи.

Время чтения: 12 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Новая модель для дизайна белков, скорый выход самой большой LLama и FlashAttention 3

Рассказываем, что произошло в мире ИИ за последние три недели.

Самая большая LLama на подходе

По данным сотрудника Meta, LLama 3 — языковая модель от Meta — с 405 млрд параметров выйдет уже 23 июля. Скорее всего, модель будет поддерживать работу не только с текстом, но и с другими типами данных, например, изображениями. Промежуточные результаты этой модели в стандартных тестах сопоставимы с результатами GPT-4.

Меньшие версии LLama 3 с восемью и 70 млрд параметров были выпущены в середине апреля. В отличие от большинства остальных языковых моделей, LLama выложена в открытый доступ и может быть использована в коммерческих целях.

ESM3 — одна из самых больших моделей для дизайна белков

Компания EvolutionaryScale, основанная бывшими сотрудниками Meta, представила модель ESM3 для генерации белков. Она была обучена на более чем 2,7 млрд последовательностей и структур белков и способна создавать белки с заданными свойствами.

Для демонстрации компания использовала ESM3 для дизайна флуоресцентного (светящегося) белка. Излучающий свет белок GFP (green fluorescent protein) был найден у медуз в 1960-х годах. Впоследствии учёные научились использовать его, чтобы помечать другие белки. Это, например, позволяет подсвечивать растущие раковые опухоли, показывать развитие болезни Альцгеймера в мозге или рост болезнетворных бактерий. За использование GFP в биологии в 2008 году несколько ученых получили Нобелевскую премию.

Исследователи вычислили наиболее способную к флуоресценции молекулу, не похожую на известные флуоресцентные белки, и использовали ESM3 для её усовершенствования. Хотя до лучших по яркости лабораторных образцов результаты всё еще не дотягивают, совпадение полученной молекулы с наиболее близкой из обучающих данных составило менее 60%.

Основатель компании отмечает, что итеративный процесс дизайна белков с помощью ESM3 схож с процессом естественной эволюции.

FlashAttenion3 — новые оптимизации механизма Attention

Исследователи выпустили третье поколение оптимизаций механизма Attention. Attention — главная составляющая самой популярной архитектуры нейросетей Transformer, которая в том числе используется во всех современных языковых моделях.

Главная проблема Attention — большое потребление вычислительных ресурсов, которое существенно растет с увеличением входных данных. FlashAttention — это серия работ по оптимизации ресурсозатратного блока.

Третья версия, по сравнению с предыдущей, более чем в два раза эффективнее использует вычислительные мощности во время работы Attention и поддерживает вычисления с числами пониженной точности (зачастую разработчики пренебрегают точностью в угоду скорости).

Благодаря более эффективной реализации Attention сократится стоимость обучения и использования большинства современных моделей, а языковые модели, в свою очередь, смогут работать с более длинными текстами.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Историки, культурологи и краеведы: папка телеграм-каналов

Исторические исследования дают большой простор для применения цифровых методов, поэтому мы часто пишем на исторические темы. Мы рассказывали о расшифровке писем Марии Стюарт, сети социальных связей европейских монархов накануне Первой мировой войны, тематическом анализе дневников 1917 года и изучении рисунков на стенах древнего храма. 

Если вы читаете посты и статьи «Системного Блока» прежде всего ради таких материалов, сегодня точно ваш день. Потому что мы делимся целой папкой телеграм-каналов, которые позволят лучше изучить разные времена и пространства истории. От Константинополя до Ростова, от античности до Второй мировой, от личных дневников до дата-исследований.

Папку можно легко добавить к себе целиком или выбрав самое интересное.

Как это работает:
— Кликаете на гиперссылку 
— Нажимаете ​​«Добавить папку»
— Выбираете интересующие каналы
— Делитесь с друзьями
— Наслаждаетесь подборкой!

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Классное чтение: школьная программа по литературе от Октябрьской революции до ЕГЭ

Когда в школьной программе появлялись Гарри Поттер и Бильбо Бэггинс? А когда изучали Гомера и Эсхила? Какие иностранные художественные произведения входят в школьный канон? Когда больше изучали зарубежных авторов: в советское время или сейчас? Первая часть нашего дата-исследования школьного канона посвящена зарубежной литературе.

Кратко: о чем статья?

Зарубежная литература всегда присутствовала в школьной программе, начиная с первых лет советской власти, но устойчивый состав авторов и произведений сложился только в 1970-е годы.

В программе 1919 года можно найти античную драматургию и Шекспира. В 1930-1940-е состав расширился: добавились западноевропейские писатели XVII-XIX веков (Гейне, Шиллер, Байрон…) и современные писатели, поддерживающие Советский Союз. Во время войны эта тенденция изменится и задержится на долгое время, так что зарубежной литературы будет всё меньше: между 1954 и 1962 годами вся иностранная словесность в школьной программе ограничивается «Фаустом» Гете и «Гамлетом» Шекспира.

Сегодня же доля зарубежных произведений в школьной программе выше, чем в советское время, однако в основном они входят в необязательную часть, которая изучается по выбору. В 2015 и в 2020 годах из 66 писателей необходимо было изучить творчество только 11-ти, остальное на выбор, а в ЕГЭ зарубежная литература вошла только с 2022 года: выпускник должен знать произведения не менее трех зарубежных поэтов или прозаиков за определенный период.

Сравнить популярность Шиллера и Байрона в школьной программе, выяснить, что происходило со списком литературы с 1960-х по 1990-е, и соотнести количество французских, британских и американских авторов в программе разных годов можно благодаря полной версии статьи.

Время чтения: 11 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Проверяем авторство: стилометрия для японских текстов

На примере работы японской исследовательницы Уэсака Аяка рассказываем о том, как с помощью стилометрии было поставлено под сомнение авторство повести, приписываемой знаменитому поэту и прозаику XVII века Ихара Сайкаку.

Кратко: о чем статья?

Стилометрия – это количественный метод в лингвистике, литературоведении и других гуманитарных науках, который определяет авторский стиль с помощью статистических метрик. Мы часто рассказываем о стилометрических исследованиях, например, творчества Набокова, древних греков и нейросетей. А ещё предлагали вам провести свой стилометрический эксперимент

Но если мы захотим применить стилометрию для восточных языков, то столкнемся с проблемой: как посчитать слова, если текст не разделен пробелами? На помощь приходят парсеры – программы, которые содержат правила для какого-то конкретного языка, по которым можно разделить предложения на слова, а слова на морфемы. 

Исследовательница Уэсака Аяка с помощью стилометрии поставила под сомнение теорию об авторстве «Повести о скоротечном пути Араси» Ихара Сайкаку (1642–1693). Повесть написана в 1688 году и считается первым художественным произведением о жизни актера традиционного японского театра кабуки по имени Араси.

Уэсака Аяка написала собственный парсер японского языка, оцифровала 120 работ Сайкаку, разделила их на слова и получила корпус из 710 355 токенов. Затем она собрала корпус размером 53 838 слов из трех романов другого писателя того же периода – Ходзё Дансуй (1663–1711). Благодаря этому она подтвердила авторство четырех работ Сайкаку, опубликованных после его смерти… но не исследуемой повести. В её случае дать однозначный ответ нельзя, поскольку у нее есть черты стиля как Сайкаку, так и Дансуй.

Подробнее об этом исследовании узнаете из полного текста статьи.

Время чтения: 7 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Идеальная формула депрессивной песни на примере Radiohead

Музыковед Анна Виленская назвала Radiohead одной из величайших групп в истории, песни которой вполне можно выделить в отдельный жанр. А мы изучили не их жанр, а их… депрессивность. Вспоминаем материал «Системного Блока» о том, как вычислить «индекс уныния» песни и применить эту формулу к Radiohead. 

Кратко: о чём статья?

Британская рок-группа Radiohead пишет печальные мелодии, а тексты на их музыку многие называют мрачными. Дата-сайентист Чарли Томпсон вычислил их самую депрессивную песню с помощью языка программирования R.

Для своего исследования Томпсон использовал API Spotify. Потом он обратился к корпусу эмоционально окрашенных слов Национального научно-исследовательского совета Канады и выбрал оттуда лексемы, считающиеся «грустными». Посчитав количество «грустных» лексических единиц в каждой песне, он выяснил, что самый печальный текст Radiohead – High And Dry

Если же взять во внимание не только слова, но также лирическую плотность и валентность (музыкальную позитивность) по версии Spotify, то абсолютным победителем по шкале грусти окажется True Love Waits.

Подробнее о трех компонентах «индекса уныния», идеальной формуле депрессивной песни и сайте Sentify, где можно визуализировать настроение песен любимого исполнителя, — в полном тексте статьи.

Время чтения: 5 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Новый лидер среди LLM, «безопасный сверхинтеллект» от бывшего топ-исследователя OpenAI и конкуренты Sora

Рассказываем, что произошло в мире ИИ за последние две недели.

Claude Sonnet 3.5 — новая лучшая языковая модель

Компания Anthropic, основанная бывшими работниками OpenAI, выпустила обновление своей языковой модели Claude Sonnet 3.5. По стандартным тестам модель превосходит предыдущего лидера GPT-4o и предыдущую флагманскую модель компании Claude Opus 3. Также Sonnet 3.5 вдвое быстрее и в пять раз дешевле Opus 3. Модель можно попробовать бесплатно на сайте компании. Обновления более большой модели Opus и более компактной Haiku планируются в этом году.

Safe Super Intelligence Inc.

Бывший ведущий исследователь OpenAI Илья Суцкевер основал компанию Safe Super Intelligence Inc. По заявлению компании, её главная цель — создание безопасного сверхинтеллекта. Компания зарегистрирована в США и имеет офисы в Пало-Альто и Тель-Авиве.

Ранее Суцкевер возглавлял команду Super Alignment в OpenAI. Они исследовали способы интерпретации языковых моделей, а также методы их управления и контроля.

По неподтверждённым слухам, у Суцкевера и Альтмана, генерального директора Open AI, были разногласия в вопросе безопасного развития ИИ, которые привели в кратковременному увольнению Альтмана, а затем и увольнению самого Суцкевера.

Новые конкуренты Sora

С момента выхода Sora — модели для генерации видео по текстовому описанию — множество компаний выпустили свои аналоги.

На этой неделе компания Runaway заявила о выходе третьего поколения модели Gen. Gen 3 Alpha способна генерировать видео длиной до 10 секунд. По качеству опубликованных примеров она не уступает Sora.

Ещё о своей модели для генерации видео (Veo) недавно рассказали в Google. Обе модели пока доступны для ограниченного круга пользователей. Однако уже сейчас можно попробовать модели от Luma AI и модель от Kling.

О модели Sora OpenAI заявила в начале этого года, доступ к ней есть только у нескольких деятелей сферы кино. По заявлениям компании, модель станет доступна более широкому кругу пользователей после выборов президента США, которые пройдут в ноябре 2024.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Разделить цену войны: кого, откуда и когда призывали в годы ВОВ?

22 июня 1941 началась Великая Отечественная война, унесшая жизни десятков миллионов людей. С начала ВОВ прошло 83 года, но в её истории всё еще много неизвестного. Даже сведения о том, сколько человек было призвано, пока неполны. Благодаря работе специалистов по оцифровке архивов большие массивы источников по Великой Отечественной становятся доступны для анализа и статистических исследований. 

Предлагаем вспомнить одно из таких исследований, сделанное командой «Системного Блока» и посвященное анализу 26,5 млн. карточек с военно-пересыльных пунктов. Эти данные позволяют увидеть, как отличалась картина призыва в разные годы в отдельных республиках СССР.

Кратко: о чем статья?

У каждой республики была своя история участия в войне и свой портрет призыва. Призыв в РСФСР, Казахстане и Киргизии был схож и довольно стабилен на протяжении войны. По ходу войны призывной возраст снижался, а самый большой подъем призыва в РСФСР ожидаемо совпал с началом Великой Отечественной войны. В нем существенна доля взрослых людей старше 22 лет — были призваны резервисты, запасники, отставники.

Совершенно другой портрет призыва наблюдается в республиках, которые были полностью оккупированы в годы войны — Белорусской, Украинской ССР и республиках Прибалтики. Поскольку основной удар первых месяцев войны пришелся на них, провести полноценный призыв удалось далеко не везде, а после оккупации территории он стал невозможен и продолжился только после освобождения. Именно поэтому в Белоруссии призыв в 1944 году был самым многочисленным. Цифры свидетельствуют: несмотря на угон людей на работы в Германию и массовые расправы над местным населением, после отступления Вермахта освобожденные территории все еще могли обеспечить массовое пополнение рядов Красной армии.

Узнать подробности об особенностях призыва в оккупированных республиках, о спаде призыва в 1943 в республиках Кавказа и о трудовом призыве в Узбекской, Таджикской и Турменской ССР можно из полного текста статьи. Там же можно найти динамическую визуализацию данных, содержащую информацию по 14 основным республикам СССР.

Время чтения: 25 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Туберкулез в России в цифрах и фактах

Весной мы рассказывали о том, как цифровые методы помогли ученым изучить туберкулез в России. Исследователи проанализировали связь между количеством заболевших в разных регионах и социальными факторами: размером их жилья, качеством воды и еды, финансовым благополучием и так далее.

Выяснилось, что чем напряжённее ситуация в регионе, тем меньше разнообразных социальных факторов влияют на заболеваемость. Зато те немногие, что влияют, оказывают определяющее влияние. И наоборот: в регионах, где заболевших не так много, на распространение болезни понемногу влияют самые разные факторы. Мы собрали статистику из исследования и обновили нашу инфографику: на карточках — наглядно о том, как связаны туберкулёз и качество жизни.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

О влиянии учёных на интерфейс и интерфейса на наш выбор, поведение и привычки: подборка интервью «Системного Блока» 

Что хотят знать о нас учёные, следя за нашими действиями в интернете? Как это изменит выдачу нам контента умной лентой в соцсетях? И как повлияет на вид и расположение кнопок в приложении? Мы не замечаем работу антропологов, этнографов, социологов и многих других в виртуальном пространстве, но каждый день пользуемся результатами их труда. И каждый день это меняет нашу этику, взгляды и привычки.

Цифровая этнография и «дьявольский значок» уведомлений

Жизнь в окружении гаджетов и «забота» о нас алгоритмов интернет-пространства — добро, зло или просто наша новая реальность? Цифровой этнограф Аннет Маркхэм в интервью «Системному Блоку» рассказала, как умная лента может довести до трагедии, какие социальные стереотипы мы переносим в нашу виртуальную жизнь, что меняют в нашем поведении и восприятии Google и Netflix, а еще — как можно изучать самого себя в цифровой среде (и почему после этого люди начинают ненавидеть уведомления).

«И пусть все читают “Одумайтесь”»: Анастасия Бонч-Осмоловская о цифровом Толстом и пересборке DH после 24 февраля

Анастасия Бонч-Осмоловская ― лингвист, филолог, цифровая исследовательница, идейная вдохновительница и душа российских Digital Humanities. В своём интервью «Системному Блоку» она рассказала, как с помощью DH 2D — печатная книга превращается в 3D-вселенную творчества писателя. И как благодаря цифровым технологиям ты можешь показать рукописи глазами автора и прочесть их так, как читал первый редактор этих произведений, — без купюр, с сокращениями и непередаваемым авторским видением. А также о том, как события 2022 года повлияли на русскую часть DH-сообщества.

UX в(c) DH. Интервью про UX-исследования, Human-Computer Interaction и связь юикса с цифровой гуманитаристикой

Хороший интерфейс — это не про кнопки и красивый дизайн. Это про серьёзные научные исследования людей, их привычек и особенностей поведения, лежащих в основе любого цифрового продукта. О закулисье UX и о том, когда и почему разработчики отправляются за помощью к антропологам, социологам, врачам и лингвистам, «Системный Блокъ» подробно поговорил с Алексеем Евстифеевым, UX-исследователем, координатором проектной группы по UX в Пушкине <цифровом> от КБ «Собака Павлова», и Полиной Колозариди, академической руководительницей магистерской программы по DH в ИТМО.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Тест: Из России – с данными

Насколько хорошо вы знаете… Россию? 12 июня предлагаем вам пройти тест о том, как цифры могут рассказывать о социальных проблемах в стране. Узнаете, в каком регионе уже несколько лет растет число разводов (спойлер: здесь замешаны выплаты родителям-одиночкам), где сконцентрировано больше всего моногородов, которые появились ещё в СССР, и в каком городе в 1,5 раза выросло число убийств, но не трупов.

Мы подготовили этот материал на основе открытых данных проекта «Если быть точным» @tochno_st.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Stylo: какие слова отличают один текст от другого?

Stylo — программа для исследования стилистики текста. «‎Системный Блокъ»‎ подготовил для вас уже третий гайд по этому инструменту (вот ссылки на первые два, базовый и продвинутый). На этот раз разбираемся с функцией oppose(), которая помогает найти отличия между лексическими составами двух корпусов текстов. Например, выяснить, чем Толстой отличается от Достоевского, а Тургенев — от Гончарова.

Для каждого из корпусов oppose() показывает, какие слова характерны для входящих в него текстов и в то же время редко встречаются во втором наборе. Также функция может учитывать дополнительный, контрольный, корпус — его добавляют, если нужно проверить точность результатов или определить, какой из двух исследуемых корпусов больше похож на контрольный (используется при определении автора текста).

oppose() анализирует текст по фрагментам (длины можно выбрать самостоятельно), и благодаря этому учитывает распределение слов в тексте: даже если какое-то слово встречается часто, но лишь в одном фрагменте длинного текста, оно не будет отмечено как характерное для всего корпуса.

В полной версии гайда мы сравнили романы Тургенева «Накануне» и «Дворянское гнездо» с «Обрывом» и «Обыкновенной историей» Гончарова, добавив контрольный корпус из «Обломова» и «Рудина». В результате получилось, что у Тургенева персонажи больше говорят (для выбранных романов характерны слова типа промолвить, воскликнуть, возразить), а у Гончарова — смотрят (романы отличают слова поглядеть, смотреть, посмотреть, взгляд).

Если изменить параметры визуализации, то можно получить график, где будет показано, насколько далеко отстоят друг от друга тексты из разных корпусов — то есть, насколько сильно они отличаются и, наоборот, какие похожи друг на друга. Предлагаем читателям угадать, какие выводы удалось сделать на основе получившегося у нас графика.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Всемирная история картотек: как учёные и библиотекари пытались упорядочить всё

Зачем разрезать конспекты книги на полоски? Как крючки в шкафу заменяли библиотекарем теги? Антон Басов, сотрудник факультета компьютерных наук НИУ ВШЭ и исследователь истории науки и техники, рассказал об истории упорядочивания книг и изучил, как развивалась идея библиотечного каталога с XVI века и до наших дней.

Как возникла идея каталогов

После изобретения книгопечатания мир пережил первый в истории информационный взрыв: количество напечатанных книг росло с 12,5 тысяч экземпляров в начале XVI века до 138 тысяч в его второй половине. Изменилось не только количество книг, но и их качество: кроме религиозной литературы, стали появляться греческие и римские философы, сочинения самих европейцев по всем вопросам. Это требовало создания «навигационных инструментов» для книжного мира.

Когда появился первый каталог?

Первый литературный каталог создал Конрад Геснер — швейцарский ботаник и зоолог Нового времени. Он выпустил две книги: Bibliotheca universalis, в которой упорядочена вся известная ему литература на латыни, греческом и иврите, и Pandectarum sive Partitionum Universalium, которая распределяет все книги из первой части по 21-й области знаний. Еще Геснер предложил такой метод: выписывать все важное на лист бумаги с новой строки, разрезать лист на полоски и сортировать в необходимом порядке.

Какие ещё были идеи?

Первый каталожный шкаф был создан Томасом Харрисоном примерно в 1640-м году и назван им Arca studiorum, «ковчег познания». Англичанин предложил выписывать факты на отдельные карточки, а затем сделать доску с крючками, каждый из которых соответствовал бы какому-либо ключевому слову. Карточки, связанные с тем или иным словом, вешались на соответствующий крючок.

А как же библиотечные каталоги?

Первый карточный каталог библиотеки создал Готфрид Лейбниц, один из главных европейских интеллектуалов XVII века. Лейбниц сделал каталог с помощью отдельных листков бумаги для каждой книги, рассортированных по предметам и авторам. После Лейбница понадобится ещё сто лет и череда случайностей, чтобы появился первый настоящий библиотечный карточный каталог.

Почему фрагменты знаний Геснера, записанные на полосках бумаги, отражали мировосприятие Нового времени? Какой известный ученый заинтересовался изобретением Харрисона? Обо всём этом и более подробно об истории каталогов книг, читайте в полной версии статьи.

Время чтения: 11 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Почему информацию надо спасать: проблема цифрового архива

Интернет создает ложное ощущение: всё, что мы выгрузили в сеть, останется там навсегда. На самом деле нет. Одни сервисы закрываются, и всё, что на них было опубликовано, пропадает, другие платформы страдают от утечек и проблем с серверами, третьи просто удаляют данные тех пользователей, которые долго не заходили в свой аккаунт. О том, как можно решить проблему архива в XXI веке, рассуждает доцент НИУ ВШЭ и соосновательница сообщества DHCLOUD Анастасия Бонч-Осмоловская

📎 Что будет с коллективной памятью

Мы ежесекундно создаём огромный цифровой архив человечества, но при этом непонятно, сложится ли из этого так коллективная память, без которой невозможно будет представить наше будущее.

Проблему сохранения воспоминаний в новую технологическую эпоху, когда документов очень много, а живут они очень недолго, впервые артикулировал в 1975 году архивист Джеральд Хэм. С тех пор проблема стала только острее. Сегодня мы создаем множество born digital документов, которые никогда не существовали в материальном виде, а сразу были созданы «в цифре». Про born digital говорят, что они одновременно перманентны и эфемерны: с одной стороны, «интернет помнит всё», и опубликованное однажды в интернете практически невозможно вывести из публичного поля, с другой — цифровые документы очень легко изменяются или становятся недоступными.

⛓️ Где хранится интернет

Первыми инициаторами цифровой архивации стали институты памяти — музеи, библиотеки, архивы. Например, в 1976 году был создан Окфордский текстовый архив. С развитием интернета достаточно быстро возникло понимание необходимости архивного хранилища сайтов — Интернет-архива. WaybackMachine, открытый в 1996 году, за это время вырос в огромное хранилище сайтов и документов, обнаруженных в сети.

🔗 Куда ведут ссылки

В 2017 году вышло исследование того, насколько актуальны ссылки на веб-ресурсы в научных статьях, опубликованных с 1997 до 2012 годы. Результаты были совершенно поразительны: более 75% веб-ресурсов, ссылки на которые имеются в научных статьях, изменили с тех пор свое содержание. Получается, что цифровизация фантастически ускоряет обмен научным знанием, но одновременно ставит под удар сам процесс его трансляции будущим поколениям ученых — то, что до сих пор считалось основой развития науки.

О том, важны ли архивы электронных переписок (спойлер: очень!), какую роль в создании архивов играет краудсорсинг и какую еще сыграет искусственный интеллект, узнаете из полной версии текста.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Братских народов союз вековой: литература народов СССР и России в школьной программе

Вторая часть нашего спецпроекта о школьном литературном каноне посвящена региональной литературе. В первом материале мы изучили ситуацию с зарубежной литературой, а из этого поста вы узнаете о произведениях, написанных на родном языке писателей-представителей народов СССР или России, и их судьбе в школьной программе. Каким национальным писателям уделялось больше внимания в советское время? И кто сегодня единственный национальный автор, чьи произведения нужно читать, чтобы сдать ЕГЭ?

Кратко: о чем вторая часть?

В школьные программы по литературе с 1919 по 2022 годы были включены имена 62-х писателей и поэтов, создававших свои произведения на языках народов СССР и РФ. При этом в советское время доля региональной литературы была намного выше, чем сегодня. На протяжении 1919-1991 годов она составляла от 1 до 12% от всех изучаемых произведений, а в 1974-1988 гг. объем произведений народов СССР был почти вдвое больше иностранной словесности. Однако это связано не с ростом объема обязательной программы, а с увеличением числа необязательных текстов, рекомендованных для изучения. Отдельно интересен случай произведений Ицика Фефера и Исаака Харина, чьи тексты вошли в программу всего на один (1933-й) год. Позднее оба писателя стали жертвами репрессий.

В последние годы региональная литература занимает от 0,5 до 7% от числа всех произведений. При этом до 2004 года ее в списке чтения не было вообще. В программах 2004-2022 годов упоминается всего 12 региональных авторов и несколько эпосов народов России.

В ОГЭ региональная литература не входит совсем, а на ЕГЭ появилась только с 2022 года. Чтобы сдать экзамен, нужно знать творчество только одного автора, представляющего народы России — Расула Гамзатова.

О том, какие авторы и тексты попадали в школьную программу, что об этом думают эксперты и почему даже на уроках «Родной литературы» зачастую не изучаются тексты на языках коренных народов, узнаете из новой части дата-исследования.

Время чтения: 14 минут.


🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Филологи и программирование: подборка интервью «Системного Блока»

Филология и программирование. Нужны ли они друг другу? Все ли ученые делятся на физиков и лириков? «Системный Блокъ» считает, что их знания можно взболтать, но не смешивать. Делимся подборкой наших интервью о том, насколько важно современным гуманитариям знание Python и нейросетей.

Нейропоэзия, корпусная лингвистика и интеллектуальный фитнес

Борис Валерьевич Орехов, доцент Школы лингвистики факультета гуманитарных наук НИУ ВШЭ, в интервью рассказад о своем пути филолога в программирование. Стилометрия, лингвистические корпусы, башкирский стих, нейронные сети и Digital Humanities в целом — что о них думает программирующий филолог?

Рациональность, научный метод и эмпирика в гуманитарной области

Интервью о миссии открытых данных против мракобесия и копирайте в корпусах. Кирилл Александрович Маслинский — цифровой филолог, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору ИРЛИ РАН. Он рассказывает, как пришел к DH, что можно узнать в Детском корпусе о себе и мире и как делают датасеты для цифровых исследований.

Цифровые методы на службе у гуманитариев: библиотека LingPy для исторической лингвистики. И жонглирование!

Йоханн-Маттис Лист — специалист по исторической лингвистике. Он разработал LingPy — пакет на языке Python для автоматического сравнения языков и поиска родственных слов. Мы поговорили с ним о междисциплинарности, связи биологии и лингвистики, а также о том, как развивать неуязвимость к неудачам с помощью жонглирования.

«​​Python и R — это не китайская грамота»: о ЖЖ и точных методах в гуманитарных науках

Роман Лейбов, филолог и писатель, стоял у истоков российского сегмента интернета. В интервью он объяснил, какова роль интернета для литературоведов, что такое корпусная поэтика, какими соцсетями он пользуется и как студенты-гуманитарии относятся к точным методам.

Статистика для литературоведов и разница между количественными и цифровыми методами

Александр Пиперски — лингвист, популяризатор науки и герой самого первого интервью «Системного Блока». Мы поговорили о значении корпусной лингвистики и о том, зачем лингвистам изучать статистику (спойлер: лингвисты и филологи становятся объективнее, применяя статистические методы. А дальше зависит от вкуса исследователя: кому-то ближе количественные методы, а кому-то цифровые).

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Похороны, объятия и выпас скота: обыденные практики и ритуалах XX — начала XXI века

Как выглядели свадебные девичьи «куколки» Поморья? Как звучат похоронные причеты Вологодчины? Какие колыбельные пели в старину в Коми? Электронный архив «Российская повседневность» хранит данные об обыденных практиках и ритуалах XX — начала XXI века. Цифровую коллекцию материалов о русской повседневной культуре создал «Пропповский центр» совместно с компанией «Альт-Софт». Архив состоит из аудио- и видеозаписей интервью с городскими и деревенскими жителями, оцифрованных рукописных дневников, семейных альбомов с комментариями, любительских рисунков и фотографий.

Данные архива структурированы по формату (аудио, видео, фото, текстовые расшифровки) и разделены на классы. В разделе «Процессы» находятся материалы, которые соотносятся с действиями или «изменением положения дел»: гаданием, дракой, переправой, игрой на музыкальном инструменте или приготовлением пищи. А в «Тематических коллекциях» представлена подборка фотографий, иллюстрирующих цвета в одежде.

Материалы сопровождаются короткими пояснениями, например: «Информант демонстрирует заговор от медведя», «Трактор, везущий гроб на кладбище, тронулся с места. В кузове стоит Галина Васильевна Саукова, хотя она не родственница погибшему. Вслед за трактором идут местные жители» или «Шуточная попытка похищения пирожка».

Посетители медиаархива могут применить простой поиск или найти необходимую информацию, используя географический указатель, карту и список информантов.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Цифровой архив газет Российской империи: от морских чудищ до высочайших манифестов

Коллекция «Газеты Российской империи» находится в открытом доступе на портале East View и охватывает почти весь период русской дореволюционной журналистики ― с 1767 по 1918 годы. Делимся тремя интересными заметками, которые мы нашли, изучая онлайн-архив.

🦑 Большой морской зверь, именуемый Крак (16 сентября 1786)

«Джемс Андерсон и Мадс Дженсон… показали…, как они, так и все морские служители, бывшие с ними, видели в отдалении одной английской мили к югу зверя, которого в Норвегии называют морским червяком, чрезвычайной величины, высунувшегося из моря. Он казался им быть тремя низкими островами или отмелями серого цвету. Длина его простиралась на одну английскую милю. Ширина его казалась быть до 30 саженей. Они смотрели на него более 50 минут, после чего он опустился тихо на дно, не причинив воде ощутительного движения».

🎨 Награждение Айвазовского (26 сентября 1897)

«Нашему действительному тайному советнику, почетному члену Императорской Академии художеств, причисленному к Морскому ведомству со званием живописца, профессору живописи Ивану Айвазовскому. В награду шестидесятилетней художественной деятельности, обогатившей русское искусство образцовыми произведениями, всемилостивейше пожаловали Мы вас кавалером Императорского Ордена Нашего Святого Благоверного Великого князя Александра Невского». 

👑 Отречение Николая II от престола (5 марта 1917)

«В эти решительные дни в жизни России почли мы долгом совести облегчить народу нашему тесное единение и сплочение всех сил народных для скорейшего достижения победы и в согласии с Государственной думою признали мы за благо отречься от престола государства Российского и сложить с себя верховную власть. Не желая расстаться с любимым сыном нашим, мы передаем наследие наше брату нашему великому князю Михаилу Александровичу и благословляем его на вступление на престол государства Российского». 

Больше фрагментов статей найдете в полной версии статьи, а онлайн-архив – по ссылке.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Dark Academia: интернет-эстетика глазами Kandinsky

Dark Academia (в переводе с английского «‎Тёмная академия») — это интернет-эстетика, ставшая особенно популярной во время COVID-19. Её основными вдохновителями считаются книги «‎Тайная история» Донны Тартт и «‎Словно мы злодеи» М. Рио, а также фильм «‎Общество мёртвых поэтов». Все эти произведения объединяют темы элитных учебных заведений, увлечения гуманитарными науками, смерти и тайн.

Dark Academia начала набирать популярность в социальных сетях ещё до пандемии, но карантин нарушил социальные связи, усилил чувство одиночества и из-за повсеместного домашнего онлайн-обучения разрушил атмосферу принадлежности к образовательной организации. В этих условиях интернет-пользователи стали искать новые способы самовыражения, а также средства укрепления своей идентичности.

Подробнее о Dark Academia мы рассказали в статье, а сегодня попросили нейросеть Kandinsky сгенерировать несколько картинок в этом стиле. Три подробных англоязычных промта, основанных на главных элементах стилистики, мы сгенерировали с помощью ChatGPT, а в качестве четвертого указали просто «эстетика dark academia». Предлагаем вам угадать, какую картинку модель создала по этому короткому запросу.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Мы разные, но равные: как с помощью цифровых инструментов сделать образование более инклюзивным

Образование — право каждого, а инклюзивное образование — способ дотянуться до тех, кто этого права был лишен. Современные цифровые технологии помогают сделать знания доступными для всех, независимо от физических или ментальных особенностей. В статье разберем международные и российские примеры успешного применения инклюзивных технологий в школах и университетах.

Инклюзивное образование в мире

Страны выбирают разные подходы к инклюзивному образованию. В Скандинавии и Португалии, например, дети с особыми потребностями учатся в обычных школах, что помогает им лучше интегрироваться в общество. В Великобритании и Франции законы обеспечили доступ к образованию для всех детей, сократив количество специальных школ. В США закон IDEA (The Individuals with Disabilities Education Act) позволяет детям с особыми потребностями учиться в обычных школах, при этом получая дополнительную поддержку и индивидуальные учебные планы.

Инклюзивное образование в России

Сегодня в Москве и некоторых других регионах дети с особыми потребностями учатся вместе с обычными детьми. С помощью НКО и благотворительных фондов разрабатываются и внедряются модели инклюзивного обучения. Тем не менее, согласно исследованию ВЦИОМ, 59% опрошенных взрослых не знакомы с термином «инклюзивное образование».

Адаптивные технологии

Один из типов цифровых инструментов – адаптивные технологии. Они предлагают задания на основании решенных материалов или тестов, то есть подстраиваются к уровню знаний и способностей ученика. Например, платформа Khan Academy предлагает материалы по всей школьной программе, DreamBox помогает изучать математику, AI-ассистент Skyeng присылает индивидуальные задания для улучшения знаний английского.

Технологии ассистивной коммуникации


Есть также специализированные инструменты, приложения и программы, которые помогают людям с коммуникативными нарушениями понимать других и быть понятыми. Например, Zvukogram, Elevenlabs, Speechify и Voicemaker создают аудио по написанному тексту и могут помочь людям с нарушениями языка и речи. А приложения Proloquo2Go, TouchChat HD, LAMP Words for Life специально разработаны, чтобы детям с аутизмом было легче общаться, в том числе с помощью символов и текста.

Специализированные образовательные платформы

Наконец, платформы, на которых собирается образовательный контент, позволяют учиться в любое время и в любом месте. Coursera, edX, Udemy содержат программы и курсы университетов со всего мира, а Stepic — русскоязычная платформа с курсами для обучения по школьным и университетским программам. Эти платформы не разрабатывались для инклюзии, но благодаря возможности получать образование полностью онлайн они повышают его инклюзивность.

Узнать об инклюзивном обучении подробнее можно из полной версии статьи.

Время чтения: 16 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Kandinsky vs. Русский рок

Недавно мы рассказывали, чем наполнен мир русской популярной музыки, а сегодня попросили российскую нейросеть Kandinsky изобразить один из таких миров.

Kandinsky генерирует сначала векторное представление изображения, подобно Stable Diffusion, а затем декодирует изображение из полученного векторного представления.  Модель поддерживает текстовые описания на нескольких языках. Узнать подробнее о ней и о том, где её опробовать, можно из нашего каталога нейросетей.

P. S. Все картинки иллюстрируют один и тот же трек!

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Первая в СССР система французско-русского машинного перевода

В 1950-е годы гуманитарии и математики объединились, чтобы заниматься машинным переводом. Именно с этого берёт начало сфера автоматической обработки естественного языка (Natural Language Processing). За 70 лет с тех пор методы машинного перевода радикально поменялись несколько раз, но как работали самые первые системы? Вспоминаем историю системы французско-русского перевода из 50-х гг., описываем принцип работы алгоритма (он состоял из 17 программ) и сравниваем его с современными моделями.

Кратко: о чем статья?

В середине 1950-х А. А. Ляпунов, математик и один из основоположников кибернетики в СССР, собрал группу для работы над машинным переводом (МП). Он считал, что МП — задача преимущественно математико-кибернетическая, а не лингвистическая (глядя на современные системы можно сказать, что Ляпунов был прав). За полтора года им удалось с нуля получить первые результаты автоматического перевода с французского языка на русский.

Чтобы облегчить задачу, были выбраны тексты из области математики: в них ограниченный набор слов, конструкции не слишком разнообразны, отсутствует игра слов

Самым главным «ключом» к переводу стало составление двух словарей. В первый включили 1200 основ слов: частотных в математических текстах, служебных и дополнительных терминов. Второй словарь, специальный, насчитывал 250 оборотов, которые нельзя перевести дословно. Французские и русские слова сопровождались морфологическими, техническими и другим важными для перевода указаниями (например, о наличии омонимов).

Проблема этой системы была в ограниченности: словари нуждались в доработке. Алгоритм можно было расширять, но система плохо распространялась на новый материал и сложные случаи. Зато сама постановка задачи создать машинный перевод вскрыла пробелы в лингвистическом знании: структура языка была недостаточно изучена и описана. Это стало толчком для появления математической и структурной лингвистики.

Подробности о работе над переводом и его итогах, а также сравнение машинного перевода 1950-х с современным найдете в полной версии материала.

Время чтения: 9 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Девушки, живущие в сети: женщины-хакеры на экране

23 года назад вышел фильм «Пароль рыба-меч» — первый массовый фильм современности, целиком посвященный хакерству, и первое в XXI веке появление на экране хакерши. Мы решили изучить, как изменились образы женщин-хакеров за это время и что объединяет их экранные воплощения.

Кратко: о чём статья?

Пионером хакинга принято считать Джона Дрейпера по прозвищу Капитан Кранч, который взламывал телефоны с помощью пластмассового свистка в 1960-х — 1970-х. Одна из первых женщин-хакеров, Сьюзен Хэдли по прозвищу Гром, также начинала со взломов телефонов, а затем перешла на компьютеры голосовой почты Pacific Bell, заставляя людей раскрывать личные данные.

Что же касается кино, первые фильмы, где девушки хотя бы просто используют компьютер, появились только к концу 1980-х (для сравнения: мужчина-хакер оказался на экране уже в 1969). И только в 1990-х возник образ хакерши.

Фильм «Хакеры» 1995 года заложил визуальные каноны образа хакерши: андрогинность, короткие волосы, макияж «смоки айс» и пространство для интерпретации сексуальности героини. Более того, долгое время героини-хакеры оказывались на втором плане и помогали мужчинам в выполнении их важной и основной для сюжета фильма задачи. Изменить это удалось только в 2011 году благодаря выходу «Девушки с татуировкой дракона» Дэвида Финчера. Здесь героине до мужчин подчеркнуто нет дела.

Подробнее о будущем и настоящем хакерш в кино и о том, как это соотносится с гендерным неравенством в сфере IT, узнаете из полной версии статьи.

Время чтения: 7 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Всемирная история картотек: движение к мировому стандарту

«‎Системный Блокъ»‎ продолжает рассказывать о том, как развивалась идея библиотечного каталога с XVI века и до наших дней. В третьей части исследователь истории науки и техники, сотрудник Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ Антон Басов рассказывает, как каталожные карточки и библиотечные коды стали мировым стандартом и как картотеки повышают работоспособность философов.

Картотеки и XIX век

Уже в начале XIX века картотеками активно пользуются писатели и ученые, с 1862 года доступ к картотечному каталогу появляется у студентов Гарварда, а с 1871 – у посетителей Бостонской публичной библиотеки. На пути к всеобщему распространению картотеки остаётся только одна проблема — отсутствие стандарта.

Появление стандарта

В 1877 году съезд Американской библиотечной ассоциации утверждает стандарт библиотечной карточки — 7,5×12,5 сантиметра. Он быстро становится сначала национальным, а затем – мировым. Этим мы обязаны прежде всего библиотекарю Мелвилу Дьюи: сначала он усовершенствовал систему классификации книг, а затем активно продвигал её, делая большие заказы у производителей бумаги и мебели и продавая карточки и шкафы по низким ценам. 

Что изменилось в XX веке

К началу XX века ещё одной областью применения карточек становится бизнес. Уже к 1890 году Library Bureau Мелвила Дьюи получает первый заказ на картотеку от Emigrant Savings Bank. После этого фирма Дьюи успела наладить сотрудничество с американским правительством, создав картотеку для учёта данных преступников, а еще с компанией Tabulating Machine Co., предшественницей IBM.

Появляется новая разновидность бухгалтерии — loose-leaf accounting, то есть бухгалтерия на отдельных листах. Массово создаются новые конструкции папок-скоросшивателей, шкафов хранения документов, картотек.

Путь к всемирной библиографии

В 1895 году в Брюсселе появляется Международный библиографический институт, главной задачей которого было создание Универсального библиографического указателя, то есть каталога всех книг (а также прессы, фотографий, иллюстраций). С 1895 по 1934 год в нём накапливается 18 млн карточек, разделенных по разным областям знаний. Теперь любой человек мог направить в институт запрос на подбор библиографии по определённой теме. Правда, в 1934 году Международный библиографический институт лишился правительственного финансирования и закрылся.

Как с этой историей связана УДК (универсальная десятичная классификация)? Какое применение картотекам придумали химики? Чем Дьюи похож на Томаса Эдисона? Узнаете из полной версии статьи. А об идее картотек, первом каталоге, материалах для карточек и попытках упорядочить библиотеки узнаете из первой и второй частей материала.

Время чтения: 14 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Всемирная история картотек: как в эпоху Просвещения классифицировали знание

Во второй части материала об истории развития картотек с XVI века и до наших дней Антон Басов, сотрудник факультета компьютерных наук НИУ ВШЭ и исследователь истории науки и техники, рассказывает о методе Линнея и использовании игральных карт для каталогизации.

Как Линней использовал картотеку?

Из первого текста вы узнали о способах создания каталога знаний с помощью нанизывания фактов на крючки и разрезания конспектов на полоски. После Готфрида Лейбница карточки стали использовать для двух целей: исследований и создания библиотечных каталогов. Например, Карл Линней для бинарной классификации живых организмов каждое растение помещал на отдельный лист бумаги, а после сортировал их по семействам растений в ячейках особого шкафа.

Из чего делали карточки?

Линней использовал обычную писчую бумагу, а два других деятеля того времени — немецкий юрист Мозер и швейцарский писатель Лафатер — предпочли делать записи на оборотах игральных карт. Они были практичными и дешевыми, ведь их делали из плотной бумаги и выпускали в большом количестве.

Где появился первый карточный каталог?

Первый карточный каталог создала Австрийская библиотека. Перфект императорской библиотеки Готфрид ван Свитен был озабочен постоянно увеличивающимся количеством книг. Он и его помощник разработали свой метод: данные о книгах переписывались на отдельных карточках стандартного размера, они включали в себя название, имя автора, выходные данные, дефекты книги.

Как во Франции хотели упорядочить библиотеки?

В конце XVIII века в революционной Франции появляется идея создания общенационального библиотечного каталога. В Лувре создается Библиографическое бюро, которое просит департаменты переписать каталоги местных библиотек на оборотах игральных карт и в таком виде прислать в Париж. Однако реализовать идею не удалось, и ни один том нового каталога так и не вышел.

Сколько человек потребовалось, чтобы создать каталог Австрийской библиотеки из 50 тысяч книг? Почему крах проекта национальной библиографии во Франции отразил конец эпохи Просвещения? Обо всем этом читайте в полной версии статьи.

Время чтения: 11 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Новые открытые языковые модели, критика OpenAI от бывшего сотрудника и большой отчёт об опасностях общего ИИ

Рассказываем, что произошло в мире ИИ за прошедшие две недели.

Qwen2 – новые лучшие открытые языковые модели

Компания Alibaba Group (владелица AliExpress, Taobao и ряда других площадок) представила второе поколение языковых моделей Qwen. Всего модель доступна в шести размерах: 0.5, 1.5, 7, 57 и 72 млрд параметров. Самая большая версия поддерживает 29 языков и по метрикам в основных тестах является лучшей на данный момент публичной доступной моделью. Все модели можно использовать в коммерческих целях.

Бывший сотрудник OpenAI рассказал о проблемах с безопасностью


Бывший исследователь OpenAI Даниэль Кокотайло, который занимался прогнозированием развития ИИ, дал интервью New York Times. Он рассказал об инцидентах внутри OpenAI, которые могут свидетельствовать о смещении фокуса с безопасного развития ИИ в пользу стремления победить в гонке за общим ИИ (он же AGI), способным решать широкий спектр задач не хуже или лучше человека.

По словам Даниэля, в 2022 году до релиза GPT-4 компания Microsoft (одна из главных инвесторов и партнёров OpenAI) дала доступ к модели пользователям из Индии до одобрения совета безопасности (Deployment Safety Board). В совет входили как сотрудники OpenAI, так и Microsoft. OpenAI не стала вступать в конфронтацию, опасаясь потери сотрудничество с Microsoft. До публикации этого интервью, Microsoft отрицала произошедшее, однако после подтвердила.

Что настораживает в решениях Сэма Альтмана

Опасения вызывает и намерение Сэма Альтмана, гендиректора OpenAI, привлечь существенные средства для разработки собственных вычислительных чипов, необходимых для обучения ИИ. Желание компании сильно увеличить вычислительные мощности может привести к резкому улучшению моделей, что противоречит политике компании, согласно которой ИИ должен развиваться постепенно.

Увольнение Сэма Альтмана из совета директоров и скорое возвращение его на пост в 2023 году усугубили ситуацию и ещё сильнее сместили фокус с безопасности. Многим из работников компании казалось, что увольнение Альтмана было мотивировано желанием правления замедлить разработку моделей в целях безопасности, против чего якобы и выступал Альтман. Такое представление о случившемся сильно поляризовало настроения в компании. Несколько недель назад ключевые сотрудники команды, ответственной за исследования способов контроля ИИ, ушли из компании.

Цена критики в OpenAI

Даниэль также рассказал, что OpenAI вынуждает подписывать при увольнении соглашение, запрещающее критиковать компанию. В случае неподписания, сотрудник лишается опционов. Сам Даниэль отказался подписывать документ и лишился опционов стоимость 1.7 миллионов долларов.

После обнародования этих сведений Сэм Альтман вскоре заявил, что не знал о существовании этой практики и что отныне она прекращена.

Несколько бывших и нынешних сотрудников OpenAI, включая Даниэля, сформировали группу Whistle-Blowers (от английского — осведомителей). По задумке группа должна обеспечить исследователей и инженеров возможностью анонимно информировать регуляторов о своих опасениях касательно потенциальных рисках, связанных с ИИ.

Отчёт о будущем ИИ и сопутствующих рисках

Леопольд Ашенбреннер, бывший исследователь OpenAI, выпустил 165-страничный отчёт, в котором описывает свои прогнозы касательно развития общего искусственного интеллекта, а также риски, с которыми столкнётся человечество после его появления, включая политические. 

По мнению исследователя, появление общего ИИ может произойти уже 2027 году. Далее благодаря этому произойдёт автоматизация исследований в области машинного обучения, что ускорит появление ИИ, который сможет решать задачи лучше, чем человек. Рост спроса на вычислительные ресурсы приведёт к увеличению вложений в энергетический сектор, разработку новых чипов и построение новых суперкомпьютеров. 

Появление ИИ, превосходящего по когнитивным способностям человека, потребует оперативное решение задачи контроля беспрецедентно продвинутой и сложной системой.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Три гайда для востоковедов: китайский, корейский и японский

Многие задачи, связанные с автоматической обработкой текста, начинаются с токенизации — деления текста на слова (токены). Текст на русском языке, например, можно поделить на слова по пробелам, но что делать с японскими и китайскими текстами, где пробелов нет?

Одно из популярных решений — использование словаря, в котором прописаны леммы и их всевозможные словоформы, а также некоторые морфологические сведения. Такие словари лежат в основе библиотек из этой подборки. Рассказываем о них подробнее!

🇨🇳 Text-mining китайского языка: библиотека Jieba

Jieba — одна из самых популярных на сегодняшний день Python-библиотек для токенизации китайских текстов. Например, именно её использовали разработчики Яндекса, когда внедряли функцию перевода видео с китайского языка в браузере. Как с ней работать, узнаете из нашего гайда.

🇯🇵 Text-mining японского языка: библиотека fugashi

fugashi – библиотека, позволяющая самостоятельно провести токенизацию текстов на японском. Она способна не только определить наиболее вероятные границы слов, но также провести морфологический анализ и выделять именованные сущности. А ещё для неё можно скачать дополнительные словари: современный письменный, современный устный и одиннадцать видов словарей для классического японского. О том, как устроена fugashi и как ей пользоваться, узнаете из гайда.

🇰🇷 Text-mining корейского языка: библиотека koNLPy

Библиотека koNLPy выделяет токены, определяет морфемы и части речи. Для этого она предлагает пользователю пять методов: Kkma, Hannanum, Komoran, Mecab и Twitter. Все они отличаются по своему функционалу и подходят для решения разных задач. Подробнее об их особенностях и о том, как устроена работа в koNLPy узнаете из материала.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Музыкальная «энциклопедия русской жизни»: о чём пел русский рок и русский поп?

Как русскоязычная поп- и рок-музыка представляла пространство быта с 1990 по 2019 год? Что пили, ели и куда хотели поехать герои музыкальных текстов? Авторы исследования проанализировали корпус из 1129 популярных песен разных жанров — и получили неожиданные результаты.

🪗Что считать популярной музыкой?

За основу списка исследователи взяли ​​рейтинги музыкальных журналов, радио и телеканалов и просветительские материалы. Каждому исполнителю была приписана условная категория «поп» или «альтернатива». Для каждой декады (1990-е, 2000-е, 2010-е) было выбрано по 10 исполнителей из каждой категории, и от каждого в выборку попало около 20 песен. Так в списке оказались, например, Кино, Сплин, Леонид Агутин и Егор Крид.

🎤О чем поют в корпусе?

В музыкальных текстах в список самых частотных существительных  слова, связанные с описанием или выражением чувств: любовь, день, ночь, небо, сердце, свет, душа… Для сравнения, в обычных русских текстах (НКРЯ) эти слова не входят в топ 30 существительных, там вместо них год, человек, время, дело, жизнь... Самые частотные слова в песенном корпусе — местоимения. На первом месте — я, на втором — ты. В НКРЯ местоимение ты — лишь 33-е по частотности слово.

🎻Чем наполнен мир популярных песен?

Какие собственные имена встречаются в песнях? Исполнители часто упоминают типовые российские топонимы (Москву, Россию, Питер), а еще Нью-Йорк, Париж и Лондон … и самих себя. Это видно по списку имен собственных, в котором лидируют Настя, Потап и Каста. Ещё в мире постсоветсткой музыки много пьют и едят, особенно в текстах Касты и Ленинграда. В категории «еда и напитки», кстати, лидируют вино, водка, хлеб и кофе. Вино одинаково упоминается и в песнях жанра «поп» (19 раз), и в «альтернативе» (44 раза). А вот в упоминании водки «альтернатива» лидирует со счетом 25:3.

🎸Чем отличаются разные жанры?

Рэперы описывают весь мир сразу: их тексты в основном концентрируются на окружающей реальности, но часто выходят за ее пределы за счет множества культурных отсылок. Поп-музыка описывает путешествия и мечты своих героев о дальних странах — это места из реального мира, к которым действительно можно приблизиться. Русский рок описывает мистические переживания и больше говорит о внутренней стороне жизни.

Узнать подробнее о бытовом и сверхъественном в песнях разных исполнителях можно из полной версии статьи. А если хочется провести сделать собственные выводы, созданный корпус опубликован на платформе linghub.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Как устроено закулисье современного интернета: подборка интервью «Системного Блока» 

Интернет — параллельный мир, в котором возникают новые культуры, формируется новый язык, разворачиваются ожесточенные словесные битвы. Он виртуален, но происходящее в нём напрямую влияет на реальную жизнь каждого из нас. Политика, буллинг, скорбь, торговля, флирт, преступления и благотворительность — как этот видимый хаос определяет нашу жизнь? Читайте в подборке интервью «Системного Блока», где интернет-исследователи делятся наблюдениями и опытом. 

«К идее разных интернетов мы пока не привыкли»: Полина Колозариди об исследованиях интернета

Часто вопросы, связанные с интернетом, на самом деле не про сам интернет, а про отношения между людьми, любовь, детские страхи, политику, приличия и так далее. Об этом в интервью «Системному Блоку» рассказывает интернет-исследовательница, рукводительница магтсратуры DH в ИТМО и со-основательница Клуба любителей интернета и общества, Полина Колозариди. Например, для подростков интернет это не технология, а скорее способ публичной жизни, они используют онлайн-площадки для того, чтобы фильтровать и лучше понимать свои круги общения. О том, чем и почему отличается интернет в разных городах России, сильно ли влияют на общество TikTok и Tinder, как стать интернет-исследователем и зачем это нужно, читайте в интервью

«Отличить бота от трамвайного хама»: Оксана Мороз о спорах в интернете, цифровом бессмертии и языке онлайн-скорби

Оксана Мороз, культуролог, исследователь цифровой среды, академический руководитель образовательной программы НИУ ВШЭ «Практики кураторства в современном искусстве», рассказала «Системному Блоку» об особенностях коммуникации в интернете. Например, о  том, что в онлайн-среде усиленно воспроизводится то, что характерно для офлайн-среды, поэтому в кризисных ситуациях люди особенно интенсивно спорят и возвращаются к архаичным моделям определения мира через своих и чужих. А ещё – об изменения в общении после 24 февраля 2022 года, эзопове языке, мутизме и коллективном интернет-горевании. Подробнее – в интервью.

«Виртуальные НКО — это будущее»: интервью с руководителем красноярского «Мемориала»*

Руководитель красноярского общества «Мемориал»*, а также один из первопроходцев Рунета Алексей Бабий занимается сохранением памяти о жертвах репрессий в Красноярском крае и развитием цифровой инфраструктуры красноярского «Мемориала». В интервью «Системному Блоку» Алексей рассказал, что может дать интернет гражданским активистам (спойлер: в 2005 году он помог остановить установку памятника Сталину благодаря большому информационному шуму), как опыт работы на советских ЭВМ 1970-х годов позволяет обеспечивать сохранность данных о репрессиях и почему современным «облачным НКО» не страшна ликвидация.

«Интернет-среда влияет на политическую активность»: интервью с Ольгой Гулевич


В 2021 году «Системный Блокъ» поговорил с психологом Ольгой Гулевич, профессором департамента психологии НИУ ВШЭ. Она рассказала, в частности, что термин «интернет-зависимость» появился ещё до соцсетей её нельзя определить просто по определить по количеству времени, которое человек проводят в интернете. Из интервью узнаете, по каким симптомам можно, а ещё –  чем кибербуллинг отличается от обычного буллинга, как пандемия повлияла на интернет, а интернет — на политические настроения.

*«Мемориал» в России официально ликвидирован решением суда

🤖 «Системный Блокъ» @sysblok

Читать полностью…
Подписаться на канал