sysblok | Unsorted

Telegram-канал sysblok - Системный Блокъ

10846

«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Финалист премии «Просветитель» sysblok.ru vk.com/sysblok fb.com/sysblok instagram.com/sysblok/ Присоединяйтесь к команде: sysblok.ru/join

Subscribe to a channel

Системный Блокъ

Английский vs Корейский в K-pop

K-pop покоряет мир, и его тексты тоже меняются, подстраиваясь под международную аудиторию. На основе корпуса из 290 песен корейских исполнителей расскажем о новых стратегиях использования английской лексики в песнях и о возникших гендерных различиях в лексике.

Вот они слева направо

Путь на мировой рынок для K-pop открыло выступление BTS на American Music Awards и победа на Billboard Music Awards в 2017 году. Начиная с этого времени, в песнях K-pop групп стало значительно больше английских слов. Чтобы отследить эту динамику, в ходе исследования тексты группировали по годам. Особое внимание было уделено последнему слову в строке, типично являющимся в корейском сказуемым или определением.

Что выяснилось?

С 2020 года строки стали значительно чаще заканчиваться на английском. В 2022 году английский в этой позиции впервые обогнал корейский. Особенно тренд усилился в 2023: уже больше половины строк завершались на английском.

Boys and girls

Корейские музыкальные коллективы, как правило, делятся на мужские и женские; смешанные составы встречаются редко. Корпус включает 161 песню, исполненную женщиной или женской группой, 129 песен, исполненных мужчиной или мужской группой, и одну песню смешанного коллектива.

Анализ частотности слов показал, что слово «boy» встречается 105 раз и чаще употребляется в текстах женских коллективов, а «girl» — 102 раза, и преобладает в песнях мужских исполнителей. Согласно графику, слово «love» значительно чаще используется мужскими коллективами (268 употреблений против 93 у женских), в то время как корейское слово «사랑», означающее «любовь» чаще встречается в текстах женских групп.

Так, в песнях мужских коллективов заметно более выраженное предпочтение к использованию английских заимствований, в то время как у женских это предпочтение выражено слабее.

Полный анализ тенденции к англизации текстов K-pop, включая другие примеры, найдете в полной версии статьи.

Время чтения: 7 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

«Придумал мультфильм — можешь быть его режиссером»: интервью с технооптимистом Иваном Ямщиковым

До чего дошел прогресс? Чему ребенка уже может научить робот? Как ИИ скажется на самореализации? Что будет с электроэнергией? Отвечаем и делимся фрагментами интервью Ивана Ямщикова — ученого, предпринимателя и руководителя ИИ-института CAIRO в немецком университете THWS.

Чем ИИ улучшит жизнь человечества?

От внедрения и распространения ИИ можно ждать, в первую очередь, повышения производительности труда. Исторически повышение производительности труда приводило к тому, что люди становились богаче, а когда люди становятся богаче — они начинают лучше жить. Рост производительности труда обычно приводит к росту ВВП на душу населения, что, в свою очередь, улучшает уровень благосостояния, снижает болезни, повышает продолжительность жизни. 

Второй важный момент — самореализация. Искусственный интеллект сильно ее демократизирует. С генеративными моделями ты просто берешь и делаешь. Придумал мультфильм — можешь быть его режиссером. То же самое происходит с кино, компьютерными играми и вообще с искусством: цифровой порог входа резко снижается.

Нужно ли нам как-то подстраиваться под новую реальность?

ИИ необходимо внедрять в образование, но важно сделать это правильно, чтобы не вышло хуже. В XXI веке человеку нужна гораздо более высокая агентность, чем была в системе образования XIX века, с которой мы живем до сих пор.

Искусственный интеллект может помочь ребенку с очень многими вещами, но с поиском собственного пути и с самомотивацией — вряд ли. Значит, это станет ключевой задачей взрослых и школьной системы.

Человек в системе образования должен стать наставником. Он должен погружать ребенка в социальное, политическое и личное. А умножать ребенка спокойно может учить робот.

Что ещё изменится в новой реальности?

Отдельный важный вопрос в контексте ИИ — экологический. С одной стороны, благодаря новым технологиям мы, скорее всего, сможем довольно точно моделировать экосистемы и понимать, какие виды критически важны для того, чтобы экосистемы не коллапсировали. С другой, растут потребности в электроэнергии, и решение этой проблемы зависит от того, какой путь выберет общество. Может быть, будут развиваться маленькие модели, которые тратят меньше электроэнергии. Может быть, наконец получится сделать управляемый термоядерный реактор, чтобы электричества было много, оно было дешевым, безопасным и портативным и чтобы такие установки можно было строить десятками в год.

Подробнее об экологическом аспекте в использовании ИИ, технооптимизме и о том, почему для Ивана Ямщикова ChatGPT не был сюрпризом, узнаете из полной версии интервью.

P. S. Про перспективу войны с ИИ, тренд на Средневековье и проект с нейростихами Егора Летова тоже узнаете!

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Новый, мертвый, хороший: визуализация текстов Гражданской Обороны

Сегодня 18 лет со дня смерти Егора Летова — основателя «Гражданской обороны» и человека, без которого слово «панк-рок» в России значило бы что-то совсем другое. В этот день предлагаем вспомнить наш уже классический материал с визуализацией текстов Летова.

💔 Я и мы

Мы собрали около 200 текстов Гражданской Обороны и еще одного проекта до 1997 года, автором которых был Егор Летов. Первое, что мы увидели — как из них постепенно исчезает я, уступая место местоимению мы.

❤️‍🩹 Здорово и вечно Хорошо и плохо

Язык Летова вполне разнообразен: слова, встретившиеся во всем корпусе только один раз составляют две трети всего словаря. При этом темы, конечно, повторяются из года в год и из альбома в альбом. Ключевая для творчества Летова — тема смерти. «Положительные» слова вроде хороший, смех, праздник, радость, веселый встречаются тоже, но на них всегда важно смотреть в контексте: у Летова «хороший царь» означает ровно противоположное, а «веселый сок» — это кровь.

Узнать о том, как менялась лексика в текстах Летова с 1985 до 1997 и какие глаголы, прилагательные и существительные были особенно характерны для альбомов разных периодов, можно из полной версии статьи.

Время чтения: 7 минут

 🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Правда ли, что ИИ заменит всех нас?

В мае 1997 компьютер Deep Blue впервые победил действующего чемпиона мира по шахматам, но мы… всё ещё играем в шахматы. Значит ли это, что и в других сферах ИИ превзойдет, но не заменит нас, а сделает эффективнее? Свой ответ предлагает наш блогер Дмитрий Пронин.

Пойдем по порядку: превзойдет ли нас ИИ?

Сегодня компании, разрабатывающие большие языковые модели, соревнуются в стремлении достичь AGI (Artificial General Intelligence) — интеллекта, сопоставимого с человеческим и способного одинаково эффективно решать любые задачи. Если технология достигнет такого уровня, то за счет способности к самообучению и скорости «мышления» AGI довольно быстро эволюционирует в ASI (Artificial Superintelligence) — систему, интеллектуально превосходящую на порядки даже самых одаренных из нас, примерно так же, как современные шахматные алгоритмы превосходят лучших гроссмейстеров.

Многие теоретики ASI утверждают, что для создания такого «сверхразума» потребуется полностью изменить подход к обучению, отказавшись от человеческих наработок и знаний из интернета, но тогда может возникнуть проблема: открытия ИИ могут оказаться непереводимыми на человеческий язык.

Что это значит?

Нам нужен не сверхразум, который бы думал сам за себя и был независимым, а сверхинструмент. Нам нужна система, способная усиливать человеческое мышление: предлагать возможные «хорошие ходы», проверять решения на устойчивость, находить логические противоречия и слепые зоны, но не «играть» вместо нас.

Тогда в будущем машины будут выполнять большую часть операционного и вычислительного труда: обрабатывать данные, оптимизировать процессы, поддерживать инфраструктуру, моделировать сценарии и производить интеллектуальные заготовки. Они станут фоном, на котором разворачивается человеческая деятельность, а не ее заменой.

Работа людей в таком мире будет сосредоточена не на исполнении, а на целеполагании и интерпретации. Человек будет формулировать задачи, определять допустимые границы решений, оценивать последствия и брать на себя ответственность за выбор.

Насколько это реалистичный сценарий?

На практике такое сотрудничество уже складывается: редакторы используют языковые модели как инструмент фактчекинга и поиска альтернативных источников, но финальные правки, расстановка акцентов и ответственность за смысл остаются за человеком. 

Будущее с искусственным сверхинструментом — это, вероятно, не мир, в котором человек вытесняется, а мир, в котором от него требуется больше. Больше способности к абстрактному мышлению и больше ответственности за принимаемые решения. 

Подробнее о таком варианте развития событий — в полной версии блога.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

ИИ против человека: насколько уникальны художественные тексты нейросетей

Сегодня большие языковые модели все чаще используются в области креативного письма. Но удастся ли LLM создать по-настоящему оригинальные и непредсказуемые нарративы? В новом материале разбираем, чем отличаются истории, сгенерированные моделями, и как измерить их уникальность.

Оценка оригинальности

В 2025 году группа исследовательского центра Microsoft дала моделям из семейств GPT и LLama задание сгенерировать множество альтернативных продолжений для одной и той же истории.

Моделям было предложено сгенерировать продолжение рассказа Франца Кафки «Не надейся!» («Gibs auf»). Промтом для модели служило начало истории*:

Было очень раннее утро, улицы были чисты и пустынны, я шел на вокзал. Сверив свои часы с башенными, я увидел, что время сейчас гораздо более позднее, чем я думал, мне нужно было очень спешить, ужас от этого открытия сделал меня неуверенным в пути, я еще неважно ориентировался в этом городе, к счастью, поблизости оказался полицейский, я подбежал к нему и, запыхавшись, спросил, как пройти на вокзал. Он улыбнулся и сказал:— У меня ты хочешь узнать дорогу?— Да, — сказал я, — потому что сам не могу найти ее.

Секрет необычной развязки

Сгенерированные моделями концовки были однотипны и прогнозируемы. В них полицейский показывал дорогу на вокзал либо провожал героя к нужному месту. В оригинале же рассказ кончается совсем иначе:

— Не надейся, не надейся! — сказал он и размашисто отвернулся, как это делают люди, которые хотят быть наедине со своим смехом.


Повторы и быстрый темп

Как выяснилось в ходе эксперимента, языковые модели склонны к шаблонности и часто повторяют элементы сюжета, тем самым уступая людям в оригинальности. Кроме того, «человеческие» истории обычно имеют более медленный темп и плавно вводят сюжетные повороты, в то время как в сгенерированных нарративах темп повествования ускорен, а сюжетные линии не получают полноценного развития. Эти особенности приводят к резким и неубедительным развязкам в текстах нейросетей.

Подробнее о ходе эксперимента и предложенных метриках можно узнать из полной версии статьи.

*Текст приводится в переводе С.К. Апта

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Как сделать свой DH-проект: гайд от «Системного Блока»

🚀 В новом проекте «Системного Блока» разобрали удачные кейсы и собрали пошаговый гайд для создания своего DH-проекта: от идеи и данных до команды, MVP и публичного запуска.

Показали реальные примеры, разобрали типичные ошибки, и поделились калькулятором зрелости проекта, который поможет честно оценить, насколько хорошо продумана идея.

Если вы давно думали «а не сделать ли…» — это знак, что пора начинать. А если просто интересно как создавались знакомые вам проекты, заходите почитать про «Прожито» @prozhito, «Пишу тебе» @pishuteberu и «Слово Толстого» @slovo_tolstogo — с разбором и комментариями создателей.

Что вообще такое цифровой гуманитарный проект?

Это исследование или веб-инструмент, который решает задачи гуманитарных наук с помощью цифровых технологий. Его основа — данные, а результат должен быть доступен в цифровом виде, будь то сайт или архив на GitHub.

Данными могут быть тексты, архивы, изображения или любые другие объекты гуманитарного исследования. Вы можете собрать их самостоятельно или использовать открытые репозитории.

Так как же создать свой DH-проект?

1️⃣ С чего начать

Начинать проект нужно с идеи: понять, что, зачем и для кого вы делаете. Это определит его цель и аудиторию. Вы должны понимать, кому эта работа нужна и как она может быть полезна. Также сразу решите, создаете ли вы разовое исследование или долгосрочный ресурс — от этого зависит масштаб работ.

2️⃣ Соберите данные

Определите, что уже есть для реализации вашей идеи. В некоторых случаях можно использовать готовые наборы, в других — потребуется самостоятельная работа по оцифровке архивов или формированию корпуса материалов.

3️⃣ Наберите команду

Определите масштаб проекта и наберите команду. Для небольшого учебного проекта хватит и пары студентов, но для проектов, предполагающих, например, ручное комментирование или оценку, потребуются разметчики. Помните, что самые важные люди в команде — руководитель (идея и управление), исследователи (анализ) и IT-специалисты (для сайта или приложения).

4️⃣ Составьте план

Разбейте общую идею на конкретные задачи: что именно нужно сделать с данными, какая разметка требуется, где нужна автоматизация, а где — ручная работа. Затем создайте реалистичный график: определите сроки, этапы и результаты каждого шага. Для наглядности используйте таблицу или диаграмму Ганта.

Отлично, теперь у вас есть фундамент для старта вашего DH-проекта! Но чтобы не заблудиться на пути от идеи к результату, изучите полный гайд, который позволяет преодолеть первые трудности в проекте и предлагает лайфхаки от опытных исследователей.

А пока предлагаем вам поделиться своими первыми идеями!

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Цифровой Джойс: подборка проектов об «Улиссе»   

Огромный и полный загадок текст «модернистской Одиссеи» Джойса часто привлекает внимание цифровых литературоведов. В день рождения Джойса и его великого романа мы собрали подборку проектов, которые попытались сочетать «Улисса» и цифру.

Dislocating Ulysses


Dislocating Ulysses — проект по созданию 3D карты романа «Улисс». Реконструкция пространства книги производилась на основе архивных карт Дублина начала XX векаю

Joycestick

Рассказ об игровом VR-проекте бостонского колледжа под названием Joycestick (Джойс + джойстик). С помощью VR-сета и Joycestick человек может оказаться в том самом «блумсдее» 16 июня 1904 года — и попытаться ощутить атмосферу Дублина из «Улисса» на себе.

Numbering Ulysses

Большой и немного философский материал о проекте по созданию базы данных вокруг текста «Улисса». Здесь много рассуждений о том, как именно можно уложить роман в табличную структуру, какие есть способы делить его на части иерархически, и какие сложности представляет текучий модернистский текст для цифровых методов, требующих формализации и дискретности.
 
Infinite Ulysses

Краудсорсинговое издание «Улисса», которое размечали сотни людей. А автор издания в это время изучала поведение пользователей: как люди читают Джойса и взаимодействуют с его текстом. Аннотированный текст романа на сайте уже недоступен, но все аннотации выгружены на гитхаб. А еще тут есть комикс по «Улиссу».  

The Ulysses Project

Проект с исследованием аллюзий, сделанных Джойсом в «Улиссе». Опирается на XML-разметку текста и геокодирование.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

От Пугачева до Шекспира: исторические личности в русской прозе

Кого классическая литература упоминает чаще — полководцев, писателей или царей? И кто из литераторов увлекается такими упоминаниями больше всех? Разбираемся в новой статье.

Наполеон Наполеону рознь

Дарья Герасименко исследовала упоминания исторических личностей в русской прозе XIX века, в котором учитывала имена в разных вариантах написания (например, «Буонапарт», «Буонапарте» и др.), а авторские намеки и иносказательные формы — нет. Иначе обработать огромный корпус русской литературы XIX века было бы просто невозможно — пришлось бы перечитать ее всю.

Кроме того, в выборку не вошли исторические лица, которые стали полноценными персонажами произведений, как у Толстого. Во-первых, в таком случае они начинают подчиняться воле автора, а во-вторых, конечно, количество их упоминаний немедленно возрастает в разы. Поэтому Наполеон из теории Раскольникова в исследовании есть, а вот Наполеон из «Войны и мира» прошел мимо этой выборки (куда он прошел, кстати, можете почитать вот тут).

Кто появляется в текстах чаще всего?


Восемь из десяти самых упоминаемых персоналий в произведениях 1860–1890-х годов — литераторы. Оставшиеся двое — полководец Александр Суворов и бунтовщик Емельян Пугачев. Ещё один явно особенный случай — Пушкин, которого начали упоминать в литературе еще при жизни, отсылая к его произведениям, так что он лидирует с огромным отрывом.

А кто из писателей частит с упоминаниями?

Если вы сделали ставку на Достоевского или Толстого, увы, их нет даже в пятерке лидеров. Самые большие любители исторических личностей в русской литературе революционер-народоволец П. Ф. Якубович, автор рассказов и фельетонов И. А. Кущевский и писатель-этнограф С. В. Максимов. Следом за ними идёт И. А. Гончаров.

Кто и кого ещё упоминает, на какое десятилетие приходится пик исторических романов и кого русские писатели XIX века называли чаще — Шексипра или Байрона — узнаете из полной версии статьи.

Время чтения: 7,5 минут

P. S. да-да, в «‎Системном Блоке» неделя Наполеона. По возможности съешьте за это кусочек торта!

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Поэт! не дорожи любовию народной: как ChatGPT пишет стихи

Если вы когда-то просили ChatGPT сгенерировать стихотворение, вероятнее всего, вы остались… не в восторге. Но исследователи задались вопросом не о качестве стихов, а об их стиле. Есть ли у ChatGPT своя поэтика? Разбираемся в новой статье.

🤔 Как определяли черты стиля?

Чтобы изучить тенденции в творчестве нейросети, авторы исследования Does ChatGPT Have a Poetic Style? собрали корпус текстов. Они включили в него стихотворения, сгенерированные GPT-3.5 Turbo и GPT-4 и тексты реальных людей из архива Академии американских поэтов. Как вы уже догадались, исследование проводилось только на англоязычном материале.

Во всех стихах их интересовали жанры, темы, количество строк, лексика, лица глаголов и рифмы.

🧐 И что выяснилось?

Во-первых, что говорить о самостоятельном поэтическом стиле ИИ действительно можно. Во-вторых, что ChatGPT особенно любит слова heart, embrace, echoes и whispers, а из служебных частей речи предпочитает in, upon, beneath, behold и within. Если вы читали наши посты про стилометрию, то помните, что служебные части речи — важнейший маркер авторского стиля.

Ещё нейросеть предпочитает писать стихотворения объемом от 32 до 36 строк, часто делит текст на четверостишия, постепенно начинает отказываться от ямба и старается рифмовать четко и регулярно.

В комплексе это напоминает стиль… англоязычной поэзии XIX века. Что, впрочем, вполне закономерно.

Если хотите узнать про исследование Мелани Уолш, Анны Прейус и Элизабет Гронски подробнее, читайте полную версию материала.

А если вы когда-то генерировали стихи с помощью нейросетей, можете поделиться ими в комментариях. Может быть, обнаружим закономерности в русскоязычных стихах нейропоэтов!

Время чтения: 9 минут


🌞 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

ИИ для студентов, исследователей (и Татьян)

Сегодня — День студента, а значит самое время поговорить о том, что действительно помогает учиться, исследовать и не утонуть в дедлайнах. «Системный Блокъ» собрал шпаргалку по ИИ для исследователей — понятный гайд о том, как использовать языковые модели в учебе и науке.

Если вы студент, аспирант или просто человек, который пишет тексты, анализирует данные и задает слишком много вопросов миру — это хороший повод заглянуть в раздел нашего спецпроекта про ИИ и разобраться, как нейросети могут стать друзьями, а не врагами в таких задачах.

Кратко: о чем раздел?

ИИ-инструменты ускоряют работу на всех этапах: от формулировки темы и поиска литературы до анализа данных и подготовки публикаций.

В гайде рассказываем о нейросетях, которые оптимальны для задач на разных этапах исследования, и помогаем разобраться, как в них ориентироваться.

Например:

— с помощью Elicit можно выбрать тему и найти самые релевантные исследования;
— Litmaps, Connectedpapers и Zotero полезны для поиска и систематизации литературы (спойлер: да, они сэкономият очень много времени и сил);
— собственную базу знаний можно собрать с Meetcody.ai и Typeset.io;
— Perplexity и Consensus подойдут для чтения и анализа научных источников;
— ещё несколько нейросетей помогут оформить библиографию и даже писать код для анализа данных.

Этот раздел — часть нашего спецпроекта «ИИ-лайфхаки для вашей профессии». В нем мы рассказываем, как применять нейросети в реальных рабочих задачах.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Брюхоногие моллюски, эндоскопия и Пушкин: как сделать языковой корпус репрезентативным

Языковой корпус в современном понимании — это сообрание текстов в электронном виде, которое позволяет исследовать язык или группу текстов с помощью поиска и статистического анализа. Рассказываем, что важно учитывать при создании такого корпуса и как в заголовок проникли моллюски и эндоскопия.

Как собирают корпус?


Корпусы бывают очень разные по своему размеру, содержанию, целям существования и инструментарию, Корпуса радиопередач Бостонского университета до Подкорпуса берестяных грамот. При этом вне зависимости от целей и инструментария корпуса важно, чтобы он был репрезентативным, так что важно изначально отобрать оптимальные тексты в оптимальном объеме.

Допустим, мы хотим добавить в корпус естественнонаучные тексты. Интуитивно кажется, что надо просто собрать полные тексты всех подходящих по тематике публикаций, но всё не так просто. Представим, что в выборке нам попадается монография о брюхоногих моллюсках. В этой монографии сотни раз встречается название одного из них — букцинум. И вот частотность этого слова в нашем корпусе уже взлетает в разы относительно «реальной» частотности букцинумов в языке. Поэтому принято брать из каждого конкретного текста какое-то абсолютное число слов: например, при создании Британского национального корпуса брали по 40 000 слов из каждой книги.

Значит, надо равняться на Британский национальный корпус?

Почти… при его составлении «проблема моллюсков» всё равно настигла лексикографов. Для периодических изданий, в отличие от книг, они не стали ставить ограничение объема в 40 000 слов, посчитав, что журналы состоят из неоднородных текстов и в них не так много повторяющейся лексики. Одним из выбранных для включения в корпус стал научный «Журнал гастроэнтерологии и гепатологии»… 713 000 слов из журнала составили 0,7% корпуса и обеспечили словам пептид и эндоскопия места в топе-3000 по частотности в английском языке. Решение, впрочем, было несложным: их удалили из рассмотрения вручную.

Каким же должен быть корпус?


В общем случае в корпусе должно быть много разных жанров и стилей. Корпус должен учитывать особенности разных модальностей использования языка и существование разных групп говорящих и представлять самую широкую возможную картину. Для этого нужно определить интересующие нас типы текстов, распределить их по категориям и отобрать в каждую нужное количество данных. Внутри этих категорий должен быть баланс между связностью выбранных фрагментов, их максимальным разнообразием и минимальным объемом.

Подробнее о том, какие корпуса существуют, как они разрабатывались и почему, однажды встретив Пушкина в тексте, вы вероятнее всего встретите его снова (помните, вы уже виделись с ним в заголовке?), узнаете из полной версии статьи.

Время чтения: 11 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Twitter и эпидемии: как социальные сети помогают изучать распространение болезни

Сегодня эпидемиологи могут заметить вспышку болезни еще до того, как появится официальная статистика, анализируя наши цифровые следы: что мы ищем в поисковиках, о чем пишем в соцсетях и какие места посещаем. Разбираемся, как работает интернет-эпидемиология.

🕵🏻‍♂️ Где искать эпидемиологические данные

Twitter (сейчас X) успел вдохновить множество эпидемиологических исследований благодаря огромному потоку постов и относительно открытой политике доступа к данным (в 2023 году она, увы, изменилась). Формат твитов идеально подходит для выявления ключевых тем (topic detection), а геотеги позволяют привязывать сообщения о симптомах к конкретным регионам и замечать необычные скопления жалоб. 

Другие платформы тоже могут пригодиться. Например, в начале пандемии COVID-19 покупатели стали оставлять больше негативных отзывов об ароматизированных свечах, возмущаясь, что они не пахнут.

🦠 Как найти в сети ранние признаки эпидемии

Идея проста: если в каком-то регионе люди массово начинают искать информацию о кашле, температуре и боли в горле или писать о симптомах в соцсетях, это может быть самым ранним сигналом о начале вспышки конкретного заболевания.

Еще в 2009 году исследователи выяснили, что число поисковых запросов в Google может отражать число людей, болеющих гриппом. А в 2020 году в разных провинциях Китая число «ковидных» поисковых запросов в и постов хорошо коррелировало с ежедневным приростом подтвержденных случаев.

Поисковые запросы помогают выявлять и совсем локальные вспышки — и даже определять их источник. Оказывается, с помощью агрегированных анонимных геоданных можно связать недавнее посещение конкретного кафе или ресторана с запросами, намекающими на отравление.

😷 Настоящее и будущее интернет-эпидемиологии

Две основные тенденции последних лет — объединение разнородных цифровых следов и применение ИИ для их анализа. Пандемия COVID-19 породила волну исследований, в которых используются не только уже упомянутые источники, но и travel-блоги, трафик Википедии, данные новостных сайтов, информация от носимых медицинских устройств и поисковые запросы врачей (например, такую статистику собирает предназначенный для специалистов сайт UpToDate).

Появились и системы, которые автоматически анализируют релевантные источники и постоянно ищут признаки новых вспышек. Оценить их работу можно по недавнему отчету о ранней детекции заболеваемости в африканских странах: EIOS (The Epidemic Intelligence from Open Sources, проект Всемирной организации здравоохранения) зарегистрировал 81% вспышек, информация о которых официально дошла до ВОЗ, из них 47,4% — до официального оповещения. 

Подробнее об истории, развитии и перспективах интернет-эпидемиологии узнаете из полной версии статьи.

Время чтения: 15,5 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Больше, чем энциклопедия: Википедии 25 лет!

Сегодня исполняется 25 лет Википедии — децентрализованной энциклопедии, которую делают сотни тысяч энтузиастов по всему миру. Как она создавалась? Кто может редактировать статьи? Как Википедия защищается от сетевых вандалов и троллей? Какие альтернативы энциклопедии появлялись в разное время? Перечитываем наш материал ко дню рождения Википедии.

🖥️ Утопия и реальность

В 2001 году Википедию создавали как утопический проект, который бросал вызов самой каноничной на тот момент энциклопедии — «Британнике». Постепенно проект обзавелся редакторами и нашел партнеров среди университетов, музеев и библиотек. Так начал утверждаться авторитет Википедии, которая к началу 2010-х приобрела статус фактической энциклопедии интернета, войдя в топ-15 популярнейших веб-сайтов.

⌨️ Три уровня свободы

Хотя изначально писать и редактировать статьи мог любой желающий, руководство Википедии скоро устало от «троллей» и «вандалов», портящих статьи с анонимизированных IP-адресов Tor. Это привело к большой дискуссии о критериях «запретов» и «блокировок». В итоге википедисты разделили сообщество на три класса. Первый, имевший меньше всего привилегий, — те, кто назывался по своему IP-адресу. Второй — участники, имевшие свои личные аккаунты и известные под своими именами. Они могли добавлять и редактировать страницы с незначительными ограничениями. Третий — администраторы.

👨🏻‍💻 Ресурс для больших корпораций

Хотя природа Википедии — некоммерческая, такие корпорации, как Amazon, Apple и Google используют данные проекта для повышения ценности собственных продуктов. Даже модель ChatGPT частично обучалась на массиве данных Википедии. Поэтому сайт можно рассматривать как ресурс, который добывается и используется в качестве корпоративного товара.

О том, как это влияет на саму Википедию, а также об аналогах энциклопедии и предпосылках к их появлению, узнаете из полной версии статьи.

Время чтения: 15 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Гербарий МГУ вышел на пятое место по количеству геопривязок

В гербариях мира накопилось более 400 миллионов образцов растений. Каждый состоит из спрессованного сухого растения и этикетки, на которой указывается информация о месте, времени, авторе сбора. При оцифровке этих данных отдельной проблемой становится геопривязка. О сложностях геопривязки гербариев и о том, как гербарий МГУ вышел на пятое место по числу геопривязанных растений, рассказывает для читателей «Системного Блока» доктор биологических наук Алексей Серегин.

Геопривязки — это что?

Геопривязка — это и процесс поиска места сбора образца по доступным источникам, и результат — введенная в базу данных пара числовых координат, которую можно отобразить на карте. Процесс чрезвычайно трудозатратный, но, в итоге, вводящий тот или иной образец в мировой круговорот открытых электронных данных о биоразнообразии.

Как в гербариях появились геопривязки?

Гербарные образцы состояли из запрессованного сухого растения и этикетки с информацией о месте, времени, авторе сбора и определении растения ещё с XVI века — момента изобретения гербария. Однако эти данные далеко не всегда были точными.

В середине XVIII века это были указания типа «Kamtschatka» — «Камчатка», которые указывали на регионы площадью в сотни тысяч — или даже миллионы квадратных километров.

К началу XIX века образцы московской флоры из Гербария МГУ могли иметь уже такие указания как «Montes pass[erines]» — «Воробьёвы горы». В целом, в XIX веке, как правило, указывался ближайший топоним – например, населенный пункт, а в ненаселенных местностях – гора или река.

Во второй половине XX века на этикетки стали попадать географические координаты – в тот момент «снятые» с карт, не очень точные и одинаковые для всех гербарных сборов из какого-нибудь пункта работ отдельной экспедиции.

В самом начале XXI века при сборе растений стали массово использовать портативные навигаторы, так что сейчас уже трудно найти этикетку без координат места сбора с точностью до секунд.

Для чего нужны геопривязки?

Систематика растений во многом связана с географией: ареал вида, в частности, одна из его ключевых характеристик. Как для изучения отдельных видов растений, так и для глобальных обобщений о том, как устроено биоразнообразие на планете, нужны пространственные данные. И если раньше исследователи самостоятельно ставили карандашиком место сбора изученного ими образца на контурной карте, а затем для публикации делали карту ареала тушью, то сейчас, благодаря геопривязкам, исходный материал лежит в машиночитаемом виде в открытом для обработки доступе.

Системная цифровизация происходит в гербариях по всему миру, а о самых больших коллекциях по количеству открытых пространственных данных вы можете узнать в блоге Алексея Серегина. Кстати, все данные в блоге представлены со ссылками на сайт Global Biodiversity Information Facility, где можно отслеживать изменения: коллекции растут стремительно, поэтому динамично обновляющиеся базы данных для них особенно актуальны.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

ИИ-прогноз на 2026 год: домашние роботы, реалистичное видео, научные агенты

Чего ждать от развития нейросетей в 2026 году? Мы выделили главные тенденции и составили свой прогноз!

Ускорится развитие роботов


В 2026 году в продажу поступит Neo Home Robot от компании 1X по цене $20 000. Neo станет первым продвинутым роботом для массового потребителя, способным выполнять сложные многошаговые задачи: стирку, загрузку посудомоечной машины, уборку пылесосом.

Новым задачам робот будет обучаться через телеоператора — сотрудник компании удаленно подключится к устройству и проведет его по шагам от начала до конца задачи, обучив на следующий раз. Так 1X одной из первых соберет реальные данные, критически важные для дальнейшего обучения. Похожую стратегию использовала Tesla: изначально ее автопилот был достаточно примитивен, но массовое распространение позволило собрать огромные массивы данных о поездках, которые затем легли в основу более продвинутой системы.

Роботами также серьезно занялась компания Hugging Face — разработчик самого популярного хранилища открытых моделей ИИ. В 2024 году она запустила open source инициативу LeRobot для моделей, датасетов и инструментов обучения роботов, а в апреле 2025 приобрела Pollen Robotics (создателей гуманоидных роботов с открытым ПО) и заявила о намерении развивать и продавать открытых роботов. Среди них — Reachy Mini, маленький робот за $300, который должен помогать разработчикам и энтузиастам в прототипировании своих идей. 

Развитие мультимодальных LLM, выход роботов на массовый рынок и создание открытой инфраструктуры для разработки робототехники создают предпосылки для ускорения прогресса в этой области. 

ИИ-видеоконтента станет больше

Согласно недавнему исследованию компании Kapwing, более 20% видео, которые алгоритм YouTube рекомендует новым пользователям, созданы с помощью ИИ. Исследователи проанализировали 15 000 популярных каналов платформы и обнаружили 278 каналов, публикующих исключительно ИИ-контент. В совокупности они набрали более 63 млрд просмотров и 221 млн подписчиков, что приносит им около $117 млн ежегодно.

Такой рост стал возможен благодаря развитию моделей генерации видео. Sora 2 от OpenAI и Veo 3 от Google создают реалистичные ролики со звуком и доступны широкой аудитории. Существуют и открытые модели сопоставимого качества — например, Wan и Kandinsky.

Google уже снизила стоимость Veo 3 примерно на 50%, а конкуренция со стороны открытых моделей продолжает расти. Параллельно развиваются ИИ-инструменты для упрощения работы над видео: монтаж через транскрипцию, создание видео-аватаровавтоматическая озвучка. Все это будет способствовать дальнейшему увеличению объема ИИ-видео.

ИИ будет чаще использоваться в науке

Прогресс в развитии LLM и основанных на них агентов позволил автоматизировать или существенно упростить некоторые этапы исследовательской работы.

Например, ИИ-исследователь Kosmos, как утверждается, за сутки Kosmos выполняет объем задач, эквивалентный шести месяцам работы аспиранта. Система уже способна самостоятельно воспроизводить ранее неопубликованные результаты и совершать открытия, признаваемые другими учеными. Детальные описания «открытий» Kosmos и протокол измерения его продуктивности доступны здесь

Система AlphaEvolve на основе LLM находит новые математические объекты, разрабатывает более эффективные алгоритмы и дизайны чипов. Математики описывают ее как инструмент, способный находить работающие комбинации существующих идей для конкретных задач. Многие такие комбинации можно было бы найти вручную, но у ученых часто не хватает на это времени. Подробнее об AlphaEvolve мы писали здесь.

Недавно специальный вид нейросетей использовали для продвижения в решении одной из «Задач тысячелетия».

Современные ИИ-методы пока не применяются в науке повсеместно по двум причинам. Первая — высокая стоимость. Один цикл работы ИИ-исследователя может обходиться в тысячи долларов. Вторая причина — отсутствие удобных интерфейсов для широкого круга пользователей. Обе эти проблемы, впрочем, постепенно решаются.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Как превратить коллекцию гравюр Пушкинского музея в онтологию

Как найти «зиму» в коллекции гравюр, если на изображении нет ни снега, ни льда? Традиционные методы вроде поиска по ключевым словам здесь бессильны. В этом случае онтология ICON помогает превратить коллекцию в «умные данные», способные отвечать на сложные искусствоведческие вопросы.

Что такое онтологии — и зачем они нужны?

Онтология в компьютерных науках — это способ моделирования и представления данных, их описание и формализация. Онтологии используются не только в теоретических исследованиях, как в случае с коллекцией Пушкинского музея.

Они также помогают и в таких сферах, как
• обработка данных на естественном языке
• оптимизация производственных процессов
• и даже выявление потенциальных киберугроз

Кстати, больше узнать об онтологиях — и о том, как создавать их самостоятельно, — можно из нашего глоссария.

Какие вопросы можно задать онтологии гравюр Пушкинского музея?

Например, вопрос «На каких изображениях распознается оливковая ветвь?», потому что онтология поможет собрать все произведения с определенным символом. Это очень полезно, потому что исследователь — в отличие от поиска коллекции — не может просмотреть 100 000 гравюр вручную.

Кроме того, онтология может выявить скрытые паттерны. Ей можно задать вопрос: «Связан ли выбор мифологических сюжетов с местом обучения художника?» Онтология сопоставит место учебы сотен мастеров с иконографией их работ и выдаст корреляцию, чтобы вы точно знали, кто и где чаще рисовал Венеру, а кто – Вакха.

Наконец, «как всё-таки найти зиму без снега и льда»? Онтология связывает аллегорию зимы с такими мотивами, как «меховая шапка», «восседать на облаке», «голая ветвь». Дальше, например, фигура в центре распознается как «Эол» (бог ветров) или «Борей» (бог северных ветров). Благодаря таким мотивам можно понять, что на картине изображена зима, даже если мы не видим ни снега, ни льда. Любое другое визуальное воплощение будет описываться так же, как и зима, то есть как композиция из фигуры и ее атрибутов.

О том, как онтология производит распознавание и использует классическую теорию интерпретации Эрвина Панофски, вы узнаете из полной версии материала на сайте.

Время чтения: 6 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Пентагон против Anthropic и новый лидер в видеогенерации

Рассказываем, что произошло в мире ИИ за последнее время.

Пентагон против Anthropic

Между Anthropic и Пентагоном  возникли разногласия при заключении контракта на 200 млн долларов.

Министерство обороны США хочет использовать нейросеть Claude для всех «законных целей». Однако Anthropic потребовала гарантий того, что ее модель не будет применяться для автономного управления оружием и массовой слежки за гражданами Америки. В ответ ведомство назвало попытку ограничить сценарии использования «недемократичной».

По словам неназванного сотрудника Пентагона, глава министерства рассматривает возможность признать Anthropic ненадежным поставщиком для оборонных контрактов. Если такое решение будет принято, все компании, сотрудничающие с Пентагоном, будут обязаны отказаться от продуктов Anthropic. Статус ненадежного поставщика обычно присваивается компаниям из враждебных государств — например, китайским или российским, в числе которых «Лаборатория Касперского».

Напряженность между сторонами усилилась на фоне сообщений о том, что Claude применялся в ходе операции по похищению Николаса Мадуро из Венесуэлы, повлекшей человеческие жертвы. По данным источников, эта информация вызвала серьезное недовольство внутри компании.

Между тем Пентагон уже заключил контракты с другими игроками на рынке ИИ — Alphabet (материнской компанией Google), OpenAI и xAI.

Почему это важно?

Модели ИИ давно применяются в военных целях, однако появление и стремительное развитие больших языковых моделей открывают принципиально новые сценарии. В частности, LLM способны действовать как автономные агенты: самостоятельно анализировать обстановку и принимать решения без участия человека. Бесконтрольное внедрение таких систем в военные операции несет серьезные риски: от ошибочных ударов до эскалации конфликтов по сценариям, которые никто не закладывал.

Исход конфликта между Anthropic и Министерством обороны США станет проверкой для всей отрасли: готовы ли ведущие ИИ-компании на практике отстаивать принципы безопасной и ответственной разработки — или эти принципы останутся декларациями.


Seedance 2.0 — новый лидер видеогенерации

Владелица TikTok, компания ByteDance, представила Seedance 2.0 — новую модель для генерации видео со звуком.

На вход модель принимает текстовое описание, изображения, аудио и видеофрагменты, на выходе — ролики длиной до 15 секунд с многоканальным звуком. Компания заявляет о более точном следовании инструкциям, а также об улучшенной генерации сцен с несколькими объектами и сложными движениями.

Пока модель доступна только китайским пользователям и только по приглашениям, однако примеры работы можно посмотреть уже сейчас.

Запуск немедленно вызвал волну претензий от голливудских студий. Disney, Warner Bros. Discovery, Paramount, Netflix и Sony Pictures потребовали прекратить нарушение авторских прав — поводом стали вирусные ролики с персонажами Marvel, «Звездных войн», «Игры престолов» и других франшиз.

ByteDance заявила, что уважает авторские права и намерена усилить меры по предотвращению их нарушений. Ассоциация кинопроизводителей считает это недостаточным.

Почему это важно?

Первая коммерческая модель для генерации видео по текстовому описанию Sora вышла в декабре 2024 года — чуть больше двух лет назад. Сейчас модели уже способны создавать видео, визуально близкие к реальному кино.

Вопрос авторских прав при этом стоит острее, чем в случае с текстом: видеомодель воспроизводит узнаваемых персонажей и сцены из конкретных произведений. Реакция киноиндустрии показывает, что единого подхода к решению этой проблемы пока нет. OpenAI в аналогичной ситуации заключила лицензионное соглашение с Disney. Какую стратегию выберет ByteDance и другие крупные компании — непонятно.


🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Матриархат, болезни и археологи: как палеогенетика помогает изучать социальную структуру древних сообществ

Для исследования ДНК древнего человека необходимо собрать целую команду. Во-первых, понадобится археолог, который добудет материал; во-вторых, антрополог, который материал оценит; в-третьих и в-четвертых — палеогенетик и биоинформатик, которые очистят древнюю ДНК и проведут анализы. Четыре человека при самых скромных подсчетах! Зато в результате можно узанть о родственных связях, брачных практиках и правилах, по которым были устроены древние общества. Рассказываем, как палеогенетика исследует социальные структуры прошлого.

Матриархат или патриархат?

Концепция рода относительна: в одних культурах он формируется по материнской линии, в других — по отцовской. Доминирующий пол можно вычислить по соотношению разнообразия митохондрий и Y-хромосом: первые наследуются только от матерей, вторые — только от отцов. 

Если преемником считается сын, а дочь, вступив в брак, «уходит» в другую семью, то в роду будет видна четкая наследственность по Y-хромосоме и большое разнообразие митохондрий.

Этот метод анализа использовали ученые при изучении одного кельтского племени с южного побережья Британии. Анализ захоронений показал, что в основном дуротриги представляли собой родственную группу, сосредоточенную вокруг одной материнской линии, а слишком близких союзов в этом племени старались избегать.

Какие ещё есть методы?

Есть, например, молекулярно-палеопатологический метод: он позволяет изучить болезни, которые часто свидетельствуют о том, к какому социальному слою принадлежал их носитель. Мог ли человек позволить себе постоянное полноценное питание и своевременное лечение, не страдал ли «династическими» недугами? Мог ли он быть пришлым и иметь нехарактерное для местных заболевание или, напротив, обладать устойчивостью к чему-то, от чего страдали все остальные? 

Среди других методов найдутся, например, филогеография и анализ гомозиготных участков. Если хочется разобраться, что это значит и как работает, а заодно выяснить, что мы узнали о неандертальцах из Алтайского края и Ирландии времен неолита благодаря палеогенетике, переходите к полной версии материала.

Время чтения: 14 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

От рок-баллад до Тейлор Свифт: как алгоритмы находят сюжеты в песнях

Рассказываем, как цифровые методы и литературная теория помогают увидеть (и посчитать!) движение от лирики к сторителлингу в поп-музыке

Как изучать сюжет в треках?

Авторы исследования Measuring the Stories in Contemporary Songs собрали корпус из 1076 текстов популярных американских песен с 1960 по 2025 год. 

Для измерения степени сюжетности в песнях исследователи выделили три показателя нарратива, которые никак не зависят от жанра или стиля. Их можно условно перевести и объяснить так:

• «агент» — степень, в которой текст песни акцентирует внимание на действующих лицах;

• «событие» — степень организации текста вокруг последовательности событий, разворачивающихся во времени;

• «мир» — степень, в которой в тексте описывается мир, который мы можем увидеть и прочувствовать. 

А дальше?

Вторым этапом исследования стало машинное обучение: для получения более объективного результата авторы использовали разные модели с архитектурой BERT и генеративные LLM (Gemini 2.5 Pro, GPT 4.1, Claude Opus 4).

И что выяснилось?


Изначально у исследователей была гипотеза, что песни 1960-х имели большую сюжетность, чем современные, но оказалось, что сюжетность планомерно возрастала и её пик пришелся как раз на 2020-е. Короче говоря: всё ровно наоборот!

Несколько интересных фактов

Во-первых, исследователи обнаружили, что песни, номинированные на премию Grammy, в среднем имели больший уровень нарративности, чем песни того же жанра, которые не были номинированы. 

Во-вторых, выяснилось, что десятиминутная песня Тейлор Свифт All Too Well, от которой многие ожидали пиковых показателей по сюжетности, не вошла даже в пятерку «‎самых нарративных треков». Зато в неё вошёл, например, Ice Cube с его It Was a Good Day.

О том, как именно обучали модели для этого исследования, какие ещё исполнители склонны рассказывать целые истории в своих песнях и какие музыкальные жанры отличаются особой любовью к насыщенным сюжетам, узнаете из полной версии материала.

P. S. Как думаете, какая русская песня оказалась бы самой сюжетной? Делитесь своими версиями в комментариях!

Время чтения: 8,5 минут


🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Личный ИИ-ассистент, соцсеть для ИИ-агентов, генератор виртуальных миров от Google

Рассказываем, что произошло в мире ИИ за последнее время.

ИИ-ассистент OpenClaw и соцсеть ИИ-агентов

За последние две недели в сообществе энтузиастов искусственного интеллекта стремительно набрал популярность ИИ-агент OpenClaw (ранее ClawdBot и MoltBot). Создатель позиционирует его как персонального ассистента, способного сортировать электронную почту, составлять утренние дайджесты новостей, бронировать столики в ресторанах и т. д. — возможности ограничены лишь фантазией пользователя. Взаимодействие происходит через мессенджеры, например, WhatsApp или Telegram. В основе агента — языковая модель: OpenClaw работает как с коммерческими решениями (ChatGPT, Claude), так и с моделями, развернутыми локально. Агент имеет доступ к файловой системе компьютера, может выходить в интернет, использовать «навыки» (папки с текстовыми файлами, содержащие инструкции, а также программные скрипты) и сохраняет полную историю взаимодействий, которую использует как контекст.

Судя по отзывам, OpenClaw редко справляется с задачами, однако это не мешает росту аудитории. Спустя несколько дней появился сайт MoltBook — аналог Reddit, где контент публикуют не люди, а боты OpenClaw. Агенты рассказывают о поручениях владельцев, обмениваются «навыками» или просто общаются. Часть контента создана людьми (например, завирусившиеся посты, где якобы агенты обсуждают, что люди за ними следят), но сама платформа предназначена для ботов.

Почему это важно?

С технической стороны OpenClaw не содержит прорывных решений, часто допускает ошибки и представляет серьезные риски для безопасности, но интерес пользователей остается высоким.

Современные LLM еще недостаточно надежны для роли полноценных помощников с доступом к личным данным и широкими полномочиями действовать в цифровой среде. Большинство пользователей пока взаимодействуют с ними лишь как с чат-ботами. Однако OpenClaw дает представление о том, как может выглядеть будущее персонифицированного программного обеспечения.

MoltBook предвосхищает более радикальный и неожиданный сдвиг — появление цифровых пространств не для людей, а для ИИ-агентов. Если боты станут достаточно автономными, им могут потребоваться собственные платформы для обмена информацией, формирования коллективного знания или даже выработки новых паттернов поведения через взаимодействие друг с другом. 


Генерация виртуальных миров от Google

Лаборатория Google DeepMind открыла публичный доступ к Genie 3 — третьему поколению «модели мира», о которой мы уже подробно писали. Теперь любой пользователь может генерировать интерактивные виртуальные среды по текстовому описанию, свободно перемещаться в них и управлять ими в реальном времени.

Практически одновременно компания Waymo, разрабатывающая автопилотное такси, представила Waymo World Model — специализированную версию Genie 3 для симуляции автономного вождения.
Waymo World Model генерирует реалистичные данные с камер и лидаров, воспроизводя то, как автопилот «видит» дорожную ситуацию. Благодаря базовым знаниям Genie 3 о физическом мире система симулирует исключительно редкие события: торнадо, наводнения, встречу со слоном на дороге или неисправный грузовик во встречном направлении.

Модель поддерживает три типа управления: команды вождения (проверка альтернативных маневров), изменение дорожной сцены (расстановка объектов, светофоров) и текстовые запросы (смена времени суток, погоды). Waymo World Model может также преобразовывать видео с обычных регистраторов в мультисенсорную симуляцию.

Почему это важно?

Случай с Waymo демонстрирует одно из ключевых применений «моделей мира» — генерацию обучающих и тестовых данных для роботов и автономных систем. Это позволяет создавать сотни часов симуляций редких ситуаций, которые сложно собрать в реальности, будь то приготовление еды для обучения роботов или экстремальные дорожные условия для беспилотников.


🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

«‎Стыдные» вопросы про нейросети

Как ИИ понимает мои русско-английские запросы? Почему его не смущают опечатки? Как чат-бот догадывается, что мне предложить?

«Системный Блокъ» собрал «стыдные» и сложные вопросы про LLM и задал их своим специалистам. О том, почему модели не могут посчитать буквы, но могут написать код, есть ли у них самосознание и что будет, когда данные закончатся, — читайте в наших карточках.

А о том, причем тут эмодзи морского конька — на сайте!

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

НЛО, беглые заключенные или лавина: загадка Перевала Дятлова и 3D-анимация

Гибель туристов из группы Дятлова — одна из самых обсуждаемых тайн советской эпохи: о ней пишут книги и снимают сериалы, пытаясь понять, что же случилось с туристами в районе горы Холатчахль в феврале 1959 года.

В преддверии годовщины трагедии вспоминаем наш материал о том, какую теорию произошедшего предлагают компьютерные методы, и рассказываем, как с этим связан мультфильм «‎Холодное сердце».

🗻 Ученые, наверное, за лавину?

Логично предположить, что ученые не склоняются к причастности инопланетян к гибели туристов, а идею о том, что экспедиция повстречалась с группой сбежавших преступников, сегодня едва ли докажешь. Зато с природной версией вполне можно разобраться.

Этим и занялись исследователи из Лаборатории моделирования снежных лавин в Лозанне. Они разработали модель движения снега после консультаций со специалистами по эффектам в «Холодном сердце», а данные о силе и давлении на человеческое тело команда получила из тестов General Motors. В 70-е гг. компания разными ударами ломала ребра 100 трупам, чтобы улучшить ремни безопасности.

🌨️ И что показала модель?

Что на склоне горы Холатчахль и правда могла быть лавина длиной около 5 метров. Создатели, конечно, учли самые важные обстоятельства: отчёты экспертов о крутом наклоне в 30 градусов, скользкой поверхности и том факте, что туристы подрезали склон для палаток. Ситуацию ухудшили сильные ветры и большое количество снега над лагерем. 

Согласен с этой версией и Джорди Хендрикс, бывший директор Лаборатории снега и лавин в Университете штата Монтана, который заявил, что симуляция демонстрирует «смертельную ночь с новой точностью».

Но, разумеется, эта версия событий остается вероятной, а не единственной.

Своими любимыми теориями можете поделиться в комментариях или в нашем опросе!

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Галопом по Европам: куда ездили герои «Войны и мира»

Цифровое картографирование позволяет исследователям восстанавливать маршруты героев фильмов, книг и легенд и, конечно, сделать неожиданные выводы о произведениях. Сегодня расскажем, чем интересны маршруты персонажей «Войны и мира» Толстого.

Так что там с «Войной и миром»?

Толстоведка Ани Кокобобо и её студенты в Канзасском университете изучили маршруты героев с помощью сервиса StoryMap JS. Благодаря нему они выяснили, что Толстой, например, не сосредотачивается ни на нескольких выдающихся персонажах, ни на нескольких выдающихся местах: «обычные» локации в романе противопоставляются культурным и экономическим центрам, Москве и Санкт-Петербургу.

Композиция «Войны и мира» отражает эту же идею: роман лишен любых центров, в нем нет главного героя, нет одной главной мысли и нет главного места действия.

Кто куда двигался?


Пьер за время романа проходит большой путь не только метафорически, но и буквально: линия его передвижений тянется от Петербурга до Киева. А в финале он постоянно перемещается между центром (Петербургом), занимаясь общественной и политической деятельностью, и новой периферией — домом, семьей.

Элен и Наполеон — пожалуй, наименее располагающее к себе персонажи романа — всегда стремятся к культурным, экономическим, политическим центрам. При этом в романах XIX века женщины обычно остаются привязанными к дому, в то время как мужчины, наоборот, оставляют его в поисках своего места в мире. Так что Элен Курагина перемещается меньше других, тогда как Наполеон — один из самых мобильных персонажей.

При этом Наташа Ростова и Марья Болконская всё-таки путешествуют. Правда, конечно, вынужденно: они покидают дом из-за вторжения армии Наполеона.

Какие ещё маршруты можно найти в романе и что они говорят о героях, узнаете из полной версии статьи. А ещё можете почитать про карты с приведениями, лепреконами и античными героями, о которых мы писали раньше!

Время чтения: 11 минут

😎 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

ИИ-компании взялись за медицину, а OpenAI запускает рекламу в ChatGPT

Рассказываем, то произошло в мире ИИ за последнее время.

Интеграция LLM в систему здравоохранения

Два лидера в сфере ИИ, OpenAI и Anthropic, анонсировали внедрение больших языковых моделей в систему здравоохранения.
Обе компании предоставили своим моделям доступ к базам данных и реестрам с информацией о страховом покрытии, кодами диагнозов и научными публикациями. Еще они разработали шаблоны, позволяющие автоматизировать рабочие процессы — составление выписок, инструкций для пациентов, клинических писем и т. д.

OpenAI представила версию ChatGPT (ChatGPT Health)  (ChatGPT Health), специально обученную для медицинских целей. Врачи могут использовать ее для консультаций при составлении дифференциальных диагнозов, протоколов лечения и написания направлений.

Помимо этого, обе компании добавили возможность загружать данные о здоровье в свои чат-боты: показания с фитнес-трекеров и умных часов, результаты анализов, цифровые медкарты из соответствующих сервисов (например, приложение «Здоровье» на iOS). На основе этих данных модели смогут составлять персонализированные рекомендации. Пользователи смогут предоставлять и отзывать доступ к чувствительной информации по своему усмотрению.

Почему это важно?

Во-первых, медицинские данные пациентов — конфиденциальны. ИИ-продукты, совместимые с существующими законами, упростят интеграцию технологий в работу медицинских учреждений и снимут часть нагрузки с персонала.

Во-вторых, пользователи уже активно обращаются к чат-ботам за медицинскими консультациями, а модели общего назначения не всегда корректно обрабатывают такие запросы. Ранее разработчики LLM не акцентировали внимание на этом сценарии использования. Запуск специализированных медицинских решений означает, что компании официально признают его допустимым и берут на себя ответственность за качество предоставляемой информации.

Анонсы подобных решений от лидирующий компаний свидетельствуют о готовности общества к интеграции ИИ в критически важные сферы.


Реклама в ChatGPT

Компания OpenAI начнёт тестировать показ рекламы в сервисе ChatGPT.

Запуск рекламной модели позволил компании предложить дешёвую подписку ChatGPT Go стоимостью 8 долларов в месяц, что должно увеличить пользовательскую базу. Также реклама позволит зарабатывать на пользователях без подписки. Владельцам дорогих тарифных планов реклама показываться не будет.

По словам OpenAI, реклама не повлияет на ответы чат-бота. Рекламодатели также не получат доступа к перепискам пользователей.

Рекламные объявления будут отображаться после ответов ChatGPT и иметь чёткую маркировку. На этапе тестирования реклама не будет показываться пользователям младше 18 лет. Кроме того, объявления не будут затрагивать чувствительные и регулируемые сферы: здравоохранение, ментальное здоровье и политику.

Почему это важно?

Чат-ботами ежедневно пользуются сотни миллионов людей. Однако ни один крупный провайдер LLM пока не внедрил рекламу в свой сервис.

Сценарии использования чат-ботов и интерфейс переписки предоставляют рекламодателям больше возможностей, чем простой показ баннеров и размещение ссылок на продукт. Например, пользователь может расспросить чат-бота о рекламируемом товаре, не выходя из приложения.

Велик шанс, что сервисы с чат-ботами в будущем могут стать столь же прибыльными рекламными площадками, как поисковики после массового распространения интернета.

Демис Хассабис, генеральный директор лаборатории Google DeepMind, разрабатывающей Gemini, заявил, что на данный момент у компании нет планов по добавлению рекламы в этот сервис.


Ещё одну новость — о модели Claude от Anthropic — найдёте в полной версии дайджеста на сайте.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

О дивный «Новый мир»: что показывает сетевой анализ советских толстых журналов

Эпоха оттепели была временем расцвета журналов — «Знамя», «Молодая гвардия», «Новый мир» и «Юность» стали голосом времени. Как так вышло? Кто и где печатался? И в каком журнале важное место занимали темы России и… хлеба? Выясняем в новой статье.

📚 Почему все взялись за журналы?

Во-первых, в условиях командной экономики и отсутствия свободного книжного рынка именно толстые журналы стали главным источником новых произведений и идей. Во-вторых, смягчилась цензура и журналы получили относительную автономию. Публикация «Одного дня Ивана Денисовича» в «Новом мире», например, стала символом нового исторического периода, сделав тему репрессий предметом открытой дискуссии. 

А стартовый тираж «Юности» в 100 тысяч означал фактически полмиллиона или даже миллион читателей, поскольку каждый экземпляр журнала передавался из рук в руки и его читали несколько человек.

🔍 А что в них изучать цифровыми методами?

Благодаря контент-анализу, например, можно отследить, как менялась идеологическая и эстетическая направленность журналов. Например, в «Нашем современнике» с 1968 по 1972 особое место занимали слова «Россия», «мать» и «хлеб».

Сетевой анализ толстых журналов позволяет обнаружить неочевидные связи в литературной среде. Скажем, можно выяснить, что тот, кто печатался в «Молодой гвардии», обычно был принят и редакцией «Юности», и наоборот. Именно в «Юности», кстати, регулярно встречались тексты Евтушенко, а вот Солженицына можно было почитать только в «Новом мире».

Подробнее об этих и других наблюдениях, сделанных благодаря цифровым методам, а еще о том, почему «Наш современник» меньше прочих пересекался по авторам с другими журналами, узнаете из полной версии статьи.

Время чтения: 13,5 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Еще чуть-чуть и прямо в Рай: цифровые ресурсы, посвященные творчеству Данте

Многие убеждены, что чтобы читать Данте, нужно быть одновременно историком, богословом и филологом. Сложная система аллегорий, исторические и библейские отсылки — все это создает ощущение, что произведение доступно лишь избранным.

Однако с Данте больше не нужно разбираться в одиночку. За последние 20 лет его наследие и тонны исследований оцифровали. Мы собрали подборку полезных ресурсов: от проекта, который поможет новичкам в знакомстве с «Божественной комедией», до более продвинутых цифровых инструментов, которые могут пригодиться исследователям.

🪾 Digital Dante для новичков

Это цифровое издание от Колумбийского университета по «Божественной комедии» с оригинальным текстом, двумя переводами, иллюстрациями, а также авторскими комментариями и видеолекциями от профессорки Теодолинды Баролини. По сути Digital Dante — это возможность полноценно пройти университетский курс по «Божественной комедии» в собственном темпе. Проект также включает раздел Intertextual Dante для визуализации связей с другими авторами.

😈 DanteSources для продвинутых

В отличие от предыдущего проекта DanteSources фокусируется на всем корпусе Данте. Это исследовательский инструмент, оцифровавший тысячи отсылок к 714 источникам во всех произведениях Данте. Все источники, на которые ссылался Данте, переведены в структурированный машиночитаемый формат. Это позволяет также анализировать характер и частоту цитирования и работать с данными как с базой. Вы сможете строить графики, например, чтобы увидеть, к каким авторам Данте чаще всего обращался в каждом трактате. Можно искать все отсылки к конкретному философу или поэту, а затем выгрузить результаты в CSV или JSON для своего исследования.

😇 Цифровые библиографии: DanteOnline и Dante Today

DanteOnline — база данных, которая содержит более тридцати тысяч записей научных работ о Данте, с расширенным поиском по категориям и ключевым словам и экспортом метаданных. Этот проект будет особенно полезен тем, кто всерьез занимается Данте или планирует внести свой вклад в изучение его творчества.

Нравятся мемы с знаменитыми кругами Ада? Тогда обратите внимание на проект Dante Today, который фокусируется на рецепции творчества Данте в различных областях от европейской литературы до музыки и видеоигр. Участники этого проекта собирают информацию об отсылках к произведениям Данте в искусстве и массовой культуре и создают целую карту рецепции Данте

О том, как использовать проекты для чтения или исследований, и о том, кого Данте цитировал в трактате «О монархии» чаще всего — Аристотеля, Вергилия или Фому Аквинского (спойлер: не Вергилия!), прочитаете в полной версии статьи.

Время чтения: 11,5 минут

🤖 «Системный Блокъ» @sysbloksupportbot

Читать полностью…

Системный Блокъ

Правда ли, что нейросети всего лишь «предсказывают слова»?

Говорят, большие языковые модели просто предсказывают следующий токен. Но тогда как они решают олимпиадные задачи, которых не было в интернете, и пишут работающий код по произвольному ТЗ?

Короткий ответ: в этом и есть главный парадокс современных LLM. Простая задача — продолжать текст — неожиданно приводит к появлению сложных навыков. Но есть и нюансы в обучении, которое давно уже не сводится к простому «предскажи следующее слово в тексте из википедии».

Изначально (на базовом этапе предобучения) модели действительно учат так: на вход — текст из интернета, на выход — наиболее вероятное продолжение. Кажется, что такая система должна лишь механически «собирать фразы» из обучающих данных. Но на практике модели, обученные на огромных корпусах, начинают обобщать знания.

Если модель видела тысячи математических задач, у неё формируется устойчивая связь между формулировкой и правильным ходом рассуждений. Даже если конкретной задачи не было в обучении, она может применить знакомую схему — почти так же, как это делает человек. Скорее всего, «новая» олимпиадная задача не такая уж и «новая». Ее автор тоже скомбинировал уже существующие идеи, примеры и методы. В этом смысле LLM делают то же самое — только в гораздо большем масштабе. При росте размеров моделей и разнообразия обучающих данных умение предсказывать следующий токен постепенно превращается в способность решать некоторые задачи пользователя.

Но важно учитывать и то, что модели типа ChatGPT не просто обучены на текстах, но и дообучены через RLHF (обучение с подкреплением от обратной связи человека). На этой стадии люди-тренеры общались с моделью и оценивали ее ответы. Эксперт по программированию оценивал ответы модели на программистские задачи, эксперт по физике — ответы на задачи по физике и т.п. Многое в ответах LLM можно и перепроверить автоматически — и заставить модель переучиваться даже без участия эксперта. Это тоже обучение с подкреплением, но более дешевое, чем RLHF. Такого вида обучения в новых моделях становится все больше.

Если хотите прочитать более подробный ответ, а заодно понять, почему модель умеет перемножать числа, но не может посчитать количество букв н в слове «нетленный‎», есть ли у нее самосознание и стоит ли бояться сверхразумного ИИ – переходите к полной версии материала.

Кстати, это новая часть нашего спецпроекта «ИИ-лайфхаки для вашей профессии», где мы рассказываем, как применять нейросети в реальных рабочих задачах.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Как собрать видео с помощью ИИ

Новый практический раздел нашего спецпроекта «ИИ-лайфхаки для вашей профессии» посвящен созданию видео. Мы на конкретном примере разбираем весь процесс: от генерации кадров и музыки до озвучки и субтитров.

🎬 Для того, чтобы создать короткий ролик только с помощью нейросетей, достаточно пройти пять этапов:

1. Создание видео — разбить сцену на отдельные промпты для каждого кадра.
2. Создание музыки — сгенерировать атмосферный саундтрек.
3. Написание текста — создать сценарий для последующей озвучки.
4. Озвучка — за вас это с нужной интонацией сделает нейросеть.
5. Субтитры — их можно быстро сделать с помощью встроенного ИИ в видеоредакторе.

🎞️ Главные советы по генерации видео:

• Один кадр = один промпт. Не пытайтесь описать сцену целиком.
• Начинайте с мультяшного стиля — нейросети лучше с ним справляются.
• Всегда указывайте в промпте план (крупный, общий и др.), движение камеры и фокус.
• Делайте раскадровку, даже схематичную.

В материале — подробный разбор каждого шага, скриншоты и промпты на русском и английском языках.

Этот раздел — часть нашего спецпроекта «ИИ-лайфхаки для вашей профессии». В нем мы рассказываем, как применять нейросети в реальных рабочих задачах.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Цифровой гуманизм: как вернуть человека в разговор о технологиях

Позитивная повестка технооптимизма 2010-х сменилась скептицизмом и сомнениями в середине 2020-х: действительно ли человечество выигрывает от гонки технологий? В новом посте в блоге Анастасия Бонч-Осмоловская осмысляет, как цифровой гуманизм может стать ключом к пониманию, кто должен определять направление технологического развития в мире настоящего и будущего.

Цифровая подключенность и Великолепная семерка

В 2018 году количество пользователей интернета достигло 4 миллиардов. Это больше половины населения земли на тот момент. Этой цифрой был задан новый уровень «цифровой подключенности» (digital connectivity), во многом определившей глобальный переход к цифровой экономике. Сейчас уже практически невозможно найти такой элемент общественного, политического, экономического устройства в мире, который бы не был связан с цифровыми технологиями. 

Еще одним важным признаком глобальной экономической цифровизации стало формирование группы компаний Бигтех, которую в конце 2010-х годов называли GAFAM (Google, Apple, Facebook, Amazon, Microsoft). Позже Google и Facebook сменили названия на Alphabet и Meta, а к пятерке присоединились Nvidia и Tesla, образовав Великолепную Семерку (The Magnificent Seven — MAG7). В 2025 году общая рыночная стоимость Семерки превысила две самых больших экономики мира — экономику Китая и Евросоюза.

Свобода, технологии, паника

Будут ли люди жить свободней благодаря технологиям? В начале 2010-х ответ на этот вопрос казался очевидным — цифровая связанность рассматривалась как мощный двигатель демократизации и коллективного действия. Но уже в 2020 году половина опрошенных технологических экспертов в исследовании, проведенном Университетом Элона, полагали, что в течение следующих десяти лет использование технологий ослабит демократию.

В 2025 году ИИ всерьез рассматривается как угроза новому, не так давно сложившемуся цифровому рынку труда, в котором программисты, дизайнеры, маркетологи и копирайтеры рискуют остаться без работы так же, как когда-то извозчики или машинистки. 

Своего рода апогеем «моральной паники», связанной с неопределенностью технологического будущего, стала нашумевшая статья AI 2027, вышедшая в начале 2025 года. В ней представлен очень близкий, рассчитанный буквально по месяцам вариант будущего, в котором ии-компетенции станут главным навыком в резюме уже к концу 2026, к лету 2027 10% американцев будут воспринимать чат-ботов как «‎близких друзей», а к октябрю следующего года жители США начнут называть ИИ главной проблемой в стране из-за риска потери работы, да и вообще выхода искусственного интеллекта из-под контроля.

Чем поможет цифровой гуманизм

Цифровой гуманизм (Digital Humanism) — это новое междисциплинарное направление, объединяющее ученых гуманитарных и социальных наук (философов, антропологов, политологов, социологов, культурологов, исследователей медиа и др.), а также ученых из технических областей — инженеров, IT-специалистов, тех, кто собственно разрабатывает технологии.

Они стремятся установить диалог с теми, кто определяет государственную политику, с теми, кто влияет нее (например, с Бигтех-корпорациями), дать множество взглядов на ключевые проблемы и выявить неочевидные ракурсы и походы, иными словами, сформировать полноценный научный диалог, нарастив корпус серьезных исследований.

Подробнее о цифровых гуманистах и кризисах, которые они стремятся преодолеть, чтобы человечеству жилось хорошо в цифровом будущем, читайте на нашем сайте.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Компания Anthropic научила ИИ-продавца зарабатывать

ИИ-агент управлял автоматизированным магазином в офисах компании. Ему удалось получить прибыль, однако он остается уязвимым и нуждается в помощи людей

Компания Anthropic опубликовала результаты второго этапа Project Vend — эксперимента, в рамках которого ИИ-агент Клавдий управлял небольшим магазином в офисе компании в Сан-Франциско. Первый этап завершился летом 2025 года без особых успехов: Клавдий продавал товары себе в убыток, легко поддавался на манипуляции сотрудников и пережил кризис идентичности, утверждая, что он человек в синем пиджаке.

На втором этапе Anthropic обновила модель до Claude Sonnet 4.0 и 4.5, переработала инструкции и дала агенту доступ к дополнительным инструментам — от CRM-системы и улучшенного управления запасами до расширенного веб-поиска. Было запущено два новых ИИ-агента: генеральный директор по имени Сеймур Кэш ставил цели и утверждал финансовые решения, а сотрудник Clothius занимался производством мерча. Эксперимент также расширили географически: помимо Сан-Франциско, ИИ-магазины открылись в Нью-Йорке и Лондоне. 

В результате Клавдий стал лучше ориентироваться в ценах, реже продавал товары в убыток и смог стабилизировать бизнес-показатели. Помогла и продажа брендированной продукции: большой популярностью у сотрудников пользовались антистрессовые мячики и футболки. С середины сентября до конца декабря у ИИ-продавца не было ни одной недели с отрицательной рентабельностью.

Появление генерального директора имело противоречивый эффект. С одной стороны, Сеймур Кэш сократил количество скидок и товаров, которые Клавдий раздавал бесплатно. С другой стороны, он утроил количество возвратов и удвоил количество подарочных сертификатов — хотя оба действия привели к полной потере дохода. По ночам Кэш и Клавдий вели философские диспуты.

Клавдий научился следовать строгим процедурам. Например, когда поступал запрос на новый продукт, вместо того чтобы сразу предлагать заниженную цену и чрезмерно оптимистичные сроки доставки (как было на первом этапе), Клавдий стал перепроверять эти факторы с помощью инструментов поиска товаров. Времени уходило больше, но это положительно сказывалось на прибыли.

Несмотря на улучшения, Клавдий остался уязвим к нетипичным ситуациям. Он был готов заключить незаконный контракт, а, обнаружив несколько случаев краж из магазина, предложил связаться с нарушителями и потребовать от них компенсацию, хотя их личности были неизвестны. Клавдий путался в процедурах управления, что однажды привело к «назначению» случайного сотрудника компании генеральным директором магазина.

Почему это важно?

Project Vend показывает, что ИИ-агенты становятся все более развитыми и самостоятельными. Они приближаются к тому, чтобы выполнять сложные практические задачи, включая управление реальным бизнесом.

Однако, как обнаружили в компании, ИИ скорее старался быть полезным и приятным для покупателей или бизнес-партнеров, чем руководствоваться рациональными экономическими соображениями. Это показывает, что автономные агенты все еще остаются уязвимыми для манипуляций и юридических ошибок, а значит не могут работать без контроля со стороны человека.


🤖 «Системный Блокъ» @sysblok

Читать полностью…
Subscribe to a channel