Большие данные давно используются банками и фармацевтическими корпорациями, транспортными компаниями и урбанистами, генетиками и биологами, но в гуманитарных науках к ним прибегают значительно реже. Между тем с их помощью можно ответить на вопросы, мучившие исследователей не один десяток лет, и такие опыты уже есть. Ульяна Волохова выяснила, что нового удалось узнать о культуре благодаря большим данным и как это может повлиять на нашу жизнь
3 октября 1849 года случайный прохожий нашел Эдгара Аллана По без сознания на одной из скамеек Балтимора (по другой версии, его нашли в таверне). Писателя доставили в больницу, где он умер рано утром 7 октября, так и не придя в сознание. Что именно произошло с По, доподлинно не известно: современники и историки выдвигали немало версий, включая сердечную недостаточность, опухоль мозга, менингит, эпилепсию, убийство, отравление алкоголем и белую горячку, гипогликемию, бешенство от укуса бродячей собаки и даже холеру. Но самое популярное предположение состояло в то, что Эдгар По покончил с собой. Считается, что в течение жизни он неоднократно испытывал тяжелую депрессию, а за год до смерти чуть не погиб от передозировки опиумной настойкой, которой снимал симптомы болезни. Была ли передозировка умышленной или случайной, неизвестно, однако тот случай дал современникам, а позже исследователям основания полагать, что у По были суицидальные наклонности и что осенью 1849 года, поддавшись им, он или отравился каким-то веществом, которое не смогла обнаружить в его организме медицина XIX века, или целенаправленно довел себя до смерти саморазрушительным поведением.
Загадка гибели Эдгара По привлекла внимание психологов Райана Бойда (Ланкастерский университет) и Ханны Дин (Техасский университет). Они посчитали, что жизненный и творческий путь писателя делают его идеальным кандидатом для исследования языковых маркеров депрессии и суицидальных мыслей. С помощью компьютерного анализа было обработано почти все письменное наследие Эдгара По. Специально разработанный алгоритм должен был искать и анализировать в текстах количество негативно и позитивно окрашенных слов, частотность употребления местоимений «я» и «мы», интенсивность использования глаголов, обозначающих когнитивные действия,— похожая система анализа применяется в психиатрии при сборе анамнеза. Результаты анализа текстов позволили Бойду и Дин сделать вывод, что суицидальные мысли свойственны писателю не были, а вот эпизоды депрессии действительно случались довольно часто. Самые тяжелые из них относились к 1840-м годам, когда По написал свои главные произведения: «Золотой жук», «Убийство на улице Морг», «Тайна Мари Роже» и «Ворон». Возможно, депрессию усиливал тот факт, что литературный успех никак не улучшил его материального положения. Алгоритмы, подобные разработанному Бойдом и Дин, позволяющие анализировать письменную речь на предмет признаков депрессии, могут облегчить врачам диагностику, сделав возможным анализ состояния пациента по содержанию его переписки в социальных сетях.
421 текст Эдгара По был проанализирован алгоритмом. Среди них было 309 писем, 49 стихотворений и 63 рассказа
20 текстов Эдгара По показали чрезвычайно высокий уровень депрессии. В основном это письма, в которых он рассказывал близким о своих переживаниях. Из художественных текстов депрессия такого уровня обнаружилась лишь в рассказе «Маяк» — его последнем произведении
Как выглядели картины Ван Гога при его жизни и при чем тут архитектурные памятники
Насыщенности цветов на картинах Винсента Ван Гога посвящено немало работ. Некоторые исследователи даже считают, что именно яркие краски стали причиной тяжелых головных болей и судорог, мучивших художника перед смертью: для приготовления красок использовали токсичные медь, мышьяк, ртуть и свинец, и насыщенность цвета напрямую зависела от их количества. В переписке с братом, который снабжал его материалами для работы, Ван Гог связывал яркость своей палитры с непостоянством новых пигментов и красок: «Все краски, которые ввел в обиход импрессионизм, изменчивы — лишнее основание не бояться класть их смело и резко; время их сильно смягчит». Ван Гог оказался прав: по мнению исследователей, при жизни художника цвета на его картинах были гораздо насыщеннее, а до нас они дошли в сильно искаженном виде.
Для того чтобы доказать это, команда ученых и исследователей из Музея Ван Гога, Тилбургского университета, Технологического университета Делфта и компании AkzoNobel (голландский производитель красок, которому принадлежит, к примеру, бренд Dulux) решила визуализировать разницу на примере картины «Вид на Арль с ирисами». Для реконструкции был произведен анализ всех использованных для создания картины красителей, рассчитаны остатки лакового покрытия и степень искажения лаком цветопередачи, а также произведена гиперспектральная съемка полотна, позволившая разложить картину на пиксели. На следующем этапе были помечены участки, где использован только один пигмент. В этих случаях алгоритм на основе химического анализа мог сразу присвоить пикселю цвет: белый для цинка, прусский голубой для железа и т.д. В тех случаях, когда встречался, например, свинец, который использовали для приготовления нескольких пигментов, производился дополнительный микроскопический анализ для установки точного цвета. Затем полученная пиксельная карта пигментов была превращена в цифровую репродукцию картины с восстановленным цветом — он действительно оказался ярче и насыщеннее, чем на оригинале. Теперь искусствоведы проводят такую же работу с картиной Рембрандта «Ночной дозор», чтобы понять, насколько в действительности потемнели ее краски и как картина выглядела почти четыре века назад.
Этические правила реставрации картин не позволяют наносить радикальные изменения на сами полотна, поэтому их цветовая реставрация возможна лишь в цифровом виде: каким бы ни оказался «Ночной дозор» в реконструкции, в музее останется висеть привычный темный вариант. Зато эта методика успешно применяется при реставрации архитектурных памятников: именно этот алгоритм подбирал цвета при недавней реконструкции росписи в Рейксмюсеуме, которую в начале XX века просто покрыли побелкой.
1,7 млн пикселей проанализировал алгоритм при реконструкции «Вида на Арль с ирисами»
4 года шла работа над восстановлением цветовой палитры картины
Как разоблачить заговорщиков спустя 400 лет и зачем это спецслужбам
В 1591 году галеон английского королевского флота взял на абордаж голландский корабль, следовавший в Англию с католическим священником на борту. Священник Джон Сноуден был немедленно арестован и под конвоем доставлен в Лондон к главе правительства Елизаветы I лорду Бёрли. Протестантское правительство после восстания католической знати и раскрытия нескольких заговоров против королевы небезосновательно видело в католиках врагов и предпочитало не церемониться с католическими священнослужителями: только в 1590 году на территории Англии казнили 53 священников. Во время допроса Сноудена, однако, стало ясно, что в Англию он возвращался не только по делам церкви. Бежав в Европу от религиозного притеснения, Джон Сноуден (на самом деле его звали Джон Сесил) сблизился там с кругом бывших соотечественников, планировавших при поддержке короля Испании устранить Елизавету I и возвести на престол монарха-католика. Сноуден должен был стать одним из агентов заговорщиков в Англии. Разоблачение шпионских намерений спасло Сноудена: он предложил лорду Бёрли использовать себя в качестве двойного агента и уже через несколько месяцев отправился обратно в Европу следить за заговорщиками и докладывать об их деятельности в Англию.
В 2019 году исследователи из Лондонского и Кембриджского университетов Рут и Себастьян Анерт решили использовать переписку Сноудена как статистическую модель для выявления паттернов и аномалий, указывающих на то, что человек ведет шпионскую деятельность или готовит заговор. Сами тексты писем в построении модели никак не участвовали — были важны только имя отправителя, имя получателя, дата и адрес составления письма. Всю переписку между Сноуденом и его корреспондентами алгоритм обработал с помощью теории граф, преобразовав массив данных в своего рода социальную сеть, которая показывала, какие лица были связаны между собой перепиской, насколько это переписка была интенсивной, а связи продолжительными. Результат показал, что Сноуден входил в группу, переписка которой обладала характерными особенностями: каждый ее член, имея небольшое количество непосредственных корреспондентов, оказывался посредником и связывал между собой большое количество людей.
Подобный алгоритм позволяет выявлять не только заговорщиков, но и другие группы: дипломатов, правителей, людей, находящихся под наблюдением, и т.д. Обученная алгоритму нейросеть найдет в большом количестве данных характерные для группы шаблоны поведения. По крайней мере, это получилось сделать на материале архива бумаг главного королевского секретаря Тюдоров. В нем содержатся десятки тысяч писем, которыми обменивались более 20 тыс. человек. Во всем этом массиве информации алгоритму удалось вычислить людей, за которыми следило правительство. Рут и Себастьян Анерт отмечают, что это исследование показывает не только возможности анализа данных в исторических архивах, но и наглядно демонстрирует, какими инструментами обладают спецслужбы: для того чтобы выявить подозрительное или нежелательное поведение граждан, им совершенно необязательно читать их сообщения, достаточно собирать данные об активности в сети и обрабатывать их с помощью алгоритмов.
15 англичан живших в 1590-х годах за пределами Англии, были отнесены алгоритмом к числу потенциальных заговорщиков. При ручной проверке этих данных исследователи установили, что 13 из них действительно хотели свергнуть Елизавету I
132 747 писем из архива главного королевского секретаря Тюдоров было обработано алгоритмом. 16 лет понадобилось бы одному ученому, чтобы прочитать все эти письма
Кто из битлов написал музыку для «In My Life» и как это поможет защитить авторское право
Пол Маккартни и Джон Леннон вместе написали в общей сложности около 180 песен, большая часть из них подписана «Леннон — Маккартни». О том, кто из двоих в какую песню внес больший вклад, музыканты почти никогда не спорили, но могли в интервью рассказать, кому именно принадлежит музыка или слова в конкретном случае. Исключением стала песня «In My Life», эксклюзивное авторство которой оказалось для Леннона принципиальным. В том, что слова песни, в которой лирический герой размышлял о прошлом и случившихся в нем потерях, принадлежат Леннону, сходились оба участника авторского дуэта, но о том, кому принадлежит музыка, договориться не смогли. В 1976 году в интервью Полу Гамбаччини для книги «Пол Маккартни его собственными словами» Маккартни заявил, что очень гордится песней «In My Life», которую от начала до конца самостоятельно положил на музыку под впечатлением от работ американской группы The Miracles. В 1980-м в интервью Playboy Джон Леннон поправил бывшего коллегу — музыка и слова принадлежат ему, Маккартни всего лишь написал аккордовую последовательность для проигрыша песни. Снова к вопросу об авторстве музыки к «In My Life» Маккартни вернулся в 1984 году, уже после гибели Леннона, заявив в интервью тому же Playboy: «Джон, вероятно, забыл либо никогда не думал о том, что музыку написал я».
Последнее слово в споре могло бы так и остаться за Маккартни, но преподаватель статистики из Гарварда Марк Гликман и математик из Университета Далхаузи Джейсон Браун смогли с помощью анализа данных установить авторство не только песни «In My Life», но и других работ дуэта «Леннон — Маккартни». Для этого искусственному интеллекту написали алгоритм, с помощью которого он вычленил из песен (часть из них была написана только Маккартни, часть только Ленноном и еще часть считалась их коллективной работой) мельчайшие элементы, такие как аккордовые и мелодические последовательности, переходы, интервалы между нотами, смещение звукоряда и т.д. Какие-то из них встречались в основном в музыке Леннона, а какие-то — Маккартни. В музыке к песне «In My Life» искусственный интеллект нашел менее 2% компонентов, свойственных музыке Маккартни, зато в блюзовом проигрыше к песне таких компонентов было больше 50%. Также по результатам исследования можно с уверенностью сказать, что музыку к песням «Ask Me Why» и «Do You Want To Know A Secret» тоже написал Леннон, а традиционно приписываемую ему композицию для песни «The Word», напротив, сочинил Маккартни.
Разработки на основе эксперимента Гликмана и Брауна могут сильно облегчить споры об авторстве — с помощью таких алгоритмов можно анализировать большие объемы музыкальных произведений и создавать из типичных для композиторов музыкальных компонентов своего рода музыкальные подписи, по которым будет легко определить автора мелодии.
70 песен за подписью «Леннон — Маккартни» анализировал алгоритм
149 особенностей, типичных для творчества либо Леннона, либо для Маккартни, выявил алгоритм в песнях
Почему пьесы Мольера написал Мольер и как это меняет отношение к текстовому анализу
Мольеровский вопрос появился в литературоведении относительно недавно — в 1919 году писатель Пьер Луис высказал сомнения в том, что сын простого обойщика (пускай и получивший хорошее образование), который провел большую часть жизни в гастролях в качестве актера бродячего театра, вдруг в 40 лет начал заниматься драматургией, оставил наследие из 33 пьес (еще восемь не дошли до наших дней) и при этом не сохранилось ни одного клочка бумаги с каким-либо его рукописным текстом. Луис предположил тогда, что Мольер работал в паре с великим драматургом Пьером Корнелем: Корнель писал пьесы, а подписывал их именем Мольера — тот был очень известным актером и его имя привлекало внимание. Результаты поверхностной стилометрии отчасти подтвердили эту теорию — корпус слов, используемый в пьесах за подписью Мольера, оказался похож на используемый Корнелем.
Исследователи из университета Paris Sciences et Lettres Флориан Кафьеро и Жан-Батист Камс решили перепроверить эту гипотезу, используя радикально новую технологию. Они собрали тексты Мольера, Корнеля и их 10 современников и пропустили через статистический алгоритм, который выявлял частотность употребления не только самостоятельных слов, но и служебных частей речи — предлогов, артиклей, союзов. Именно они лучше всего иллюстрируют то, как строит свою письменную речь автор, и показывают ее закономерности и паттерны. Также были подсчитаны и выделены грамматические структуры, которыми авторы пользовались для рифмовки слова, словообразующие элементы (суффиксы, префиксы и т.д.) и принципы и последовательность употребления определенных частей речи. Каждую пьесу сравнивали как со всеми пьесами в исследуемом корпусе, так и с другими представителями своей жанровой группы (в случае Мольера — с комедиями). Полученные данные показали, что весь корпус приписываемых Мольеру пьес написал один человек, и он совершенно точно не был Корнелем или кем-то из 10 других анализируемых авторов — изученный на таком детальном уровне язык пьес Мольера оказался отличным от языка его коллег.
Система, примененная Кафьеро и Камсом, хоть и требует проверки и доработки, вскрывает проблемы ранее применяемых для установления авторства текстов алгоритмов стилометрии. Прежде на компьютерную стилометрию автоматически переносили принципы ручной стилометрии, в основе которой лежало выявление в тексте более или менее крупных элементов языка. Этим во многом объяснялись результаты предыдущего стилометрического анализа: изучая пьесы Корнеля и Мольера, ученые считали в них частотность употребления слов, но не учли, что общность используемого словаря в значительной степени объяснялась тем, что оба автора жили в одну эпоху и работали в одном жанре,— те же слова были свойственны и другим авторам комедий, а также просто употреблялись в разговорном языке. Изучение текста на уровне служебных слов в гораздо большей степени позволяет определить индивидуальный стиль автора.
71 пьесу Мольера, Корнеля и их современников проанализировали Флориан Кафьеро и Жан-Батист Камс
5000 слов — такой минимум лексических единиц должен содержаться в каждой пьесе, чтобы анализ был максимально корректным
Почему Толкин был прав насчет «Беовульфа» и как это поможет бороться с троллями
Самый знаменитый памятник английской литературы — эпос «Беовульф» — был опубликован в 1815 году. Романтики пропагандировали народное творчество, и поэма об отважном воине, побеждающем чудовищ и драконов, долгое время считалась произведением коллективного творчества средневековых сказителей. В пользу этой версии говорило несколько обстоятельств. Во-первых, единственная сохранившаяся рукопись поэмы была составлена двумя писцами, которые вполне могли быть не переписчиками текста, а его авторами. Во-вторых, в тексте, по большей части языческом, встречались христианские элементы, а некоторые сюжетные линии поэмы были никак не связаны с подвигами Беовульфа — то есть, возможно, писцы или какой-то средневековый редактор обработали сразу несколько не связанных между собой языческих сказаний и свели их в один текст, добавив от себя немного христианской культуры. Первым теорию о том, что у «Беовульфа» был один автор, выдвинул Джон Р.Р. Толкин в лекции 1936 года «"Беовульф": чудовища и критики», в которой утверждал, что в поэме присутствует целостный образ автора и этот автор — христианин, использующий традиционные приемы народной англосаксонской поэзии для создания литературных образов.
В 2019 году Мэдисон Кригер из Гарвардского университета и Джозеф Декстер из Университета штата Техас доказали, что Толкин, вероятно, был прав. Для этого они использовали метод компьютерной стилометрии. Алгоритм искал в тексте «Беовульфа» мельчайшие повторяющиеся закономерности: частоту употребления комбинаций определенных звуков, количество кеннингов (специфические для скальдической и англосаксонской литературы поэтические метафоры, к числу которых относится и само слово «Беовульф», которое переводится как «волк пчел», то есть «медведь»), частотность смысловых пауз и соотношение разных видов ударений в полустроках. Результаты исследования показали, что текст «Беовульфа» однороден — различий между основным повествованием и вставными линиями нет ни на лексическом, ни на фонетическом, ни на строфическом, ни на метрическом уровнях, так же как их нет и между первой частью, переписанной одним писцом, и второй, которую переписывал другой писец. Подобные результаты были получены и в контрольном эксперименте, в котором анализировались стихи англосаксонского поэта Кюневульфа и неатрибутированные средневековые тексты,— индивидуальные особенности были одинаковы для всех текстов Кюневульфа, но различались для текстов без установленных авторов.
Такой способ анализа текстов может помочь не только в вопросах авторства древних текстов или в судебных спорах об авторском праве, но и для выявления кампаний политической или социальной направленности. Благодаря такому анализу можно без труда вычислить, что фейковые новости, провокационные комментарии или посты в соцсетях созданы фермой троллей, за которыми стоит один человек.
3182 строки содержит поэма «Беовульф». Исследователи делят ее на две части — до 2300 строки и после нее,— именно с этой строки в источнике поэмы поменялся писец
5 видов ударений в полустроках «Беовульфа» выявил алгоритм, все они распределены по тексту равномерно, без каких-либо значимых колебаний между частями поэмы
Почему левые победили в борьбе за французскую конституцию и что это значит
20 июня 1789-го депутаты третьего сословия Генеральных штатов Франции впервые выступили против короля. Не получив доступа в зал для заседаний из-за объявленного траура по малолетнему сыну Людовика XVI, они заняли соседнее помещение — зал для игры в мяч. Там они торжественно поклялись, что продолжат собираться, пока Франция не получит конституцию, какие бы препятствия ни чинила им знать. Они действительно продолжали собираться, что поставило короля в сложное положение: чтобы не потерять лицо, он вынужден был настоять на том, чтобы к собраниям третьего сословия присоединились духовенство и дворяне, а также признал в нем законодательный орган — Национальную конституционную ассамблею, работающую над созданием Основного закона страны. Еще через месяц, после взятия Бастилии 14 июля, ассамблея фактически стала управлять охваченной революцией страной до тех пор, пока в 1791 году не была создана конституция, закрепившая основные права и свободы человека и ставшая моделью для современных парламентских республик.
Политологи и историки уже два с лишним века изучают работу ассамблеи и пытаются выяснить, как более 1000 депутатов за два года смогли создать абсолютно новый тип управления и новый политический язык. Исследователи из Университета Индианы, Александр Т. Дж. Баррон, Дженни Хуанг, Ребекка Спэнг, и Саймон Дедео из Университета Карнеги решили исследовать этот вопрос с помощью анализа огромного корпуса сохранившихся стенограмм речей и выступлений с заседаний. Для этого они применили к текстам алгоритм тематического моделирования: программа выделяла в речах темы и наблюдала за их дальнейшим развитием и влиянием на общую риторику ассамблеи. В ходе работы сначала было выделено два статистических показателя: новизна (насколько речь неожиданна с точки зрения уже сказанного в ассамблее) и долговечность (насколько темы речи повлияли на последующие речи). Эти данные предсказуемо показали, что высоким уровнем новизны обладали депутаты левого крыла: у них было много новых идей, которые они бесконечно озвучивали, но большая их часть тут же забывалась. У монархистов-консерваторов было другое преимущество — пользуясь старым языком и старыми идеями, они гарантировали своим тезисам повторяемость в следующих речах, то есть высокую долговечность. После этого в отдельную группу были выделены те речи, которые сочетали в себе высокий уровень новизны и долговечности, то есть обладали резонансом. Высокий уровень резонанса был одинаково свойствен как левым депутатам, так и правым, но левым помогало то, что уровень новизны в их резонансных речах был выше, чем у консерваторов (ассамблее было интереснее обсуждать новые речи Робеспьера, чем очередную монархическую речь кардинала Мори). Еще более продуктивными оказались различные комитеты в составе ассамблеи. Сформированные из небольшого количества депутатов для решения конкретных вопросов, они оказались хорошей площадкой для нехаризматичных ораторов: с трудом удерживающие внимание толпы, в комитетах они могли донести свои идеи до узкого круга людей и, убедив их, представить свои рекомендации для всего собрания. По мнению авторов исследования, этот анализ позволяет не только понять, насколько весом человеческий фактор в политической борьбе, но и выяснить, кто из современных политиков является консерватором или новатором вне зависимости от партийной принадлежности.
40 000 речей и выступлений депутатов Национальной конституционной ассамблеи анализировал алгоритм
2-е место занимает Максимилиан Робеспьер в рейтинге самых резонансных ораторов ассамблеи, на первом месте оказался его соратник Жером Петион де Вильнёв