15 апреля 1912 года потерпел крушение крупнейший пассажирский корабль первой половины ХХ века «Титаник». На его борту было 2240 пассажиров. В результате аварии с айсбергом более полутора тысяч человек погибли, и только около 700 спаслись. Историки, журналисты и аналитики всего мира до сих пор задаются вопросом: в чем причина катастрофы, кто виноват, кто смог спастись в катастрофе века, как все происходило на самом деле? Сегодня можно подключить к поиску ответа на этот исторический вопрос современный инструментарий датаналитики. Цель такого исследования – определить, какие точно факторы способствовали выживанию пассажира в той трагичной ситуации: возраст, пол, класс каюты, место посадки на лайнер?
Особенности данных о пассажирах «Титаника»
Аналитики изучили датасет о пассажирах «Титаника», который был выложен в Kaggle, международную платформу конкурсов в области Big Data и Machine Learning. В нем содержатся данные на 1309 человек. Это все, кто был на корабле и оставил документальный след об этом. Данные об остальных пассажирах со временем утерялись. И нет никакой информации о команде лайнера, ибо их просто не занесли в этот список. Однако, абсолютное большинство пассажиров описано, с сетом можно работать. Данные вносились при посадке на корабль в порту отправки, всего 3 порта: Саутгемптон (UK), Шербур (Fr), Куинстаун (Ir). А в случае их отсутствия, довносились, там где было возможно, на основе дополнительных материалов, полученных в ходе расследования катастрофы.
Списки были опубликованы в ряде крупнейших СМИ запада, и за судьбой пассажиров следили все СМИ мира, люди утром прибегали к редакциям газет, чтобы узнать новости о родственниках друзьях и знакомых, кто плыл на корабле, выяснить, кто спасся.
Обозначим некоторые термины из датасета: Survived = Выжившие (0 = Нет, 1 = Да)), Pclass = Пассажирский класс (1-й, 2-й, 3-й), Fare = Стоимость билета, Parch = Наличие родственников на борту, Age = Возраст. Имя пассажира, номер билета и ряд других переменных датасета не несут предсказательной силы. То есть ими можно пренебречь. Такой вывод можно сделать и с помощью визуализации. Например, «тепловой карты» — диаграммы, построенной на Python, и показывающей тепловыми цветами (красный — теплее, синий — холоднее) корреляцию переменных датасета. Легенда справа указывает, каким цветом выделены совпадающие поля, чем пантон ближе к темно-красному (максимальному значению), тем выше корреляция.
В результате проведения EDA (предварительного или «разведочного» анализа данных) сделан вывод о том, что приоритетными будут такие исходные переменные, как пол, возраст, место посадки на корабль, класс пассажира. Используем библиотеку Dataprep с Python под капотом, а также библиотеки визуализации Pandas, Matplotlib и Seaborn. С их помощью удалось выявить ряд интересных трендов. Так, с переменной Survived (выжившие) коррелирует переменная Embarked (место посадки) Пассажиров с Embarked = S (т.е. Саутгемптон) выжило больше. Вероятно, именно в Саутгемптоне на корабль загружалась самая богатая категория пассажиров. В Ирландии (город Queenstown, позже переименованный в Kobh – «Ков» по-русски), село больше всего бедняков. Они, вероятнее всего, поплыли на заработки в США.
Тот факт, что в Кове на борт село так много ирландских бедняков косвенно подтверждает одну из гипотез о гибели пассажиров третьего класса: многие банально могли не понять команды. Любой лингвист подтвердит, что ирландский и британский английский довольно сильно отличаются. До такой степени, что ирландцы и англичане порой не могут друг друга понять. Дело в фонетике, пропуске согласных и порядке слов в предложении. Конечно, языковой фактор вряд ли мог стать главной причиной гибели большого количества пассажиров 3 класса. Но в любом случае он не способствовал спасению людей: ирландцы плохо понимали выкрики команды «Титаника». Еще один важный момент: молодые люди, в возрасте до 32-33 лет, были во всех классах, они составляли большинство пассажиров. Вполне вероятно, что многие из них плыли в Америку, чтобы остаться там навсегда. В Ирландии тогда экономика была совсем плоха, миллионы молодых людей мечтали выбраться из страны за океан.
О чем это ещё может сказать, с точки зрения здравого смысла? Например, о том, что столь большое количество молодых людей имели отличные шансы спасти себя. Они сильнее и могли оттеснить и команду, всех более слабых, от спасительных шлюпок. Ведь в какой-то момент было ясно, что свидетелей из числа тех, кому не достанется места в шлюпке, не будет. Но они не сделали этого. И если правда, что, когда пассажиры третьего класса выбрались на палубу, то там уже не было шлюпок, то почему тогда спаслось так мало молодежи и из второго класса (см. столбчатую диаграмму №3)? Ведь они эвакуировались на верхнюю палубу в числе первых. Однако, нельзя исключать, что команда корабля насильно распределяла места в шлюпках в пользу слабых. Но выжившие не помнят такого… Думается, правда, как всегда, где-то посредине: команда руководила эвакуацией, спасая слабых, и ей никто не мешал в этом. Таким образом, на мой взгляд, может быть лишь одно логичное объяснение: не спаслись, потому что предпочли отдать свое место в шлюпках женщинам и детям. А трагическая сцена прощания Джека и Розы (он замерзает в воде, она рядом на плоту) не просто красивый романтический эпизод кинофильма «Титаник», а достаточно правдивое описание того, что происходило: мужчины погибали, спасая женщин.
Пол пассажира(ки) оказался важным фактором выживания. На гистограмме №1 верхней галереи явно отражено соотношение выживших мужчин и женщин. Из этой взаимозависимости аналитики сделали однозначный вывод о том, что именно женщины, а не богатые получили место в спасательных шлюпках в приоритетном порядке. Мужчины поступили благородно. Все они приняли катастрофу с честью. Лишь 25 % из них выжило. И чуть меньше, 24 % выживших из числа членов команды. Были спасены 75 % женщин и 52 % детей. Процент детей меньше потому что некоторые дети умерли по дороге домой на борту «Карпатии», от осложнений, вызванных сильной простудой.
Мужчины поступили благородно. Все они приняли катастрофу с честью. Лишь 25 % из них выжило. И чуть меньше, 24 % выживших из числа членов команды. Были спасены 75 % женщин и 52 % детей. Процент детей меньше потому что некоторые дети умерли по дороге домой на борту «Карпатии», от осложнений, вызванных сильной простудой.
Деньги решили кому жить, а кому умирать?
Многие уверены, что большинство погибших пассажирами третьего класса. Анализ данных лишь отчасти подтвердил эту гипотезу. Наименьшее число смертей, соответственно, наибольшее количество выживших наблюдается в первом классе. Таким образом, самая многочисленная часть погибших – это мужчины из третьего класса. Те самые Джеки и Фабрицио, которых мы теперь, наверно, навсегда будем ассоциировать с обликом Дикаприо и его коллеги по Голливуду Дэнни Нуччи.
Однако сравнение тарифа на билет и возраста. Быть может, в первом классе плыли в основном богатые старики? Мы же видели в фильме Камерона этих богатых мужчин во фраках и женщин в мехах, которых сажали в шлюпки в первую очередь. На самом деле, как отражено на точечной диаграмме ниже, количество дорогих билетов распределено равномерно, и в основном в молодом и среднем возрасте. В Америку плыла молодежь. И бедная, и состоятельная. Все с одной целью — присмотреться к новой стране. Сегрегация по финансовому признаку при осуществлении экипажем «Титаника» операции спасения… Эти обвинения звучали довольно часто и даже привели к уголовному преследованию команды «Титаника». Но люди многое додумали. Достаточно вспомнить эпизод фильма Камерона с закрытыми воротами для обитателей трюмных кабин III класса: люди ломились наверх, к шлюпкам. А злые богачи и их наймиты из команды корабля им этого не дали сделать. Однако, к этой версии событий есть серьезные вопросы. Во-первых, почему соотношение погибших-выживших во втором классе и первом классе примерно одинаковое? (см. Галерею — график № 3). Свидетельства выживших очевидцев также говорят о том, что таких откровенно преступных вещей, как перекрытий коридоров тонущего корабля, не было на самом деле.
Тогда в чем же дело? А дело в том, что количество шлюпок было банально недостаточным для 2 тысяч с лишним человек. Никому и в голову не могло прийти, что столь продвинутый лайнер-гигант повредит себе сразу пять отсеков одновременно, пройдя боком по острому краю айсберга. Что айсберг методично, отсек за отсеком, оторвёт листы обшивки. Что заполнятся водой ни один, ни два (как это могло бы быть в случае удара в одну точку), а сразу пять герметичных отсеков, снабжённых стальными задвижками от пола до потолка, которые перекрывают доступ воды из пробитого места в другие части трюма.
Таймлайн катастрофы: времени было много, а шлюпок мало.
Итак, на спасательные шлюпки посадили всех женщин и детей, затем всех пожилых пассажиров из первого и второго классов. Остальным мест просто не хватило, и они остались на тонущем лайнере ждать, чем все это кончится…Корабль тонул 2 часа 40 минут. И вряд ли кто-либо смог бы сдержать столь долго в коридорах трюма тысячную толпу молодых мужчин из 3 класса.
На графике-таймлайне видно, что после столкновения с айсбергом до начала физической эвакуации, то есть непосредственно посадок в шлюпки и спуска их на воду почти час прошел. Это т.н. «подготовительное время», а тянулось оно так долго, потому, что команда до последнего надеялась, что все обойдется, и подойдет спасение.
И, пожалуй, не будет ошибкой сказать, что все это время оставшиеся на тонущем «Титанике» надеялись сначала на то, что он не утонет; затем на то, что приплывет помощь, ну а в конце…на то, что они продержатся в воде при температуре воды в минус 2 градуса по Цельсию, которая была в этой части Атлантики на тот момент. Воистину, надежда умирает последней….Выжившие говорили потом, что никогда не забудут крики «Господи, почему я?!», стоявшие над водой.
Конструкция лайнера, финансовая модель, недостаточная подготовка — виновники в смерти более 1500 человек
Все люди на «Титанике» вели себя благородно и достойно смотрели в лицо смерти. Большинство погибших — молодые мужчины. Причем из разных классов. Да, более всего из третьего класса, но и людей там плыло больше всего. Мужчины не бились за место в шлюпке, а дали шанс сесть в них первыми женщинам, детям и старикам. Также становится ясно, что никто специально не «топил» пассажиров 3 класса. Однако, изначально конструкция огромного корабля, спасательные устройства (а главное их количество) и несовершенные правила, отсутствие в команде людей, говорящих на разных языках (в то время как плыло много иностранцев) и ряд других факторов обрекали пассажиров на смерть в случае катастрофы. Каюты третьего класса были расположены в трюме, а путь к спасительной верхней палубе лежал для большинства бедных пассажиров через сложную систему узких коридоров и лестниц. А первый класс мог подняться на палубу по парадной лестнице и даже на 2 лифтах. И да, как и сегодня: «…Первыми покидают лайнер пассажиры первого класса, за ними бизнес, а потом эконом…» Ничего принципиально не поменялось с того времени.