Датасет — это просто тест Роршаха (вы видите то, что хотите увидеть)

Опасность апофении в аналитике и способы ее предотвратить. Между ложью и историями, в которых фигурируют данные, очень тонкая грань.

Психологическая ловушка в аналитике данных

Мозг человека обладает удивительной способностью во всем находить паттерны… но у этих паттернов обычно мало общего с реальностью. Мы можем увидеть образ кролика в облаке или лицо Элвиса в картофельных чипсах.

Датасет — это просто тест Роршаха (вы видите то, что хотите увидеть)

Видишь кролика и профиль Элвиса?

Подумайте о тесте Роршаха — людям показывают разные кляксы и спрашивают, что они видят. Вы не поверите насколько охотно наш разум находит ложные интерпретации случайных наборов данных.

image

Летучая мышь? Бабочка? Обычная клякса? Это одна из 10 карт теста Роршаха, созданная в 1921 году.

У психологов есть красивое название этому явлению: апофения. Дайте людям хоть какой-то стимул и они найдут вам не только лица и бабочек, но и причину выделить бюджет на ваш любимый проект или запустить систему искусственного интеллекта.

image Об авторе: Кэсси Козырков — южноафриканский специалист по данным и статистике. Она основала подразделение Decision Intelligence в Google, где является главным научным сотрудником.

В большинстве наборов данных много случайной информации. Какова вероятность, что ваша аналитика не подвержена апофении? Можно ли доверять своей интерпретации данных?

Наш разум делает с данными то же самое, что и с кляксами

Чем больше способов фрагментации этих наборов данных и чем они сложнее, тем более расплывчатыми стимулами они являются. Они практически умоляют вас распознать в них ложные образы.

Сложные наборы данных практически умоляют увидеть в них то чего там на самом деле нет

Вы уверены, что ваш последний набор данных не является скрытой апофенией?

image

Есть еще одно замечательное слово — парейдолия, своего рода это тоже апофения (находить знакомые вещи в расплывчатых сенсорных стимулах). В Японии есть даже музей камней, которые выглядят как лица. Мы живем в удивительное время.

Ложь, наглая ложь и аналитика

Знаю, звучит мрачно, но я еще не закончила. Если вы проходите курсы по анализу данных, это может подлить масла в огонь. Студенты привыкли ожидать, что от каждого исследования данных нужно получить реальное значение. Каждое задание на поисковое исследование подразумевает скрытое сокровище. Только немногие профессоры решаются отправить вас в погоню за недостижимым (для вашего же блага!). Оценить задания без точного ответа сложнее, поэтому студенты обычно не особо обращают на них внимание.

Студенты привыкли, что за каждым набором данных скрывается правда.

Повествование данных это просто отход в сторону от вранья напрямую с использованием данных. Оставим в стороне вопрос о том реальны ли паттерны. Поговорим о множественных интерпретациях. Если вы видите в кляксе образ летучей мыши, это еще не значит, что там нет бабочки, костей таза или пары лис. Если бы я не упомянула лис, вы бы их увидели? Вероятно нет. Психологические механизмы, отвечающие за мотивацию и внимание, играют против вас. Чтобы перестать видеть летучую мышь и начать видеть лишь суперпозицию значений, требуется особый навык.

Как только люди цепляются за свой любимый образ, им становится сложно его развидеть

Проблема в том, что как только люди цепляются за свой любимый образ, им становится сложно развидеть его и увидеть другие образы. Люди склонны сильнее всего верить интерпретации, которая привлекла их внимание в первую очередь. Каждое новое найденное значение снижает мотивацию продолжать поиск. Жонглирование несколькими потенциальными историями без переоценки вашей любимой истории это большой, умственный труд. Увы, не каждый аналитик достаточно дисциплинирован для этого. На самом деле многие аналитики заинтересованы в том, чтобы «доказать» лишь одну сторону истории за счет исследования данных. Зачем развивать навыки, которые мешают вашему кошельку пополняться?

Какого цвета ваш световой меч?

Есть несколько способ доказать историю, используя данные — честный и доскональный. Моя статья о фрагментации данных расскажет вам об этом больше. Исследовательский анализ данных не относится к этим способам. Исследования данных, в которых не подразумевается получение реального значения, напоминают ловлю рыбы. Цвет вашего светового меча зависит от используемой наживки.

image

Если вы примкнете к темной стороне, вы будете ловить на крючок доказательство, поддерживающее вашу теорию. Вы же уже и так «знаете», что она верная (поэтому можете продать ее какой-нибудь наивной жертве). Вы можете даже не осознавать, что ваш световой меч красного цвета, если вы искренне верите в объективность данных и свою непредвзятость.

Исследования данных, в которых не подразумевается получение реального значения, напоминают ловлю рыбы.

Если у вас достаточно сложный (расплывчатый) набор данных вы найдете паттерн, который сможете подогнать под доказательство своей любимой истории. В этом вся прелесть теста Роршаха. К сожалению, с данными дело обстоит хуже, чем с кляксами. Чем более математический ваш метод, тем убедительней он звучит для тех, кто ничего в этом не смыслит.

image

Спутниковый снимок «лица на Марсе», которое многие люди воспринимают как доказательство существования пришельцев.

Те, кто отказывается принимать темную сторону, тоже рыбачат. Но они ловят нечто другое: вдохновение. Они ищут паттерны, которые могут быть интересными и убедительными, но не принимают их за доказательства, потому что умны. Вместо этого они занимаются непредвзятой аналитикой и стараются отметить у себя в голове как можно больше разных интерпретаций.

Лучшие аналитики пытаются найти как можно больше интерпретаций.

Для этого нужен зоркий глаз и скромный, непредвзятый разум. Хорошие аналитики не пытаюсь заставить заинтересованные лица увидеть только одну сторону истории. Вместо этого они мыслят творчески, чтобы превратить одни и те же данные в множество историй. Они представляют свои выводы так, чтобы вдохновить всех на последующие действия и при этом не вызвать у своего руководства желание свернуть горы из-за излишней самоуверенности.

Непредвзятость дает анализу данных шанс нести в себе какой-то смысл.

Дисциплина, выработанная для поиска нескольких интерпретаций, является секретным оружием аналитика. Она позволяет держать в поле зрения настоящие сокровища, спрятанные в данных. Если вас отвлекает ложная информация, в которую вы верите из-за предвзятости, сложно обратить внимание на доказательства, указывающие в другом направлении. Зачем вообще что-то анализировать, если выводы заранее предопределены? Непредвзятость дает шанс сделать так, чтобы все старания были не зря.

image

Этот бутерброд с сыром на гриле был продан за 28 000$ на аукционе, потому что на нем изображена Дева Мария. А вы что здесь видите?

Наймите отличного аналитика

Черты, которые вы наверняка хотите ищите в хороших аналитиках:

  • Они не делают выводов, которые выходят за пределы данных, которые они исследуют.
  • Они легко управляются с инструментами обработки данных и умеют быстро просматривать огромные массивы данных.
  • У них есть необходимые знания предметной области, поэтому они реже тратят время заинтересованных сторон на мелочи.
  • Они понимают, что их работа заключается в поиске вдохновения.
  • Они визуализируют данные удобным и понятным для мозга способом, поэтому вдохновение приходит быстро.
  • Они знают, что им нужно для тщательного отслеживания любой обнаруженной ими потенциальной информации (и к кому обращаться за помощью).

Помимо всего перечисленного эта статья предлагает вам обратить внимание еще и на эти черты:

  • Они знают, что ум находит смысл там, где его нет, поэтому стараются не поддаваться ложным интерпретациям и не спешат с выводами.
  • Они не пытаются продать вам историю с готовым решением, найденную за счет долгой возни с данными. Вместо этого они уклоняются от прямого ответа и смягчают факты, когда говорят о данных.
  • Они достаточно дисциплинированы, чтобы придумать всему множество интерпретаций. Чем быстрее они могут предоставить множество объяснений и чем больше альтернатив они генерируют, тем круче они как аналитики. Попробуйте в следующий раз проверить этот навык на собеседовании, когда будете нанимать джедая-аналитика.

Наконец, если вы руководитель, убедитесь, что вы даете своим подчиненным правильные стимулы. Вы ищете аналитика данных или манипулятора данными? У них разное мышление и навыки. Выбирайте аналитика с умом и вознаграждайте за правильное поведение.

image

Забудьте про картофельные чипсы! Этот японский музей с камнями, напоминающими лица, превзошел всех.

image

Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:


Читать еще

 

Источник

data science

Читайте также