Или как мы провели эксперимент, где заставили людей читать и испытывать от этого боль, чтобы доказать, что наша интуиция не врет.
Условия банковских продуктов сложные: много цифр, формул, длинные тексты под звёздочкой, которые требуют времени и усилий, чтобы вникнуть в суть. Команда продукта не может сократить информацию, зато может напрямую влиять на её подачу, например, добавить калькулятор, дашборд или таблицу.
Интуитивно мы понимаем, что «простыня» читается сложнее, чем текст с подзаголовками, буллетами и схемами. Но интуиция — это не аргумент для команд, нужны пруфы. Поэтому мы, исследователи Alfa Research Center, задались вопросом: «Как доказать, что форматированный текст читается легче “простыни”, или (по-научному) вызывает меньшую когнитивную нагрузку?».
Так и сделали. Об этом и расскажем.
Об авторах. Павел Долгов, Евгения Слободкина, Екатерина Понкратьева, Алтана Кашкалдыкова и Никита Савченко. Мы — исследователи из Alfa Research Center (про нашу лабораторию подробнее). Помогаем продуктовым командам делать сервисы для клиентов и сотрудников банка.
Что такое когнитивная нагрузка
Прикладываем длинный список литературы с комментариями под спойлером, который мы изучили перед нашим исследованием. Дальше будет вольное и упрощённое описание.
Литература о когнитивной нагрузке:
JSweller, J. (2011). Cognitive load theory. In Psychology of learning and motivation (Vol. 55, pp. 37-76). Academic Press – полное и очень ёмкое описание теории когнитивной нагрузки. Про эволюционное происхождение, разные виды и механизмы работы когнитивной нагрузки.
Hart, S. G. (2006, October). NASA-task load index (NASA-TLX); 20 years later. In Proceedings of the human factors and ergonomics society annual meeting (Vol. 50, No. 9, pp. 904-908). Sage CA: Los Angeles, CA: Sage publications – всё про NASA-TLX и его метаморфозы со временем.
Di Stasi, L. L., Renner, R., Staehr, P., Helmert, J. R., Velichkovsky, B. M., Cañas, J. J., … & Pannasch, S. (2010). Saccadic peak velocity sensitivity to variations in mental workload. Aviation, space, and environmental medicine, 81(4), 413-417. – про саккады и их взаимосвязь с когнитивной нагрузкой.
DeLeeuw, K. E., & Mayer, R. E. (2008). A comparison of three measures of cognitive load: Evidence for separable measures of intrinsic, extraneous, and germane load. Journal of educational psychology, 100(1), 223. – хорошая статья про то, как можно измерить влияние подачи материала на когнитивную нагрузку. Здесь мы вдохновлялись методологией.
Ayres, P., Lee, J. Y., Paas, F., & van Merriënboer, J. J. (2021). The validity of physiological measures to identify differences in intrinsic cognitive load. Frontiers in Psychology, 12. – отличный обзор физиологических метрик когнитивной нагрузки.
Мозг — это естественная система обработки информации. Он принимает сигналы из окружающего мира через зрение, слух, обоняние, осязание и помещает в хранилище — краткосрочную память.
За раз мы можем держать в краткосрочной памяти 7 (плюс-минус 2) «кусочка информации». Это могут быть как единичные символы (цифры номера телефона или банковской карты), так и более весомые информационные блоки (рассказ друга о вчерашней вечеринке, принцип работы факторинга, глава из «Гарри Поттера»).
От типа информации зависит, сколько фрагментов обработает краткосрочная память. Здесь вступает в игру когнитивная нагрузка. Материал, который сложно подан, вызовет высокую когнитивную нагрузку, будет тяжело осмысляться и может вызвать отторжение.
Например, пользователь хочет открыть расчетный счет в юанях: заходит в приложение, изучает тарифы, но ничего не понимает, потом изучает прикреплённый pdf, запутывается окончательно и в итоге откладывает телефон. В процессе он сидел над приложением наморщив лоб, и всеми силами пытался усвоить информацию, испытывая высокую когнитивную нагрузку от интерфейса.
Когнитивная нагрузка, кроме высокой и низкой, бывает ещё нескольких типов: внутренняя, внешняя и уместная. Мы рассмотрим внутреннюю и внешнюю, как самые актуальные для нашего исследования.
Внутренняя когнитивная нагрузка — это про сложность материала. Например, статья «Как варить гречку» несёт низкую внутреннюю когнитивную нагрузку. А вот описания аккредитивов и банковских гарантий создают высокую когнитивную нагрузку для новичка.
Внешняя когнитивная нагрузка связана не с содержанием, а с подачей. Ту же статью про гречку можно написать сложносочинёнными предложениями, запутать инструкцию так, что будет непонятно, сколько лить воды и когда добавлять соль.
Внешнюю когнитивную нагрузку продуктовые команды могут снизить: упростить/улучшить интерфейс или переработать длинный текст, сделав его читабельнее. Но, чтобы уменьшить когнитивную нагрузку, надо её измерить.
Как измерять когнитивную нагрузку
Физиологический метод
Мы можем отследить реакции тела: амплитуду, частоту дыхания, электрические импульсы на поверхности головы, кровяное давление, респираторные, кожные, глазные показатели.
Метод |
Что измеряем |
Электроэнцефалограмма (ЭЭГ) |
Импульсы на голове |
Кожно-гальваническая реакция |
Проводимость тока между пальцами |
Электрокардиограмма |
Сердцебиение |
Измерение дыхания |
Амплитуда и скорость дыхания |
Плюсы: данные надёжны и достоверны.
Минусы: затратно, замеры дольше, чем в других методах, нужно сложное оборудование.
Поведенческий метод
Измеряет внешние реакции. Например, прибор Eye Tracker отслеживает движение взгляда на экране монитора, поведение зрачков и частоту морганий.
Плюс: всё ещё надежно и достоверно.
Минус: нужно оборудование, квалифицированные сотрудники и респонденты без дефектов зрения.
Субъективный метод
Это оценка нагрузки через опросник. Мы остановились на NASA-TLX – короткой анкете, которая зарекомендовала себя в мировой практике. В оригинальной методике респондент попарно взвешивает все пункты на предмет важности — это долго и непонятно. Но плюс в том, что учёные облегчили нам работу и придумали облегчённую вариацию RAW TLX, где избавились от взвешивания и считают только среднее по всем пунктам.
Плюс: легко запустить.
Минус: субъективно — респондент может пропустить вопросы, ответить неточно или солгать, что сложно отследить, в отличие от телесных реакций в физическом и поведенческом подходах.
Как в мире исследуют когнитивную нагрузку
Психологи на экспериментах изучали, как эмоции влияют на когнитивную нагрузку. Схема обычно такая:
-
вызываем эмоцию, показав грустную картинку или включив Evanescence;
-
даём задание;
-
регистрируем скорость и успешность выполнения;
-
отмечаем настроение.
Психологи доказали, что эмоциональное состояние определяет, на какую информацию человек обращает внимание в первую очередь — на частную или глобальную. Например, более «грустные» респонденты быстрее замечали маленькие буквы и наоборот.
Изучив эксперименты мы заключили, что:
-
Эмоции влияют на мышление.
-
Учёные исследуют восприятие простых стимулов.
-
Мы нашли исследования с диспетчерами атомных станций, авиадиспетчерами, операторами аварийных служб, а в финтехе когнитивная нагрузка почти не изучалась.
Гипотеза о когнитивной нагрузке и интерфейсах
Наша первая гипотеза звучала так:
Когнитивная нагрузка выше при чтении неструктурированного текста. Если дать пользователю «простыню» текста, ему будет физически неприятно, и он закроет страницу.
Дизайн исследования
Мы сверстали две версии одного текста об условиях кредитования. Слева «простыня», справа тот же текст, но отформатированный.
Мы позвали 60 респондентов: 30 юношей и 30 девушек (изначально их было больше — 74, но по некоторым причинам часть отсеяли). Никто из них не брал кредит, у всех хорошее зрение — это нужно для корректных замеров Eye Tracker.
Дальше мы разбили гипотезу на частные:
|
Сложность чтения |
Оценка респондентов |
Запоминание информации |
Эмоции |
Сплошной текст |
Выше |
Сложно |
Меньше |
Негатив |
Форматированный текст |
Ниже |
Просто |
Больше |
Нет негатива |
Каждый респондент видел только один вариант текста. Здесь формат текста — независимая переменная, уровень когнитивной нагрузки — зависимая переменная.
Как мы замеряли когнитивную нагрузку интерфейса
Мы поочерёдно сажали респондентов перед монитором в нашем офисе. Они читали текст кредитного договора и сразу отвечали на вопросы.
Также мы считывали эмоциональный отклик с лица респондента с помощью прибора Sense Machine. Наша нейросеть по мимике различает 7 состояний: отрицание, гнев, торг, радость, злость, грусть, страх, отвращение, удивление и нейтральное состояние.
После чтения кредитного договора респонденты оценивали сложность текста, физические и умственные усилия на понимание.
Затем респонденты проходили пост-тест с вопросами в стиле: «Какой максимальный кредит можно взять?».
Финальный тест — математический: умножить 344. Мы предполагали, что умножение в уме точно вызовет когнитивную нагрузку, поэтому мимику в момент расчёта мы использовали как эталон, и сравнили с эмоциями при чтении текста.
Как работать с данными исследования
После замеров мы выгрузили данные Eye Tracker и почистили данные от артефактов и задвоений по респонденту. Собрали ответы на тест и исключили читеров, которые решали на калькуляторе или подглядывали в текст, отвечая на вопросы.
Очищенные данные проанализировали:
-
Изучили распределение метрик.
-
Рассчитали индекс когнитивной нагрузки RAW TLX: взяли среднее арифметическое между ответами на каждый пункт и провалидировали по коэффициенту Альфа Кронбаха. Это показатель, насколько разные вопросы внутренне согласованы. Мы получили α=0.82, что очень неплохо: α>0.8 – высокая внутренняя валидность индекса.
-
Посчитали правильные ответы на пост-тест по среднему арифметическому.
-
Сравнили метрики по U-критерию Манна–Уитни и доверительному интервалу 90%. У нас была скромная выборка по меркам количественных исследований и ненормальное распределение, а Манн-Уитни идеален в этих условиях. В идеале нужно взять интервал 95%, но мы чуть-чуть расширили пространство для манёвра.
Какую когнитивную нагрузку испытывает пользователь
Мы замеряли много метрик, поэтому получили много цифр. Воспринимать их тяжело без академического бэкграунда и знаний математической статистики, поэтому ниже кратко приведены результаты.
По айтрекингу получилось интересно. Мы нашли значимые различия в длительности фиксаций, амплитуде саккад и пиковой скорости саккад (примечание: саккады — быстрые, согласованные и одновременные движения глаз в одном направлении, вниз-вверх, например, когда мы скролим ленту в соцсетях). При чтении сплошного текста длительность фиксаций была выше, а амплитуда и скорость саккад ниже, чем при чтении структурированного текста.
Длительная фиксация, низкие скорость и амплитуда саккад говорят о высокой когнитивной нагрузке. Наши респонденты больше концентрировались на чтении сплошного текста и меньше скроллили его вниз и в стороны. А вот с количеством фиксаций это не работает — значимых различий мы не нашли.
Дальше проанализировали RAW TLX: получилось, что сплошной текст участники оценивали как более тяжёлый для восприятия. А вот с пост-тестом — вопросами на понимание и запоминание условий кредита — всё сложнее.
Значимых различий не нашли: читатели сплошного и форматированного текста ответили примерно одинаково. Худшие баллы после сплошного текста нельзя считать статистически значимыми (помните про 90% доверительный интервал?). Мы же получили p-value = 0.26 – в конвенциональных академических рамках такой результат не считается.
Но, позвольте мы немного поспекулируем (мой преподаватель по анализу данных будет в гневе, но всё же). P-value = 0.26 значит, что если мы проведём эксперимент 100 раз, то в 74 случаях получим аналогичные данные. Это чуть лучше, чем случайный результат, если p-value = 0.5. Осторожно предположим, что формат подачи текста всё-таки немного влияет на запоминаемость.
Подробные цифры оставляем под спойлером.
Данные исследования из Eye Tracker
Длительность фиксаций взгляда — при чтении «простыни» значительно выше, чем при чтении форматированного текста (U=528, p = 0.08).
Количество фиксаций — примерно одинаковое (U=429, p=0.89).
Средняя амплитуда саккад. При чтении форматированного текста амплитуда выше (U=286, p=0.04). Низкая амплитуда при чтении «простыни» говорит о повышении когнитивной нагрузки.
Пиковая скорость саккад коррелирует с когнитивной нагрузкой — чем она меньше, тем нагрузка выше. При чтении «простыни» показатель ниже, чем при чтении форматированного текста (U=264, p=0.01).
Средняя длительность фиксаций |
Количество фиксаций |
Средняя амплитуда саккад |
Пиковая скорость саккад |
|||||
|
Сплошной текст |
Форматированный текст |
Сплошной текст |
Форматированный текст |
Сплошной текст |
Форматированный текст |
Сплошной текст |
Форматированный текст |
Средняя |
225.56 |
213.63 |
499.26 |
536.59 |
2.77 |
3.15 |
117.15 |
135.49 |
Стд. откл. |
24.80 |
25.71 |
162.33 |
300.81 |
0.70 |
0.63 |
24.76 |
25.52 |
p=value |
0.08 |
0.89 |
0.04 |
0.01 |
При чтении неформатированного текста субъективная оценка когнитивной нагрузки по опросу RAW TLX была выше, чем при чтении форматированного текста (U=586, p=0.04).
Сплошной текст |
Структурированный текст |
|
Средние значения |
6,96 |
5,28 |
p-value |
0,04* |
Пост-тест. Запоминаемость текста по среднему количеству правильных ответов.
Сплошной текст |
Структурированный текст |
|
Средние значения |
0,77 |
0,82 |
p-value |
0,26 |
Бонус. Мы также замерили эмоциональный отклик респондентов при чтении текста. Обработали данные из Sense Machine с нашим экспертом и выяснили, что:
-
Оба текста вызывали когнитивную нагрузку.
-
При чтении преобладали отрицательные эмоции.
-
Сплошной текст был более сложным.
-
Сплошной текст вызвал больше злости по мимике.
Наши выводы о когнитивной нагрузке
Гипотеза подтвердилась: Eye Tracker показал повышенную когнитивную нагрузку при чтении сплошного текста.
Мы опирались на объективные метрики: длительность фиксаций, среднюю амплитуду и пиковую скорость саккад. Субъективная оценка самих респондентов подтвердила это.
Опросник RAW TLX показал повышенную когнитивную нагрузку при чтении сплошного текста, а пост-тест — что сплошной текст запоминается хуже.
Замер эмоционального отклика показал высокий уровень негативных эмоций при чтении «простыни». Таким образом, мимическое выражение злости может говорить о высокой когнитивной нагрузке.
Рекомендации
Вот, что мы рекомендуем тем, кто тестирует когнитивную нагрузку.
Составляйте чёткий регламент исследования. У нас чек-лист детализирован так:
-
Усадил респондента.
-
Выдал инструкцию.
-
Нажал на запись веб-камеры.
-
Проговорил: «Начали!».
-
Начал калибровку Eye Tracker и т.д.
Сначала в нашей группе из пяти модераторов не было регламента. Итог — не все респонденты поняли порядок действий, видео было записано в разные папки.
«Все врут» — подключайте удалённую модерацию, пригодится. Например, наши респонденты пытались списать на пост-тесте и не хотели считать в уме.
Изолируйте респондента в комнате, чтобы его ничего не отвлекало.
Затемните комнату, чтобы респондент не отводил взгляд на предметы вокруг. Запаситесь шторами блэкаут, пригодится ещё на десятке замеров. Включите в исследование метрику «Изменение диаметра зрачка» — она обогатит анализ.
Как дальше быть с когнитивной нагрузкой
Вот что мы планируем исследовать дальше:
-
Виды табличного представления текста. Дизайнеры сайта подсказали, что есть много типов таблиц. Можно замерить, какую когнитивную нагрузку они вызывают.
-
Визуальные элементы интерфейса: иконки, картинки.
-
Корреляцию с бизнес-показателями: как разные тексты влияют на конверсию.
-
Внутреннюю когнитивную нагрузку.
Ещё один проект на будущее — гайдлайны представления информации для дизайн-системы. Исследование поможет выбрать самый лучший из нескольких наших стилей.