Интерфейсы, когнитивная нагрузка, «простыни»

22.07.2022

Или как мы провели эксперимент, где заставили людей читать и испытывать от этого боль, чтобы доказать, что наша интуиция не врет.

Условия банковских продуктов сложные: много цифр, формул, длинные тексты под звёздочкой, которые требуют времени и усилий, чтобы вникнуть в суть. Команда продукта не может сократить информацию, зато может напрямую влиять на её подачу, например, добавить калькулятор, дашборд или таблицу.

Интуитивно мы понимаем, что «простыня» читается сложнее, чем текст с подзаголовками, буллетами и схемами. Но интуиция — это не аргумент для команд, нужны пруфы. Поэтому мы, исследователи Alfa Research Center, задались вопросом: «Как доказать, что форматированный текст читается легче “простыни”, или (по-научному) вызывает меньшую когнитивную нагрузку?».

Так и сделали. Об этом и расскажем.

Интерфейсы, когнитивная нагрузка, «простыни»

Об авторах. Павел Долгов, Евгения Слободкина, Екатерина Понкратьева, Алтана Кашкалдыкова и Никита Савченко. Мы — исследователи из Alfa Research Center (про нашу лабораторию подробнее). Помогаем продуктовым командам делать сервисы для клиентов и сотрудников банка.

Что такое когнитивная нагрузка

Прикладываем длинный список литературы с комментариями под спойлером, который мы изучили перед нашим исследованием. Дальше будет вольное и упрощённое описание.

Литература о когнитивной нагрузке:

JSweller, J. (2011). Cognitive load theory. In Psychology of learning and motivation (Vol. 55, pp. 37-76). Academic Press – полное и очень ёмкое описание теории когнитивной нагрузки. Про эволюционное происхождение, разные виды и механизмы работы когнитивной нагрузки.

Hart, S. G. (2006, October). NASA-task load index (NASA-TLX); 20 years later. In Proceedings of the human factors and ergonomics society annual meeting (Vol. 50, No. 9, pp. 904-908). Sage CA: Los Angeles, CA: Sage publications – всё про NASA-TLX и его метаморфозы со временем.

Di Stasi, L. L., Renner, R., Staehr, P., Helmert, J. R., Velichkovsky, B. M., Cañas, J. J., … & Pannasch, S. (2010). Saccadic peak velocity sensitivity to variations in mental workload. Aviation, space, and environmental medicine, 81(4), 413-417. – про саккады и их взаимосвязь с когнитивной нагрузкой.

DeLeeuw, K. E., & Mayer, R. E. (2008). A comparison of three measures of cognitive load: Evidence for separable measures of intrinsic, extraneous, and germane load. Journal of educational psychology, 100(1), 223. – хорошая статья про то, как можно измерить влияние подачи материала на когнитивную нагрузку. Здесь мы вдохновлялись методологией.

Ayres, P., Lee, J. Y., Paas, F., & van Merriënboer, J. J. (2021). The validity of physiological measures to identify differences in intrinsic cognitive load. Frontiers in Psychology, 12. – отличный обзор физиологических метрик когнитивной нагрузки.

Мозг — это естественная система обработки информации. Он принимает сигналы из окружающего мира через зрение, слух, обоняние, осязание и помещает в хранилище — краткосрочную память.

За раз мы можем держать в краткосрочной памяти 7 (плюс-минус 2) «кусочка информации». Это могут быть как единичные символы (цифры номера телефона или банковской карты), так и более весомые информационные блоки (рассказ друга о вчерашней вечеринке, принцип работы факторинга, глава из «Гарри Поттера»).

От типа информации зависит, сколько фрагментов обработает краткосрочная память. Здесь вступает в игру когнитивная нагрузка. Материал, который сложно подан, вызовет высокую когнитивную нагрузку, будет тяжело осмысляться и может вызвать отторжение.

Например, пользователь хочет открыть расчетный счет в юанях: заходит в приложение, изучает тарифы, но ничего не понимает, потом изучает прикреплённый pdf, запутывается окончательно и в итоге откладывает телефон. В процессе он сидел над приложением наморщив лоб, и всеми силами пытался усвоить информацию, испытывая высокую когнитивную нагрузку от интерфейса.

Когнитивная нагрузка, кроме высокой и низкой, бывает ещё нескольких типов: внутренняя, внешняя и уместная. Мы рассмотрим внутреннюю и внешнюю, как самые актуальные для нашего исследования.

Внутренняя когнитивная нагрузка — это про сложность материала. Например, статья «Как варить гречку» несёт низкую внутреннюю когнитивную нагрузку. А вот описания аккредитивов и банковских гарантий создают высокую когнитивную нагрузку для новичка.

Внешняя когнитивная нагрузка связана не с содержанием, а с подачей. Ту же статью про гречку можно написать сложносочинёнными предложениями, запутать инструкцию так, что будет непонятно, сколько лить воды и когда добавлять соль.

Внешнюю когнитивную нагрузку продуктовые команды могут снизить: упростить/улучшить интерфейс или переработать длинный текст, сделав его читабельнее. Но, чтобы уменьшить когнитивную нагрузку, надо её измерить.

Как измерять когнитивную нагрузку

Физиологический метод

Мы можем отследить реакции тела: амплитуду, частоту дыхания, электрические импульсы на поверхности головы, кровяное давление, респираторные, кожные, глазные показатели.

Метод	Что измеряем
Электроэнцефалограмма (ЭЭГ)	Импульсы на голове
Кожно-гальваническая реакция	Проводимость тока между пальцами
Электрокардиограмма	Сердцебиение
Измерение дыхания	Амплитуда и скорость дыхания

Плюсы: данные надёжны и достоверны.

Минусы: затратно, замеры дольше, чем в других методах, нужно сложное оборудование.

Шапочка для ЭЭГ: стильно, как у Билли Айлиш на «Грэмми» в 2021-м

Поведенческий метод

Измеряет внешние реакции. Например, прибор Eye Tracker отслеживает движение взгляда на экране монитора, поведение зрачков и частоту морганий.

Eye Tracker определяет, что пользователи видят на экране в первую очередь, а на какие элементы не обращают внимание.

Плюс: всё ещё надежно и достоверно.

Минус: нужно оборудование, квалифицированные сотрудники и респонденты без дефектов зрения.

Субъективный метод

Это оценка нагрузки через опросник. Мы остановились на NASA-TLX – короткой анкете, которая зарекомендовала себя в мировой практике. В оригинальной методике респондент попарно взвешивает все пункты на предмет важности — это долго и непонятно. Но плюс в том, что учёные облегчили нам работу и придумали облегчённую вариацию RAW TLX, где избавились от взвешивания и считают только среднее по всем пунктам.

Опросник NASA-TLX. Мы задали респондентам такие же вопросы, но поменяли процедуру подсчёта результатов.

Плюс: легко запустить.

Минус: субъективно — респондент может пропустить вопросы, ответить неточно или солгать, что сложно отследить, в отличие от телесных реакций в физическом и поведенческом подходах.

Как в мире исследуют когнитивную нагрузку

Психологи на экспериментах изучали, как эмоции влияют на когнитивную нагрузку. Схема обычно такая:

вызываем эмоцию, показав грустную картинку или включив Evanescence;
даём задание;
регистрируем скорость и успешность выполнения;
отмечаем настроение.

Типичное когнитивное задание: из маленьких букв выложены большие, чтобы запутать нас. Нужно ответить, какую букву видите.

Психологи доказали, что эмоциональное состояние определяет, на какую информацию человек обращает внимание в первую очередь — на частную или глобальную. Например, более «грустные» респонденты быстрее замечали маленькие буквы и наоборот.

Изучив эксперименты мы заключили, что:

Эмоции влияют на мышление.
Учёные исследуют восприятие простых стимулов.
Мы нашли исследования с диспетчерами атомных станций, авиадиспетчерами, операторами аварийных служб, а в финтехе когнитивная нагрузка почти не изучалась.

Гипотеза о когнитивной нагрузке и интерфейсах

Наша первая гипотеза звучала так:

Когнитивная нагрузка выше при чтении неструктурированного текста. Если дать пользователю «простыню» текста, ему будет физически неприятно, и он закроет страницу.

Дизайн исследования

Мы сверстали две версии одного текста об условиях кредитования. Слева «простыня», справа тот же текст, но отформатированный.

Интуитивно кажется, что «простыню» слева читать тяжело и больно.

Мы позвали 60 респондентов: 30 юношей и 30 девушек (изначально их было больше — 74, но по некоторым причинам часть отсеяли). Никто из них не брал кредит, у всех хорошее зрение — это нужно для корректных замеров Eye Tracker.

Дальше мы разбили гипотезу на частные:

	Сложность чтения	Оценка респондентов	Запоминание информации	Эмоции
Сплошной текст	Выше	Сложно	Меньше	Негатив
Форматированный текст	Ниже	Просто	Больше	Нет негатива

Каждый респондент видел только один вариант текста. Здесь формат текста — независимая переменная, уровень когнитивной нагрузки — зависимая переменная.

Как мы замеряли когнитивную нагрузку интерфейса

Мы поочерёдно сажали респондентов перед монитором в нашем офисе. Они читали текст кредитного договора и сразу отвечали на вопросы.

Eye Tracker фиксирует движение глаз на мониторе при чтении с интервалом в секунду.

Также мы считывали эмоциональный отклик с лица респондента с помощью прибора Sense Machine. Наша нейросеть по мимике различает 7 состояний: ~~отрицание, гнев, торг,~~ радость, злость, грусть, страх, отвращение, удивление и нейтральное состояние.

Sense Machine через очки считывает эмоции и даёт им оценку. Здесь анализируем эмоции при работе с тестовым банкоматом в нашей лаборатории.

После чтения кредитного договора респонденты оценивали сложность текста, физические и умственные усилия на понимание.

Пример нашего вопроса для замеров когнитивной нагрузки.

Затем респонденты проходили пост-тест с вопросами в стиле: «Какой максимальный кредит можно взять?».

Финальный тест — математический: умножить 344. Мы предполагали, что умножение в уме точно вызовет когнитивную нагрузку, поэтому мимику в момент расчёта мы использовали как эталон, и сравнили с эмоциями при чтении текста.

Как работать с данными исследования

После замеров мы выгрузили данные Eye Tracker и почистили данные от артефактов и задвоений по респонденту. Собрали ответы на тест и исключили читеров, которые решали на калькуляторе или подглядывали в текст, отвечая на вопросы.

Очищенные данные проанализировали:

Изучили распределение метрик.
Рассчитали индекс когнитивной нагрузки RAW TLX: взяли среднее арифметическое между ответами на каждый пункт и провалидировали по коэффициенту Альфа Кронбаха. Это показатель, насколько разные вопросы внутренне согласованы. Мы получили α=0.82, что очень неплохо: α>0.8 – высокая внутренняя валидность индекса.
Посчитали правильные ответы на пост-тест по среднему арифметическому.
Сравнили метрики по U-критерию Манна–Уитни и доверительному интервалу 90%. У нас была скромная выборка по меркам количественных исследований и ненормальное распределение, а Манн-Уитни идеален в этих условиях. В идеале нужно взять интервал 95%, но мы чуть-чуть расширили пространство для манёвра.

Какую когнитивную нагрузку испытывает пользователь

Мы замеряли много метрик, поэтому получили много цифр. Воспринимать их тяжело без академического бэкграунда и знаний математической статистики, поэтому ниже кратко приведены результаты.

По айтрекингу получилось интересно. Мы нашли значимые различия в длительности фиксаций, амплитуде саккад и пиковой скорости саккад (примечание: саккады — быстрые, согласованные и одновременные движения глаз в одном направлении, вниз-вверх, например, когда мы скролим ленту в соцсетях). При чтении сплошного текста длительность фиксаций была выше, а амплитуда и скорость саккад ниже, чем при чтении структурированного текста.

Длительная фиксация, низкие скорость и амплитуда саккад говорят о высокой когнитивной нагрузке. Наши респонденты больше концентрировались на чтении сплошного текста и меньше скроллили его вниз и в стороны. А вот с количеством фиксаций это не работает — значимых различий мы не нашли.

Дальше проанализировали RAW TLX: получилось, что сплошной текст участники оценивали как более тяжёлый для восприятия. А вот с пост-тестом — вопросами на понимание и запоминание условий кредита — всё сложнее.

Значимых различий не нашли: читатели сплошного и форматированного текста ответили примерно одинаково. Худшие баллы после сплошного текста нельзя считать статистически значимыми (помните про 90% доверительный интервал?). Мы же получили p-value = 0.26 – в конвенциональных академических рамках такой результат не считается.

Но, позвольте мы немного поспекулируем (мой преподаватель по анализу данных будет в гневе, но всё же). P-value = 0.26 значит, что если мы проведём эксперимент 100 раз, то в 74 случаях получим аналогичные данные. Это чуть лучше, чем случайный результат, если p-value = 0.5. Осторожно предположим, что формат подачи текста всё-таки немного влияет на запоминаемость.

Подробные цифры оставляем под спойлером.

Данные исследования из Eye Tracker

Длительность фиксаций взгляда — при чтении «простыни» значительно выше, чем при чтении форматированного текста (U=528, p = 0.08).

Количество фиксаций — примерно одинаковое (U=429, p=0.89).

Средняя амплитуда саккад. При чтении форматированного текста амплитуда выше (U=286, p=0.04). Низкая амплитуда при чтении «простыни» говорит о повышении когнитивной нагрузки.

Пиковая скорость саккад коррелирует с когнитивной нагрузкой — чем она меньше, тем нагрузка выше. При чтении «простыни» показатель ниже, чем при чтении форматированного текста (U=264, p=0.01).

	Средняя длительность фиксаций		Количество фиксаций		Средняя амплитуда саккад		Пиковая скорость саккад
	Сплошной текст	Форматированный текст	Сплошной текст	Форматированный текст	Сплошной текст	Форматированный текст	Сплошной текст	Форматированный текст
Средняя	225.56	213.63	499.26	536.59	2.77	3.15	117.15	135.49
Стд. откл.	24.80	25.71	162.33	300.81	0.70	0.63	24.76	25.52
p=value	0.08		0.89		0.04		0.01

При чтении неформатированного текста субъективная оценка когнитивной нагрузки по опросу RAW TLX была выше, чем при чтении форматированного текста (U=586, p=0.04).

	Сплошной текст	Структурированный текст
Средние значения	6,96	5,28
p-value	0,04*

Пост-тест. Запоминаемость текста по среднему количеству правильных ответов.

	Сплошной текст	Структурированный текст
Средние значения	0,77	0,82
p-value	0,26

Бонус. Мы также замерили эмоциональный отклик респондентов при чтении текста. Обработали данные из Sense Machine с нашим экспертом и выяснили, что:

Оба текста вызывали когнитивную нагрузку.
При чтении преобладали отрицательные эмоции.
Сплошной текст был более сложным.
Сплошной текст вызвал больше злости по мимике.

Сдвиг эмоционального отклика при чтении двух вариантов текста.

Наши выводы о когнитивной нагрузке

Гипотеза подтвердилась: Eye Tracker показал повышенную когнитивную нагрузку при чтении сплошного текста.

Мы опирались на объективные метрики: длительность фиксаций, среднюю амплитуду и пиковую скорость саккад. Субъективная оценка самих респондентов подтвердила это.

Опросник RAW TLX показал повышенную когнитивную нагрузку при чтении сплошного текста, а пост-тест — что сплошной текст запоминается хуже.

Замер эмоционального отклика показал высокий уровень негативных эмоций при чтении «простыни». Таким образом, мимическое выражение злости может говорить о высокой когнитивной нагрузке.

Как дальше быть с когнитивной нагрузкой

Вот что мы планируем исследовать дальше:

Виды табличного представления текста. Дизайнеры сайта подсказали, что есть много типов таблиц. Можно замерить, какую когнитивную нагрузку они вызывают.
Визуальные элементы интерфейса: иконки, картинки.
Корреляцию с бизнес-показателями: как разные тексты влияют на конверсию.
Внутреннюю когнитивную нагрузку.

Ещё один проект на будущее — гайдлайны представления информации для дизайн-системы. Исследование поможет выбрать самый лучший из нескольких наших стилей.

Источник