Пример отслеживания взгляда для участника без усталости (слева) и с умственным утомлением (справа), когда они отслеживают объект, следующий по круговой траектории.
Движение глаз широко изучается специалистами по зрению, языкам и юзабилити с 1970-х годов. Помимо фундаментальных исследований, наилучшее понимание движения глаз может быть полезно в самых разных приложениях, включая исследования удобства использования и пользовательского опыта, игры, вождения и взаимодействия на основе взгляда для доступности здравоохранения. Однако прогресс был ограниченным, потому что большинство предыдущих исследований было сосредоточено на специализированных аппаратных айтрекерах, которые были дорогими и сложно масштабируемыми.
В «Accelerating eye movement research via accurate and affordable smartphone eye tracking», опубликованной в Nature Communications, и «Digital biomarker of mental fatigue», опубликованной в npj Digital Medicine, мы представляем точное отслеживание глаз с помощью смартфона и машинного обучения, которое имеет потенциал для открытия новых исследований приложений в областях зрения, доступности, здравоохранения и благополучия, при этом дополнительно обеспечивая масштабирование для различных групп населения в мире, и все это с использованием фронтальной камеры на смартфоне. Мы также обсуждаем потенциальное использование этой технологии в качестве цифрового биомаркера умственной усталости, который может быть полезен для улучшения самочувствия.
Обзор модели
Ядром нашей модели взгляда была многослойная сверточная нейронная сеть с прямой связью (ConvNet), обученная на наборе данных MIT GazeCapture. Алгоритм обнаружения лица выбрал область лица с соответствующими ориентирами в уголках глаз, которые использовались для обрезки изображений только до области глаз. Эти обрезанные кадры пропускались через две идентичные башни ConvNet с одинаковым весом. За каждым сверточным слоем следовал средний объединяющий слой. Ориентиры в уголках глаз были объединены с выходом двух башен через полностью связанные слои. Выпрямленные линейные единицы (ReLU) использовались для всех слоев, кроме последнего полностью подключенного выходного уровня (FC6), который не активизировался.
Архитектура модели неперсонализированного взгляда. Области глаз, извлеченные из изображения фронтальной камеры, служат входными данными для сверточной нейронной сети. Полностью связанные (FC) слои объединяют выходные данные с ориентирами в углах глаза, чтобы вывести координаты взгляда на экране по осям X и Y через выходной слой с множественной регрессией.
Точность модели неперсонализированного взгляда была улучшена за счет точной настройки и персонализации для каждого участника. Для последнего была подобрана облегченная регрессионная модель к предпоследнему слою ReLU модели и данным для конкретного участника.
Оценка модели
Чтобы оценить модель, мы собрали данные от согласившихся участников исследования, когда они просматривали точки, которые появлялись в случайных местах на пустом экране. Ошибка модели рассчитывалась как расстояние (в см) между местоположением раздражителя и прогнозом модели. Результаты показывают, что, хотя неперсонализированная модель имеет высокую погрешность, персонализация с ~ 30 секундами калибровочных данных привела к более чем четырехкратному снижению ошибки (с 1,92 до 0,46 см). При расстоянии обзора 25-40 см это соответствует точности 0,6–1 °, что является значительным улучшением по сравнению с 2,4–3 °, о которых сообщалось в предыдущей работе [1, 2].
Дополнительные эксперименты показывают, что точность модели айтрекера смартфона сравнима с точностью современных носимых айтрекеров, как когда телефон помещен на подставку для устройства, так и когда пользователи свободно держат телефон в руке почти перед головой. В отличие от специализированного оборудования для отслеживания взгляда с несколькими инфракрасными камерами рядом с каждым глазом, запуск нашей модели с использованием одной фронтальной камеры RGB на смартфоне значительно более экономичный (примерно в 100 раз дешевле) и более масштабируемый.
Используя эту технологию смартфона, мы смогли воспроизвести ключевые результаты предыдущих исследований движения глаз в нейробиологии и психологии, включая стандартные глазодвигательные задачи (для понимания основных зрительных функций мозга) и естественное понимание изображений. Например, в простой задаче просаккады, которая проверяет способность человека быстро двигать глазами в направлении раздражителя, который появляется на экране, мы обнаружили, что средняя задержка саккады (время, чтобы двигать глазами) соответствует предыдущей работе для базового офтальмологического здоровья (210 мс против 200-250 мс). В задачах управляемого визуального поиска мы смогли воспроизвести ключевые результаты, такие как влияние заметности цели и беспорядка на движения глаз.
Примеры траекторий сканирования взгляда показывают влияние заметности цели (т.е. Цветового контраста) на эффективность визуального поиска. Меньше фиксаций требуется, чтобы найти цель (слева) с высокой заметностью (отличную от дистракторов), в то время как больше фиксаций требуется, чтобы найти цель (справа) с низкой заметностью (аналогично дистракторам).
Для сложных раздражителей, таких как естественные изображения, мы обнаружили, что распределение взгляда (вычисленное путем агрегирования положений взгляда по всем участникам) от нашего айтрекера в смартфоне аналогично полученному от громоздких, дорогих айтрекеров, которые использовали строго контролируемые настройки, такие как лабораторные системы упора для подбородка. Хотя тепловые карты взгляда на смартфоне имеют более широкое распространение (т.е. кажутся более «размытыми»), чем аппаратные айтрекеры, они сильно коррелированы как на уровне пикселей (r = 0,74), так и на уровне объекта (r = 0,90). Эти результаты предполагают, что эту технологию можно использовать для масштабирования анализа взгляда для сложных раздражителей, таких как естественные и медицинские изображения (например, радиологи просматривают МРТ/ПЭТ-сканирование).
Тепловая карта взгляда при использовании нашего смартфона по сравнению с более дорогим (100х) айтрекером (OSIE dataset)
Мы обнаружили, что смартфон также может помочь обнаружить трудности с пониманием прочитанного. Участники, читающие отрывки, тратили значительно больше времени на поиск соответствующих отрывков, когда отвечали правильно. Однако по мере того, как сложность понимания возрастала, они тратили больше времени на изучение не относящихся к делу отрывков в тексте, прежде чем находили подходящий отрывок, содержащий ответ. Доля времени взгляда, потраченного на соответствующий отрывок, была хорошим показателем понимания и сильно отрицательно коррелировала с трудностью понимания (r = -0,72).
Цифровой биомаркер умственной усталости
Обнаружение взгляда — важный инструмент для определения бдительности и состояния здоровья, это широко изучается в медицине, исследованиях сна и критически важных условиях, таких как медицинские операции, безопасность полетов и т.д. Однако существующие тесты на утомляемость субъективны и часто требуют времени. В нашей недавней статье, опубликованной в npj Digital Medicine, мы продемонстрировали, что взгляд на смартфон значительно ухудшается из-за умственной усталости и может использоваться для отслеживания возникновения и прогрессирования утомления.
Простая модель надежно предсказывает умственную усталость, используя данные о взгляде участников, выполняющих задание, всего за несколько минут. Мы подтвердили эти результаты в двух разных экспериментах — с помощью задачи отслеживания объектов, не зависящей от языка, и задачи проверки, зависящей от языка. Как показано ниже, в задаче слежения за объектом взгляд участников сначала следует по круговой траектории объекта, но при усталости их взгляд показывает большие ошибки и отклонения. Учитывая повсеместное распространение телефонов, эти результаты показывают, что взгляд на смартфон может служить масштабируемым цифровым биомаркером умственной усталости.
Пример отслеживания взгляда для участника без усталости (слева) и с умственным утомлением (справа), когда они отслеживают объект, следующий по круговой траектории.
Соответствующая прогрессия оценок утомляемости (достоверность) и прогноз модели как функция времени выполнения задачи.
Помимо хорошего самочувствия, взгляд на смартфон может также предоставить цифровой фенотип для скрининга или мониторинга состояний здоровья, таких как расстройство аутистического спектра, дислексия, сотрясение мозга и т.д. Это могло бы позволить своевременное и раннее вмешательство, особенно для стран с ограниченным доступом к медицинским услугам.
Еще одна область, которая может принести огромную пользу, — это доступность. У людей с такими состояниями, как БАС, синдром запертого человека и инсульт, нарушены речь и двигательные способности. Взгляд на смартфон может предоставить мощный способ упростить повседневные задачи за счет использования взгляда для взаимодействия, как недавно было продемонстрировано с помощью Look to Speak.
Этические соображения
Исследование взгляда требует тщательного рассмотрения, в том числе с учетом правильного использования такой технологии — приложения должны получать полное одобрение и полностью осознанное согласие пользователей для выполнения конкретной задачи. В нашей работе все данные были собраны в исследовательских целях с полного одобрения и согласия пользователей. Кроме того, пользователям было разрешено отказаться в любой момент и запросить удаление своих данных. Мы продолжаем исследовать дополнительные способы обеспечения справедливости машинного обучения и повышения точности и надежности технологии взгляда в разных демографических группах ответственным образом и с сохранением конфиденциальности.
Заключение
Наши результаты точного и доступного отслеживания взгляда на смартфон на основе машинного обучения открывают потенциал для масштабных исследований движения глаз по областям (например, нейробиологии, психологии и взаимодействию человека с компьютером). Они открывают новые потенциальные приложения для общественного блага, такие как взаимодействие на основе взгляда для доступности, а также инструменты для скрининга и мониторинга на основе смартфонов для благополучия и здравоохранения.
Благодарности
Эта работа включала совместные усилия междисциплинарной группы инженеров-программистов, исследователей и сотрудников разных направлений. Мы хотели бы поблагодарить всех соавторов статей, включая членов нашей команды: Цзюньфэн Хэ, На Дай, Пингмэй Сюй, Венки Рамачандран; стажеры Итан Стейнберг, Кантвон Роджерс, Ли Го и Винсент Ценг; сотрудники, Танзим Чоудхури; и UXR: Мина Шоджаеизаде, Прити Талваи и Ран Тао. Мы также хотели бы поблагодарить Томера Шекеля, Гаурава Немадэ и Рину Ли за их вклад в этот проект и Видхью Навалпаккам за ее техническое руководство в инициировании этой работы и надзоре за ней.