Шопинг будущего: аудио-визуальное манипулирование поведением покупателя в VR среде

13.01.2023

Писатели-фантасты, жившие задолго до наших дней, описывали в своих произведениях мир будущего, где роботы делают всю работу, все болезни излечены, а путешествия на Марс или планеты других звездных систем являются чем-то обыденным. Часть из предсказанного в литературе все же стала реальностью, часть остается желанным для многих ученых, но пока недостижимым. Среди множества технологических прорывов есть и удивительные вещи глобального масштаба, и странные (хоть и забавные) изобретения. К последним стоит отнести VR-магазины, то есть магазины, существующие исключительно в виртуальной среде. Удобно для тех, кто относится к реальным социальным контактам с большой антипатией. Шутки шутками, но ученые из университета Цукубы (Япония) провели любопытное исследование, в котором пытались определить, как аудио-визуальные стимулы от виртуального консультанта влияют на поведение покупателя в виртуальном магазине. Какие именно стимулы и факторы поведения были изучены, как проводились опыты, и что они показали? Ответы на эти вопросы мы найдем в докладе ученых.

Основа исследования

Поход по магазинам, особенно где есть консультанты, для разных людей означает совершенно разный опыт. Для кого-то это совершенно обыденное занятие, которое практически не вызывает каких-либо ярких эмоций. Некоторые же люди испытывают вполне осязаемый дискомфорт и даже тревогу, стоит консультанту хотя бы попытаться что-то сказать им. Конечно, многое зависит от поведения самого консультанта. Одни ведут себя достаточно спокойно, давая покупателю простор для маневра, другие предпочитают атаковать, навязывая миллион разных предложений, рассказывая о скидках и всячески заставляя человека купить хоть что-то. Иногда такая тактика действует, иногда приводит к тому, что человек тактично отказывается от консультации, параллельно ища взглядом выход из магазина.

Развитие и популяризация технологий виртуальной реальности сильно повлияли на многие аспекты нашей жизни, от игр и просмотра любимых фильмов до образования, офисных собраний и даже покупок. Виртуальные магазины хоть и не являются чем-то повсеместным, но их число растет с каждым днем, чему, естественно, способствовало распространения небезызвестной инфекции. К слову, статистика говорит, что рынок виртуальной реальности может к 2024 году вырасти до 12 миллиардов долларов по сравнению с 5 миллиардами в 2021.

Виртуальные магазины и даже рынки, учитывая популярность VR, не стали большим сюрпризом для общественности. Однако для ученых и разработчиков такая среда стали интересным полем для изучения тех или иных особенностей поведения человека. Не говоря уже о том, что создатели таких рынков ищут и внедряют самые разные тактики, способствующие увеличению продаж. Если вы думали, что в виртуальной реальности нет капитализма, то это было ошибочное суждение. Такое же ошибочное, как мысль о том, что в таких магазинах нет консультантов. С прискорбием сообщаю, что они есть (будучи интровертом, такая «фишка» VR-магазина меня не порадовала, как вы видите).

Помимо фактического вербального общения между людьми, есть еще один важный аспект социального взаимодействия — личное пространство. То, насколько близко к нам находится собеседник, и то, как мы себя чувствуем в этот момент, зависит от многих факторов. Межличностную дистанцию можно категоризировать на следующие типы:

интимная (от 0 до 0.45 м);
личная (от 0.45 до 1.2 м);
социальная (от 1.2 до 3.6 м);
общественная (более 3.6 м).

Скажем, вы общаетесь со своим партнером (парнем, девушкой, мужем или женой). Вы будете комфортно чувствовать себя на любой из этих дистанций, даже на «интимной». Чего нельзя сказать о ком-то, кого вы видите первый раз. Восприятие и реализация этих дистанций зависит не только от участников коммуникации, но и от среды, где происходит общение. Виртуальная среда уникальна в этом плане, так как расстояние между объектами общения одновременно может быть большим (физически обе стороны не находятся даже в одной комнате), но и малым (аватар консультанта может стоять близко к покупателю).

Изображение №1

Однако суть рассматриваемого нами сегодня исследования даже не в расстоянии, а в том, как манипулирование аудио и визуальными стимулами влияет на поведение покупателя в виртуальной среде. В VE (virtual environment, т.е. виртуальная среда), в отличие от RE (real environment, т.е. реальная среда), можно легко изменить менять положение визуального стимула (к примеру, аватара консультанта) и аудио стимула (к примеру, голос этого консультанта) независимо друг от друга. Грубо говоря, продавец стоит перед вами, но его голос будто звучит со стороны.

По словам ученых, новизна этого исследования в совмещении двух аспектов. С одной стороны можно изучить, как происходит социальная интеракция между покупателем и продавцом в виртуальной среде. А с другой — оценить влияние изменения параметров аудио и визуальных стимулов на их восприятием человеком в VE.

Изображение №2

В данном труде ученые предлагают взаимодействие, которое намеренно генерирует позиционную диссоциацию между звуковым и визуальным образом аватара, с которым пользователь сталкивается в VE. Ожидается, что эта позиционная диссоциация изменит межличностную дистанцию в VE и качество обслуживания через взаимодействие с аватаром.

На 2d показана межличностная ситуация, которая может возникнуть только в VE. Ситуация, в которой существует только звук, не может возникнуть в RE, если не используется иллюзорный феномен акустических AR-устройств. В RE источник звука не появляется внезапно из одной точки в пустом пространстве. Всегда есть объект, который можно визуально подтвердить как источник звука. Люди используют различную информацию, включая акустику помещения, громкость и бинауральные различия, для локализации определенного звука. Эта способность приобретается многократной коррекцией источника звука при проверке его соответствия информации, полученной от зрения.

Ученые исследовали разницу в форме личного пространства между RE и VE путем сравнения расстояний для:

аватаров с визуальной и слуховой информацией (состояние V&A), D_M(θ);
аватаров только с визуальной информацией (состояние V/o), D_V(θ);
аватаров только со слуховой информацией (состояние A/o), D_A(θ).

После достаточной калибровки RE и VE результаты измерений восьми пользователей были визуализированы на изображении №2 (слева). Хоть формы личного пространства в целом совпадали в каждом состоянии, разница в размерах наблюдалась в состоянии А/о (2с). Эта разница не наблюдалась в состоянии V&A (2а). Следовательно, личное пространство, основанное на слуховой информации, либо очень неоднозначно, либо существует, несмотря на то, что HRTF* (от head-related transfer function) человека и сигналы различны.

HRTF* — реакция, которая характеризует то, как ухо воспринимает звук из точки в пространстве. Когда звук доходит до слушателя, размер и форма головы, ушей, слухового прохода, плотность головы, размер и форма носовой и ротовой полостей изменяют звук и влияют на его восприятие, усиливая одни частоты и ослабляя другие.

Схематическое представление HRTF.

Потому ожидалось, что эффект «чревовещания» (когда аватар находится в одной точке, а его голос исходит из другой) будет работать в определенном диапазоне, даже если звуковой и визуальный образы отклоняются друг от друга в условии V&A, и что они будут распознаны как один и тот же аватар. Для изучения этой темы было сформулировано несколько вопросов:

RQ#1: в какой степени допустимо отклонение звукового и визуального образа аватара в виртуальной среде?

Затем ожидается, что межличностное расстояние пользователя до аватара во время позиционной разницы будет зависеть как от расстояния, на котором представлен образ аватара, так и от расстояния, на котором присутствует звуковой образ. Из этого вытекает следующий вопрос:

RQ#2: как влияет позиционное несоответствие между аудио образом и визуальным образами на величину межличностного расстояния до аватара?

Дополнительно был использован факт того, что межличностная дистанция уменьшается в близких отношениях, и, наоборот, малая межличностная дистанция создает иллюзию близких отношений. А потому возникает еще один важный вопрос:

RQ#3: как вторжение звукового образа в личное пространство влияет на впечатление от аватара?

Подготовка к опытам

В число участников эксперимента вошли 16 человек (8 мужчин и 8 женщин) в возрасте от 21 до 24 лет, у которых не было проблем со зрением или слухом. Одиннадцать участников были знакомы с виртуальной реальностью, а пятеро — нет.

Изображение №3

В ходе эксперимента ученые разместили аватар (высотой 1.6 м), играющий роль сотрудников магазина, в VE помещении, напоминающем розничный магазин электроники (23 х 14 х 3.4 м).

Изображение №4

Было подготовлено 6 типов аватаров (3 мужчин и 3 женщин) для использования каждого в отдельном типе эксперимента. Аватар играл роль сотрудника магазина и произносил следующие фразы (на японском) каждую секунду: «добро пожаловать»; «привет»; «спасибо»; «надеюсь, вам понравится».

В качестве звуков окружающей среды выступала фоновая музыка (источник на потолке за левой стороной участника), шум кондиционера (источник на потолке за правой стороной участника), звук рекламы с мониторов продуктов (источник перед правой и левой сторонами участника).

Изображение №5

Во время эксперимента участники размещались в месте, обозначенном специальным символом. Как и в обычном опыте виртуальной реальности, поле зрения менялось в зависимости от движения головы участника. Точно так же звук, подаваемый в оба уха, менялся в зависимости от направления головы. Для направления сближения (θ) в каждом эксперименте тестировалось сближение с трех направлений: 0°, 45° и 90°. Другими словами, аватар подходит к испытуемому либо спереди, либо сбоку под определенным углом.

Изображение №6

Экспериментальная процедура состояла из следующих четырех основных этапов:

Время, чтобы привыкнуть к VE;
Измерение межличностного расстояния в каждом экспериментальном условии;
Измерение допустимого отклонения положения между звуковым и визуальным изображением для одного и того же аватара;
Измерение межличностной дистанции и впечатления от аватара с позиционным отклонением между звуковым и зрительным образами.

Время, необходимое для каждого эксперимента, составляло примерно 45 минут, а в конце первой половины эксперимента была 5-минутная пауза.

На первом этапе участник должен был привыкнуть к использованию VR оборудования и к самой виртуальной среде. Участники могли свободно манипулировать аватаром сотрудника магазина до тех пор, пока не переставали чувствовать себя некомфортно из-за звука и пока не привыкали к VE. Аналоговый стик контроллера использовался для управления положением аватара. Каждый раз, когда пользователь перемещал аналоговый джойстик вперед или назад, влево или вправо, положение аватара перемещалось на 0.1 м в этом направлении.

На втором этапе проводилось измерение межличностного расстояния для каждого аватара, который играл роль сотрудника магазина в различных воспринимаемых модальных условиях (только визуальное изображение, только звуковое изображение или то и другое). Половина участников измеряла межличностное расстояние с помощью визуальной информации [D_V(θ)], а другая половина измеряла межличностное расстояние с помощью слуховой информации [D_A(θ)]. Участники эксперимента перемещали изображение аватара или звуковое изображение ближе с помощью контроллера, чтобы определить положение, в котором дальнейшее вторжение в личное пространство вызовет дискомфорт.

На третьем этапе опытов измерялся диапазон, в котором положение звукового образа аватара могло быть опознано как положение того же аватара (диапазон, в котором работал эффект чревовещания) при его отделении от визуального образа и изменении положения в радиальном направлении. Визуальный образ аватара помещался на позицию межличностной дистанции D_V(θ), которая определяется условием V/o на предыдущем этапе. Исходное положение звукового образа помещалось в то же положение, что и визуальное изображение, и участник манипулировал звуковым изображением в радиальном направлении с помощью контроллера.

На финальном этапе проводилось исследование межличностного расстояния d_V(γ, θ) и d_A(γ, θ), а также восприятие аватара для каждого соотношения дистанций аудио/видео стимулов. Соотношение расстояний звук/изображение представляло собой расстояние от участника до звукового стимула, когда расстояние от участника до визуального стимула было установлено равным 1. Например, для γ = 0.5, когда испытуемые видели визуальный образ аватара на расстоянии 2 м, звуковой образ находился на расстоянии 1 м. И наоборот, если γ = 1.25, когда участник видел визуальный образ на расстоянии 1 м, то звуковой образ располагался на расстоянии 1.25 м. Если же γ = 1, то визуальный и звуковой стимулы располагались в одном и том же положении, как это происходит в условиях RE (реальной среды).

Слева от участников на стене виртуального магазина располагалась анкета, которую они заполняли в процессе экспериментов. Пункты опросника были разработаны на основе анкеты, созданной Гремлером и Гвиннером (Customer-Employee Rapport in Service Relationships), и измерялись по 7-балльной шкале от 1 (однозначно нет) до 7 (однозначно да).

Результаты экспериментов

Изображение №7

В ходе экспериментов с позиционным несоответствием между звуковым и визуальным стимулами форма межличностной дистанции [d_M(γ = 1, θ)] в условии V&A была больше во фронтальном направлении, чем в латеральном. По сравнению с межличностным расстоянием до визуального образа межличностное расстояние до звукового образа имело большую дисперсию.

Межличностное расстояние для аватаров, у которых были как звуковые, так и визуальные образы, было больше, чем межличностное расстояние для немых аватаров во всех вариантах угла приближения. Подобная разница не наблюдалась в опытах, где присутствовал только звуковой образ аватара.

Изображение №8

Дополнительно были изучены диапазоны расстояний, в которых участники могли распознать, что звуковые и визуальные образы принадлежат одному и тому же аватару, несмотря на несовпадение их положения (графики выше). Данный анализ показывал диапазон, в котором эффект чревовещания работал в радиальном направлении вокруг пользователя в виртуальной среде.

При визуальной локализации абсолютное позиционное соотношение определяется оптически. Однако слуховая локализация относительна, поскольку ее можно до некоторой степени локализовать с помощью HRTF другого человека, при этом имеет место и эффект привыкания. Поэтому ученые сравнили результаты двух условий, с или без источников звука, которые могли быть локализованы в дополнение к речи аватара.

Также было установлено, что диапазон эффекта чревовещания был значительно меньше в условиях, когда присутствует звук среды (кондиционер, реклама и т.д.), чем в условиях, когда его нет.

Изображение №9

Далее ученые исследовали межличностную дистанцию для аватара с позиционным несоответствием между звуковым и зрительным образами путем изменения соотношения аудио/визуальной дистанции (графики выше).

Изображение №10

Для условия d_V(γ, θ) существовала разница между d_V(γ=1, θ) и D_V(θ) для всех направлений. В дополнение к условию γ = 1, все d_V(γ, θ) имели большее значение, чем D_V(θ) почти для всех условий соотношения расстояний аудио/видео и направления сближения, что указывает на наличие разницы между d_V(γ, θ), что не определяется исключительно визуальными стимулами.

Далее ученые проанализировали влияние эффекта вторжения в личное пространство участника звукового образа аватара. В экспериментальной процедуре межличностное расстояние до аватара измерялось для каждого из соотношений аудио/визуального расстояния и каждого направления приближения.

Изображение №11

По результатам предыдущего раздела ожидалось, что результаты каждого опросника будут улучшаться при условии γ < 1, поскольку позиция звукового образа вторгается в личное пространство. Однако результаты анкетирования не показали этой тенденции. Кроме того, наблюдалось значительное снижение удовлетворенности в общении по данным анкет участников из опытов, где γ = 0.75.

Анализ результатов опытов и опросов

С помощью вышеописанных экспериментов ученые исследовали три вопроса (RQ), связанные с эффектом чревовещания, личным пространством и формированием впечатлений в виртуальной среде. Выводы по каждому RQ приведены ниже.

RQ#1: в какой степени допустимо отклонение звукового и визуального образа аватара в виртуальной среде?

В условиях V&A граница диапазона, в котором звуковой и зрительный образы аватара могут отклоняться по положению, а звуковой и зрительный образы могут быть признаны принадлежащими одному и тому же аватару, можно выразить так: [D_V(θ) — ∆D_near, D_V(θ) + ∆D_far.

Результаты показали, что положение пользователя зависело от положения аватара и менялось в зависимости от расстояния и угла приближения: примерно 75% расстояния до аватара при θ = 0°, 60% при θ = 45° и 50% при θ = 90°. Кроме того, влияние могут оказывать окружающие звуки. Ширина диапазона варьировалась в зависимости от наличия звуков окружающей среды. Когда не было звуков окружающей среды, диапазон в горизонтальном направлении становился намного больше.

Было установлено, что когда аватар находился в одном положении как акустически, так и визуально, информация (сигналы), полученная от визуального образа, была более значимой, чем информация, полученная от звукового образа. Другими словами, при наличии обоих стимулов решающим фактором для изменения межличностного расстояния были именно визуальные стимулы.

Хотя присутствие звука оказывало значительное влияние на межличностное расстояние, влияние положения звукового образа на визуальное межличностное расстояние от аватара было незначительным. То есть визуальный образ аватара не так сильно нарушал личное пространство человека, как звуковой образ.

RQ#3: как вторжение звукового образа в личное пространство влияет на впечатление от аватара?

Во всех опросах впечатления участников от аватара становилось хуже, если γ = 0.75. Лишь в группе испытуемых из опытов, где звуковой образ допускал позиционное отклонение от визуального, было подтверждено, что уменьшение γ = [0.25, 0.75] способствовало улучшению впечатлений

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых.

Эпилог

В рассмотренном нами сегодня труде ученые провели весьма любопытный опыт в виртуальной среде. Испытуемые были помещены в виртуальный магазин, где к ним подходил аватар консультанта. Расстояние до аватара, угол приближения и положение его визуального и звукового образов варьировались в ходе опытов. Затем ученые анализировали то, как испытуемые реагируют на те или иные условия опыта, а также оценивали их впечатления от общения с аватаром в зависимости от условий экспериментов.

В ходе опытов испытуемый мог видеть аватара в одном положении, но его голос исходил из другой точки в виртуальном пространстве. Также были опыты, где аватар обладал либо звуковым образом, либо визуальным, либо обоими. В результате была подтверждена величина межличностной дистанции (т. е. формы личного пространства), которая менялась в зависимости от направления образов.

В результате было установлено, что решение о том, какое должно быть межличностное пространство, испытуемые принимали, базируясь в основном на визуальном образе аватара и его положении в пространстве. Положение звукового образа было допустимо воспринимаемым, даже если оно отклонялось от положения визуального образа на 75 %, 60 % и 50 % от прямого, наклонного и бокового направлений приближения аватара к испытуемому.

Основываясь на этих наблюдениях, ученые провели еще один эксперимент, в котором звуковой образ аватара буквально вторгался в личное пространство испытуемых. Даже при учете того, что испытуемые не испытывали дискомфорта от разницы в положении звука и картинки, они негативно реагировали на ситуации, когда визуальный образ находился за пределами личного пространства, но звуковой был внутри этого поля.

Ученые отмечают, что описанное в данном труде явление, такое как позиционное несоответствие между звуковым и визуальным образами, возможно, только потому что в этом эксперименте использовалось межличностное взаимодействие в виртуальной среде, а не в реальной. Учитывая продолжающийся рост популярности виртуальных магазинов, данный труд может быть крайне полезен для повышения качества обслуживания. Многие исследования виртуальных магазинов, которые частенько проводят сами их создатели, нацелены на повышение продаж, рекламу определенных брендов и прочие, связанные с прибылью, аспекты. Этот же труд показывает, что опыт покупателя в виртуальном магазине может быть в разы улучшен, если учесть факторы, влияющие на его восприятие, в том числе и на личное пространство. Все достаточно просто и может быть сведено к банальному выводу — никто не любит нарушения границ его личного пространства, будь то реальная или виртуальная среда, реальный человек или аватар.

Немного рекламы

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

Источник