14 февраля 2020 г.
Принстонский университет, Инженерный факультет.
Резюме:
Для решения проблем предвзятости в искусственном интеллекте специалисты по информатике разработали методы получения более достоверных наборов данных, содержащих изображения людей. Исследователи предлагают усовершенствования для ImageNet — базы данных из более чем 14 миллионов изображений, которая сыграла ключевую роль в развитии компьютерного зрения за последнее десятилетие.
ImageNet, включающая в себя изображения объектов, ландшафтов и, в частности, людей, служит источником обучающих данных для исследователей, создающих алгоритмы машинного обучения, которые классифицируют изображения или распознают на них отдельные элементы. Беспрецедентный масштаб ImageNet потребовал автоматизированного сбора изображений и их аннотирования с помощью краудсорса. В то время как категория изображений людей из базы данных использовалась исследовательским сообществом достаточно редко, команда ImageNet все же работала над устранением предвзятости и ряда других проблем, связанных с изображениями людей, которые являются непреднамеренными последствиями конструкции ImageNet.
«На сегодняшний день компьютерное зрение работает достаточно хорошо, чтобы быть внедряемым повсеместно в самых разных контекстах», — говорит соавтор Ольга Руссаковская, доцент кафедры компьютерных наук в Принстоне. «Это означает, что сейчас самое время поговорить о том, какое влияние оно оказывает на мир, и подумать о проблемах достоверности».
В новой статье команда ImageNet систематически определила невизуальные концепции и оскорбительные категории, такие как расовые и сексуальные характеристики, для категорий человеческих изображений ImageNet и предложила удалить их из базы данных. Исследователи также разработали инструмент, который позволяет пользователям определять и получать наборы изображений людей, которые сбалансированы по возрасту, полу и цвету кожи, для того, чтобы поспособствовать соответствующим алгоритмам более достоверно классифицировать лица людей и их действия на изображениях. Исследователи представили свои работы 30 января на конференции по вопросам достоверности, надежности и прозрачности Ассоциации вычислительной техники в Барселоне, Испания.
«Очень важно привлечь к дискуссии внимание лабораторий и исследователей с фундаментальным техническим опытом», — продолжает Руссаковская. «Учитывая тот факт, что нам нужно собирать данные в колоссальном масштабе, и тот факт, что это будет реализовано с помощью краудсорсинга (потому что это самый эффективный и хорошо зарекомендовавший себя конвейер), возникает вопрос — как нам сделать это так, чтобы обеспечить наибольшую достоверность, не наступив на уже знакомые грабли? Эта статья в первую очередь акцентирует внимание конструктивных решениях».
Группа ученых-информатиков в Принстоне и Стэнфорде запустила ImageNet в 2009 году как ресурс для научных исследователей и преподавателей. Руководила инициативой выпускница и преподаватель Принстона Фэй-Фэй Ли, ныне профессор компьютерных наук в Стэнфорде. Чтобы побудить исследователей создавать более совершенные алгоритмы компьютерного зрения с использованием ImageNet, команда также учредила соревнование ImageNet Large Scale Visual Recognition Challenge. Соревнование было в основном сфокусировано на распознавании объектов с использованием 1000 категорий изображений, только в трех из которых фигурировали люди.
Некоторые из проблем достоверности в ImageNet проистекают из конвейера, используемого для создания базы данных. Его категории для изображений взяты из WordNet — старой базы данных английских слов, используемой для исследований обработки естественного языка. Создатели ImageNet позаимствовали существительные из WordNet — некоторые из которых, хотя они и являются четко определенными словесными терминами, плохо переводятся в визуальный словарь. Например, термины, которые описывают религию или географическое происхождение человека, могут извлекать только самые выделяющиеся результаты поиска изображений, что может результировать в алгоритмах, закрепляющих стереотипы.
Недавний арт-проект под названием ImageNet Roulette привлек внимание к этим проблемам. Проект, выпущенный в сентябре 2019 года в рамках художественной выставки посвященной системам распознавания изображений, использовал изображения людей из ImageNet для обучения модели искусственного интеллекта, которая классифицировала людей словами на основе представленного изображения. Пользователи могли загрузить свое изображение и получить метку на основе этой модели. Многие из классификаций были оскорбительными или просто необоснованными.
Главной инновацией, позволившей создателям ImageNet накопить такую большую базу данных размеченных изображений, стало использование краудсорсинга, в частности платформы Amazon Mechanical Turk (MTurk), в рамках которой работникам платили за проверку изображений-кандидатов. Этот подход, хоть и являлся революционным, все таки был несовершенен, что приводило к некоторым предвзятым и неуместным категориям.
«Когда вы просите людей проверять изображения, выбирая соответствующие из большого набора кандидатов, люди чувствуют давление обязательно выбирать что-нибудь, и эти изображения, как правило, имеют отличительные или стереотипные черты», — говорит ведущий автор Кайю Янг, выпускник в области компьютерных наук.
В ходе исследования Ян и его коллеги сперва отфильтровали потенциально оскорбительные или деликатные категории людей из ImageNet. Оскорбительными они посчитали категории, содержащие ненормативную лексику или расовые или гендерные оскорбления; деликатные категории включали, например, классификацию людей по признаку сексуальной ориентации или религии. Чтобы аннотировать категории, они набрали 12 аспирантов из разных слоев общества, дав им указание помечать категорию как деликатную, если они не уверены. Так они исключили 1593 категории — около 54% из 2932 категорий людей в ImageNet.
Затем исследователи обратились за помощью к работникам MTurk, чтобы те оценили «образность» оставшихся допустимых категорий по шкале от 1 до 5. Отбор категорий с оценкой образности 4 или выше привело к тому, что только 158 категорий были классифицированы как допустимые и достаточно образные. Даже этот тщательно отфильтрованный набор категорий содержал более 133 000 изображений — огромное количество примеров для обучения алгоритмов компьютерного зрения.
В рамках этих 158 категорий исследователи изучили демографическое представление людей на изображениях, чтобы оценить уровень предвзятости в ImageNet и разработать подход для создания более адекватных наборов данных. Содержимое ImageNet исходит в первую очередь от поисковых систем, ориентированных на изображения, таких как Flickr. Поисковые системы же в целом имеют тенденцию возвращать результаты, которые в значительно большей степени представляют мужчин, светлокожих людей и взрослых в возрасте от 18 до 40 лет.
«Люди обнаружили, что результаты в поиске изображений сильно предвзяты в плане демографического распределения, следовательно в ImageNet распределение также предвзято», — говорит Янг. «В этой статье мы попытались оценить уровень предвзятости, а также предложить метод, который бы сбалансировал распределение».
Исследователи выделили и рассмотрели три атрибута, которые защищены в соответствии с антидискриминационными законами США: цвет кожи, гендерное выражение и возраст. Работников MTurk попросили аннотировать каждый атрибут каждого человека на изображении. Они классифицировали цвет кожи как светлый, средний или темный; и по возрасту как детей (до 18 лет), взрослых 18-40 лет, взрослых 40-65 лет или взрослых старше 65 лет.
Гендерная классификация включала мужчин, женщин и неопределенный гендер — способ включать людей с различными гендерными выражениями, а также аннотировать изображения, на которых пол не может быть воспринят по визуальным признакам (таким как изображения множества детей или аквалангистов).
Анализ аннотаций показал, что, как и в результатах поиска, содержание ImageNet отражает значительную предвзятость. Люди, отмеченные как темнокожие, женщины и взрослые старше 40 лет, были недостаточно представлены в большинстве категорий.
Хотя процесс аннотации включал контроль качества и требовал, чтобы аннотаторы достигли консенсуса, из-за опасений по поводу потенциального вреда неправильных аннотаций, исследователи предпочли не выпускать демографические аннотации для отдельных изображений. Вместо этого они разработали инструмент веб-интерфейса, который позволяет пользователям получать набор изображений, которые демографически сбалансированы способом, указанным пользователем. Например, полная коллекция изображений в категории «программист» может включать около 90% мужчин и 10% женщин, в то время как в Соединенных Штатах около 20% программистов — женщины. Исследователь может использовать новый инструмент для получения набора изображений программистов, представляющих 80% мужчин и 20% женщин — или даже по отдельности, в зависимости от целей исследователя.
«Мы не хотим говорить о том, как правильно сбалансировать демографию, потому что это не очень простая проблема», — говорит Янг. «Распределение может быть различным в разных частях света — например, распределение цветов кожи в США отличается от распределения в странах Азии. Поэтому мы оставляем этот вопрос нашему пользователю и просто предоставляем инструмент для извлечения сбалансированного подмножества изображений.»
Команда ImageNet в настоящее время работает над техническими обновлениями своего оборудования и самой базы данных, в дополнение к реализации фильтрации категорий лиц и инструмента ребалансировки, разработанного в этом исследовании. ImageNet скоро будет переиздан с этими обновлениями и запросом обратной связи от сообщества исследователей компьютерного зрения.
Принстонский доктор философии Клинт Кинами и доцент кафедры информатики Джия Дэнг в соавторстве вместе с Янг, Ли и Руссаковской. Исследование было осуществлено при поддержке Национального научного фонда.
Источник:
Материалы предоставлены Инженерным факультетом Принстонского университета. Оригинал написан Молли Шарлах. Примечание: содержание может быть отредактировано по стилю и длине.
Ссылка:
Kaiyu Yang, Klint Qinami, Li Fei-Fei, Jia Deng, Olga Russakovsky. Towards fairer datasets: filtering and balancing the distribution of the people subtree in the ImageNet hierarchy. Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency, 2020 DOI: 10.1145/3351095.3375709