Если говорить об исследованиях, оказавших влияние на развитие нейронауки, то Университетскому колледжу Лондона (ULC) есть чем похвастаться. Этот вывод – не мнение эксперта или результат анализа огромного штата сотрудников какого-нибудь аналитического агентства: всю работу проделал компьютер.
Программа Semantic Scholar проанализировала содержание 2,5 миллиона научных статей и цитируемость их авторов, а затем рассчитала оценку влияния каждого автора на остальных. В результате оказалось, что трое из самых влиятельных ученых в этой области работают на благо науки в Университетском колледже Лондона: Карл Фристон, специалист по параметрическим методам статистики (1 место), Раймонд Долан, эксперт в области эмоционального влияния на познание (2 место) и Крис Фрит, исследователь в сфере когнитивного основания шизофрении и социального познания (7 место).
Semantic Scholar – интернет-инструмент, который создавался в лаборатории Алленовского Института искусственного интеллекта (AI2) в Сиэтле, Вашингтон. Апрельский дебют Semantic Scholar произвел приятное впечатление: сервис составил рейтинг наиболее влиятельных ученых в области компьютерных наук, основываясь на 2 миллионах академических научных трудов. С тех пор команда AI2 расширила базу статей до 10 миллионов, четверть из которых – работы в области нейробиологии. Команда ученых собирается увеличить базу биомедицинской литературы до 20 миллионов документов к следующему году.
Когда Semantic Scholar анализирует статью, он видит больше, чем типичная академическая поисковая система и гораздо больше, чем человек. По словам руководителя проекта Орена Этциони, генерального директора AI2, его команда использовала в своей работе машинное обучение, обработку естественного языка и технологии компьютерного зрения, чтобы вникнуть в семантику.
Чтобы оценить возможности Semantic Scholar, ученые предлагают посмотреть на результаты семантического анализа научных работ, в которых под разным углом рассматриваются базальные ядра головного мозга певчих птиц. В левой области экрана мы видим ключевые слова, которые сервис выделил из этих документов: не только традиционные библиографические данные, вроде даты публикации и информации об авторах, но еще и типы клеток, используемые в экспериментах, и даже методы.
Разработкой исследователей из AI2 заинтересовались и другие ученые. Так, Сэм Гершман, специалист в области вычислительной нейробиологии из Гарвардского университета, опробовал Semantic Scholar. Он заявил, что это очень интересный инструмент, имеющий неоспоримые преимущества по сравнению с Google Scholar. Например, в Semantic Scholar есть возможность более тонкой настройки сортировки статей. Кроме того, он показывает отсылки на статью, некоторые цифры и диаграммы.
Вместе с этим, Гершман тут же обнаружил проблему, которая касается всех поисковых систем: данные низкого качества, или «грязные данные». В некоторых работах не совпадают имена авторов. Да и многозначность некоторых терминов тормозит работу поисковика. Кроме того, в метаданных исследований тоже встречаются ошибки: одна из работ Гершмана датируется 1987 годом, когда ученому было всего два года.
Самым загадочным во всей этой истории для Гершмана оказался тот факт, что статьи, опубликованные в самых влиятельных изданиях, не получают высоких баллов: «Ни одна из самых влиятельных статей Томаса Гриффиса из Калифорнийского университета в Беркли не попала в пятерку самых цитируемых статей. Это странно.» – говорит Гершман.
Орен Этциони подчеркивает, что работа над Semantic Scholar продолжается. Он признает, что сервис не идеален и может выдавать ошибки. Несмотря на это, инструмент вполне успешно справился с составлением рейтинга самых влиятельных нейробиологов на основе текущих данных. Оказалось, что трое из них знакомы между собой с самого начала своей карьеры. «Мы работаем в ULC с 1993 года в одном отделе» – отмечает Крис Фрит. Он также добавил, что Semantic Scholar сработал вполне корректно.
Возглавивший список Карл Фристон – первый разработчик методик анализа визуальных данных мозга и создатель компьютерной модели работы мозга. Когда ему сообщили о том, что он стал первым в ТОП-10 ученых, он воспринял эту новость с определенной долей юмора: «Моя первая мысль была «Кому я могу сказать об этом и при этом не показаться нескромным?». Тогда я понял, что единственные люди, кто хотели бы услышать об этом – мои дети!».
Необходимость создания сервиса, способного оценить вклад того или иного ученого в развитие науки, возникла достаточно давно. Главная трудность на этом пути заключается в том, что влияние исследователя с трудом поддается измерению. До сих пор справиться с этой задачей помогал индекс цитируемости, но в итоге такой счетчик стал краеугольным камнем метрики академической издательской индустрии. Не все цитаты можно считать равнозначными. Согласитесь, что вдохновенное цитирование целых страниц работы отличается от краткого упоминания названия работы в списке используемых источников. Именно поэтому научная среда нуждается в инструменте, который может провести семантический анализ и выдать более точный результат.
В будущем ученые из Алленовского Института искусственного интеллекта планируют развить свой проект Semantic Scholar и превратить его в «Siri для науки». Главная цель заключается в том, чтобы система научилась распознавать вопросы на английском языке и искать на них ответы.
Работа опубликована в журнале ScienceInsider 11 ноября 2016 года
DOI: 10.1126/science.aal0371
Источник