Руководство по R с недавних пор самая цитируемая неакадемическая публикация в академических работах

В библиографической базе данных Web of Science руководство «‎R: a language and environment for statistical computing»‎ недавно* обошло другие источники, упоминаемые в разделе References (Список литературы и примечаний) публикаций, индексируемых этой базой данных. К сожалению, доступ к ней ограничен, и трудно дать ссылку (для каждой сессии генерируется своя ссылка), но ряд пользователей** может воспроизвести мои наблюдения, под катом описано как, а также с какими оговорками стоит понимать заголовок новости.
Руководство по R с недавних пор самая цитируемая неакадемическая публикация в академических работах
На иллюстрации список самых цитируемых источников в публикациях, индексированных WoS, которые при этом сами не индексированы WoS в основной базе (Core Collection), а лишь находятся в базе библиографических ссылок.

Кроме того что три индексированные публикации (все по биологии) обгоняют пока еще руководство по R, и по многим другим параметрам это довольно ограниченный рекорд с рядом допущений. Во-первых, он касается только WoS, в базе Scopus, которую часто упоминают наряду с WoS, номенклатура «Diagnostic and Statistical Manual of mental disorders» пока еще (но судя по темпам прироста, ненадолго) обгоняет руководство по R. Во-вторых, я конечно же отдаю себе отчет в том, что это абсолютный рекорд, без нормализации по областям знаний, году публикации, и т.д. В-третьих, я использую возможно не самый честный подсчет, а именно суммирую цитирования всех версий руководства (как и иных таких библиографических ссылок — все версии DSM, все тома Numerical recipes, и т.д.), тогда как в обычном подсчете, без каких-либо суммирований, руководство встречается только на 40 месте (далее на 51, 61, и т.д. месте тоже оно, но датированное иным годом, иной версией руководства, артикль a перед двоеточием написан в виде заглавной буквы, и т.д.).

image
ТОП-25 категорий WoS, в которых цитируют руководство. Похожая ситуация и в Scopus.

image
Рост числа цитирований руководства в Скопусе, со схожими значениями для WoS.

Также стоит иметь ввиду, что не во всех случаях, если авторы академической публикации, использовали какой-то инструмент (в широком смысле, будь то hardware или software, или теорема, или логический аргумент, и т.д.), то они обязательно дадут на него ссылку, так что предмет отдельного исследования, насколько такое частое упоминание руководства отражает частое его использование при написании научных работ (известно, что R популярен в науке, вопрос в другом, в соответствии цифр, возможно есть какой-то другой неакадемический источник, де-факто используемый чаще, но не упоминаемый в списке литературы).

Например, согласно этому обзору де-факто, при поиске в базе Google Scholar и по данным на 2018 год, SPSS используется в полтора раза чаще для написания академических работ. Автор объясняет это сложностью освоения R. Хотелось бы, однако, сравнительный анализ по разным базам, потому что подбор проиндексированных публикаций, и соответственно показатели цитируемости у них различаются.

Почему же R так важен для ученых? Энди Уиллс в Linux Journal пишет о R в свете идеи Open Science, и в связи с актуальностью кризиса воспроизводимости в психологии. Психолог и data-scientist Евгений Томилов, к которому я обратился, так в ответе обосновал важность R для науки:

R позволяет создавать воспроизводимые протоколы исследований, включающие в себя данные и их обработку. В условиях тотальных фальсификаций и острой необходимости в увеличении воспроизводимости и правдоподобии научных работ, использование этого инструмента является как минимум полезным, а как максимум этичным.

З.Ы. Также интересно, что на Google Scholar есть профиль R Core Team, подобный профилям отдельных исследователей, с неплохим показателем индекса Хирша — 50 (для этого нужно иметь более 50 публикаций, при этом чтобы 50 по счету, при ранжировании по числу цитирований, имела число цитирований равное 50).

* Точную дату назвать трудно в связи в особенностями подсчета и детализации данных, по всей видимости это произошли в последние несколько месяцев.

** а именно владельцы читательского билета РНБ, РГБ, и библиотеки имени Горького и студ.билета СПбГУ, а также ряда других университетов.

Как воспроизвести КДПВ:

В разделе «Поиск по пристатейной библиографии» можно в поиске по годам ввести запрос 1000-2999 и получить выборку 264 млн. результатов из 268 (в оставшихся, вероятно, не указан год, но вряд ли они как-то существенно важны для последующих манипуляций). Произвести ранжирование по числу цитирований. Далее произвести экспорт результатов, и отфильтровать те из них, у которых есть столбец «Источник», но нет столбца «Заголовок» (например в случае журнальной статьи дается в первом случае название журнала, во втором заголовок публикации, если это проиндексированная книга, то содержание обоих столбцов будет одинаковым, и только в случае неиндексированных источников, столбец «Заголовок» будет пустым). И можно вручную или через скрипт получить результаты суммирования цитирований для каждой уникальной записи (то есть объединить данные по экспортированным библиографическим ссылкам, цитируемым в разном написании, с указанием разных изданий, отдельных страниц, и т.д.).

 
Источник

Читайте также