Препринты о COVID-19: как меняются темы (майская версия)
Данные и методы
Nicholas Fraser разработал и выложил в открытый доступ всю процедуру и код для сбора данных – спасибо ему. На figshare он детально комментирует процедуру. Вкратце: мы собираем данные о препринтах из репозиториев Crossref (где индексируются препринты, опубликованные на многих платформах) и arXiv. Для анализа мы отбираем только те препринты, в заголовках и аннотациях которых встречаются термины coronavirus,covid-19, sars-cov, ncov-2019, 2019-ncov. К этому ряду мы добавили corona virus, в раздельном написании, чтобы находить больше релевантных документов.
В итоге на 17 мая 2020 г. мы собрали 8722 релевантных препринтов. Рисунок 5 показывает, как со временем росло их количество.
Чтобы увеличить объём данных для анализа тем, мы соединили заголовки и аннотации препринтов. Затем мы почистили эти объединённые тексты, удалив пунктуацию и нерелевантные символы. Также мы удалили из текстов слова, формально описывающие структуру исследования (abstract, summary, methods, research и пр.), слова, обозначающие новый коронавирус, и слишком общие понятия здравоохранения (coronavirus, SARS-CoV-2, health, pandemic, country и пр.), поскольку они встречаются почти в каждом тексте и не говорят о специфике темы.
Затем мы отфильтровали большую часть документов не на английском языке. Поскольку в мета-данных о препринтах нет информации о языке публикации, мы пользовались пакетом textcat, чтобы автоматически определить язык текста. Ряд текстов алгоритм ошибочно классифицировал как неанглоязычные, а некоторые тексты не на английском – не распознал. Мы решили удалить только те тексты, которые алгоритм идентифицировал как неанглоязычные и которые были опубликованы на Open Science Framework, где находилось большинство неанглоязычных публикаций. Это позволило нам сохранить в данных тексты, отнесённые к неанглоязычным по ошибке. Таким образом, в нашем массиве остаются некоторые неанглоязычные тексты, но в незначительном количестве, что не влияет на разбиение по темам. В итоге из 8722 препринтов для анализа осталось 8650.
Мы построили структурную тематическую модель, пользуясь пакетом stm. Для моделирования мы сократили все слова до их основ и оставили для анализа только те слова, которые как минимум дважды встречались в массиве текстов. Источник и дата публикации препринта использовались как ковариаты в модели. Поскольку число тем задаётся исследователем, мы остановились на решении, которое разбивает массив данных на 18 тем. Модель с такими параметрами сошлась на шаге 87.
Для построения графиков использовались функции пакета stm и LDAvis для интерактивной визуализации.