Препринты о COVID-19: как меняются темы (майская версия)
От симптомов болезни к моделям бессимптомной передачи по данным мобильных устройств
Когда во всём мире чрезвычайная ситуация, исследователи стремятся публиковать свои результаты в свободном доступе и как можно быстрее. Доступный вариант – опубликовать препринт, работу, которая ещё не прошла рецензию и оценку качества, зато быстро попадает в открытый доступ онлайн. В этом посте мы показываем, на какие тематики дробятся препринты о коронавирусе SARS-CoV-2 и вызванном им заболевании COVID-19, и как эти темы менялись с января по май 2020. Про наши данные и методы читайте на странице 3.
В обзоре мы, где возможно, приводим в качестве источников препринты систематических обзоров и мета-анализов. Подчеркнём, что приведённые исследования не прошли экспертную оценку, и ими не следует руководствоваться на практике.
В апрельском обзоре мы выделили три основные области исследований о новом коронавирусе:
- вирусология и молекулярная биология, где обсуждается сам вирус и вызванные им изменения на клеточном уровне;
- клиническая медицина, где обсуждаются вызванные вирусом болезни и их клинические характеристики;
- эпидемиология и исследования здравоохранения, где обсуждаются пути передачи вируса и меры сдерживания эпидемии.
Спустя месяц, данных о препринтах стало достаточно, чтобы рассмотреть их более детально. Для этого мы используем тематическое моделирование и анализируем заголовки и аннотации препринтов. Алгоритм статистически оценивает на текстовых данных, насколько близки друг другу используемые слова, и автоматически группирует их в кластеры. Эти кластеры мы можем интерпретировать как содержательные темы.
Мы пользуемся алгоритмом структурного тематического моделирования, который для каждого документа показывает, какие темы для него специфичны, и для каждой темы – какие слова для неё наиболее характерны. Таким образом, мы можем оценить, в какой пропорции в наших данных присутствует та или иная тема. Алгоритм также позволяет проанализировать, как на распределение тем влияют характеристики текстов: в нашем случае, это платформа, где препринт опубликован, и дата публикации.
Тематики препринтов
Взяв тексты аннотаций и заголовков препринтов, мы построили модель, которая выделила в этих данных 18 тем. На Рисунке 1 они отсортированы по тому, насколько выражено их присутствие в массиве препринтов. Каждая тема сопровождается пятью самыми характерными для неё терминами.
К примеру, самую популярную тему можно интерпретировать как социально-экономические контексты и последствия пандемии и карантина. В препринтах, где выражено её присутствие, обсуждается готовность национальных систем здравоохранения к эпидемии – например, Craig, Kalanxhi, and Hauck (2020) оценивают оснащённость и количество отделений интенсивной терапии в Африке.
Также появляются исследования того, как карантин влияет на преступность. Campedelli, Aziani, and Favarin (2020) и Ashby (2020) отмечают снижение преступности в городах США. Что логично, снижается число грабежей, но число угонов и краж со взломом почти не меняется. Как не меняется и статистика по домашнему насилию, а в Великобритании даже снижается – однако Halford et al. (2020) объясняют это тем, что, будучи вынужденными постоянно находиться рядом с насильниками, жертвы просто не могут сообщать о преступлениях в полицию.
Самая узкая тема интерпретируется как условия, влияющие на передачу вируса: ношение средств индивидуальной защиты, в первую очередь масок, а также факторы окружающей среды – температура и влажность. Авторы систематических обзоров подчёркивают, что эффективность тканевых масок напрямую зависит от того, правильно ли ими пользуются и надёжно ли они прилегают к лицу (Mondal, Das, and Goswami 2020). Поскольку клинические испытания эффективности масок в условиях коронавирусной инфекции ещё не проводились, Wei et al. (2020) делают обзор таких работ в контексте заболеваний, подобных гриппу. Авторы обнаруживают, что ношение маски снижает риск развития заболевания, особенно когда маски носят все, независимо от наличия или отсутствия симптомов.
Модель, к примеру, выделяет и такую тему, как отслеживание контактов через мобильные приложения и данные о перемещениях. Во время эпидемии важно как можно раньше выявлять заражённых, и мобильные приложения позволяют намного быстрее получать данные о взаимодействиях между людьми. Даже если приложением пользуюся только 20% населения, они всё равно оказываются полезнее традиционных способов отслеживания контактов через интервью с заболевшими (Kretzschmar et al. 2020).
Ещё одну тему можно интерпретировать как влияние социальных сетей на поведение – через распространение (дез)информации. Milani (2020) на данных Фейсбука изучает, как следование практикам физического дистанцирования зависит от кросс-граничных социальных связей. Автор показывает, что на восприятие риска и социальное поведение влияют истории из-за рубежа, особенно из Италии и США.
Тематические контексты
В каких контекстах темы обсуждаются в препринтах, можно оценить по Рисунку 2. Размер узла в этой сети соответствует относительной популярности темы в массиве препринтов, как и на Рисунке 1. Плотность линий показывает силу связи между темами, исходя из их совместной встречаемости в препринтах.
Например, заметно, что вопросы психологического здоровья – тревожность, воспринимаемые риски – иногда тоже обсуждаются в контексте (дез)информации, поступающей из Твиттера и других социальных сетей.
Тема моделирования заметно связана с темой нефармацевтических мер (non-pharmaceutical interventions, NPIs), в контексте моделирования эффектов от карантина и социальной изоляции, и с уже упомянутой темой отслеживания контактов через мобильные устройства, поскольку эти данные также используются для построения моделей.
К примеру, моделируя случай Бостона, Aleta et al. (2020) совмещают данные о перемещениях, полученные с мобильных устройств, с демографическими данными. Исследователи делают вывод, что одновременно запущенные нефармацевтические меры, тестирование на вирус и отслеживание контактов позволяют выявить и отправить на карантин 9% распространителей инфекции, у которых болезнь протекает бессимптомно. Благодаря снижению передачи вируса, в свою очередь, становится возможно снять ограничения на экономическую деятельность, не допуская при этом перегрузки системы здравоохранения.
Темы, связанные с клинической медициной – тяжесть заболевания, сопутствующие болезни и факторы риска, симптомы болезни, – формируют отдельную группу. Особняком стоят биологические темы про геном вируса, молекулярные механизмы связывания вируса в клетке и подавление этого процесса.
Вы также можете в интерактивном режиме оценить наполнение тем и близость между ними. Визуализация по ссылке показывает, какие слова наиболее релевантны каждой теме, и с какими темами в наибольшей степени соотносится то или иное слово. Для примера на Рисунке 3 мы выделили основу isol (изол-). Заметно, что она наиболее характерна для темы 5 про нефармацевтические меры, где относится к мерам физического дистанцирования, а также для темы 14 про геном вируса, где упоминается в контексте изоляции вируса.
К маю среди препринтов о новом коронавирусе продолжают отчётливо выделяться темы, связанные с клинической медициной и с вирусологией. Блок работ про распространение пандемии теперь дробится на два. Часть исследований используют эпидемиологические модели, чтобы изучать передачу вируса и эффект нефармацевтических мер. Другая часть препринтов основаны на статистических данных и анализируют социально-экономические и психологические контексты и последствия эпидемии.
Читайте на странице 2, как со временем меняется относительная выраженность тематик препринтов и на какие темы препринты публиковались в последний месяц.