Перейти к контенту

Препринты о COVID-19: как меняются темы (майская версия)

От симптомов болезни к моделям бессимптомной передачи по данным мобильных устройств

Когда во всём мире чрезвычайная ситуация, исследователи стремятся публиковать свои результаты в свободном доступе и как можно быстрее. Доступный вариант – опубликовать препринт, работу, которая ещё не прошла рецензию и оценку качества, зато быстро попадает в открытый доступ онлайн. В этом посте мы показываем, на какие тематики дробятся препринты о коронавирусе SARS-CoV-2 и вызванном им заболевании COVID-19, и как эти темы менялись с января по май 2020. Про наши данные и методы читайте на странице 3.

В обзоре мы, где возможно, приводим в качестве источников препринты систематических обзоров и мета-анализов. Подчеркнём, что приведённые исследования не прошли экспертную оценку, и ими не следует руководствоваться на практике.

В апрельском обзоре мы выделили три основные области исследований о новом коронавирусе:

  • вирусология и молекулярная биология, где обсуждается сам вирус и вызванные им изменения на клеточном уровне;
  • клиническая медицина, где обсуждаются вызванные вирусом болезни и их клинические характеристики;
  • эпидемиология и исследования здравоохранения, где обсуждаются пути передачи вируса и меры сдерживания эпидемии.

Спустя месяц, данных о препринтах стало достаточно, чтобы рассмотреть их более детально. Для этого мы используем тематическое моделирование и анализируем заголовки и аннотации препринтов. Алгоритм статистически оценивает на текстовых данных, насколько близки друг другу используемые слова, и автоматически группирует их в кластеры. Эти кластеры мы можем интерпретировать как содержательные темы.

Мы пользуемся алгоритмом структурного тематического моделирования, который для каждого документа показывает, какие темы для него специфичны, и для каждой темы – какие слова для неё наиболее характерны. Таким образом, мы можем оценить, в какой пропорции в наших данных присутствует та или иная тема. Алгоритм также позволяет проанализировать, как на распределение тем влияют характеристики текстов: в нашем случае, это платформа, где препринт опубликован, и дата публикации.

Тематики препринтов

Взяв тексты аннотаций и заголовков препринтов, мы построили модель, которая выделила в этих данных 18 тем. На Рисунке 1 они отсортированы по тому, насколько выражено их присутствие в массиве препринтов. Каждая тема сопровождается пятью самыми характерными для неё терминами.

Рисунок 1. Выраженность автоматически выделенных тем в описаниях препринтов о новом коронавирусе, опубликованных с 15 января по 17 мая 2020 г.
Темы сопровождаются пятью самыми характерными для них терминами, укороченными до основы. Кликните на рисунок, чтобы смотреть в полном размере (открывается в новой вкладке)

К примеру, самую популярную тему можно интерпретировать как социально-экономические контексты и последствия пандемии и карантина. В препринтах, где выражено её присутствие, обсуждается готовность национальных систем здравоохранения к эпидемии – например, Craig, Kalanxhi, and Hauck (2020) оценивают оснащённость и количество отделений интенсивной терапии в Африке.

Также появляются исследования того, как карантин влияет на преступность. Campedelli, Aziani, and Favarin (2020) и Ashby (2020) отмечают снижение преступности в городах США. Что логично, снижается число грабежей, но число угонов и краж со взломом почти не меняется. Как не меняется и статистика по домашнему насилию, а в Великобритании даже снижается – однако Halford et al. (2020) объясняют это тем, что, будучи вынужденными постоянно находиться рядом с насильниками, жертвы просто не могут сообщать о преступлениях в полицию.

Самая узкая тема интерпретируется как условия, влияющие на передачу вируса: ношение средств индивидуальной защиты, в первую очередь масок, а также факторы окружающей среды – температура и влажность. Авторы систематических обзоров подчёркивают, что эффективность тканевых масок напрямую зависит от того, правильно ли ими пользуются и надёжно ли они прилегают к лицу (Mondal, Das, and Goswami 2020). Поскольку клинические испытания эффективности масок в условиях коронавирусной инфекции ещё не проводились, Wei et al. (2020) делают обзор таких работ в контексте заболеваний, подобных гриппу. Авторы обнаруживают, что ношение маски снижает риск развития заболевания, особенно когда маски носят все, независимо от наличия или отсутствия симптомов. 

Модель, к примеру, выделяет и такую тему, как отслеживание контактов через мобильные приложения и данные о перемещениях. Во время эпидемии важно как можно раньше выявлять заражённых, и мобильные приложения позволяют намного быстрее получать данные о взаимодействиях между людьми. Даже если приложением пользуюся только 20% населения, они всё равно оказываются полезнее традиционных способов отслеживания контактов через интервью с заболевшими (Kretzschmar et al. 2020).

Ещё одну тему можно интерпретировать как влияние социальных сетей на поведение – через распространение (дез)информации. Milani (2020) на данных Фейсбука изучает, как следование практикам физического дистанцирования зависит от кросс-граничных социальных связей. Автор показывает, что на восприятие риска и социальное поведение влияют истории из-за рубежа, особенно из Италии и США.

Тематические контексты

В каких контекстах темы обсуждаются в препринтах, можно оценить по Рисунку 2. Размер узла в этой сети соответствует относительной популярности темы в массиве препринтов, как и на Рисунке 1. Плотность линий показывает силу связи между темами, исходя из их совместной встречаемости в препринтах.

Рисунок 2. Сеть корреляции автоматически выделенных тем в описаниях препринтов о новом коронавирусе, опубликованных с 19 января по 17 мая 2020 г.
Связи обозначают, что темы упоминались вместе в одних и тех же описаниях препринтов. Ширина линий соответствует весу связей, то есть силе корреляции (отображены только связи с показателем корреляции больше 0.05). Размер названия темы соответствует популярности темы в массиве данных. Кликните на рисунок, чтобы смотреть в полном разрешении (открывается в новой вкладке)

Например, заметно, что вопросы психологического здоровья – тревожность, воспринимаемые риски – иногда тоже обсуждаются в контексте (дез)информации, поступающей из Твиттера и других социальных сетей. 

Тема моделирования заметно связана с темой нефармацевтических мер (non-pharmaceutical interventions, NPIs), в контексте моделирования эффектов от карантина и социальной изоляции, и с уже упомянутой темой отслеживания контактов через мобильные устройства, поскольку эти данные также используются для построения моделей.

К примеру, моделируя случай Бостона, Aleta et al. (2020) совмещают данные о перемещениях, полученные с мобильных устройств, с демографическими данными. Исследователи делают вывод, что одновременно запущенные нефармацевтические меры, тестирование на вирус и отслеживание контактов позволяют выявить и отправить на карантин 9% распространителей инфекции, у которых болезнь протекает бессимптомно. Благодаря снижению передачи вируса, в свою очередь, становится возможно снять ограничения на экономическую деятельность, не допуская при этом перегрузки системы здравоохранения.

Темы, связанные с клинической медициной – тяжесть заболевания, сопутствующие болезни и факторы риска, симптомы болезни, – формируют отдельную группу. Особняком стоят биологические темы про геном вируса, молекулярные механизмы связывания вируса в клетке и подавление этого процесса.

Вы также можете в интерактивном режиме оценить наполнение тем и близость между ними. Визуализация по ссылке показывает, какие слова наиболее релевантны каждой теме, и с какими темами в наибольшей степени соотносится то или иное слово. Для примера на Рисунке 3 мы выделили основу isol (изол-). Заметно, что она наиболее характерна для темы 5 про нефармацевтические меры, где относится к мерам физического дистанцирования, а также для темы 14 про геном вируса, где упоминается в контексте изоляции вируса.

Рисунок 3. Карта близости тем (многомерное шкалирование, пример)
Размеры кругов соответствуют выраженности темы в массиве данных (в данном случае – насколько тема представлена в препринтах, содержащих термин isol-; подсвечена тема, соответствующая этому слову больше всего).
Столбчатый график справа отображает 30 слов, в наибольшей степени характеризующих выделенную теме, с заданным параметром исключительности λ. Чем ниже значение параметра, тем более редкие слова отображаются справа – термины, уникальные для выделенной темы. Чем выше значение параметра, тем более частотные и в том числе более общие слова отображаются. Красные столбцы показывают, насколько часто слово встречается в выделенной теме, а синие – насколько часто оно встречается в полном массиве данных

К маю среди препринтов о новом коронавирусе продолжают отчётливо выделяться темы, связанные с клинической медициной и с вирусологией. Блок работ про распространение пандемии теперь дробится на два. Часть исследований используют эпидемиологические модели, чтобы изучать передачу вируса и эффект нефармацевтических мер. Другая часть препринтов основаны на статистических данных и анализируют социально-экономические и психологические контексты и последствия эпидемии.

Читайте на странице 2, как со временем меняется относительная выраженность тематик препринтов и на какие темы препринты публиковались в последний месяц.

Страницы: 1 2 3