Site icon Pandemic Science Maps

Препринты о COVID-19: как меняются темы (июньская версия)

К последствиям локдауна и испытаниям лекарств

Когда во всём мире чрезвычайная ситуация, исследователи стремятся публиковать свои результаты в свободном доступе и как можно быстрее. Доступный вариант – опубликовать препринт, работу, которая ещё не прошла рецензию и оценку качества, зато быстро попадает в открытый доступ онлайн. В этом посте мы показываем, на какие тематики дробятся препринты о коронавирусе SARS-CoV-2 и вызванном им заболевании COVID-19, и как эти темы менялись с февраля по июнь 2020 года. Про наши данные и методы читайте на странице 3.

В обзоре мы, где возможно, приводим в качестве источников препринты систематических обзоров и мета-анализов. Подчеркнём, что приведённые исследования не прошли экспертную оценку, и ими не следует руководствоваться на практике.

В майском обзоре мы отметили, что внутри массива работ про распространение COVID-19 выделилось два направления: модели передачи вируса и нефармацевтических мер контроля над эпидемией, и только-только набирающие популярность исследования социально-психологических последствий пандемии. При этом сохранялись объёмные блоки материалов по вирусологии и клинической медицине.

Сегодня мы показываем, как за последний месяц изменилось соотношение работ по разным темам. Для этого мы используем тематическое моделирование и анализируем заголовки и аннотации препринтов. Алгоритм статистически оценивает на текстовых данных, насколько близки друг другу используемые слова, и автоматически группирует их в кластеры. Эти кластеры мы можем интерпретировать как содержательные темы.

Мы пользуемся алгоритмом структурного тематического моделирования, который для каждого документа показывает, какие темы для него специфичны, и для каждой темы – какие слова для неё наиболее характерны. Таким образом, мы можем оценить, в какой пропорции в наших данных присутствует та или иная тема. Алгоритм также позволяет проанализировать, как на распределение тем влияют характеристики текстов: в нашем случае, это платформа, где препринт опубликован, и дата публикации.

Тематики препринтов

Взяв тексты аннотаций и заголовков препринтов, мы построили модель, которая выделила в этих данных 20 тем. На Рисунке 1 они отсортированы по тому, насколько выражено их присутствие в массиве препринтов. Каждая тема сопровождается пятью самыми характерными для неё терминами.

Рисунок 1. Выраженность автоматически выделенных тем в описаниях препринтов о новом коронавирусе, опубликованных с 1 февраля по 30 июня 2020 г.
Темы сопровождаются пятью самыми характерными для них терминами, укороченными до основы. Кликните на рисунок, чтобы смотреть в полном размере (открывается в новой вкладке)

Тема социально-экономических последствий эпидемии продолжает лидировать в массиве текстов. С течением времени начинают появляться статистические данные, например, о состоянии экономики. Поэтому исследования, где эта тема стречается, посвящены уже не только преступности, но и влиянию локдауна на экономику и жизнь разных социальных групп, а также влиянию социальных характеристик на поведение в пандемию (подробнее – на странице 2 обзора).

На фоне остальных стали ярче темы про психологические последствия эпидемии и средства индивидуальной защиты. За время карантина собраны данные для лонгитюдных исследований стресса и тревожности в общем у населения и у медицинского персонала в частности. Что касается масок и средств индивидуальной защиты (СИЗ), если прежние работы в основном анализировали СИЗ в контексте больницы, то с постепенным выходом стран из локдауна появились данные о том, как ношение масок влияет на распространение вируса в обществе.

Тематические контексты

В каких контекстах темы обсуждаются в препринтах, можно оценить по Рисунку 2. Размер узла в этой сети соответствует относительной популярности темы в массиве препринтов, как и на Рисунке 1. Плотность линий показывает силу связи между темами, исходя из их совместной встречаемости в препринтах.

Рисунок 2. Сеть корреляции автоматически выделенных тем в описаниях препринтов о новом коронавирусе, опубликованных с 1 февраля по 30 июня 2020 г.
Связи обозначают, что темы упоминались вместе в одних и тех же описаниях препринтов. Ширина линий соответствует весу связей, то есть силе корреляции (отображены только связи с показателем корреляции больше 0.05). Размер названия темы соответствует популярности темы в массиве данных. Кликните на рисунок, чтобы смотреть в полном разрешении (открывается в новой вкладке)

По сравнению с прошлым обзором, исследования социально-экономических последствий карантина стали отчётливее связаны с нефармацевтическими интервенциями. Заметны и изменения в биолого-медицинской части карты. Препринты о клинических проявлениях болезни становятся ближе к исследованиям молекулярных механизмов и генетики вируса. Это связано с тем, что появляются мета-анализы и данные о клинических эффектах потенциальных лекарств против COVID-19, а также о том, как лекарства от других болезней взаимодействуют с вирусом.

Например, препараты от гипертонии – ингибиторы ангиотензинпревращающего фермента (АПФ) и блокаторы рецепторов ангиотензина (БРА) II. Их выписывают, чтобы предотвратить вредное воздействие гормона ангиотензина на стенки сосудов. Однако, чтобы разрушить ангиотензин, эти лекарства стимулируют выработку АПФ2, который является «точкой входа» коронавируса в организм, его мишенью. Из-за этого высказывались опасения, не ухудшат ли ингибиторы АПФ состояние пациентов с COVID-19, сделав их более уязвимыми для вируса.

Тем не менее, в ряде исследований и систематических обзоров отмечается, что эти препараты не повышают риск смертности, при этом снижают тяжесть заболевания (Abdulhak et al. 2020; Choi et al. 2020; Diaz-Arocutipa, Saucedo-Chinchay, and Hernandez 2020). В новом препринте систематического обзора Qu et al. (2020) также не нашлось подтверждений тому, что препараты ухудшают состояние пациентов. И напротив, обнаружились свидетельства в пользу того, что приём ингибиторов АПФ снижает у пациентов риск смертности. Исследователи рекомендуют по крайней мере не прекращать приём этих препаратов, если заболевшие COVID-19 уже принимали их.

Читайте на странице 2, как со временем меняется относительная выраженность тематик препринтов и на какие темы препринты публиковались в последний месяц.

Динамика тем

За пять месяцев, прошедших с начала февраля, относительная популярность менялась далеко не у всех тем из полученного нами набора. Поэтому из 20 тем, выделенных на предыдущем этапе, мы отобрали те, которые в последнее время стали видимо и статистически значимо выделяться в массиве препринтов.

На Рисунке 3 показано, как менялась относительная популярность шести заметных тем. (В график не включена динамика самого конца июня, поскольку в этот период было не так много публикаций, и репрезентация получается ненаглядной.)

Рисунок 3. Динамика относительной популярности тем в препринтах про новый коронавирус с течением времени. Показаны шесть тем с наиболее заметной динамикой

Социально-экономические последствия эпидемии

В прошедший месяц появлялись исследования отдельных аспектов социальной жизни в пандемию, а также закладывались основы будущих систематических социально-экономических исследований. Одна из рабочих групп инициативы CONVERGE COVID-19 сформулировала повестку сравнительных экономических исследований пандемии (Chang et al. 2020). Среди вопросов – как эпидемия COVID-19 отличается от других кризисов по воздействию на экономику? какие элементы кризисного менеджмента оказались полезны? какую роль играл местный институциональный контекст? 

В эмпирическом исследовании местного контекста Hu and Shan (2020) показывают, как локальная структура экономики влияет на решение людей дистанцироваться, в том числе через повышение уровня тревожности. Люди в штатах с высокой долей сырьевых отраслей меньше тревожились и меньше соблюдали дистанцию, а в штатах с преобладающей долей третичного и четвертичного секторов (сфера развлечений, туризм, банковские и финансовые услуги и пр.) тревожились больше и чаще предпочитали дистанцироваться. Как отмечают авторы, фактор локальной структуры экономики будет полезен для калибровки местной политики здравоохранения и будущих планов вакцинации.

Продолжая линию институциональных особенностей, Akim and Ayivodji (2020) отмечают, что люди соблюдают социальное дистанцирование лучше, если карантин сопровождается экономическими и налоговыми мерами поддержки (а также если у них есть доступ к интернету и они активно получают информацию о пандемии).

В некоторых работах рассматриваются социальные факторы на микро-уровне, стоящие за соблюдением карантина. Brough, Freedman, and Phillips (2020) приходят к выводу, что на фоне повсеместно снизившихся пассажиропотоков, менее образованные и менее обеспеченные люди пользовались общественным транспортом весьма часто. Образование и доход как минимум наполовину объясняют наблюдаемую разницу в том, как социальные группы пользуются транспортом в пандемию.

Социальные группы с низким доходом вообще очень уязвимы к социально-экономическим последствиям пандемии. Enriquez and Goldstein (2020) выделяют четыре аспекта, которыми сопровождается эпидемия и социальное дистанцирование для малообеспеченных людей: трудности с тем, чтобы содержать жилище, чтобы покупать еду, растущие долги и потеря работы. Большая доля получателей продуктовых талонов, которых опрашивали исследователи, ощущает воздействие хотя бы одного из этих факторов, а чаще – двух-трёх.

Психологические последствия эпидемии

В лонгитюдных исследованиях населения отмечается, что за один-два месяца карантина у людей повысился уровень стресса, тревожности, стали ярче проявляться депрессивные симптомы. При этом для женщин эффекты были заметнее, чем для мужчин; эта разница подтверждается в большинстве работ (Gopal, Sharma, and Subramanyam 2020; Niedzwiedz et al. 2020). Также ухудшение психологического состояния больше выражено у молодых людей и людей с высшим образованием (Daly, Sutin, and Robinson 2020), у людей, регулярно читающих новости о COVID-19, а вот ежедневная физическая активность, по-видимому, благотворно влияет на психику (Planchuelo-Gómez et al. 2020). По данным Sun et al. (2020), воспринимаемая угроза вируса и воспринимаемая стигма вокруг заболевания COVID-19 – главные факторы, усиливающие расстройство психики.

Среди медицинского персонала хуже всего пришлось медсёстрам, психологическое состояние которых ухудшалось вплоть до соматизации и параноидного мышления (Zhang et al. 2020). Garcia-Batista et al. (2020) отмечают, что медперсонал в условиях сильного стресса пользовался стратегией подавления эмоций. Как считают исследователи, чтобы предотвратить возникновение посттравматического синдрома и снизить уровень стресса, стоит продвигать другие стратегии регулирования эмоций.

Нефармацевтические меры контроля

Исследования этой группы оценивают эффективность нефармацевтических интервенций в общем и относительную эффективность каждой из принятых мер. Например, Hale et al. (2020) на данных из 170 стран подтверждают выводы эпидемиологических исследований, что мягкие ограничительные меры, принятые с опозданием, связаны с большим числом смертей от эпидемии, чем жёсткие и ранние меры. Yaesoubi et al. (2020) разработали систему поддержки принятия решений, чтобы ввести физическое дистанцирование вовремя и минимизировать его негативные социально-экономические последствия. Для этого используются данные реального времени и правила, исходя из которых принимается решение ввести, продолжить либо снять ограничения на физические контакты.

В случае США, три нефармацевтические интервенции особенно помогли снизить число заболевших: закрытие всех бизнесов, кроме жизненно необходимых, запрет на массовые собрания и ограничения в работе ресторанов и баров (Guo et al. 2020). На данных из 41 страны Brauner et al. (2020) подтвердили, что ограничить размер собраний было важно, чтобы снизить темп распространения вируса, так же как и закрыть школы, тестировать людей с симптомами болезни и закрыть предприятия с высоким риском заразиться. Однако исследователи заметили, что закрытие всех предприятий, кроме жизненно необходимых, а также всеобщая самоизоляция, вероятно, были избыточными мерами, так как сильно сказались на социально-экономическом положении людей, но не дали сопоставимого эффекта на распространение инфекции.

Li et al. (2020) анализировали данные из 167 территориальных единиц в мире и тоже пришли к выводу, что ограничения на массовые собрания и закрытия школ сильнее всего снизили число заражений (30% и 17%, соответственно). Согласно этому исследованию, всеобщая самоизоляция, там, где она была введена, снизила число заражений на 74%.

Если говорить о планировании выхода из локдауна, самой безопасной стратегией Ziauddeen, Subramaniam, and Gurdasani (2020) называют искоренение: снижение индекса репродукции вируса до минимально возможного значения, как это было сделано в Южной Корее, Новой Зеландии и Австралии. Даже если индекс репродукции меньше единицы, со снятием карантина любые его небольшие изменения повлекут за собой заметный рост числа заболевших.

Отслеживание контактов

Willem et al. (2020) подчёркивают, что своевременное выявление контактов – один из факторов успешного контроля над эпидемией после снятия карантина. В то же время автоматическое отслеживание контактов – например, через мобильное приложение – далеко не всеми воспринимается положительно. Потенциальные пользователи могут бояться за безопасность своих данных или бояться осуждения, если думают, что приложение сообщает другим пользователям их диагноз. В связи с этим Williams et al. (2020) рекомендуют, как правильно распространять информацию о приложениях. Например, стоит пояснять, какую информацию получают и предоставляют пользователи, и предлагать ясный слоган, подчёркивающий коллективную ответственность пользователей.

Сколько людей должны пользоваться соответствующими приложениями для их эффективности? Moon and Scoglio (2020) показывают, что даже 20%-ного охвата достаточно, чтобы через отслеживание контактов наполовину уменьшить масштаб вспышки эпидемии при снятии карантина. Однако по оценкам систематического обзора Braithwaite et al. (2020), для приложения с полностью автоматическим отслеживанием контактов, доля пользователей должна составлять 56–95% населения. При этом полуавтоматическое отслеживание контактов позволяет быстрее идентифицировать возможную угрозу заражения и предоставить более полную информацию о контактах. 

Ряд исследований посвящены балансу между числом выявленных случаев передачи вируса, с одной стороны, и количеством здоровых людей на карантине, с другой. Firth et al. (2020) отмечают, что полезно отслеживать контакты контактов, но чтобы на карантине не сидела половина населения, это стоит делать только на локальном уровне, где люди контактируют суммарно дольше или на меньшем расстоянии. Lunz, Batt, and Ruess (2020) вычисляют пороговое значение потенциально заразных контактов, по превышении которого мобильное приложение должно отправить пользователю уведомление и рекомендацию самоизолироваться.

Наконец, Sturniolo et al. (2020) разрабатывают модель эпидемии, которая, в отличие от обычных компартментальных моделей, воспроизводит эффекты отслеживания контактов так же точно, как более сложная агентная модель, но с меньшими вычислительными затратами, и может использоваться для оценки необходимых нефармацевтических мер контроля.

Маски и средства индивидуальной защиты

Одна из стратегий нефармацевтического контроля над эпидемией – требование обязательного ношения масок или респираторов. Если нет возможности пользоваться респиратором или одноразовыми масками, остаётся вариант самодельных многоразовых масок, и препринты последнего месяца показывают, насколько они эффективны.

Среди всех материалов для самодельных масок, по данным Parlin et al. (2020), эффективнее всего шёлк. По сравнению с хлопком и полиэстером, шёлковые ткани пропускают меньше капель (а COVID-19 преимущественно распространяется воздушно-капельным и аэрозольным путём), при этом в них удобнее дышать. Chen and Dong (2020) рассчитывают индекс проникновения вируса через самодельные маски, но уже не в каплях, а в аэрозоле. Авторы отмечают, что если индекс принимает значения 70–90% и маски носят все, то индекс репродукции вируса снижается. Эти выводы подкреплены немецкими, австрийскими и чешскими данными.

Leffler et al. (2020) связывают ношение масок со смертностью от эпидемии на душу населения в 198 странах. Там, где культурные нормы или жёсткая политика предписывали ношение масок, еженедельный прирост смертности составлял в среднем не 54%, а только 8%. По данным Deforche et al. (2020) только за 10 дней карантина и обязательного ношения масок в Словакии число передач вируса упало в два раза. Для США Chernozhukov, Kasahara, and Schrimpf (2020) предполагают, что (невведённое) обязательство носить маски снизило бы количество заражений и смертности в диапазоне 17–55% за два месяца, с 1 апреля по конец мая.

Pedersen and Meneghini (2020) показывают на итальянских данных, что постепенное снятие ограничений на социальную жизнь в начале мая не привело к росту заболеваемости, предположительно благодаря повсеместному использованию масок и других средств и практик защиты от вируса. Mitze et al. (2020) сравнивают земли Германии, где маски стали обязательными в разное время. В зависимости от региона, в 10 дней, следующих за введением требования, число заражений снизилось на 2.3–13%. При этом маски на 40% снизили ежедневный прирост числа выявленных случаев передачи вируса.

Испытания лекарств от COVID-19

Ремдесивир

В препринте систематического обзора об эффектах разных лекарственных препаратов Kim et al. (2020) подчёркивают, что данные клинических испытаний по большей части пока ненадёжны. При этом в числе препаратов, которые безопасны для пациентов с COVID-19 и эффективно улучшают их состояние, исследователи называют ремдесивир. Данные соответствующих исследований авторы препринта оценивают как надёжные.

В конце мая Piscoya et al. (2020) отмечали, что из-за недостаточного количества и качества клинических испытаний нельзя однозначно оценить, как ремдесивир влияет на состояние пациентов с COVID-19. В то же время Alexander et al. (2020) и позже Zhu et al. (2020) обнаружили небольшое положительное снижение смертности и времени выздоровления у пациентов, принимавших ремдесивир.

Хлорохин и гидроксихлорохин 

В уже упоминавшемся обзоре Kim et al. (2020) подтверждается, что противомалярийный препарат гидроксихлорохин малоэффективен для выведения вируса из организма, при этом, по некоторым свидетельствам, небезопасен для сердца и вызывает другие побочные эффекты. Thibault et al. (2020) не находят доказательств того, что гидроксихлорохин снижает смертность, Elavarasi et al. (2020) приходят к аналогичному выводу и для хлорохина, и для гидроксихлорохина. При этом все исследователи вновь отмечают ненадёжность клинических данных.

На странице 3 вы найдёте описание наших данных и методов.

Данные и методы

Nicholas Fraser разработал и выложил в открытый доступ всю процедуру и код для сбора данных – спасибо ему. На figshare он детально комментирует процедуру. Вкратце: мы собираем данные о препринтах из репозиториев Crossref (где индексируются препринты, опубликованные на многих платформах) и arXiv. Для анализа мы отбираем только те препринты, в заголовках и аннотациях которых встречаются термины coronavirus,covid-19, sars-cov, ncov-2019, 2019-ncov. К этому ряду мы добавили corona virus, в раздельном написании, чтобы находить больше релевантных документов.

В итоге на 30 июня 2020 г. мы собрали 12,929 релевантных препринтов. Рисунок 4 показывает, как со временем росло их количество.

Рисунок 4. Динамика числа препринтов, посвящённых новому коронавирусу и опубликованных на разных платформах (на 30 июня 2020 г.)
Платформы, где было опубликовано менее 20 препринтов за данный период, объединены под категорией Other. Кликните на рисунок, чтобы смотреть в полном размере (открывается в новой вкладке)

Чтобы увеличить объём данных для анализа тем, мы соединили заголовки и аннотации препринтов. Затем мы почистили эти объединённые тексты, оставив в них только существительные, прилагательные и глаголы с помощью пакета udpipe. Также мы удалили из текстов слова, формально описывающие структуру исследования (abstract, summary, methods, research и пр.), слова, обозначающие новый коронавирус, и слишком общие понятия здравоохранения (coronavirus, SARS-CoV-2, health, pandemic, country и пр.), поскольку они встречаются почти в каждом тексте и не говорят о специфике темы.

Затем мы отфильтровали большую часть документов не на английском языке. Поскольку в мета-данных о препринтах нет информации о языке публикации, мы пользовались пакетом textcat, чтобы автоматически определить язык текста. Ряд текстов алгоритм ошибочно классифицировал как неанглоязычные, а некоторые тексты не на английском – не распознал. Мы решили удалить только те тексты, которые алгоритм идентифицировал как неанглоязычные и которые были опубликованы на Open Science Framework, где находилось большинство неанглоязычных публикаций. Это позволило нам сохранить в данных тексты, отнесённые к неанглоязычным по ошибке. Таким образом, в нашем массиве остаются некоторые неанглоязычные тексты, но в незначительном количестве, что не влияет на разбиение по темам. В итоге из 12,929 препринтов для анализа осталось 12,832.

Мы построили структурную тематическую модель, пользуясь пакетом stm. Для моделирования мы сократили все слова до их основ и оставили для анализа только те слова, которые как минимум дважды встречались в массиве текстов. Источник и дата публикации препринта использовались как ковариаты в модели. Поскольку число тем задаётся исследователем, мы остановились на решении, которое разбивает массив данных на 20 тем. Модель с такими параметрами сошлась на шаге 75.

Для построения графиков использовались функции пакета stm и stminsights.