Корпус и его версии (подвыборки)

Подробная информация о собранном корпусе представлена в Таблице ниже и включает:

В таблице представлено несколько различных выборок из общего корпуса (расширенная версия):

Тип сущности Версия I Версия II Сбалансированная версия II Подкорпус из 500 текстов
Количество аннотаций Количество отзывов Количество аннотаций Количество отзывов Средняя длина сущности (кол-во слов) Количество аннотаций Количество отзывов Количество аннотаций Количество отзывов
Medication 17875 1659 33005 2799 -- 13748 1250 5967 500
Drugname 4745 1655 8239 2793 1.2 3503 1247 1489 498
Drugform 3303 1266 5997 2194 1 2423 960 1041 387
MedMaker 954 816 1720 1451 1.4 750 629 273 228
SourceInfodrug 1267 878 2579 1579 1.7 1110 683 460 285
Drugclass 1786 1005 3113 1684 1 1317 747 577 313
DrugBrand 2584 1038 4656 1804 1.1 2021 812 873 335
Route 1470 817 3609 1733 2.2 1440 739 683 317
Duration 895 701 1515 1194 2 565 463 256 192
Dosage 506 387 960 706 2.5 407 313 202 143
Frequency 365 303 617 517 3.9 212 187 113 87
Disease 9222 1603 17403 2713 -- 6307 1180 2819 478
Diseasename 2215 917 4042 1628 1.2 1462 657 738 296
Indication 2310 955 4627 1783 1.7 1518 670 720 297
BNE-Pos 2967 1021 5620 1764 2.7 1990 676 809 289
NegatedADE 1532 641 2804 1104 3.2 1195 496 481 201
Worse* 83 51 224 134 4.6 99 61 52 35
ADE-Neg* 115 68 86 54 4 43 28 19 12
ADR 843 339 1778 625 2.4 1752 610 709 177
Note 2319 1004 4490 1861 -- 2273 905 902 359

Статистика по расширенной версии корпуса

Корпус содержит отзывы людей о различных медицинских препаратах (“Drugname”). Всего лекарственные средства упомянуты 8239 раз. Они относятся к 226 кодам АТХ (анатомо-терапевтическо-химическая классификация). Наиболее популярные 20% кодов АТХ (по количеству отзывов с соответствующими упоминаниями названий препаратов) содержат 45 различных кодов. Упоминания препаратов с этими кодами содержаться в 2614 отзывах (93% от всего корпуса). Среди 45 кодов можно выделить 20, которые встречаются более чем в 50 отзывах корпуса (всего отзывов с 20 кодами АТХ: 2511).

Доля отзывов об отечественных и зарубежных препаратах от общего количества отзывов составляет 44,9% и 39,7% соответственно. Остальные документы (15,4%) содержат упоминания нескольких лекарственных препаратов, как отечественных, так и зарубежных, или упоминания лекарств, происхождение которых аннотаторы не смогли определить. Среди отечественных препаратов можно выделить следующие: Анаферон (144 отзыва), Виферон (140), Ингавирин (99) и Глицин (98). Примеры упомянутых зарубежных препаратов: Афлубин (93), Амисон (55), Антигриппин (51) и Иммунал (42).

Что касается болезней (всего 4042 упоминаний в 1628 отзывах), то наиболее частыми категориями верхнего уровня классификатора МКБ-10 (Международная классификация болезней 10-го пересмотра \cite{ICD-10}) являются “X - Болезни органов дыхания” (1122 отзыва); “I - Некоторые инфекционные и паразитарные болезни” (300 отзывов); “V - Психические расстройства и расстройства поведения” (170 отзывов); “XIX - Травмы, отравления и некоторые другие последствия воздействия внешних причин” (82 отзыва). Топ-5 на иболее часто встречаемых в отзывах низкоуровневых кодов по классификации МКБ-10 представлены на Рис.1:

Рисунок 1. Топ 5 категорий заболеваний из МКБ-10

Рисунок 1. Топ 5 категорий заболеваний из МКБ-10.

Мотивация пользователя приобретать и употреблять лекарственные препараты основана на информации из “профессиональных” и “непрофессиональных” источников (атрибут “sourceInfoDrug”). Последние - это советы родственников, друзей, реклама и прочее. Медицинские и фармацевтические специалисты классифицируются как “профессиональные” источники. Большая часть препаратов использовалась в соответствии с профессиональными рекомендациями: 989 отзывов содержат ссылки на рецепты врачей, 262 - рекомендации фармацевтов и 252 - рекомендации врачей. В некоторых обзорах сообщается об употреблении лекарств, рекомендованных родственниками (207 отзывов), в рекламе (97) или в Интернете (15). Тепловая карта распределения показана на рис. 2. Тепловая карта распределения появлений сущностей для различных источников составлена для 20 самых популярных лекарств. Число в ячейке означает процент появления определенного названия препарата, используемого по рекомендации из соответствующего источника информации. Если было упомянуто несколько разных источников, это считается “смешанным” источником.

Рисунок 2. Тепловая карта

Рисунок 2. Тепловая карта.

Видно, что большинство рекомендаций исходят от профессионалов. Например,”Изопринозин”(используется в 65,85% случаев по назначению врача),”Афлубин”(44,09%), “Анаферон для детей”(47,30% ) и другие. Но для таких препаратот, как “Иммунал” (11,9%) или “Валериана” (9,18%) частота использования по советам знакомых пациентов близка к рекомендациям врачей или выше. “Амизон” (12,73%) и “Кагоцел” (11,27%) самые частоупотребимые среди препаратов, у которых в качестве источника рекомендаций указаны средств массовой информации (реклама, Интернет и др.).

Распределение тональности (положительное или отрицательное) для источников рекомендаций (“sourceInfoDrug”) представлено на рис. 3. Источник помечается как “положительный”, если после употребления препарата появляется положительная динамика (т.е. отзыв включает метку *“BNE-pos”). *“Отрицательная” тональность отмечается, если имеет место отрицательная динамика или ухудшение здоровья или если лекарство не оказало никакого эффекта (т.е. появилась метка “Worse”, *“ADE-Neg” или “NegatedADE”). Из диаграммы следует, что лекарства, назначенные врачом, чаще упоминаются как имеющие положительный эффект, в то время как употребление лекарств на основе рекламы часто приводит к ухудшению здоровья.

Рисунок 3. Тональность относительно источника рекомендаций

Рисунок 3. Тональность относительно источника рекомендаций.

Диаграммы на Рис. 4 показывают количество отзывов в %, в которых упоминались лекарства, а также замеченные эффекты из всех отзывов с данным препаратом (На рисунке представлены только 20 препаратов по максимальному количеству упоминаний). Следующие препараты имеют наибольшие доли для сущностей типа ADR (побочные реакции) в отзывах: иммуномодуляторы - “Изопринозин”(в 48.8% отзывов с этим препаратом есть упоминания о ADR ), “Амиксин” (40.0%); успокоительное средство - “Афобазол” (37.7%); противовирусные препараты - “Амизон” (36.4%), “Римантадин” (36,3%) и др.

Рисунок 4. Эффект от лекарства

Рисунок 4. Эффект от лекарства.

Пользователи отмечают, что некоторые лекарства вызывают отрицательную динамику после начала или некоторого периода его использования (ADE-Neg). Примерами таких препаратов являются: “Анаферон”, (3.5% отзывов, содержащих упоминания этого препарата и сущностей типа “ADE-Neg”), “Виферон” (2.1%), “Глицин” (4.1%), “Эргоферон” (3.6%).

Согласно отзывам, некоторые лекарства вызывают ухудшение здоровья после употребления алкоголя (“Worse”): иммуномодулятор - “Изопринозин” (12.2%), противовоспалительное средство “Ингавирин” (10.1%), “Эргоферон” (9.1%) и другие.

  1. Сбоева, С. Г., Сбоев, А. Г., Грязнов, А. В., & Евтеева, А. В. (2020). Нейросетевой алгоритм выделения значимой информации из текстов русскоязычных отзывов о лекарственных средствах. In Лазерные, плазменные исследования и технологии (pp. 105–106). Retrieved from http://conf.laplas.mephi.ru/wp-content/uploads/2020/02/Сборник-тезисов.pdf#page105
  2. Sboev, A., Sboeva, S., Moloshnikov, I., Gryaznov, A., Rybka, R., Naumov, A., … Ilyin, V. (2021). An analysis of full-size Russian complexly NER labelled corpus of Internet user reviews on the drugs based on deep learning and language neural nets. Retrieved from http://arxiv.org/abs/2105.00059