Описание корпуса RDRS (версий I и II) и принципов его разметки

Мы представляем первый аннотированный корпус отзывов о лекарствах со сложной разметкой (аннотацией) для текстов на русском языке, собранных из социальных источников. Коллекция текстов состоит из оценочных суждений пациентов о лекарственных препаратах различных фармакотерапевтических групп, которые не следуют формальным правилам грамматики и пунктуации русского языка.

В качестве источника данных был использован медицинский форум ОТЗОВИК, посвященный обзорам потребительских лекарственных препаратов. На данном форуме пользователи оставляют свои отзывы о препаратах, путём заполнения специальных форм. Форум предлагает два варианта форм: упрощенную и расширенную. В упрощённой форме пользователь выбирает название препарата и заполняет следующую информацию о препарате: достоинства и недостатки препарата, комментарий, общее впечатление, рекомендовал бы препарат друзьям. Расширенная форма является необязательной для заполнения и содержит цену, длительность использования, а также оценки по 5-балльной шкале для таких параметров, как: качество, упаковка, эффект, безопасность, доступность. Мы использовали информацию только из упрощенной формы, так как пользователи редко заполняли расширенную форму. При обработке данных отзывов, в корпусе учитывались только следующие поля: Заголовок, Общее впечатление и Комментарий. В будущей работе мы планируем расширить корпус, добавив информацию из следующих полей: Преимущества, Недостатки, Общая оценка и Рекомендации друзьям, для анализа тональности ответа и других задач обработки естественного языка.

Многие написанные отзывы не соответствуют формальной грамматике и правилам пунктуации. В некоторых отзывах пользователи описывают не только свой личный опыт, но иногда и мнения членов семьи, друзей или других людей. Пример заполненной формы для препарата “Глицин” показан в таблице “Пример отзыва” (орфография и пунктуация сохранены). Основные характеристики представленного корпуса описаны в разделе Статистика.


Пример отзыва

Общее впечатление Помог чересчур!
Преимущества Цена
Недостатки отрицательно действует на работоспособность
Порекомендуете ли Вы это своим друзьям? Нет
Комментарии Начала пить недавно. Прочитала отзывы вроде все хорошо отзывались. Стала спокойной даже чересчур, на работе стала тупить, коллеги сказали что я какая то заторможенная, все время клонит в сон. Буду бросать пить эти таблетки.

Аннотации содержат упоминания о таких понятиях, как Medication, Adverse Drug Reaction (ADR), Disease, Note. Два из них, Medication и Disease, включают в себя ряд дополнительных подтегов. Аннотации были выполнены аннотаторами с фармакологическим и медицинским образованием, которые пользовались специально разработанным совместно со специалистами по интеллектуальным методам анализа текстовых данных руководством. В работе (Sboev et al., 2021) также предложена baseline-модель для задачи выделения фармако-медицинских сущностей, которая включает в себя нейросетевые конволюционные и рекуррентные слои, контекстно-зависимые векторные представления слов, условные случайные поля и дополнительные признаки слов полученные из словарей тонально-эмотивной лексики. Предложенная модель показала результаты, сопоставимые с state-of-the-art результатами для данной задачи на стороннем корпусе данных, что показывает её применимость.

Описание тэгов

Рисунок 1. Пример разметки

Рисунок 1. Пример разметки.


Версия I (июль 2019 года)

Первая версия корпуса, представленная на Международной конференции ЛаПлаз-2020 (Сбоева, Сбоев, Грязнов, & Евтеева, 2020), содержала 1660 отзывов, со средней длиной отзыва 896.38 символов.

Количество упоминаний сущностей:

Отзывы содержат упоминания 36 классов препаратов в соответствии с классификацией из Государственного реестра лекарственных средств. Самые популярные классы лекарств, упомянутые в корпусе, – противовирусные (74 лекарства) и седативные (39 лекарств). Общее число вхождения этих препаратов состоит из числа вхождений названия препарата, равных 48,52% и 17,07% соответственно. Число вхождений наиболее популярных препаратов из всех представленных в корпусе противовирусных препаратов: “Виферон” (Viferon) (6,9%), “Ингаверин” (5,41 %) и “Ацикловир”. (4,54%) и разделы седативных препаратов: “Глицин” (16,38%), “Валериана” (14,39%) “Афобазол” (8,93%).

С использованием этой версии корпуса в наших исследованиях были получены точности 86.7% для типа сущностей Medication, 73.4% для Disease, и 51.7% для сущностей типа ADR (во всех трёх случаях точность вычислялась по метрике f1-partial оценки совпадения слов в упоминаниях сущностей). Эти результаты были опубликованы в работах (Сбоева, Сбоев, Грязнов, & Евтеева, 2020) (дата принятия в печать 30 января 2020) и (Sboev et al., 2020).

Версия II (апрель 2021 года)

В настоящее время корпус включает 2800 интернет-отзывов, в которых выделены 27987 упоминаний медицински- и фармакологически-значимых сущностей. Такой размер корпуса позволил провести полноценный анализ точности выделения различных типов сущностей из русскоязычных интернет-отзывов в условиях высокой вариативности стиля написания этих текстов в зависимости от относительного количества упоминаний сущностей различных типов (Sboev et al., 2021). На этом корпусе достигнуты точности 84.1% для сущностей типа Medication, 63.5% для Disease, и 52.8% для ADR сущностей, по метрике совпадения фраз упоминаний целиком (F1-exact). После балансировки корпуса путём исключения упоминаний сущностей типа Disease и Medication, чтобы их было не больше, чем ADR, точность выделения сущностей типа ADR повысилась до 61.1%.

  1. Sboev, A., Sboeva, S., Moloshnikov, I., Gryaznov, A., Rybka, R., Naumov, A., … Ilyin, V. (2021). An analysis of full-size Russian complexly NER labelled corpus of Internet user reviews on the drugs based on deep learning and language neural nets. Retrieved from http://arxiv.org/abs/2105.00059
  2. Сбоева, С. Г., Сбоев, А. Г., Грязнов, А. В., & Евтеева, А. В. (2020). Нейросетевой алгоритм выделения значимой информации из текстов русскоязычных отзывов о лекарственных средствах. In Лазерные, плазменные исследования и технологии (pp. 105–106). Retrieved from http://conf.laplas.mephi.ru/wp-content/uploads/2020/02/Сборник-тезисов.pdf#page105
  3. Sboev, A. G., Sboeva, S. G., Gryaznov, A. V., Evteeva, A. V., Rybka, R. B., & Silin, M. S. (2020). A neural network algorithm for extracting pharmacological information from Russian-language Internet reviews on drugs. In Journal of Physics: Conference Series (Vol. 1686, pp. 012037:1–6). IOP Publishing. https://doi.org/10.1088/1742-6596/1686/1/012037