Мы представляем первый аннотированный корпус отзывов о лекарствах со сложной разметкой (аннотацией) для текстов на русском языке, собранных из социальных источников. Коллекция текстов состоит из оценочных суждений пациентов о лекарственных препаратах различных фармакотерапевтических групп, которые не следуют формальным правилам грамматики и пунктуации русского языка.
В качестве источника данных был использован медицинский форум ОТЗОВИК, посвященный обзорам потребительских лекарственных препаратов. На данном форуме пользователи оставляют свои отзывы о препаратах, путём заполнения специальных форм. Форум предлагает два варианта форм: упрощенную и расширенную. В упрощённой форме пользователь выбирает название препарата и заполняет следующую информацию о препарате: достоинства и недостатки препарата, комментарий, общее впечатление, рекомендовал бы препарат друзьям. Расширенная форма является необязательной для заполнения и содержит цену, длительность использования, а также оценки по 5-балльной шкале для таких параметров, как: качество, упаковка, эффект, безопасность, доступность. Мы использовали информацию только из упрощенной формы, так как пользователи редко заполняли расширенную форму. При обработке данных отзывов, в корпусе учитывались только следующие поля: Заголовок, Общее впечатление и Комментарий. В будущей работе мы планируем расширить корпус, добавив информацию из следующих полей: Преимущества, Недостатки, Общая оценка и Рекомендации друзьям, для анализа тональности ответа и других задач обработки естественного языка.
Многие написанные отзывы не соответствуют формальной грамматике и правилам пунктуации. В некоторых отзывах пользователи описывают не только свой личный опыт, но иногда и мнения членов семьи, друзей или других людей. Пример заполненной формы для препарата “Глицин” показан в таблице “Пример отзыва” (орфография и пунктуация сохранены). Основные характеристики представленного корпуса описаны в разделе Статистика.
Общее впечатление | Помог чересчур! |
Преимущества | Цена |
Недостатки | отрицательно действует на работоспособность |
Порекомендуете ли Вы это своим друзьям? | Нет |
Комментарии | Начала пить недавно. Прочитала отзывы вроде все хорошо отзывались. Стала спокойной даже чересчур, на работе стала тупить, коллеги сказали что я какая то заторможенная, все время клонит в сон. Буду бросать пить эти таблетки. |
Аннотации содержат упоминания о таких понятиях, как Medication, Adverse Drug Reaction (ADR), Disease, Note. Два из них, Medication и Disease, включают в себя ряд дополнительных подтегов. Аннотации были выполнены аннотаторами с фармакологическим и медицинским образованием, которые пользовались специально разработанным совместно со специалистами по интеллектуальным методам анализа текстовых данных руководством. В работе (Sboev et al., 2021) также предложена baseline-модель для задачи выделения фармако-медицинских сущностей, которая включает в себя нейросетевые конволюционные и рекуррентные слои, контекстно-зависимые векторные представления слов, условные случайные поля и дополнительные признаки слов полученные из словарей тонально-эмотивной лексики. Предложенная модель показала результаты, сопоставимые с state-of-the-art результатами для данной задачи на стороннем корпусе данных, что показывает её применимость.
ADR Неблагоприятные побочные эффекты упомянутые в тексте. Например: «После недели приема Кортексина у ребенка начались судороги». В этом предложении слово “судороги” размечается как сущность ADR.
Рисунок 1. Пример разметки.
Первая версия корпуса, представленная на Международной конференции ЛаПлаз-2020 (Сбоева, Сбоев, Грязнов, & Евтеева, 2020), содержала 1660 отзывов, со средней длиной отзыва 896.38 символов.
Количество упоминаний сущностей:
Отзывы содержат упоминания 36 классов препаратов в соответствии с классификацией из Государственного реестра лекарственных средств. Самые популярные классы лекарств, упомянутые в корпусе, – противовирусные (74 лекарства) и седативные (39 лекарств). Общее число вхождения этих препаратов состоит из числа вхождений названия препарата, равных 48,52% и 17,07% соответственно. Число вхождений наиболее популярных препаратов из всех представленных в корпусе противовирусных препаратов: “Виферон” (Viferon) (6,9%), “Ингаверин” (5,41 %) и “Ацикловир”. (4,54%) и разделы седативных препаратов: “Глицин” (16,38%), “Валериана” (14,39%) “Афобазол” (8,93%).
С использованием этой версии корпуса в наших исследованиях были получены точности 86.7% для типа сущностей Medication, 73.4% для Disease, и 51.7% для сущностей типа ADR (во всех трёх случаях точность вычислялась по метрике f1-partial оценки совпадения слов в упоминаниях сущностей). Эти результаты были опубликованы в работах (Сбоева, Сбоев, Грязнов, & Евтеева, 2020) (дата принятия в печать 30 января 2020) и (Sboev et al., 2020).
В настоящее время корпус включает 2800 интернет-отзывов, в которых выделены 27987 упоминаний медицински- и фармакологически-значимых сущностей. Такой размер корпуса позволил провести полноценный анализ точности выделения различных типов сущностей из русскоязычных интернет-отзывов в условиях высокой вариативности стиля написания этих текстов в зависимости от относительного количества упоминаний сущностей различных типов (Sboev et al., 2021). На этом корпусе достигнуты точности 84.1% для сущностей типа Medication, 63.5% для Disease, и 52.8% для ADR сущностей, по метрике совпадения фраз упоминаний целиком (F1-exact). После балансировки корпуса путём исключения упоминаний сущностей типа Disease и Medication, чтобы их было не больше, чем ADR, точность выделения сущностей типа ADR повысилась до 61.1%.