Отчет о точности алгоритма Skinive 2022

Сравнительный анализ Skinive 2021 — 2022 гг.

Авторы: Кирилл С., Виктор С.

1. Введение

Заболевания кожи являются наиболее распространенной причиной всех болезней человека. Эта патология встречается почти у 900 миллионов человек в мире [1]. В мире известно более 3000 кожных заболеваний. Рак кожи в настоящее время является наиболее распространенным видом злокачественных новообразований среди белого населения. Особенно меланома — рак кожи с наихудшим прогнозом [2]. Заболеваемость меланомой и немеланомным раком кожи растет во всем мире. В Европе в ближайшие десятилетия следует ожидать уровня заболеваемости 40-50/100 000 жителей/год [3]. Кожные заболевания причиняют финансовое, социально-экономическое и психологическое бремя обществу. Кроме того, кожная патология создает нагрузку на врачей общей практики и врачей-специалистов. Согласно статистическим исследованиям, среднее количество дерматологов в европейских странах недостаточно. Оно составляет всего 5 человек на 100 000 жителей [4].

Необходимы меры, направленные на более раннее выявление кожных заболеваний. Перспективным направлением является внедрение технологий машинного обучения. Это подтверждает Чуи, который показал, что в медицине можно автоматизировать 36 % функций. Особенно на уровне сбора и анализа данных [5]. Особое значение в развитии такой автоматизации имеет разработка мобильных приложений. Приложения являются очень удобными инструментами для рутинного и широкого использования в клинической практике.

Приложения для мобильных телефонов широко используются в дерматологии. Поскольку визуальную составляющую кожных заболеваний можно легко оцифровать с помощью камеры мобильного телефона. Затем изображение может быть проанализировано алгоритмами машинного обучения для определения патологии. На основании полученных результатов пользователь получает рекомендации по дальнейшим действиям.

Потенциал приложений для искусственного обнаружения кожных заболеваний особенно актуален в периоды неблагоприятной эпидемиологической обстановки. Например, во время пандемии COVID-19, когда очные медицинские консультации недоступны и особое значение приобретает дистанционное оказание медицинских услуг [6].

1.1 Использование искусственного интеллекта в дерматологии

Возможности глубокого машинного обучения в распознавании кожных заболеваний и дифференциальной диагностике вдохновляют. Они демонстрируют способность помогать врачам в их повседневной практике. Такие решения позволяют сортировать случаи для определения приоритетности клинической помощи, помогают не-дерматологам более точно начать оказание дерматологической помощи. Наконец, они потенциально улучшают доступ к необходимой медицинской помощи.

Точность диагностики кожных заболеваний у врачей общей практики (ВОП) и дерматологов значительно отличается. Например, исследование показало, что точность распознавания меланомы среди врачей общей практики составляет всего 0,49-0,80. Среди дерматологов этот показатель достигает 0,85-0,89 [7].

В другом исследовании сравнивалась точность распознавания патологии кожи алгоритмом машинного обучения и медицинскими специалистами [8]. Исследование показало, что точность нейросетевой диагностики составляет 90 % (для первых трех результатов). Таким образом, это говорит о том, что точность алгоритмов машинного обучения может быть сопоставима с точностью дерматологов. Она значительно выше, чем у врачей первичного звена.

Несмотря на очевидные преимущества, использование программных продуктов для решения таких важных задач, как выявление кожных заболеваний, подвергается критике. Аргументом критиков является сомнительная чувствительность и специфичность, а также отсутствие стандартизированного подхода к тестированию у производителей, что является необходимым условием для объективной оценки. Внедрение подобных решений в клиническую практику возможно только при наличии хорошо обученной нейронной сети [9]. Это подразумевает целый ряд мероприятий, включая создание обучающих и валидационных наборов данных, регулярное переобучение нейронной сети, улучшение внешней оболочки для удобства использования мобильного приложения конечным пользователем и другие [10].

Иллюстрацией работы по совершенствованию сети и полученных результатов может служить нейронная сеть Skinive.

2. Материалы и методы исследования точности скинирования

2.1. Характеристики нейронной сети Skinive

Алгоритм Skinive представляет собой модель предварительно обученных полноконволюционных дерматологических нейронных сетей и прикладное программное обеспечение нейросетевой среды, которые располагаются в защищенном облаке и интегрируются с приложениями (веб-, мобильными и другими программами) с помощью API-сервиса.

Алгоритм Skinive является ключевой технологией подобных приложений и представляет собой модель предварительно обученных дерматологических нейронных сетей и прикладного программного обеспечения нейросетевой среды, которые размещены в защищенном облаке и интегрированы с помощью API-сервиса.

Точность алгоритмов распознавания Skinive постоянно повышается за счет систематического пополнения базы данных изображениями кожных патологий, а также совершенствования алгоритма обработки. Каждое изображение перед отправкой на обучение алгоритма проходит клиническое тестирование у дерматолога. Благодаря тесному сотрудничеству с медицинскими учреждениями, некоторые из случаев, используемых для повышения точности программного диагностического теста, имеют гистологическое подтверждение.

2.2. Усовершенствование нейронной сети Skinive в 2022 году

С января 2022 года по июль 2022 года нейронная сеть Skinive претерпела ряд как технических, так и клинических усовершенствований.

В рамках программы «ELISE» для улучшения возможностей нейросети были проведены следующие работы: добавлен модуль визуализации лица (для фильтрации персональных данных перед обработкой) и модуль определения пригодности изображения для обработки (для повышения общей точности), а также расширен набор обучающих данных до 54 604 изображений кожных патологий.

Кроме того, был расширен список патологий, распознаваемых нейросетью Skinive. Особое внимание было уделено таким группам патологий, как дерматит и экзема. Эти патологии не менее актуальны, чем новообразования или кожные инфекции. Они значительно ухудшают качество жизни пациента и требуют своевременной диагностики.

Помимо дерматитов, в 2022 году появилась возможность дифференцировать Versicolor среди других грибковых поражений кожи, а также акральный невус среди пигментных новообразований кожи. Эти состояния требуют иного подхода в клинической практике.

Таким образом, общее количество изображений в обучающем наборе данных Skinive на 3 квартал 2022 года составляет 164 142 фотографии кожных патологий. Количество распознаваемых кожных патологий достигло 51 (таблица 1).

Таблица 1 — Классы распознаваемых патологий

Основным принципом работы в 2022 году было не только количественное, но и качественное улучшение данных. Все данные, которые использовались при обучении нейронной сети, проходили многоуровневую проверку на соответствие качеству изображения и однозначность интерпретации медицинскими экспертами.

В июле 2022 года была проведена масштабная работа, позволившая получить новые данные о результатах точности распознавания патологий кожи нейронной сетью Skinive 3.0.

2.3 Формирование валидационного набора данных для исследования точности Skinive

Для определения точности алгоритма Skinive был специально подготовлен валидационный набор данных, состоящий из 25 688 изображений кожных патологий. Но изображения, включенные в валидационный набор, не использовались для обучения нейронной сети. Каждое изображение оценивалось дерматологом и онкологом на предмет соответствия изображенной патологии определенному классу с учетом результатов гистологического исследования.

Структура валидационного набора данных сформирована в соответствии со структурой обучающего набора данных, за исключением дерматита и экземы. Последние два класса не включены в валидационный набор, так как их распознавание нейросетью Skinive стало возможным только в 2022 году, а общее количество фотографий этих заболеваний не позволило выделить отдельный валидационный набор в достаточном для адекватной оценки точности объеме.

Валидационный набор данных включает 7 классов кожных заболеваний. Для наглядности подробное описание валидационного набора данных приведено в таблице 2.

Таблица 2 — Валидационный набор данных Skinive

Этот валидационный набор данных был использован при анализе точности в 2021 году, что позволило определить динамику роста показателей чувствительности и специфичности.

Для определения чувствительности алгоритма использовались такие группы кожных заболеваний, как акне и розацеа, папулосквамозные, микозы, вирусные заболевания, герпес, предзлокачественные + злокачественные.

Для определения специфичности алгоритма было использовано 20982 изображения доброкачественных новообразований кожи.

2.4. Безопасность данных

Программно-аппаратный комплекс построен на решениях Amazon Web Services и представляет собой ряд виртуальных серверов, недоступных извне, соединенных между собой решениями на базе нескольких программных продуктов и решений, таких как Docker, Amazon Elastic Container Services.

Skinive не хранит никакой персональной информации, которая может быть использована для идентификации конкретного пользователя. Идентификация пользователя осуществляется с помощью случайно сгенерированного токена, который хранится на устройстве и с помощью которого осуществляется доступ к приложению. Хранящиеся данные обезличены и не имеют возможности быть сопоставленными с реальным пользователем системы. Графические изображения, отправляемые пользователем на сервер, проходят процедуру анонимизации путем удаления всей служебной информации об изображении (заголовки EXIF и т. д.).

Службы протоколирования инфраструктуры хранят информацию о фатальных ошибках приложений, исходном IP-адресе запроса, имени вызванной функции и версии программного обеспечения пользователя.

Результаты точности Skinive

Используемый валидационный набор данных был сформирован в 2021 году для проведения внутреннего тестирования точности нейронной сети Skinive. Результаты были сохранены и не публиковались.

После отправки сформированных валидационных наборов данных на анализ алгоритму Skinive в 2022 году были получены следующие значения чувствительности и специфичности для каждого из анализируемых классов (таблица 3):

Таблица 3 — Результаты точности нейронной сети Skinive в 2022 году и сравнение с аналогичными результатами в 2021 году

В данном случае чувствительность определялась как отношение количества случаев патологии кожи, правильно определенных алгоритмом (акне и розацеа, папулосквамозные, микозы, вирусные заболевания, герпес, предзлокачественные + злокачественные), к количеству всех клинически подтвержденных случаев соответственно. То есть эта величина показывает долю истинно положительных случаев, тех случаев, которые правильно идентифицированы алгоритмом риска. Чем выше чувствительность, тем меньше вероятность того, что алгоритм пропустит патологию кожи с высоким риском.

Специфичность в отчете о точности Skinive определялась как отношение числа случаев доброкачественных новообразований кожи, правильно идентифицированных алгоритмом, к числу всех клинически подтвержденных доброкачественных новообразований. Эта величина показывает долю истинно отрицательных случаев (ситуаций, когда на снимке отсутствуют высокие риски). Соответственно, чем выше специфичность, тем меньше вероятность ошибочного предсказания злокачественной патологии там, где ее нет, и тем меньше будет «ложных тревог».

Матрица ошибок Skinive

Для наглядного понимания ошибок алгоритма и выявления тенденции неправильного распознавания нейросетью была составлена матрица ошибок (таблица 4), которая отражает распределение правильных ответов (по чувствительности) и ошибок между классами нозологий.

Таблица 4 — Матрица ошибок по классам заболеваний

Обозначение: Зеленая ячейка — правильное предсказание уровня риска.

Общие показатели чувствительности, специфичности и частоты промахов алгоритма Skinive представлены в таблице 5:

Таблица 5 — Общие показатели алгоритма Skinive для 2021 и 2022 годов

Обсуждение точности Skinive

Благодаря всему комплексу работ, проведенных над нейросетью Skinive, удалось добиться увеличения показателей чувствительности и специфичности практически для всех изученных классов новообразований и заболеваний кожи.

Так, чувствительность к выявлению предраковых и злокачественных новообразований в 2021 году составляла 82,6 %, а в 2022 году — 96,3 % (+13,7 %), что свидетельствует о значительном увеличении чувствительности.

Полученные результаты позволяют утверждать, что комплекс мер, направленных на совершенствование нейросети Skinive, отражается на повышении точности алгоритма в распознавании рака кожи. Своевременное и точное распознавание позволяет более эффективно лечить эту патологию. Очевидно, что именно эта патология имеет наибольшую актуальность и значимость с точки зрения сохранения жизни и здоровья населения.

Значительное увеличение чувствительности отмечено и для других классов кожной патологии (акне и розацеа, папулосквамозные, микозы, вирусные заболевания и герпес) от +3 до +10%.

Результаты показывают, что нейронная сеть Skinive более чувствительна к кожным патологиям и реже пропускает ситуации, когда пациенту действительно требуется медицинская помощь или более детальное обследование с помощью других инструментов (дерматоскопия, биопсия с последующим гистологическим исследованием).

Хотя общая специфичность алгоритма снизилась, стоит отметить значительный рост специфичности при распознавании доброкачественных заболеваний: в 2021 году она составляла 93,0%, в 2022-м — 98,2% (+5,2%). Исходя из этой динамики, нейронная сеть Skinive стала менее подвержена «ложным срабатываниям». Благодаря этой особенности использование нейронной сети Skinive позволит сократить количество необоснованных визитов к врачу и одновременно снизить неоправданную нагрузку на медицинских работников.

Анализ матрицы ошибок

Детальный анализ матрицы ошибок показывает, среди каких заболеваний и с какой частотой возникают наибольшие трудности у алгоритма Skinive при дифференциальной диагностике новообразований и кожных заболеваний. Эти значения можно считать ключевым результатом для планирования дальнейшей работы по совершенствованию нейронной сети Skinive и повышению точности алгоритма для отдельных нозологий.

Из матрицы ошибок видно, что наибольший процент ошибок при распознавании кожных патологий наблюдается в паре «Доброкачественные» и «Предзлокачественные + Злокачественные»: 5.9%. Анализ ошибок показал, что нейронная сеть ошибочно отнесла диспластический невус к доброкачественному невусу. При визуальном сравнении (рис. 1), действительно, могут возникнуть трудности в дифференциальной диагностике подобных случаев.

Пигментный невус (гистологически подтвержден)

Рисунок 1. Сравнение макросъемки пигментного и диспластического невуса

Такие клинические ситуации требуют более точной дифференциальной диагностики, включающей дерматоскопию или биопсию с гистологическим исследованием.

Показатель частоты пропущенных случаев

Показатель Miss Rate подтверждает снижение количества пропущенных кожных патологий. Так, в 2021 году он составлял 7,0%, в 2022 году — 1,8% (-5,2%). То есть количество ошибочных заключений («ложных надежд») значительно сократилось. В абсолютном выражении количество ложноотрицательных заключений снизилось с 328 до 86. Более подробный анализ ложноотрицательных заключений по кожным заболеваниям представлен в таблице 6.

Таблица 6: Сравнительный анализ количества ложных заключений на 2021 и 2022 годы

Сравнивая показатели Miss Rate за 2021 и 2022 годы в отчете точности Skinive, становится очевидной глобальная тенденция к снижению количества ошибочных интерпретаций при распознавании кожных патологий. Кроме того, такое сравнение позволяет отметить динамику и правильность вектора проводимых работ по совершенствованию нейронной сети.

Наиболее позитивные изменения произошли в классе Premalignant + Malignant. Общее количество ошибок в 2021 году составляло 17,4 %, а в 2022 году — всего 3,7 % (-13,7 %). Среди других классов этот показатель снизился с -3,4 до -10,4 %.

Учитывая актуальность своевременного и достоверного распознавания рисков кожной патологии, в конечном итоге данная тенденция свидетельствует о реальной возможности использования нейронной сети Skinive в клинической практике.

5. Выводы

В 2022 году набор данных, на которых обучался алгоритм Skinive, пополнился более чем 50 000 фотографий кожных патологий. Ключевой особенностью всех этих фотографий было то, что подавляющее большинство из них (90-95 %) было сделано на камеру смартфона без использования внешней оптики или других специальных средств (например, дерматоскопов).

В то же время результаты анализа точности нейронной сети Skinive 3.0 (обученной в 2022 году на общем количестве более 160 000 изображений) показывают значительное увеличение чувствительности (правильное определение патологии кожи при необходимости обращения за медицинской помощью) нейронной сети и специфичности (правильное определение доброкачественных новообразований при отсутствии необходимости в медицинской помощи) по сравнению с 2021 годом.

Добавление модуля качества изображений позволило на ранней стадии отсеивать некачественные снимки, тем самым улучшая качество собранных изображений для наборов данных, что напрямую повлияло на конечную точность алгоритма.

Учитывая ориентацию алгоритма Skinive на мобильные фотографии в 2022 году, можно утверждать, что эта нейронная сеть стала более адаптированной к реальной клинической практике с использованием камеры смартфона. Безусловно, мобильные устройства с установленным приложением Skinive могут использоваться врачами первичного звена для скрининга кожной патологии с большой уверенностью. Это подтверждается значительным снижением количества ошибочных прохождений кожных патологий при распознавании их нейросетью Skinive.

Ссылки:

Andrews’ diseases of the skin: clinical dermatology. James WD, Berger TG, Elston DM, Odom RB. Saunders Elsevier; 2006.
Current state of melanoma diagnosis and treatment. Davis, L.E.; Shalin, S.C.; Tackett, A.J. Cancer Biol. Ther. 2019, 20, 1366–1379. https://doi.org/10.1080/15384047.2019.1640032
Epidemiology of skin cancer. Ulrike Leiter, Thomas Eigentler, Claus Garbe. PMID: 25207363. DOI: 10.1007/978-1-4939-0437-2_7
Augustin M, Reusch M, Augustin J, Wagner T, Kämpfe S. European dermatology health care survey. Short report. 2013 (https://www.dermasurvey.eu/wp-content/uploads/eu-derma-health-care-survey-2013-short.pdf)
Chui M, Manyika J, Miremadi M. Where machines could replace humans – and where they can’t (yet) (https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/where-machines-could-replace-humans-and-where-they-cant-yet)
Chatterjee, P., et al. The 2019 novel coronavirus disease (COVID-19) pandemic: A review of the current evidence. Indian J Med Res. 2020 Feb & Mar;151(2 & 3):147-159;]), as well as in remote areas [[04]. Health service provision in rural and remote areas: a needs analysis. P Dunne, C Patterson, M Kilmartin, M Sladden. PMID: 8028543. DOI: 10.5694/j.1326-5377.1994.tb127349.x
Michael DC, Judy W. Agreement between dermatologists and primary care practitioners in the diagnosis of malignant melanoma: review of the literature. J Cutan Med Surg. Sep-Oct 2012;16(5):306-10
Liu, Y., et al. A deep learning system for differential diagnosis of skin diseases. Nat Med 26, 900–908 (2020). https://doi.org/10.1038/s41591-020-0842-3
Deep Learning Approaches for Prognosis of Automated Skin Disease. Pravin R. Kshirsagar, Hariprasath Manoharan, S. Shitharth, Abdulrhman M. Alshareef, Nabeel Albishry, and Praveen Kumar Balachandran. doi: 10.3390/life12030426. PMCID: PMC8951408. PMID: 35330177
Machine Learning and Its Application in Skin Cancer. Kinnor Das, Clay J. Cockerell, Anant Patil, Paweł Pietkiewicz, Mario Giulini, Stephan Grabbe and Mohamad Goldust. PMCID: PMC8705277. DOI: 10.3390/ijerph182413409