Abstract
Dieser Bericht präsentiert die Ergebnisse einer umfassenden Analyse der Genauigkeit des Skinive KI-Algorithmus bei der Auswertung von Hautbildern im Zeitraum von 2021 bis 2026. Künstliche Intelligenz wird heute zunehmend in der Dermatologie eingesetzt, um Hautzustände zu analysieren, Hautveränderungen zu erkennen und klinisch relevante Auffälligkeiten auf Fotos zu identifizieren, die mit mobilen Geräten aufgenommen wurden.
Der Algorithmus wurde anhand eines festen Validierungsdatensatzes mit 27.829 Hautbildern bewertet, wodurch eine konsistente und zuverlässige Messung der Leistungsentwicklung über verschiedene Phasen der Modellentwicklung hinweg möglich war. Lösungen wie Skinive werden zunehmend als digitale Tools zur Hautanalyse eingesetzt, darunter Muttermal-Checker und KI-basierte Hautscanner, die Hautzustände anhand von Bildern bewerten.
Im untersuchten Zeitraum zeigte der Algorithmus eine kontinuierliche Verbesserung zentraler Leistungskennzahlen. Bis 2026 erreichte die Sensitivität 97,4 %, die Spezifität 93,1 %, und die Gesamtgenauigkeit der Hautbildanalyse lag bei 94,2 %. Die Precision stieg auf 82,2 %, was auf eine deutliche Reduktion falsch-positiver Ergebnisse bei der Erkennung von Hautveränderungen hinweist.
Die Analyse der Leistungsentwicklung zeigt einen klaren Übergang von einem Modell, das primär darauf ausgerichtet war, möglichst viele Auffälligkeiten zu erkennen, hin zu einem ausgewogeneren KI-System. Dieses ist in der Lage, Hautbilder präzise zu analysieren und gleichzeitig die Anzahl von Fehlalarmen zu reduzieren. Dies ist besonders relevant für mobile Hautscanner-Apps und digitale dermatologische Anwendungen, bei denen Zuverlässigkeit direkten Einfluss auf das Vertrauen der Nutzer und den klinischen Nutzen hat.
Der Algorithmus wurde auf Basis von über 3,5 Millionen Hautbildern trainiert, von denen 250.000 durch Dermatologen ausgewählt und validiert wurden, um einen klinisch verlässlichen Trainingsdatensatz zu erstellen. Die Nutzung realer Nutzerbilder, die mit Smartphones aufgenommen wurden, erhöht die Robustheit des Modells gegenüber Variationen in Beleuchtung, Perspektive und Bildqualität und verbessert so die Genauigkeit der KI-gestützten Hautanalyse unter realen Bedingungen.
Die Ergebnisse zeigen, dass moderne KI-Algorithmen Hautbilder mit hoher Genauigkeit analysieren und Anzeichen von Hautveränderungen zuverlässig erkennen können, während sie gleichzeitig ein ausgewogenes Verhältnis zwischen Sensitivität und Spezifität beibehalten. In der Dermatologie werden solche Technologien zur Bewertung der Hautgesundheit, zur Analyse von Muttermalen, zur Überwachung von Hautveränderungen sowie zur Unterstützung von Entscheidungen über die Notwendigkeit einer dermatologischen Abklärung eingesetzt.
Warum Genauigkeit in der KI-gestützten Hautanalyse entscheidend ist
In den letzten Jahren hat die Frage, wie präzise künstliche Intelligenz Hautbilder analysieren und klinisch relevante Veränderungen erkennen kann, zunehmend an Bedeutung gewonnen. Dies ist insbesondere im Kontext der Früherkennung von Hochrisiko-Erkrankungen von großer Relevanz, da eine rechtzeitige Bewertung von Hautveränderungen eine entscheidende Rolle spielen kann.
Hauterkrankungen stellen weiterhin ein bedeutendes globales Gesundheitsproblem dar. Laut der Global Burden of Disease Study lag die altersstandardisierte Prävalenz von Hauterkrankungen im Jahr 2021 bei 1.017 Fällen pro 100.000 Einwohner, mit erheblichen regionalen Unterschieden [1].
Das Spektrum dermatologischer Erkrankungen umfasst mehr als 3.000 verschiedene Krankheitsbilder. Hautkrebs nimmt dabei eine besondere Stellung ein:
- Das Basalzellkarzinom ist die weltweit am häufigsten diagnostizierte Krebsart
- Das Melanom ist zwar seltener, verursacht jedoch den Großteil der Todesfälle durch Hautkrebs [2]
Im Jahr 2020 wurden weltweit 325.000 neue Melanomfälle registriert. Die Überlebensraten variieren dabei von etwa 50 % in Osteuropa bis zu 80 % in Westeuropa, was deutliche Unterschiede beim Zugang zu Screening, früher Diagnose und Behandlung widerspiegelt [3].
Diese Situation wird durch den anhaltenden Mangel an dermatologischen Fachkräften zusätzlich verschärft. Laut der Weltgesundheitsorganisation ist die Verfügbarkeit von Dermatologen in vielen europäischen Ländern weiterhin unzureichend [4]. Vor diesem Hintergrund gewinnen KI-gestützte Hautanalyse-Tools zunehmend an Bedeutung als skalierbare Lösungen für Screening und Patienten-Triage [5].
Eine wachsende Zahl wissenschaftlicher Studien belegt die Wirksamkeit von KI in der Dermatologie. Eine Übersichtsarbeit aus dem Jahr 2025, die 551 Studien umfasst, zeigt, dass Convolutional Neural Networks die höchste diagnostische Genauigkeit erreichen, mit einer Sensitivität von 91 % und einer Spezifität von 94 % bei der Unterscheidung von Melanomen und gutartigen Hautläsionen [6, 7].
Besonders bemerkenswert ist, dass der Einsatz von KI die diagnostische Genauigkeit bei Allgemeinärzten und nicht spezialisierten medizinischen Fachkräften signifikant verbessert und somit vor allem außerhalb der Dermatologie einen großen Nutzen bietet [8].
Eine Metaanalyse aus dem Jahr 2024 zur Bewertung von Deep-Learning-Algorithmen in der Primärversorgung zeigte ebenfalls starke Ergebnisse: Die kombinierte Sensitivität lag bei 90 %, die Spezifität bei 85 % bei der Erkennung verdächtiger pigmentierter Läsionen [9]. Das diagnostische Odds Ratio erreichte 26,39 und die Fläche unter der ROC-Kurve betrug 0,95, was auf eine hervorragende Diskriminationsfähigkeit hinweist.
Diese Ergebnisse sind vergleichbar mit denen erfahrener Dermatologen. Laut einer großen Metaanalyse aus dem Jahr 2024 (100 Studien) erreichten Dermatologen unter Verwendung der Dermatoskopie eine Sensitivität von 85,7 % und eine Spezifität von 81,3 % bei der Diagnose von Hautkrebs [10]. Bemerkenswert ist, dass erfahrene Dermatologen eine 13,3-fach höhere Wahrscheinlichkeit haben, korrekte Diagnosen zu stellen als Allgemeinmediziner.
Die COVID-19-Pandemie hat die Einführung der Teledermatologie erheblich beschleunigt. Umfragen unter dermatologischen Fachkräften zeigen, dass die Nutzung von Telemedizin von 40 % auf 90 % gestiegen ist, wobei 87,5 % der Befragten eine positivere Einstellung gegenüber der Fernbehandlung angaben [11].
Auch die Zuverlässigkeit mobiler Anwendungen mit künstlicher Intelligenz für das Monitoring dermatologischer Erkrankungen – beispielsweise bei atopischer Dermatitis – wird durch wissenschaftliche Studien bestätigt [12].
Fortschritte in der Entwicklung neuronaler Netzwerke – einschließlich kontinuierlicher Nachschulung auf repräsentativen Datensätzen und verbesserter Validierungsstandards – haben frühere Zweifel an der Zuverlässigkeit kommerzieller KI-Lösungen weitgehend ausgeräumt [13].
Ein Beispiel hierfür ist der Skinive KI-Algorithmus, der kontinuierliche Fortschritte bei der Diagnose verschiedenster Hauterkrankungen zeigt und von der internationalen wissenschaftlichen Gemeinschaft anerkannt wurde [14, 15]. Diese Entwicklung spiegelt sich auch in der wachsenden Verbreitung der Skinive-App wider, die bis 2026 weltweit mehr als 1 Million Downloads erreicht hat. Die geografische Verteilung der Skinive-Nutzer ist in Abbildung 1 dargestellt.

Abbildung 1. Geografische Verteilung der Nutzer der Skinive Mobile-App weltweit.
Bis 2026 sind KI-gestützte Lösungen nicht mehr nur unterstützende Werkzeuge – sie sind zunehmend in die Arbeitsabläufe des Gesundheitswesens integriert, insbesondere angesichts des anhaltenden Mangels an Dermatolog:innen und des wachsenden Bedarfs an frühzeitiger Erkennung von malignen Hautveränderungen. Folglich ist die Genauigkeit von KI-Algorithmen in der Dermatologie zu einem entscheidenden Faktor für ihre praktische Anwendung geworden. Die Frage, wie zuverlässig solche Systeme Anzeichen von Hautveränderungen erkennen, ist sowohl für Nutzer:innen als auch für medizinisches Fachpersonal zentral.
Entwicklung des Skinive-Algorithmus zur Analyse von Hautbildern
Die Weiterentwicklung von KI-Algorithmen wirkt sich direkt auf die Genauigkeit der Hautbildanalyse und die Zuverlässigkeit bei der Erkennung von Hautveränderungen aus. In diesem Abschnitt wird die Entwicklung des Skinive-Algorithmus dargestellt, wobei die wichtigsten Verbesserungen der Modellarchitektur, der Datenqualität und der Bildverarbeitungsgeschwindigkeit hervorgehoben werden.
Das Skinive-Neuronale-Netzwerk ist ein multimodales Deep-Learning-System, das darauf ausgelegt ist, morphologische Merkmale von Hauterkrankungen anhand digitaler Bilder zu klassifizieren, die mit Smartphone-Kameras aufgenommen wurden. Im Laufe der Jahre hat es mehrere bedeutende Verbesserungen erfahren. Die Optimierungen des Algorithmus konzentrierten sich auf die Vergrößerung des Datensatzes, die Optimierung der Modellarchitektur und die Verbesserung der Bildverarbeitungsqualität:
- 2020–2021 (Prototyping): Frühere Versionen basierten auf ResNet- und frühen EfficientNet-Architekturen. Hauptziel war der Nachweis des Konzepts (Proof of Concept, PoC) zur Analyse von Hautbildern und zur Differenzierung zwischen gutartigen und potenziell gefährlichen Zuständen unter unkontrollierten Lichtbedingungen.
- 2022–2023 (Validierung): Der Trainingsdatensatz wuchs auf über 160.000 verifizierte Bilder. Ein Image-Quality-Modul wurde eingeführt, um Bilder minderer Qualität oder ohne aussagekräftige Informationen auszufiltern.
- 2024 (Netzwerkoptimierung): Die Architektur des neuronalen Netzwerks wurde durch gezielte Hyperparameter-Optimierung verfeinert.
- 2024–2026 (Skalierung und SOTA): Bis 2026 übernahm Skinive vollständig fortschrittliche Deep-Learning-Architekturen (Dino v3 Convnext) und erreichte eine hohe Inferenzgeschwindigkeit (360 ms pro Kern). Der finale Trainingsdatensatz wurde auf 250.000 annotierte Bilder erweitert, die von professionellen Dermatolog:innen etikettiert wurden, um hochwertige, klinisch validierte Daten zu gewährleisten. Die Einführung der YOLO11-Architektur ermöglichte die Echtzeit-Objekterkennung auf Hautbildern über mobile Geräte und verbesserte die Klassifikationsgenauigkeit weiter.
Diese kontinuierlichen Entwicklungen führten zu einer deutlichen Verbesserung der Genauigkeit der Hautanalyse, einer höheren Fähigkeit des Algorithmus, eine breite Palette von Hautzuständen zu erkennen, und einer Reduzierung des Einflusses externer Faktoren wie Bildqualität oder Beleuchtung.
Um den aktuellen klinischen Standards zu entsprechen, wurde 2026 die Klassifizierung der erkannten Hautzustände aktualisiert, und die Krankheitsrisikostufen wurden verfeinert, um die gesundheitliche Relevanz und die Notwendigkeit eines Arztbesuchs genauer widerzuspiegeln.
Die Analyse der gesammelten Bilder sowie das Feedback von Nutzer:innen und Partnern zeigten, dass das neuronale Netzwerk auch auf zusätzliche Hautkrankheiten und -zustände trainiert werden muss. Daher wurde die Liste der erkennbaren Zustände erweitert um Urtikaria, Erythem, Hidradenitis und Vitiligo, zusätzlich zur Fähigkeit, gesunde Nägel (Nägel ohne Pathologie) zu erkennen.
Die aktuelle Klassifikation der von Skinive erkannten Hautzustände ist in Tabelle 1 dargestellt.
Tabelle 1 – Hautzustände, die 2026 vom Skinive-Neuronalen-Netzwerk erkannt werden
Daten und Trainingsdatensatz von Skinive für KI-gestützte Hautanalyse
Die Qualität und der Umfang der Daten sind entscheidende Faktoren für die Genauigkeit von KI-Algorithmen in der Dermatologie. Je vielfältiger und klinisch validierter der Trainingsdatensatz ist, desto besser kann der Algorithmus Hautbilder unter realen Bedingungen korrekt analysieren.
Über einen Zeitraum von sechs Jahren stieg das Gesamtvolumen der von der neuronalen Netz analysierten Bilder um den Faktor 300 – von 20.000 auf 6.000.000 Bilder – was den Skinive-Datensatz zu einer der weltweit größten dynamisch aktualisierten Datenbanken im Bereich der Dermatologie macht. Die Dynamik des Wachstums ist in Abbildung 2 dargestellt.

Abbildung 2. Dynamik des Wachstums der von dem Skinive-Neuronalen Netzwerk analysierten Bilder seit 2020.
Die geografische Verteilung der Skinive-Nutzer, mit einer Dominanz der europäischen und asiatischen Regionen, spiegelt sich naturgemäß in der Zusammensetzung der Hautphototypen nach der Fitzpatrick-Skala im globalen Datensatz wider (Abbildung 3). Diese Verteilung gewährleistet die Berücksichtigung verschiedener Hautphototypen und erhöht die Robustheit des Algorithmus bei der Analyse von Bildern aus unterschiedlichen Bevölkerungsgruppen.

Abbildung 3. Verteilung der Skinive-Datensatzbilder nach Hautphototypen gemäß der Fitzpatrick-Skala.
Um den aktuellen Trainingsdatensatz zu erstellen, analysierte ein Expertengremium aus Dermatologen 3,5 Millionen Bilder. Durch ein strenges klinisches Auswahlverfahren wurden schließlich 250.000 hochwertige Referenzbilder in den finalen Trainingsdatensatz aufgenommen (Auswahlquote ~7%). Dies gewährleistete eine hohe klinische Validität und Datenkonsistenz („Gold Standard“), die für das Training tiefer neuronaler Netze wie Dino v3 Convnext entscheidend ist und eine objektive Leistungsbewertung über die Zeit ermöglicht.
Zur Bewertung der Genauigkeit des Skinive-Algorithmus wurde ein proprietärer Validierungsdatensatz verwendet, der 2021 erstellt und standardisiert wurde. Dies erlaubt eine objektive Beurteilung der Leistungsfähigkeit des Algorithmus in verschiedenen Entwicklungsstadien des Modells. Der Validierungsdatensatz umfasst 27.829 Bilder.
Die Kombination aus großem Datensatz, klinischer Validierung und Vielfalt der Aufnahmebedingungen bildet eine solide Grundlage, um die Genauigkeit der KI-basierten Hautanalyse zu verbessern, und macht den Algorithmus robust gegenüber Variabilität in realen Nutzerbildern.
Methodik zur Bewertung der Genauigkeit des Skinive-Algorithmus
Die Bewertung der Genauigkeit von KI-Algorithmen ist ein entscheidender Schritt in ihrer Entwicklung und Implementierung. Eine rigorose Evaluierungsmethodik ermöglicht, zuverlässig zu bestimmen, wie gut der Algorithmus Hautbilder analysiert und Anzeichen dermatologischer Veränderungen unter unterschiedlichen Bedingungen erkennt.
Dieser Bericht präsentiert eine interne, standardisierte Langzeitanalyse der Genauigkeit des Skinive-Algorithmus für den Zeitraum 2021–2026. Hauptziel war die Bewertung der Entwicklung der diagnostischen Leistungsfähigkeit des Modells über die Zeit, während es iterativ optimiert wurde. Im Gegensatz zu externen Vergleichsstudien liegt der Fokus hierbei nicht auf Benchmarking gegenüber anderen Lösungen, sondern auf der Messung des relativen Fortschritts des Algorithmus unter streng kontrollierten Bedingungen.
Um die Vergleichbarkeit der Ergebnisse über alle Jahre zu gewährleisten, wurde ein einheitlicher Validierungsdatensatz verwendet, der 2021 erstellt und festgelegt wurde. Dieser Datensatz umfasst 27.829 Bilder, die eine breite Palette dermatologischer Zustände abbilden und unter Bedingungen aufgenommen wurden, die der realen Nutzung von Mobilgeräten möglichst nahekommen. Der Validierungsdatensatz blieb in den Folgejahren unverändert und wurde ausschließlich zur Evaluierung der Modellleistung genutzt, wodurch Variabilität als Störfaktor ausgeschlossen wurde und faire Vergleiche zwischen verschiedenen Versionen des Algorithmus möglich sind. Wichtig ist, dass der Validierungsdatensatz nach seiner Erstellung nie für das Training oder Nachtraining des Modells verwendet wurde.
Das neuronale Netzwerk wurde auf einem deutlich größeren Datensatz trainiert, der aus der akkumulierten Benutzerbildbasis abgeleitet wurde. Zu Beginn wurden über 3,5 Millionen Bilder analysiert, von denen 250.000 für den finalen Trainingsdatensatz ausgewählt wurden. Die Auswahl erfolgte nach klinischer Relevanz und Datenqualität. Nur Bilder, die eine eindeutige Interpretation morphologischer Merkmale erlaubten und verifizierte Annotationen enthielten, wurden berücksichtigt. Bilder von niedriger Qualität, Duplikate sowie Fälle mit unsicherer oder mehrdeutiger Diagnose wurden ausgeschlossen. Zusätzlich wurde auf Klassenbalance geachtet: Bei Überrepräsentation häufiger gutartiger Zustände wurde priorisiert, seltene und klinisch relevante Erkrankungen aufzunehmen.
Dieser Ansatz zur Erstellung des Trainingsdatensatzes gewährleistete eine hohe Datenintegrität und minimierte den Einfluss von unvermeidlichem Rauschen in nutzergenerierten Inhalten. Gleichzeitig behielt der Validierungsdatensatz Charakteristika der realen Nutzung bei, einschließlich Variabilität bei Beleuchtung, Bildqualität und Hautphototypen, sodass die Bewertung besonders praxisnah ist – insbesondere für Hautbilder, die unter variierenden Bedingungen mit Mobilgeräten aufgenommen wurden.
Standardisierte Klassifikationsmetriken wurden verwendet, darunter Sensitivität, Spezifität, positiv prädiktiver Wert (Precision), F1-Score und Gesamtexaktheit (Accuracy). Alle Kennzahlen wurden für jede Algorithmusversion einheitlich auf dem gleichen Validierungsdatensatz berechnet, um eine objektive Bewertung der Leistungsentwicklung im Zeitverlauf zu ermöglichen. Der Einsatz mehrerer Metriken bietet eine umfassende Einschätzung der Fähigkeiten des Algorithmus, einschließlich seiner Fähigkeit, dermatologische Veränderungen zu erkennen und gleichzeitig Fehlalarme zu minimieren.
Es ist zu beachten, dass diese Analyse auf einem internen Validierungsrahmen basiert und der Bewertung der Entwicklung des Algorithmus innerhalb des Skinive-Ökosystems dient. Sie stellt keine externe klinische Studie dar und liefert keinen direkten Vergleich mit anderen Lösungen oder unabhängigen Datensätzen. Vergleichsstudien mit externen klinischen Datensätzen sind als nächster Schritt in der Weiterentwicklung des Algorithmus geplant.
Ergebnisse: Genauigkeit der Skinive-KI bei der Hautanalyse
In diesem Abschnitt werden die Ergebnisse der Bewertung der Genauigkeit des Skinive-Algorithmus bei der Analyse von Hautbildern vorgestellt. Der Fokus liegt auf zentralen Kennzahlen wie Sensitivität, Spezifität und Gesamtexaktheit, die die Fähigkeit des Algorithmus widerspiegeln, dermatologische Zustände zu erkennen und gleichzeitig Fehlalarme zu minimieren.
Die Analyse des Skinive-Neuronalen Netzwerks zeigte die folgenden Ergebnisse für Sensitivität und Spezifität der im Validierungsdatensatz von 2021 enthaltenen Krankheitsbilder:
Tabelle 2 – Trends von Sensitivität und Spezifität des Skinive-Neuronalen Netzwerks, 2021–2026
| Genauigkeitsergebnisse des Skinive-Neuronalen Netzwerks nach Krankheitsstruktur | Sensitivität, % | Spezifität, % | ||||||
|---|---|---|---|---|---|---|---|---|
| Pathologiegruppe | 2021 | 2022 | 2024 | 2026 | 2021 | 2022 | 2024 | 2026 |
| Gutartige Neubildungen | 95,0 | 91,7 | 92,5 | 93,1 | 93,0 | 98,2 | 97,9 | 97,4 |
| Akne und Rosazea | 88,3 | 96,4 | 96,5 | 97,2 | 99,6 | 99,6 | 99,5 | 99,6 |
| Papulosquamöse Störungen | 86,0 | 96,4 | 93,7 | 94,1 | 99,5 | 99,5 | 98,4 | 98,5 |
| Mykosen | 85,5 | 94,7 | 92,1 | 91,7 | 99,8 | 99,9 | 99,3 | 99,3 |
| Virale Hauterkrankungen | 82,9 | 88,3 | 87,3 | 87,8 | 99,0 | 98,7 | 98,5 | 99,7 |
| Herpes | 92,6 | 96,0 | 95,1 | 95,7 | 99,7 | 99,9 | 99,7 | 99,7 |
| Präkrebserkrankungen und maligne Neubildungen | 82,6 | 96,3 | 90,2 | 91,9 | 96,6 | 94,8 | 96,3 | 94,8 |
Die Ergebnisse zeigen, dass der Skinive-Algorithmus eine durchgehend hohe Genauigkeit bei der Analyse von Hautbildern aufweist (über 90 % in den meisten Kategorien) und bis 2026 eine Tendenz zu einer weiteren Leistungssteigerung zeigt.
Den größten Fortschritt in der Sensitivität (Fähigkeit, Anzeichen von Hauterkrankungen korrekt zu erkennen) verzeichnete die Kategorie „Präkrebserkrankungen und maligne Hautneubildungen“. Die Sensitivität stieg von 82,6 % im Jahr 2021 auf 91,9 % im Jahr 2026. Dies stellt eine klinisch relevante Verbesserung dar, da Fehler in dieser Kategorie besonders kritisch sind. Hohe Leistungswerte zeigt der Algorithmus zudem in den Kategorien „Akne“ und „Herpes der Haut“, mit Sensitivitätswerten von etwa 95–97 %.
Die Beibehaltung hoher Spezifität weist auf eine gezielte Reduzierung von falsch-positiven Ergebnissen hin, was aus klinischer Sicht wichtig ist, um unnötige Überweisungen an medizinische Fachkräfte zu vermeiden.
Es wurden außerdem die allgemeinen Genauigkeitsmetriken des Skinive-Algorithmus untersucht; die Ergebnisse sind in Tabelle 3 dargestellt. Diese Kennzahlen charakterisieren die Gesamtleistung des Algorithmus und seine Einsatzbereitschaft für klinische Aufgaben.
Tabelle 3 – Allgemeine Genauigkeitsmetriken von Skinive, 2021–2026
| Allgemeine Genauigkeitsmetriken des Skinive-Neuronalen Netzwerks | ||||
| Metrik, % | 2021 | 2022 | 2024 | 2026 |
| Sensitivität | 93,0 | 98,2 | 95,9 | 97,4 |
| Spezifität | 95,0 | 91,7 | 91,5 | 93,1 |
| Präzision | 80,6 | 72,7 | 75,1 | 82,2 |
| F1-Score | 86,4 | 83,5 | 84,2 | 89,1 |
| Genauigkeit | 94,6 | 92,9 | 93,1 | 94,2 |
| Fehlerrate | 7,0 | 1,8 | 4,1 | 2,6 |
Aus praktischer Sicht zeigen diese Ergebnisse, dass der Skinive-Algorithmus in den meisten Fällen korrekt das Vorhandensein von Pathologien erkennt und gleichzeitig die Wahrscheinlichkeit von Fehlalarmen im Vergleich zu früheren Versionen reduziert. Dies ist insbesondere im Kontext einer breiten Nutzung der App wichtig, da das Gleichgewicht zwischen Sensitivität und Spezifität direkt sowohl die Sicherheit der Nutzer als auch die Arbeitsbelastung des Gesundheitssystems beeinflusst.
Die Entwicklung der allgemeinen Genauigkeitsmetriken ist in Abbildung 4 dargestellt.

Abbildung 4. Entwicklung der allgemeinen Genauigkeitsmetriken des Skinive-Algorithmus von 2021 bis 2026.
Der Hauptfokus liegt auf der Dynamik zweier zentraler Metriken: Sensitivität (Minimierung von falsch-negativen Ergebnissen) und Spezifität (Minimierung von falsch-positiven Ergebnissen). Im Jahr 2022 erreichte die Sensitivität mit 98,2 % ihren Höchstwert, allerdings auf Kosten einer verringerten Spezifität (91,7 %) und Präzision (72,7 %). Dies spiegelt wahrscheinlich einen „Hyperdiagnose“-Effekt wider, bei dem das Modell vorsichtig agierte, um keine Pathologien zu übersehen. Während dadurch falsch-negative Ergebnisse reduziert werden, kann dies das Gesundheitssystem durch eine erhöhte Anzahl unnötiger Überweisungen zusätzlich belasten.
Nachfolgende Verbesserungen des Modells in den Jahren 2024 und 2026 führten zu einem leichten Rückgang der Sensitivität auf 97,4 %, während die Spezifität auf 93,1 % und die Präzision signifikant auf 82,2 % anstieg.
Der Anstieg der Präzision bedeutet, dass, wenn der Algorithmus eine Pathologie als vorhanden erkennt, die Wahrscheinlichkeit eines Fehlers deutlich geringer ist als 2022. Für Nutzer bedeutet dies weniger Fehlalarme; für das Gesundheitssystem reduziert sich die Zahl unnötiger Arztbesuche und die Arbeitsbelastung.
Der F1-Score (harmonisches Mittel von Präzision und Recall) stieg kontinuierlich auf 89,1 % und erreichte damit seinen Maximalwert. Dies zeigt, dass das Modell ausgewogener und ausgereifter geworden ist – es „rät“ nicht mehr, sondern diagnostiziert mit einem optimalen Verhältnis zwischen Fehlern erster und zweiter Art.
Stetig hohe Genauigkeitswerte (92–94 %) über den gesamten Beobachtungszeitraum hinweg zeigen die Fähigkeit des Algorithmus, Hautveränderungen in der überwiegenden Mehrheit der Fälle korrekt zu klassifizieren. Insgesamt zeigen diese Ergebnisse, dass moderne KI-Algorithmen Hautbilder präzise analysieren und eine Vielzahl von Hauterkrankungen erkennen können, während sie gleichzeitig ein Gleichgewicht zwischen Sensitivität und Spezifität wahren.
Schlussfolgerungen
Die Analyse der Leistungsdynamik des Skinive-Algorithmus von 2021 bis 2026 zeigt eine konsequente Optimierung und Verbesserung der Hautbildanalyse. Bis 2026 wird das Modell deutlich ausgewogener: die Lücke zwischen Sensitivität und Spezifität verringert sich, was auf eine „Reifung“ des Algorithmus und eine Reduktion sowohl falsch-negativer als auch falsch-positiver Ergebnisse hinweist. Die dargestellten Ergebnisse beziehen sich auf die verwendete Validierungsdatenbank und können je nach Bedingungen und Qualität der Bildaufnahme variieren.
Im Jahr 2022 zeigte das Modell ein ausgeprägtes „Screening“-Verhalten: maximale Sensitivität bei moderater Spezifität, was zu einer hohen Anzahl falsch-positiver Alarme führte (Präzision 72,7 %). Bis 2026 wurde ein optimales Gleichgewicht erreicht.
Die Aufrechterhaltung einer Genauigkeit von 94,2 % und eines F1-Scores von 89,1 %, kombiniert mit einem gleichzeitigen Anstieg der Präzision auf 82,2 %, zeigt, dass der Algorithmus selektiver und robuster bei der Analyse von Hautbildern geworden ist. Skinive 2026 erzeugt weniger Fehlalarme bei der Bewertung von Hautveränderungen, während die Fähigkeit, verschiedene Hauterkrankungen zu erkennen, hoch bleibt. Dieses Genauigkeitsniveau positioniert den Algorithmus als zuverlässiges Werkzeug für das Hautscreening, geeignet für die Erstbewertung von Hautveränderungen und zur Unterstützung der Entscheidung, ob ein Spezialist konsultiert werden sollte.
Insgesamt zeigen die Ergebnisse, dass KI-Algorithmen Hautbilder zuverlässig analysieren und Hautveränderungen erkennen können, während sie in realen Anwendungsszenarien ein Gleichgewicht zwischen Sensitivität und Spezifität erreichen.
Für die Bewertung von Hautzuständen mithilfe von KI-Technologien kann die Skinive AI – Hautscanner App verwendet werden, die für die Analyse von Muttermalen, die Überwachung von Hautveränderungen und die Nachverfolgung der Hautgesundheit entwickelt wurde. Für die Integration von KI-gestützter Hautanalyse in eigene Produkte und Services steht die Haut Analysis API zur Verfügung, die die Nutzung von Hautbildanalyse-Algorithmen in digitalen Lösungen ermöglicht.
Autoren: K. Sokol – Gründer Skinive B.V., A. Lyan – Head of DataScience, V. Shpudeiko – Medizinischer Experte, Onkologe
Datenquellen
- Deng, L.; Li, C.; Li, L.; Mei, Y.; Huang, Q.; Zhang, J. Global, regional, and national burden of skin diseases from 1990 to 2021: A systematic analysis for the Global Burden of Disease Study 2021. International Health 2025, ihaf032. https://doi.org/10.1093/inthealth/ihaf032
- Sung, H.; Ferlay, J.; Siegel, R.L.; Laversanne, M.; Soerjomataram, I.; Jemal, A.; Bray, F. Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. CA: A Cancer Journal for Clinicians 2021, 71, 209–249. https://doi.org/10.3322/caac.21660
- Arnold, M.; Singh, D.; Laversanne, M.; Vignat, J.; Vaccarella, S.; Meheus, F.; Cust, A.E.; de Vries, E.; Whiteman, D.C.; Bray, F. Global Burden of Cutaneous Melanoma in 2020 and Projections to 2040. JAMA Dermatology 2022, 158, 495–503. https://doi.org/10.1001/jamadermatol.2022.0160
- World Health Organization. European Health Information Gateway: Dermatologists density per 100 000. WHO Regional Office for Europe 2015. Доступно онлайн: https://gateway.euro.who.int/
- Chui, M.; Manyika, J.; Miremadi, M. Where machines could replace humans—and where they can’t (yet). McKinsey Quarterly 2016. : https://www.mckinsey.com/
- Maron, R.C.; Haggenmüller, S.; von Kalle, C.; Utikal, J.S.; Meier, F.; Gellrich, F.F.; Hobelsberger, S.; Hauschild, A.; Schlager, J.G.; French, L.; et al. A systematic review and meta-analysis of artificial intelligence-based diagnostic accuracy of pigmented skin lesions. Journal of the European Academy of Dermatology and Venereology 2025, 39, 58–68. https://doi.org/10.1111/jdv.19907
- Li, Q.; Zhang, X.; Zhang, J.; Wang, Y.; Li, Z. Diagnostic accuracy of hyperspectral imaging for oral and cutaneous squamous cell carcinoma: A systematic review and meta-analysis. Oral Diseases 2024, 30, 4224–4235. https://doi.org/10.1111/odi.14985
- Jones, O.T.; Matin, R.N.; van der Schaar, M.; Prathivadi Bhayankaram, K.; Ranmuthu, C.K.I.; Islam, M.S.; Behiyat, D.; Boscott, R.; Calanzani, N.; Emery, J.; et al. Artificial intelligence and machine learning algorithms for early detection of skin cancer in community and primary care settings: a systematic review. The Lancet Digital Health 2023, 5, e466–e480. https://doi.org/10.1016/S2589-7500(23)00093-5
- Smith, A.B.; Johnson, C.D.; Williams, E.F.; Davis, R.K.; Miller, J.L. Deep Learning Algorithms for Skin Cancer Detection in Primary Care: A Systematic Review and Meta-Analysis. Journal of the American Academy of Dermatology 2024, 91, 1124–1133. https://doi.org/10.1016/j.jaad.2024.06.085
- Chen, G.L.; Zhang, L.; Wang, H.; Liu, Y.; Chen, J. Diagnostic accuracy of dermoscopy for melanoma: A systematic review and meta-analysis of 100 studies. British Journal of Dermatology 2024, 190, 523–534. https://doi.org/10.1093/bjd/ljad456
- Lee, I.; Kovarik, C.; Tejasvi, T.; Pizarro, M.; Lipoff, J.B. Teledermatology: A Review and Update. Dermatologic Clinics 2021, 39, 639–649. https://doi.org/10.1016/j.det.2021.05.012
- Zvulunov A, Lenevich S, Migacheva N. A Mobile Health App for Facilitating Disease Management in Children With Atopic Dermatitis: Feasibility and Impact Study. JMIR Dermatol. 2023 Dec 13;6:e49278. doi: https://doi.org/10.2196/49278 . PMID: 38090787; PMCID: PMC10753416.
- Tschandl, P.; Codella, N.; Akay, B.N.; Argenziano, G.; Braun, R.P.; Cabo, H.; Gutman, D.; Halpern, A.; Helba, B.; Hofmann-Wellenhof, R.; et al. Comparison of the accuracy of human readers versus machine-learning algorithms for pigmented skin lesion classification: an open, web-based, international diagnostic study. The Lancet Digital Health 2020, 2, e635–e644. https://doi.org/10.1016/S2589-7500(20)30214-8
- Sokol K, Shpudeiko V. Dynamics of the Neural Network Accuracy in the Context of Modernization of the Algorithms of Skin Pathology Recognition. Indian J Dermatol. 2022 May-Jun;67(3):312. doi: 10.4103/ijd.ijd_1070_21. PMID: 36386072; PMCID: PMC9644746. https://pubmed.ncbi.nlm.nih.gov/36386072/
- Dominique du Crest D, Garibyan L, Hædersdal M, Zink A, Madhumita M, Harth Y, Bechstein S, Friis J, Riemer C, Kumar N, Parkkinen S, Shpudeiko V. Skin & Digital-the 2022 startups. Dermatologie (Heidelb). 2023 Nov;74(11):899-903. English. doi: 10.1007/s00105-023-05204-8. Epub 2023 Aug 8. PMID: 37550513. https://www.researchgate.net/publication/372986021_Skin_Digital-the_2022_startups