Les données sont le carburant de l’IA en dermatologie
À l’ère de l’intelligence artificielle, les données constituent le fondement essentiel de l’innovation. Tout comme le carburant alimente les moteurs, les ensembles de données alimentent la formation des modèles d’IA, déterminant leur précision, leur fiabilité et leur efficacité. Lors du développement de solutions alimentées par l’IA pour la détection des maladies de la peau – qu’il s’agisse d’applications mobiles AI Skin scanner, de plateformes basées sur le cloud ou de logiciels de diagnostic – la première étape, et la plus essentielle, est la collecte et la préparation des données. Sans images de haute qualité, diversifiées et bien étiquetées des affections cutanées, même les réseaux neuronaux les plus avancés ne parviendront pas à fonctionner efficacement dans les applications du monde réel.
Cet article présente un examen complet de 10 ensembles de données sur les maladies de la peau accessibles au public, qui peuvent constituer des ressources précieuses pour la recherche sur l’IA. Que vous soyez un data scientist, un développeur d’IA dans le domaine de la santé ou un entrepreneur dans le secteur de la santé numérique, ce guide vous aidera à naviguer dans le paysage des ensembles de données dermatologiques, à comprendre leurs forces et leurs limites et à prendre des décisions éclairées pour le développement de vos modèles d’IA.
Pour chaque ensemble de données, nous analysons :
- Le nombre d’images et la variété des affections cutanées couvertes
- La source et la qualité de l’étiquetage des données
- Les types d’images (cliniques ou dermoscopiques) et la qualité de la résolution
- Les conditions de licence et l’accessibilité de l’ensemble de données
- Avantages et inconvénients principaux
En outre, nous explorons les raisons pour lesquelles les ensembles de données accessibles au public sont souvent inférieurs aux solutions d’IA commerciales, notamment des problèmes tels que la diversité limitée des images, les déséquilibres entre les classes et les contraintes juridiques. Nous abordons également les prochaines étapes critiques du développement de l’IA : le prétraitement des données, l’entraînement des modèles, la conformité réglementaire et le déploiement.
Enfin, nous présentons Skinive.Cloud, un moteur API d’analyse de la peau alimenté par l’IA qui offre une alternative à la construction d’un modèle d’IA à partir de zéro. Avec l’accès à un grand ensemble de données propriétaires de millions d’images, la certification CE-Mark et l’intégration transparente de l’API Whitelabel, Skinive.Cloud permet aux entreprises du secteur de la santé et de la beauté de la peau de mettre en œuvre des solutions d’analyse de la peau basées sur l’IA rapidement, de manière rentable et sans entraves réglementaires.
Si vous cherchez à développer une solution d’IA en dermatologie, cet article est votre point de départ. Poursuivez votre lecture pour découvrir les meilleurs ensembles de données pour votre projet et apprendre comment accélérer votre développement d’IA avec une technologie de pointe.
Les 10 premiers ensembles de données libres sur les maladies de la peau
1. ISIC Archive
- URL: https://www.isic-archive.com
- Nombre d’images: 85,000+
- Catégories de maladies: Mélanome, carcinome basocellulaire, carcinome spinocellulaire et lésions cutanées bénignes
- Collecte des données et étiquetage: Dermatologues et oncologues
- Type et qualité de l’image: Images dermoscopiques à haute résolution
- Conditions d’utilisation: Gratuit pour la recherche
- Points forts: Grand ensemble de données, annotations d’experts, largement utilisé dans la recherche en IA
- Limites: Classes déséquilibrées (plus de lésions bénignes que de cas malins)
2. HAM10000
- URL: https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000
- Nombre d’images: 10,015
- Catégories de maladies: 7 affections cutanées, dont le mélanome et le dermatofibrome
- Collecte des données et étiquetage: Dermatologues
- Type et qualité de l’image: Images dermoscopiques à haute résolution
- Conditions d’utilisation: Source ouverte (Kaggle)
- Points forts: Ensemble de données bien étiqueté avec des classes équilibrées
- Limites: Nombre limité d’images
3. DermaMNIST
- URL: https://medmnist.com
- Nombre d’images: 10 015 (redimensionnées pour l’entraînement de l’IA)
- Catégories de maladies: 7 affections cutanées
- Collecte de données et étiquetage: Professionnels de la santé
- Type et qualité de l’image: Images dermoscopiques à faible résolution
- Conditions d’utilisation: Accès libre
- Points forts: Jeu de données léger idéal pour des expériences rapides
- Limites: La faible résolution de l’image affecte la précision du modèle
4. SD-198
- URL: https://derm.cs.sfu.ca
- Nombre d’images: 6,584
- Catégories de maladies: 198 affections cutanées
- Collecte des données et étiquetage: Chercheurs de l’Université de Stanford
- Type et qualité de l’image: Images cliniques (photos macro)
- Conditions d’utilisation: Accès sur demande
- Points forts: Grande variété de conditions
- Limites: Accès public limité
5. PAD-UFES-20
- URL: https://www.kaggle.com/datasets/mahdavi1202/skin-cancer
- Description: Un ensemble de données de l’Université fédérale d’Espírito Santo avec des images cliniques du monde réel.
- Taille: 2 298 images.
- Catégories: 8 types de maladies.
- Annotations: Métadonnées avec informations démographiques.
- Disponibilité: Disponible au public.
- Idéal pour: Applications générales de l’IA en dermatologie.
6. PH^2 Dataset
- URL: https://www.fc.up.pt/addi/ph2%20database.html
- Description: Un ensemble de données dermoscopiques pour l’analyse des mélanomes.
- Taille: 200 images.
- Catégories: Inclut les mélanomes, les naevus atypiques et les naevus bénins.
- Annotations: Masques de segmentation au niveau du pixel.
- Disponibilité: Disponible sur demande.
- Idéal pour: Recherche sur la segmentation et la classification des mélanomes.
7. Derm7pt Dataset
- URL: https://github.com/jeremykawahara/derm7pt
- Description: Se concentre sur les critères de la liste de contrôle du mélanome en sept points.Taille: 1 011 images.
- Catégories: Mélanome et cancer de la peau sans mélanome.
- Annotations: Annotations détaillées des caractéristiques.
- Disponibilité: Gratuit pour la recherche.
- Idéal pour: L’IA explicable et la classification basée sur les caractéristiques.
8. Fitzpatrick 17K
- URL: https://github.com/mattgroh/fitzpatrick17k
- Description: Un ensemble de données sur la diversité des tons de peau dans les modèles d’intelligence artificielle.
- Taille: 16 577 images.
- Catégories: Couvre un large éventail d’affections cutanées.
- Annotations: Étiqueté avec les types de peau de Fitzpatrick.
- Disponibilité: Disponible via Google Dataset Search.
- Idéal pour: Réduire les biais de l’IA dans la détection des maladies de la peau.
9. BCN20000
- URL: https://paperswithcode.com/dataset/bcn-20000
- Description: Un ensemble de données pour la classification des cancers de la peau développé par le Barcelona Supercomputing Center.
- Taille: 26 426 images.
- Catégories: 8 types de lésions cutanées.
- Annotations: Diagnostiquées par les dermatologues.
- Disponibilité: Gratuit pour un usage académique.
- Idéal pour: Entraînement de modèles d’IA pour la dermatologie clinique.
10. SIIM-ISIC Melanoma Classification Dataset
- URL: https://www.kaggle.com/competitions/siim-isic-melanoma-classification
- Description: Un jeu de données hébergé par Kaggle conçu pour les défis de classification des mélanomes.
- Taille: 33 126 images.
- Catégories: Mélanome vs. lésions bénignes.
- Annotations: Étiquettes de classification binaire.
- Disponibilité: Disponible sur Kaggle.
- Idéal pour: L’évaluation comparative des modèles d’IA dans la détection des mélanomes.
▶️ Vidéo : Comment construire un modèle de ML de classe mondiale pour la détection du mélanome
Si vous souhaitez appliquer les techniques d’IA à la dermatologie, consultez la vidéo YouTube « How to Build a World-Class ML Model for Skin Cancer Detection » (Comment construire un modèle de ML de classe mondiale pour la détection du cancer de la peau). Il s’agit d’une excellente ressource pour en savoir plus sur les stratégies avancées d’apprentissage automatique dans le diagnostic des maladies de la peau.
Les prochaines étapes du développement de l’IA en dermatologie
Même avec un ensemble de données, la formation d’un modèle d’IA est nécessaire :
- Prétraitement et augmentation: Nettoyage et normalisation des images.
- Embaucher des scientifiques de données: Professionnels qualifiés pour construire et affiner les modèles d’IA.
- Ressources informatiques: GPU haute performance et cloud computing pour l’entraînement des modèles d’apprentissage profond.
- Expérimentation continue: Itérations multiples pour atteindre une précision optimale.
Une fois le modèle d’IA entraîné, l’étape suivante consiste à développer une application mobile, web ou de bureau dotée d’une fonctionnalité d’analyse de la peau. Cependant, avant de lancer le produit, celui-ci doit passer des processus de certification médicale rigoureux, notamment CE-Mark, FDA, ISO 13485, HIPPA, GDPR… garantissant la conformité en tant que dispositif médical.
L’ensemble du processus, de la collecte des données à la certification, peut prendre des années et coûter des centaines de milliers, voire des millions de dollars…
Pourquoi les ensembles de données gratuits sont-ils souvent insuffisants pour la formation à l’IA ?
Bien que ces ensembles de données accessibles au public constituent une base solide pour la recherche, ils sont souvent insuffisants dans les applications du monde réel pour les raisons suivantes :
- Déséquilibre des données: La plupart des ensembles de données contiennent plus de lésions bénignes que de cas malins, ce qui affecte la formation des modèles.
- Faible qualité d’image: De nombreux ensembles de données ont des résolutions variées, ce qui limite la précision de l’IA.
- Diversité limitée: Les ensembles de données publiques manquent souvent d’images de différents groupes d’âge, ethnies et types de peau.
- Restrictions légales et éthiques: L’utilisation de certains jeux de données dans des applications commerciales peut nécessiter des autorisations supplémentaires.
Pour les applications commerciales, il est souvent nécessaire de collecter et d’étiqueter les données de manière indépendante, afin de garantir des ensembles de données de haute qualité, diversifiés et conformes à la législation.
Une solution plus rapide et plus rentable : Skinive.Cloud
Skinive.Cloud propose une API d’analyse de la peau alimentée par l’IA qui présente des avantages significatifs :
- Elle s’appuie sur un ensemble massif de données (plus de 3 millions d’images) vérifiées par des dermatologues et des oncologues.
- Conforme au marquage CE et au GDPR (logiciel de qualité médicale), prêt pour une utilisation commerciale.
- Solution en marque blanche: Facilement personnalisable pour votre marque.
- Intégration API transparente dans les applications mobiles, web et de bureau.
- Amélioration continue des modèles d’IA sans coûts de développement supplémentaires.
- Rentabilité: Évitez les coûts élevés liés au développement de votre propre solution d’IA.
Au-delà de la technologie : Des experts au service de votre entreprise
Chez Skinive, nous ne nous contentons pas de fournir une assistance technique, mais nous offrons également des conseils commerciaux pour vous aider à atteindre vos objectifs. Nous avons une grande expérience de l’intégration de l’analyse de la peau par l’IA dans divers secteurs, notamment :
- Applications de santé et de beauté (comme l’application AI Skin Scanner)
- Plateformes de télémédecine (systèmes EMR/EHR)
- Commerce électronique pour les produits de soins de la peau
- Compagnies d’assurance
- Hôpitaux et laboratoires de diagnostic
- Cliniques de beauté et SPA
Commencez dès aujourd’hui votre voyage d’analyse de la peau par l’IA
Au lieu de consacrer des années à la recherche, au développement et à la certification, vous pouvez intégrer Skinive.Cloud dès aujourd’hui et mettre sur le marché une solution d’analyse de la peau pilotée par l’IA plus rapidement et à moindre coût.
🔗 En savoir plus sur Skinive.Cloud
📞 Planifiez un appel avec notre équipe commerciale dès aujourd’hui!