Bilderkennungs-Algorithmen erkennen Hautveränderungen zuverlässiger als Mediziner

Künstliche Intelligenz Diagnose Hautläsionen

By Hildegard Suntinger

In einer Studie an der Medizinischen Universität Wien übertraf Künstliche Intelligenz selbst die besten Mediziner. Die Bilderkennungs-Algorithmen stellten um ein Viertel mehr richtige Diagnosen bei Hautläsionen.

In der Medizin sind die Erwartungen an die Künstliche Intelligenz hoch – speziell wenn es um die Diagnose geht. Sich wiederholende Aufgaben, wie die Auswertung von Bildern, lassen sich an lernfähige Software delegieren. Sogenannte Diagnoseroboter. Ärzte sollen sich dann nicht mehr mit der Deutung von Bildern beschäftigen, sondern mit der Diagnose, der Therapie und dem Patienten.

Auch der Diagnose von Hautläsionen liegen Bilder zugrunde. Hautläsionen sind pigmentierte Hautveränderungen wie Muttermale und Melanome. Die Diagnose ist für die Früherkennung von Hautkrebs relevant.

Menschliche Erfahrung vs. Maschinelles Lernen

Die Bilderkennungs-Algorithmen, die im Rahmen der Challenge der International Skin Imaging Collaboration (ISIC) getestet wurden, waren durch die Bilddatenbank HAM10.000 geschult. Diese umfasst mehr als 10.000 auflichtmikroskopisch angefertigte Aufnahmen von sieben verschiedenen Klassen an pigmentierten Hautveränderungen: harmlose Muttermale, Dermatofibrome, Altersflecken, Blutschwämme, bösartige Melanome, Basalzellkarzinome und Morbus Bowen (weißer Hautkrebs). Die Mediziner stellten ihre Diagnose aufgrund ihrer Erfahrung aus Forschung und Klinik.

Angelegt wurde die Bilddatenbank von der Arbeitsgruppe von Harald Kittler an der Universitätsklinik für Dermatologie an der Medizinischen Universität Wien in Kooperation mit der University of Queensland in Brisbane, Australien.

Bilderkennungs-Algorithmen besser als Mediziner

Insgesamt waren es hundertneununddreißig Bilderkennungs-Algorithmen aus siebenundsiebzig Laboratorien für Maschinelles Lernen weltweit, die bei der ISIC Challenge antraten. Die Maschinen standen mit fünfhundertelf Medizinern im Wettbewerb. Menschen und Maschinen mussten auf einer Online-Plattfom dreißig Bilder beurteilen. Es handelte sich um Bilder, die nicht in der Bilddatenbank HAM10.000 enthalten waren. Hier die wichtigsten Ergebnisse der Studie:

Die besten Mediziner diagnostizierten achtzehn komma acht von dreißig Bildern richtig, die besten Bilderkennungs-Algorithmen vierundzwanzig komma fünf.
Zwei Drittel der Bilderkennungs-Algorithmen waren besser als die Mediziner.

Für Philipp Tschandl von der Universitätsklinik für Dermatologie ein erwartbares Ergebnis, das sich schon in vorangegangenen Versuchen abgezeichnet habe.

Nur eine optische Momentaufnahme

Gleichzeitig betont er, dass die Maschine den Menschen bei der Diagnose nicht ersetzen könne. Zitat: „Der Computer analysiert nur eine optische Momentaufnahme.“ Eine Diagnose sei aber weit umfassender. Diese schließe auch folgende Prozesse ein:

den Vergleich mit anderen Muttermalen am Körper;
das Abtasten der Hautveränderung;
die Verlaufsbeobachtung;
die Einschätzung des Risikos aufgrund begleitender Umstände;

Die Bilderkennungs-Algorithmen sind allerdings nicht perfekt. Die Studie offenbarte auch konkretes Verbesserungspotenzial: Die Software reagiert sensibel auf die Bildqualität. Auch diese muss also offenbar gelernt werden. So war die Diagnosegenauigkeit bei Bildern aus Institutionen, die keine Bilder für die Bilddatenbank HAM10.000 geliefert hatten, deutlich schwächer.

Die Bewertung der Diagnosegenauigkeit der Mediziner zeigte wie wichtig Erfahrung ist: Die besten Diagnosen kamen von Medizinern, die mindestens zehn Jahre Erfahrung in der Früherkennung von Hautkrebs hatten.

Die Studie wurde in The Lancelet Oncology veröffentlicht. Hier finden Sie den Link

Akay, B.N./Argenziano, G./Braun, R.P./Cabo, H./Codella, N./Gutman, D./Halpern, A./Helba,B./Hofmann-Wellenhof, R./Kittler, H./Lallas, A./Lapins, J./Longo, C./Malvehy, J./Marchetti, M.A./Marghoob, A./Menzies, S./Oakley, A./Paoli, J./Puig, S./Rinner, C./Rosendahl, C./Scope, A./Sinz, C./Soyer, H.P./Thomas, L./ Tschandl, P./ Zalaudek, I./ (2019): Comparison of the accuracy of human readers versus machine-learnung algorithms for pigmented skin lesion classification: an open, web-based, international, diagnostic study.