Computer Vision mit Deep Learning: Die visuelle Wahrnehmung der künstlichen Intelligenz

Publish date:

Ein Kernbereich von künstlicher Intelligenz ist das Wahrnehmen von Umgebungen mithilfe kognitiver Fähigkeiten. Das „Auge“ der KI spielt dabei wie beim Menschen eine Schlüsselrolle.

RSS-Feed abonnieren

Die Fortschritte im Bereich der kognitiven Bilderkennung ebnen den Weg für Anwendungsfälle wie autonomes Fahren oder kassenlose Supermärkte. Die GAFA-Tech-Giganten sind hier wie so oft Vorreiter, aber die gute Nachricht lautet: die Anwendungsfälle von KI und moderner Computer Vision sind zahlreich und vielfältig. Die nötige Technologie ist kein Geheimnis und für jedermann verfügbar. Das Zauberwort heißt Deep Learning.

Deep Learning (DL) ist eine Form des maschinellen Lernens, die ganz auf große aber rechenintensive künstliche neuronaler Netze (NN) setzt. In vielen kognitiven Anwendungsgebieten hat es andere Machine-Learning-Verfahren weitestgehend verdrängt und ist bisweilen selbst innerhalb von Fachkreisen für einen Paradigmenwechsel verantwortlich. Im Bereich Computer Vision konnten mit Deep Learning besonders eindrucksvolle Ergebnisse erzielt werden. Das geht sogar so weit, dass Systeme Menschen in Bilderkennungswettbewerben deutlich übertroffen haben.

Entscheidungskriterium ist, wie gut das System auf unbekannten Bildern bekannte Motive erkennt. Für wirklich herausragende Ergebnisse muss das System sehr komplexe Konzepte der visuellen Wahrnehmung lernen können. Das neurale Netz bietet dafür die ideale Grundlage, denn es erlaubt, beliebig komplexe Konzepte in mathematischen Formeln und Parametern auszudrücken.

Welche Konzepte und damit Auswahl der Parameter am wichtigsten sind, lernt das System nicht durch geschickte Bildverarbeitung, sondern ausschließlich durch Trainingsbilder. Diese sind mit ihrem jeweiligen Ergebnis gekennzeichnet. So wird zum Beispiel von Menschenhand ein Bild einer Elefantenfamilie in der Savanne mit den Kategorien Elephant, Mammal, Wildlife getaggt. Auf Basis dieses Materials optimiert das neuronale Netz seine Parameter und damit sein konzeptionelles Verständnis von Bildwahrnehmung.

Deep Learning trainiert das Abstraktionsvermögen eines Computer-Vision-Systems um ein Vielfaches besser als traditionelle Modelle und mit entsprechend beeindruckenden Ergebnissen.

Convolutional Neural Nets – der Primus unter den neuronalen Netzen für Computer Vision

Das sogenannte Convolutional Neural Net (CNN) ist der Platzhirsch unter den verschiedenen Arten von neuronalen Netzen in der Bilderkennung. Seine Stärke ist, dass es mithilfe von Filtertechniken wichtige Merkmale wie Formen, Farben und Strukturen und deren Relationen zueinander erkennen kann. Filter gehören schon lange zum Toolset der Bildverarbeitung, wurden aber meist starr vorgegeben. Der fundamentale Unterschied des CNN liegt in der Fähigkeit des Systems, sich die optimale Auswahl und Konfiguration von Hunderten bis Tausenden von Filtern allein auf Basis der Trainingsbilder selbst beizubringen.

So lernt das System, Bilder nicht als wirre Ansammlung von Farbwerten auf Pixelebene zu betrachten, sondern abstrahiert Muster und Objekte. Das Ergebnis leitet das System letztlich durch die Auswertung der erkannten Strukturen ab.

Mithilfe von CNNs kann das neuronale Netz Filter lernen und die wichtigen Merkmale extrahieren

Das Phänomen des Transfer Learning

Dabei zeigt sich eine weitere außergewöhnliche Eigenschaft: Das System benötigt zwar für das Lernen der Filter und damit des Abstraktionsvermögens Millionen von Trainingsbildern, diese Filter können danach aber von Anwendungsfall zu Anwendungsfall übertragen werden. Da mit Millionen von Bildern, die frei im Internet zirkulieren, Convolutional Neural Nets bereits vortrainiert sind, reichen oft nur noch wenige Hundert Bilder des eigenen Anwendungsfalles aus, um ein hochakkurates System zu entwickeln. Dieses Phänomen nennt sich Transfer Learning und beruht auf folgender Idee: Die Filter müssen nicht zwingend mit Bildern des speziellen Anwendungsfalls angelernt werden, da das System das grundsätzliche Konzept, den Fokus auf Formen, Strukturen und Farben zu richten, auch aus ganz anderen Bildern ableiten kann.

Wie ein Computer-Vision-System mit Deep Learning „sieht“, habe ich auf der OOP Konferenz im Februar in meinem Vortrag genauer erklärt. Der dort verwendete Foliensatz ist hier in voller Gänze auf Slideshare verfügbar.

Dort gehe ich insbesondere auch auf die zwei wichtigsten Anwendungsarten der Computer Vision ein:

  • Image Classification/Recognition – die richtige Einordnung von Bildern in Kategorien, und

  • Object Detection – das Erkennen verschiedener Objekte mit ihrer Position in einem Bild

Zu diesen zwei Arten der Computer Vision und ihren konkreten Anwendungsfällen in Industrie und Fertigung mehr in meinem nächsten Blogartikel.

Weitere Posts

IT budget

IT-Budgets 2019: Jeder vierte Euro fließt in die Digitalisierung

Thomas Heimann
Date icon Dezember 13, 2018

Ausgaben für Technologie kontinuierlich im Aufwind

IT-Architektur

The Good, the Bad and the Ugly: Legacy mit Microservices modernisieren

Thilo Hermann
Date icon Dezember 7, 2018

Die Modernisierung von Anwendungslandschaften kann wie der Wilde Westen unwirtlich und...

blockchain

Blockchain-Anwendungen: Ein IT-Architekt berichtet aus der Praxis

Capgemini Karriere
Date icon Dezember 5, 2018

Ein Blockchain-Experte berichtet über die Chancen der Technologie, gibt Einblicke in...

cookies.

Mit dem Fortsetzen des Besuchs dieser Website akzeptieren Sie die Verwendung von Cookies.

Für mehr Informationen und zur Änderungen der Cookie-Einstellungen auf Ihrem Computer, lesen Sie bitte Privacy Policy.

Schließen

Cookie Information schließen