Computer Vision – KI in der Bildverarbeitung
Die Geschichte von Computer Vision (maschinelles Sehen) war schon immer mit unserem Streben nach Künstlicher Intelligenz vermischt. Bereits Ende der 50er Jahre beschäftigten sich KI-Forschergruppen auch mit der Frage, wie Computer die Sehfähigkeit des Menschen nachahmen und so ein besseres Verständnis der sie umgebenden Welt erlangen könnten.
Es wäre ja auch völlig unverantwortlich ein selbstfahrendes Auto zu entwickeln, das seine Umgebung nicht sehen kann. Und wären Sie bereit, sich einer Augmented Reality unterstützten Operation zu unterziehen, die von einem Computer durchgeführt wird, der gut sehen kann – zumindest zu 99 Prozent aller Fälle? Und wie nützlich wäre ein blinder, für Marketingzwecke entwickelter Algorithmus in unserer visuellen Gesellschaft, die jede Sekunde fast 50.000 Bilder auf Instagram hochlädt?
Die ersten Computer Vision Algorithmen
Um die Herausforderungen zu verstehen, vor denen die Entwickler der ersten Algorithmen zur Bildverarbeitung standen, müssen wir verstehen, wie unterschiedlich Mensch und Computer ihre Umgebung wahrnehmen. Für uns Menschen ist die Welt ein dreidimensionaler Raum, der durch unsere fünf Sinne begreifbar wird. Das Sehen ist dabei die Fähigkeit, Licht im sichtbaren Spektrum wahrzunehmen. Computer dagegen nehmen derzeit nur eine binäre Realität wahr. Ihre elektrischen Komponenten können lediglich das Vorhandensein oder das Fehlen von Strom erkennen.
Der erste Schritt zur Überwindung dieser Interpretationslücke erfolgte 1959, als Kirsch und seine Gruppe das heute gängige Konzept eines digitalen Bildes vorstellten. Für einen Computer ist ein Bild eine einfache zweidimensionale Tabelle. In jeder Zelle ist ein Pixel, das die Intensität des Lichts oder der Farbe an einem bestimmten Punkt enthält. Die größte Hürde, vor der die Forscher seitdem stehen ist die Frage, wie diese zweidimensionalen Informationen zur Rekonstruktion der dreidimensionalen Realität verwendet werden können. Zu diesem Zweck entwickelten die Wissenschaftler Techniken, die Ideen aus den Bereichen Geometrie, Computertechnik und Physik einbezogen, und prägten damit dieEntwicklung der digitalen Bildverarbeitung.
Allerdings ist Sehen nicht gleich Verstehen. Computer Vision ist eines der vielen Beispiele in unserer technologischen Geschichte, in dem Wissenschaftler versuchten, die Prozesse lebender Organismen nachzubilden. Animal Vision – das tierische Sehen – war und ist bis heute ein recht unerforschter, sehr komplexer Prozess. Wir haben lange gebraucht, um zu erkennen, dass tierische Nervenzellen auf das Vorhandensein von Kanten in ihrem Gesichtsfeld reagieren. Diese Beobachtung reichte aus, um den sogenannten Bottom-Up-Ansatz zu etablieren, den die Computer Vision bis heute verfolgt. Computer bauen ihr Verständnis einer Szene Schritt für Schritt auf, indem sie Punkte und Kanten erkennen, daraus einfache geometrische Oberflächen konstruieren und schließlich diese Oberflächen zu verständlichen Objekten kombinieren.
Warum ist Deep Learning so nützlich?
Erfolge im Bereich Computer Vision traten gleichzeitig mit dem Aufblühendes Deep Learnings auf. Und das war kein Zufall. Das menschliche Sehen ist ein komplexer Prozess, der die Zusammenarbeit der Netzhaut, des optischen Nervs und des Gehirns erfordert. Deshalb wäre es unrealistisch, Computer Vision mit einer Genauigkeit auf menschlichem Level weiterzuverfolgen, ohne die traditionellen Bildanalyse-Algorithmen zuerst mit einer Form von Intelligenz auszustatten.
Möglicherweise besteht der Hauptzweck von lernbasierten Computer-Vision-Algorithmen darin, Bilder automatisch zu kennzeichnen. Das kann für die Suche in großen Bildspeichern wie Google Photos nützlich sein. Bemerkenswert in diesem Fall ist, dass Computer über ein konzeptionelles Verständnis verfügen, dass es ihnen erlaubt, Menschen, Orte und Objekte zu erkennen, und das allein durch das Erkennen von Pixeln.
Die Performance von Algorithmen
Die beindruckende Leistung heutiger Algorithmen ist weitestgehend auf die Einführung von sogenannten „convolutional neural networks“ grob übersetzt „faltende neuronale Netze“ zurückzuführen. Traditionelle Feed-Forward-Neuronale Netze wurden aufgrund der hohen Komplexität der Zuordnung eines Neurons zu jedem Pixelwert frühzeitig als unfähig zur Lösung von Sehproblemen erkannt. Dieser Ansatz war nicht nur ineffizient, er stand im Gegensatz zu unserem Verständnis der Funktionsweise von Neuronen in einem menschlichen Gehirn. Wenn wir ein Bild betrachten, zerlegen wir es nicht in Pixel und ordnen jedem von ihnen ein Neuron zu. In Wirklichkeit hat jedes Neuron ein rezeptives Feld. Das bedeutet, dass es einen bestimmten Bereich im visuellen Raum beobachten kann. Eine Beobachtung, die Faltungsnetzwerke nutzen, um die Komplexität des Trainings zu reduzieren.
Ein neuerer und umstrittener Bereich ist heute der Bereich der künstlichen Bilderzeugung. Durch die Einführung spezialisierter neuronaler Netzwerkarchitekturen, wie generative adversarial Networks oder variatonal autoencoders ist es möglich geworden, dass ein Computer qualitativ hochwertige Bilder erzeugt, die real erscheinen, jedoch synthetisiert sind, indem der Algorithmus große Bildspeicher zu analysieren vermag. Das Potenzial in diesem Bereich ist enorm, da Computer bereits künstlerische Gemälde erzeugen und die Bildbearbeitung ein extrem hohes Niveau erreicht hat. Vielleicht noch herausragender ist allerdings die Gefahr von Deep-Fakes. Das sind realistische Bilder, die für falsche Werbung, propagandistische Politik oder gezielte Diffamierung verwendet werden können.
Beschleunigung von KI in der Computer Vision
Obwohl Künstliche Intelligenz eine Vielzahl von Techniken beinhaltet, wie bspw. Natural Language Processing (NLP) oder die Spracherkennung, ist Computer Vision ein Gebiet, das Anwendungen aus Benutzersicht revolutioniert hat. Im Gegensatz zu Lösungen, die sich auf Cloud-basierte Verarbeitungen riesiger Datenmengen fokussieren, verlagern Computer-Vision-Algorithmen den Verarbeitungsfokus auf persönliche Geräte. Dies ist eine Praxis, die wir häufig als Edge-Computing bezeichnen.
Die Menge und Qualität von Bildverarbeitungsanwendungen wäre wohl nicht möglich gewesen, wenn es nicht die Beschleunigung gegeben hätte, die die persönlichen Geräte bei ihren Hardwarefunktionen erfahren haben. Die Einführung von Graphics Processing Units zur Parallelisierung von Deep-Learning-Algorithmen war unerlässlich, um eine hochqualitative Bildverarbeitung auf persönlichen Geräten zu ermöglichen, während Unternehmen wie Nvidia Tesla das Ziel verfolgen, die On-Chip-Hardwarearchitektur noch weiter zu verfeinern und anzupassen. Das Scheitern von Google Goggles, das den heutigen Produkten Google Lens und Google Photos sehr ähnlich ist, ist ein treffendes Beispiel für eine Anwendung, die zu früh auf den Markt kam, um eine zufriedenstellende User Experience zu bieten.
Es ist schwierig vorherzusehen, ob die Zukunft der Computer Vision durch fortschrittliche Deep-Learning-Techniken, die Entwicklung effizienter Hardware oder etwas anderes voranschreiten wird. Klar ist jedoch: Die Künstliche Intelligenz der physischen Welt näher zu bringen, indem sie mit „Augen“ ausgestattet wurde, war ein entscheidender Schritt in der KI-Revolution, die wir heute erleben.
Orginaltext von Elena Nisioti: A smooth introduction to computer vision