Das menschliche Auge ist ein Hochleistungsorgan, mit dem wir 80 % aller Umweltreize erkennen können. Es beschäftigt rund ein Viertel unseres Gehirns und ist ein absolut faszinierendes und für den Menschen wichtiges Sinnesorgan.

Es wäre doch toll, wenn man diese außergewöhnlichen Eigenschaften auf Systeme übertragen und für uns nutzbare automatisierte Lösungen daraus gewinnen könnte? Daran wird bereits intensiv geforscht. Auch bei isento. Das Stichwort lautet Computer Vision! Dazu möchten wir euch heute einen kleinen Einblick geben:

Computer Vision – Was ist das?

Computer Vision ahmt das menschliche Sehen und Erkennen nach. Es wird auch maschinelles Sehen genannt. Das Sehen erfolgt normalerweise über eine optische Wahrnehmung des Auges. Nervenzellen in der Netzhaut filtern die Daten, bevor eine Verarbeitung im Gehirn stattfindet. Beim maschinellen Sehen wird dieser Prozess nachgeahmt.

An dieser Stelle kommt dann die künstliche Intelligenz ins Spiel. Künstliche Intelligenz imitiert das menschliche Lernen und Denken durch die Nachbildung neuronaler Strukturen. Künstliche Neuronen, die eine mathematische Abbildung des menschlichen Neurons darstellen, werden zu einem künstlichen neuronalen Netz verknüpft. Dazu werden Neuronen in mehreren Schichten angeordnet und miteinander verbunden.

Bislang können diese Netze nur aufgabenspezifische Lösungen produzieren. Beispielsweise: Erkenne eine Tasse! Damit sie dazu in der Lage sind, müssen die künstlichen neuronalen Netze nun lernen zu Erkennen. Dafür müssen sie trainiert werden. Je nach gestellter Aufgabe kann dieses Training sehr aufwendig sein. Zum Beispiel können Beschaffung und Größe der Trainingsdaten sehr hohe Ressourcenaufwände schaffen, da es sich oft um sehr komplexe Prozesse handelt. Man muss sich nur mal vorstellen, aus wie vielen Winkeln man sich alleine eine Tasse anschauen kann. Und wie man diese Menge an Perspektiven dem System beibringen muss.

Convolutional Neural Networks

Da die Netzstruktur mit der Masse an Verbindungen vor allem bei der Bild- und Objekterkennung an ihre Grenzen stößt, kommen hier die sogenannten Convolutional Neural Networks (CNN) zum Einsatz. Diese haben sich in der Computer Vision mittlerweile als Technologie etabliert. Extrem vereinfacht, werden Informationen nicht mehr einzeln betrachtet, sondern regional zusammengefasst. Bei einem Bild wird zum Beispiel nicht jeder Pixel angeschaut, sondern unsere Tasse wird in kleine Bildausschnitte unterteilt. Dadurch entstehen deutlich weniger Verbindungen, das Training kann beschleunigt werden, Informationen bleiben dennoch erhalten und die Ergebnisse werden sogar besser.

Objekterkennung mit Computer Vision

So ist es mittlerweile möglich mittels Computer Vision Objekte zu lokalisieren, zu erkennen, einzuordnen und zu beschreiben. Also eine Tasse von einer Pflanze oder einem Menschen zu unterscheiden und dies auch zu benennen. Doch was können wir mit dieser Objekterkennung alles anstellen? Wo hilft uns das weiter?

Autonomes Fahren ist ein großes Thema. Verkehrsteilnehmer, Hindernisse, Beschilderungen und Straßenmarkierungen können mit Hilfe von Computer Vision bereits gut erkannt und umschifft bzw. eingehalten werden.

Auch in der Medizintechnik wird bei bildgebenden Verfahren wie CT/MRT bereits Computer Vision eingesetzt. Neben der Erkennung von Tumor- oder beispielsweise Alzheimererkrankungen kann ganz aktuell auch bei der Diagnose von Covid-19 damit gearbeitet werden.

Ein weiterer großer Einsatzbereich liegt natürlich in der Robotik und Industrie. Werkstückerkennung, Greifpunktermittlung aber auch Objektvermessung optimieren und automatisieren Industrieprozesse deutlich.

Emotionserkennung in der Computer Vision

Objekte können mittlerweile aber nicht nur erkannt werden. Es ist sogar möglich Emotionen aus einem erkannten Gesicht abzulesen. Eindeutige Indikatoren wie Lächeln oder hängende Mundwinkel lassen auf Fröhlich- bzw. Traurigkeit schließen. Wie beim Menschen wird die Emotionserkennung bei der Computer Vision durch das aktuelle Maskentragen deutlich erschwert. Auch Merkmale wie Bart oder Brille erschweren dem System aktuell noch eine eindeutige Zuordnung.

Dennoch kommt die Emotionserkennung auch schon in der Praxis zum Einsatz. Emotional intelligente Software kann im Kundenservice den Ärger der Kunden verstehen und darauf reagieren. Filmhandlungen können mit Hilfe der erkannten Emotion beeinflusst werden. Oder Kommunikation und Reaktion des Smartphones optimiert werden.

Auch im Bereich Monitoring kann Emotionserkennung zum Einsatz kommen. So können in Sicherheitssystemen beispielsweise Müdigkeits- oder Stresslevel erkannt und damit die Arbeitssicherheit verbessert werden.

Es bleibt spannend zu sehen, wo die Reise in diesem Bereich noch hingehen wird. Wir bei isento bleiben an dem Thema dran und werden es weiterhin mit voller Leidenschaft vorantreiben.

Neugierig geworden? Wir empfehlen euch an dieser Stelle auch gerne unseren Blogbeitrag „Einstieg bei isento“, in dem Simon aus dem KI-Team über seinen Einstieg und seinen Alltag bei isento berichtet.