Spracherkennung setzt Grenzen in der KI

Von Redaktion
A simple introduction to speech recognition

Haben Sie schon einmal probiert, einen fremdsprachigen Film ohne Untertitel zu schauen, in einer Sprache, die Sie gerade erst gelernt haben? Oder haben Sie einmal mit jemandem telefoniert, der den Mund voll hatte? Spracherkennung ist eine Aufgabe, die selbst für uns Menschen schwierig sein kann, wenn die Bedingungen nicht ideal sind. Doch bei den jüngsten Erfolgen mit Künstlicher Intelligenz (KI) kann man sich eigentlich nur fragen: Wie kann es sein, dass die Voice-to-Text-Technologie bislang noch nicht perfektioniert wurde?

Spracherkennung: Nützlich oder unzuverlässig?

Spracherkennung ist tatsächlich eine der Grenzen der KI, eine der ältesten Fähigkeiten des Menschen und eine der wünschenswertesten Softwarefunktionen. Im Vergleich zu anderen verwandten technologischen Problemen zielt die Forschung der Spracherkennung nicht nur darauf ab, sie zu verbessern, sondern sie zu perfektionieren. Wie Andrew Ng, KI-Experte und Google Brain Co-Founder, verkündetet, macht die Genauigkeit der Spracherkennung von 95 Prozent auf 99 Prozent den Unterschied zwischen einem ärgerlich unzuverlässigen und einem unglaublich nützlichen Tool.

Anwendungen der Spracherkennung

Die automatische Umwandlung von Sprache in Text kann die Art und Weise, wie wir mit unserer digitalen Umgebung interagieren, auf verschiedene Weise verändern. Wir sollten vor allem Bereichen Beachtung schenken, bei denen Spracherkennung nicht dem Luxus dient, sondern vielmehr eine Notwendigkeit. Gesellschaftsgruppen wie Behinderte oder ältere Menschen finden in der Spracherkennung eine unterstützende Technologie. Diese ermöglicht ihnen, mit ihren persönlichen Geräten problemlos zu interagieren. Zusätzlich kann die Speech-to-Text-Technologie verwendet werden, um Freisprecheinrichtungen und -schnittstellen zu erstellen. Diese sind für Aufgaben erforderlich, die die ständige Aufmerksamkeit der Benutzer erfordern, wie bspw. das Fahren.

Das bekannteste Beispiel von Spracherkennung findet man wohl bei Smartphones mit Services wie Virtual Assistants (VAs), Diktatfunktion, Voice Search und Voice Typing. Diese werden heute als integraler Bestandteil der Software jedes Smartphones betrachtet. Doch in dieser schnelllebigen technologischen Realität sehen wir manchmal vor lauter Bäumen den Wald nicht mehr. Um das Potenzial voll auszuschöpfen, müssen wir die Tatsache berücksichtigen, dass die Spracherkennung nicht nur eine Lösung für Menschen ist, die zu faul sind, zu tippe. Vielmehr ist es eine neue Form der Interaktion mit der Technologie. Da die Spracherkennung den Eindruck einer eher anthropomorphen und natürlichen Interaktion vermitteln kann, wurde sie bereits in Augmented-Reality-Anwendungen wie Computerspielen und Google Maps eingesetzt.

Voice-to-Text Tools

Mit der Vielfalt an Anwendungen geht auch die Vielfalt von Tools auf dem heutigen Markt einher. Ein Blick auf die großen Technologieunternehmen wie Apple, Google und IBM genügt, um zu bemerken, dass Voice-to-Text ein wichtiger Teil ihres Consumer-Targetings ist. Apple beispielsweise betreibt großen Aufwand um herauszufinden, auf welche Weise Benutzer mit ihrer Software und ihren Produkten (Apple Watch, Siri, Apple Pencil) interagieren können.

Auf der anderen Seite gibt es den Ansatz von IBM. Watson, ein intelligentes Frage-Antwort-System, richtet sich in erster Linie nicht an Verbraucher, hat es jedoch bereits geschafft Einfluss auf das Gesundheitswesen und die Regierung  zu nehmen, indem es durch Software-Support-Systeme den Menschen bei der Entscheidungsfindung unterstützen.

Wie funktioniert Spracherkennung?

Spracherkennung ist eine Aufgabe, die bis heute ungelöst ist und bereits jahrzentelang Arbeit von Elekroingenieuren, Mathematikern und Computerwissenschaftlern ist. Im Kern ist Spracherkennung das simple Problem, zu verstehen, wie Sprachsignale in Text umgewandelt werden können. Die Charakteristika der realen Sprache wie Akzente, Hintergrundgeräusche und Mehrdeutigkeit machen es jedoch schwierig, eine perfekte Lösung zu finden. Aber lassen Sie uns versuchen, das Problem auf einer höheren Ebene zu verstehen.

Was ist Sprache?

Sprache ist eine Schallwelle, die wir uns als ein Signal vorstellen können, das sich mit der Zeit entwickelt. Bevor ein Computer damit umgehen kann, müssen wir die Schallwelle erst aufnehmen, um sie digital umzuwandeln. Danach muss sie segmentiert werden in kleinere Signale von kürzerer Dauer. Dazu müssen die Verarbeitungstechniken die Frequenzen in der Stimme erkennen, ähnlich den Tönen in einem Lied. Am Ende sieht Sprache so aus wie die Balken, die Sie in einem Equalizer eines Musik-Players sehen. Jeder Balken stellt die Lautstärke einer anderen Frequenz in der Sprache einer Person dar.

Was ist Text?

Seit Computer versuchen Sprache in Text umzuwandeln, würde man erwarten, dass das Ergebnis solch eines Systems Sätze, Wörter oder zumindest Buchstaben sind. Wenn wir allerdings all die möglichen Akzente und Aussprachen eines Wortes beachten, wird vorstellbar wie schwer es ist, ein Wort einem Ton odre eine Tonfolge zuzuordnen. Anstelle dessen erkennen Speech-to-Text-Systeme Phoneme, die Teile von Tönen sind, die alle Sprecher einer speziellen Sprache verwenden. Im Englischen beinhalten die Wörter „cat“ und „skill“ zum Beispiel beide das gleiche Phonem /k/. Dieses kann den Klang der Buchstaben c oder k in den meisten Wörtern der englischen Sprache erklären.

Was ist Spracherkennung?

Jede Speech-to-Text-Software versucht folgende Frage zu beantworten: Welches ist das wahrscheinlichste Phonem, das die Person verwendet hat, basierend auf dem Ton, den ich gerade gehört habe? Dieses rein statistisches Problem, wurde traditionell mit dem Hidden Markov Modell gelöst. Da dies das einfachste und leistungsfähigste mathematische Werkzeug ist, das beschreibt, wie Beobachtungen (Sprache) von versteckten Informationen (Phoneme) abhängen.

Wie kann KI helfen?

Die Einführung von neuralen Netzwerken hat zwar nicht den Kernmechanismus der Spracherkennung geändert, jedoch hat sie geholfen die Performance dieser Systeme zu verbessern. Verstehen von verschiedenen Akzenten. Ignorieren von Hintergrundgeräuschen. Paralleles Verarbeiten von großen Datenmengen. All das sind nur einige der Vorteile, die Deep Learning mit sich brachte. Und die Gründe dafür, warum Tools des heutigen Marktes so erfolgreich sind.

Ein Blick in die Zukunft

Es wird erwartet, dass bis 2020 75 Prozent der Haushalte in den USA einen Smartspeaker zu Hause besitzen werden. Dieser Eifer, mit dem Menschen sogenannte Homeassistants wie Amazon Echo begrüßen, ist sehr aufschlussreich. Ein Gerät zu haben, das jedes Wort hört und in einer Cloud speichert, hätte in der Vergangenheit zu privat erscheinen können. Dennoch ist heute jeder, von Verbrauchern bis hin zu Unternehmen und dem öffentlichen Sektor, bestrebt, diese Technologien anzuwenden. Dem schnellen Fortschritt nach zu urteilen, sind Tastaturen wahrscheinlich nicht weit davon entfernt, sich dem technologischen Nostalgieteam anzuschließen. Zusammen mit Kassetten und Vinyl in den Regalen der Vintage-Läden.

Orginaltext von Elena Nisioti: A simple introduction to speech recognition