Interview 02.06.2017, 14:47 Uhr

«Es wird sehr grosse Änderungen geben»

Das Institut für Computerlinguistik der Uni Zürich entwickelt maschinelle Übersetzungssyste­me und andere Sprach-Tools. Man macht sich aber auch Gedanken über die Auswirkungen.
Computerlinguistik beschäftigt sich mit der maschinellen Verarbeitung menschlicher Sprache und nutzt dafür künstliche Intelligenz. Zu den bekanntesten Anwendungen gehört die maschinelle Übersetzung (MÜ), die auch ein Forschungsschwerpunkt am Institut für Computerlinguistik der Uni Zürich ist. Annette Rios und Martin Volk berichten über aktuelle Forschungstrends, deren Auswirkungen auf die Gesellschaft und den Nutzern für Unternehmen.

Computerworld: Momentan reden alle von künstlicher Intelligenz, als ob es sich dabei um etwas völlig Neues handeln würde. Haben Sie eine Erklärung dafür? Gab es in letzter Zeit Durchbrüche in der Forschung?

Martin Volk: Die neuronalen Netzwerke – eigentlich schon in den 1980er-Jahren erforscht – haben in den letzten Jahren stark an Bedeutung gewonnen, weil die Rechenleistung jetzt erlaubt, damit vernünftige Dinge anzustellen. Das hat zu deutlichen Verbesserungen in der Bilderkennung, der Erkennung gesprochener Sprache und seit etwa zwei Jahren auch im Bereich der maschinellen Übersetzung geführt. Mit diesen maschinellen Lernverfahren kann man ja alles Mögliche lernen, zum Beispiel auch Handschrifterkennung. Das hat, glaube ich, zum aktuellen KI-Hype geführt.

CW: Auslöser war also nur die Hardware-Verbesserung?

Volk: Nicht nur. Nachdem sich gezeigt hat, dass mit der heutigen Hardware viel möglich ist, gab es eine Reihe von architektonischen Weiterentwicklungen. Dadurch kann man die neuronalen Netzwerke heute besser nutzen und organisieren.

CW: Ihr neues Projekt CoNTra arbeitet ja auch mit neuronalen Netzen.

Volk: Genau. Das Projekt wird vom Schweizer Nationalfonds (SNF) unterstützt und startete am 1. Januar 2017. Wir ver­suchen da, neuronale maschinelle Übersetzungssysteme zu entwickeln und die Technologie zu verbessern.

Annette Rios: CoNTra steht für Rich Contexts in Neural Machine Translation. Im Moment übersetzen automatische Systeme immer noch mehrheitlich Satz für Satz. Wir wollen mehr Kontext aus dem Diskurs oder dem ganzen Dokument berücksichtigen. In der Anfangsphase evaluieren wir hauptsächlich, das heisst, wir bauen Test-Sets für bestimmte Schwierigkeiten, die MÜ-Systeme haben.

Volk: Das grosse Problem bei neuronalen Netzen ist, dass man nicht weiss, wo die Fehler herkommen. Um dem auf die Spur zu kommen, variieren wir möglichst systematisch die Eingaben.

Rios: Zum Beispiel bei der Übersetzung mehrdeutiger Wörter: Das deutsche Wort «Absatz» kann je nach Kontext mit «heel», «paragraph» oder «sales» übersetzt werden. Wir extrahieren also einen Satz, in dem die korrekte Übersetzung «heel» wäre und tauschen das Wort durch «sales» oder «paragraph». Dann testen wir, ob das Modell merkt, dass die Übersetzung falsch ist. Das ist möglich, weil das Modell nicht nur über­setzen, sondern Übersetzungen auch mit einer Punktzahl beurteilen kann. Dieses Vorgehen wenden wir auch auf Pro­nomen und andere Grammatikelemente an.

CW: Wenn also vorher von Schuhen die Rede war, wäre die korrekte Übersetzung «heel».

Volk: Genau. Wobei die Schuhe auch erst nachher vorkommen können. Das Ziel des Projekts ist es herauszufinden, welche Art von Kontext auf welche Weise repräsentiert werden muss, um die Übersetzung zu verbessern. Dazu muss man zuerst herauszufinden, wo ein solches System Probleme hat.

CW: Ist dieser Ansatz komplett neu?

Rios: Neuronale maschinelle Übersetzung gibt es seit zwei bis drei Jahren. Das ist also nichts, was wir selbst erfunden haben.

Volk: Wir beschäftigen uns auch schon länger mit der Frage, inwiefern satzübergreifender Kontext hilft, die Übersetzung zu verbessern – zusammen mit dem IDIAP in Martigny. Erstaunlich dabei ist, dass es gar nicht so viel nützt, wie man intuitiv annehmen würde.

CW: Woran liegt das?

Volk: Oft liefert der Satz für sich allein genug Informationen, um mehrdeutige Wörter oder Pronomen richtig zuzuordnen. Und allein durch Erraten mit statistischen Wahrscheinlichkeiten erreicht man schon recht hohe Trefferquoten. Ausserdem muss man dabei Hintergrundwissen vorübergehend speichern und auch rechtzeitig wieder «vergessen». Wir ver­muten, dass Google Translate nach wie vor jeden Satz isoliert übersetzt. Das geht viel schneller, weil man dadurch jeden Satz an einen anderen Server schicken und so gleichzeitig übersetzen kann. Und noch ein Problem gibt es: Wenn das System einen Fehler macht und sich im nächsten Satz daran «erinnert», übersetzt es unter Umständen auch einen Folgesatz falsch, den es ohne diese Berücksichtigung richtig übersetzt hätte.



Das könnte Sie auch interessieren