13.10.2016, 09:00 Uhr

Schweizerdeutsche Spracherkennung vor Marktreife

Der Computer lernt je länger, je mehr menschliche Fähigkeiten. Die Spracherkennung auch mit Dialekt und die Gesichtserkennung stehen laut Schweizer Experten vor der Marktreife.
Per Ende Monat kommt Amazon Echo in den deutschsprachigen Handel. Besitzer können dann ihre Internet-Dienste per Sprache steuern, sich die Wikipedia vorlesen lassen und natürlich auf Zuruf bei dem Online-Versender einkaufen. Amazon Echo könnte nach Meinung von Experten einen Durchbruch für die computerbasierte Sprachverarbeitung bedeuten. Einige Spezialisten für Sprach- und Gesichtserkennung trafen sich an einem Anlass der IT-Dienstleistungsfirma ti&m in Zürich. Sie hatten dem US-amerikanischen System noch einige entscheidende Features hinzuzufügen.
Auf der Welt werden zwischen 6000 und 7000 verschiedene Sprachen gesprochen. Knapp 1,8 Milliarden Menschen sprechen Englisch, 1 Milliarde sprechen Chinesisch. «Kaum 5 Millionen Menschen sprechen einen schweizerdeutschen Dialekt», sagte David Imseng, Mitgründer von recapp, an dem Anlass. Der Walliser hat sich der Aufgabe angenommen, seinen eigenen und auch die Hunderte anderen Schweizer Dialekte für Computer verständlich zu machen. Dabei kann er schon mehrere Erfolge vorweisen: Die TV-Box von Swisscom verwendet recapp-Software, um Mundart zu verstehen. Wenn im Walliser Parlament in «Walliserditsch» debattiert wird, transkribiert die Technologie von recapp das gesprochene Wort automatisch in Hochdeutsch. 

Identifikation per Sprache

Imseng sagte, dass insbesondere die Erkennung von Schweizerdeutsch für den hiesigen Markt ein entscheidendes Kaufkriterium sei. Dem stimmte Jürg Schleier vom Zürcher Start-up Spitch vorbehaltlos zu. Die Spitch-Technologie verarbeitet ebenfalls schweizerdeutsche Kommandos, beispielsweise bei der sprachgesteuerten Navigation durch Menüs, in Call Centern und bei der Transkription von Sprache in Text. Wie Schleier sagte, setzt Spitch das Schweizerdeutsch 1:1 um. Im Vergleich übersetzt recapp den Dialekt ins Hochdeutsche.
Eine weitere Anwendung von Spracherkennung bei Spitch ist die Identifikation des Sprechers. Anhand einer Sprachprobe von circa einer Minute Länge können Personen eindeutig identifiziert werden. Dafür ist anschliessend ein Gespräch von nur 15 Sekunden erforderlich, sagte Schleier. Bei Schweizer Banken und Betreibern von Call Centern stosse die Technologie auf grosses Interesse. Auch unerwünschte Personen oder Betrüger könnten vom Algorithmus erkannt und schon vom Computer abgewiesen werden, bevor sie zu einem Agenten durchgestellt werden.  Nächste Seite: Gesichtserkennung in der Nacht Bis zur Marktreife entwickelt ist mittlerweile auch die Gesichtserkennung. Das Schweizer Start-up KeyLemon aus Martigny hat auf der Basis einer eigens entwickelten Technologie eine Sicherheitslösung für Online-Banken im Portfolio. Kunden können sich auf dem Handy durch einen Gesichts-Scan beim Internet-Banking anmelden oder auch Zahlungen freigeben. Dabei scannt KeyLemon das Gesicht des Benutzers, überträgt und speichert aber nur ein individuell typisches Muster von Merkmalen, sagte CEO Gilles Florey. «Gesicht, Gestik und Sprache sind natürliche Identifikationsmerkmale. Ich erkenne niemanden am Fingerabdruck», betonte er die Vorzüge der Technologien.
Neu arbeitet KeyLemon an einer Adaptation der Gesichtserkennung für schwierige Umgebungsbedingungen. Denn die Videolösung benötigt ein gut ausgeleuchtetes Motiv. Kameras mit Infrarotsensoren könnten auch eine Gesichtserkennung in dunklen Umgebungen erlauben. Dann stünden den nächtlichen Bankgeschäften nichts mehr im Wege. 

Lächeln für einen Brausedrink

Eine Geschäftsanwendung mit Sprach- oder Gesichtserkennung ist nach den Worten von René Konrad, Product Sales bei ti&m, kein kostspieliges Grossprojekt mehr. Beide Technologien stünden vielmehr für kleines Geld auf Abruf zur Verfügung. So haben die Zürcher einen Prototyp eines Verkaufsautomaten entwickelt, der per Sprache bedient wird und ein Lächeln als Bezahlung akzeptiert. Dabei kommen nach Aussage Konrads hauptsächlich Standard-Technologien zum Einsatz, die via Cloud bezogen werden können. Konkret hat ti&m für Gesichts- und Spracherkennung die Cortana-Technologie von Microsoft angezapft. Bei der Lächel-Erkennung und der Produktauswahl wurden zusätzlich Google-Kapazitäten genutzt. Nach den Worten Konrads waren für die gesamte Verkaufsapplikation fünf API-Calls notwendig. Der Prototyp sei zwar rudimentär, er demonstriere aber, dass eine Schweizer Variante von Amazon Echo durchaus ohne Millioneninvestitionen realisierbar sei, sagte der ti&m-Manager.



Das könnte Sie auch interessieren