Google-Forscher Dimitri Kanevsky © Thomas Kubin

Dimitri Kanevsky bringt Kaliforniens Sonne nach Graz. Mit Sandalen, kurzer Hose und buntem Kurzarmhemd ausgestattet, steht er an diesem Septembertag pünktlichst am ausgemachten Treffpunkt und grüßt freundlich.

Für die riesige Konferenz „Interspeech“ tauschte Kanevsky dieser Tage seinen Arbeitsplatz in Googles Zentrale in Mountain View gegen die Bühne der Grazer Stadthalle. 2000 Spezialisten debattierten dort über das Thema Sprachtechnologien, Dimitry Kanevsky wurde besondere Aufmerksamkeit zuteil. Seit frühester Kindheit ist er gehörlos, jene Technologie, auf die sich der gebürtige Russe in der Kommunikation heute verlässt, prägte er federführend mit.

Szenenwechsel. Ein ruhiger Raum, viele Bildschirme. Dimitri Kanevsky spricht manchmal sehr leise, meist eher laut. Blitzschnell wird das Gesprochene auf dem per Handschuh und Magneten befestigten Smartphone-Display ausgespielt. Braucht man als Mensch einige Minuten, um sich an Kanevskys Betonungen und seinen Sprachrhythmus zu gewöhnen, funktioniert der Algorithmus einwandfrei. Nur vereinzelt tippt er Wörter falsch ab, wandelt diese aber nach dem Satzende richtig um. Auch die Fragen des Interviewers werden vom Smartphone-Mikrofon erfasst, transkribiert und auf den Bildschirm übertragen.

Google-Forscher Dimitri Kanevsky im Interview Foto © Thomas Kubin

„Live Transcribe“, verwendbar in 70 Sprachen und Dialekten, nennt sich die kräftige Applikation. Von Google im Februar vorgestellt, entsprang sie direkt den Bedürfnissen Kanevskys. Brauchte dieser früher einen eigenen „Captioner“, einen Schriftdolmetscher, der sich bei Meetings zuschaltete und Gesagtes in Echtzeit verschriftlichte, reicht ihm nun das kleine Smartphone. „Ich kann heute überall kommunizieren“, ruft Kanevsky, der sich perfektes Englisch beibrachte, und packt ein kleines Richtmikrofon für Kaffeehaus-Atmosphären aus.

Die Technologie der Spracherkennung trieb er selbst vielerorts voran. Bei IBM verantwortete der studierte Mathematiker einst die Entwicklung des ersten automatisierten Spracherkennungssystems für Russisch, bei Google tüftelte er später an Spracherkennungsalgorithmen für Youtube. Mittlerweile liegt sein Fokus auf Technologien, die Barrieren abbauen.

Denn, egal ob es um Googles Assistant, Amazons Alexa oder andere Assistenten geht: Sprachassistenten sind darauf ausgelegt, für die Mehrheit der Stimmen zu funktionieren. Minderheiten spielten in der technologischen Entwicklung keine große Rolle.

Aus der Cloud ins Gerät

Mit dem heuer gestarteten „Project Euphonia“ setzt sich Google erstmals explizit das Ziel, die Technologie auch für Menschen mit Einschränkungen besser nutzbar zu machen, Kanevsky ist einer der Markenbotschafter und inhaltlichen Treiber des Projekts.

In welche Richtung sich Spracherkennungstechnologie entwickeln wird? „Hoffentlich bald“, sagt Kanevsky, werde man keine Internetanbindung mehr brauchen. Die Kraft wandert aus der Cloud ins Gerät, Erkenner werden schneller und klarer zuordnen, wer denn in einer Runde jetzt gerade spricht. Seit „30 Jahren“ arbeitet Dimitri Kanevsky selbst an Spracherkennungstechnologien, stets angetrieben vom Glauben an die positive Veränderungskraft von Technologie. Heute unterrichtet er Mathematik und kann, wie er gestenreich verkündet, „endlich mit beiden sechsjährigen Enkeltöchtern sprechen“.

Zur Person Dimitri Kanevsky arbeitet als Forscher bei Google. Zuvor bei IBM (Watson Research Center).

Bei Google verantwortete der gebürtige Russe ab 2014 die Entwicklungen von Spracherkennungsalgorithmen für Youtube. Seit 2017 arbeitet Kanevsky im „Perception Team“ des Konzerns.



Kanevsky hält 291 US-Patente und forschte bereits in Tel Aviv, Princeton oder am Max-Planck-Institut in Bonn.

