Blog
AWS Transcribe als Echtzeit-Übersetzer in internationalen Meetings
Das Experiment
Vor einiger Zeit trafen sich einige Kolleg*innen im Hamburger Office für einen gemeinsamen Workshop. Fast alle Vortragenden waren deutsche Muttersprachler*innen, die auf Deutsch präsentierten. Allerdings waren auch noch einige Teilnehmende anwesend, die nur über Grundkenntnisse in der deutschen Sprache verfügten. Wir wollten herausfinden, ob AWS Transcribe einen Echtzeit-Übersetzer ersetzen und auf diese Weise unseren Workshop sinnvoll unterstützen kann. Natürlich bringen viele Videokonferenz-Tools wie Microsoft Teams und Zoom ein Übersetzungsfeature von Haus aus mit. Der Gedanke hier war mit Hilfe von AWS Transcribe ein Tool bereitzustellen, das unabhängig von der Meeting-Plattform eingesetzt werden kann.
Die Hauptmotivation für dieses Experiment war der Spaß, aber es könnte auch Teil unseres Angebots werden: Viele unserer Kunden, vor allem aus dem Mittelstand, haben Probleme mit der Kommunikation in einem mehrsprachigen Geschäftsumfeld. AWS Transcribe könnte ein Lösungsansatz sein.
Das Ergebnis – Miserabler Misserfolg!
Der Satz „Lass uns versuchen, das Mikrofon zu bewegen“ wurde übersetzt mit „Jetzt brauche ich wirklich einen Joint!“
Abgesehen von dieser einen erfreulichen psychologischen Erkenntnis war die Übersetzung vor allem eine frustrierende und verwirrende Aneinanderreihung von zufälligem, nutzlosem Unsinn. Nach 10 Minuten schalteten wir das Programm enttäuscht ab.
Wenn es hart auf hart kommt, kommt das Denken in Schwung
Wir wären nicht das Analyseteam, wenn wir einfach aufgeben würden. Neben unseren Kundenprojekten schaufelten wir Zeit frei, um unser Experiment fortzusetzen.
Dabei untersuchten wir die folgenden Faktoren:
- Das Mikrofon hat eine eingebaute Rauschunterdrückung. Der Raum hatte eine schreckliche Akustik. Wir denken, dass das Mikrofon einfach alle Geräusche unterdrückt hat und AWS Transcribe nichts zu transkribieren hatte.
- AWS Transcribe funktioniert gut, wenn die Sprecher*innen langsam und deutlich sprechen. Die wirkliche Kommunikation in den Workshops ist anders. Wir haben mit „normaler“ Sprache getestet, aber in den Präsentationen wurde ein spezieller Jargon verwendet. Vielleicht führte das zur Verwirrung von Transcribe.
Die technische Umsetzung
Um AWS Transcribe erfolgreich nutzen zu können, wurde folgender Workaround entwickelt. Der Audiostrom vom Mikrofon wird in Stücke zerlegt, die an Amazon Transcribe gesendet werden. Transcribe wandelt sie in Text um und gibt json-Dateien mit teilweise transkribierten Sätzen zurück. Diese Textausgaben werden an Amazon Translate gesendet, das die erkannten Wörter ins Englische übersetzt. Schließlich wird der übersetzte Text auf dem Bildschirm angezeigt. Die obigen Schritte werden asynchron (mit asyncio) in einer Schleife ausgeführt, die so lange besteht, wie „chunks“ von Audio verfügbar sind.
Das Script ist kostenfrei via GitHub abrufbar: Amazon Trancribe-Tranlsate Pipeline
Fazit
In diesem Entwicklungsstadium kann eine Kombination aus AWS Transcribe und AWS Translate zur Echtzeit-Übersetzung verwendet werden, wenn die Sprecher*innen (1) ein sehr gutes Mikrofon haben, (2) das Mikrofon sehr nah am Mund ist und (3) deutlich gesprochen wird. Die Tools kommen mit leichten deutschen Dialekten sehr gut zurecht, aber Nuscheln, Stottern und Stocken führen zu verwirrenden Ergebnissen. Die Hauptherausforderung ist jedoch akustischer Natur: Die Tools können in einer Besprechung oder in einer kontrollierten Situation eingesetzt werden, aber ihre Anwendung in einer Konferenzumgebung in der realen Welt ist eine anspruchsvolle Angelegenheit.