von Nick Lüthi

Schwerer Stand für Sprechautomaten

Bei CH Media hat sie bald ausgedient, die NZZ setzt voll darauf und Tamedia experimentiert auf Sparflamme: Die automatisierte Vorlesefunktion für Zeitungsartikel findet durchaus ihre Fans, sie ist aber kein Instant-Erfolg.

Lesen Sie noch oder hören Sie schon? Diese Frage stellt sich den Nutzerinnen und Nutzern der CH-Media-Zeitungen bald nicht mehr – weil es nichts mehr zu hören gibt. Noch befindet sich neben der Autorenzeile auf den Online-Artikeln von «St. Galler Tagblatt», «Aargauer Zeitung» oder «Luzerner Zeitung» ein Kopfhörer-Symbol. Wer darauf klickt, kriegt den Text von einer synthetischen (und durchaus sympathischen) Männer- und Frauenstimmen vorgelesen. Kleinere Mängel, etwa die Aussprache «Ess Tee Punkt Galler» anstatt Sankt Galler, lassen sich grosszügig überhören.

Aber es gibt auch irritierende Momente. Etwa dann, wenn bei Interviews eine Frauenstimme die Antworten des männlichen Gesprächspartners spricht. Aber es sind nicht viele, die das überhaupt stören könnte. Und bald wird es gar niemanden mehr stören. «Wir haben aufgrund kaum existenter Nutzung und gleichzeitig hoher Betriebskosten gemeinsam mit der Redaktion entschieden, den Vertrag für die Sprachausgabe auslaufen zu lassen», teilt CH-Media-Sprecher Stefan Heini auf Anfrage der MEDIENWOCHE mit. Den Vertrag hatte CH Media mit der NZZ, einem der beiden Partner des Joint-Ventures.

Dass die NZZ vor rund drei Jahren auf Text-to-Speech setzte, lag auch am allgemeinen Audio-Trend.

Bei der NZZ selbst, die das Feature entwickelt hat und für die eigenen Artikel verwendet, sieht es anders aus. Seit der Lancierung der Audio-Funktion vor drei Jahren und der offiziellen Einführung im April 2019 sei die Nutzung «stetig gestiegen», teilt NZZ-Unternehmenssprecherin Karin Heim auf Anfrage mit. Im Corona-Frühjahr 2020 habe man einen Peak der monatlich aktiven Nutzer verzeichnet, die sich Artikel vorlesen liessen. Konkrete Zahlen nennt das Unternehmen aber keine. Auch scheinen diejenigen, die sich die Texte vorlesen lassen, mit der Qualität der Sprachausgabe zufrieden zu sein. Die Verweildauer sei sehr hoch, heisst es. Durchschnittlich hörten circa 70 Prozent der Nutzerinnen und Nutzer einen Artikel zu Ende. Ausserdem steige die Anzahl gehörter Texte pro Person. Am beliebtesten seien Beiträge aus den Ressorts International, Wirtschaft und Meinung.

Als die NZZ vor drei Jahren die neue Funktion einführte, war es das Ziel des Unternehmens, damit auch zum geschäftlichen Erfolg beizutragen. Die Sprachausgabe sollte einen zusätzlichen Anreiz für registrierte Nutzerinnen schaffen, ein Abo zu kaufen. «Die Audio-Funktion trägt sicher zum Abo-Wachstum bei», heisst es bei der NZZ. «Nicht zuletzt wegen Nutzungsszenarien wie dem Hören beim Autofahren oder als Unterstützung für Personen mit Sehschwäche.»

Mit ihrem Vorgehen in Sachen Text-to-Speech steht die NZZ in der Schweiz allein auf weiter Flur.

Dass die NZZ vor rund drei Jahren auf Text-to-Speech setzte, lag auch am allgemeinen Audio-Trend: Podcasts waren gross im Kommen, Smart Speaker galten als «The Next Big Thing» und die NZZ-Leserinnen und -Leser äusserten den Wunsch nach mehr Audioinhalten. «Klassische Podcast-Formate reichten ihnen oft nicht mehr aus – sie wollen die Wahl haben, ob sie nun einen Artikel lesen oder hören möchten», hielt Niklaus Gerber, der damalige Leiter digitale Produktentwicklung der NZZ, in einem Making-of zur Beta-Version der neuen Sprachausgabe fest.

Unterstützen Sie unabhängigen und kritischen Medienjournalismus. Werden Sie jetzt Gönner/in.

Journalismus braucht Herzblut, Zeit – und Geld. Mit einem Gönner-Abo helfen Sie, unseren unabhängigen Medienjournalismus nachhaltig zu finanzieren. Ihr Beitrag fliesst ausschliesslich in die redaktionelle und journalistische Arbeit der MEDIENWOCHE.

[rml_read_more]

Damit war auch klar, dass es nicht reicht, ein paar ausgewählte Artikel von professionellen Sprecherinnen und Sprechern vorlesen zu lassen. Bei rund 200 Artikeln, welche die NZZ täglich veröffentlicht, ein Ding der Unmöglichkeit. Also blieb nur die automatisierte Lösung. Dabei kam der Zeitung entgegen, dass Audiophile grundsätzlich tolerant sind gegenüber synthetischer Sprachausgabe. «Menschen, die bereits viel Audio verwendet haben, wurden nicht wirklich von schlechterer Qualität gestört – sie wollten einfach hören», schrieb Luisa Bider, vormals in der digitalen Produktentwicklung der NZZ tätig, anlässlich des regulären Starts des neuen Features im April 2019.

Mit ihrem Vorgehen in Sachen Text-to-Speech steht die NZZ in der Schweiz allein auf weiter Flur. Tamedia reagierte zwar auch auf den Audio-Trend, setzte aber stärker auf Podcasts. Eine automatisierte Vorlesefunktion gibt es nur in der 12-App, wo täglich zwölf ausgewählte Artikel aus sämtlichen Tamedia-Titeln kuratiert werden. «Wir sehen das als Test», erklärt Christoph Zimmer, Chief Product Officer bei Tamedia. Die Nutzung sei stabil, einige tausend Leserinnen und Leser nutzten die Sprachausgabe pro Monat. «Aber die Rückmeldungen sind nicht nur positiv», sagt Zimmer. «Während die Funktion an sich begrüsst wird, wird die Vorlesequalität teilweise bemängelt.» Tatsächlich klingt die Sprachausgabe der 12-App im Vergleich mit jener der NZZ monoton blechern und erinnert an das Klischee einer Roboterstimme. Er könne deshalb die Kritik nachvollziehen, so Christoph Zimmer weiter.

Sehbehinderte als Zielgruppe?

Die NZZ sieht in der Vorlesefunktion auch eine «Unterstützung für Personen mit Sehschwäche». Nun könnte man davon ausgehen, dass blinde und sehbehinderte Menschen die automatisierte Sprachausgabe besonders intensiv nutzen und es begrüssen würden, wenn nicht nur einzelne Zeitungen diese Hilfsfunktion anbieten. Beim Schweizerischen Blinden- und Sehbehindertenverband SBV winkt man ab: «Blinde Menschen lassen sich die Texte gerne durch ihr gewohntes Hilfsprogramm vorlesen», weiss Martin Abele, Bereichsleiter Interessenvertretung beim SBV. Wichtiger sei deshalb die barrierefreie Gestaltung der Medien-Websites, damit die Vorleseprogramme, welche Sehbehinderte nutzen, sämtliche Text-, Bild- und Layoutelemente sauber erfassen und beschreiben können. «Dann braucht es kein Extra-Feature für eine Sprachausgabe», so Abele.