2025-06-09 00:26:49 +02:00

34 KiB
Raw Blame History

Transkript Dmitrij Rjabinin, TONI Product Owner IP11 00:00:00 Sprecher 1 Bitte stell dich kurz vor und erläutere deinen beruflichen Hintergrund und deine Rolle innerhalb der WTG. 00:00:12 Sprecher 2 Ich bin [IP11], [Ende 20] und bin aktuell noch Masterstudent der Wirtschaftsinformatik und habe im Bachelor den Schwerpunkt Webentwicklung gehabt. Bei der WTG habe ich zuerst als Entwickler angefangen, bin dann langsam in meine [heutige] Rolle gewechselt, bevor ich dann zum TONI-Projekt gekommen bin. Als [heutige Berufsbezeichnung entfernt] bin ich der Hauptverantwortliche für die Erfassung und für die Verwaltung von Anforderungen, Risikobewertung, die Priorisierung von Aufgaben und wenn möglich die Planung und die Durchführung von strategischen Vorgaben. Das heißt, wenn mir aus dem Produktmanagement oder aus dem Vorstand strategische Ziele gesetzt werden, liegt es an mir, mir Gedanken zu machen, wie diese strategischen Ziele am besten erreicht werden könnten bzw., wen ich dabei ansprechen könnte, um bei der Erfüllung dieser Ziele behilflich zu sein. 00:02:02 Sprecher 1 Nutzt du in deinem Alltag oder auch in deinem Berufsalltag bereits KI-Systeme? 00:02:13 Sprecher 2 In meinem Alltag nutze ich häufig ChatGPT oder den Chatpartner bei Bing größtenteils als richtige Suchmaschine, mit der man sich auch ein bisschen unterhalten kann, um herauszufinden, was genau man sucht. Weil manchmal hat man eine Idee, was man finden möchte, aber man weiß halt nicht, wie es heißt bzw. wonach genau man suchen muss, um auf Ergebnisse zu kommen. Da finde ich die schon praktisch, weil man sich dem Suchergebnis schrittweise nähern kann und auch möglicherweise Vorschläge bekommt, an die man nicht gedacht hat. 00:02:58 Sprecher 1 Im Arbeitsalltag sind es dann dieselben, oder? 00:03:04 Sprecher 2 Genau im Arbeitsalltag nutze ich die als erweiterte Suchmaschine einfach und lasse mich dann zu meinen Suchergebnissen inspirieren, bevor ich dann selber in die Detailsuche gehe. 00:03:17 Sprecher 1 Welche Erfahrung hast du damit gemacht? 00:03:26 Sprecher 2 Ein bisschen durchwachsen, manchmal muss man schon ein bisschen mehr Aufwand reinstecken, um das gewünschte Ergebnis zu bekommen und manchmal klappt es auf Anhieb. Manchmal hilft es vielleicht, manchmal nicht, aber bin ich jetzt auch nicht traurig, wenn der auf Anhieb nichts findet. Dann ist es für mich meistens nur ein Zeichen, dass ich vielleicht die Suchanfrage umformulieren muss. 00:03:52 Sprecher 1 Welche Ziele verfolgt die WTG mit dem Einsatz des entwickelten Echtzeitübersetzers im Bereich Notrufkommunikation? 00:04:08 Sprecher 2 TONI soll in erster Linie den Disponenten erleichtern, sich mit fremdsprachigen Anrufern verständigen zu können. Das schafft zum einen die Sicherheit, zum anderen auch eine Prozessverbesserung, dass man nicht darauf angewiesen ist, als menschlicher Agent die Sprache zu erkennen und dann möglicherweise den richtigen Dolmetscher dafür zu finden und dann auch entsprechend die Prozessschritte zu durchlaufen, die notwendig werden, um einen menschlichen Dolmetscher ins Gespräch zu bekommen. Dafür finde ich, dass TONI an der Stelle eine Arbeitserleichterung ist und auch den Prozess optimiert in der Hinsicht, dass die Sprache automatisch erkannt wird und auch das Einbinden ins Gespräch mehr oder weniger per Knopfdruck funktioniert und nicht erst eine Telefonliste, blöd gesagt, abtelefoniert werden muss, um einen Dolmetscher zu bekommen, der nicht nur die Sprache versteht, sondern auch verfügbar ist. Da das Ganze auch ein bisschen fixer funktioniert und auch in der Bezahlung ein bisschen günstiger sein soll, ist es hoffentlich auch irgendwo eine Erleichterung der öffentlichen Kassen, wenn man dafür weniger zahlen müsste als für Bereitschaftsdolmetscher in den verschiedenen Sprachen, da man nur einen Agenten hat und nicht viele verschiedene Menschen, mit denen man dann auch entsprechend abrechnen müsste. 00:05:43 Sprecher 1 Also ist diese Erleichterung für den Disponenten der größte Vorteil? Und siehst du auch noch Vorteile für den fremdsprachigen Anrufer? 00:06:01 Sprecher 2 Für den fremdsprachigen Anrufer ist das von Vorteil aus dem Grund, dass der Notruf schneller bearbeitet werden kann. Wenn wir vom manuellen Prozess sprechen, dann müssen sich Anrufer und der Disponent teilweise auf gebrochenem Deutsch, teilweise auf hilfsbedürftigem Englisch oder auf eine Sprache einigen, die der Anrufer versteht und dann muss erst der Dolmetscher gesucht werden, bevor der eigentliche Notruf bearbeitet werden kann und vor allem in Notrufsituation, wo dann auch Zeit einen entscheidenden Faktor spielt, könnte da einfach Zeit verloren gehen, die der Anrufer möglicherweise nicht hat. Deswegen würde ich aus Anrufersicht sagen, dass es zum einen zur Zeitersparnis kommt, was in Notrufen vermutlich einer der wichtigsten Faktoren ist. Zum anderen aber auch wird der ganze Prozess ein bisschen angenehmer und menschenfreundlicher oder anwenderfreundlicher, dass man da einfach viel schneller auf eine gemeinsame Sprache kommen kann bzw. auch sich gegenseitig verständigen kann. 00:07:11 Sprecher 1 Welche Herausforderung hast du in Bezug auf Akzeptanz oder Vertrauen gegenüber dem Übersetzer erlebt, sei es intern oder extern? 00:07:25 Sprecher 2 Abgesehen von Technologiehürden, die vermutlich jedes Produkt in irgendeiner Art und Weise überwinden muss, ist Qualität leider ein ziemlich großes Thema oder ein ziemlich großes Problem. Jetzt von TONI sprechend sind die Qualitätssicherungsmaßnahmen noch nicht ausgearbeitet. Wir arbeiten daran und haben da auch schon Fortschritte erzielt, um auch besser mit Feedback zu Qualitätsproblemen bei der Übersetzung bzw. bei der Spracherkennung zu kommen. Also Qualität ist ein großes Thema und dann die typischen technologischen Wehwehchen, wenn Systemkomponenten nicht gut miteinander zurechtkommen wollen oder technische Probleme gelöst werden müssen, bevor man dann seine Anforderungen umsetzen kann. 00:08:28 Sprecher 1 Wie wichtig findest du Transparenz über die Funktionsweise des Übersetzers für das Vertrauen der Nutzer? 00:08:41 Sprecher 2 Nach meiner persönlichen Meinung finde ich die Transparenz sehr wichtig, einfach weil mir bewusst ist, dass solche KI-Übersetzer oder generell Sprachmodelle, die für die Übersetzung geeignet sind, im Endeffekt nichts anderes als statistische Modelle sind und dementsprechend haben die keinen eigenen Willen oder keinen eigenen Zweck. Man versucht das Ganze ein bisschen zu vermenschlichen und das Ganze ein bisschen nahbarer oder verständlicher zu machen und indem man das auch KI-Übersetzer nennt, also auch tatsächlich eine menschliche Rollenbeschreibung dem Ganzen gibt, darf man nicht vergessen, dass die Modelle nicht unfehlbar sind und dass auch an der Stelle eine gewisse Fehlertoleranz existieren muss. Im menschlichen Prozess, wenn ein menschlicher Dolmetscher dabei ist, ist diese Fehlertoleranz auch irgendwo gegeben. Als Agent muss man darauf vertrauen, dass der menschliche Übersetzer erstens in der Lage ist oder körperlich fit ist, damit er beim Dolmetschen am Ball bleiben kann, aber auch ihm Fehler unterlaufen können. Bei einem KI-Dienst ist diese Fehlertoleranz, zumindest ist das mein Eindruck, ein bisschen anders bzw. geht man eher davon aus, dass wie bei bisherigen Computerprogrammen, dass die Sachen da deterministisch ablaufen. Das heißt, ich habe Input A, ich erhalte Output B, und zwar immer, dass das ein bisschen gebrochen wird und dass diese Erwartungshaltung, dass diese Modelle unfehlbar sind, dann auch dazu führen, dass man erwartet, dass sie qualitativ besser übersetzen und so lange man keine wirklichen Kennzahlen dazu hat, wie gut die Übersetzung tatsächlich ist, ist es schwer argumentativ gegen das Gefühl des Menschen vorzugehen. Sobald der Mensch anfängt zu fühlen, dass die Übersetzung nicht ganz passen oder nicht ganz stimmig sind, ist es schwer die Personen davon zu überzeugen, dass das mit der Übersetzung alles in Ordnung ist, aber dass die Akzeptanz dann trotzdem hoch bleibt, trotz ein, zwei, drei oder vier falscher Übersetzungen. 00:11:11 Sprecher 1 Welche Maßnahmen wurden bereits getroffen oder könnten deiner Meinung nach ergriffen werden, um diese Transparenz zu gewährleisten? 00:11:21 Sprecher 2 Maßnahmen, die getroffen wurden, sind, dass wir verfügbare Sprachen als simpelste oder primitivste Art der Qualitätssicherung testen, um herauszufinden, ob die Anzahl der Sprachen, die wir bewerben, auch tatsächlich beherrscht wird oder angeboten werden kann. Wir haben einen Beispieltext, der über ein Zweitgerät in eine andere Sprache übersetzt wird, mit einem anderen Übersetzer und getestet wird, ob dieser Text in verschiedenen Sprachen erkannt wird und auch in beide Richtungen übersetzt wird. Zum einen lässt man das durch den eigenen Dienst also durch TONI erkennen und zum anderen lässt man TONI diesen Beispieltext übersetzen und in der Zielsprache ausgeben und überprüft dann nachher über Google Translate, wie gut die Übersetzung war. Das ist eine der aktuelleren Maßnahmen. Schwächen der Methode sind natürlich, dass man an der Stelle auch natürlich darauf vertrauen muss, dass die Google Translate Übersetzung richtig ist und dass auch die Aussprache von Google Translate der typischen Aussprache der Leute annähernd ähnlich gleichkommt wie das, was quasi auch „auf der Straße“ gesprochen wird. Zum anderen muss man auch zugeben, dass das sterile Laboratorium sind, wenn man im Homeoffice ohne Hintergrundgeräusche, ohne andere Sperrfaktoren diese Aufzeichnungen mehr oder weniger in perfekter Umgebung machen kann. Deswegen muss die Auswertung davon ein bisschen mit Vorsicht genossen werden, da auch aus Zeit- und Kostengründen keine umfassende Analyse gemacht werden kann, sondern ein vergleichsweise kleiner Beispieltext verwendet wird. In dem Beispieltext versuchen wir aber trotzdem zu achten, möglichst fiese Szenarien einzubauen, um zu gucken, wie sich die KI bzw. der Übersetzer, wie das Programm damit zurechtkommt. Da fließen unter anderem Anglizismen mit ein. Teil des Beispieltextes ist der Name unseres Münsteraner Büros WTG Communication. Es hat ein Akronym und es hat ein Anglizismus im Namen und dann Willy-Brandt-Weg 11 48155 Münster. Als Mensch lese ich die Zahlen getrennt voneinander vor, durch den Übersetzer lasse ich sie als [zusammenhängende Zahlen] aussprechen, einfach um zu prüfen, ob der Übersetzer damit zurechtkommt. Da kommen teilweise auch sehr interessante Ergebnisse zustande. Einige Sprachen kommen viel besser mit Anglizismen zurecht als andere, einige Sprachen kommen besser mit dieser Adresse zurecht als andere, einige Sprachen versagen einfach auf voller Linie und die müssen wir dann leider auch ausschließen. Andere Sprachen übersetzen und transkribieren den gehörten Text mehr oder weniger 1:1, so wie er von Google vorgesprochen wurde. Deswegen scheinen wir da bei der Auswahl des Beispieltextes ein gutes Mittel zwischen Qualitätssicherung und Kostenüberlegungen gefunden zu haben. Der zweite Teil der Antwort, was man noch machen könnte, um die Qualität zu verbessern, wäre eine engere Zusammenarbeit mit dem KI-Dienstleister, der das Modell bereitstellt und an der Stelle auch eine gemeinsame Arbeit an Qualitätsmerkmalen. Typischerweise gibt es bei KI-Modellen oder bei großen Sprachmodellen, die mit Texten zurechtkommen müssen, eine World Error Rate, also WER als Kennzeichen und die gibt an wie hoch die durchschnittliche Abweichung über eine bestimmte Anzahl an Audiosignalen ist. Je niedriger die Word Error Rate ist, desto besser ist das Modell für diese Sprache geeignet, um das Audio zu erkennen und in Text zu übersetzen. Eine andere Maßnahme wäre das Ganze zu automatisieren und die Testfälle zu erweitern, dass man nicht nur einen Beispielsatz über zwei bis drei Sätze hat, sondern möglicherweise auch ein Mix zwischen langen Texten, kurzen Texten, längeren Audiosegmenten, kürzeren Audiosegmenten, leisen Audiosegmenten, lauten Audiosegmenten, damit man einfach mehr von dem realen Anwendungsfall abdecken kann und auch an die tatsächliche Produktivumgebung sozusagen annähern kann, einfach um zu sehen, wie gut ist denn das Modell tatsächlich in einem Satz. Da wir aus offensichtlichen Gründen keinen Zugriff auf die Kundendaten haben bzw. auf die Live-Gespräche der Disponenten, um anhand echter Daten nicht nur das Training, aber auch die Qualitätsmerkmale analysieren zu können. 00:17:25 Sprecher 1 Glaubst du, dass eine bessere Kommunikation über die Funktionsweise des Systems das Vertrauen der Anwender stärken könnte? 00:17:42 Sprecher 2 Das habe ich mich auch schon häufig gefragt. Ich muss sagen, selbst wenn man kurzfristig den Effekt hat, dass die Unsicherheit ein bisschen stark bzw. die Anwender möglicherweise schon von vornherein abgeturnt werden, die Modelle zu verwenden, so finde ich, dass eine offene Kommunikation der Schwachstellen dieser Modelle und auch der vorhandenen Fehler muss noch immer vor Augen führen, dass die Modelle nicht unfehlbar sind und dass da Fehler geschehen können. Aber ich finde, eine offene Kommunikation ist dies bezüglich fair und als Nutzer würde ich persönlich es bevorzugen, wenn man mir sagt: „Hey, folgende Probleme oder folgende Schwachstellen gibt es. Es gibt folgende Randfälle, wo das Modell nicht in der Lage ist oder nicht so gut in der Lage ist zu übersetzen“. Dass man als Anwender zumindest schon mal dafür gewappnet ist, als wenn kommuniziert wird: „Hey, es ist alles super, wir können den Anwendungsfall zu 100 Prozent abdecken. Es gibt keine Randfälle, es gibt keine Probleme, verwende das Ding und du wirst keine Probleme haben“. Dann stolpern die Anwender aber selber auf diese Probleme und sind dann sozusagen im Konflikt zwischen dem, was den antrainiert oder anerzogen wurde, und dem, was sie tatsächlich beobachten. Ich denke, dass auf lange Sicht eine offene Kommunikation oder auch eine offene Fehlerkultur mit den KI-Modellen dazu führen wird, dass die Anwender diesbezüglich toleranter werden und auch sagen: „Okay, die Übersetzung ist möglicherweise nicht so dolle, kann verschiedene Gründe haben. Sei es halt drum, dann nehme ich halt einen menschlichen Übersetzer dazu, der das möglicherweise besser machen kann“. Aber zumindest ist das nur ein: Okay, der Prozess hat nicht funktioniert, müssen wir auf den Ausweichprozess ausweichen, als wenn man dann wütende Leute hat, die dann sagen: „Ihr habt uns versprochen, dass es perfekt funktioniert und es funktioniert nicht“. 00:19:59 Sprecher 1 Hast du Bedenken, dass persönliche Daten bei der Nutzung von KI-Systemen gespeichert oder weitergegeben werden? 00:20:14 Sprecher 2 Also bei der generellen Verwendung von generellen KI-Modellen habe ich schon Bedenken, was mit den Daten passiert. Dementsprechend achte ich darauf oder versuche ich, wenn ich Anfragen habe, die arbeitsspezifisch sind, dass ich die Anfragen möglichst allgemein formuliert halte, einfach um möglichst wenige Rückschlüsse auf die Arbeit zu haben, auch wenn das möglicherweise nicht so leicht ist. Für unser Produkt war Datenschutz eine der Grundvoraussetzungen oder der Grundanforderung sowohl von unseren Kunden an uns als auch von uns an unseren KI-Dienstleister. Dementsprechend werden keine Daten gespeichert, was dann zu der vorherigen Frage, die ich beantwortet habe, führt, dass wir teilweise Probleme bei der Qualitätssicherung haben, weil uns die realen Daten fehlen, um zu gucken, wie im realen Produktivbetrieb die Modelle abschneiden. Aber an der Stelle - wir haben uns bewusst dagegen entschieden, diese Daten zu sammeln und unsere Kunden würden es uns auch nicht erlauben. Deswegen würde ich jetzt mal unser Produkt diesbezüglich als vertrauenswürdig einschätzen. Allgemein bin ich da aber skeptisch. 00:21:38 Sprecher 1 Wem vertraust du im Notfall mehr: dem menschlichen Übersetzer oder der KI, und warum? 00:21:52 Sprecher 2 Im Notfall würde ich vermutlich dem menschlichen Dolmetscher vertrauen. Wenn er etwas nicht versteht aufgrund von Audioproblemen oder aus anderen Gründen, möglicherweise hat der Anrufer einen komischen Dialekt der Landessprache oder hat irgendwelche Beeinträchtigungen, die das deutliche Sprechen verhindern, so kann der Dolmetscher darauf reagieren und kann die Person bitten, langsamer zu sprechen oder das anders zu formulieren, wenn er etwas semantisch nicht versteht. An der Stelle zeigt sich die „maschinelle Seele“ der KI, dass solche Rückfragen bei der KI nicht möglich sind. Die KI wird erst mal das, was sie mitbekommt, einfach übersetzen, ob das jetzt Sinn ergibt oder nicht. Mit dem aktuellen Forschungsstand der Sprachmodelle kann die nicht wirklich bewerten, ob die Übersetzung semantisch Sinn ergeben hat. Die kann möglicherweise faktisch Sinn oder richtig gewesen sein, das Wort für Wort richtig übersetzt wurde mit der richtigen Grammatik und so, aber semantisch nicht in den Kontext der Unterhaltung passen. Da würde ich sagen, dass da die KI-Übersetzer noch Verbesserungspotenzial hätten, in welcher Art und Weise weiß ich nicht, da bin ich nicht tief genug im Thema. Aber im Notfall würde ich sagen, dass ich den menschlichen Übersetzer, falls man den ans Telefon bekommt, doch mehr vertrauen würde, einfach weil dieser menschliche Aspekt fehlt: Ich habe es nicht verstanden, kannst du das bitte wiederholen, kannst du das bitte langsamer sagen, kannst du das bitte anders formulieren. Der fehlt dem KI-Übersetzer und diese Rolle muss dann der Dolmetscher oder der Disponent oder der Agent einnehmen und müsste darauf geschult werden, dass, wenn die Übersetzung sich komisch anhört oder nicht in den Kontext passt, er von sich aus noch mal nachfragt, um deutlichere oder bessere Antwort zu bekommen vom Anrufer. 00:24:09 Sprecher 1 Was sollte deiner Meinung nach am aktuellen Systemdesign oder -einsatz verbessert werden, sei es technisch, organisatorisch oder kommunikativ? 00:24:27 Sprecher 2 Ich habe viele Ideen, unter anderem auch durch meine Teamkollegen. Aber eines der Hauptthemen wird vermutlich sein, ein geeignetes Maß zur Qualitätssicherung zu finden. Einfach damit offener über solche Probleme gesprochen und kommuniziert werden kann. Ich finde, es hilft niemandem, wenn man versucht, die Probleme zu verschweigen und der Kunde stößt von allein auf diese Probleme. Da finde ich, muss man einfach dem Kunden diesbezüglich „voraus“ sein und sagen: „Hey, da sind bekannte Probleme. Falls du welche findest, benachrichtige uns gerne darüber“, weil ich finde es stärkt das Vertrauen, wenn der Kunde sieht, die halten sich nicht für Gott oder die wissen, dass es Probleme gibt, wenn ich einen Fehler finde, dann weiß ich, dass mit dem Fehler vernünftig umgegangen wird und nicht so getan wird, als wäre ich der Doofe, der das Produkt nicht richtig verwendet. Weiteres großes Thema, was für uns in der Entwicklung interessant wäre, wären Änderungen am System, die in Richtung Multitantent gehen würden. Man ist ein Mieter eines Objektes und bei Software as a Service versucht man ein Multitalent Ansatz zu fahren. Das heißt man hat Software, die irgendwo in der Cloud gehostet wird und statt nur einen einzigen Mieter auf dem System zuzulassen, der dann Nutzernamen und Passwort hat, möchte man versuchen, diese Mieter voneinander abgekapselt auf demselben System laufen zu lassen. Dadurch hat man dann Skalierungs- oder Skaleneffekte, da der Betrieb eines Systems günstiger ist als der Betrieb von mehreren parallellaufenden Systemen, wo jedes System pro Kunde vorgehalten werden muss. Zum anderen schafft das auch eine Ausfallsicherheit, weil wenn ich ein System habe, wo mehrere Kunden drauf laufen können, stört mich nichts oder hindert mich wenig daran, ein zweites System hochzufahren und für den Fall weiterlaufen zu lassen, dass das Erste ausfällt und dann können die Kunden des ersten Systems meistens elegant auf das zweite System umgeleitet werden, ohne dass größere Unterbrechungen im Service mitbekommen werden vom Kunden. Das heißt der Kunde muss möglicherweise die Webseite einmal kurz aktualisieren, aber dann läuft für ihn das System weiter oder der Kunde kann das System weiterhin nutzen, obwohl im Hintergrund möglicherweise das erste System am Brennen und Abstürzen ist, aber der Kunde bekommt davon nichts mit. Das ist dann eins der Wunschthemen aus der Entwicklung, dass wir an Multitanent Techniken arbeiten und auch da ein bisschen an der Robustheit der Software arbeiten auf sehr lange Sicht gesprochen. Aktuell ist TONI as a Service ein interessantes Thema im Management und langsam auch in der Entwicklung. Da wäre es wünschenswert, wenn wir irgendwann so weit kommen und auch so weit skalieren können, dass jemand eines Tages bei Google eingibt „Echtzeitübersetzung“ und als ersten Sucheintrag, die TONI-Produktseite angezeigt bekommt. Auf der Produktseite dann auf den Knopf „Test“, „Demo“ oder „Produktzugang kaufen“ klicken kann also per Buttonklick entweder eine Demo anfordern kann oder eine Vollversion erhalten kann. Nachdem die Kontaktdaten bzw. auch die Bezahldaten ausgefüllt wurden, wäre TONI einsatzbereit für den Kunden. Das heißt, dass der Onboarding Prozess dahingehend automatisiert oder so weit automatisiert und perfektioniert ist, dass für den Kunden zwischen der Suche nach einem Echtzeitübersetzer für einen Telefonanruf, den er heute Nachmittag haben möchte, zu der Kunde kann es testen und kann sich auf diesen Telefonanruf vorbereiten, nur wenige Minuten vonstatten gehen. Das wäre vermutlich auf lange Sicht der Wunsch, dass man so weit skalieren kann, dass das einfach problemlos möglich ist, ohne dass die Entwickler oder die Servicetechniker eingreifen müssten, um das Produkt zu verwalten bzw. um den Kunden manuell anlegen zu müssen. Das wäre vermutlich ein möglicher Wunschzustand, den die App einnehmen könnte. Je nachdem in welche Richtung die Produktentwicklung geht. 00:29:34 Sprecher 1 Gibt es Trends in der BOS-Branche, die deiner Meinung nach Einfluss auf die Entwicklung von KI-basierten Übersetzungssystemen haben könnten? 00:29:47 Sprecher 2 Mit der Branche kenne ich mich persönlich leider nicht aus, deswegen kann ich da vermutlich nicht viel zu sagen. Interessant wäre: in anderen Branchen gibt es Augmented Reality Glasses bzw. es gibt jetzt auf dem Markt Kopfhörer, die sich entweder mit einem proprietären Gerät oder mit deinem Smartphone verbinden, die Rechenpower des Smartphones verwenden, um lokale Modelle laufen zu lassen, und dass du einfach die Kopfhörer reinpackst oder quasi einen Kopfhörer für dich und einen für deinen Gesprächspartner hast, und dann von Angesicht zu Angesicht auch ohne das Handy als Werkzeug miteinander kommunizieren könnt. Also die Technik, soweit ich mitbekommen habe, „funktioniert“. Da gibt es auch Schwachstellen und es wird nie eine wirkliche Echtzeitübersetzung, also nicht wirklich Echtzeit-Echtzeit, sondern es wird immer eine leichte Latenz geben aufgrund der Bearbeitungszeit und der Erkennungszeit. Aber dass man diese Systeme perfektionieren könnte, auch für den Einsatz von Einsatzkräften, dass man da die Kommunikation zumindest erleichtern kann, wenn eine der Parteien die Fremdsprache versteht. Wie das in der Praxis aussieht, ob man wirklich jemand wildfremden Kopfhörer überreichen möchte, den man möglicherweise selber noch benutzen möchte, ist eine Geschmackssache. Ich persönlich würde es nicht machen, aber es wäre eine interessante Entwicklung. Entweder über Kopfhörer oder über Augemented Reality Glases eine engere Integration bzw. auch ein anderes Interface zu schaffen, um mit diesen Übersetzungen klarzukommen oder mit diesem Wunsch eine Echtzeitübersetzung vor Ort zu haben, weil ich glaube, das wird noch lange Zeit ein großes Thema bleiben, wie kriegt man eine gute Echtzeitübersetzung dorthin, wo sie tatsächlich benötigt wird und auch möglicherweise an Orte, wo man keinen Zugriff zu massiven Rechenleistungen hat, sei es jetzt in Katastrophengebiete oder anderen Bereiche, wo man möglicherweise noch nicht mal eine gesicherte Stromzufuhr ganz zu schweigen von Internet oder anderen Annehmlichkeiten des modernen Lebens hat. 00:32:33 Sprecher 1 Wie gestaltest du den Prozess der Priorisierung von Funktionen und Anforderungen für den Übersetzer? 00:33:19 Sprecher 2 Grundsätzlich erhalte ich von der Geschäftsführung oder vom Produktmanagement ein Ziel, das erreicht werden soll, ob es jetzt ein großes Ziel, ein kleines Ziel, ein mittelgroßes Ziel ist, sei dahingestellt. Dieses Ziel gilt es dann durch geeignete Maßnahmen zu erreichen und diese geeigneten Maßnahmen muss ich dann herausfinden. Das erfolgt dann im Gespräch mit dem Stakeholder, der dieses Ziel äußert. Es fängt an, dass man klärende Fragen stellt, um halt herauszufinden, was genau erreicht werden soll und ob es schon konkrete Vorstellungen gibt, wie etwas erreicht werden soll. Manchmal haben die Verantwortlichen auch schon eine Idee, wie man das erreichen könnte. Ein Beispiel ist, dass man mehr Kunden für TONI finden möchte. Das ist erstmal ein strategisches Ziel. Man möchte seinen Nutzerstand oder die Anzahl der Nutzer steigern, da gibt es verschiedene Maßnahmen, die man ergreifen könnte. Eine der Maßnahmen könnte sein, dass man versucht die Preise zu senken, um das Produkt zugänglicher für mehr Kunden zu machen, man könnte die USPs, also die Unique Selling Propositions, also die Alleinstellungsmerkmale des Produktes verbessern oder weitere entwickeln. Das könnte bspw. die Speech-to-Speech-Fähigkeit sein. Man könnte bspw. ein neues Produkt versuchen zu entwickeln, in dem Fall wäre das TONI as a Service, wo die Preisgestaltung anders aussieht, aber auch die Feature-Auswahl anders gestaltet ist. Möglicherweise kann man dadurch dieselben oder andere Kunden erreichen, die man vorher nicht erreichen konnte und im Gespräch mit den Stakeholdern kristallisiert sich raus, welche Methode die bevorzugte ist oder was man sich unter dem Ziel genauer vorgestellt hat. Dann kann man im Gespräch mit der Entwicklung, mit den Produktverantwortlichen, mit denen, die auch tatsächlich das Geld dafür bezahlen, kann man sich an Lösungen annähern, die man präferieren möchte. Auf dieser Basis wird auch priorisiert, wenn es eine gewünschte oder präferierte Lösung gibt. Für die Priorisierung der strategischen Ziele gibt es Gespräche mit den Produktverantwortlichen bzw. mit dem Produktmanagement, wo diskutiert wird, welches Ziel ist gerade am wichtigsten zu erreichen bzw. was wollen wir gerade am dringlichsten, was könnte uns am meisten helfen. Über diese Gespräche wird dann eine Rangfolge ausgearbeitet, nach der die Ziele abgearbeitet werden. 00:00:12 Sprecher 1 Super, dass wir das Interview einen Tag später fortsetzen konnten. Wie hast du sichergestellt oder stellst du sicher, dass die Bedürfnisse von Anwendern bei der Entwicklung berücksichtigt werden? 00:00:23 Sprecher 2 Puh, indem ich mir versuche, Feedback von den Leuten zu holen, die auch tatsächlich mit den Anwendern sprechen und versuche herauszufinden, was die Schmerzen der Anwender sind, um geeignete Maßnahmen zu finden, diesen Schmerz zu reduzieren. Aktuell bzw. auch schon seit einiger Zeit ist ein sehr bekanntes Beispiel, dass durch Hintergrundgeräusche die eingehende Sprache hin und her springt, und das ist natürlich für den Disponenten frustrierend, wenn aus seiner Sicht die Oberfläche die ganze Zeit hin und her springt. Eine technische Lösung ist soweit ich weiß mit der KI nicht möglich, weil einfach das Modell so aufgebaut ist, dass die Spracherkennung eng mit der Übersetzung verzahnt ist, sodass man nicht sagen kann, es wird nur noch eine Sprache erkannt. Stattdessen kann man überlegen, was ist das eigentliche Problem, dass der Anwender damit hat. Nervt es ihn, dass die Sprache hin und her springt oder ärgern ihn die ganzen Benachrichtigungen in der Benutzeroberfläche, also im UI? Wenn den Benutzer die Benachrichtigung im UI ärgern, kann man was am UI ändern, ohne das, was am Algorithmus geändert werden muss. Deswegen noch mal den groben Prozess herausfinden, was der tatsächliche Schmerz ist und dann überlegen, wie man gegen diesen Schmerz vorgehen kann bzw., wie man das auch priorisiert, ob der Schmerz schmerzhaft genug ist oder ob es noch ertragbar ist. 00:02:15 Sprecher 1 Gab es besondere Herausforderungen während der Produktentwicklung? 00:02:25 Sprecher 2 Ich bin spät im Produktentwicklungszyklus dazu gekommen. Als ich dazu gekommen bin, stand das Grundkonzept von TONI schon fest und die Software war auch schon so weit, dass man kurz davor war, an die Piloten auszurollen. Deswegen mein besonderes Hindernis ist das Onboarding gewesen, weil ich bisher einfach nichts damit zu tun hatte und das am kompliziertesten war. Danach ist, glaube ich, herausfordernd in der Produktentwicklung, dass man so viele Themen hat, die gleichzeitig in der Luft gehalten werden müssen und alle bisschen vorangetrieben werden können, bis man an den Blocker stößt und dann wartet man, bis der Blocker erledigt ist und arbeitet an etwas anderem weiter, sodass man am Tag sieben bis acht verschiedene Punkte hat, mit denen man TONI versucht voranzubringen. 00:03:39 Sprecher 1 Inwiefern wurde das Thema Vertrauen bereits während deiner Arbeit an dem Produkt berücksichtigt? 00:03:58 Sprecher 2 Das Thema Vertrauen wurde dahingehend berücksichtigt, dass wir anfangs, als ich dazu gekommen bin, einen dedizierten Tester für TONI hatten. Der auch dafür hätte Sorgen sollen, dass verschiedene Fehler aufgegriffen werden können, bevor die an den Kunden rausgehen und der auch beim Testen unterstützen sollte. Aufgrund unterschiedlicher Ereignisse ist der Tester nicht mehr im Projekt dabei und dahingehend war sozusagen der Fortschritt, dass der Tester überhaupt da war und ein Rückschritt, dass der Tester jetzt wieder weg ist und wir keinen dedizierten Tester mehr im Projekt haben. In seiner Rolle oder als eine seiner Aufgaben würde ich sehen, dass die Tests, über die wir beim letzten Mal gesprochen haben, relevanter werden können und dass man auch mehr auf die Qualität der KI eingehen kann, auf die Übersetzungsqualität, auf die Erkennungsqualität, dass man da einfach bessere Aussagen treffen kann und auch besser kommunizieren kann. Es gab Maßnahmen damals, um das Vertrauen in die Applikation zu steigern, sowohl von unserer Seite in der Produktentwicklung als auch von der Kundenseite, dass wir sagen konnten: Die App wurde getestet, wir haben keine Schwierigkeiten oder Probleme damit feststellen können. Mittlerweile geht es langsam wieder zurück in die Richtung, zwar ohne dedizierten Tester, aber diesmal mit dokumentierten und fest vorgeschriebenen Testabläufen, mit dokumentierten Regressionstests, mit dokumentierten Sprachtests, sodass wir an der Stelle versuchen, vertrauensbildende Maßnahmen zu instituieren. 00:06:08 Sprecher 1 Welche Rolle spielt das Thema Vertrauen bei der Priorisierung von Features? 00:06:28 Sprecher 2 Ich muss kurz überlegen, aber tatsächlich eine große. Bspw. ist eines der Wunschthemen der Kunden, wonach immer wieder gefragt wird, Speech-to-Speech. Also dass der Anrufer in seiner Muttersprache spricht und die KI das Gesagte auf Deutsch ausspricht und wenn der Agent auf Deutsch antwortet, das in der Muttersprache des Anrufers noch mal laut vorgelesen wird, sodass theoretisch eine komplette Tastatur- oder handfreie Bedienung von TONI möglich wäre. Wir haben getestet und wir laufen noch immer Tests durch. An der Stelle müssen wir sagen, dass wir die Funktionsweise bisheriger KI-Implementierung, bspw. gibt es die Samsung AI und bald auch von Apple eine betriebsinterne Speech-to-Speech-Übersetzung im Handyanruf oder im Handyanrufdisplay, als nicht vertrauenswürdig genug empfinden. Also uns hat das nicht gefallen. Wir haben mit der Unterhaltung kein Vertrauen darin gehabt, dass die Übersetzung tatsächlich das ist, was ich gesagt habe, und vor allem, wenn wir Sprachen verwendet haben, die wir selber verstehen, wie bspw. Englisch, haben wir auch gemerkt, dass die Übersetzungsqualität nicht so doll ist. Deswegen ist dieser Vertrauensaspekt schon sehr wichtig bei der Priorisierung von Features, dass wir sehen, ob wir technisch überhaupt in der Lage dazu sind, etwas umzusetzen, weil verkackte Software nicht vertrauenserweckend ist bzw. auch Vertrauen reduziert. Zum anderen ob das überhaupt ein Feature ist, das wir verfolgen wollen, gemessen an anderen Kennzahlen. 00:08:44 Sprecher 1 Gab es irgendwelche Features, die speziell entwickelt wurden und mittlerweile zum Einsatz gekommen sind, um das Vertrauen zu steigern? 00:09:00 Sprecher 2 Tatsächlich. Wir haben mittlerweile eine Qualitätsüberwachungsmaßnahme getroffen, bei der wir gezielt Sprachen, die TONI aussprechen kann, anzeigen. Also im Text-to-Speech-Bereich zeigen wir eine Liste in einem Dropdown Menü an Sprachen, die TONI sprechen kann und da sind wir dazu übergegangen, wie ich schon bei der vorletzten Frage beantwortet habe, dass wir Sprachtests durchführen. Je nachdem, ob eine Sprache funktioniert oder nicht, da gibt es Kriterien dazu, was wir unter funktioniert oder funktioniert nicht verstehen und wenn eine Sprache da drin durchfällt, bspw. indem einfach kein Sound rauskommt über mehrere Anrufe hinweg, dann wird diese Sprache deaktiviert und kann nicht mehr ausgewählt werden, sodass der Disponent erst gar nicht in die Situation kommt, dass es nicht klappt, sondern schon direkt darauf hingewiesen wird: „Hey, diese Sprache können wir leider nicht sprechen. Versuch dich auf Englisch mit dem Kunden zu unterhalten. Er kann dir auf seiner Muttersprache versuchen, den Unfall oder den Notfall zu erzählen, aber wir können leider nicht in der Muttersprache antworten“. 00:10:17 Sprecher 1 Das heißt, für dich ist Vertrauen in einen KI-basierten Übersetzer gleichzusetzen mit der Qualität der Übersetzung? 00:10:28 Sprecher 2 Qualität der Übersetzung und Qualität der Spracherkennung, dass auch tatsächlich die richtige Sprache erkannt wird, aber meistens vermutlich schon die Übersetzung, weil im Grunde genommen ist es für mich persönlich egal, welche Sprache dasteht oder welche Sprache er meint, erkannt zu haben, solange die Übersetzung stimmt. Wenn die Übersetzung nicht stimmt, dann ist mir auch egal, ob er die richtige Sprache erkannt hat oder nicht, weil damit kann ich auch nichts anfangen als Benutzer der App. 00:10:59 Sprecher 1 Das waren meine Fragen, außer du hast noch etwas, was du noch mal hervorheben möchtest. 00:11:16 Sprecher 2 Oh, da fällt mir jetzt gerade leider nichts ein, muss ich dich enttäuschen.