Hinter der Disziplin Machine Translation (MT) verbirgt sich der Traum, Sprachbarrieren einmal mit Hilfe des Computers automatisch zu überwinden. Jeder kennt Dienste wie Google Translate, die automatisch Webseiten übersetzen. Die Weiterentwicklung solcher Anwendungen ist durch die stärkere Globalisierung der Wirtschaft von großem Interesse. Ein relativ junges, aber vielversprechendes Teilgebiet ist die syntaxbasierte statistische MT.

Wir untersuchen die Anwendung der Theorie der gewichteten Baumautomaten und Baumübersetzer in diesem Teilgebiet der MT. Wir bieten regelmäßig eine Vorlesung Machine Translation und eine forschungsnahe Lehrveranstaltung an (Seminar oder Reading Group). Desweiteren können StudentInnen im Rahmen unseres Softwareprojekts Vanda MT ein Komplexpraktikum bei uns absolvieren.

Im Folgenden geben wir einen kleinen Einblick in das spannende Gebiet der syntaxbasierten statistischen MT und die Anwendung der gewichteten Baumautomaten und Baumübersetzer.

Rechnen mit Wahrscheinlichkeiten

Eine inhaltlich und grammatikalisch korrekte Übersetzung muss noch lange nicht natürlich sein. Die Natürlichkeit lässt sich nur anhand menschlicher Übersetzer (oder bekannter Übersetzungen) bemessen. Der Prozess des menschlichen Übersetzens beinhaltet jedoch eine große Zahl von Unwägbarkeiten (z. B. Herkunft, Ausbildung oder Gemütslage des Übersetzers). Von diesen Unwägbarkeiten abstrahiert man mittels Wahrscheinlichkeiten.

Syntax-basierte statistische MT

In der statistischen MT werden diese Wahrscheinlichkeiten durch Training anhand großer Mengen bereits bekannter Übersetzungspaare gewonnen. In der syntax-basierten MT macht man sich die Analyse der Satzstruktur zunutze, welche im Ergebnis in Form eines oder mehrerer Parsebäume vorliegt. Die reichere Struktur der Bäume im Vergleich zu den Sätzen erlaubt bessere Übersetzungen. Beide Ansätze lassen sich kombinieren zur syntax-basierten statistischen MT.

Linguistische und operationelle Modelle

Ein linguistisches Modell beschreibt auf einer hohen Abstraktionsebene den Prozess der menschlichen Übersetzung. So mag ein englischer Satz in einen japanischen übersetzt werden, indem erst Wörter umsortiert werden, dann japanische (Füll-)Wörter eingefügt werden, und schließlich die verbleibenden englischen Wörter übersetzt werden.

Operationelle Modelle können genutzt werden, um diese Beschreibung derart zu präzisieren, dass sie im weitesten Sinne ausführbar werden. Vorteile gegenüber einer direkten Implementation in einer gängigen Programmiersprache sind Plattformunabhängigkeit und eine bessere mathematische Zugänglichkeit, wodurch Optimierungen auf einem hohen Niveau ermöglicht werden können.

Anwendung der Baumautomaten und Baumübersetzer

Das mathematische Rahmenwerk der gewichteten Baumautomaten und Baumübersetzer stellt mögliche operationelle Modelle bereit, um Sprachen und Übersetzungen zu beschreiben. Das von der MT-Gruppe um Prof. Kevin Knight an der University of Southern California entwickelte Toolkit Tiburon zeigt, dass dieser Ansatz tatsächlich von praktischer Bedeutung sein kann. Eine aktuell große Herausforderung ist, die Automaten und Resultate aus diesem Gebiet auf die Bedürfnisse der MT hin anzupassen.


Vortragsfolien zum Thema

  • Folien präsentiert von Heiko Vogler im Rahmen des Graduiertenkollegs QuantLA, Teil 1
  • Folien präsentiert von Heiko Vogler im Rahmen des Graduiertenkollegs QuantLA, Teil 2
  • Folien präsentiert von Heiko Vogler auf der CAI 2017

Kontakt

  • Prof. Dr.-Ing. habil. Dr. h.c./Univ. Szeged
    Heiko Vogler
    Tel.: +49 (0) 351 463-38232
    Fax: +49 (0) 351 463-37959
Stand: 01.09.2017 10:18 Uhr