MULTILINT – maschinengestützte Kontrolle der Textqualität
Maschineller Lektor
von Claudia Fottner-Top
MULTILINT ist ein maschinelles System zur Sicherung der sprachlichen Qualität, das seit 1996 als Prototyp in der Abteilung Service/Produktbetreuung bei BMW eingesetzt wird. Ziel ist die optimierte Erstellung von Dokumentationen mittels maschineller linguistischer Methoden, und zwar im Hinblick auf sprachliche Fehlerfreiheit, Lesbarkeit, Verständlichkeit und terminologische Konsistenz. In der Folge können damit erhebliche Erleichterungen und Einsparungen bei der Übersetzung erreicht werden. Dabei führt der Weg zu dauerhaften Erfolgen über die modulare Integration sprachtechnologischer Bausteine in den gesamten Erstellungsprozess von multilingualer technischer Dokumentation .
Das System MULTILINT („Multilinguale Intelligenz für die technische Dokumentation”) wurde in einem gleichnamigen Projekt des Bundesministeriums für Wirtschaft entwickelt. Projektpartner waren das IAI (Institut für Angewandte Informationsforschung Saarbrücken) und BMW. MULTILINT unterstützt Technische Redakteure bei der Erstellung fehlerfreier, stilistisch korrekter und terminologisch konsistenter Dokumente. Ziel ist die Erhöhung der Verständlichkeit und Lesbarkeit dieser Dokumente; dadurch ergeben sich bei der Übertragung der deutschen Ausgangsdokumente in andere Sprachen erhebliche Rationalisierungseffekte. Alle Komponenten von MULTILINT greifen auf die gleichen Sprachressourcen zu; dieses Vorgehen gewährleistet eine optimale Konsistenz.
Funktionalität von MULTILINT
MULTILINT stellt folgende Funktionen zur Verfügung:
Abb. 1: MULTILINT-Kontrollfenster mit Status-Anzeige für Ergebnisse
Funktionsweise von MULTILINT
Als Vorverarbeitung für die Funktionen von MULTILINT finden eine morphologische und eine flache syntaktische Analyse statt. Im Rahmen der morphologischen Analyse werden Satz- und Wortgrenzen identifiziert. Für die morphologische Analyse eines deutschen Textes wird auf einen Bestand von ungefähr 80.000 Morphemen zugegriffen. In diesem Morphemwörterbuch sind auch Wortbildungselemente, Mehrworteinheiten („in Bezug auf”) sowie für das Fachgebiet zugelassene Abkürzungen („i.O.”) und Akronyme („ABS”) enthalten.
Hinzu kommt ein Formalismus, mit dem linguistische Patterns in den Analysedateien identifiziert und in bestimmter Form ausgegeben werden können. Die syntaktische Analyse läuft in mehreren Schritten ab und dient dazu, jedem Wort seine eindeutige grammatische Kategorie und Funktion zuzuweisen sowie zusammengehörige Gruppen zu identifizieren. Zugrunde liegen Beschreibungen grammatikalisch korrekter Strukturen und Algorithmen für Analyse und Synthese.
Rechtschreibkontrolle
Durch den Ansatz, dass alle Kontrollen auf die gleichen Sprachressourcen zugreifen – in der Kombination mit linguistischen Analysen – übertreffen die Rechtschreib- und Grammatikkontrolle weit die Ergebnisse von kommerziellen Rechtschreib- und Grammatikhilfen in Editoren (Word, FrameMaker u.A.). So können z.B. bei der Rechtschreibkontrolle genauere Verbesserungsvorschläge gemacht werden, die auf der firmenspezifischen Terminologie beruhen und nicht auf der (oft zufälligen) Ähnlichkeit von Strings. Die Rechtschreibkontrolle identifiziert Fälle von falscher Schreibung, von alter Rechtschreibung, von falscher Groß- und Kleinschreibung sowie von falscher Zusammenschreibung.
Grammatikkontrolle
Von der Grammatikkontrolle werden fehlende oder falsch gesetzte Kommata erkannt, falsche Getrenntschreibung, falsche Deklination innerhalb einer Nominalphrase, falscher Kasus innerhalb einer Präpositionalphrase, falsche Subjekt-Verb-Kongruenz sowie falsche Relativsatzanschlüsse u.a.
Beispiel: Die Nominalphrase „der vorderer Scheibenwischer” erhält die Meldung „Hier ist die Beugung nicht richtig ...”; dazu wird ein passendes Beispiel ausgegeben.
Der Nebensatz „Wenn die Frontscheibe ausgetauscht werden muss” muss mit einem Komma vom folgenden Hauptsatz abgetrennt werden. Hier wird die Meldung „Nebensätze werden durch Kommata abgetrennt” ausgegeben, zusammen mit einem passenden Beispiel.
Stilkontrolle – Verständlichkeitsprüfung
Die Stilprüfung versucht Verstöße gegen Regeln zu entdecken, die die Verständlichkeit von technischer Dokumentation garantieren sollen. Die Stilprüfung folgt zwar den Grundsätzen, wie sie schon vor Jahren für ein „Kontrolliertes Englisch” entworfen und auch in praktische Werkzeuge umgesetzt wurden, schreibt jedoch nicht konkrete Konstruktionen vor, sondern versucht als falsch erkannte Muster zu markieren. Die Regeln der Stilkontrolle umfassen derzeit Regeln zur Vermeidung ambiger Strukturen, elliptischer Konstruktionen und komplexer Strukturen sowie Wortstellungsregeln und lexikalische Regeln.
Beispiele für Stilprüfungen:
> Einbettung eines Nebensatzes in das Mittelfeld eines Aussagesatzes > Länge der Satzklammer > Position des finiten Verbs im Satz > verständlichkeitshemmende Koordinationen, z.B. unerwünschte Hauptsatzkoordinationen > Nominalstil bzw. von der Informationsdichte problematische Strukturen etc.
Abb. 2: MULTILINT-Ergebnisfenster mit Meldung der Stilkontrolle
Terminologiekontrolle
Die Terminologiekontrolle stellt zum einen die Konsistenz innerhalb von Dokumenten sicher; zum anderen markiert sie auch Terme, die nicht zum autorisierten Termvorrat des Sachgebiets gehören. Sie sucht in diesem Termvorrat nach ähnlichen Benennungen, wenn nicht von vornherein eine positive Alternative festgelegt ist.
Beispiel: Statt „Ölniveaufühler” muss es „Ölniveausensor” heißen. Die semantische Verwandtschaft von „Fühler” und „Sensor” hilft hier zur Identifizierung des korrekten Terms. Im Falle einer qualitativ hochwertigen Basis-Terminologie, die zwischen Vorzugstermen und Negativtermen unterscheidet und keine Synonyme bzw. Schreibweisen-Varianten zulässt, können über die Terminologiekontrolle die festgelegten Beziehungen kontrolliert werden.
Konsistenzkontrolle
Die Konsistenzkontrolle ist zudem in der Lage, unerwünschte Ableitungs-, Synonym- oder Schreibvarianten zu identifizieren, die dazu nicht in der Basis-Terminologie hinterlegt sein müssen.
Beispiel: Die Verwendung von „Kraftstoff-Filter” neben „Kraftstofffilter” ist unerwünscht und wird entsprechend markiert.
Abkürzungskontrolle
Die Abkürzungskontrolle gibt im Falle von Akronymen, die als Terminologie hinterlegt sind, die bekannte Bedeutung aus. Bei nicht bekannten Akronymen wird eine Meldung ausgegeben, die den Redakteur daran erinnert, die Abkürzung mindestens einmal an zentraler Stelle in der Langform auszuschreiben.
Abb. 3: MULTILINT-Ergebnisfenster mit Meldung der Konsistenzkontrolle
MULTILINT-Prototyp bei BMW
Der MULTILINT-Prototyp ist seit 1998 bei der BMW Group im Bereich Service/Produktbetreuung produktiv im Einsatz. MULTILINT wird über einen Button des SGML-Editors im Redaktionssystem aufgerufen. Der Schwerpunkt des Einsatzbereichs von MULTILINT ist die sprachliche Qualitätskontrolle von Reparaturanleitungen, Service Informationen und Funktionsbeschreibungen, also insbesondere von Werkstattdokumentation.
Ziel von MULTILINT ist es, die in ihrer Denkweise sehr technisch ausgerichteten Redakteure bei der Erstellung ihrer Dokumentation so zu unterstützen, dass nur optimal verständliche und terminologisch konsistente Dokumente das Haus verlassen, um in den Übersetzungsprozess eingesteuert zu werden. Angesichts der Tatsache, dass die Dokumente in 18 Zielsprachen übersetzt werden, ist das übergeordnete Ziel bereits auf den ersten Blick nachvollziehbar: die Kosten für die Übersetzungen in die Zielsprachen zu reduzieren. Reparaturanleitungen beispielsweise werden über das „Technische Informationssystem” auf CD-ROM an alle Händler bzw. Vertriebsgesellschaften ausgeliefert. Die Updates erfolgen im Monatsrhythmus – angesichts der Vielzahl der Modelle, Motoren und Ausstattungen eine große Dokumentenmenge.
MULTILINT wurde zunächst auf freiwilliger Basis eingeführt, gewissermaßen als „maschineller Lektor” der Werkstattdokumentation. Nach anfänglicher Skepsis empfinden die Redakteure MULTILINT als eine große Hilfe und tragen durch ihr Feedback wesentlich zur Weiterentwicklung bei. Die Umstellung auf die neue Rechtschreibung bewältigten die Redakteure mühelos, da die Meldungen der Rechtschreib- und Grammatikkontrolle umfassend und zuverlässig sind.
Durch die positiven Erfahrungen des freiwilligen Einsatzes von MULTILINT steht nun eine generelle Freigabeprüfung aller Werkstattdokumente zur Diskussion. Um die erreichte Akzeptanz aber nicht zu gefährden, müssen die Vorteile des Einsatzes von MULTILINT gegenüber den Nachteilen eines sprachverarbeitenden Systems gewissenhaft abgewogen werden.
Vorteile des Einsatzes von MULTILINT
Durch die systematische Anwendung von MULTILINT ergibt sich eine Reihe verschiedener Effekte:
> höheres Sprachbewusstsein der Technischen Redakteure, vor allem im Bereich der sehr technisch orientierten Dokumentationen > höhere sprachliche Qualität der Dokumentationen > sprachlich einheitliches Erscheinungsbild („Corporate Wording”) > größere Trefferquote von Translation-Memory-Systemen > Arbeitserleichterung für die Human-Übersetzer durch konsistent und einheitlich verwendete Terminologie
Nachteile eines sprachverarbeitenden Systems
Ein Nachteil eines Systems wie MULTILINT ist, dass es wie jedes System, das natürliche Sprache verarbeitet, auch Fehler macht. Dreh- und Angelpunkt für die Akzeptanz des Systems bei der Zielgruppe ist deshalb die gezielte und ständige Beratung der Anwender. Vor allem drei Szenarien sind hier von Bedeutung:
1. Jeder Anwender muss sich vorher mit den Möglichkeiten und Grenzen eines Systems zur sprachlichen Qualitätskontrolle näher befasst haben, um den Nutzen optimal umsetzen zu können. Beispiel: Oftmals wird erwartet, dass MULTILINT erkannte Fehler gleich selbst im Text korrigiert. – Diese Korrekturtätigkeiten bleiben jedoch in der Verantwortung des Redakteurs. 2. Jeder Anwender muss lernen, auf die Meldungen von MULTILINT richtig zu reagieren. Beispiel: Oftmals wird erwartet, dass MULTILINT diejenigen Satzstrukturen, die es als verständlichkeitshemmend erkannt hat, anhand des aktuellen Beispiels aufzeigt. – Der Hinweis beispielsweise auf eine zu lange Satzklammer muss jedoch vom Redakteur selbst in einer Umformulierung umgesetzt werden. 3. Die Basis-Terminologie muss von einer dafür verantwortlichen, kompetenten Person überwacht und aktualisiert werden.
Beispiel: Das rein sammelnde Aufnehmen von neuer Terminologie ist nicht vereinbar mit einer qualitativ hochwertigen Basis-Terminologie. – Damit ein neuer Term aufgenommen wird, der es wert ist, bei einer Terminologieprüfung berücksichtigt zu werden, sollten erst verschiedene fachliche und linguistische Voraussetzungen überprüft werden.
Wie jede andere Software muss MULTILINT an ein verändertes Umfeld angepasst und ständig aktualisiert werden, da sich Sprache und Stil ständig verändern.
Fazit
MULTILINT bei BMW dokumentiert den Ansatz, sprachtechnologische Bausteine in den gesamten Erstellungsprozess multilingualer technischer Dokumentation zu integrieren. Das System ermöglicht als modulare Lösung, die auf generellen Sprachressourcen basiert, aber für einen bestimmten Anwendungsfall angepasst werden kann, verlässliche Rationalisierungseffekte. Kommerzielle Pakete zur Sprachverarbeitung dagegen lösen oftmals in erster Linie Teilprobleme und erreichen deshalb nicht den optimalen Wirkungsgrad, weil die in ihnen enthaltenen Sprachressourcen zu breit und nicht für den Einzelfall optimiert sind. MULTILINT wird kundenspezifisch angepasst, ist also kein „Produkt von der Stange”. Die bevorzugten Eingangsformate sind SGML, XML und ASCII. Weitere Eckpunkte für die Funktionsweise sind die zu prüfenden Dokumentationsarten und das Vorhandensein einer fach- bzw. firmenspezifischen Terminologie, als Ergänzung zu den Terminologie-unabhängig funktionierenden Komponenten von MULTILINT. Dadurch ist eine zuverlässige Qualitätsprüfung von Terminologie möglich.
Literatur: [1] Haller, J./Fottner-Top, C. (2001): MULTILINT – eine toolgestützte Lösung für die Kontrolle von Textqualität. tekom-Frühjahrstagung 2001, S. 45–47. [2] Haller, J. (2000): Sprachtechnologie für die Automobildokumentation. In: Wilss, Weltgesellschaft – Weltverkehrssprache – Weltkultur. Tübingen: Stauffenburg Verlag, 2000, S. 250–263. [3] Weitere Informationen zu MULTILINT: www.iai.uni-sb.de (Projekte TETRIS und MULTILINT).
Claudia Fottner-Top M.A. (40) ist Linguistin und Technische Redakteurin. Nach dem Studium der Sprachwissenschaft in München und einem Aufbaustudium Technische Redaktion in den USA ist sie seit 1985 im Bereich der technischen Dokumentation tätig: Sie beschäftigte sich sowohl mit deren Erstellung als auch mit dem Training von „Verständlichem Schreiben”. Auch die Erstellung von Dokumentationskonzepten und von Expertisen zu Dokumentationen gehört zu ihrem Aufgabenbereich. Seit 1996 betreut sie im Auftrag der BMW Group in München sprachwissenschaftliche und terminologische Projekte im Umfeld „Kontrollierte Sprache”.