Linguistische Verarbeitung durch die Congree Linguistic Engine

Die Prüfungen der Congree Linguistic Engine basieren auf einer linguistischen Analyse des jeweils geöffneten Dokuments.

Bei der linguistischen Analyse handelt es sich um eine gestufte Abfolge von Verarbeitungsschritten.

Im Folgenden werden die Verarbeitungsschritte im Einzelnen beschrieben.

Sprachliche von nichtsprachlichen Daten trennen

Die sprachlichen Daten (Text) werden von den nichtsprachlichen Daten (Auszeichnungselemente) getrennt. Nur die sprachlichen Daten werden weiter verarbeitet. Auszeichnungselemente werden allerdings insofern berücksichtigt, als z. B. Überschriften oder Listenelemente nach anderen Kriterien geprüft werden als Fließtext.

Satzgrenzen erkennen

Satzgrenzen werden – sofern sie nicht durch Auszeichnungselemente angezeigt sind – unter Berücksichtigung von Satzendezeichen sowie der Groß- oder Kleinschreibung von Wörtern erkannt.

Wortgrenzen erkennen

Wortgrenzen werden unter Berücksichtigung von Leerzeichen und Satzzeichen erkannt. Spezielle Regeln stellen sicher, dass besondere Worteinheiten wie z. B. Datumsangaben auch dann als Wort erkannt werden, wenn sie Leerzeichen oder Satzzeichen enthalten.

Wörter bestimmen: morphologische Analyse

Jedes einzelne Wort muss linguistisch bestimmt werden. Neben der Wortart (Substantiv, Verb, Adjektiv, Artikel usw.) ermittelt die Congree Linguistic Engine die grammatischen Merkmale eines Worts.

Um ein Wort zu bestimmen, wird es in seine möglichen Bestandteile (Morpheme) zerlegt. Jeder ermittelte Wortbestandteil wird mit einem Morphemwörterbuch des Deutschen verglichen. Im Morphemwörterbuch ist u. a. verzeichnet, um was für einen Wortbestandteil es sich handelt (Wortstamm, Endung usw.) und mit welchen anderen Wortbestandteilen er sich verbinden kann.

Aus den ermittelten Wortbestandteilen wird das Wort gemäß den Regeln der deutschen Wortbildung wieder zusammengesetzt. Dabei ergeben sich für ein Wort sehr oft mehrere Lösungen.

Ein Wort wie "Weichen" wird in die möglichen Bestandteile "weich" und "en" sowie "weiche" und "n" zerlegt. Aus den Bestandteilen "weich" und "en" kann ein Adjektiv, ein Verb oder ein Substantiv zusammengesetzt werden:

  • Adjektiv: die weichen Knie

  • Verb: Er soll weichen.

  • Substantiv: Beim Weichen auf den Vordermann achten.

Aus den Bestandteilen "weiche" und "n" kann wiederum ein Substantiv zusammengesetzt werden ("die Weichen").

Im Einzelfall kann sich bei der morphologischen Analyse für ein Wort keine Lösung ergeben. D. h., mindestens ein Wortbestandteil passt zu keinem der anderen. In diesem Fall ist das Wort unbekannt. Es handelt sich also um ein falsch gebildetes Wort, oder es liegt ein Tippfehler vor.

Satzglieder bestimmen: grammatische Analyse

Für jeden Satz bestimmt die Congree Linguistic Engine die Satzglieder. Dabei ermittelt sie, welche Wortfolgen eng zusammengehören und so genannte Phrasen bilden. Ausgehend von der Position der Verben und der Anordnung der Phrasen werden die verschiedenen Satztypen (Hauptsatz, Nebensatz, Infinitivsatz) ermittelt. Wörter, die für sich genommen mehrdeutig sind (also unterschiedlichen Wortarten angehören), können auf diese Weise näher bestimmt werden.

Für einen Satz wie "Beim Einbauen den Bolzen entfernen." ermittelt die grammatische Analyse, dass bei "Einbauen" bzw. "Bolzen" eine Substantivlesart anstelle einer Verblesart vorliegt.

Die Bestimmung der Satzglieder ist Grundvoraussetzung für alle folgenden Prüfungen der Congree Linguistic Engine. Nur wenn die Satzglieder hinreichend bestimmt sind, lassen sich verlässliche Aussagen über sprachliche Fehler oder Schwächen machen.

Warum kann die Congree Linguistic Engine manchmal irren?