...
Im Folgenden werden die Verarbeitungsschritte im Einzelnen beschrieben.
Sprachliche von nichtsprachlichen Daten trennen
Die sprachlichen Daten (Text) werden von den nichtsprachlichen Daten (Auszeichnungselemente) getrennt. Nur die sprachlichen Daten werden weiter verarbeitet. Auszeichnungselemente werden allerdings insofern berücksichtigt, als z. B. Überschriften oder Listenelemente nach anderen Kriterien geprüft werden als Fließtext.
Satzgrenzen erkennen
Satzgrenzen werden – sofern sie nicht durch Auszeichnungselemente angezeigt sind – unter Berücksichtigung von Satzendezeichen sowie der Groß- oder Kleinschreibung von Wörtern erkannt.
Wortgrenzen erkennen
Wortgrenzen werden unter Berücksichtigung von Leerzeichen und Satzzeichen erkannt. Spezielle Regeln stellen sicher, dass besondere Worteinheiten wie z. B. Datumsangaben auch dann als Wort erkannt werden, wenn sie Leerzeichen oder Satzzeichen enthalten.
Wörter bestimmen: morphologische Analyse
Jedes einzelne Wort muss linguistisch bestimmt werden. Neben der Wortart (Substantiv, Verb, Adjektiv, Artikel usw.) ermittelt die Congree Linguistic Engine die grammatischen Merkmale eines Worts.
...
Ein Wort wie "Weichen" wird in die möglichen Bestandteile "weich" und "en" sowie "weiche" und "n" zerlegt. Aus den Bestandteilen "weich" und "en" kann ein Adjektiv, ein Verb oder ein Substantiv zusammengesetzt werden:
Adjektiv: die weichen Knie
Verb: Er soll weichen.
Substantiv: Beim Weichen auf den Vordermann achten.
Aus den Bestandteilen "weiche" und "n" kann wiederum ein Substantiv zusammengesetzt werden ("die Weichen").
Im Einzelfall kann sich bei der morphologischen Analyse für ein Wort keine Lösung ergeben. D. h., mindestens ein Wortbestandteil passt zu keinem der anderen. In diesem Fall ist das Wort unbekannt. Es handelt sich also um ein falsch gebildetes Wort, oder es liegt ein Tippfehler vor.
Satzglieder bestimmen: grammatische Analyse
Für jeden Satz bestimmt die Congree Linguistic Engine die Satzglieder. Dabei ermittelt sie, welche Wortfolgen eng zusammengehören und so genannte Phrasen bilden. Ausgehend von der Position der Verben und der Anordnung der Phrasen werden die verschiedenen Satztypen (Hauptsatz, Nebensatz, Infinitivsatz) ermittelt. Wörter, die für sich genommen mehrdeutig sind (also unterschiedlichen Wortarten angehören), können auf diese Weise näher bestimmt werden.
...
Die Bestimmung der Satzglieder ist Grundvoraussetzung für alle folgenden Prüfungen der Congree Linguistic Engine. Nur wenn die Satzglieder hinreichend bestimmt sind, lassen sich verlässliche Aussagen über sprachliche Fehler oder Schwächen machen.
Warum kann die Congree Linguistic Engine manchmal irren?
...
Falsche Wortgrenzenerkennung
Nicht oder falsch erkannte Wortgrenzen führen typischerweise dazu, dass das betreffende Wort nicht bestimmt werden kann und die Congree-Rechtschreibprüfung einen Fehler meldet. Zusätzlich kann eine nicht oder falsch erkannte Wortgrenze dazu führen, dass auch eine Satzgrenze nicht oder falsch erkannt wird oder dass Satzglieder unzutreffend bestimmt werden.
Falsche Satzgrenzenerkennung
Wenn eine Satzgrenze falsch erkannt ist oder Satzglieder unzutreffend bestimmt sind, kann es z. B. vorkommen, dass die Congree-Rechtschreibprüfung oder die Congree-Grammatikprüfung für ein Wort die Großschreibung fordert, das eigentlich kleingeschrieben werden muss.
Fehlerhäufung
Bestimmte Fälle von Congree Linguistic Engine-Fehlverhalten sind aber auch darauf zurückzuführen, dass in einem Satz Fehler gehäuft auftreten und dadurch die grammatische Analyse in die Irre geführt wird. Man spricht in solchen Fällen von einem "Falschalarm", d. h., im Satz liegt tatsächlich ein Fehler vor, aber nicht der Fehler, den die Congree Linguistic Engine vermutet.
Tipp:
Ein anderer Typ von Fehlverhalten ist der "Keinalarm", d. h., es liegt ein Fehler vor, der von der betreffenden Congree Linguistic Engine-Prüfung nicht angezeigt wird. Ein Keinalarm kann unterschiedliche Gründe haben.
Keinalarm durch einen anderen Fehler
Das Vorkommen eines Fehlers kann die Erkennung eines anderen Fehlers verhindern. Dieser wird erst ermittelt, nachdem der erste Fehler korrigiert und der Dokumentausschnitt erneut geprüft wurde. Insbesondere bei der Stilprüfung wird davon ausgegangen, dass der geprüfte Satz grammatisch korrekt ist. Wenn dies nicht der Fall ist, kann es bei der Stilprüfung zu Falsch- oder Keinalarmen kommen.
Nicht abgedeckte Fehlertypen
Darüber hinaus sind bestimmte Fehlertypen im aktuellen Umfang der Prüfungen der Congree Linguistic Engine nicht abgedeckt. Entsprechende Fehler werden also systembedingt nicht ermittelt. So berücksichtigt die Congree-Grammatikprüfung aktuell keine Wortstellungsfehler. Sie prüft auch nicht, ob in einem Satz alle Satzglieder zu dem jeweiligen Verb passen.
Kein Fehler in anderem Kontext
Auch Tippfehler können vereinzelt bei der Congree-Rechtschreibprüfung unerkannt bleiben, dann nämlich, wenn es sich bei dem betreffenden Wort durchaus um ein gängiges (oder zumindest mögliches) deutsches Wort handelt. In einem Satz wie "Setzen Sie nur verschleißbare Behälter ein." kann die Congree Linguistic Engine nicht ermitteln, dass das Adjektiv eigentlich "verschließbar" lauten sollte. Dagegen würde z. B. "vershließbar" durchaus als Rechtschreibfehler erkannt werden.
Info:
Insgesamt ist die Congree Linguistic Engine daraufhin optimiert, dass möglichst wenige Falsch- und Fehlalarme erzeugt werden. Dabei kommt den Entwicklern der Congree Linguistic Engine die lange Erfahrung mit dem Duden Korrektor zugute. Für dessen Entwicklung wurde mit großem Aufwand eine beträchtliche Menge von Fehlerbeispielen und ihren Korrekturen systematisiert und getestet.
Fehlalarm durch unvollständige lexikalische Abdeckung
Fehlalarme können aus dem Umstand resultieren, dass terminologische Benennungen, die von sprachlichen und terminologischen Standards abweichen, nicht im Benutzerwörterbuch hinterlegt wurden. Solche Benennungen können die linguistische Analyse empfindlich stören.
Tipp:
...
Seite einschließen | ||||
---|---|---|---|---|
|