Die Prüfungen der Congree Linguistic Engine basieren auf einer linguistischen Analyse des jeweils geöffneten Dokuments.
...
Im Folgenden werden die Verarbeitungsschritte im Einzelnen beschrieben.
Sprachliche von nichtsprachlichen Daten trennen
Die sprachlichen Daten (Text) werden von den nichtsprachlichen Daten (Auszeichnungselemente) getrennt. Nur die sprachlichen Daten werden weiter verarbeitet. Auszeichnungselemente werden allerdings insofern berücksichtigt, als z. B. Überschriften oder Listenelemente nach anderen Kriterien geprüft werden als Fließtext.
Satzgrenzen erkennen
Satzgrenzen werden – sofern sie nicht durch Auszeichnungselemente angezeigt sind – unter Berücksichtigung von Satzendezeichen sowie der Groß- oder Kleinschreibung von Wörtern erkannt.
Wortgrenzen erkennen
Wortgrenzen werden unter Berücksichtigung von Leerzeichen und Satzzeichen erkannt. Spezielle Regeln stellen sicher, dass besondere Worteinheiten wie z. B. Datumsangaben auch dann als Wort erkannt werden, wenn sie Leerzeichen oder Satzzeichen enthalten.
Wörter bestimmen: morphologische Analyse
Jedes einzelne Wort muss linguistisch bestimmt werden. Neben der Wortart (Substantiv, Verb, Adjektiv, Artikel usw.) ermittelt die Congree Linguistic Engine die grammatischen Merkmale eines Worts.
...
Ein Wort wie "Weichen" wird in die möglichen Bestandteile "weich" und "en" sowie "weiche" und "n" zerlegt. Aus den Bestandteilen "weich" und "en" kann ein Adjektiv, ein Verb oder ein Substantiv zusammengesetzt werden:
Adjektiv: die weichen Knie
Verb: Er soll weichen.
Substantiv: Beim Weichen auf den Vordermann achten.
Aus den Bestandteilen "weiche" und "n" kann wiederum ein Substantiv zusammengesetzt werden ("die Weichen").
Im Einzelfall kann sich bei der morphologischen Analyse für ein Wort keine Lösung ergeben. D. h., mindestens ein Wortbestandteil passt zu keinem der anderen. In diesem Fall ist das Wort unbekannt. Es handelt sich also um ein falsch gebildetes Wort, oder es liegt ein Tippfehler vor.
Satzglieder bestimmen: grammatische Analyse
Für jeden Satz bestimmt die Congree Linguistic Engine die Satzglieder. Dabei ermittelt sie, welche Wortfolgen eng zusammengehören und so genannte Phrasen bilden. Ausgehend von der Position der Verben und der Anordnung der Phrasen werden die verschiedenen Satztypen (Hauptsatz, Nebensatz, Infinitivsatz) ermittelt. Wörter, die für sich genommen mehrdeutig sind (also unterschiedlichen Wortarten angehören), können auf diese Weise näher bestimmt werden.
...
Die Bestimmung der Satzglieder ist Grundvoraussetzung für alle folgenden Prüfungen der Congree Linguistic Engine. Nur wenn die Satzglieder hinreichend bestimmt sind, lassen sich verlässliche Aussagen über sprachliche Fehler oder Schwächen machen.
Warum kann die Congree Linguistic Engine manchmal irren?
Seite einschließen | ||||
---|---|---|---|---|
|