Authoring Memory-Satzsegmentierung
Wichtig:
Die von Congree im Authoring Memory eingesetzte Satzsegmentierung arbeitet regelbasiert, d. h., Congree ermittelt auf der Grundlage von Regeln, wo ein Satz aufhört und wo ein neuer Satz beginnt. Die Satzsegmentierung hat einen starken Einfluss auf die Ermittlung bereits hinterlegter ähnlicher Sätze zum eingegebenen Text im Editor.
Die hinterlegten Satzregeln bestehen jeweils aus drei Teilen:
- Der erste Teil der Regel (z. B. [!]) leitet ein, welches Trennzeichen die Regel behandelt.
- Der zweite Teil der Regel legt fest, ob die Regel ein Satzende definiert (+) oder nicht (-).
- Der dritte Teil der Regel stellt den Kern der Regel dar. Der Teil [!^_] der Regel [!]+[!^_] steht für "Ein Ausrufezeichen gefolgt von einem Whitespace", welches als Satzende interpretiert wird.
Info:
Die folgende Tabelle enthält die wichtigsten Satzregeln, die standardmäßig in Congree verwendet werden:
Satzregel | Bedeutung |
---|---|
[!]+[!^_] | Ein Ausrufezeichen gefolgt von einem Whitespace wird als Satzende interpretiert. |
[.] - [^_^n.] | Ein Punkt gefolgt von einem Whitespace und einem Kleinbuchstaben wird nicht als Satzende interpretiert. |
[.]+[.^_] | Ein Punkt gefolgt von einem Whitespace wird als Satzende interpretiert. |
[.] - [.^_^a] | Ein Punkt gefolgt von einem Whitespace und einem Kleinbuchstaben wird nicht als Satzende interpretiert. |
[.] - [^_^n.] | Ein Whitespace gefolgt von einer einstelligen Zahl und einem Punkt wird nicht als Satzende interpretiert. |
[?]+[?^_] | Ein Fragezeichen gefolgt von einem Whitespace wird als Satzende interpretiert. |
[?] - [?^_^a] | Ein Fragezeichen gefolgt von einem Whitespace und einem Kleinbuchstaben wird nicht als Satzende interpretiert. |
[n]+[.\n] | Ein Punkt gefolgt von einem Backslash und dem Buchstaben n wird als Satzende interpretiert. |
[n]+[!\n] | Ein Ausrufezeichen gefolgt von einem Backslash und dem Buchstaben n wird als Satzende interpretiert. |
[n]+[?\n] | Ein Ausrufezeichen gefolgt von einem Backslash und dem Buchstaben n wird als Satzende interpretiert. |
[t]+[.\t] | Ein Punkt gefolgt von einem Backslash und dem Buchstaben t wird als Satzende interpretiert. |
[t]+[!\t] | Ein Ausrufezeichen gefolgt von einem Backslash und dem Buchstaben t wird als Satzende interpretiert. |
[t]+[?\t] | Ein Fragezeichen gefolgt von einem Backslash und dem Buchstaben t wird als Satzende interpretiert. |