Authoring Memory-Satzsegmentierung

Wichtig:

Die Authoring Memory-Satzsegmentierung wird nicht in den Einstellungen des Congree Authoring Servers konfiguriert, sondern in der Drittanbietersoftware für die Satzdatenbank. Normalerweise ist eine Anpassung der Satzsegmentierung nicht notwendig. Änderungen sollten nach Möglichkeit mit Congree abgesprochen werden, um unerwünschte Seiteneffekte auszuschließen.

Die von Congree im Authoring Memory eingesetzte Satzsegmentierung arbeitet regelbasiert, d. h., Congree ermittelt auf der Grundlage von Regeln, wo ein Satz aufhört und wo ein neuer Satz beginnt. Die Satzsegmentierung hat einen starken Einfluss auf die Ermittlung bereits hinterlegter ähnlicher Sätze zum eingegebenen Text im Editor.

Die hinterlegten Satzregeln bestehen jeweils aus drei Teilen:

  1. Der erste Teil der Regel (z. B. [!]) leitet ein, welches Trennzeichen die Regel behandelt.
  2. Der zweite Teil der Regel legt fest, ob die Regel ein Satzende definiert (+) oder nicht (-).
  3. Der dritte Teil der Regel stellt den Kern der Regel dar. Der Teil [!^_] der Regel [!]+[!^_] steht für "Ein Ausrufezeichen gefolgt von einem Whitespace", welches als Satzende interpretiert wird.

Info:

Wenn Satzregeln sich überlagern, überschreibt die jeweils spezifischere Regel die allgemeinere Regel. Beispiel: Ein Punkt gefolgt von einem Whitespace wird als Satzende interpretiert. Wenn aber das nächste Wort mit einem Kleinbuchstaben beginnt, wird die Regel aufgehoben und der Punkt nicht als Satzendezeichen interpretiert.

Die folgende Tabelle enthält die wichtigsten Satzregeln, die standardmäßig in Congree verwendet werden:

Satzregel

Bedeutung

[!]+[!^_]

Ein Ausrufezeichen gefolgt von einem Whitespace wird als Satzende interpretiert.

[.] - [^_^n.]

Ein Punkt gefolgt von einem Whitespace und einem Kleinbuchstaben wird nicht als Satzende interpretiert.

[.]+[.^_]

Ein Punkt gefolgt von einem Whitespace wird als Satzende interpretiert.

[.] - [.^_^a]

Ein Punkt gefolgt von einem Whitespace und einem Kleinbuchstaben wird nicht als Satzende interpretiert.

[.] - [^_^n.]

Ein Whitespace gefolgt von einer einstelligen Zahl und einem Punkt wird nicht als Satzende interpretiert.

[?]+[?^_]

Ein Fragezeichen gefolgt von einem Whitespace wird als Satzende interpretiert.

[?] - [?^_^a]

Ein Fragezeichen gefolgt von einem Whitespace und einem Kleinbuchstaben wird nicht als Satzende interpretiert.

[n]+[.\n]

Ein Punkt gefolgt von einem Backslash und dem Buchstaben n wird als Satzende interpretiert.
Hintergrund dieser Regel ist, dass die Zeichenfolge \n normalerweise für einen Zeilenumbruch steht. Gemäß der Regel wird z. B. im folgenden String nach \n ein Satzende gesetzt: "Kann die Datei nicht laden.\nFehler: 0x%x"

[n]+[!\n]

Ein Ausrufezeichen gefolgt von einem Backslash und dem Buchstaben n wird als Satzende interpretiert.

[n]+[?\n]

Ein Ausrufezeichen gefolgt von einem Backslash und dem Buchstaben n wird als Satzende interpretiert.

[t]+[.\t]

Ein Punkt gefolgt von einem Backslash und dem Buchstaben t wird als Satzende interpretiert.

Hintergrund dieser Regel ist, dass die Zeichenfolge \t normalerweise für einen horizontalen Tabulator steht. Gemäß der Regel wird z. B. im folgenden String nach \t ein Satzende gesetzt: "Suchen...\ tStrg+F"

[t]+[!\t]

Ein Ausrufezeichen gefolgt von einem Backslash und dem Buchstaben t wird als Satzende interpretiert.

[t]+[?\t]

Ein Fragezeichen gefolgt von einem Backslash und dem Buchstaben t wird als Satzende interpretiert.