Style Guide - User Lexicon - Training Data
Grundlegendes zum Wörterbuchtrainer
Im Alltag der Arbeit mit Congree werden Sie immer wieder auf Meldungen stoßen, die in Ihrem Firmenumfeld nicht nötig sind:
- Rechtschreibvarianten, die sich entgegen dem Standard bei Ihnen durchgesetzt haben
- Wörter, die nicht als Terme hinterlegt sind und trotzdem als feststehende Namen verwendet werden
- Eigennamen, die nicht als solche erkannt werden
Mit dem Wörterbuchtrainer können Sie diese abweichenden Schreibungen einfacher oder sogar automatisiert in Ihr Benutzerwörterbuch übernehmen und falsch-positive Meldungen und damit Rauschen in der Congree-Sprachprüfung vermeiden.
Der Wörterbuchtrainer erfasst ignorierte Meldungen, die kontextunabhängig sind (z. B. Meldungen zur Rechtschreibregel "unknown"). Er ist ein Bestandteil des Benutzerwörterbuchs und wird für jeden dokumentspezifischen Regelsatz separat aktiviert. Die ignorierten Wörter werden im Benutzerwörterbuch, Bereich Trainingsdaten, erfasst.
Die Trainingsdaten bieten drei grundlegende Funktionen:
- Übersicht über die ignorierten Meldungen zur manuellen Verwaltung
- Bestimmte Meldungen für diesen Nutzer in Zukunft automatisch ausblenden
- Ignorierte Meldungen für alle Nutzer automatisch als Teil des Benutzerwörterbuchs definieren
Regelübersicht
Das Ignorieren folgender Regeln wird vom Wörterbuchtrainer erfasst:
Deutsch:
Rechtschreibung:
- unknown
- ff
- uh
Grammatik:
- 211de
- 212de
- 213de
- 214de
Englisch:
- unknown
- unknowndigit
- acronymext
Französisch und Spanisch:
- unknown
Aktivierung des Wörterbuchtrainers
Der Wörterbuchtrainer wird für jeden dokumentspezifischen Regelsatz einzeln aktiviert. Öffnen Sie dazu im Congree Control Center das Fenster Einstellungen > Dokument und scrollen Sie zum Bereich "Sprachprüfung". Aktivieren Sie dort das Häkchen für den Wörterbuchtrainer.
Die ignorierten Meldungen aus der oben genannten Liste werden jetzt erfasst.
Wenn Sie mehrere dokumentspezifische Regelsätze verwenden und den Wörterbuchtrainer überall aktivieren möchten, müssen Sie diese Einstellung in allen dokumentspezifischen Regelsätzen treffen. Dies gilt auch, wenn Sie denselben Redaktionsleitfaden in unterschiedlichen dokumentspezifischen Regelsätzen verwenden.
Die Arbeit mit dem Wörterbuchtrainer
Ignorieren der Meldung
Sie haben eine Meldung aus der oben genannten Liste und ignorieren die Meldung. In diesem Beispiel ist das die Meldung der Regel unknown zum Wort "FastInnoLab".
Das Wort "FastInnoLab" wird im Congree Control Center Web im Fenster Redaktionsleitfaden > Benutzerwörterbuch > Trainingsdaten angezeigt.
Verwalten der Trainingsdaten
Öffnen Sie im Congree Control Center Web das Fenster Redaktionsleitfaden > Benutzerwörterbuch > Trainingsdaten. Hier werden alle ignorierten Meldungen chronologisch angezeigt. Die Einträge in dieser Liste können nicht gefiltert oder sortiert werden.
Die Spalten bedeuten im Detail:
- Das Wort, zu dem die Meldung ignoriert wurde
- Kategorie der ignorierten Regel
- Code der ignorierten Regel
- Angabe, wie oft die Meldung für dieses Wort insgesamt ignoriert wurde
- Angabe, wie viele unterschiedliche Autoren die Meldung für dieses Wort ignoriert haben (keine namentliche Auflistung)
- Dieses Wort aus der Liste entfernen
- Dieses Wort in das Benutzerwörterbuch übernehmen (z. B. als neues Substantiv)
- Aktivieren/Deaktivieren mehrerer Einträge
- Entfernen/Übernehmen aller aktivierten Einträge
- Konfiguration für die automatische Verarbeitung der Trainingsdaten (s. nächstes Kapitel)
Wenn Sie ein Wort unbearbeitet in der Liste belassen oder es durch Klick auf den Button in Spalte 6 aus der Liste entfernen, werden auch in Zukunft Meldungen dazu ausgegeben. Wenn Sie ein Wort ins Benutzerwörterbuch übernehmen, wird es nach der nächsten Kompilierung des Redaktionsleitfadens als Bestandteil des Benutzerwörterbuchs behandelt. Für dieses Wort werden dann keine Meldungen mehr ausgegeben.
Automatische Verarbeitung der Trainingsdaten
Sie können Werte festlegen, ab denen die Einträge in der Liste der Trainingsdaten automatisch verarbeitet werden. Klicken Sie dazu auf das Zahnradsymbol (Punkt 10 im Screenshot oben).
Der Dialog Trainingsdaten konfigurieren öffnet sich.
Die Punkte bedeuten im Detail:
- Wenn ein einzelner Benutzer diese Meldung so oft ignoriert wie angegeben, wird für diesen Benutzer die Meldung für dieses Wort nicht mehr angezeigt.
- Bei der nächsten Kompilierung werden die Wörter aus der Liste automatisch ins Benutzerwörterbuch übernommen (als Substantiv oder Abkürzung), wenn die darunter definierten Bedingungen erfüllt sind.
- Das Wort muss insgesamt mindestens so oft wie angegeben ignoriert worden sein.
- Mindestens so viele unterschiedliche Autoren müssen das Wort ignoriert haben.
(Wenn 3 und 4 gleichzeitig aktiv sind, wird dies als UND-Verknüpfung interpretiert, beide Bedingungen müssen also gleichzeitig erfüllt sein.)
Damit bei der nächsten Kompilierung die Wörter automatisch verschoben werden können (Punkt 2), muss mindestens einer der Punkte 3 oder 4 ebenfalls aktiviert werden.
Wörter, die aus den Trainingsdaten als Substantive oder Abkürzungen übernommen wurden, sind standardmäßig aktiviert (grünes Symbol in der Status-Spalte).
Beispiele:
Die Zahlenwerte im Screenshot haben folgende Auswirkungen:
Punkt 1: Wenn drei Mal "FastInnoLab" bei einem Autor ignoriert wurde, wird die Regel "unknown" nur bei diesem Autor für dieses Wort keine Meldungen mehr ausgeben. Für ein anderes Wort (z. B. QuickInnoLab) werden jedoch weiterhin Meldungen ausgegeben. Ebenso werden die Kollegen Meldungen zu diesem Wort sehen. Diese Auswirkung ist sofort aktiv. Der Autor wird also in einem längeren Text bereits keine Meldungen für dieses Wort mehr sehen.
Punkt 3 und 4: Wenn die Meldung zum Wort FastInnoLab insgesamt mindestens fünf Mal von mindestens drei verschiedenen Autoren ignoriert wurde, wird es bei der nächsten Kompilierung ins Benutzerwörterbuch übernommen. Das kann bedeuten: Ein Autor hat die Meldung drei Mal ignoriert, zwei Kollegen jeweils ein Mal. Oder fünf Autoren haben die Meldung jeweils ein Mal ignoriert. Selbst wenn ein Autor die Meldung zehn Mal ignoriert, wird das Wort nicht automatisch übernommen, wenn nicht auch andere Autoren die Meldung ebenso ignorieren.
Tipps
Machen Sie es sich zur Gewohnheit, die Trainingsdaten regelmäßig durchzusehen. Sie erkennen daran, welche Anpassungen im Benutzerwörterbuch sinnvoll sein können.
Wenn Sie Wörter ins Benutzerwörterbuch übernehmen, sollten Sie diese - wie üblich - mit linguistischen Daten anreichern (Kasus-Varianten, Angaben zu Genus und Semantik). Dies wirkt sich auf die Genauigkeit aus, mit der das Wort im Kontext der zukünftigen Texte erkannt und behandelt wird. Vergessen Sie diese Anpassungen besonders bei der automatischen Übernahme nicht.
Bei der Konfiguration der Trainingsdaten empfehlen wir, keinen Zähler auf 1 zu belassen. Sie verhindern dadurch, dass der Automatismus schon aktiv wird, wenn eine Meldung nur versehentlich ignoriert wurde.
Die Einstellungen 3 und 4 im Dialogfeld Trainingsdaten konfigurieren müssen nicht gleichzeitig aktiv sein. Wir empfehlen aber, zumindest Punkt 3 immer zu aktivieren. Dadurch verhindern Sie ebenfalls versehentliche Aktionen.
Die Trainingsdaten werden - falls konfiguriert - bei der nächsten Kompilierung automatisch übernommen. Dies ist üblicherweise der nächtliche TermSync. Starten Sie eine manuelle Kompilierung, wenn die Trainingsdaten sofort im Benutzerwörterbuch verfügbar sein sollen.
Sehen Sie auch bei der automatischen Konfiguration die Trainingsdaten regelmäßig durch, um die Zähler anpassen zu können.