korrekturen.de | Portal für Rechtschreibung

Vermischtes

Projekt mit LanguageTool: Wikipedia Korrektur lesen

Einmal die komplette Wikipedia Korrektur lesen: Das war schon immer mein Traum. Ganz so weit ist es dann zwar doch nicht gekommen, jedoch habe ich zusammen mit Daniel Naber von LanguageTool ein hochinteressantes Experiment durchgeführt, mit dem die Praxistauglichkeit von Korrektursoftware bei größeren Textmengen exemplarisch an der Wikipedia überprüft wurde. Nachfolgend unsere gemeinsame Pressemitteilung.

Software LanguageTool findet 1 Million Textfehler in der Wikipedia

In der deutschsprachigen Wikipedia findet die Software LanguageTool eine Million Tippfehler, Grammatikfehler und stilistische Zweifelsfälle. Das ist das Ergebnis eines Versuchs, bei dem mit der Open-Source-Software LanguageTool Teile der deutschsprachigen Wikipedia geprüft wurden. Die Ergebnisse wurden von dem erfahrenen Lektor Julian von Heyl verifiziert.

Zu den typischen Fehlern gehören unter anderem Probleme mit der Groß-/Kleinschreibung (»auf deutsch« statt »auf Deutsch«), englische Anführungszeichen in deutschem Text und Grammatikfehler (»den größten Wahlerfolge« statt »den größten Wahlerfolg«).

LanguageTool deckte hierbei auch Wikipedia-spezifische Probleme auf: So sind Ausdrücke wie »seit kurzem« für eine Enzyklopädie zu unspezifisch und sollten durch eine genaue Zeitangabe ersetzt werden.

Julian von Heyl ist von der Effektivität der Software und der Qualität der Ergebnisse positiv überrascht: »Der Versuch hat uns gezeigt, dass Korrektursoftware eine äußerst gute Treffsicherheit und Leistungsstärke entwickeln kann. Ihr Einsatz ist zum Beispiel dort sinnvoll, wo regelmäßig große Mengen nutzergenerierter Content anfallen.«

Um die Wikipedianer bei der Suche nach Textfehlern zu unterstützen, stellt das LanguageTool-Projekt viele gefundene Fehler auf seiner Website zur Verfügung und hat außerdem ein Werkzeug entwickelt, mit dem alle Neueinträge und Änderungen der Wikipedia automatisch überprüft werden können.

Die Wikipedia-Prüfung und die neuen Werkzeuge werden auch auf der diesjährigen FOSDEM-Konferenz vorgestellt. Die FOSDEM ist eine Konferenz für Open-Source-Softwareentwickler, die am 1. und 2. Februar 2014 in Brüssel stattfindet. Der LanguageTool-Entwickler Daniel Naber hält dort die Eröffnungsrede.

Da die deutschsprachige Wikipedia 1,6 Millionen Artikel umfasst, ist eine vollständige Textprüfung mit manueller Kontrolle kaum möglich. Das LanguageTool-Team und korrekturen.de haben sich deshalb für eine repräsentative Stichprobe entschieden und 1000 zufällig ausgewählte Artikel mit LanguageTool geprüft. Von den gefundenen potenziellen Fehlern wurden 300 manuell von Julian von Heyl geprüft. Die so ermittelte Anzahl der wirklichen Fehler, hochgerechnet auf alle 1,6 Millionen Wikipedia-Artikel, beträgt 1.068.000. Im Durchschnitt kommen auf drei Wikipedia-Artikel zwei Fehler, die automatisch gefunden werden können.

LanguageTool findet Fehler, indem es den Text nach bestimmten Fehlermustern durchsucht. In deutschen Texten erkennt die Software mehr als 1700 Fehlermuster.

Über LanguageTool:
LanguageTool ist eine Open-Source-Software zur Prüfung von Texten auf Stil- und Grammatikfehler. Ein Team von zehn Freiwilligen kümmert sich um die Weiterentwicklung. LanguageTool kann kostenlos auf http://languagetool.org ausprobiert und heruntergeladen werden.
Kontakt: Daniel Naber, daniel.naber@languagetool.org, Telefon 0331 9799079

Über korrekturen.de:
korrekturen.de ist ein Portal mit Informationen rund um die Orthografie der deutschen Sprache, welches Listen zur neuen Rechtschreibung und zu häufigen Fehlern sowie ein gut frequentiertes Forum bietet. Gründer und Betreiber Julian von Heyl arbeitet seit über 20 Jahren als Lektor und Korrektor. Er ist Mitverfasser des Duden-Bands »Stolpersteine der Rechtschreibung«.
Kontakt: Julian von Heyl, jvh@korrekturen.de, Telefon 02234 4307327

Julian von Heyl am 28.01.14 | Kommentare (0) | Visits: 5298

Rubrik Vermischtes:

Alles, was in keine andere Kategorie passt, finden Sie hier: Neues zur Website, aber auch den einen oder anderen Beitrag, der mit Sprachlichem nur sehr am Rande zu tun hat.

Wenn Sie bei neuen Einträgen in der Rubrik »Vermischtes« benachrichtigt werden möchten, tragen Sie bitte hier Ihre E-Mail-Adresse ein:

Kommentare

Schreiben Sie einen Kommentar:

Kommentar

*

*

 Ja  Nein

 Bei Antworten auf meinen Kommentar benachrichtigen


Die mit einem * markierten Felder müssen ausgefüllt werden.
Ihre E-Mail-Adresse wird nicht veröffentlicht!

Nutzen Sie bitte für Suchanfragen die Wörtersuche rechts oben im Kasten oder das obenstehende Google-Suchfeld. Mit der benutzerdefinierten Google-Suche wird die gesamte Website durchsucht.