PlEWiC - korpus polskich błędów językowych

Korpus PlEWi (Polish Language Errors from Wikipedia) powstał w wyniku zastosowania metody automatycznego pozyskiwania błędów językowych z historii edycji tekstu do treści polskiej Wikipedii. Metoda została opisana w pracy:

  • Roman Grundkiewicz, Automatic Extraction of Polish Language Errors from Text Edition History, Proceedings of the 16th International Conference on Text, Speech and Dialogue TSD 2013, LNCS (in print), Czech, September 2013 pdf bib

Korpus zawiera około 1,53 mln zdań i 1,71 mln przykładów błędów. Prezentacja w języku polskim na temat budowy korpusu jest dostępna pod adresem:

Dostępność

Pierwsza wersja korpusu jest dostępna w formacie YAML:

Pomocne skrypty: