aktualności

01.09.2015

Udostępniono interaktywne demo systemu Concordia. Więcej szczegółów na: link.

03.06.2015

Kolejny wpis w dziale "czas wolny".

10.05.2015

Nowy wpis w dziale "czas wolny".

28.04.2015

Opublikowano pierwszą wersję programu Concordia.

24.04.2015

Dodano angielską wersję strony.

21.04.2015

Zmiana zdjęcia.

07.11.2013

Dodanie działu "listy od studentów" w "czas wolny".

04.10.2013

Aktualizacja strony na semestr zimowy 2013/2014.

29.03.2011

Aktualizacja strony i dodanie działu Publikacje.

02.10.2009

Aktualizacja strony na semestr zimowy 2010/2011.

25.09.2009

Premiera strony.

dodatkowe linki

System EduWiki

kontakt

dr Rafał Jaworski,
rjawor at amu.edu.pl

Concordia

Jestem twórcą projektu Concordia - wyszukiwarki pełnotekstowej, przeznaczonej dla komputerowego wspomagania tłumaczenia. Zapraszam na stronę projektu: http://tmconcordia.sourceforge.net/

publikacje

Zapraszam na mój profil w serwisie Google Scholar. Można tam między innymi uzyskać poniższe dane w formacie BibTeX. Zapraszam również na mój profil ResearchGate.

2017

  • [22] R. Jaworski, M. Ogrodniczuk: "Expanding the functionalities of the Language Resources Switchboard by integrating a set of tools for the processing of Polish language", Proceedings of the CLARIN Annual Conference 2017 in Budapest, Hungary [pdf]
  • [21] F. Graliński, R. Jaworski, Ł. Borchmann, P. Wierzchoń: "The RetroC challenge: how to guess the publication year of a text?", Proceedings of the Digital Access to Textual Cultural Heritage conference (DATeCH2017), Göttingen, Germany, 2017 [pdf]
  • [20] R. Jaworski, K. Stroński: "Recognition and multi-layered analysis of converbs in early NIA", Proceedings of the 33rd South Asian Languages Analysis Round Table SALA-33, Poznań, Poland, pp. 55-56, 2017 [Full conference proceedings]
  • [19] O. Witczak, R. Jaworski: "CAT tools usability test with eye-tracking and key-logging: where Translation Studies meets Natural Language Processing", Points of View in Translation and Interpreting, Kraków, Poland, 2017 [pdf]

2016

  • [18] F. Graliński, R. Jaworski, Ł. Borchmann, P. Wierzchoń: "Vive la Petite Différence! Exploiting Small Differences for Gender Attribution of Short Texts", in: A. Horak, K. Pala, P. Rychly, A. Rambousek (Eds.) Proceedings of CBBLR 2016 Community-based Building of Language Resources, Brno, Czech Republic, pp. 9-15, 2016 [pdf]
  • [17] F. Graliński, R. Jaworski, Ł. Borchmann, P. Wierzchoń: "Vive la Petite Différence! Exploiting Small Differences for Gender Attribution of Short Texts", in: Petr Sojka, Ales Horak, Ivan Kopecek, Karel Pala (Eds.) Text, Speech and Dialogue - Proceedings of 19th International Conference TSD 2016, Lecture Notes in Artificial Intelligence vol. 9924, pp. 54-61, 2016 [pdf]
  • [16] A. Jaworska, R. Jaworski, D. Dzienisiewicz: "Zastosowanie archiwaliów i nowoczesnych technologii w służbie badania języka", XVIII OZSA: Przeszłość dla przyszłości, Poznań, 2016 [pdf]
  • [15] F. Graliński, R. Jaworski, Ł. Borchmann, P. Wierzchoń: "Gonito.net - Open Platform for Research Competition, Cooperation and Reproducibility", in: Branco, António, Nicoletta Calzolari and Khalid Choukri (eds.), Proceedings of the 4REAL Workshop: Workshop on Research Results Reproducibility and Resources Citation in Science and Technology of Language, pp. 13-20, 2016 [pdf]
  • [14] R. Jaworski, K. Stroński: "New perspectives in annotating early New Indo-Aryan texts", Proceedings of the 32nd South Asian Languages Analysis Roundtable (SALA-32), pp. 66-68, 2016 [Full conference proceedings]

2015

  • [13] Ł. Borchmann, F. Graliński, R. Jaworski, P. Wierzchoń: "A semi-automatic method for thematic classification of documents in a large text corpus", Proceedings of the Workshop on Corpus-Based Research in the Humanities (CRH) pp.13-21, 2015 [Full conference proceedings]
  • [12] R. Jaworski, K. Jassem, K. Stroński: "Manual and Automatic Tagging of Indo-Aryan Languages", Human Language Technologies as a Challenge for Computer Science and Linguistics, pp. 550-554, 2015 [pdf]
  • [11] K. Jassem, F. Graliński, M. Junczys-Dowmunt, P. Skórzewski, R. Grundkiewicz, M. Walas, R. Jaworski, T. Dwojak: "PSI-Toolkit - an Extensible and Tightly Integrated Set of NLP Tools", Human Language Technologies as a Challenge for Computer Science and Linguistics, pp. 280-282, 2015 [pdf]
  • [10] R. Jaworski: "A novel method for finding and scoring valuable translation memory repetitions", Human Language Technologies as a Challenge for Computer Science and Linguistics, pp. 155-159, 2015 [pdf]
  • [9] K. Anderson, L. Duranti, R. Jaworski, H. Stancić, S. Seljan, V. Mateljan (eds.): The Future of Information Sciences: e-Institutions, Openness, Accessibility and Preservation, Department of Information and Communication Sciences, Faculty of Humanities and Social Sciences, University of Zagreb, 2015.
  • [8] R. Jaworski: "Approximate sentence matching and its applications in corpus-based research", The Future of Information Sciences: e-Institutions, Openness, Accessibility and Preservation, pp. 21-30 (keynote paper), 2015 [docx]
  • [7] K. Jassem, R. Jaworski, K. Stroński: "IATagger – a Tool for Tagging Indo-Aryan Texts", Proceedings of the Poznań Linguistic Metting Conference, 2015 [abstract]

2014

  • [6] R. Jaworski, R. Ziemlinska: "The translaide.pl system: an effective real world installation of translation memory searching and EBMT", Proceedings of the 17th Annual Conference of the European Association for Machine Translation EAMT2014 p.53, 2014 [Full conference proceedings]

2013

  • [5] Rozprawa doktorska: "Algorytmy przeszukiwania i przetwarzania pamięci tłumaczeń", 2013 [pdf]
  • [4] R. Jaworski: "Anubis - speeding up Computer-Aided Translation ", Computational Linguistics – Applications, Studies in Computational Intelligence vol. 458, pp. 263-280, Springer-Verlag, 2013 [pdf]

2011

  • [3] R. Jaworski: "A sentence Clustering Algorithm for Specialized Translation Memories", Speech and Language Technology (SLT) vol. 12/13, pp. 97-103, 2011 [doc]

2010

  • [2] R. Jaworski, K. Jassem: "Building high quality translation memories acquired from monolingual corpora", Proceedings of the IIS 2010 Conference, pp. 157-168, 2010 [pdf]
  • [1] R. Jaworski: "Computing transfer score in Example-Based Machine Translation", Lecture Notes in Computer Science (LNCS), Springer-Verlag, pp. 406-416, 2010 [pdf]

tematyka pracy naukowej

W mojej pracy naukowej zajmuję się lingwistyką komputerową, algorytmami wyszukującymi oraz pewnymi rodzajami tłumaczenia automatycznego. Chętnie udzielę pomocy naukowej lub, w miarę możliwości, rozpocznę współpracę ze wszystkimi zainteresowanymi poniższymi zagadnieniami:

Wyszukiwanie przybliżone - główna dziedzina moich zainteresowań. Polega na wyszukaniu w tekście niekoniecznie dokładnych wystąpień danego napisu. Technika ta znajduje szerokie zastosowanie wszędzie tam, gdzie zbiór danych do przeszukania może zawierać błędy (np. pochodzi z dokumentów poddanych technice OCR).

Tłumaczenie przez analogie - poprzednia dziedzina moich zainteresowań, temat mojej pracy magisterskiej. Tłumaczenie przez analogie (ang. EBMT - Example Based Machine Translation) to tłumaczenie oparte na przykładach. Zasada działania takiego tłumaczenia może być wyjaśniona następująco:
Nazwijmy język, z którego tłumaczymy, językiem źródłowym, a język, na który tłumaczymy, językiem docelowym. Niech zdanie w języku źródłowym nazywa się krótko zdaniem źródłowym, podczas gdy zdanie w języku docelowym - zdaniem docelowym. Przykład to taka para: (zdanie źródłowe, zdanie docelowe), że zdanie docelowe jest tłumaczeniem zdania źródłowego (przy czym tłumaczenie to jest dobre, wykonane przez człowieka). Zgromadźmy dużej wielkości zbiór przykładów i nazwijmy go pamięcią tłumaczeń. Tłumaczenie przez analogie zdania wejściowego (zdania przeznaczonego do tłumaczenia) przebiega wtedy według następujących kroków:

  1. Znajdź taki przykład w pamięci tłumaczeń, którego zdanie źródłowe jest najbardziej podobne do wejściowego.
  2. Zmodyfikuj przykład tak, aby możliwie najbardziej przypominał zdanie wejściowe.
  3. Zwróć zmodyfikowane zdanie docelowe z przykładu jako wynik tłumaczenia.

Jak można zauważyć, wiele kroków tego algorytmu nie jest trywialnych. Co znaczy, że zdania są "podobne", skąd wziąć pamięć tłumaczeń, czy, co najważniejsze, jak zmodyfikować przykład - tym wszystkim zajmuje się tłumaczenie przez analogie.

Pozyskiwanie pamięci tłumaczeń - czynność pomocnicza, pozyskane pamięci tłumaczeń mogą służyć do tłumaczenia przez analogie, jak i do innych celów (np. tłumaczenia statystycznego). Nie mniej jednak, samo zagadnienie jest bardzo ciekawe. Mieści się w nim opracowywanie narzędzi do automatycznego pozyskiwania tekstów z różnych źródeł, najczęściej dokumentów pozyskanych z Internetu lub w jakikolwiek inny sposób.

Podział tekstu na zdania - ang. Sensplitting. Kolejna czynność pomocnicza, która, wbrew pozorom, nie jest trywialna. Zwróćmy uwagę, że algorytm dzielenia tekstu na zdania w miejscach kropek, wykrzykników i znaków zapytania jest mocno niewystarczający. Kropka jest bardzo często używana w skrótach, wypunktowaniach i innych częściach tekstu.

Urównoleglanie tekstów - jeszcze inna czynność pomocnicza, służąca między innymi przygotowaniu pamięci tłumaczeń. Operacja jest wykonywana na dwóch tekstach w różnych językach. Polega ona na dopasowaniu zdań obu tekstów w taki sposób, żeby dopasowane do siebie zdania były swoimi tłumaczeniami. Operacja jest konieczna ze względu na to, że w praktyce tłumaczenie tekstu na inny język niemal nigdy nie ma takiej samej liczby zdań, jak tekst oryginalny. Podczas dopasowywania często zdarza się, że dwa lub więcej zdań w jednym języku jest dopasowanych do jednego zdania w drugim języku. Istnieje wiele algorytmów urównoleglania tekstów. Ze względu na naturę problemu, wszystkie są one dość mocno skomplikowane.

Inżynieria oprogramowania - poza lingwistyką komputerową, w obszarze moich zainteresowań naukowych znajduje się inżynieria oprogramowania, czyli nauka o tym, jak wytwarzać dobre oprogramowanie. Nauka ta jest mi przydatna ze względów praktycznych, stosuję ją zawsze, kiedy opracowuję nowy program lub rozwijam już istniejący.