CLARIN Wspólne zasoby językowe i infrastruktura technologiczna

Podpisano umowę na rozbudowę infrastruktury badawczej CLARIN-PL. W projekcie uczestniczą dwa instytuty Polskiej Akademii Nauk.

CLARIN-LOGO_23-04-2020-big.jpg

Projekt CLARIN

CLARIN (Common Language Resources & Technology Infrastructure) to ogólnoeuropejskie przedsięwzięcie w ramach którego tworzone i udostępniane są narzędzia umożliwiające prace z dużymi zbiorami tekstów. Ujednolicone narzędzia i funkcjonalne aplikacje mają pomóc badaczom z dziedziny nauk humanistycznych i społecznych w prowadzeniu badań na tekstach źródłowych. W projekcie bierze udział ponad 100 jednostek naukowych w Europie.

Polska część projektu

CLARIN-PL to polska część sieci CLARIN. Konsorcjum CLARIN-PL tworzy 5 jednostek naukowych:

  • Politechnika Wrocławska
  • Instytut Podstaw Informatyki PAN
  • Instytut Slawistyki PAN
  • Uniwersytet Łódzki
  • Uniwersytet Wrocławski

W tych miejscach powstają repozytoria tekstów pisanych i mówionych w języku polskim oraz tekstów równoległych w innych językach europejskich. Celem polskiej grupy jest wypełnienie braków w obszarze przystosowania technologii językowych i dostosowanie narzędzi do języka polskiego.

Liderem projektu jest Politechnika Wrocławska. Rozbudowa infrastruktury potrwa do 2023 roku i składać się będzie z kilku etapów:

  • opracowanie systemu do gromadzenia i przechowywania danych językowych;
  • dostosowanie narzędzi językowych do standardów komercyjnych i rozszerzenie ich funkcjonalności;
  • budowa podstawowych zasobów językowych dla języka polskiego połączonych z zasobami angielskimi i Linked Open Data;
  • stworzenie narzędzi do analizy wydźwięku i emocji;
  • budowa środowiska informatycznego do tworzenia systemów dialogowych;
  • budowa narzędzi do wydobywania informacji z danych tekstowych;
  • przygotowanie narzędzi do wydobywania wiedzy bazujących na semantycznej analizie tekstu oraz elementach analizy dyskursu;
  • opracowanie ogólnego systemu do odpowiadania na pytania w języku naturalnym.

Promocja języka i kultury

Twórcy projektu wierzą, że rozszerzenie konstrukcji infrastruktury CLARIN oraz możliwość dostępu do bogatych zasobów w języku polskim zachęci badaczy w Europie i na świecie do podjęcia badań naukowych z uwzględnieniem polskojęzycznych tekstów oraz materiałów multimedialnych. Wolny dostęp do zasobów CLARIN będzie też okazją do promowania języka i kultury Polski poza granicami naszego kraju.

Źródło informacji: Fundusze Europejskie – Program Operacyjny Inteligentny Rozwój, CLARIN-PL