CLARIN – Wspólne zasoby językowe i infrastruktura technologiczna
-
Nadrzędna kategoria: Media
Podpisano umowę na rozbudowę infrastruktury badawczej CLARIN-PL. W projekcie uczestniczą dwa instytuty Polskiej Akademii Nauk.
Projekt CLARIN
CLARIN (Common Language Resources & Technology Infrastructure) to ogólnoeuropejskie przedsięwzięcie w ramach którego tworzone i udostępniane są narzędzia umożliwiające prace z dużymi zbiorami tekstów. Ujednolicone narzędzia i funkcjonalne aplikacje mają pomóc badaczom z dziedziny nauk humanistycznych i społecznych w prowadzeniu badań na tekstach źródłowych. W projekcie bierze udział ponad 100 jednostek naukowych w Europie.
Polska część projektu
CLARIN-PL to polska część sieci CLARIN. Konsorcjum CLARIN-PL tworzy 5 jednostek naukowych:
- Politechnika Wrocławska
- Instytut Podstaw Informatyki PAN
- Instytut Slawistyki PAN
- Uniwersytet Łódzki
- Uniwersytet Wrocławski
W tych miejscach powstają repozytoria tekstów pisanych i mówionych w języku polskim oraz tekstów równoległych w innych językach europejskich. Celem polskiej grupy jest wypełnienie braków w obszarze przystosowania technologii językowych i dostosowanie narzędzi do języka polskiego.
Liderem projektu jest Politechnika Wrocławska. Rozbudowa infrastruktury potrwa do 2023 roku i składać się będzie z kilku etapów:
- opracowanie systemu do gromadzenia i przechowywania danych językowych;
- dostosowanie narzędzi językowych do standardów komercyjnych i rozszerzenie ich funkcjonalności;
- budowa podstawowych zasobów językowych dla języka polskiego połączonych z zasobami angielskimi i Linked Open Data;
- stworzenie narzędzi do analizy wydźwięku i emocji;
- budowa środowiska informatycznego do tworzenia systemów dialogowych;
- budowa narzędzi do wydobywania informacji z danych tekstowych;
- przygotowanie narzędzi do wydobywania wiedzy bazujących na semantycznej analizie tekstu oraz elementach analizy dyskursu;
- opracowanie ogólnego systemu do odpowiadania na pytania w języku naturalnym.
Promocja języka i kultury
Twórcy projektu wierzą, że rozszerzenie konstrukcji infrastruktury CLARIN oraz możliwość dostępu do bogatych zasobów w języku polskim zachęci badaczy w Europie i na świecie do podjęcia badań naukowych z uwzględnieniem polskojęzycznych tekstów oraz materiałów multimedialnych. Wolny dostęp do zasobów CLARIN będzie też okazją do promowania języka i kultury Polski poza granicami naszego kraju.
Źródło informacji: Fundusze Europejskie – Program Operacyjny Inteligentny Rozwój, CLARIN-PL