Lingwistka komputerowa z PAN pracuje nad nowym narzędziem do automatyzacji marketingu

Nadrzędna kategoria: Wiadomości Naukowe

Co klienci myślą o naszych produktach? To pytanie zadają sobie działy marketingu na całym świecie i szukają coraz lepszych narzędzi do monitoringu internetu. Nad jednym z takich rozwiązań pracuje właśnie dr Agnieszka Pluwak z Instytutu Slawistyki PAN.

Chodzi o projekt Senti Cognitive Services. Realizują go firma SentiOne, Akademia Górniczo-Hutnicza i Politechnika Wrocławska we współpracy z Instytutem Slawistyki PAN.

Celem jest zbudowanie platformy służącej do automatycznego badania wizerunku marki w internecie. Złożą się na nią:

  1. automatyczne raporty wizerunkowe;
  2. automatyczne powiadomienia o sytuacjach kryzysowych;
  3. automatyczne odpowiedzi na pytania często zadawane przez klientów.

To nowa generacja usług oparta na sztucznej inteligencji – algorytmy „uczą się” analizować teksty potoczne w języku polskim.

Wspólna praca lingwistów i programistów

Dr Agnieszka Pluwak koordynuje prace zespołu badawczego, złożonego z lingwistów i informatyków. Przygotowuje tzw. manuale, czyli instrukcje z wytycznymi do oznaczania zbiorów treningowych dla systemów uczenia maszynowego. Ekspertka testuje również skuteczność modeli.

„Wyzwaniem jest osiągnięcie jak najwyższej skuteczności działania modeli przy jednoczesnym utrzymaniu ich dobrego poziomu prędkości przetwarzania danych” – opowiada o swojej pracy dr Pluwak i dodaje: „Pewne badania lub eksperymenty należy kilkakrotnie powtarzać zanim osiągnie się właściwy wynik. Trzeba to odpowiednio zaplanować w czasie i zbudować kompetentny zespół naukowców”.

Algorytm na otwartej licencji

W pierwszym etapie projektu opracowano największy w kraju zbiór (korpus) tekstów potocznych języka polskiego. Zawiera on ponad 7,5 tys. dokumentów pochodzących z różnych źródeł i jest dostępny na otwartej licencji w bazie sieci Clarin.

Teksty są autentyczne i odznaczają się cechami charakterystycznymi dla wpisów zamieszczanych przez internautów, w tym specyficzną pisownią czy błędami językowymi.

Na bazie tego korpusu wytrenowano następnie algorytm do tzw. znakowania morfo-składniowego tekstów potocznych. Z jego pomocą można przeanalizować teksty internetowe pod kątem części mowy.

To pierwszy tego typu moduł dla języka polskiego dostosowany do analizy mowy potocznej. Narzędzie jest również dostępne na otwartej licencji.

Uśmiechnięta dr Agnieszka Pluwak

Na zdjęciu dr Agnieszka Pluwak z Instytutu Slawistyki PAN

Źródło informacji: Instytut Slawistyki PAN, SentiOne

Źródło zdjęcia: archiwum prywatne dr Agnieszki Pluwak