Mówca
Opis
W dobie nadmiaru informacji i łatwości publikacji treści efektywne określenie
głównej tematyki dużych zbiorów tekstowych staje się wyzwaniem. W takim
przypadku tradycyjna analiza jest czasochłonna i nieefektywna. Odpowiedzią na
to wyzwanie są nowoczesne metody analizy tekstu, w tym model ukrytej alokacji
Dirichleta (LDA – Latent Dirichlet Allocation), który pozwala na identyfikację
ukrytych tematów na podstawie rozkładów prawdopodobieństwa współwystę-
powania słów. Dzięki wykorzystaniu języków programowania takich jak Python
czy R możliwe jest zautomatyzowanie tego procesu i przeprowadzenie analizy
nawet na bardzo dużych zbiorach danych. W referacie przedstawiono ogólne
założenia modelu LDA, jego implementację oraz przykładowe wyniki analizy
tematycznej przeprowadzonej na wybranym korpusie tekstów. Uzyskane wyniki potwierdzają przydatność tego podejścia w eksploracji danych tekstowych
i identyfikacji dominujących tematów badawczych.