Przykład klasyfikacji polskich tekstów (część 1)

Klasyfikacja tekstów wydaje się być zagadnieniem akademickim ma jednak bardzo wiele praktycznych zastosowań. Jedno z nich to automatyczne segregowanie zleceń w systemie CRM, innymi przykładami mogą być przypisywanie kategorii i tagów do różnego rodzaju publikacji, np. książek w sklepie, czy artykułów w Internecie,  wykrywanie tekstów o określonej treści, np.  wulgarnych, nacechowanych nienawiścią, tzw. fake-newsów, czy wręcz rozpoznawanie płci autora, grupy docelowej itd. itp. Wszystko zależy od pomysłowości i dostępnych danych.

Z klasyfikacją tekstów wiąże się też kilka pokrewnych zagadnień o których mam nadzieję w przyszłości napisać. Przykładem mogą być tu określenie wieku autora, roku publikacji, stopnia zdenerwowania piszącego, wartości oceny produktu której towarzyszył komentarz itp. Kolejnym zagadnieniem jest generowanie tekstów na podstawie tekstów: streszczenia na podstawie książki, tematu na podstawie treści zgłoszenia czy wręcz odpowiedzi na zapytanie.

W dalszej części opiszę prosty przykład klasyfikacji tekstów z wykorzystaniem regresji logistycznej w scikit-learn a w przyszłości może pokażę jak można poprawić rezultaty z wykorzystaniem bardziej zaawansowanych technik. Wszystkie przykłady były uruchomione z wykorzystaniem Jupytra kernelem Python 3. Link do notatnika znajduje się na końcu artykułu. Czytaj dalej Przykład klasyfikacji polskich tekstów (część 1)