Демонстрация базовых приемов при проведении сравнительного анализа тональности комментариев в YouTube
Тетрадка jupyter-notebook с решением задачи
Для решения задачи мы будем обучать бинарный классификатор LogisticRegression на векторных представлениях TF-IDF
В процессе построения нашео классификатора мы поучимся :
-
Писать парсер комментариев
-
Предобрабатывать тексты для их последующего анализа
-
Получать частотность слов в наборах текстов
-
Создавать красивые "облака слов"
-
Находить размеченные датасеты и оценивать их пригодность для задачи
-
Получать векторные представления текстов с помощью TF-IDF
-
Разделять комментарии на положительные и отрицательные с помощью логистической регрессии
-
Оценивать качество классификации с помощью ROC кривых и матрицы ошибок
-
Визуализировать наиболее важные для классификации слова
-
Применять полученный классификатор для анализа тональности комментариев