Демонстрация базовых приемов при проведении сравнительного анализа тональности комментариев в YouTube

Для решения задачи мы будем обучать бинарный классификатор LogisticRegression на векторных представлениях TF-IDF

В процессе построения нашео классификатора мы поучимся :

Писать парсер комментариев
Предобрабатывать тексты для их последующего анализа
Получать частотность слов в наборах текстов
Создавать красивые "облака слов"
Находить размеченные датасеты и оценивать их пригодность для задачи
Получать векторные представления текстов с помощью TF-IDF
Разделять комментарии на положительные и отрицательные с помощью логистической регрессии
Оценивать качество классификации с помощью ROC кривых и матрицы ошибок
Визуализировать наиболее важные для классификации слова
Применять полученный классификатор для анализа тональности комментариев

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
chromedriver_win32		chromedriver_win32
russian_sentiment_tweet_automated_labeled		russian_sentiment_tweet_automated_labeled
visualization		visualization
README.md		README.md
collab_reconnect.txt		collab_reconnect.txt
comments_putin.csv		comments_putin.csv
comments_shulman.csv		comments_shulman.csv
labeled_tweets_clean.csv		labeled_tweets_clean.csv
sentiment_analysis.ipynb		sentiment_analysis.ipynb

Provide feedback