Нейросеть решили запустить после протокола регулятора за мат и секс в фильме сервиса.
Нейросеть должна будет проанализировать более чем 700 тысяч единиц контента, чтобы найти там запрещённый законом контент. Об этом «Ведомостям» рассказал глава сервиса Виктор Чеканов.
Чеканов уточнил, что запуск такой системы — превентивная мера. «Цель – выявить контент с матом и указанными сценами, чтобы устранить возможные нарушения: запикать или проставить маркировку „18+“», — объяснил он.
Нейросеть будет распознавать четыре группы нецензурных слов из списка Роскомнадзора и производные от них: х**, п***а, е*** (нецензурное обозначение секса) и б**** (как пишут «Ведомости», это «обозначение женщины распутного поведения»). К этим четырём словам Megogo добавил ещё два: мудак и м**** (обозначение женского полового органа). За использование последнего слова Роскомнадзор в 2018 году составил протокол на Znak.com.
По словам главы сервиса, нейросеть состоит из двух решений. Первое — автономный инструмент для распознавания речи с открытым исходным кодом Vosk, второе — система визуального распознавания. Чеканов уточнил, что нейросеть сможет самостоятельно идентифицировать запрещённый к распространению контент через год, но пока участие человека необходимо.