Математика текста: как алгоритмы превращают слова в смыслы

20 минут назад

Приветствую! Меня зовут Даниил, я прохожу обучение в Центральном Университете. Сегодня я хочу погрузить вас в тему того, как вычислительные системы учатся интерпретировать человеческий язык и «понимать» суть текстов.

Представьте бесконечную новостную ленту, где политика соседствует со спортом, а шоу-бизнес — с научными открытиями. Задача: автоматически распределить тысячи публикаций по соответствующим разделам без участия модератора.

На первый взгляд это кажется невозможным, но в основе процесса лежит строгая математика. Давайте разберемся, как это реализовано технически.

Часть 1: Преобразование слов в цифровые значения

Машины не умеют работать с буквами напрямую — их стихия это числа. Но как перевести семантику статьи на язык алгоритмов?

Самое очевидное решение — присвоить каждому уникальному слову порядковый номер (скаляр). Однако такой метод не позволяет сравнивать слова по смыслу, улавливать их контекстную близость или передавать многогранные связи между понятиями в рамках одного числа.

Скалярного представления недостаточно. Поэтому современная лингвистика использует векторы — упорядоченные наборы чисел. Векторное представление способно закодировать глубинный смысл, контекст и тонкие семантические связи.

One-Hot Encoding: базовый уровень

Допустим, наш словарь включает уникальных лексем. Самый примитивный метод кодирования — создание вектора размерности , в котором позиция конкретного слова отмечена единицей (1), а остальные ячейки заполнены нулями (0).

Математическая формулировка:

Для элемента в словаре объема , унитарный вектор $\mathbf{v}_i$ выглядит так:

$\mathbf{v}_i = [\underbrace{0, 0, \ldots, 0}_{i-1}, 1, 0, \ldots, 0]$

Практический пример:

Рассмотрим мини-словарь из пяти слов:

Порядковый номер	Термин
1	кошка
2	собака
3	яблоко
4	дом
5	дерево

Векторные представления будут следующими:

$\text{cat} = [1, 0, 0, 0, 0]$

$\text{dog} = [0, 1, 0, 0, 0]$

$\text{apple} = [0, 0, 1, 0, 0]$

Ключевой недостаток

Несмотря на простоту, метод обладает критическим изъяном: он полностью игнорирует семантику.

Взгляните на расчеты:

Расстояние между любой парой таких векторов всегда константно:

$d(\mathbf{v}_i, \mathbf{v}_j) = \sqrt{\sum_{k=1}^{N} (v_{ik} - v_{jk})^2} = \sqrt{2} \quad \text{(для } i \neq j \text{)}$

Угол между ними неизменно составляет 90°:

$\cos(\theta) = \frac{\mathbf{v}_i \cdot \mathbf{v}_j}{\|\mathbf{v}_i\| \|\mathbf{v}_j\|} = 0$

Визуализация эмбеддингов Cat, Dog, Yacht — Схематичное представление слов Cat, Dog, Yacht на плоскости

Если представить концепты «Кот», «Собака» и «Яхта» в этой системе координат, векторы будут выглядеть так:

$\text{Cat} = [1, 0, 0]$

$\text{Dog} = [0, 1, 0]$

$\text{Yacht} = [0, 0, 1]$

Иллюстрация слева демонстрирует их расположение в пространстве.

Дистанция между точками равна $\sqrt{2}$ , а векторы ортогональны.

Что это означает на практике?

Для алгоритма:

Слова «кот» и «собака» имеют столько же общего, сколько «кот» и «яхта».
Математически они равноудалены друг от друга.
Смысловые связи отсутствуют.

Унитарное кодирование не улавливает тот факт, что кот и собака принадлежат к категории животных. Нам необходим инструмент, работающий со значениями, а не просто с индексами. Именно здесь на сцену выходит технология GloVe (Global Vectors for Word Representation).

Суть GloVe

Терминологическая справка: векторное представление слова профессионально называют эмбеддингом. Этот термин мы будем использовать в дальнейшем.

Алгоритм GloVe, разработанный в Стэнфордском университете (Pennington et al., 2014), базируется на элегантной концепции:

Слова, часто встречающиеся в схожем окружении, обладают родственным смысловым наполнением.

Примеры закономерностей:

Понятия «кот» и «собака» фигурируют в текстах рядом значительно чаще, чем «кот» и «яхта».
«Футбол» контекстуально ближе к «спорту», чем к «политике».

Визуализация эмбеддингов GloVe — Упрощенная модель GloVe-эмбеддингов

В упрощенном двухмерном пространстве эмбеддинги кошки, собаки и яхты располагаются иначе.

«Кошка» и «Собака» — семантически близкие объекты, относящиеся к фауне, что отражается в схожести их векторов.

«Яхта» же концептуально далека от домашних животных, поэтому её вектор направлен в совершенно иную сторону.

Для построения такой модели ученые проанализировали гигантские массивы данных (от Википедии до архивов веб-страниц), вычислив для каждого слова такой вектор, который бы максимально точно отражал его контекстуальное положение относительно других слов.

Хотя математическая подготовка модели сложна, результат впечатляет: мы получаем «осмысленные» векторы.

Поразительно, но с ними можно проводить арифметические операции, сохраняющие логику:

король - мужчина + женщина ≈ королева

Семантические отношения — Векторная логика. Зеленый вектор отражает концепт королевского статуса. Экстраполируя его от женщины, мы попадаем в область, максимально близкую к вектору королевы.

Анализ визуализации:

Синий спектр — термины с мужской семантикой.
Красный спектр — термины с женской семантикой.
Зеленая стрелка — векторный перенос, обозначающий «власть».
Пунктир — применение этого переноса к женскому роду.

Вывод:

Вычитая из «короля» векторную составляющую «мужчины» и добавляя «женщину», мы получаем координаты, находящиеся в непосредственной близости от слова «королева».

Система не обладает знаниями об истории или монархии. Она просто выявила закономерности использования слов и зафиксировала эти отношения в числах.

Часть 2: Интеллектуальная кластеризация новостей

Для эксперимента мы взяли 500 новостных заметок по темам спорта, политики и культуры. Цель: распределить их по трем группам, не давая системе никаких предварительных меток.

Методика сравнения текстов

Имея эмбеддинг для каждого слова, как получить представление всей статьи?

Мы применили метод агрегации через усреднение:

Вектор статьи = среднее арифметическое векторов всех входящих в нее слов

Механика процесса:

Если текст насыщен терминами «гол», «чемпионат», «тренер», результирующий вектор будет смещен в сторону «спортивного» сегмента пространства. Наличие слов «законопроект» и «парламент» направит вектор в сторону политической тематики.

Для оценки сходства двух текстов используются два подхода:

Евклидово расстояние: прямолинейная дистанция между точками.
Косинусное сходство (Cosine Similarity): величина угла между векторами.

Почему косинус эффективнее? Представьте два текста об одной игре: краткую заметку и лонгрид. Их векторы будут иметь разную длину, но единое направление. Косинусное сходство учитывает только направление, игнорируя объем текста.

Принцип работы K-Means

Для группировки мы использовали алгоритм K-Means (k-средних), работающий итеративно:

Расстановка центроидов. В пространстве случайно выбираются 3 точки — центры будущих кластеров.
Группировка. Каждая новость относится к тому кластеру, чей центр к ней ближе всего.
Корректировка. Центры кластеров перемещаются в геометрический центр масс всех закрепленных за ними новостей.
Цикличность. Процесс повторяется до тех пор, пока положение центроидов не стабилизируется.

После завершения работы алгоритма мы сопоставили автоматическую кластеризацию, основанную исключительно на математических векторах, с реальными категориями.