С проблемой «зоопарка решений» сегодня сталкивается почти каждая крупная компания: CRM, 1C, сервисы ведения проектов, кадровые и HR‑сервисы, аналитика, инструменты техподдержки — все это наборы данных, которыми пользуются разные подразделения, часто не подозревая, какие данные актуальны, а какие устарели.
Для решения этой проблемы на рынке появились не только прикладные решения, но и их теоретические обоснования: концепция единого источника истины и концепция единой версии.
Проблемы децентрализованных данных
Множество источников и разрозненных данных приводили сразу к нескольким существенным проблемам: несогласованности, небезопасности и снижению доверия. В результате накопленные данные становились источником угроз и были непригодны для принятия решений.
При этом безопасность систем, как показала практика, стала более важным поводом к изменениям. По данным IBM, средняя мировая стоимость утечки данных в 2023 году составила 4,45 миллиона долларов США, что на 15% больше, чем за 3 года.
Одной из самых громких утечек 2017 года, которая повлекла серьезный репутационный ущерб, стала утечка персональных данных американского бюро кредитной истории Equifax. В ходе взлома злоумышленники получили доступ к данным 145,5 млн человек, жителей США, Канады и Великобритании. Были украдены полные имена, номера социального страхования, даты рождения, адреса и, в некоторых случаях, номера водительских прав. Также была украдена информация о 209 тысячах кредитных карт. По результатам судебного решения Equifax выплатит 575 миллионов долларов для урегулирования ситуации.
Концепция единого источника истины (SSOT)
Оформить решение проблем с данными в теоретическую концепцию, а затем предложить свое решение 一 было гениальным стратегическим ходом. И все указывает на то, что этот ход сделала компания IBM. Сразу в нескольких авторитетных изданиях в середине 2000-х появляется концепция единого источника истины (Single source of truth 一 SSOT), которая предполагает создание центрального хранилища данных. Суть такого решения в создании единственного источника информации для всех пользователей, который легко обновлять и дополнять.
Разрабатывая эту концепцию, в 2008 году выходит продукт IBM InfoSphere Information Server, представляющий собой инструмент для интеграции и управления данными. Развитие этого направления в последние 10 лет позволило IBM заключить крупные контракты на комплексные программы модернизации ИТ‑инфраструктуры, например, с Coca‑Cola European Partners 一 бутилирующей компанией Coca‑Cola. Соглашение между компаниями 2020 года предусматривает снижение операционных расходов и улучшение аналитических возможностей Coca‑Cola на базе продуктов IBM.
Еще одним примером приверженности этой концепции является монолитный репозиторий программного обеспечения Google, который используют 95% разработчиков программного обеспечения по всему миру. Несмотря на то,что репозиторий соответствует определению сверхкрупномасштабной системы, ее существование доказывает возможность успешного масштабирования модели репозитория с одним исходным кодом.
Кодовая база Google включает около одного миллиарда файлов и имеет историю примерно 35 миллионов коммитов, охватывающих все 18 лет существования Google. Репозиторий содержит 86 Тб данных, включая около двух миллиардов строк кода в девяти миллионах уникальных исходных файлов. Общее количество файлов также включает исходные файлы, скопированные в ветки выпуска, файлы, удаленные в последней версии, файлы конфигурации, документацию и файлы вспомогательных данных.
Альтернативная концепция
Со временем на рынке появились другие решения, которые позволяли решить проблему с несогласованностью данных из разных источников. Теоретическая база тоже обновилась. На место концепции единого источника истины (SSOT) пришла концепция единой версии истины (Single Version of the Truth 一 SVOT). Ее отличие в том, что вместо создания централизованного хранилища данных достаточно наладить интеграцию и синхронизацию всех систем, чтобы данные были бы согласованы между собой.
Концепция реализуется через федеративную архитектуру, где данные остаются в системах их происхождения, но управляются централизованным образом. Для обеспечения согласованности используются API и микросервисы, а для передачи данных в реальном времени — технологии обмена сообщениями Message Brokers и Data Streams, например, Kafka или RabbitMQ.
Один из ярких примеров следованию данному подходу 一 кейс Johnson & Johnson. Компания столкнулась с дублированием данных и сложностями в обеспечении их актуальности. Для реализации была выбрана федеративная модель данных, при которой данные хранятся в распределенных и автономных источниках, но могут быть объединены и представлены как одно целое. Благодаря улучшению процессов и снижению операционных расходов Johnson & Johnson удалось сэкономить почти полмиллиарда долларов за три года.
Сегодня концепции управления данными продолжают развиваться, в том числе благодаря технологиям машинного обучения и искусственного интеллекта. Возможности аналитики и получения инсайтов для оптимизации деятельности, выхода на новые рынки стали для компаний еще одним поводом инвестировать в управление качеством данных.