Корпорация IBM уже заявляла о том, что Apache Spark для Linux будет поддерживаться zSystems. Такая поддержка будет осуществляться в рамках проекта «аналитика на мейнфреймах». Благодаря этому специалисты по дата-майнингу смогут использовать Apache Spark на мощных мейнфреймах zSystems.
Кроме того, заявлялось, что Apache Spark будет работать не только как сервис на платформе Bluemix, а систему также интегрируют и с другими облачными и аналитическими решениями, включая NoSQL-решение Cloudant и облачную платформу для хранения данных SashDB. Разработчики, используя Bluemix, смогут интегрировать свои проекты с аналитическими решениями и СУБД от IBM.
Сейчас IBM уже выполнила большинство своих обещаний относительно Apache Spark. Во-первых, корпорация облегчила и ускорила доступ организаций к возможностям анализа данных с использованием мейнфреймов zSystems. Это создает новые пути для специалистов по изучению данных и разработчиков.
IBMz/OS Platform for ApacheSpark позволяет open-source фреймворку Spark работать нативно на ОС z/OS. А это в свою очередь обеспечивает возможность изучения получаемых данных в режиме реального времени «в полевых условиях», то есть без необходимости извлекать, преобразовывать и загружать (ETL) исходную информацию. К примеру, представители бизнеса могут анализировать корпоративные данные (продажи, тенденции рынка и т.п.), на лету изменяя и подстраивая свою работу под нужды рынка.
Ученые могут работать с данными в ходе любого эксперимента, получая подробнейшие отчетыо ходе такой работы в режиме реального времени. То есть задержки между получением информации и ее анализом с выдачей обработанных данных практически нет.
Сейчас zSystems работают во многих сферах, включая науку, банковское дело, транспорт, страховой бизнес. Мейнфрейм и его ПО анализируют транзакции и данные моментально, строя одновременно предиктивную модель в рамках текущей операции. Связка Spark и zSystems помогает экономить время, усилия и деньги. Поскольку Spark поддерживает и машинное обучение, и распознавание естественных языков, и технологию обработки изображений, равно как и предлагает большое количество других возможностей, IBM рассматривает Spark также как полноценное окружение для работы с данными. К примеру, при помощи сервиса IBM Datacap, являющегося частью Insight Cloud Services, клиент может провести автоматическую классификацию и распознавание содержимого документа, включая его формат и структуру, текстовую и числовую информацию.
Есть и другие преимущества новой платформы:
- Упрощение процесса разработки: специалисты по обработке данных и разработчики смогут использовать уже имеющийся у них опыт по таким языкам программирования, как Scala, Python, RandSQL для снижения времени разработки и более быстрого получения результатов.
- Упрощенный доступ к данным: быстрый, постоянный доступ к данным в традиционных форматах, включая IMS, VSAM, DB2 z/OS, PDSE или SMF со знакомыми инструментами посредством Apache Spark API.
- In-place анализ данных: Apache Spark использует для обработки данных, что позволяет быстро получать результат. Этот метод снижает стоимость обработки данных, плюс сохраняется достаточно высокий уровень безопасности.
- Opensource: Apache Spark в рамках платформы предоставляется в качестве open-source, что открывает широкие возможности перед сторонними разработчиками.
- Кроме того, IBM продолжает работать с тремя основными партнерами в сфере обработки данных. Это Zementis (прогнозный анализ), Rocket Software (визуализация данных) и Elite Analythics (работа с проектами, запущенными на zSystems).
- Сотрудничество с Zementis позволит специалистам строить модели, используя SPSS, R, Python, SAS и другие коммерческие или open-source инструменты. Затем такие модели могут быть запущены в операционной среде z/OS. Пользователи могут работать с Zementis для создания операционных моделей IMS, DB2 для z/OS и VSAM.
- Сотрудничество c Rocket Software делает доступным Data Virtualization Service компании Rocket Service для Spark на z Systems. Сервис позволяет объединить различные источники данных в единую систему. Плюс ко всему, эта компания объявила о намерении добавить поддержку аналитической платформы R на z/OS.
- Работа с Elite Analythics включает предоставление новых сервисов для разработки и управления различными проектами на zSystems. Сюда входят real-time возможности Zementis или SPSS, плюс проекты, разработанные на ApacheSpark на z/OS.
В целом, z/OSPlatform для Apache Spark позволяет специалистам по обработке данных и разработчикам использовать собственные форматы и инструменты для сбора и анализа информации. При необходимости предоставляемый инструмент можно настроить под себя.
У проекта сейчас довольно развитая экосистема. С платформой так или иначе связана деятельность 3500 исследователей IBM и разработчиков, которые создают собственные проекты на этом фреймворке. Свои наработки специалисты могут выкладывать на GitHub.
IBMz/OS Platform для Apache Spark уже доступен для загрузки.