Обзор существующих решений

Сегодня значительный интерес со стороны бизнеса проявляется к системам анализа данных. Все крупные корпорации стараются выпускать комплексные решения для бизнеса "все в одном". Цель таких решений довольно понятная - уйти от комплексного решения гораздо труднее, чем от специализированного.

Все решения по анализу данных объединяются под единым названием «системы бизнес-аналитики» (Business Intelligence, BI).

Рассмотрим несколько крупных игроков на мировом рынке, которые представляют системы анализа данных. Лидерами рынка являются Microsoft, Oracle, SAP, IBM. По оценкам компании Gartner рынок BI систем в 2009 году распределился следующим образом:

Компания Объем продаж в 2009 г., млн. долл. Доля рынка в 2009 г.,% Объем продаж 2008 г., млн. долл. Доля рынка в 2008 г.,% Изменение объема продаж в 2009 г.,%
SAP 2 084,1 22,4 2096,1 23,4 -0,6
Oracle 1351,1 14,5 1 284,0 14,4 5,2
SAS 1 324,6 14,2 1 286,6 14,4 3,0
IBM 1 135,6 12,2 996,5 11,1 14,0
Microsoft 739,1 7,9 681,5 7,6 8,5
MicroStrategy 295,0 3,2 280,0 3,1 5,4
Другие 2 392,4 25,7 2 322,3 26,0 3,0
Всего 9 321,9 100,0 8 946,9 100,0 4,2

В России ситуация выглядит немного по другому. Так, по данным аналитического центра TAdvise (Исследование рынка BI решений) самым распространенным решением в 2010 году стал продукт Deductor.

Название продукта Вендор Проектов
1 Deductor BaseGroup Labs 112
2 QlikView QlikTech 44
3 MicroStrategy BI MicroStrategy 39
4 IBM Cognos IBM 37
5 Прогноз Аналитический комплекс Прогноз 30
6 IBM Cognos Planning IBM 16
7 IBM Cognos Business Intelligence IBM 13
8 Contour BI Contour Components 11
9 DiAna: Digital Analytics Pro FIT - France Informatique & Technologie 11
10 Oracle Business Intelligence Oracle 11

Выберем для рассмотрения системы Microsoft, Oracle, SAP, IBM, Deductor и один из открытых продуктов Pentaho (Mondrian).

Требования MS Oracle IBM SAP Deductor Pentaho CE
Поддерживаемые БД MS SQL server и другие*. Oracle IBM DB2 MS SQL, Oracle, HANA, IBM DB2, Sysbase MS SQL, Oracle, Firebird Все**
Хранилища SSAS + + + WareHouse +
OLAP + + + Studio +
ИАД + + + +
Отчеты SSRS + + + Viewer +
Интеграция отчетов с Office + + + + - -
Интеграция со статистическими языками - R SPSS  - - -

* Другие – это БД, поддерживающие сбор информации при помощи Integration Services.

** Все БД, поддерживающие стандарт JDBC.

Дополнительным преимуществом лидеров IBM и Oracle является поддержка в своих продуктах статистических языков SPSS и R соответственно. Поддержка возникла из-за того, что даже продвинутый ИАД не сможет в полной мере заменить работу аналитика.

Схемы развертывания систем на примере MS SQL, Pentaho CE (Mondrian)

При развертывании таких приложений нужно понимать, где начинаются и заканчиваются зоны ответственности каждого компонента. Это важно для оценивания стоимости развертывания систем, а также для установки необходимых компонентов. Для примера выберем продукты MS SQL и Pentaco CE.

Рассмотрим схему для MS SQL server. Этот платный сервер рассмотрен по некоторым причинам:

  1. Наличие лицензии на продукт Developer Edition (DE) составляет $32.
  2. Может взаимодействовать с Excel.
  3. Большое количество литературы по развертыванию систем.

На схеме видно, какие службы надо установить для того, чтобы развернуть систему. 

 MS SQL server

Схема данных показывает движение потоков информации от операторов (USER) до аналитиков по этапам. На каждом этапе требуется соблюдение определенных требований.

Операторы (USER) – пользователи, которые вносят данные в различные системы: бухгалтерские программы, локальные аналитические хранилища и т.д.

Задачи по сбору информации из различных источников возлагают на Integration Services (IS), который относится к классу ETL (export transfer load). Далее обработку по созданию хранилища и проведения анализа берет на себя SSAS служба. После обработки данные поступают в службу подготовки отчетов или другие приложения по своим протоколам. В качестве обратной связи от приложений поступают MDX запросы, которые перестраивают OLAP и возвращают данные приложениям.

Архитектура может подразумевать от 2-х уровневой до 4-х уровневой технологий клиент-сервер. К примеру, объединение уровней СУБД, SQL BI и WEB сервера на одной локальной машине дает 2-х уровневую архитектуру. Такой же принцип и для 3-х и 4-х уровневых архитектур.

С примером внедрения системы с использованием MS SQL server 2005 на небольшом предприятии можно ознакомиться по ссылке (olap для маленькой компании дата посещения 27.05.2013).

Pentaho CE и Palo представляют собой бесплатные аналоги BI систем, которые очень схожи по схемам развертывания. Отличает Palo отсутствие поддержки ИАД.

Pentaho and Palo server shema

Схемы выполнены по клиент-серверной архитектуре. Системы Pentaho CE и Palo поддерживают обмен данных с приложениями по разным протоколам, в том числе и по http. Развертывание систем обеспечивает мониторинг деятельности предприятия через всемирную сеть. Рассмотрение остальных систем возможно в дальнейшем.