MS SSIS
Преимущества
  1. Встроенные возможности по запуску SQL скриптов и исполняемого кода позволяет решать сложные бизнес-сценарии.
  2. Входит в Standard Edition MS SQL Server.
  3. Надежный инструмент разработки с интуитивно понятным интерфейсом.
  4. Дает широкие возможности по переиспользованию SQL-скриптов и ранее созданных пакетов.
  5. Позволяет автоматизировать подготовку однотипных пакетов загрузки с использованием специального языка BIML, что значительно ускоряет разработку.

Недостатки
  1. Потребуются дополнительные лицензии, если возникнет необходимость разворачивать SSIS на отдельном сервере.
  2. SSIS работает только в среде Microsoft Windows (версия MS SQL Server для Linux не готова к промышленному использованию).
  3. SSIS может быть развернут только на базе СУБД Microsoft SQL Server.
  4. SQL server и SSIS отлично функционируют, если имеют достаточное количество ресурсов. Если вы используете виртуальные серверы и можете легко добавлять CPU / RAM / Диски, то во что бы то ни стало, соберите их вместе и управляйте ресурсами, чтобы они не мешали друг другу. Если у вас нет возможности сделать это, лучше использовать SSIS на отдельном сервере.
  5. Не всегда просто решается проблема с коннекторами к БД третьих фирм.




Pentaho
Преимущества
  1. Простота использования и легкость обучения. Один и самых user-friendly интерфейсов на рынке ETL/
  2. Широкие возможности по преобразованию данных, применимы для сложных аналитических сценариев.
  3. Обладает очень эффективным механизмом логирования, позволяющему получить ответ практически в любой ситуации, связанной с ошибками работы.
  4. Open source/
Недостатки
  1. Слабое распространение и как следствие небольшое количество специалистов на рынке труда.
  2. Низкая скорость чтения файлов формата JSON.
  3. Не такой богатый набор подключений к источникам в сравнении с аналогам


Сценарии, пригодные для использования:
Когда необходимо иметь дело с любым типом СУБД, от ввода данных до загрузки данных, Pentaho работает очень быстро.
Он также имеет много Bulk load шагов. В целом Pentaho специализируется на работе с табличными данными.
Менее подходящие сценарии:
Когда у вас есть схемы типа «звезда» с таблицами мостов или схемами с снежинками, вам, очевидно, потребуется много дополнительной работы в Pentaho.
Кроме того, работа с файлами не самая сильная сторона данного продукта.


Oracle Data Integration
Преимущества
  1. Осуществляет конвертацию данных из различных источников в целевой формат с использованием разнообразных правил бизнес-логики. Интегрируется с различными СУБД, также с Hadoop, облачными сервисами, плоскими файлами, веб-сервисами и т.д.
  2. В сочетании с Goldengate может быть использован для решения задачи консолидации данных в живом окружении как средство разработки решения по конвертации данных в целевой формат.
  3. ODI может работать на любой операционной системе.
  4. Высокая скорость интеграции вновь появляющихся типов данных
  5. Гибкость, простота кастомизации, множество доступных расширений. Нет необходимости разворачивать дополнительный сервер для решения задач по преобразованию данных, т.к. использует ресурсы целевого и исходного серверов для решения задач ETL.
  6. Наличие Big data коннекторов «из коробки» в версии 11.1.1.7
Недостатки
  1. Все еще сложный в освоении продукт, требующий большого объема тестирования перед установкой решения в «продуктив».
  2. Первичная настройка ресурсоемкий процесс с точки зрения машинных и человеко-часов, не всегда подходит для небольших проектов.
  3. Окружение для многопользовательской разработки оставляет желать лучшего.
  4. ODI studio крайне требовательно к объему оперативной памяти.
  5. Отсутствует возможность организовать «Continuous integration», что негативно сказывается на жизненном цикле процесса разработки.
  6. Управление безопасностью реализовано крайне слабо и требует улучшения.


Apache NiFi
Преимущества
  1. Чистая и продуманная реализация концепции программирования потока данных
  2. Он не зависит от источника данных и поддерживает источники разных форматов, схем, протоколов, скоростей и размеров.
  3. Логирование абсолютно всех производимых с данными операций.
Недостатки
  1. Очень минималистичный интерфейс.
  2. Нет функции мониторинга / отладки в режиме реального времени со статистикой по каждой записи.
  3. Малое число CDC процессоров с открытым исходным кодом для некоторых баз данных.


Применение Apache NiFi оправдано для целей построение хранилища данных сопряженного с потоковой обработкой входящих данных.