Cuadrante mágico de Gartner para Herramientas de integración de datos

El mercado de herramientas de integración de datos está viendo un impulso renovado impulsado por los requisitos urgentes para la gestión de datos híbridos/multinube, la integración de datos aumentada y los diseños de estructuras de datos. Esta evaluación de 20 proveedores ayudará a los líderes de datos y análisis a elegir la mejor opción para sus necesidades de integración de datos.

Asunciones de planificación estratégica

A través de 2025, más del 80% de las organizaciones utilizarán más de un proveedor de servicios en la nube (CSP) para sus casos de uso de datos y análisis, lo que les resulta fundamental priorizar una tecnología de integración independiente y neutral de CSP para evitar bloqueos de proveedores.

Para 2023, la gestión de datos aumentada reducirá la dependencia de los especialistas de TI para tareas de gestión de datos repetitivas y de bajo impacto, lo que liberará hasta un 20% de su tiempo para tareas de colaboración, formación y gestión de datos de mayor valor.

Para 2023, las organizaciones que utilizan tejidos de datos para conectar, optimizar y automatizar dinámicamente los procesos de administración de datos reducirán el tiempo de entrega de datos integrada en un 30%.

A lo largo de 2022, la aplicación de bases de datos de procesamiento de gráficos y gráficos crecerá al 100% para acelerar la integración de datos y permitir una ciencia de datos más adaptable.

Definición/Descripción del mercado

Gartner define la integración de datos como una disciplina que comprende las prácticas, técnicas arquitectónicas y herramientas que permiten a las organizaciones ingerir, transformar, combinar y aprovisionar datos en todo el espectro de tipos de datos. Esta integración se lleva a cabo en la empresa y más allá, tanto entre socios como en fuentes de datos de terceros y casos de uso, para satisfacer los requisitos de consumo de datos de todas las aplicaciones y procesos empresariales. Esto incluye cualquier tecnología que admita los requisitos de integración de datos independientemente de la nomenclatura actual del mercado (por ejemplo, ingesta de datos, transformación de datos, procesamiento de datos, canalización de datos, replicación de datos, sincronización de datos, virtualización de datos, integración de datos de flujo, servicios de datos, estructuras de datos, ingeniería de datos y muchos más).

Algunos ejemplos de escenarios populares de uso de la integración de datos incluyen (pero no se limitan a):

Integración de datos para análisis optimizados: acceder, poner en cola o extraer datos de sistemas operativos, transformar y combinar esos datos de forma lógica o física, y entregarlos a través de un enfoque integrado con fines analíticos.
Compatibilidad con la gestión de datos maestros (MDM): habilita la conectividad y la integración de datos que representan entidades y dominios empresariales críticos, como clientes, productos y empleados. Las herramientas de integración de datos se pueden utilizar para crear los procesos de sincronización y acceso a datos para admitir diversas herramientas e iniciativas de MDM.
Coherencia de datos entre aplicaciones operativas: las herramientas de integración de datos proporcionan la capacidad de garantizar la coherencia a nivel de base de datos entre las aplicaciones, tanto de forma interna como interempresa, y de forma bidireccional o unidireccional.
Intercambio de datos entre empresas: las organizaciones están cada vez más obligadas a proporcionar datos a socios comerciales externos (clientes, proveedores, socios comerciales y otros) y recibir datos de él. Este escenario de uso ha ganado atención durante la pandemia COVID-19, ya que las organizaciones confían en sus herramientas de integración de datos para aprovisionar datos integrados tanto interna como externamente para la supervivencia empresarial.
Orquestación de servicios de datos: la capacidad de implementar todos los aspectos de la funcionalidad de integración de datos en tiempo de ejecución como servicios de datos (por ejemplo, la funcionalidad implementada se puede llamar a través de una interfaz de servicios web o una API, o a través de microservicios).
Compatibilidad con la migración y consolidación de datos: las herramientas de integración de datos abordan cada vez más las necesidades de movimiento y transformación de datos de la migración y consolidación de datos, como la sustitución de aplicaciones heredadas o la migración a nuevos entornos informáticos. Este caso de uso está ganando fuerza a medida que las organizaciones se comparan para mover sus activos de datos a la nube a través de varios CSP o para escenarios de uso híbrido.

Las herramientas de integración de datos son necesarias para ejecutar muchas de las funciones principales de la integración de datos, que se pueden aplicar a cualquiera de los escenarios anteriores. (Para obtener una lista detallada y una explicación de todos los componentes de evaluación y capacidades básicas de las herramientas del mercado de integración de datos, véase la Nota 2).

El mercado de herramientas de integración de datos consiste en proveedores que ofrecen productos de software que permiten la construcción e implementación de infraestructura de acceso a datos y entrega de datos para una variedad de escenarios de casos de uso de integración.

Esta definición no incluye marcos de código abierto, plataformas de desarrollo de propósito general o interfaces de programación. Estos marcos o plataformas de integración de datos, que son de "propósito general", y aquellos que requieren una gran personalización por parte de los desarrolladores para diseñarlos para escenarios de integración de datos específicos se excluyen de este Cuadrante Mágico. Los proveedores evaluados en este Cuadrante Mágico incluyen al menos una herramienta comercial lista para usar que está diseñada específicamente para la integración y transformación de datos.

Cuadrante Mágico

Figura 1. Cuadrante Mágico para Herramientas de Integración de Datos

Fuente: Gartner (agosto de 2020)

Magic Quadrant for Data Integration Tools

Qlik (Attunity)

Qlik es un Challenger en este Cuadrante Mágico; en la última iteración de esta investigación, también fue un Challenger. Con sede en King of Prussia, Pensilvania, EE. UU., Qlik se dirige a una serie de tareas de replicación de datos y gestión de metadatos a través de sus productos Qlik Replicate, Qlik Compose, Qlik Enterprise Manager y Qlik Catalog. Su base de clientes para este conjunto de productos es de más de 3.000 organizaciones en todo el mundo. Las operaciones de Qlik se basan predominantemente en América del Norte y EMEA y sus clientes tienden a ser empresas.

Fortalezas

Probado en escenarios de replicación de datos: Qlik sigue siendo evaluado y seleccionado por los clientes en las situaciones más competitivas para las necesidades específicas de replicación de datos. Los clientes de referencia dieron comentarios positivos sobre las sólidas capacidades de replicación basadas en CDC del proveedor, y Qlik apareció con mucha frecuencia en evaluaciones competitivas para la replicación de datos en toda la encuesta de referencia.
Facilidad de uso: Los clientes de referencia citaron repetidamente la facilidad de uso de Qlik, incluida la facilidad de instalación y configuración, la generación automatizada de código y la implementación no intrusiva, como las principales razones para seleccionar al proveedor en situaciones competitivas.
Expansión de cartera e impulso del mercado: Qlik ha integrado con éxito su adquisición de Attunity con el resto de su cartera, incluyendo Qlik Data Catalyst (ahora Qlik Catalog) y Qlik Sense para soportar una experiencia coherente, desde la ingesta/integración de datos, hasta la catalogación de datos y el análisis por lotes y en tiempo real. A través de su impulso de socios (por ejemplo, un fuerte soporte OEM con proveedores de infraestructura en la nube populares como AWS y Microsoft Azure), Qlik ha registrado importantes ingresos y crecimiento de la cuota mental de mercado año tras año.

Precauciones

Tracción limitada más allá de los escenarios principales: El uso de Qlik para estilos de integración de datos distintos de la replicación de datos basada en CDC aún no ha encontrado tracción. Qlik carece de implementaciones probadas en escenarios de virtualización de datos, lo que podría ser un problema para los clientes que buscan utilizarlos para combinar e interoperar entre estos estilos de entrega de datos (por ejemplo, replicación de datos con virtualización de datos).
Compatibilidad con varias nubes: los clientes de referencia indicaron que la compatibilidad con conectores era desigual en todos los proveedores de infraestructura en la nube, lo que resultaba en escenarios de integración multinube más complejos de lo deseado por los usuarios finales.
Registro de implementación y soporte desigual: Algunos clientes de referencia citan la necesidad de aumentar las solicitudes de soporte para obtener una respuesta y resolución de Qlik. Esto se citó específicamente en torno a las implementaciones y actualizaciones de nuevos productos.

Nota 2 Componentes detallados de las condiciones de evaluación

Gartner ha definido varias clases de capacidad funcional que los proveedores de herramientas de integración de datos proporcionan con el fin de ofrecer un valor óptimo a las organizaciones, en apoyo de una amplia gama de escenarios de integración de datos:

Capacidades de conectividad/adaptador (origen de datos y soporte de destino). La capacidad de interactuar con una gama de diferentes tipos de estructura de datos, incluyendo:
- Bases de datos relacionales
- Bases de datos heredadas y no relacionadas
- Varios formatos de archivo
- Xml
- Aplicaciones empaquetadas como las de CRM y gestión de la cadena de suministro
- SaaS y aplicaciones y fuentes basadas en la nube
- Formatos de mensajes estándar de la industria, como el intercambio electrónico de datos (EDI), Health Level Seven International (HL7) y La Sociedad mundial de telecomunicaciones financieras interbancarias (SWIFT)
- Entornos de procesamiento distribuido paralelos, como Hadoop Distributed File System (HDFS); otros repositorios de tipo norelazal, como gráficos, estilo de tabla, almacén de documentos y DBMS de valor clave
- Colas de mensajes, incluidas las proporcionadas por productos de middleware de integración de aplicaciones y productos basados en estándares (como Java Message Service)
- Tipos de datos de naturaleza menos estructurada, como los asociados con las redes sociales, las secuencias de clics web, el correo electrónico, los sitios web, las herramientas de productividad de la oficina y el contenido
- Fuentes emergentes, como datos sobre repositorios en memoria, plataformas móviles y aplicaciones espaciales
Las herramientas de integración de datos deben admitir diferentes modos de interacción con esta gama de tipos de estructura de datos, incluidos:
- Adquisición y entrega a granel/lote
- Adquisición y entrega granular de alimento para goteo
- Captura de datos modificados (CDC): la capacidad de identificar y extraer datos modificados
- Adquisición basada en eventos (basada en el tiempo, basada en el valor de datos o vínculos a herramientas de integración de aplicaciones para interactuar con la solicitud/respuesta de mensajes, la publicación-suscripción y el enrutamiento)
Capacidades de entrega de datos. La capacidad de proporcionar datos a aplicaciones, procesos y bases de datos consumidores en una variedad de modos, incluyendo:
- Movimiento físico de datos masivos/por lotes entre repositorios de datos, como procesos para ETL o para ELT
- Virtualización de datos
- Encapsulación orientada a mensajes y movimiento de datos (mediante vinculación con capacidad de herramienta de integración de aplicaciones)
- Sincronización de datos cuando los conjuntos de datos distribuidos deben resolver colisiones de datos resultantes de cambios distintos en copias dispares de datos para conservar la coherencia de los datos
- Replicación de datos entre DBMS y esquemas homogéneos o heterogéneos
- Integración de datos de streaming: la integración de datos de streaming proporciona el alto rendimiento y la baja latencia necesarios para controlar secuencias de eventos con hasta cientos de miles de eventos por segundo, en millones en algunos casos. En algunos escenarios, se utiliza para cargar datos de servicios en cola, como Kafka o middleware orientado a mensajes, en DBMS en memoria, DBMS persistentes NoSQL o sistemas de archivos de AWS S3 o HDFS. En otros escenarios (sin conexión), mueve lotes de datos entre un DBMS o un sistema de archivos y otro. Este estilo de entrega de datos también admite servicios de integración de datos, como el filtrado, la transformación y el enriquecimiento a medida que mueven los datos.
- Orquestación de servicios de datos: la capacidad de implementar cualquiera de los otros estilos de integración de datos, pero con la capacidad específica de interoperar con los servicios de aplicación (flujos lógicos, interfaces, interfaces de usuario final, etc.). Además, la capacidad de pasar instrucciones a, y recibir instrucciones de, esos otros servicios en el autobús. El bus de servicios de datos incluye auditoría para ayudar en la administración de bus de servicio, ya sea internamente o pasando por delante los metadatos de auditoría a otro servicio participante en el bus.
Capacidades de transformación de datos. Capacidades integradas para lograr operaciones de transformación de datos de diversa complejidad, entre las que se incluyen:
- Transformaciones básicas, como conversiones de tipo de datos, manipulaciones de cadenas y cálculos simples
- Transformaciones de la complejidad intermedia, como operaciones de búsqueda y sustitución, agregaciones, integraciones, series temporales integradas, coincidencias deterministas y gestión de dimensiones que cambian lentamente
- Transformaciones complejas, como operaciones sofisticadas de análisis en texto de forma libre, medios enriquecidos y patrones/eventos en big data
- Además, las herramientas deben proporcionar las siguientes facilidades para desarrollar transformaciones personalizadas y extender transformaciones empaquetadas
Compatibilidad con metadatos y modelado de datos. Como el núcleo cada vez más importante de las capacidades de integración de datos, los requisitos de administración de metadatos y modelado de datos incluyen:
- Detección y adquisición automatizadas de metadatos de fuentes de datos, aplicaciones y otras herramientas
- Discernimiento de las relaciones entre los modelos de datos y los modelos de procesos de negocio
- Creación y mantenimiento de modelos de datos
- Mapeo y racionalización de modelos físicos a lógicos
- Capacidad para definir relaciones modelo-modelo a través de la asignación gráfica a nivel de atributo
- Informes de linaje y análisis de impacto, en formatos gráficos y tabulares
- Un repositorio de metadatos abiertos, con la capacidad de compartir metadatos bidireccionalmente con otras herramientas
- Sincronización automatizada de metadatos en varias instancias de las herramientas
- Capacidad para ampliar el repositorio de metadatos con atributos y relaciones de metadatos definidos por el cliente
- Documentación de definiciones de entrega de proyectos/programas y principios de diseño en apoyo de las actividades de definición de requisitos
- Una interfaz de analista de negocios/usuario final para ver y trabajar con metadatos
- Detección de metadatos mejorada por aprendizaje automático integrado y capacidad de análisis interno para aumentar los requisitos de integración y administración de datos humanos mediante la recopilación, el uso compartido y el análisis de metadatos pasivos y activos. Esto ayudaría a las organizaciones a activar metadatos pasivos y luego utilizar metadatos activos para informar e incluso automatizar partes del diseño y la entrega de la integración de datos (consulte "Data Fabrics Add Augmented Intelligence to Modernize Your Data Integration")
Capacidades de entorno de diseño y desarrollo. Instalaciones para permitir la especificación y construcción de procesos de integración de datos, incluyendo:
- Representación gráfica de objetos de repositorio, modelos de datos y flujos de datos
- Gestión del flujo de trabajo del proceso de desarrollo, abordando requisitos como aprobaciones y promociones
- Seguridad granular, basada en roles y basada en desarrolladores
- Capacidades de desarrollo basadas en equipos, como control de versiones y colaboración
- Funcionalidad para apoyar la reutilización entre desarrolladores y proyectos, y para facilitar la identificación de redundancias
- Una interfaz de usuario común o compartida para el diseño y el desarrollo (de diversos estilos de entrega de datos, operaciones de integración de datos y calidad de datos, entornos locales y en la nube, etc.)
- Una interfaz de analista de negocio/usuario final para especificar y administrar la lógica de mapeo y transformación mediante el uso de la funcionalidad del usuario final para la integración/preparación de datos
- Soporte para pruebas y depuración
Capacidades de soporte de gobierno de datos (mediante la interoperación con la calidad de los datos, la generación de perfiles y las capacidades de minería de datos con las herramientas del proveedor o de un tercero). Mecanismos para trabajar con capacidades relacionadas para ayudar con la comprensión y la garantía de la calidad de los datos a lo largo del tiempo, incluida la interoperabilidad con:
- Herramientas de generación de perfiles de datos (elaboración de perfiles y supervisión de las condiciones de calidad de los datos)
- Herramientas de minería de datos (descubrimiento de relaciones)
- Herramientas de calidad de datos (que respaldan las mejoras en la calidad de los datos)
- Soluciones de administración de la información
- Puntuación en línea y evaluación de datos que se mueven a través de los procesos
Opciones de implementación y capacidades de plataforma en tiempo de ejecución. Amplitud de soporte para el hardware y los sistemas operativos en los que se pueden implementar procesos de integración de datos, y las opciones del modelo de entrega, específicamente:
- Entornos de mainframe, como IBM z/OS y z/Linux
- Entornos basados en UNIX
- Entornos Windows
- Entornos Linux
- Instalación e implementación local de software
- Implementación de software fuera de las instalaciones hospedada (implementación dedicada de un solo inquilino)
- Opciones de entrega de iPaaS, es decir, servicios de integración de datos consumidos por el cliente completamente "como servicio" (el proveedor proporciona infraestructura en la nube); el cliente no instala ni administra el software
- Soporte de implementación en la nube (requiere que las organizaciones implementen software en una infraestructura en la nube); importante, la capacidad de diseñar una vez, pero implementar en varios o incluso híbridos/mixtos, locales, en la nube o ambos
- Entorno informático en memoria
- Virtualización de servidores (soporte para implementaciones compartidas y virtualizadas)
- Procesamiento distribuido paralelo, como Apache Hadoop, MapReduce o aprovechamiento de Apache Spark o Hadoop YARN (Yet Another Resource Negotiator)
Capacidades de operaciones y administración. Instalaciones para permitir un adecuado soporte continuo, gestión, supervisión y control de los procesos de integración de datos implementados por las herramientas, tales como:
- Funcionalidad de control de errores, tanto predefinida como personalizable
- Supervisión y control de los procesos en tiempo de ejecución, tanto a través de la funcionalidad en las herramientas como a través de la interoperabilidad con otras tecnologías de operaciones de TI
- Colección de estadísticas en tiempo de ejecución para determinar el uso y la eficiencia, así como una interfaz de estilo de aplicación para la visualización y evaluación
- Controles de seguridad, tanto para los procesos de datos en vuelo como para los de administrador
- Una arquitectura de tiempo de ejecución que garantiza rendimiento y escalabilidad
Capacidades de arquitectura e integración. El grado de en comúnidad, coherencia e interoperabilidad entre los distintos componentes del conjunto de herramientas de integración de datos, que incluyen:
- Un número mínimo de productos (idealmente uno) que soportan todos los modos de entrega de datos
- Metadatos comunes (un único repositorio) y/o la capacidad de compartir metadatos en todos los componentes y modos de entrega de datos
- Un entorno de diseño común para admitir todos los modos de entrega de datos
- La capacidad de cambiar sin problemas y de forma transparente entre los modos de entrega (a granel/lote frente a granular en tiempo real frente a la federación) con una revisión mínima
- Interoperabilidad con otras herramientas y aplicaciones de integración, a través de interfaces certificadas, API robustas y enlaces al soporte de mensajería
- Compatibilidad eficaz con todos los modos de entrega de datos, independientemente del tipo de arquitectura de tiempo de ejecución (motor de servidor centralizado frente a tiempo de ejecución distribuido)
- La capacidad de ejecutar la integración de datos en entornos locales y en la nube, según corresponda, donde los artefactos desarrollados se pueden intercambiar, reutilizar e implementar en ambos entornos con una revisión mínima
Capacidades de habilitación de servicio. A medida que la aceptación de los conceptos de servicio de datos sigue creciendo, las herramientas de integración de datos deben exhibir características orientadas a servicios y proporcionar soporte para SOA, como:
- La capacidad de implementar todos los aspectos de la funcionalidad en tiempo de ejecución como servicios de datos (por ejemplo, se puede llamar a la funcionalidad implementada a través de una interfaz de servicios web)
- Gestión de la publicación y pruebas de servicios de datos
- Interacción con repositorios de servicios y registros
- Habilitación de servicio de entornos de desarrollo y administración, de modo que las herramientas y aplicaciones externas puedan modificar y controlar dinámicamente el comportamiento en tiempo de ejecución de las herramientas