Nodos de datos
Un nodo de datos es un dispositivo que puede agregar a sus procesadores de eventos y flujo para aumentar la capacidad de almacenamiento y mejorar el rendimiento de búsqueda. Puede agregar un número ilimitado de nodos de datos a su implementación de JSA , y se pueden agregar en cualquier momento. Cada nodo de datos se puede conectar a un solo procesador, pero un procesador puede admitir varios nodos de datos.
Para obtener más información acerca de la planificación de la implementación, consulte la Guía de implementación y arquitectura de Juniper Secure Analytics.
Reequilibrio de datos después de agregar un nodo de datos
Cuando agrega un nodo de datos, JSA reequilibra los datos para mejorar la búsqueda y el rendimiento general del sistema.
El reequilibrio de datos incluye descomprimir datos antiguos y mover datos que estaban en el dispositivo de almacenamiento original para distribuirlos uniformemente entre todos los dispositivos conectados.
Por ejemplo, su implementación tiene un procesador de eventos que recibe 20.000 eventos por segundo (EPS). Cuando agrega nodos de datos, JSA distribuye automáticamente los eventos entre el procesador de eventos y todos los nodos de datos que están disponibles para él. Si agrega tres nodos de datos, el procesador de eventos almacena 5.000 EPS y envía 5.000 EPS a cada uno de los nodos de datos conectados. El procesador de eventos sigue procesando todos los eventos, pero los nodos de datos proporcionan más capacidades de almacenamiento, indexación y búsqueda para mejorar el rendimiento general.
¿Cómo funciona el reequilibrio?
Los miembros del clúster constan de un procesador de eventos y uno o más nodos de datos. Los datos pueden moverse entre cualquier miembro del clúster en cualquier dirección. Los datos se mueven transaccionalmente entre los miembros del clúster por carpetas cada hora. Una hora de datos es el bloque de datos más pequeño que se mueve. Si no se copia ningún archivo de una carpeta horaria, se revierte toda la transacción.
El reequilibrio no combina carpetas cada hora. Por ejemplo, si existe una carpeta horaria en el destino, el reequilibrio no mueve los datos de la misma carpeta horaria de otros miembros del clúster. Antes de que comience el reequilibrio, el clúster determina su objetivo. El objetivo es el porcentaje de espacio libre que el reequilibrio intenta lograr en todos los miembros del clúster. El objetivo no representa el espacio libre absoluto en gigabytes, solo representa el porcentaje.
Los miembros que tienen un mayor porcentaje de espacio libre son objetivos. Una vez que el clúster determina su destino, los miembros que tienen un porcentaje menor de espacio libre que el destino se convierten en orígenes. Cada fuente se conecta y envía datos a cada destino. Es posible que algunos componentes de la implementación de JSA se reinicien y provoquen un error en el proceso de reequilibrio. El reequilibrio se reinicia y continúa desde donde no pudo completarse. Cuando se reinicia el reequilibrio, lo hace con un período de tiempo de espera que aumenta progresivamente (5 minutos, 10 minutos, 30 minutos, etc.) para evitar demasiados intentos fallidos durante la implementación o el mantenimiento completos. Todo el reequilibrio concluye entre los procesos de Ariel en los miembros del grupo.
¿Cómo funciona la dispersión?
La dispersión distribuye los datos entrantes del procesador de eventos entre todos los miembros del clúster. La dispersión funciona con eventos y flujos y no está vinculada al bloque horario más pequeño. Por ejemplo, una hora de eventos se dispersa en todos los clústeres en la misma carpeta horaria.
La dispersión distribuye eventos y flujos proporcionalmente a la cantidad de espacio libre en porcentaje en el miembro del clúster. La dispersión mueve los datos secuencialmente a los hosts del clúster en forma de round robin de acuerdo con el porcentaje de espacio libre.
Si se produce algún error o problema de conectividad, la dispersión intenta mover los datos al siguiente miembro del clúster. Si no tiene éxito, almacena datos localmente en el procesador de eventos para que no se pierdan datos. Los datos se dispersan entre el proceso ecs-ep (fuente) y varios procesos de nodo de datos (destinos) en el nodo de datos.
¿Cómo se mueven los datos existentes entre el procesador de eventos (origen) y el nodo de datos (destino)?
Cuando se agrega un nodo de datos, JSA calcula un espacio de destino. El espacio de destino es la cantidad de espacio libre en el procesador de eventos, más la cantidad de espacio libre en los nodos de datos, dividida por la cantidad total de procesadores de eventos y nodos de datos. Por ejemplo, tiene un procesador de eventos y dos nodos de datos. Si el procesador de eventos tiene un 60% de espacio libre y ambos nodos de datos tienen un 100% de espacio libre, el espacio de destino es del 86,6% (60 + 100 + 100/3). Cuando se define el destino, los datos se mueven en bloques de una hora a la vez hasta que se alcanza el espacio de destino (86,6% en este ejemplo) en cualquier host de clúster.
¿Cómo se mueven los datos nuevos entre el procesador de eventos (origen) y el nodo de datos (destino)?
Cuando se completa el equilibrio inicial, JSA dispersa los datos nuevos entre los procesadores de eventos y los nodos de datos, de acuerdo con la cantidad de espacio libre disponible. Por ejemplo, si un procesador de eventos tiene un 25 % de espacio libre y un nodo de datos tiene un 40 % de espacio libre, el nodo de datos recibe 40 eventos, mientras que el EP recibe 25 eventos hasta que ambos dispositivos tienen aproximadamente la misma cantidad de espacio libre.
¿Cuándo se completa el equilibrio?
El proceso de equilibrio se completa cuando se procesan todos los datos de origen o cuando se alcanzan las restricciones de espacio de destino.
Ver el progreso del reequilibrio de datos
Cuando agrega un nodo de datos, JSA redistribuye automáticamente los datos para equilibrarlos entre los volúmenes de almacenamiento de su implementación.
Las mejoras en el rendimiento de la búsqueda solo se realizan después de que se haya completado el reequilibrio de datos. Puede ver el progreso del reequilibrio de datos y también ver datos como el porcentaje de espacio en disco que se utiliza.
En el menú de navegación (), haga clic en Admin.
En la sección Configuración del sistema , haga clic en Administración de sistemas y licencias.
En la lista Pantalla , seleccione Sistemas.
En la tabla host, seleccione el host administrado sobre el que desea ver más información.
Para ver información sobre el clúster de hosts administrados, seleccione el host de nivel superior.
Para ver información sobre un nodo de datos específico, seleccione el nodo de datos.
En el menú Acciones , haga clic en Ver y administrar sistema.
Haga clic en la ficha Distribución de datos de seguridad para ver el progreso del reequilibrio de datos y la capacidad del dispositivo Nodo de datos .
Nota:También puede ver información sobre el progreso del reequilibrio del nodo de datos en la barra de estado de implementación de la pestaña Admin .
Guardar todos los datos de eventos en un dispositivo de nodo de datos
Para mejorar el rendimiento de un procesador de eventos, configure JSA para guardar todos los datos de eventos en un dispositivo de nodo de datos . Con esta configuración, el procesador de eventos sólo procesa eventos; No almacena datos de eventos localmente.
Un procesador de eventos configurado para procesar sólo eventos sigue guardando los datos de eventos localmente cuando no hay dispositivos de nodo de datos activos disponibles. Cuando un dispositivo de nodo de datos está disponible, JSA transfiere la mayor cantidad de datos posible del procesador de eventos al nodo de datos.
En el menú de navegación (), haga clic en Admin.
En la sección Configuración del sistema , haga clic en Administración de sistemas y licencias.
En la lista Pantalla , seleccione Sistemas.
Seleccione el procesador de eventos en la tabla host y, en el menú Acciones de implementación , haga clic en Editar host.
Haga clic en el icono Configuración de administración de componentes ().
En Procesador de eventos, en el campo Modo de procesador de eventos , seleccione Solo procesamiento.
Haga clic en Guardar y, a continuación, vuelva a hacer clic en Guardar .
En la pestaña Administrador , haga clic en Implementar cambios.
Archivado de contenido de nodo de datos
Configure un dispositivo de nodo de datos para que utilice el modo de archivo cuando desee que el nodo de datos proporcione acceso en línea a datos históricos sin afectar al almacenamiento de los datos entrantes.
En el modo de archivo , el dispositivo no recibe datos nuevos, pero se guardan los datos existentes.
No se aplican políticas de retención de eventos en el dispositivo del nodo de datos en modo de archivo.
En el menú de navegación (), haga clic en Admin.
En la sección Configuración del sistema , haga clic en Administración de sistemas y licencias.
En la lista Pantalla , seleccione Sistemas.
Seleccione el dispositivo Data Node en la tabla host y, en el menú Acciones de implementación , haga clic en Editar host.
Haga clic en el icono Configuración de administración de componentes ().
En el campo Modo de nodo de datos , seleccione Archivo y, a continuación, haga clic en Guardar.
En la pestaña Administrador , haga clic en Implementar cambios.
Para reanudar el almacenamiento de datos en el dispositivo Data Node , vuelva a establecer el modo en Activo.