Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

Conservation des données brutes et agrégées de NorthStar Analytics

Les journaux de données brutes sont conservés dans Elasticsearch pendant un nombre de jours configurable par l’utilisateur. Les données sont également regroupées toutes les heures et conservées pendant un nombre de jours configurable par l’utilisateur. L’objectif de l’agrégation est de prolonger la conservation des données compte tenu de l’espace disque limité. Lorsque vous modifiez ces paramètres de rétention, gardez à l’esprit qu’il y a un impact sur vos ressources de stockage.

Les noms de fichiers de données agrégées toutes les heures stockés utilisent le format suivant : rollups-northstar-yyyy-mm-dd.

Les paramètres décrits dans le Tableau 1 fonctionnent ensemble pour contrôler les comportements de rétention et d’agrégation des données. Vous pouvez modifier ces paramètres à l’aide de l’interface de ligne de commande NorthStar, comme décrit dans la section Configuration des paramètres NorthStar à l’aide de l’interface de ligne de commande NorthStar. Utilisez la set northstar system scheduler tasks hiérarchie des commandes pour accéder à tous ces paramètres.

Tableau 1 : Paramètres de conservation et d’agrégation des données

Paramètre

Description

Intervalle (collecte-nettoyage)

Pour le modifier, utilisez la set northstar system scheduler tasks collection-cleanup interval commande.

Contrôle la fréquence d’exécution de la tâche système de collecte-nettoyage, en nombre de jours exprimé sous la forme « d » ou « jours ». Exemples : 1 jours, 4 jours. Cette tâche exécute le script collector-utils.py pour nettoyer les anciens journaux. La valeur par défaut est d’un jour (1j). Pour désactiver le nettoyage de la collection, définissez la valeur sur 0d.

Le script collector-utils.py s’exécute vers 1 h 00 du matin, heure du serveur NorthStar.

Le script collector-utils.py utilise les API Elasticsearch pour nettoyer les « anciennes » données comme suit :

  • Les journaux de données brutes antérieurs à la valeur du paramètre raw-data-retention-duration sont purgés.

  • Les journaux de données agrégées toutes les heures dont l’ancienneté est supérieure à la valeur du paramètre rollup-data-retention-duration sont purgés.

La tâche de nettoyage de collection est appelée à partir du serveur NorthStar. Vous pouvez afficher (mais pas modifier) la tâche de nettoyage en accédant à Administration > Task Scheduler.

durée de rétention des données brutes

Pour le modifier, utilisez la set northstar system scheduler tasks collection-cleanup raw-data-retention-duration commande.

Définit ce qui est considéré comme un « ancien » journal de données brutes en nombre de jours. Les unités peuvent être saisies sous la forme « d » ou « jours ». La valeur par défaut est de 14 jours (14j ou 14jours), ce qui signifie que les journaux de données brutes sont conservés dans Elasticsearch pendant 14 jours. Pour désactiver la conservation des journaux de données brutes, définissez la valeur sur 0d.

durée de rétention des données de cumul

Pour le modifier, utilisez la set northstar system scheduler tasks collection-cleanup rollup-data-retention-duration commande.

Définit ce qui est considéré comme des données agrégées « anciennes » en nombre de jours. Les unités peuvent être saisies sous la forme « d » ou « jours ». La valeur par défaut est de 180 jours (180j ou 180jours), ce qui signifie que les données agrégées toutes les heures sont conservées dans Elasticsearch pendant 180 jours. Pour désactiver la conservation des données agrégées, définissez la valeur sur 0d.

Intervalle (cumul)

Pour le modifier, utilisez la set northstar system scheduler tasks rollup interval commande.

Note:

Nous vous recommandons de ne pas modifier cette valeur par défaut, sauf pour désactiver l’agrégation. Si vous souhaitez désactiver l’agrégation des données, définissez la valeur sur 0h.

Définit la fréquence d’exécution de la tâche système ESRollup en nombre d’heures. Les unités peuvent être saisies sous la forme « h » ou « heures ». La tâche système ESRollup exécute le script esrollup.py pour agréger les données de l’intervalle précédent. La valeur par défaut est 1 heure (1h ou 1 heure).

Le script esrollup.py utilise les API Elasticsearch pour effectuer l’agrégation des données.

La tâche ESRollup est appelée à partir du serveur NorthStar. Vous pouvez afficher (mais pas modifier) la tâche de cumul en accédant à Administration > Task Scheduler.

L’API REST NorthStar prend en charge l’agrégation de données de télémétrie avec les paramètres supplémentaires décrits dans le Tableau 2. Pour plus d’informations, consultez la documentation de l’API REST NorthStar.

Tableau 2 : Paramètres d’agrégation supplémentaires utilisés pour les requêtes d’API

Paramètre

Description

requête_rollup-désactiver

Si cette option est définie, la fonctionnalité de requête cumulative à partir des données agrégées toutes les heures est désactivée.

intervalle-coupure de requête de cumul

S’il est défini et que l’intervalle de temps demandé est supérieur à rollup-query-cutoff-interval à partir de maintenant, la requête utilise l’index de cumul pour rechercher des données.

Pour vous donner un exemple de la façon dont les paramètres d’agrégation fonctionnent ensemble, supposons que vous définissiez ce qui suit :

Dans cet exemple, les journaux de données brutes datant de plus de 30 jours et les journaux de données agrégés horaires datant de plus de 800 jours sont configurés pour être purgés tous les sept jours.

Les données incluses dans les tâches de cumul (types d’agrégation, champs et compteurs) sont définies dans le fichier esrollup_config.json en lecture seule situé dans le répertoire / opt/northstar/utils .

Pour afficher les tâches système qui lancent les scripts esrollup.py et collector-utils.py, accédez à Administration > Task Scheduler dans l’interface utilisateur Web de NorthStar. Dans la liste Tâche, la colonne Nom indique CollectionCleanup ou ESRollup Task. Dans la colonne Type, ils sont désignés comme ExecuteScript. Un exemple est illustré à la figure 1.

Figure 1 : liste des tâches affichant les tâches Task List Showing System Tasks système

Il existe une colonne facultative dans la liste des tâches qui indique si chaque tâche est une tâche système. Passez la souris sur un en-tête de colonne, cliquez sur la flèche vers le bas qui s’affiche, puis mettez-la en surbrillance pour afficher la Columns liste des colonnes disponibles. Cochez la case Tâche système pour sélectionner la colonne Tâche système (vrai/faux) à inclure dans l’affichage.

Lorsque vous sélectionnez une tâche système, les onglets Résumé, État et Historique sont disponibles en bas de la fenêtre.