Surveiller les interruptions de service pour la maison connectée

1. Avant de commencer

Comme nous l'avons expliqué dans l'atelier de programmation Déboguer la maison connectée, nous publions des métriques et des journaux dans vos projets pour la maison connectée. Les métriques vous permettent de déterminer les problèmes rencontrés par votre action pour la maison connectée. Quant aux journaux, ils sont utiles pour analyser la situation en détail afin de résoudre ces problèmes.

dd44868a4ff2df6e.png

Vous pouvez configurer des alertes à l'aide des métriques fournies à votre projet pour surveiller les pannes de manière automatisée et recevoir des notifications en cas d'interruption de service. Nous publions une métrique de confiance pour mettre en évidence les perturbations de votre projet. Nous l'aborderons dans cet atelier de programmation, ainsi que tous les autres outils d'alerte disponibles sur Google Cloud.

Prérequis

Points abordés

  • Découvrez comment surveiller les problèmes de performances et les interruptions de service dans votre projet.
  • Découvrez comment créer une alerte basée sur un seuil et recevoir des notifications en cas de problème.
  • Comment utiliser la métrique de confiance fournie à votre projet pour détecter les pannes.

2. Contrôle des performances

Il est essentiel de surveiller les performances pour réussir l'intégration à l'écosystème Google Home. Nous fournissons un ensemble d'outils de surveillance aux développeurs de maisons connectées sur Google Cloud. Vous pouvez utiliser ces outils pour vous faire une idée des performances de votre projet.

Accéder aux tableaux de bord

Pour accéder à vos données, commencez par consulter les tableaux de bord Google Home. Pour ce faire, connectez-vous à la console Google Cloud, puis accédez à Opérations > Surveillance > Tableaux de bord. Vous verrez qu'un certain nombre de tableaux de bord sont disponibles. Ceux pour la maison connectée sont précédés du préfixe "Google Home Analytics".

317697e52ced2437.png

Nous avons créé des tableaux de bord individuels pour représenter chaque type d'intégration. Les intégrations Cloud, locales et Matter disposent de leur propre tableau de bord. Les données relatives aux protocoles de streaming de caméras sont fournies dans le tableau de bord "Qualité des caméras". Ces tableaux de bord ne contiendront des données que si vous disposez d'une intégration du type correspondant, ainsi que d'un projet fonctionnel répondant aux demandes.

Lorsque vous ouvrez l'un de ces tableaux de bord, la vue qui s'affiche ressemble à ceci :

f8bfd69286c569a4.png

Les tableaux de bord contiennent différents graphiques qui affichent les détails des requêtes traitées par votre projet. Chaque tableau de bord d'intégration contient un graphique indiquant le nombre total de requêtes traitées par votre projet, un graphique indiquant le taux de réussite pour ce type d'intégration, ainsi que plusieurs graphiques indiquant les types d'appareils et les caractéristiques concernés.

Trois graphiques sont essentiels pour évaluer les performances de vos actions pour la maison connectée :

f511fafd3aaaa1eb.png

En cas d'indisponibilité, vous constaterez généralement une tendance à la baisse du pourcentage de réussite et une tendance à la hausse dans le graphique de répartition des erreurs. La surveillance du pourcentage de réussite des exécutions permet de détecter l'indisponibilité, tandis que l'examen des principales erreurs dans la répartition des erreurs peut aider au débogage. Vous pouvez également observer une tendance à la hausse de la latence lors des pannes, que vous pouvez voir dans les graphiques de latence des requêtes.

Notez que la vue par défaut avec les graphiques que vous voyez dans les tableaux de bord Google Home Analytics n'est qu'une vue que nous avons créée pour votre projet à l'aide des données des métriques pour la maison connectée. Vous pouvez également utiliser l'explorateur de métriques pour créer vos propres graphiques à partir des mêmes métriques sous-jacentes et les enregistrer dans vos tableaux de bord personnalisés.

Explorateur de métriques

L'explorateur de métriques est un outil permettant de visualiser des sections transversales de l'ensemble de données de votre projet. L'outil est accessible dans la console Google Cloud en accédant à Opérations > Monitoring > Explorateur de métriques.

Google Cloud fournit de nombreuses métriques prêtes à l'emploi, dont certaines ne sont pas liées à la maison connectée. Les métriques que nous fournissons pour la maison connectée sont listées sous la ressource "actions.googleapis.com/smarthome_action/...". Vous pouvez les rechercher facilement en saisissant "smarthome" dans la zone de sélection des métriques.

538d851edfd34764.png

Si vous recherchez "smarthome", vous trouverez toutes les métriques pour la maison connectée que nous fournissons à votre projet. Vous trouverez des informations détaillées sur chacune de nos métriques sur les pages Monitoring et Logging de notre documentation.

En ce qui concerne la surveillance de votre projet, la métrique la plus simple à consulter est la métrique Nombre de requêtes (qui est une métrique delta). Cette métrique enregistre une entrée pour chaque exécution de maison connectée initiée par vos utilisateurs. Elle enregistre des champs tels que le type d'appareil, le trait, le type d'exécution impliqué dans l'exécution et le champ d'état qui indique le résultat.

Si vous sélectionnez cette métrique, un écran s'affiche pour chaque bucket de données, comme suit :

b1c18141d15a0e09.png

En substance, pour chaque combinaison de libellés de données présents dans cette métrique, il existe un bucket qui enregistre la variation (delta) entre les intervalles de temps précédents et actuels. Vous pouvez regrouper ou filtrer ces buckets pour obtenir la tranche de données souhaitée. De plus, les données sont alignées sur des intervalles de temps sélectionnés à l'aide d'une fonction d'alignement (DELTA, MOYENNE, MÉDIANE, SOMME). Sauf indication contraire, vous utiliserez généralement l'alignement delta avec une métrique delta.

Vous pouvez créer la plupart des graphiques disponibles dans les tableaux de bord Google Home Analytics à l'aide de l'explorateur de métriques, puis les enregistrer dans un tableau de bord personnalisé pour y accéder ultérieurement. Pour obtenir des vues plus complexes, comme un graphique de ratio, vous devrez utiliser le langage MQL (Monitoring Query Language).

3. Métriques d'efficacité

Pour suivre le succès de votre intégration, vous pouvez utiliser le taux de réussite que nous calculons à partir de la métrique "Nombre de requêtes" comme indicateur de référence, ou la confiance de réussite pour une approche plus spécialisée.

Taux de réussite

Le taux de réussite est calculé pour toutes vos intégrations en divisant le nombre de requêtes ayant abouti par le nombre total de requêtes. Vous pouvez y accéder depuis le graphique "Taux de réussite des commandes" de votre tableau de bord Google Home Analytics.

55ea8930fbf48d9e.png

Le graphique "Taux de réussite des demandes" est très utile pour surveiller les performances de votre projet, mais beaucoup moins pour créer des tableaux de bord personnalisés ou configurer des alertes. Étant donné que le taux de réussite est dérivé de la métrique "Nombre de requêtes" et n'est pas une métrique en soi, vous devrez le recréer à l'aide de MQL (Monitoring Query Language) dans l'explorateur de métriques pour l'utiliser avec l'une ou l'autre de ces fonctionnalités.

Nous pensons également qu'une approche beaucoup plus spécialisée est nécessaire pour suivre les perturbations des performances de votre projet. C'est pourquoi nous avons créé la métrique de confiance, qui change en fonction de l'écart entre votre taux de réussite des commandes actuel et les normes historiques.

Métrique de confiance

Les pannes peuvent se présenter sous différentes formes et tailles pour les projets. Elles peuvent durer de quelques minutes à plusieurs heures, ce qui peut rendre leur identification difficile. Pour ce faire, nous avons créé une métrique de confiance dans votre projet. Elle fournit une valeur normalisée permettant de prédire la fiabilité en fonction des performances passées. Pour accéder à la métrique de confiance, recherchez "smarthome" dans l'explorateur de métriques, puis sélectionnez Confiance dans la réussite de l'exécution.

ab467a1777281526.png

Lorsque votre intégration de maison connectée atteint ou dépasse les performances historiques (moyenne sur sept jours), cette métrique affiche la valeur maximale (1.0). Lorsque votre pourcentage de réussite s'écarte de plus de quatre écarts types (également calculés sur sept jours), cette métrique affiche la valeur minimale (0,0). Dans les cas où les écarts types sont trop faibles (moins de 2,5 %), cette métrique base la valeur 0,0 sur une baisse de 10 % du pourcentage de réussite.

Pour tous les cas intermédiaires, cette métrique fournit des valeurs comprises entre 1,0 (confiance parfaite qu'il n'y a pas de panne) et 0,0 (confiance maximale qu'il y a une panne).

Par conséquent, lorsque vous définissez une alerte (voir la section suivante), nous vous recommandons de baser le seuil sur une valeur de 0,5. Cela correspondra à deux écarts types ou à une baisse de 5 %, selon la valeur la plus élevée.

4. Configurer des alertes

L'étape suivante consiste à utiliser tout ce que vous avez appris dans la section précédente pour configurer des alertes dans votre projet.

Créer une règle d'alerte

Les alertes automatiques sur Google Cloud sont définies à l'aide de règles d'alerte. Vous pouvez accéder aux règles d'alerte depuis le menu latéral, onglet Opérations > Monitoring > Alertes. Pour créer une règle d'alerte, sélectionnez l'option + CRÉER UNE RÈGLE. Vous serez alors redirigé vers l'écran de création de règles d'alerte :

6e417d88c2274b3d.png

La création d'une règle d'alerte se fait en trois étapes. Vous devez d'abord déterminer ce que vous souhaitez suivre en ajoutant une condition. En cliquant sur le bouton AJOUTER UNE CONDITION, une fenêtre semblable à l'explorateur de métriques s'affiche, avec des commandes supplémentaires permettant de configurer la condition :

df1ccf7da741e1c7.png

Pour la cible, sélectionnez la métrique de confiance que nous avons abordée dans la section précédente. Assurez-vous que l'aligneur est défini sur "delta" à l'aide de cette métrique (Afficher les options avancées > Aligner). L'étape suivante consiste à configurer la condition d'alerte en utilisant les paramètres suivants :

4192e0f4ea00dd28.png

La condition se déclenche si : il s'agit de la configuration principale permettant de déterminer quand déclencher les alertes. Sélectionnez À chaque infraction de série temporelle, car nous allons définir un seuil pour notre métrique et surveiller si la valeur est dépassée.

Condition : nous voulons que l'alerte se déclenche lorsque la valeur est inférieure au seuil. Nous allons donc définir cette option sur est inférieur à. Dans notre métrique, 1,0 signifie que l'intégration fonctionne correctement et 0,0 indique une panne définitive.

Seuil : nous avons créé la métrique de confiance pour fournir les meilleurs résultats lorsque cette valeur est définie sur 0,5. Si vous souhaitez recevoir des alertes plus fréquentes et être averti pour des incidents moins graves, vous pouvez essayer d'augmenter cette valeur (1.0 max.). Si vous souhaitez ensuite recevoir moins d'alertes, uniquement pour les problèmes les plus graves, vous pouvez essayer de diminuer cette valeur (min.0,0).

For (Pendant) : ce paramètre permet d'identifier la durée de l'indisponibilité avant que vous ne receviez une alerte. Nous vous recommandons de conserver ce paramètre sur la valeur la plus récente pour recevoir une alerte chaque fois qu'un point dépasse le seuil. Notre métrique de confiance est publiée toutes les 15 minutes et examine le taux de réussite moyen au cours de cette période.

Une fois que vous avez ajouté une condition, l'étape suivante consiste à sélectionner le canal de notification. La méthode de notification la plus simple est celle des alertes par e-mail. Vous pouvez sélectionner une adresse e-mail dans le menu déroulant Canaux de notification :

3cc10629830e7f13.png

Si vous cochez l'option Notifier lors de la fermeture de l'incident, une autre notification sera envoyée une fois l'incident marqué comme clos. Dans ce cas, vous devez également sélectionner une durée de fermeture automatique des incidents, qui est définie sur sept jours par défaut.

La dernière étape consiste à donner un nom à votre alerte et à ajouter toute documentation que vous souhaitez inclure dans les notifications.

686fb1c537fee10.png

Nous vous recommandons de fournir des documents, surtout si vous n'êtes pas la personne qui recevra l'alerte. Ajouter des étapes comme l'endroit où vérifier en cas d'incident, et comment trier et déboguer peut aider en cas de panne. Vous pouvez consulter notre guide de dépannage si nécessaire.

Une fois enregistrée, votre règle d'alerte s'affiche dans la section "Règles" de la page "Alertes".

c71a001e4df035ee.png

5. Atténuer les interruptions

Une fois les alertes configurées, vous recevrez des notifications en cas d'indisponibilité sur les canaux de notification que vous avez fournis. Une entrée d'incident sera également créée sur la page "Alertes".

Recevoir des alertes

Le canal d'alerte que nous avons fourni dans cet atelier de programmation était une adresse e-mail. Une fois que vous avez défini les paramètres, vous ne devriez pas recevoir d'alertes (c'est-à-dire qu'il ne devrait pas y avoir de pannes). Toutefois, si vous en recevez, la notification ressemblera à ceci :

43217b0a145c2cd.png

Notez que la notification d'alerte indique la valeur observée qui dépasse le seuil que vous avez spécifié, ainsi qu'un code temporel indiquant le début de l'incident.

Incidents de surveillance

Les incidents seront également comptabilisés dans la section "Incidents" de la page "Alertes".

fdd883a9604ed981.png

Vous pouvez cliquer sur un incident spécifique pour afficher les détails de la panne, comme sa durée ou sa gravité.

N'oubliez pas que la première chose à faire lorsque vous recevez des alertes est de consulter vos métriques, puis de rechercher les erreurs qui contribuent à votre indisponibilité dans vos journaux. Pour savoir comment procéder, consultez notre atelier de programmation Déboguer la maison connectée.

6. Félicitations

17d485868a6771bc.png

Félicitations ! Vous avez découvert comment configurer des alertes à l'aide des métriques fournies à votre projet pour surveiller les pannes de manière automatisée et recevoir des notifications en cas d'interruption de service.

Étapes suivantes

En complément de cet atelier de programmation, faites ces exercices et découvrez d'autres ressources :

  • Vous pouvez combiner ce que vous avez appris dans cet atelier de programmation avec d'autres métriques fournies à votre projet. Vous pouvez consulter la liste complète des métriques disponibles dans la section Métriques acceptées de la page Surveillance.
  • Découvrez d'autres types de canaux de notification pour les alertes, qui sont expliqués sur la page Options de notification de la documentation Google Cloud.