Surveillance des pannes de la maison connectée

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

1. Avant de commencer

Comme nous l'avons expliqué dans l'atelier de programmation Déboguer la maison connectée, nous publions des métriques et des journaux dans vos projets pour la maison connectée. Les métriques vous permettent de déterminer les problèmes rencontrés par votre action pour la maison connectée. Quant aux journaux, ils sont utiles pour analyser la situation en détail afin de résoudre ces problèmes.

dd44868a4ff2df6e.png

Vous pouvez configurer des alertes à l'aide des métriques fournies pour votre projet afin de surveiller les pannes de manière automatisée et de recevoir des notifications en cas d'interruption de service. Nous publions une métrique de confiance pour mettre en évidence les perturbations de votre projet. Nous aborderons ce sujet dans cet atelier de programmation avec tous les autres outils d'alerte disponibles sur Google Cloud Platform.

Prérequis

Points abordés

  • Surveiller les problèmes de performances et les interruptions de service sur votre projet
  • Créer une alerte basée sur un seuil et recevoir des notifications en cas de perturbations
  • Utiliser la métrique de confiance fournie à votre projet pour détecter les pannes

2. Contrôle des performances

La surveillance des performances est essentielle pour une intégration réussie avec l'écosystème des maisons connectées de Google. Nous fournissons aux développeurs d'une maison connectée un ensemble d'outils de surveillance sur Google Cloud Platform. Vous pouvez utiliser ces outils pour avoir une idée des performances de votre projet.

Accéder aux tableaux de bord

Pour accéder à vos données, la première étape consiste à vérifier les tableaux de bord Google Home. Pour cela, connectez-vous à Google Cloud Console et accédez à Opérations > Surveillance > Tableaux de bord. Vous constaterez qu'il existe plusieurs tableaux de bord pour la maison connectée, avec un préfixe Google Analytics pour les maisons.

317697e52ced2437.png

Nous avons créé des tableaux de bord individuels pour représenter chaque type d'intégration. Les intégrations Cloud, locales et Matter ont leur propre tableau de bord, et les données des protocoles de streaming de la caméra sont fournies dans le tableau de bord Qualité de la caméra. Ces tableaux de bord ne contiendront des données que si vous disposez d'une intégration du type correspondant et d'un projet fonctionnel qui traite des requêtes.

Lorsque vous ouvrez l'un de ces tableaux de bord, vous obtenez la vue suivante:

f8bfd69286c569a4.png

Les tableaux de bord contiennent divers graphiques présentant les détails des requêtes traitées par votre projet. Pour chaque tableau de bord d'intégration, un graphique indique le nombre total de demandes traitées par votre projet, un graphique du taux de réussite pour ce type d'intégration, ainsi que plusieurs graphiques indiquant les types et les caractéristiques de l'appareil concernés.

Il existe trois graphiques essentiels pour évaluer les performances de vos actions pour la maison connectée:

f511fafd3aaaa1eb.png

En cas de panne, vous verrez généralement des tendances à la baisse dans le pourcentage de réussite et une tendance à la hausse dans le graphique de répartition des erreurs. Surveiller le pourcentage de réussite de l'exécution permet de détecter la panne, et examiner les principales erreurs dans la répartition des erreurs peut aider au débogage. Vous pouvez également observer une augmentation de la latence pendant les interruptions de service, comme le montrent les graphiques de latence des requêtes.

Notez que la vue par défaut, qui contient des graphiques dans les tableaux de bord des analyses Google Home, n'est qu'une vue que nous avons créée pour votre projet à l'aide des données des métriques de maison connectée. Vous pouvez également utiliser l'explorateur de métriques pour créer vos propres graphiques à partir des mêmes métriques sous-jacentes et les enregistrer dans vos tableaux de bord personnalisés.

Explorateur de métriques

L'explorateur de métriques permet de visualiser les coupes transversales de l'ensemble de données de votre projet. L'outil est accessible dans Google Cloud Console en accédant à Operations > Monitoring > Metrics Explorer (Explorateur de métriques).

Google Cloud fournit de nombreuses métriques prêtes à l'emploi, dont certaines ne sont pas liées à la maison connectée. Les métriques que nous proposons pour la maison connectée sont listées sous "actions.googleapis.com/smarthome_action/..." ressource et peuvent être facilement recherchées en saisissant "smarthome" dans la zone de sélection de métrique.

538d851edfd34764.png

Recherchez "maison connectée" pour afficher toutes les métriques de maison connectée que nous vous proposons dans votre projet. Vous pouvez obtenir des informations détaillées sur chacune de nos métriques sur la page Surveillance et journalisation de notre documentation.

Pour surveiller votre projet, la métrique la plus simple à utiliser est la métrique "Nombre de requêtes" (métrique delta). Cette métrique enregistre une entrée pour chaque exécution de maison connectée lancée par vos utilisateurs et enregistre des champs tels que le type d'appareil, la caractéristique, le type d'exécution impliqué dans l'exécution et le champ d'état indiquant le résultat.

Si vous sélectionnez cette métrique, l'écran de chaque bucket de données ressemblera à celui-ci:

B1C18141d15a0e09.png

En résumé, pour chaque combinaison d'étiquettes de données présente dans cette métrique, il existe un bucket qui enregistre la modification (delta) entre les intervalles de temps précédents et actuels. Vous pouvez regrouper ou exclure ces buckets pour obtenir la tranche de données de vue souhaitée. De plus, les données sont alignées sur les intervalles de temps sélectionnés avec une fonction d'alignement (DELTA, MEAN, MEDIAN, SUM). Sauf indication contraire, vous utiliserez généralement l'alignement delta avec une métrique delta.

Vous pouvez créer la plupart des graphiques disponibles dans les tableaux de bord Google Analytics à l'aide de l'explorateur de métriques, puis les enregistrer afin de pouvoir y accéder ultérieurement dans un tableau de bord personnalisé. Pour obtenir des vues plus complexes, comme un graphique de ratios, vous devez utiliser le langage MQL (Monitoring Query Language).

3. Évaluation des résultats

Pour suivre le succès de votre intégration, vous pouvez soit utiliser le taux de réussite calculé à partir de la métrique "Nombre de requêtes" comme indicateur de référence, soit opter pour une approche plus précise et plus fiable.

Taux de réussite

Le taux de réussite est calculé pour toutes vos intégrations en divisant le nombre de requêtes réussies par le nombre total de requêtes. Vous pouvez y accéder depuis le graphique "Taux de réussite de l'exécution" de votre tableau de bord Google Analytics.

55ea8930fbf48d9e-fr

Le graphique du taux de réussite de l'exécution est très utile pour surveiller les performances de votre projet, mais il ne l'est pas beaucoup lorsque vous créez vos tableaux de bord personnalisés ou configurez des alertes. Étant donné que le taux de réussite est basé sur votre métrique "Nombre de requêtes", et non sur une métrique seule, vous devrez la recréer à l'aide du langage MQL (Monitoring Query Language) dans l'explorateur de métriques afin de l'utiliser avec l'une ou l'autre de ces fonctionnalités.

De plus, pour suivre les perturbations des performances de votre projet, nous pensons qu'une approche beaucoup plus spécialisée est nécessaire. C'est pourquoi nous avons créé une métrique de confiance qui varie en fonction de l'écart entre votre taux de réussite de traitement actuel et les normes historiques.

Métrique de confiance

Il existe différents types d'indisponibilité pour les projets. Ils peuvent durer de quelques heures à quelques minutes, ce qui peut compliquer leur identification. Pour cela, nous avons créé une métrique de confiance dans votre projet, qui fournit une valeur normalisée permettant de prédire la fiabilité en fonction des performances passées. Pour accéder à la métrique de confiance, recherchez "smarthome" dans l'explorateur de métriques, puis sélectionnez Execution success success (Fiabilité de la réussite de l'exécution).

ab467a1777281526.png

Lorsque l'intégration de votre maison connectée atteint des performances égales ou supérieures à l'historique (moyenne sur sept jours), cette métrique affiche la valeur maximale (1,0). Lorsque votre taux de réussite s'écarte de plus d'un facteur de 4 écarts types (également calculé sur 7 jours), cette métrique affiche la valeur minimale (0,0). Dans les cas où les écarts-types sont trop faibles (moins de 2,5%), cette métrique base la valeur 0,0 sur une baisse de 10% du pourcentage de réussite.

Pour tous les cas intermédiaires, cette métrique fournit des valeurs comprises entre 1 (parfaitement fiable) et 0 (avec un maximum de confiance).

Par conséquent, lorsque vous définissez une alerte (dans la section suivante), nous recommandons de baser la valeur 0.5 comme seuil. Cela correspond à deux écarts types ou à une baisse de 5 %, la valeur la plus élevée étant la plus élevée.

4. Configuration des alertes

L'étape suivante consiste à utiliser tout ce que vous avez appris dans la section précédente pour configurer des alertes dans votre projet.

Créer une règle d'alerte

Les alertes automatiques sur Google Cloud Platform sont définies par le biais de règles d'alerte. Vous pouvez accéder aux règles d'alerte via le menu latéral, l'onglet Operations > Monitoring > Alerting (Opérations > Surveillance > Alertes). Pour créer une règle d'alerte, sélectionnez l'option + CRÉER UNE RÈGLE. L'écran de création de la règle d'alerte s'affiche alors:

6e417d88c2274b3d.png

La création d'une règle d'alerte s'effectue en trois étapes. Vous devez d'abord déterminer ce que vous voulez suivre en ajoutant une condition. Appuyez sur le bouton AJOUTER UNE CONDITION pour ouvrir une fenêtre semblable à l'explorateur de métriques, avec des commandes supplémentaires pour configurer la condition:

df1ccf7da741e1c7.png

Pour la cible, sélectionnez la métrique de confiance présentée dans la section précédente. Assurez-vous que l'aligneur est défini sur delta à l'aide de cette métrique (Show Advanced Options > Aligner). L'étape suivante consiste à configurer la condition d'alerte et à utiliser les paramètres suivants:

4192e0f4ea00dd28.png

Déclencheur de condition si : configuration principale permettant de déterminer quand déclencher les alertes. La sélection de À chaque infraction de série temporelle fonctionnera, car nous allons définir un seuil sur notre métrique et surveiller si la valeur est croisée.

Condition : vous souhaitez que l'alerte se déclenche lorsque sa valeur passe en dessous du seuil. C'est pourquoi cette valeur doit être définie sur est inférieur à. Avec notre métrique, 1,0 signifie que l'intégration fonctionne correctement et 0,0 indique une interruption définitive.

Seuil : nous avons créé la métrique de confiance pour fournir les meilleurs résultats lorsque cette valeur est définie sur 0,5. Si vous souhaitez recevoir des alertes plus fréquentes et recevoir une notification en cas d'incidents moins nombreux, vous pouvez essayer d'augmenter cette valeur (1 au maximum). Par la suite, si vous souhaitez recevoir moins d'alertes que pour les problèmes les plus graves, vous pouvez essayer de réduire cette valeur (0,0 min).

For (Pour) : paramètre permettant d'identifier la durée pendant laquelle l'indisponibilité doit durer avant que vous ne soyez averti. Nous vous recommandons de définir ce paramètre sur la valeur la plus récente afin d'être averti lorsqu'un seuil dépasse ce seuil. Notre métrique de confiance est publiée toutes les 15 minutes et présente le succès moyen enregistré sur cette période.

Une fois que vous avez ajouté une condition, l'étape suivante consiste à sélectionner le canal de notification. Les alertes par e-mail constituent la méthode de notification la plus simple. Vous pouvez choisir une adresse e-mail dans le menu déroulant Canaux de notification:

3cc10629830e7f13.png

Si vous cochez l'option Notifier en cas de fermeture d'un incident, une autre notification sera envoyée une fois l'incident marqué comme fermé. Dans ce cas, vous devez également sélectionner une durée de fermeture automatique de l'incident, qui est de sept jours par défaut.

La dernière étape consiste à donner un nom à votre alerte et à ajouter toute la documentation que vous souhaitez inclure dans les notifications.

686fb1c537fee10.png

Nous vous recommandons de fournir des documents, en particulier si vous ne recevez pas l'alerte. Il peut être utile d'ajouter des étapes pour identifier les incidents lors d'un incident, et savoir comment les trier et les déboguer en cas d'indisponibilité. Si nécessaire, vous pouvez consulter notre Guide de dépannage.

Une fois enregistrée, votre règle d'alerte est répertoriée dans la section "Règles" de la page "Alertes".

C71a001e4df035ee.png

5. Réduction des interruptions

Une fois les alertes configurées, vous serez informé des interruptions de service sur les canaux de notification que vous avez fournis et une entrée d'incident sera créée sur la page "Alertes".

Recevoir des alertes

Le canal d'alerte que nous avons fourni dans cet atelier de programmation est un e-mail. Une fois la configuration terminée, nous espérons que vous ne recevrez plus d'alertes (pas d'interruptions). Si vous procédez ainsi, la notification ressemblera à ceci:

43217b0a145c2cd.png

Notez que la notification d'alerte fournit la valeur observée qui dépasse le seuil que vous avez spécifié, ainsi qu'un horodatage indiquant le début de l'incident.

Surveiller les incidents

À mesure que des incidents se produisent, ils sont également comptabilisés dans la section "Incidents" de la page "Alertes".

fdd883a9604ed981.png

Vous pouvez cliquer sur un incident spécifique pour en afficher les détails, tels que sa durée ou son ampleur.

Rappelez-vous : lorsque vous recevez des alertes, la première étape consiste à examiner vos métriques, puis à rechercher les erreurs qui ont contribué à votre indisponibilité dans vos journaux. Vous pouvez revoir la procédure à suivre dans notre atelier de programmation Déboguer la maison connectée.

6. Félicitations

17d485866a6771bc.png

Félicitations ! Vous avez appris à configurer des alertes à l'aide des métriques fournies à votre projet pour surveiller les interruptions de manière automatisée et recevoir des notifications en cas d'interruption de service.

Étapes suivantes

En complément de cet atelier de programmation, faites ces exercices et découvrez d'autres ressources :

  • Vous pouvez combiner ce que vous avez appris dans cet atelier de programmation avec d'autres métriques fournies pour votre projet. Vous pouvez consulter la liste complète des métriques disponibles dans la section "Métriques acceptées" de la page Surveillance et journalisation.
  • Découvrez les autres types de canaux de notification pour les alertes, expliqués sur la page Options de notification de la documentation Google Cloud Platform.