Monitoramento de falhas temporárias em casas inteligentes

1. Antes de começar

Como abordamos no codelab Depuração de casa inteligente, estamos publicando métricas e registros dos seus projetos de casa inteligente. As métricas ajudam a determinar em que pontos a Ação de casa inteligente tem problemas, e os registros são úteis para fazer um estudo aprofundado e resolvê-los.

dd44868a4ff2df6e.png

É possível configurar alertas usando as métricas fornecidas ao seu projeto para monitorar interrupções de forma automatizada e receber notificações durante interrupções de serviço. Estamos publicando uma métrica de confiança para destacar as interrupções no seu projeto, que será abordada neste codelab, além de todas as outras ferramentas de alerta disponíveis no Google Cloud.

Pré-requisitos

O que você vai aprender

  • Como monitorar problemas de desempenho e interrupções de serviço no seu projeto.
  • Como criar um alerta com base em um limite e receber notificações durante interrupções.
  • Como usar a métrica de confiança fornecida ao seu projeto para detectar interrupções.

2. Monitoramento do desempenho

Monitorar a performance é fundamental para uma integração bem-sucedida com o ecossistema do Google Home. Estamos fornecendo um conjunto de ferramentas de monitoramento para desenvolvedores de casas inteligentes no Google Cloud. Você pode usar essas ferramentas para ter uma ideia do desempenho do seu projeto.

Como acessar os painéis

A primeira etapa para acessar seus dados é verificar os painéis do Google Home fazendo login no console do Google Cloud e navegando até Operações > Monitoramento > Painéis. Você vai notar que há vários painéis disponíveis, e os painéis para casa inteligente têm um prefixo do Google Home Analytics.

317697e52ced2437.png

Criamos painéis individuais para representar cada tipo de integração. As integrações com a nuvem, o local e o Matter têm o próprio painel, e os dados dos protocolos de streaming da câmera são fornecidos no painel "Qualidade da câmera". Esses painéis só vão conter dados se você tiver uma integração do tipo correspondente e um projeto funcional que atenda às solicitações.

Quando você abrir um desses painéis, a visualização vai ficar assim:

f8bfd69286c569a4.png

Os painéis contêm vários gráficos que mostram os detalhes das solicitações processadas pelo seu projeto. Em cada painel de integração, você vai encontrar um gráfico mostrando o número total de solicitações processadas pelo projeto, um gráfico mostrando a taxa de sucesso desse tipo de integração e vários gráficos mostrando os tipos de dispositivo e os atributos envolvidos.

Há três gráficos essenciais para avaliar a performance das suas ações da Casa inteligente:

f511fafd3aaaa1eb.png

Durante as interrupções, é comum observar tendências de queda na porcentagem de sucesso e uma tendência de aumento no gráfico de detalhamento de erros. Monitorar a porcentagem de sucesso da execução ajuda a notar a interrupção, enquanto analisar os principais erros na análise detalhada pode ajudar na depuração. Você também pode observar uma tendência de aumento na latência durante as interrupções, que podem ser vistas nos gráficos de latência de solicitações.

A visualização padrão com gráficos que você vê nos painéis de análise do Google Home é apenas uma visualização que criamos para seu projeto usando dados de métricas de casa inteligente. Também é possível usar o Metrics Explorer para criar seus próprios gráficos com as mesmas métricas e salvá-los nos painéis personalizados.

Metrics Explorer

O Metrics Explorer é uma ferramenta para visualizar seções transversais do conjunto de dados do seu projeto. Acesse a ferramenta no Console do Google Cloud em Operações > Monitoramento > Metrics Explorer.

O Google Cloud oferece muitas métricas diferentes, incluindo algumas que não estão relacionadas à casa inteligente. As métricas que fornecemos para a casa inteligente estão listadas no recurso "actions.googleapis.com/smarthome_action/…" e podem ser pesquisadas facilmente digitando "smarthome" na caixa de seleção de métricas.

538d851edfd34764.png

A pesquisa por "casa inteligente" vai mostrar todas as métricas de casa inteligente que fornecemos para seu projeto. Confira informações detalhadas sobre cada uma das nossas métricas nas páginas Monitoramento e Registro da nossa documentação.

Para monitorar seu projeto, a métrica mais simples a ser usada é a contagem de solicitações, que é uma métrica delta. Essa métrica registra uma entrada para cada execução de casa inteligente iniciada pelos usuários e campos como tipo de dispositivo, atributo, tipo de execução envolvido e o campo de status que mostra o resultado.

A seleção dessa métrica vai gerar uma tela mostrando cada bucket de dados de forma semelhante a esta:

b1c18141d15a0e09.png

Basicamente, para cada combinação de rótulos de dados presentes nessa métrica, existe um bucket que registra a mudança (delta) entre os intervalos de tempo anteriores e atuais. É possível agrupar ou filtrar esses buckets para conseguir a visualização de dados que você quer. Além disso, os dados são alinhados em intervalos de tempo selecionados com uma função de alinhamento (DELTA, MÉDIA, MEDIANA, SOMA). Normalmente, você vai usar o alinhamento delta com uma métrica delta, a menos que seja necessário o contrário.

Você pode criar a maioria dos gráficos disponíveis nos painéis do Google Home Analytics usando o Metrics Explorer e salvar os gráficos para acesso posterior em um painel personalizado. Para conseguir visualizações mais complexas, como um gráfico de proporção, você vai precisar usar a linguagem de consulta do Monitoring (MQL).

3. Estatísticas de sucesso

Para acompanhar o sucesso da integração, você pode usar a taxa de sucesso calculada com base na métrica de contagem de solicitações como um indicador de referência ou a confiança de sucesso para uma abordagem mais especializada.

Taxa de sucesso

A taxa de sucesso é calculada para todas as integrações dividindo o número de solicitações bem-sucedidas pelo número total de solicitações. É possível acessar esse gráfico no gráfico "Taxa de sucesso de entrega" no painel de análise do Google Home.

55ea8930fbf48d9e.png

O gráfico "Taxa de sucesso de atendimento" é muito útil para monitorar a performance do seu projeto, mas não é muito útil para criar painéis personalizados ou configurar alertas. Como a taxa de sucesso é derivada da métrica de contagem de solicitações, e não é uma métrica por si só, você vai precisar recriar essa métrica usando a linguagem de consulta do Monitoring (MQL) no Metrics Explorer para usar com qualquer recurso.

Além disso, para acompanhar as interrupções de performance no seu projeto, acreditamos que uma abordagem muito mais especializada é necessária. Por isso, criamos a métrica de confiança, que muda de acordo com o quanto sua taxa de sucesso de atendimento atual se desvia das normas históricas.

Métrica de confiança

As interrupções podem ter diferentes formas e tamanhos para projetos. Eles podem durar de algumas horas a apenas alguns minutos, o que pode dificultar a identificação. Para isso, criamos uma métrica de confiança no seu projeto, que fornece um valor normalizado para prever a confiabilidade com base no desempenho anterior. Para acessar a métrica de confiança, pesquise "smarthome" no Metrics Explorer e selecione Confiança de sucesso da execução.

ab467a1777281526.png

Quando a integração da casa inteligente tem uma performance igual ou superior à histórica (média de sete dias), essa métrica gera o valor máximo (1,0). Quando a porcentagem de sucesso se desvia em mais de um fator de quatro desvios-padrão (também calculados em sete dias), essa métrica gera o valor mínimo (0,0). Para casos em que as desvios padrão são muito pequenos (menos de 2,5%), essa métrica baseia o valor 0,0 em uma queda de 10% na porcentagem de sucesso.

Para todos os casos intermediários, essa métrica fornece valores entre 1,0 (confiança total de que não há interrupção) e 0,0 (confiança máxima de que há uma interrupção).

Portanto, ao definir um alerta (na próxima seção), recomendamos usar o valor 0,5 como limite. Isso corresponde a duas desvios padrão ou uma queda de 5%, o que for maior.

4. Como configurar alertas

A próxima etapa é usar tudo o que você aprendeu na seção anterior para configurar alertas no seu projeto.

Como criar uma política de alertas

Os alertas automatizados no Google Cloud são definidos pelas políticas de alertas. É possível acessar as políticas de alerta no menu lateral, na guia Operações > Monitoramento > Alertas. Para criar uma política de alertas, selecione a opção +CREATE POLICY, que vai abrir a tela de criação da política de alertas:

6e417d88c2274b3d.png

Há três partes na criação de uma política de alertas. Primeiro, você precisa determinar o que quer acompanhar adicionando uma condição. Ao pressionar o botão ADD CONDITION, uma janela semelhante ao Metrics Explorer será aberta, com alguns controles adicionais para configurar a condição:

df1ccf7da741e1c7.png

Para o alvo, selecione a métrica de confiança que abordamos na seção anterior. Verifique se o alinhador está definido como delta usando essa métrica (Mostrar opções avançadas > Alinhador). A próxima etapa é configurar a condição de alerta e usar as seguintes configurações:

4192e0f4ea00dd28.png

Acionador de condição se: essa é a configuração principal para determinar quando acionar os alertas. A seleção de Qualquer violação de série temporal vai funcionar porque vamos definir um limite na métrica e monitorar se o valor for ultrapassado.

Condição: queremos que o alerta seja acionado quando o valor cair abaixo do limite. Portanto, vamos definir isso como está abaixo. Com nossa métrica, 1,0 significa que a integração está funcionando bem, e 0,0 indica uma interrupção definitiva.

Limite: criamos a métrica de confiança para oferecer melhores resultados quando esse valor é definido como 0,5. Se você quiser alertas mais frequentes e receber notificações sobre incidentes menores, aumente esse valor (máximo de 1,0). Se você quiser receber menos alertas, apenas para problemas mais graves, tente diminuir esse valor (mínimo 0,0).

For: é a configuração para identificar por quanto tempo a interrupção deve durar antes que você receba um alerta. Recomendamos manter essa configuração no valor mais recente para receber alertas quando qualquer ponto ultrapassar o limite. Nossa métrica de confiança é publicada a cada 15 minutos, considerando a taxa de sucesso média nesse período.

Depois de adicionar uma condição, a próxima etapa é selecionar o canal de notificação. O método mais simples de notificação é o alerta por e-mail. Escolha um e-mail na lista suspensa Canais de notificação:

3cc10629830e7f13.png

Se você marcar a opção Notificar sobre o fechamento de incidentes, outra notificação será enviada quando o incidente for marcado como fechado. Nesse caso, também é necessário selecionar uma Duração do fechamento automático de incidentes, que é especificada como 7 dias por padrão.

A etapa final é dar um nome ao alerta e adicionar a documentação que você quer incluir nas notificações.

686fb1c537fee10.png

É recomendável enviar a documentação, principalmente se você não for o destinatário do alerta. Adicionar etapas, como onde verificar durante um incidente e como triar e depurar, pode ajudar durante uma interrupção. Consulte nosso Guia de solução de problemas quando necessário.

Depois de salva, a política de alertas vai ser listada na seção "Políticas" da página "Alertas".

c71a001e4df035ee.png

5. Mitigar interrupções

Depois de configurar os alertas, você vai receber notificações durante as interrupções nos canais de notificação fornecidos, e uma entrada de incidente será criada na página de alertas.

Como receber alertas

O canal de alerta fornecido neste codelab foi um e-mail. Depois de configurar, esperamos que você não receba alertas (nem tenha interrupções), mas, se isso acontecer, a notificação será semelhante a esta:

43217b0a145c2cd.png

A notificação de alerta fornece o valor observado que ultrapassa o limite especificado, além de um carimbo de data/hora que mostra quando o incidente começou.

Monitorar incidentes

À medida que os incidentes acontecem, eles também são contados na seção "Incidentes" da página "Alertas".

fdd883a9604ed981.png

Clique no incidente específico para conferir os detalhes da interrupção, como a duração ou a gravidade.

Lembre-se de que, ao receber alertas, a melhor primeira etapa é analisar as métricas e procurar os erros que contribuem para a interrupção nos registros. Você pode relembrar como fazer isso no nosso codelab Depuração de casa inteligente.

6. Parabéns

17d485868a6771bc.png

Parabéns! Você aprendeu a configurar alertas usando as métricas fornecidas ao seu projeto para monitorar interrupções de forma automatizada e receber notificações durante interrupções de serviço.

Próximas etapas

Com base neste codelab, faça os exercícios a seguir e explore outros recursos:

  • Você pode combinar o que aprendeu neste codelab com outras métricas fornecidas ao seu projeto. Confira a lista completa de métricas disponíveis na seção Métricas compatíveis da página Monitoramento.
  • Conheça outros tipos de canais de notificação para alertas explicados na página Opções de notificação da documentação do Google Cloud.