Monitoramento de falhas temporárias em casas inteligentes

1. Antes de começar

Como abordamos no codelab Depuração de casa inteligente, estamos publicando métricas e registros dos seus projetos de casa inteligente. As métricas ajudam a determinar em que pontos a Ação de casa inteligente tem problemas, e os registros são úteis para fazer um estudo aprofundado e resolvê-los.

dd44868a4ff2df6e.png

É possível configurar alertas usando as métricas fornecidas ao seu projeto para monitorar falhas temporárias de maneira automatizada e receber notificações durante interrupções de serviço. Estamos publicando uma métrica de confiança para destacar as interrupções do seu projeto. Vamos abordar esse assunto neste codelab com todas as outras ferramentas de alerta disponíveis no Google Cloud Platform.

Pré-requisitos

O que você vai aprender

  • Como monitorar problemas de desempenho e interrupções de serviço no projeto.
  • Como criar um alerta baseado em limite e receber notificações durante interrupções.
  • Como usar a métrica de confiança fornecida ao projeto para detectar interrupções.

2. Monitoramento do desempenho

O monitoramento de desempenho é essencial para uma integração bem-sucedida com o ecossistema de casa inteligente do Google. Oferecemos um conjunto de ferramentas de monitoramento para desenvolvedores de casas inteligentes no Google Cloud Platform. Você pode usar essas ferramentas para ter uma noção do desempenho do seu projeto.

Como acessar painéis

A primeira etapa para acessar seus dados é verificar os painéis iniciais do Google. Para isso, faça login no Console do Google Cloud e navegue até Operações > Monitoramento > Painéis. Você vai perceber que há vários painéis disponíveis, e os painéis de casa inteligente têm o prefixo Google Home Analytics.

317697e52ced2437.png

Criamos painéis individuais para representar cada tipo de integração. As integrações com nuvem, local e Matter têm painel próprio, e os dados dos protocolos de streaming da câmera são fornecidos no painel de qualidade da câmera. Esses painéis só conterão dados se você tiver uma integração do tipo correspondente, além de um projeto em funcionamento que atenda às solicitações.

Quando você abre um desses painéis, a visualização é semelhante a esta:

f8bfd69286c569a4.png

Os painéis contêm vários gráficos que mostram os detalhes das solicitações processadas pelo seu projeto. Em cada painel de integração, você encontra um gráfico que mostra o número total de solicitações processadas pelo projeto, um gráfico mostrando a taxa de sucesso dessa integração e vários gráficos mostrando os tipos e características de dispositivos envolvidos.

Há três gráficos essenciais para avaliar a performance das ações de casa inteligente:

f511fafd3aaaa1eb.png

Durante as interrupções, é comum ver tendências de queda na porcentagem de sucesso e tendências de aumento no gráfico de detalhamento de erros. Monitorar a porcentagem de sucesso da execução ajuda a perceber a interrupção, enquanto analisar os principais erros no detalhamento de erros pode ajudar na depuração. Também é possível observar um aumento na latência durante interrupções, o que pode ser observado nos gráficos de latência de solicitação.

A visualização padrão com os gráficos mostrados nos painéis do Google Home Analytics é apenas uma visualização que criamos para seu projeto usando dados de métricas de casa inteligente. Também é possível usar o Metrics Explorer para criar seus próprios gráficos com as mesmas métricas e salvá-los nos seus painéis personalizados.

Metrics Explorer

O Metrics Explorer é uma ferramenta para visualizar seções transversais do conjunto de dados do seu projeto. A ferramenta pode ser acessada no console do Google Cloud em Operações > Monitoramento > Metrics Explorer.

O Google Cloud oferece muitas métricas prontas para uso, incluindo algumas não relacionadas a casas inteligentes. As métricas que fornecemos para casas inteligentes estão listadas no recurso "actions.googleapis.com/smarthome_action/..." e podem ser facilmente pesquisadas digitando "smarthome" na caixa de seleção de métricas.

538d851edfd34764.png

Pesquisar "casa inteligente" abrirá todas as métricas de casa inteligente que fornecemos para seu projeto. Veja informações detalhadas sobre cada uma das nossas métricas nas páginas Monitoramento e Geração de registros da nossa documentação.

Quando se trata de monitorar um projeto, a métrica mais simples a ser consultada é a Contagem de solicitações, que é uma métrica delta. Essa métrica registra uma entrada para cada execução de casa inteligente iniciada pelos usuários e registra campos como tipo de dispositivo, característica, tipo de execução envolvido na execução e campo de status que mostra o resultado.

Quando você seleciona essa métrica, uma tela é mostrada para cada bucket de dados, semelhante a esta:

b1c18141d15a0e09.png

Basicamente, para cada combinação de rótulos de dados presentes nessa métrica há um bucket que registra a alteração (delta) entre os intervalos de tempo anterior e atual. É possível agrupar ou filtrar esses buckets para conseguir a fração de dados de visualização desejada. Além disso, os dados são alinhados em intervalos de tempo selecionados com uma função de alinhamento (DELTA, MEAN, MEDIAN, SUM). A menos que seja necessário de outra forma, você normalmente usará o alinhamento delta com uma métrica delta.

É possível criar a maioria dos gráficos disponíveis nos painéis do Google Home Analytics usando o Metrics Explorer e salvar seus gráficos para acesso posterior em um painel personalizado. Para alcançar visualizações mais complexas, como um gráfico de proporção, use a linguagem de consulta de monitoramento (MQL, na sigla em inglês).

3. Estatísticas de sucesso

Para acompanhar o sucesso da integração, é possível usar a taxa de sucesso calculada com base na métrica de contagem de solicitações como um indicador básico ou a confiança de sucesso para uma abordagem mais especializada.

Taxa de sucesso

A taxa de sucesso é calculada para todas as integrações dividindo o número de solicitações bem-sucedidas por todas as solicitações. Você pode acessá-la no gráfico "Taxa de sucesso do pedido" no painel do Google Home Analytics.

55ea8930fbf48d9e.png

O gráfico "Taxa de sucesso de atendimento" é muito útil para monitorar o desempenho do projeto, mas não é muito útil para criar painéis personalizados ou configurar alertas. Como a taxa de sucesso é derivada da métrica de contagem de solicitações, e não de uma métrica sozinha, será necessário recriá-la usando a linguagem de consulta do Monitoring (MQL, na sigla em inglês) no Metrics Explorer para usá-la com qualquer um dos recursos.

Além disso, para rastrear as interrupções de desempenho em seu projeto, acreditamos que uma abordagem muito mais especializada é necessária. Por isso, criamos a métrica de confiança que muda com base em quanto sua taxa de sucesso de atendimento atual se desvia das normas históricas.

Métrica de confiança

As falhas temporárias podem existir em diferentes formatos e tamanhos para projetos. Eles podem durar de várias horas a apenas alguns minutos, o que pode dificultar a identificação deles. Para isso, criamos uma métrica de confiança no seu projeto, que fornece um valor normalizado para prever a confiabilidade com base no desempenho passado. Para acessar a métrica de confiança, pesquise "casa inteligente" no Metrics Explorer e selecione a confiança de sucesso na execução.

ab467a1777281526.png

Quando o desempenho da integração da casa inteligente for igual ou superior ao desempenho histórico (média de 7 dias), essa métrica gerará o valor máximo (1,0). Quando sua porcentagem de sucesso é diferente de um fator de quatro desvios padrão (também calculados ao longo de sete dias), essa métrica gera o valor mínimo (0,0). Para casos em que os desvios padrão são muito pequenos (menos de 2,5%), essa métrica baseia o valor de 0,0 em uma queda de 10% na porcentagem de sucesso.

Para todos os casos, essa métrica fornece valores entre 1,0 (perfeitamente confiante de que não há interrupção) e 0,0 (confiança máxima de que há uma interrupção).

Portanto, ao definir um alerta (na próxima seção), recomendamos basear o valor 0,5 como limite. Isso corresponde a dois desvios padrão ou uma queda de 5%, o que for maior.

4. Como configurar alertas

A próxima etapa é usar tudo o que você aprendeu na seção anterior para configurar alertas no projeto.

Como criar uma política de alertas

Os alertas automatizados no Google Cloud Platform são definidos por políticas de alertas. Acesse as políticas de alertas no menu lateral, na guia Operações > Monitoramento > Alertas. Para criar uma nova política de alertas, selecione a opção + CRIAR POLÍTICA. Ela levará à tela de criação de políticas de alertas:

6e417d88c2274b3d.png

A criação de uma política de alertas é dividida em três partes. Primeiro, você precisa determinar o que deseja rastrear adicionando uma condição. Pressione o botão ADICIONAR CONDIÇÃO para abrir uma janela semelhante à do Metrics Explorer, com alguns controles adicionais para configurar a condição:

df1ccf7da741e1c7.png

Para a meta, selecione a métrica de confiança que abordamos na seção anterior. Verifique se o alinhador está definido como delta usando essa métrica (Mostrar opções avançadas > Alinhador). A próxima etapa é definir a condição de alerta e usar as seguintes configurações:

4192e0f4ea00dd28.png

Condição acionada se: é a configuração principal que determina quando os alertas serão acionados. Selecione Qualquer série temporal violada porque vamos definir um limite na nossa métrica e monitorar se o valor é ultrapassado.

Condição: queremos que o alerta seja acionado quando o valor ficar abaixo do limite. Por isso, vamos defini-lo como está abaixo. Com nossa métrica, 1,0 significa que a integração está funcionando bem e 0,0 indica uma interrupção definitiva.

Limite: criamos a métrica de confiança para fornecer os melhores resultados quando esse valor é definido como 0,5. Se quiser receber alertas mais frequentes e notificações sobre incidentes menores, aumente esse valor (máximo de 1,0). Depois, se quiser receber menos alertas, apenas no caso de problemas mais graves, diminua esse valor (mín.0,0).

Para: essa é a configuração que identifica quanto tempo a falha temporária deve durar antes de você receber o alerta. Recomendamos manter essa configuração no valor mais recente para receber alertas quando um ponto ultrapassar o limite. Nossa métrica de confiança é publicada a cada 15 minutos, analisando o sucesso médio naquele período.

Depois de concluir a adição de uma condição, a próxima etapa é selecionar o canal de notificação. O método mais simples de notificação são os alertas por e-mail. Escolha um e-mail listado no menu suspenso Canais de notificação:

3cc10629830e7f13.png

Se você marcar a opção Notificar sobre interdição de incidentes, outra notificação será enviada quando o incidente for marcado como encerrado. Nesse caso, selecione também uma Duração do fechamento automático de incidentes, especificada como 7 dias por padrão.

A etapa final é dar um nome ao alerta e adicionar a documentação que você quer incluir nas notificações.

686fb1c537fee10.png

É recomendável enviar a documentação, principalmente se não for você que vai receber o alerta. Adicionar etapas como onde verificar durante um incidente e como fazer a triagem e a depuração pode ajudar durante uma interrupção. Consulte nosso Guia de solução de problemas conforme necessário.

Depois de salva, a política de alertas será listada na seção "Políticas" da página "Alertas".

c71a001e4df035ee.png

5. Redução de interrupções

Depois de configurar alertas, você vai receber notificações dos canais de notificação fornecidos durante interrupções, e uma entrada de incidente será criada na página "Alertas".

Como receber alertas

O canal de alerta que fornecemos neste codelab foi um e-mail. Depois disso, esperamos que você não receba nenhum alerta (não haverá interrupções), mas se você fizer isso, a notificação será parecida com esta:

43217b0a145c2cd.png

Observe que a notificação de alerta fornece o valor observado ultrapassando o limite especificado, bem como um carimbo de data/hora que descreve quando o incidente foi iniciado pela primeira vez.

Monitoramento de incidentes

Quando ocorrem incidentes, eles também são contabilizados na seção "Incidentes" da página "Alertas".

fdd883a9604ed981.png

Clique no incidente específico para conferir os detalhes da falha temporária, como a duração dela ou a gravidade dela.

Quando você recebe alertas, a melhor etapa é analisar suas métricas e pesquisar os erros que contribuem para a falha temporária nos seus registros. Para relembrar como fazer isso, confira o codelab Como depurar a casa inteligente.

6. Parabéns

17d485868a6771bc.png

Parabéns! Você aprendeu a configurar alertas usando as métricas fornecidas ao seu projeto para monitorar falhas temporárias de maneira automatizada e receber notificações durante interrupções de serviço.

Próximas etapas

Com base neste codelab, faça os exercícios a seguir e explore outros recursos:

  • Você pode combinar o que aprendeu neste codelab com outras métricas fornecidas ao projeto. Veja a lista completa de métricas disponíveis na seção Métricas compatíveis da página Monitoramento.
  • Explore outros tipos de canais de notificação para alertas. Eles são explicados na página Opções de notificação da documentação do Google Cloud Platform.