Como medir a qualidade do produto no painel do Google Home Vitals

1. Antes de começar

Este codelab foi criado para parceiros e desenvolvedores do Google Home com integrações na nuvem para melhorar a qualidade do ecossistema e a experiência do usuário.

O que você vai aprender

O painel do Google Home Vitals é a principal fonte de informações para desenvolvedores e parceiros monitorarem a integridade operacional das integrações do Google Home. Em um ecossistema em que a experiência do usuário é definida por latência e confiabilidade, o Google Home Vitals é o portal de autoatendimento que contém todas as análises detalhadas necessárias para fazer a transição da solução de problemas reativa para o gerenciamento de qualidade proativo.

  • Como a pontuação de integração de qualidade é calculada
  • Como ler e usar o painel
  • Como depurar métricas de baixa qualidade

O que é necessário

  • Ter uma integração do Google Home Cloud

Configuração

Como navegar até o Painel do Google Home Vitals:

  1. Abra o Google Cloud Platform
  2. Monitoring > Painel
  3. Clique no painel "Google Home Vitals (Cloud)".

2. Como ler o painel

Cálculo do índice de qualidade: padrão "Bom" x "Ruim"

O painel explica o detalhamento da pontuação de qualidade. Os Índices de Qualidade são atribuídos com uma granularidade de tipo de dispositivo. Para que uma integração de tipo de dispositivo seja considerada BOA, ela precisa atender a quatro critérios simultâneos:

  1. Taxa de sucesso global:a taxa de sucesso geral das chamadas de parceiro para o Google precisa ser >=99,5%.
    Observação:se a taxa de sucesso global (>=99,5%) não for atingida, a classificação automática será RUIM em todo o projeto, independente do desempenho individual do dispositivo.
  2. Confiabilidade do comando:as taxas de sucesso de QUERY e EXECUTE precisam ser >=99,5% para todos os tipos de dispositivos.
  3. Latência responsiva:a latência do 90º percentil para QUERY e EXECUTE precisa ser <=1.000 ms para todos os tipos de dispositivos.
  4. Integridade do estado:a acurácia do estado precisa ser >=99,5%.

Por que essas métricas são importantes

  1. Taxa de sucesso global:as chamadas de parceiro para o Google no nível de integração medem a integridade das chamadas da sua nuvem para o Google. Uma taxa de sucesso de >= 99,5% garante que o Google Home use os estados corretos do dispositivo. Por exemplo, verifique se os dispositivos foram adicionados e removidos, se as automações estão sendo acionadas e se os eventos do histórico aparecem na guia "Atividade" do app Google Home.
  2. Confiabilidade do comando:as taxas de sucesso de QUERY e EXECUTE são medidas no nível do tipo de dispositivo. Uma taxa de sucesso >=99,5% garante que os comandos do usuário sejam executados corretamente (ou seja, evita respostas do Google Assistente como "Não consigo acessar o dispositivo" ou confirmação incorreta de um comando que não foi executado).
  3. Latência responsiva:as latências de QUERY e EXECUTE também são medidas no nível do tipo de dispositivo. Uma latência de <=1000 ms por tipo de dispositivo garante que o usuário não precise esperar muito tempo para realizar a ação desejada (por exemplo, esperar alguns segundos para que a luz se apague).
  4. Integridade do estado:a medida de acurácia do estado mede a precisão do estado armazenado nos sistemas do Google e usado para atender às consultas dos usuários. Se esses números forem baixos, os usuários poderão ver resultados incorretos para seus dispositivos ao conferir o estado deles ou usar recursos de IA, como o Perguntar ao Google Home. As automações podem não ser acionadas, e as entradas do histórico podem não aparecer na atividade no momento certo.

Como ler o painel

Comece na seção "Métricas do índice de qualidade", que serve como o principal indicador de integridade da sua integração. Uma classificação BOA no nível do dispositivo depende de todas as métricas desta seção atenderem aos critérios de sucesso VERDE. Os requisitos técnicos detalhados e as definições de métricas estão disponíveis na documentação da Central para desenvolvedores.

A seção "Pontuação das métricas de qualidade" na parte de cima do painel do Google Home Vitals reflete as métricas usadas para calcular a pontuação de qualidade da integração.

Legenda

  • VERDE (BOM): a métrica atende ao limite de qualidade.
  • VERMELHO (RUIM): a métrica não atende ao limite de qualidade.

Exemplo

No exemplo abaixo, o tipo de dispositivo AC_UNIT atende aos critérios de qualidade na taxa de sucesso de QUERY e EXECUTE, bem como na seção de latência de QUERY, mas não atende à barra de latência de EXECUTE (vermelha). Isso significa que os comandos estão sendo executados com uma taxa de aprovação, mas a latência de EXECUTE está 36 ms muito lenta. A seção "Integridade do sistema" mostra uma taxa de falha de 98, 92% para métodos agregados em toda a integração.Isso significa que há espaço para melhorias e garantir a precisão dos estados dos dispositivos dos usuários no Google Home. Isso significa que 1,08% das chamadas (DeleteAgentUser, Query, ReportStateAndNotification, RequestSyncDevices ou Sync) estão retornando códigos de resposta que não são iguais a 2xx ou 5xx (por exemplo, erros 404). A última métrica usada para medir a qualidade de aprovação/reprovação para o tipo de dispositivo AC_UNIT é a precisão do estado. Neste exemplo, vemos uma taxa de sucesso de 77,43%, o que significa que os usuários provavelmente estão vendo resultados imprecisos para dispositivos. Com essas três métricas, a pontuação geral de AC_UNIT é RUIM e está abaixo do limite de qualidade.

a2c2f3c8d7531fe9.png

Cada um desses cálculos de qualidade corresponde a uma seção de depuração abaixo. Abra as etapas recolhidas para mais depuração.

Para depurar taxas de sucesso e latências de QUERY/EXECUTE, acesse "Etapa 1: validar chamadas do Cloud".

Para depurar as taxas de sucesso de parceiros para o Google, acesse "Etapa 2: validar chamadas para o Google".

Para depurar a precisão do estado de cada tipo de dispositivo, acesse "Etapa 3: melhorar a precisão do estado".

a68e651c029391eb.png

31f6a331b86146ed.png

3. Etapa 1 de depuração: validar chamadas de nuvem

Etapa 1: visão geral

Esta seção se concentra nas chamadas do Cloud, ou seja, as métricas que medem a integridade das comunicações do Google com seu back-end na nuvem (também conhecidas como métricas do Google para o parceiro). Isso inclui comandos como Query e Execute.

Acompanhamos as taxas de sucesso e as latências de QUERY e EXECUTE, que contribuem para as pontuações de qualidade do tipo de dispositivo.

A visão geral abaixo mostra as taxas de sucesso e os erros agregados de QUERY e EXECUTE no nível da integração. As etapas 1a a 1d mostram o detalhamento dessas métricas no nível de tipo/característica do dispositivo. 7a79bf5af81226f6.png

As etapas 1a e 1b mostram a tendência da contagem de solicitações de atendimento, a contagem de erros ao longo do tempo e os status de erro específicos.

Etapa 1a: analisar erros de consulta

20cd2e1e1114a9df.png 4220b5843d6a2973.png

Etapa 1b: analisar erros de execução

79ab571fa31b428f.png

As etapas 1c e 1d mostram o detalhamento do 90º e do 50º percentil dessas métricas no nível de integração e no nível de tipo de dispositivo.

Etapa 1c: analisar a latência da consulta

248735625f9af7cd.png

Etapa 1d: analisar a latência de execução

a71098ac39e06f74.png

4. Depuração: etapa 2: validar chamadas para o Google

Etapa 2: visão geral

Depois de depurar as chamadas do Google para o parceiro, esta segunda etapa aborda a depuração das chamadas da nuvem do parceiro para o Google. Esta seção aborda métricas no nível da integração de parceiros, não no nível do tipo de dispositivo. Isso inclui códigos de resposta como 400 Bad Request, 404 Not Found e 429 Resource Exhausted.

faab83706f20454e.png

Etapa 2a: depurar problemas de cota

O Google Home limita a alocação e o uso de recursos e aplica cotas apropriadas por projeto. O Google aplica o limite padrão de 6.000 solicitações a cada 60 segundos ao agregado das suas chamadas de API de consulta, exclusão, Report State e sincronização de solicitações assíncronas, por integração de nuvem para nuvem.

Problemas de cota podem afetar negativamente a precisão do estado do relatório, porque a falha ao concluir uma atualização de estado pode causar uma incompatibilidade. Confira abaixo gráficos com detalhamentos que mostram especificamente o estado do relatório e os erros de sincronização de solicitação, o detalhamento do método da API de contagem e erros, além da porcentagem de uso da cota. Se esses gráficos mostrarem um aumento inesperado no tráfego, revise sua integração para determinar se uma mudança está causando o envio de mais tráfego para a API Home Graph.

Em alguns cenários, como o crescimento natural do tráfego ao longo do tempo (por exemplo, o crescimento é consistente com um aumento no número de dispositivos, o lançamento de um novo tipo de dispositivo ou algum outro lançamento esperado), aumentar a cota da sua integração pode ser adequado. Para solicitar um aumento de cota, siga as etapas na documentação do desenvolvedor.

d3e5629af92bc88d.png

ccd9841590dc0b99.png

5. Depuração: etapa 3: melhorar a precisão do estado

Etapa 3: visão geral

Com as etapas 1 e 2 depuradas, a etapa 3 aborda a precisão do Report State (Informar estado), ou seja, os estados do dispositivo armazenados nos sistemas do Google, que são usados para atender às consultas dos usuários. Confira abaixo os detalhamentos por característica e tipo de dispositivo. As etapas 3a e 3b abordam dois erros comuns para Report State: erros de campo ausente e erros imprecisos.

9b37adcb554944f3.png

Etapa 3a: erros de "Campo ausente"

Os erros de "Campo ausente" ocorrem quando o conjunto de campos de payload difere entre uma resposta QUERY e uma solicitação de estado informada para um determinado dispositivo. O conjunto de campos no payload de cada dispositivo precisa ser o mesmo. Isso pode acontecer se a lógica para calcular o payload for diferente entre a consulta e a resposta do estado do relatório. Use os gráficos abaixo para rastrear quais tipos de dispositivos e características têm respostas de QUERY e estado do relatório incompatíveis.

a25f04014cc3c7bc.png

316b294e168e8bc9.png

Etapa 3b: erros "Imprecisos"

Os erros imprecisos ocorrem quando o conjunto de campos de payload é o mesmo entre uma resposta QUERY e uma solicitação de estado informada para um determinado dispositivo, mas os valores de estado são diferentes. Isso pode acontecer se um relatório de estado for perdido ou se a lógica para calcular o estado for diferente entre QUERY e um relatório de estado. Use os gráficos abaixo para rastrear quais tipos de dispositivos e características têm respostas de QUERY e estado do relatório incompatíveis.

b6fd9f6ee31a7bb7.png

d84829cca22b1b20.png

6. Outros documentos e recursos