Google Home Vitals(云端)

借助这套信息中心和提醒,您可以主动维护与 Google Home 生态系统的高质量集成。Google 致力于支持合作伙伴为所有客户打造优质的生态系统

该信息中心包含三个部分,分别涵盖有助于提高整体集成质量的关键部分。

  1. Google 到合作伙伴的指标 - 衡量从 Google 到您的云后端的调用是否正常。

  2. 系统运行状况 - 从合作伙伴到 Google 的指标 - 衡量从您的系统到 Google 的调用的运行状况。

  3. 设备健康状况 - 状态准确性 - 衡量 Google 系统中存储的状态的准确性,这些状态用于处理用户查询。

如果指标未达到目标值,系统会以红色突出显示,表明存在可能会影响用户体验的问题。以下信息详细介绍了每种目标,以及它们对用户的重要性。

如果点击以下按钮后未直接进入信息中心,您可以选择概览页面,然后选择信息中心,再从我的信息中心列表中选择 Google Home Vitals 信息中心 (Cloud) 以查看信息中心。

转到信息中心

Google 到合作伙伴指标

查询/执行成功率 >= 99.5% 指标用于衡量用户命令的正确执行频率,有助于避免 Google 助理做出“我无法访问该设备”之类的回答,或错误地确认未执行的命令。

“成功”的定义是什么?

如果 Google Home 平台收到有效响应,表明预期操作已完成或所请求的状态已检索到,则交易会被标记为成功。

包含非阻塞异常(例如,SUCCESS 状态伴随 lowBattery 异常)的响应会被计为成功交易。 尽管有警告,但命令已到达设备,并且 intent 已得到满足。

“失败”的定义是什么?

在计算 QUERY 和 EXECUTE 成功率时,常见平台错误代码中标记为合作伙伴可采取行动的错误会被视为“失败”。此外,错误和异常中发现的错误也是“失败”,但以下情况除外:

失败异常
aboveMaximumLightEffectsDuration armLevelNeeded inOffMode
alreadyArmed bagFull lockedToRange
alreadyAtMax belowMinimumLightEffectsDuration lowBattery
alreadyAtMin binFull maxSpeedReached
alreadyClosed cancelArmingRestricted minSpeedReached
alreadyDisarmed deadBattery notSupported
alreadyDocked degreesOutOfRange 离线
alreadyInState deviceJammingDetected percentOutOfRange
alreadyLocked deviceNotMounted rangeTooClose
alreadyOff deviceNotReady remoteSetDisabled
alreadyOn deviceOffline safetyShutOff
alreadyOpen deviceTurnedOff targetAlreadyReached
alreadyPaused discreteOnlyOpenClose tooManyFailedAttempts
alreadyStarted functionNotSupported valueOutOfRange
alreadyStopped inAutoMode
alreadyUnlocked inEcoMode

查询/执行延迟时间(第 90 百分位)<= 1000 毫秒指标用于衡量所请求的操作的等待时间,有助于确保用户不必等待太长时间,例如等待几秒钟即可关闭灯。

延迟时间指标

延迟时间是衡量集成对最终用户响应速度的关键指标。该信息中心会跟踪第 90 百分位 (P90) 延迟时间,该指标代表“最慢”用户的体验(例如,P90 为 800 毫秒表示 90% 的请求在 800 毫秒或更短的时间内得到确认)。

Google 会针对状态检查和设备命令以不同的方式测量延迟时间,以确保技术准确性。

1. QUERY Latency(疑问)

此指标用于衡量 Google 请求设备的当前状态时的 Cloud-to-cloud 往返时间。

  • 开始:Google 会向您的执行方式网址调度 action.devices.QUERY 请求。
  • 测量窗口:云端接收、处理完整 HTTP 响应并将其传输回 Google 所用的时间。
  • 结束:Google 收到并确认来自您服务的最终响应载荷。

2. 执行延迟时间(操作)

此指标用于衡量 Google 向设备发送控制请求时,设备确认命令所用的时间。

  • 开始:Google 会向您的执行方式网址调度 action.devices.EXECUTE 请求。
  • 测量窗口:云端接收命令并返回确认响应所用的时间。
  • 结束:Google 收到 SUCCESSPENDINGOFFLINE 状态响应。
  • 技术范围:此指标用于衡量 Google 云与您的云之间的“响应确认”时间。它不会测量物理硬件(例如灯泡)完成物理状态变化所需的时间,因为这通常涉及云到云路径之外的本地网状网络延迟。

延迟时间缩短选项

地理位置路由的架构建议

如果无法实现任播 IP,我们建议采用以下经济实惠的替代方案,以确保用户由最近的区域数据中心提供服务。

  1. 全球负载均衡 (GLB)

    请使用全球应用负载平衡器(大多数主要云提供商都提供此服务),而不是静态路由。

    • 工作原理:您可以在网络边缘配置一个全局入口点 (网址)。负载平衡器会自动检测来自 Google 履单集群的请求的地理位置来源,并将流量路由到最近的区域性运行状况良好的后端。

    • 优势:此功能可提供任播的性能,同时大幅降低配置复杂性和成本。

  2. 地理位置感知型 DNS (GeoDNS)

    • 工作原理:配置 DNS 提供商,以根据 DNS 查询的地理位置将履单网址解析为不同的 IP 地址。

    • 实现:确保您的 DNS 提供商针对 Google 的出站流量点进行了优化。当 Google 的区域性履单服务(例如,美国、欧盟或亚洲)解析您的网域时,它们将收到相应特定区域中数据中心的 IP 地址。

应用层优化策略

除了基础架构级路由之外,您还可以在应用层实现以下策略,以缩短请求处理延迟时间。

  1. “Trampoline”代理方法

    如果您必须维护主数据中心,请使用区域轻量级代理服务器(跳转服务器)来处理初始握手。

    1. Google 访问您的全球网址。

    2. 区域代理(例如,轻量级 Nginx 或 Lambda 函数)接收请求。

    3. 代理通过内部高速骨干网将载荷转发到主数据库。

    优势:这可以缩短“TCP 握手”时间,而对于远程请求,这通常是延迟时间的最大因素。

  2. 访问令牌区域提示

    在账号关联 (OAuth) 过程中,您的系统可以识别用户的居住区域。

    实现:将地区标识符编码到向 Google 发出的 access_token 中。当 Google 发送履单请求时,您的网关可以立即检查令牌并将请求路由到正确的区域集群,而无需进行数据库查找。

系统运行状况 - 合作伙伴到 Google 的指标

保持成功率 >= 99.5% 有助于确保 Google Home 中的设备状态正确无误、设备已添加和移除、自动化操作已触发,以及历史记录事件显示在 Google Home app (GHA) 的“活动”标签页中。

成功率是根据 Google 在您的云端推送状态更新时返回的 HTTP 响应代码计算得出的。为确保合作伙伴不会因 Google 方面出现的基础设施问题而受到处罚,该指标会从故障次数中排除 Google 内部错误。纳入计算范围的 API 调用可在 HomeGraph API 参考文档中找到。

“成功”的定义是什么?

  • 2xx(成功):Home Graph 已成功接收并处理状态更新。

“失败”的定义是什么?

  • 4xx(合作伙伴错误):这些错误表示失败,表明从您的云发送的请求存在问题。常见代码包括:
    • 400 Bad Request:由于语法无效,服务器无法处理请求。常见原因包括 JSON 格式错误,或针对字符串值使用 null 而非 ""。
    • 404 Not Found:找不到所请求的资源。通常情况下,这意味着 Google 找不到所请求的设备。这也可能意味着用户账号未关联,或收到了无效的 agentUserId。确保 agentUserId 与 SYNC 响应中提供的值一致,并且您处理 DISCONNECT intent 的方式正确无误。
    • 429 资源已用尽:您的集成已超出其获配的配额。 如需了解配额管理方面的说明,请参阅信息中心中“第 1 步”部分的内容。

设备健康状况 - 状态准确性

如果状态准确度达到或超过 99.5%,有助于确保用户在查看设备状态或使用“智能管家”等 AI 功能时看到正确的结果。如果状态准确性较低,自动化操作可能无法触发,历史记录条目可能无法及时显示在 GHA 的“活动”标签页中。如需了解详情,请参阅报告状态

质量信息中心会使用两个不同的指标(总体准确度最低类型/特征组合)每小时跟踪一次。

1. 准确率组件

该指标源自 Google 可以根据已知的 intent 结果验证报告状态的“样本”。

2. 信息中心指标(每小时计算一次)

信息中心会根据 1 小时间隔计算准确率。如果某个小时的总样本数 (S_Total) 不足 100 个,则该小时的准确率将设置为 N/A

视图 1:总体准确率(全球平均值)

这表示您的集成在所有设备类型和特征组合中的总体准确性。它提供整个生态系统健康状况的加权平均值。

  • 计算方式:所有设备的总状态准确率 / 所有设备的总状态总数。

视图 2:最低类型/特征组合

这有助于确定集成中最不可靠的特定类别。这样可以防止高音量的高质量设备隐藏低音量的低质量设备。例如,如果您有大量灯具的状态准确度高于 99.5%,但开关的状态准确度较低,则表明需要改进开关,而平均值可能会掩盖这一问题。

  • 计算方式:所有特征 / 设备组合的状态准确率/状态总数的最小值。