監控智慧型住宅服務中斷情形

1. 事前準備

如同智慧型家居偵錯程式碼研究室所述,我們會將指標和記錄發布至智慧型家居專案。指標可協助您判斷智慧家庭動作發生問題的所在位置,而記錄則可用於深入瞭解這些問題並加以解決。

dd44868a4ff2df6e.png

您可以使用提供給專案的指標設定快訊,以自動方式監控中斷情形,並在服務中斷期間收到通知。我們會發布信心指標,以便突顯專案中發生的異常情形。我們會在本程式碼研究室中介紹這項指標,以及 Google Cloud 提供的所有其他快訊工具。

必要條件

課程內容

  • 如何監控專案的效能問題和服務中斷情形。
  • 如何建立以門檻為依據的快訊,並在服務中斷期間收到通知。
  • 如何利用專案提供的信心指標來偵測服務中斷。

2. 監控成效

如要成功整合 Google Home 生態系統,請務必監控效能。我們會為Google Cloud 上的智慧住宅開發人員提供一組監控工具。您可以使用這些工具,瞭解專案的效能。

存取資訊主頁

如要存取資料,第一步是查看 Google Home 資訊主頁,方法是登入 Google Cloud 控制台,然後依序前往「作業」>「監控」>「資訊主頁」。您會看到多個可用的資訊主頁,智慧型家居的資訊主頁前置字串為「Google Home Analytics」。

317697e52ced2437.png

我們建立了個別資訊主頁,用來代表每種整合類型。Cloud、Local 和 Matter 整合服務都有專屬資訊主頁,攝影機串流通訊協定資料則會顯示在「攝影機品質」資訊主頁。只有在您整合了對應類型的服務,且有可滿足要求的有效專案時,這些資訊主頁才會顯示資料。

開啟其中一個資訊主頁時,您會看到類似下圖的檢視畫面:

f8bfd69286c569a4.png

資訊主頁包含各種圖表,顯示專案處理的要求詳細資料。每個整合資訊主頁都會顯示一張圖表,顯示專案處理的要求總數、該整合類型的成功率,以及幾張圖表,顯示相關的裝置類型和特徵。

以下三張圖表對於評估智慧家庭動作的成效至關重要:

f511fafd3aaaa1eb.png

在服務中斷期間,成功率通常會呈現下降趨勢,錯誤細目圖則會呈現上升趨勢。監控執行成功率有助於發現服務中斷情形,而查看錯誤細目中的前幾項錯誤,則有助於進行偵錯。您可能也會發現,在服務中斷期間,延遲時間會呈現上升趨勢,這可在要求延遲時間圖表中看到。

請注意,Google Home Analytics 資訊主頁中顯示的預設圖表檢視畫面,只是我們根據智慧型家居指標資料為專案建立的檢視畫面。您也可以使用 Metrics Explorer,根據相同的基礎指標建立自訂圖表,並儲存在自訂資訊主頁中。

Metrics Explorer

Metrics Explorer 是一項工具,可將專案資料集的橫斷面以圖表呈現。您可以在 Google Cloud 控制台中存取這項工具,方法是前往「作業」>「監控」>「Metrics Explorer」

Google Cloud 提供許多預設指標,其中有些與智慧型住宅無關。我們提供的智慧住家指標會列在「actions.googleapis.com/smarthome_action/...」資源下方,只要在指標選擇方塊中輸入「smarthome」,即可輕鬆搜尋。

538d851edfd34764.png

搜尋「smarthome」時,系統會顯示我們為專案提供的所有智慧住宅指標。您可以在說明文件的「監控」和「記錄」頁面中,取得各項指標的詳細資訊。

在監控專案時,最簡單的指標就是要求次數 (這是差異指標)。這個指標會記錄使用者啟動的每項智慧型家居執行作業,以及裝置類型、特徵、執行作業類型等欄位,以及顯示結果的狀態欄位。

選取這個指標後,畫面上會顯示各個資料桶,如下所示:

b1c18141d15a0e09.png

基本上,對於指標中每個資料標籤組合,都會有一個值區,用於記錄先前和目前時間間隔之間的變化 (差異)。您可以將這些區塊分組或篩除,以便取得所需的檢視資料切片。此外,系統會使用校正函式 (DELTA、MEAN、MEDIAN、SUM) 將資料校正為所選時間間隔。除非另有需要,否則您通常會使用 Delta 對齊功能搭配 Delta 指標。

你可以使用 Metrics Explorer 建立 Google Home Analytics 資訊主頁中提供的大部分圖表,並儲存圖表,以便日後在自訂資訊主頁中存取。如要建立更複雜的檢視畫面 (例如比率圖表),您必須使用 MQL (Monitoring Query Language)。

3. 成功指標

如要追蹤整合成功率,您可以使用我們根據請求計數指標計算的成功率做為基準指標,也可以使用成功機率做為更專業的做法。

成功 費率

計算所有整合的成功率時,請將成功的請求數量除以所有請求數量。你可以在 Google Home Analytics 資訊主頁的「執行成功率」圖表中查看這項資料。

55ea8930fbf48d9e.png

如要監控專案成效,訂單履行成功率圖表非常實用,但在建立自訂資訊主頁或設定快訊時,就沒有那麼實用。由於成功率是取自要求計數指標,而非單獨的指標,因此您必須在 Metrics Explorer 中使用 MQL (Monitoring Query Language) 重新建立指標,才能搭配這兩項功能使用。

此外,我們認為需要採用更專業的方法,才能追蹤專案的效能中斷情形。因此,我們建立了信賴指標,根據目前的履行成功率與歷來標準的差異程度進行調整。

可信度指標

專案的 Outage 可能有不同的形狀和大小。這些攻擊可能會持續數小時到數分鐘,因此很難識別。為此,我們在您的專案中建立了「信心指標」,提供經過標準化的值,以便根據過去的表現預測可靠性。您可以在指標探索器中搜尋 smarthome,然後選取「執行成功可信度」,即可存取可信度指標。

ab467a1777281526.png

如果智慧家庭整合功能的成效達到或高於歷來成效 (7 天平均值),這個指標就會輸出最大值 (1.0)。如果成效百分比的差異超過 4 個標準差 (同樣也是在 7 天內計算),這個指標會輸出最低值 (0.0)。如果標準差太小 (低於 2.5%),這個指標會以成功率下降 10% 為基礎,將 0.0 值設為 100%。

對於所有介於兩者之間的情況,此指標會提供介於 1.0 (完全確定沒有服務中斷) 和 0.0 (服務中斷的最大信心) 之間的值。

因此,在設定快訊 (下一節會說明) 時,建議您將 0.5 值設為門檻。這會對應到 2 標準差,或 5% 的降幅 (以較高者為準)

4. 設定快訊

接下來,您可以運用前一個部分學到的所有知識,在專案中設定警示。

建立快訊政策

您可以透過警告政策設定 Google Cloud 的自動警示。您可以透過側邊選單存取「Alerting」(快訊政策),方法是依序點選「Operations」>「Monitoring」>「Alerting」分頁標籤。您可以選取「+ 建立政策」選項,開啟建立快訊政策的畫面,然後建立新的快訊政策:

6e417d88c2274b3d.png

建立快訊政策的程序分為三部分。首先,您必須新增條件來決定要追蹤的內容。按下「ADD CONDITION」按鈕後,畫面上會顯示類似 Metrics Explorer 的視窗,其中包含一些額外的控制項,可用於設定條件:

df1ccf7da741e1c7.png

針對目標,選取我們在上一節中介紹的可信度指標。請確認「校正函式」已使用此指標設定為「差異」(依序點選「顯示進階選項」>「校正函式」)。下一步是設定快訊條件,並使用下列設定:

4192e0f4ea00dd28.png

條件觸發事件:這是主要設定,用於決定何時觸發快訊。選取「Any time series violates」即可,因為我們會為指標設定門檻,並監控是否超過該值。

條件:我們希望在值低於門檻時觸發快訊,因此將此設為「低於」。在我們的指標中,1.0 表示整合功能運作正常,0.0 則表示發生明顯中斷。

門檻:我們建立了可信度指標,在這個值設為 0.5 時,可提供最佳結果。如果您希望收到更頻繁的快訊,並在發生較少事件時收到通知,可以嘗試提高這個值 (上限為 1.0)。之後,如果您只想針對嚴重問題收到警示,可以嘗試降低這個值 (最小值 0.0)。

For:這個設定會指出系統要中斷多久才會發出警報。建議您將這項設定設為「最新值」,以便在任何點超出閾值時收到快訊。我們會每隔 15 分鐘發布信賴度指標,並查看該期間的平均成功率。

完成新增條件後,下一步是選取通知管道。最簡單的通知方式就是電子郵件快訊。您可以選取「Notification Channels」下拉式選單中的電子郵件:

3cc10629830e7f13.png

如果勾選「Notify on incident closure」(事件關閉時通知)選項,系統會在事件標示為關閉時傳送另一則通知。在這種情況下,您也應選取事件自動關閉期限,預設為 7 天。

最後一個步驟是為快訊命名,並新增要納入通知的任何說明文件。

686fb1c537fee10.png

建議提供相關文件,尤其是當您不是收到警報的使用者時。在事件發生期間檢查哪些位置,以及如何分類和偵錯等步驟,有助於在服務中斷期間提供協助。如有需要,請參閱疑難排解指南

儲存後,警告政策就會列在「警告」頁面的「政策」專區下。

c71a001e4df035ee.png

5. 緩解服務中斷情形

設定快訊後,系統會在服務中斷期間透過您提供的通知管道通知您,並在「快訊」頁面中建立事件項目。

接收快訊

本程式碼研究室提供的警示管道是電子郵件。設定完成後,您應該不會收到任何警報 (不會有任何服務中斷),但如果收到,通知會如下所示:

43217b0a145c2cd.png

請注意,警示通知會提供觀察到的值是否超過您指定的門檻,以及事件首次發生的時間戳記。

監控事件

發生事件時,系統也會在「快訊」頁面的「事件」部分計算這些事件。

fdd883a9604ed981.png

您可以按一下特定事件,查看中斷服務的詳細資料,例如中斷時間長度或嚴重程度。

請注意,收到警示時,最佳的第一步是查看指標,然後在記錄中搜尋導致服務中斷的錯誤。如要複習如何執行這些操作,請參閱智慧型家居偵錯程式碼研究室。

6. 恭喜

17d485868a6771bc.png

恭喜!您已成功瞭解如何使用專案提供的指標設定快訊,以自動方式監控中斷情形,並在服務中斷期間收到通知。

後續步驟

請參考本程式碼研究室的內容,嘗試下列練習,並探索其他資源:

  • 您可以將在本程式碼研究室中學到的知識,與專案提供的其他指標結合使用。如要查看可用指標的完整清單,請前往「Monitoring」頁面,然後點選「Supported Metrics」部分。
  • 如要瞭解其他類型的快訊管道,請參閱 Google Cloud 說明文件的「通知選項」頁面。