監控智慧型住宅服務中斷情形

1. 事前準備

如「對智慧型住宅進行偵錯」程式碼研究室所述,我們會發布指標和記錄到您的智慧型住宅專案。指標可協助您判斷智慧家庭動作發生哪些問題,而記錄有助於深入瞭解解決這些問題。

dd44868a4ff2df6e.png

您可以利用專案提供的指標設定快訊,以便自動監控服務中斷情形,並在服務中斷時接收通知。我們正在發布可信度指標,目的是特別介紹專案的服務中斷情形,並在本程式碼研究室中介紹該專案,以及 Google Cloud Platform 提供的所有其他快訊工具。

必要條件

課程內容

  • 如何監控專案的效能問題和服務中斷情形。
  • 如何建立以門檻為準的快訊,並在服務中斷期間接收通知。
  • 如何利用系統為專案提供的可信度指標偵測服務中斷情形。

2. 監控效能

如要成功與 Google 智慧型住宅生態系統整合,監控效能至關重要。我們為 Google Cloud Platform 上的智慧型住宅開發人員提供一組監控工具。你可以使用這些工具瞭解專案成效。

存取資訊主頁

存取資料的第一個步驟是登入 Google Cloud 控制台,然後依序前往「作業」>「監控」>「資訊主頁」,查看 Google Home 資訊主頁。可以看到有幾種資訊主頁,智慧型住宅的資訊主頁會加上 Google Home Analytics (分析) 的前置字元。

317697e52ced2437.png

我們建立了個別的資訊主頁來呈現各種整合類型,雲端、本機和 Matter 整合作業有專屬的資訊主頁,而攝影機品質資訊主頁會提供攝影機串流通訊協定的資料。如果您已整合對應類型,以及有可執行要求的專案,這些資訊主頁就只會含有資料。

開啟其中一個資訊主頁後,您看到的資料檢視看起來會像這樣:

f8bfd69286c569a4.png

資訊主頁包含各種圖表,當中提供專案處理要求的詳細資料。每個整合資訊主頁都會提供一張圖表,顯示您的專案處理的要求總數、該整合類型的成功率圖表,以及數個圖表,顯示相關裝置類型和特徵。

以下三種圖表對於評估智慧住宅動作的成效至關重要:

f511fafd3aaaa1eb.png

在服務中斷期間,成功百分比通常會出現下降趨勢,而錯誤細目圖表則呈現上升趨勢。監控執行成功百分比有助於發現服務中斷,同時查看錯誤細目中最常見的錯誤,有助於偵錯。您可能也會發現服務中斷期間的延遲時間出現上升情況,如要求延遲圖表所示。

請注意,Google Home Analytics (分析) 資訊主頁的預設檢視模式,只是我們使用智慧型住宅指標資料為您的專案建立的資料檢視。您也可以使用 Metrics Explorer,運用相同的基礎指標自行建立圖表,並儲存至自訂資訊主頁。

Metrics Explorer

Metrics Explorer 工具能以視覺化方式呈現專案資料集內的跨區段。您可以在 Google Cloud 控制台中依序前往「作業」>「監控」>「Metrics Explorer」存取這項工具。

Google Cloud 提供多項立即可用的指標,包括部分與智慧型住宅無關的指標。我們為智慧型住宅提供的指標會列在「actions.googleapis.com/smarthome_action/...」資源底下,只要在指標選取方塊中輸入「smarthome」,就能輕鬆搜尋。

538d851edfd34764.png

如果搜尋「智慧型住宅」,系統就會在專案中加入所有智慧住宅指標。如要進一步瞭解各項指標,請參閱說明文件的「監控」和「記錄」頁面。

監控專案時,最簡單的指標就是「要求數」指標,也就是差異指標。這項指標會針對使用者啟動的每個智慧住宅裝置,留下一筆記錄,並記錄裝置類型、特徵、與執行動作相關的執行類型,以及顯示結果的狀態欄位。

如果選取這項指標,系統會顯示每個資料值區的畫面,如下所示:

b1c18141d15a0e09.png

基本上,針對這個指標中的所有資料標籤組合,值區都會存在值區,用於記錄先前時間間隔和目前時間間隔之間的變化 (差異)。您可以將這些值區分組或篩除,以取得所需的資料檢視資料片段。此外,資料會透過校正函式 (DELTA、MEAN、MEDIAN、SUM) 對齊所選時間間隔。除非其他必要,否則您通常會使用差異指標使用差異遷移指標。

您可以使用 Metrics Explorer 建立 Google Home Analytics (分析) 資訊主頁中的大多數圖表,然後將圖表儲存至自訂資訊主頁,方便日後存取。如要取得更複雜的檢視畫面 (例如比率圖表),您必須使用 MQL - Monitoring Query Language。

3. 成功指標

如要追蹤整合成功的成效,您可以透過我們根據要求數量指標計算出的成功率做為基準指標,也可以採用較專業的方法,查看系統是否更容易有信心。

成功

成功率的計算方式是將所有整合成功的要求數除以所有要求數。你可以在 Google Home Analytics (分析) 資訊主頁的執行要求成功率圖表中找到這項資訊。

55ea8930fbf48d9e.png

執行完成成功率圖表很適合用來監控專案成效,但在建立自訂資訊主頁或設定快訊時,這個圖表不太實用。成功率是衍生自要求數指標 (而非指標本身),因此您必須在 Metrics Explorer 中使用 MQL (Monitoring Query Language) 重新建立,才能與這兩項功能搭配使用。

此外,如要追蹤專案的效能中斷情形,我們認為您需要更專業的方法。因此,我們設計了可信度指標,並根據您目前的出貨成功率偏離歷史常規的程度來變動。

信心指標

對於專案中,服務中斷情形可存在各種型態與規模。他們可能只花了數小時到幾分鐘,因此可能難以辨別。因此,我們在您的專案中建立信賴指標,該指標會提供正規化值,以根據過往成效來預測可靠性。如要取得可信度指標,請在 Metrics Explorer 中搜尋智慧型住宅,然後選取「執行成功信心」即可。

ab467a1777281526.png

智慧型住宅整合的成效等於或高於歷來成效 (7 天平均值) 時,這項指標會輸出最大值 (1.0)。如果成功百分比偏離標準差的 4 個以上的係數 (同樣以 7 天計算),這項指標就會輸出最小值 (0.0)。如果標準誤差太小 (小於 2.5%),這項指標會以 0.0 值做為基準,成功率下降 10%。

針對各種情況,這項指標會提供介於 1.0 (完全確信沒有服務中斷) 和 0.0 (有服務中斷情形的可信度) 之間的值。

因此,設定快訊 (如下一節所述) 時,建議您採用 0.5 做為閾值。這與 2 個標準差或 5% 的標準偏差 (以較高者為準)。

4. 設定快訊

下一步是使用您在上一節中學到的所有內容,設定專案快訊。

建立快訊政策

Google Cloud Platform 的自動快訊是透過快訊政策進行設定。您可以在側邊選單「Operations」(作業) >「Monitoring」(監控) >「Alerting」(快訊) 分頁存取快訊政策。您可以選取「+CREATE POLICY」選項來建立新的快訊政策,即可前往快訊政策建立畫面:

6e417d88c2274b3d.png

建立快訊政策分為三個部分。首先請新增條件,決定您要追蹤的項目。按一下「新增條件」按鈕會開啟類似 Metrics Explorer 的視窗,其中包含其他用來設定條件的控制項:

df1ccf7da741e1c7.png

針對目標,選取上一節介紹的可信度指標。確認將「校正工具」設為使用這項指標的差異值 (「Show Advanced Options」>「Aligner」)。下一步是設定快訊觸發條件,並使用下列設定:

4192e0f4ea00dd28.png

符合下列情況時觸發條件:這是決定快訊觸發時機的主要設定,在我們為指標設定閾值並監控值是否超過升幅時,選取「Any timeSeries 入侵」即可正常運作。

條件 - 我們希望在值低於門檻時觸發快訊,因此將快訊設定為「低於」。對我們的指標而言,1.0 表示整合正常運作,0.0 則代表服務會絕對中斷。

門檻 - 我們已建立可信度指標,以便將這個值設為 0.5 時提供最佳結果。若要提高警示頻率,並在較少發生事件時收到通知,可嘗試提高這個值 (上限:1.0)。接下來,如果希望減少收到快訊的快訊,僅適用於較嚴重的問題,可以嘗試降低這個值 (最小值為 0.0)。

For (適用對象):這項設定會決定服務在收到快訊前應持續多久時間。建議將這項設定保持為最新值,以便在超過門檻時收到快訊。系統每 15 分鐘發布一次信心指標,評估這段期間的平均成效。

條件新增完畢後,下一步是選取通知管道。最簡單的通知方式是電子郵件快訊。您可以選取「通知管道」下拉式選單中列出的電子郵件:

3cc10629830e7f13.png

如果您勾選了「發生事件關閉時通知」選項,當事件標示為關閉後,系統就會傳送另一則通知。在這種情況下,請一併選取「事件自動關閉時間長度」,預設為 7 天。

最後一個步驟是為快訊命名,並加入要包含在通知中的任何文件。

686fb1c537fee10.png

建議您提供說明文件,尤其是如果您不是用來接收快訊的人員。增加在事件發生期間查看何處、如何分類及偵錯等步驟,能幫助服務中斷。如有需要,請參閱疑難排解指南

儲存後,快訊政策會列在「快訊」頁面的「政策」部分下方。

c71a001e4df035ee.png

5. 避免服務中斷

設定快訊後,在服務中斷時,我們會從您提供的通知管道通知您,「快訊」頁面則會建立事件項目。

接收警示

我們在本程式碼研究室中提供的快訊管道是電子郵件。設定後,希望您不會收到任何快訊 (沒有任何服務中斷),不過如果您收到通知,應會如下所示:

43217b0a145c2cd.png

請注意,快訊通知確實會提供超過您指定的門檻值,以及事件首次開始時的時間戳記。

監控事件

事件發生時,也會計入「快訊」頁面的「事件」部分。

fdd883a9604ed981.png

按一下特定事件即可查看相關詳細資料,例如服務中斷的時間長度或嚴重程度。

提醒您,收到快訊時,第一步是查看指標,然後在記錄檔中搜尋導致服務中斷的錯誤。您可以在對智慧型住宅進行偵錯程式碼研究室中,複習如何進行這些測試。

6. 恭喜

17d485868a6771bc.png

恭喜!您已順利學會如何使用專案提供的指標設定快訊,以自動的方式監控服務中斷情形,並在服務中斷期間接收通知。

後續步驟

建構本程式碼研究室後,您可以嘗試下列練習並瀏覽其他資源:

  • 您可以結合在本程式碼研究室中學到的知識,以及提供給專案的其他指標。如要查看可用指標的完整清單,請參閱 Monitoring 頁面的「支援的指標」部分。
  • 探索其他類型的通知管道,以便在 Google Cloud Platform 說明文件的通知選項頁面中查看快訊。