Pemantauan Gangguan untuk Smart Home

1. Sebelum memulai

Seperti yang telah dibahas dalam codelab Men-debug Smart Home, kami memublikasikan metrik dan log ke project Smart Home Anda. Metrik membantu Anda menentukan tempat Action Smart Home Anda mengalami masalah, dan log berguna saat melakukan pembahasan mendalam untuk mengatasi masalah tersebut.

dd44868a4ff2df6e.png

Anda dapat menyiapkan pemberitahuan menggunakan metrik yang disediakan untuk project Anda guna memantau pemadaman layanan secara otomatis dan mendapatkan notifikasi selama gangguan layanan. Kami memublikasikan metrik keyakinan untuk menyoroti gangguan pada project Anda, yang akan kami bahas dalam codelab ini bersama semua alat pemberitahuan lainnya yang tersedia untuk Anda di Google Cloud.

Prasyarat

Yang akan Anda pelajari

  • Cara memantau masalah performa dan gangguan layanan di project Anda.
  • Cara membuat pemberitahuan berbasis nilai minimum dan menerima notifikasi selama gangguan.
  • Cara menggunakan metrik keyakinan yang diberikan ke project Anda untuk mendeteksi pemadaman.

2. Memantau Kinerja

Pemantauan performa sangat penting untuk keberhasilan integrasi dengan Ekosistem Google Home. Kami menyediakan serangkaian alat pemantauan kepada developer smart home di Google Cloud. Anda dapat menggunakan alat ini untuk mendapatkan gambaran tentang performa project Anda.

Mengakses Dasbor

Langkah pertama untuk mengakses data Anda adalah memeriksa dasbor Google Home, dengan login ke Konsol Google Cloud dan membuka Operations > Monitoring > Dashboards. Anda akan melihat bahwa ada sejumlah dasbor yang tersedia, dan dasbor untuk smart home dilengkapi dengan awalan Google Home Analytics.

317697e52ced2437.png

Kami membuat dasbor terpisah untuk mewakili setiap jenis integrasi. Integrasi Cloud, Lokal, dan Matter memiliki dasbornya sendiri dan data untuk protokol streaming kamera disediakan di dasbor Kualitas Kamera. Dasbor ini hanya akan berisi data jika Anda memiliki integrasi jenis yang sesuai, beserta project yang berfungsi untuk memenuhi permintaan.

Saat membuka salah satu dasbor ini, tampilan yang Anda dapatkan akan terlihat seperti berikut:

f8bfd69286c569a4.png

Dasbor berisi berbagai diagram yang menampilkan detail permintaan yang ditangani oleh project Anda. Dengan setiap dasbor integrasi, Anda akan melihat diagram yang menampilkan jumlah total permintaan yang ditangani oleh project Anda, diagram yang menampilkan tingkat keberhasilan untuk jenis integrasi tersebut, dan beberapa diagram yang menampilkan jenis dan karakteristik perangkat yang terlibat.

Ada tiga diagram yang penting untuk menilai performa tindakan Smart Home Anda:

f511fafd3aaaa1eb.png

Selama pemadaman, Anda biasanya akan melihat tren menurun pada persentase keberhasilan dan tren naik pada diagram perincian error. Memantau persentase keberhasilan eksekusi membantu untuk melihat pemadaman, sementara melihat error teratas dalam perincian error dapat membantu proses debug. Anda mungkin juga mengamati tren peningkatan latensi selama pemadaman, yang dapat Anda lihat di diagram latensi permintaan.

Perhatikan bahwa tampilan default dengan diagram yang Anda lihat di dasbor Google Home Analytics hanyalah tampilan yang kami buat untuk project Anda menggunakan data metrik smart home. Anda juga dapat menggunakan Metrics Explorer untuk membuat diagram sendiri dari metrik dasar yang sama dan menyimpannya di dasbor kustom.

Metrics Explorer

Metrics Explorer adalah alat untuk memvisualisasikan bagian dari set data project Anda. Alat ini dapat diakses di Konsol Google Cloud dengan membuka Operasi > Pemantauan > Metrics Explorer.

Google Cloud menyediakan banyak metrik yang berbeda secara langsung, termasuk beberapa metrik yang tidak terkait dengan smart home. Metrik yang kami sediakan untuk smart home tercantum di bagian resource "actions.googleapis.com/smarthome_action/...", dan dapat ditelusuri dengan mudah dengan mengetik "smarthome" di kotak pilihan metrik.

538d851edfd34764.png

Menelusuri "smarthome" akan menampilkan semua metrik smart home yang kami berikan ke project Anda. Anda bisa mendapatkan informasi mendetail tentang setiap metrik kami di halaman Pemantauan dan Logging dalam dokumentasi kami.

Dalam hal memantau project, metrik paling sederhana yang dapat digunakan adalah metrik Jumlah permintaan (yang merupakan metrik delta). Metrik ini mencatat entri untuk setiap eksekusi smart home yang dimulai oleh pengguna Anda dan mencatat kolom seperti jenis perangkat, karakteristik, jenis eksekusi yang terlibat dalam eksekusi, dan kolom status yang menunjukkan hasilnya.

Memilih metrik ini akan menghasilkan layar yang menampilkan setiap bucket data yang mirip dengan berikut:

b1c18141d15a0e09.png

Pada dasarnya, untuk setiap kombinasi label data yang ada dalam metrik ini, terdapat bucket yang mencatat perubahan (delta) antara interval waktu sebelumnya dan saat ini. Anda dapat mengelompokkan atau memfilter bucket ini untuk mendapatkan slice data tampilan yang diinginkan. Selain itu, data disejajarkan ke dalam interval waktu yang dipilih dengan fungsi penyelarasan (DELTA, MEAN, MEDIAN, SUM). Kecuali jika diperlukan, Anda biasanya akan menggunakan perataan Delta dengan metrik delta.

Anda dapat membuat sebagian besar diagram yang tersedia di dasbor Google Home Analytics menggunakan Metrics Explorer dan menyimpan diagram untuk diakses nanti di dasbor kustom. Untuk mendapatkan tampilan yang lebih kompleks, seperti diagram rasio, Anda harus menggunakan MQL - Monitoring Query Language.

3. Metrik Keberhasilan

Untuk melacak keberhasilan integrasi, Anda dapat menggunakan rasio keberhasilan yang kami hitung dari metrik jumlah permintaan sebagai indikator dasar pengukuran, atau keyakinan keberhasilan untuk pendekatan yang lebih khusus.

Rasio Keberhasilan

Tingkat keberhasilan dihitung untuk semua integrasi Anda dengan membagi jumlah permintaan yang berhasil dengan semua permintaan. Anda dapat mengaksesnya dari diagram Rasio Keberhasilan Fulfillment di Dasbor Google Home Analytics.

55ea8930fbf48d9e.png

Diagram Rasio Keberhasilan Fulfillment sangat berguna untuk memantau performa project Anda, tetapi tidak terlalu berguna saat membuat dasbor kustom atau menyiapkan pemberitahuan. Karena rasio keberhasilan berasal dari metrik jumlah permintaan, dan bukan metrik itu sendiri, Anda harus membuatnya ulang menggunakan MQL (Monitoring Query Language) di Metrics Explorer untuk menggunakannya dengan salah satu fitur.

Selain itu, untuk melacak gangguan performa pada project Anda, kami rasa pendekatan yang jauh lebih khusus diperlukan. Itulah sebabnya kami telah membuat metrik keyakinan yang berubah berdasarkan seberapa besar tingkat keberhasilan fulfillment Anda saat ini menyimpang dari norma historis.

Metrik Keyakinan

Gangguan dapat terjadi dalam berbagai bentuk dan ukuran untuk project. Serangan ini dapat berlangsung beberapa jam hingga hanya beberapa menit, sehingga sulit untuk mengidentifikasinya. Untuk itu, kami telah membuat Metrik Keyakinan di project Anda, yang memberikan nilai ternormalisasi untuk memprediksi keandalan berdasarkan performa sebelumnya. Anda dapat mengakses metrik keyakinan dengan menelusuri smarthome di Metrics Explorer, lalu memilih Keyakinan keberhasilan eksekusi.

ab467a1777281526.png

Jika integrasi smart home Anda berperforma sama dengan atau lebih tinggi dari performa historis (rata-rata 7 hari), metrik ini akan menghasilkan nilai maksimum (1,0). Jika persentase keberhasilan Anda menyimpang lebih dari faktor 4 deviasi standar (juga dihitung selama 7 hari), metrik ini akan menampilkan nilai minimum (0,0). Untuk kasus saat deviasi standar terlalu kecil (kurang dari 2,5%), metrik ini mendasarkan nilai 0,0 pada penurunan 10% pada persentase keberhasilan.

Untuk semua kasus di antaranya, metrik ini memberikan nilai antara 1,0 (sangat yakin bahwa tidak ada pemadaman) dan 0,0 (keyakinan maksimum bahwa ada pemadaman).

Oleh karena itu, saat menetapkan pemberitahuan (akan muncul di bagian berikutnya), sebaiknya tetapkan nilai 0,5 sebagai nilai minimum. Hal ini akan sesuai dengan 2 deviasi standar, atau penurunan 5%, mana saja yang lebih tinggi.

4. Menyiapkan Pemberitahuan

Langkah berikutnya adalah menggunakan semua yang telah Anda pelajari di bagian sebelumnya untuk menyiapkan pemberitahuan di project Anda.

Membuat Kebijakan Pemberitahuan

Pemberitahuan otomatis di Google Cloud ditetapkan melalui Kebijakan Pemberitahuan. Anda dapat mengakses Kebijakan Pemberitahuan melalui menu samping, tab Operations > Monitoring > Alerting. Anda dapat membuat kebijakan pemberitahuan baru dengan memilih opsi +CREATE POLICY, yang akan mengarahkan Anda ke layar pembuatan kebijakan pemberitahuan:

6e417d88c2274b3d.png

Ada tiga bagian dalam membuat kebijakan pemberitahuan. Pertama, Anda harus menentukan hal yang ingin dilacak dengan menambahkan kondisi. Menekan tombol TAMBAHKAN KONDISI akan menampilkan jendela yang mirip dengan Metrics Explorer, dengan beberapa kontrol tambahan untuk mengonfigurasi kondisi:

df1ccf7da741e1c7.png

Untuk target, pilih metrik keyakinan yang telah kita bahas di bagian sebelumnya. Pastikan aligner disetel ke delta menggunakan metrik ini (Tampilkan Opsi Lanjutan > Aligner). Langkah berikutnya adalah mengonfigurasi kondisi pemberitahuan dan menggunakan setelan berikut:

4192e0f4ea00dd28.png

Kondisi dipicu jika - Ini adalah konfigurasi utama untuk menentukan kapan harus memicu pemberitahuan. Memilih Any time series violates akan berfungsi karena kita akan menetapkan nilai minimum pada metrik dan memantau apakah nilai tersebut terlampaui.

Condition - Kita ingin pemberitahuan dipicu saat nilai turun di bawah nilai minimum, jadi kita akan menetapkannya ke is below. Dengan metrik kami, 1,0 berarti integrasi berfungsi dengan baik dan 0,0 menunjukkan pemadaman layanan yang pasti.

Nilai minimum - Kami telah membuat metrik keyakinan untuk memberikan hasil terbaik saat nilai ini ditetapkan ke 0,5. Jika ingin mendapatkan pemberitahuan yang lebih sering dan mendapatkan notifikasi untuk insiden yang lebih kecil, Anda dapat mencoba menaikkan nilai ini (maks.1,0). Selanjutnya, jika Anda ingin mendapatkan pemberitahuan lebih sedikit, hanya untuk masalah yang lebih serius, Anda dapat mencoba mengurangi nilai ini (min 0,0).

Selama - Ini adalah setelan untuk mengidentifikasi durasi pemadaman layanan sebelum Anda mendapatkan pemberitahuan. Sebaiknya tetapkan setelan ini ke nilai terbaru untuk mendapatkan pemberitahuan saat titik mana pun melampaui nilai minimum. Metrik keyakinan kami dipublikasikan setiap 15 menit, dengan melihat keberhasilan rata-rata dalam periode tersebut.

Setelah Anda selesai menambahkan kondisi, langkah berikutnya adalah memilih saluran notifikasi. Metode notifikasi yang paling sederhana adalah pemberitahuan email. Anda dapat memilih email yang tercantum di dropdown Notification Channels:

3cc10629830e7f13.png

Jika Anda mencentang opsi Beri tahu saat insiden ditutup, akan ada notifikasi lain yang dikirim setelah insiden ditandai sebagai ditutup. Dalam hal ini, Anda juga harus memilih Durasi penutupan insiden otomatis, yang ditentukan sebagai 7 hari secara default.

Langkah terakhir adalah memberi nama pemberitahuan, dan menambahkan dokumentasi apa pun yang ingin Anda sertakan dalam notifikasi.

686fb1c537fee10.png

Sebaiknya berikan dokumentasi, terutama jika Anda bukan orang yang akan menerima pemberitahuan. Menambahkan langkah-langkah seperti tempat untuk memeriksa selama insiden dan cara melakukan triage dan proses debug dapat membantu selama pemadaman layanan. Anda dapat membaca Panduan Pemecahan Masalah kami sesuai kebutuhan.

Setelah disimpan, kebijakan pemberitahuan Anda akan tercantum di bagian Kebijakan di halaman Pemberitahuan.

c71a001e4df035ee.png

5. Mitigasi Pemadaman Layanan

Setelah menyiapkan pemberitahuan, Anda akan diberi tahu selama pemadaman dari saluran notifikasi yang Anda berikan, serta entri insiden akan dibuat di halaman Pemberitahuan.

Menerima Notifikasi

Saluran pemberitahuan yang kami berikan dalam codelab ini adalah email. Setelah menetapkan, semoga Anda tidak menerima pemberitahuan apa pun (tidak mengalami pemadaman layanan), tetapi jika Anda menerimanya, notifikasi akan terlihat seperti berikut:

43217b0a145c2cd.png

Perhatikan bahwa notifikasi pemberitahuan memberikan nilai yang diamati yang melampaui nilai minimum yang Anda tentukan, serta stempel waktu yang menjelaskan kapan insiden pertama kali dimulai.

Memantau Insiden

Saat terjadi, insiden juga akan dihitung di bagian insiden di halaman Pemberitahuan.

fdd883a9604ed981.png

Anda dapat mengklik insiden tertentu untuk melihat detail terkait pemadaman, seperti durasi atau tingkat keparahannya.

Ingat, saat Anda menerima pemberitahuan, langkah pertama terbaik adalah melihat metrik, lalu menelusuri error yang berkontribusi pada pemadaman layanan di log. Anda dapat mengulang materi tentang cara melakukannya di codelab Men-debug Smart Home.

6. Selamat

17d485868a6771bc.png

Selamat! Anda telah berhasil mempelajari cara menyiapkan pemberitahuan menggunakan metrik yang disediakan untuk project Anda guna memantau pemadaman layanan secara otomatis dan mendapatkan notifikasi selama gangguan layanan.

Langkah berikutnya

Dari Codelab ini, coba latihan berikut dan jelajahi resource tambahan:

  • Anda dapat menggabungkan hal-hal yang telah Anda pelajari dalam codelab ini dengan metrik lain yang disediakan untuk project Anda. Anda dapat melihat daftar lengkap metrik yang tersedia di bagian Metrik yang Didukung di halaman Pemantauan.
  • Pelajari jenis saluran notifikasi lain untuk pemberitahuan yang dijelaskan di halaman Opsi Notifikasi dalam dokumentasi Google Cloud.