การตรวจสอบการหยุดทำงานของสมาร์ทโฮม

1. ก่อนเริ่มต้น

ดังที่เราได้กล่าวไว้ใน Codelab การแก้ไขข้อบกพร่องของสมาร์ทโฮม เรากำลังเผยแพร่เมตริกและบันทึกไปยังโปรเจ็กต์สมาร์ทโฮมของคุณ เมตริกช่วยให้คุณทราบว่า Smart Home Action มีปัญหาตรงไหน และบันทึกมีประโยชน์เมื่อต้องการเจาะลึกเพื่อแก้ปัญหาเหล่านี้

dd44868a4ff2df6e.png

คุณตั้งค่าการแจ้งเตือนได้โดยใช้เมตริกที่ระบุไว้ในโปรเจ็กต์เพื่อตรวจสอบการหยุดทำงานโดยอัตโนมัติและรับการแจ้งเตือนเมื่อบริการขัดข้อง เราจะเผยแพร่เมตริกความเชื่อมั่นเพื่อไฮไลต์การหยุดชะงักของโปรเจ็กต์ ซึ่งเราจะกล่าวถึงในโค้ดแล็บนี้พร้อมกับเครื่องมือการแจ้งเตือนอื่นๆ ทั้งหมดที่มีให้คุณใช้งานใน Google Cloud

ข้อกำหนดเบื้องต้น

สิ่งที่คุณจะได้เรียนรู้

  • วิธีตรวจสอบปัญหาด้านประสิทธิภาพและการหยุดชะงักของบริการในโปรเจ็กต์
  • วิธีสร้างการแจ้งเตือนตามเกณฑ์และรับการแจ้งเตือนในระหว่างที่เกิดการหยุดชะงัก
  • วิธีใช้เมตริกความเชื่อมั่นที่ระบุไว้ในโปรเจ็กต์เพื่อตรวจหาการหยุดทำงาน

2. การตรวจสอบประสิทธิภาพ

การตรวจสอบประสิทธิภาพเป็นสิ่งสำคัญสำหรับการผสานรวมกับระบบนิเวศของ Google Home ให้ประสบความสำเร็จ เรามีชุดเครื่องมือตรวจสอบสำหรับนักพัฒนาสมาร์ทโฮมใน Google Cloud คุณสามารถใช้เครื่องมือเหล่านี้เพื่อดูประสิทธิภาพของโปรเจ็กต์

การเข้าถึงแดชบอร์ด

ขั้นตอนแรกในการเข้าถึงข้อมูลคือการตรวจสอบแดชบอร์ด Google Home โดยการเข้าสู่ระบบ Google Cloud Console แล้วไปที่การดำเนินการ > การตรวจสอบ > แดชบอร์ด คุณจะเห็นว่ามีแดชบอร์ดหลายรายการให้ใช้งาน และแดชบอร์ดสำหรับสมาร์ทโฮมจะมีคำนำหน้าเป็น Google Home Analytics

317697e52ced2437.png

เราได้สร้างแดชบอร์ดแต่ละรายการเพื่อแสดงการผสานรวมแต่ละประเภท การผสานรวมระบบคลาวด์ ระบบในพื้นที่ และ Matter จะมีแดชบอร์ดของตัวเอง และระบบจะให้ข้อมูลสำหรับโปรโตคอลการสตรีมกล้องในแดชบอร์ดคุณภาพกล้อง แดชบอร์ดเหล่านี้จะมีข้อมูลเฉพาะในกรณีที่คุณมีการผสานรวมประเภทที่เกี่ยวข้อง พร้อมด้วยโปรเจ็กต์ที่ใช้งานได้ซึ่งตอบสนองคำขอ

เมื่อเปิดแดชบอร์ดใดแดชบอร์ดหนึ่งเหล่านี้ มุมมองที่คุณเห็นจะมีลักษณะดังนี้

f8bfd69286c569a4.png

แดชบอร์ดมีแผนภูมิต่างๆ ที่แสดงรายละเอียดของคำขอที่โปรเจ็กต์จัดการ ในแดชบอร์ดการผสานรวมแต่ละรายการ คุณจะเห็นแผนภูมิที่แสดงจำนวนคำขอทั้งหมดที่โปรเจ็กต์จัดการ แผนภูมิที่แสดงอัตราความสำเร็จสำหรับประเภทการผสานรวมนั้น และแผนภูมิหลายรายการที่แสดงประเภทอุปกรณ์และลักษณะที่เกี่ยวข้อง

มีแผนภูมิ 3 รายการที่สำคัญต่อการประเมินประสิทธิภาพของการดำเนินการในสมาร์ทโฮม

f511fafd3aaaa1eb.png

ในระหว่างที่เกิดการหยุดทำงาน คุณมักจะเห็นแนวโน้มขาลงในเปอร์เซ็นต์ความสำเร็จและแนวโน้มขาขึ้นในแผนภูมิรายละเอียดข้อผิดพลาด การตรวจสอบเปอร์เซ็นต์ความสำเร็จในการดำเนินการจะช่วยให้ทราบถึงการหยุดทำงาน ขณะที่การดูข้อผิดพลาดยอดนิยมในการแบ่งข้อผิดพลาดจะช่วยในการแก้ไขข้อบกพร่อง นอกจากนี้ คุณอาจเห็นแนวโน้มที่เวลาในการตอบสนองเพิ่มขึ้นในระหว่างที่เกิดการหยุดทำงาน ซึ่งคุณจะเห็นได้ในแผนภูมิเวลาในการตอบสนองของคำขอ

โปรดทราบว่ามุมมองเริ่มต้นที่มีแผนภูมิซึ่งคุณเห็นในแดชบอร์ดข้อมูลวิเคราะห์ของ Google Home เป็นเพียงมุมมองที่เราสร้างขึ้นสําหรับโปรเจ็กต์ของคุณโดยใช้ข้อมูลเมตริกสมาร์ทโฮม นอกจากนี้ คุณยังใช้เครื่องมือสํารวจเมตริกเพื่อสร้างแผนภูมิของคุณเองจากเมตริกพื้นฐานเดียวกันและบันทึกไว้ในแดชบอร์ดที่กําหนดเองได้ด้วย

เครื่องมือสำรวจเมตริก

เครื่องมือสำรวจเมตริกเป็นเครื่องมือที่ใช้แสดงภาพส่วนตัดขวางของชุดข้อมูลของโปรเจ็กต์ คุณเข้าถึงเครื่องมือนี้ได้ใน Google Cloud Console โดยไปที่การดำเนินการ > การตรวจสอบ > ตัวสํารวจเมตริก

Google Cloud มีเมตริกที่แตกต่างกันมากมายให้คุณพร้อมใช้งาน รวมถึงเมตริกบางอย่างที่ไม่เกี่ยวข้องกับสมาร์ทโฮม เมตริกที่เรามีให้สำหรับบ้านอัจฉริยะจะแสดงอยู่ในทรัพยากร "actions.googleapis.com/smarthome_action/..." และค้นหาได้ง่ายๆ เพียงพิมพ์ "smarthome" ในช่องการเลือกเมตริก

538d851edfd34764.png

การค้นหา "สมาร์ทโฮม" จะแสดงเมตริกสมาร์ทโฮมทั้งหมดที่เรามีให้ในโปรเจ็กต์ ดูข้อมูลโดยละเอียดเกี่ยวกับเมตริกแต่ละรายการได้ในหน้าการตรวจสอบและการบันทึกของเอกสารประกอบ

เมื่อพูดถึงการตรวจสอบโปรเจ็กต์ เมตริกที่ง่ายที่สุดในการอ้างอิงคือเมตริกจำนวนคำขอ (ซึ่งเป็นเมตริกเดลต้า) เมตริกนี้จะบันทึกรายการสำหรับการดำเนินการสมาร์ทโฮมแต่ละรายการที่ผู้ใช้เริ่ม และบันทึกช่องต่างๆ เช่น ประเภทอุปกรณ์ ลักษณะ ประเภทการดำเนินการที่เกี่ยวข้องกับการดำเนินการ และช่องสถานะที่แสดงผลลัพธ์

การเลือกเมตริกนี้จะแสดงหน้าจอที่แสดงกลุ่มข้อมูลแต่ละกลุ่มคล้ายกับตัวอย่างต่อไปนี้

b1c18141d15a0e09.png

กล่าวโดยสรุปคือ สำหรับป้ายกำกับข้อมูลทุกชุดที่อยู่ในเมตริกนี้ จะมีที่เก็บข้อมูลที่บันทึกการเปลี่ยนแปลง (เดลต้า) ระหว่างช่วงเวลาที่แล้วกับช่วงเวลาปัจจุบัน คุณสามารถจัดกลุ่มหรือกรองที่เก็บข้อมูลเหล่านี้เพื่อรับข้อมูลชิ้นส่วนของมุมมองที่ต้องการได้ นอกจากนี้ ระบบจะจัดแนวข้อมูลเป็นช่วงเวลาที่เลือกด้วยฟังก์ชันการจัดแนว (DELTA, MEAN, MEDIAN, SUM) โดยปกติแล้ว คุณจะใช้การจัดแนวเดลต้ากับเมตริกเดลต้า เว้นแต่จะจำเป็นต้องใช้การจัดแนวอื่น

คุณสามารถสร้างแผนภูมิส่วนใหญ่ที่มีอยู่ในแดชบอร์ดข้อมูลวิเคราะห์ของ Google Home ได้โดยใช้เครื่องมือสํารวจเมตริก และบันทึกแผนภูมิเพื่อเข้าถึงในภายหลังในแดชบอร์ดที่กําหนดเอง หากต้องการสร้างมุมมองที่ซับซ้อนมากขึ้น เช่น แผนภูมิอัตราส่วน คุณจะต้องใช้ MQL - Monitoring Query Language

3. มาตรวัดความสำเร็จ

เมื่อพูดถึงการติดตามความสําเร็จของการผสานรวม คุณสามารถใช้ทั้งอัตราความสําเร็จที่เราคํานวณจากเมตริกจํานวนคําขอเป็นตัวบ่งชี้พื้นฐาน หรือความเชื่อมั่นในความสําเร็จสําหรับแนวทางที่เฉพาะเจาะจงมากขึ้น

อัตราความสำเร็จ

ระบบจะคำนวณอัตราความสำเร็จของการผสานรวมทั้งหมดโดยการหารจำนวนคำขอที่สำเร็จด้วยคำขอทั้งหมด คุณเข้าถึงได้จากแผนภูมิอัตราความสำเร็จในการดำเนินการในแดชบอร์ดข้อมูลวิเคราะห์ของ Google Home

55ea8930fbf48d9e.png

แผนภูมิอัตราความสำเร็จในการดำเนินการมีประโยชน์อย่างยิ่งในการตรวจสอบประสิทธิภาพของโปรเจ็กต์ แต่จะไม่มีประโยชน์มากนักเมื่อสร้างแดชบอร์ดที่กำหนดเองหรือตั้งค่าการแจ้งเตือน เนื่องจากอัตราความสำเร็จได้มาจากเมตริกจำนวนคำขอ ไม่ใช่เมตริกในตัว คุณจะต้องสร้างเมตริกนี้ใหม่โดยใช้ MQL (Monitoring Query Language) ในเครื่องมือสำรวจเมตริกเพื่อใช้กับฟีเจอร์ใดฟีเจอร์หนึ่ง

นอกจากนี้ เราคิดว่าจำเป็นต้องมีแนวทางที่เฉพาะเจาะจงมากขึ้นในการติดตามการหยุดชะงักของประสิทธิภาพในโปรเจ็กต์ของคุณ เราจึงสร้างเมตริกความเชื่อมั่นที่จะเปลี่ยนแปลงตามอัตราความสำเร็จในการปฏิบัติตามคำสั่งซื้อในปัจจุบันที่เบี่ยงเบนไปจากค่าปกติในอดีต

เมตริกความเชื่อมั่น

การหยุดทำงานอาจมีรูปร่างและขนาดแตกต่างกันไปสำหรับแต่ละโปรเจ็กต์ โดยอาจมีระยะเวลาตั้งแต่หลายชั่วโมงไปจนถึงไม่กี่นาที ซึ่งอาจทำให้การระบุเป็นเรื่องยาก ด้วยเหตุนี้ เราจึงสร้างเมตริกความเชื่อมั่นในโปรเจ็กต์ของคุณ ซึ่งจะให้ค่าที่ปรับแล้วสำหรับการคาดการณ์ความน่าเชื่อถือตามประสิทธิภาพที่ผ่านมา คุณเข้าถึงเมตริกความเชื่อมั่นได้โดยค้นหาบ้านอัจฉริยะในเครื่องมือสํารวจเมตริก แล้วเลือกความเชื่อมั่นในการดําเนินการสําเร็จ

ab467a1777281526.png

เมื่อการผสานรวมสมาร์ทโฮมมีประสิทธิภาพตามหรือสูงกว่าประสิทธิภาพที่ผ่านมา (ค่าเฉลี่ย 7 วัน) เมตริกนี้จะแสดงค่าสูงสุด (1.0) เมื่อเปอร์เซ็นต์ความสำเร็จเบี่ยงเบนมากกว่า 4 ส่วนเบี่ยงเบนมาตรฐาน (ซึ่งคำนวณในช่วง 7 วันด้วย) เมตริกนี้จะแสดงค่าต่ำสุด (0.0) ในกรณีที่ค่าเบี่ยงเบนมาตรฐานน้อยเกินไป (น้อยกว่า 2.5%) เมตริกนี้จะกำหนดค่า 0.0 เมื่อเปอร์เซ็นต์ความสำเร็จลดลง 10%

สำหรับกรณีอื่นๆ ทั้งหมด เมตริกนี้จะให้ค่าระหว่าง 1.0 (มั่นใจอย่างยิ่งว่าไม่มีการหยุดทำงาน) กับ 0.0 (มั่นใจอย่างยิ่งว่ามีการหยุดทำงาน)

ดังนั้นเมื่อตั้งค่าการแจ้งเตือน (จะกล่าวถึงในส่วนถัดไป) เราขอแนะนำให้ใช้ค่า 0.5 เป็นเกณฑ์ ซึ่งจะสอดคล้องกับการเบี่ยงเบนมาตรฐาน 2 รายการ หรือการลดลง 5% แล้วแต่ว่าจำนวนใดจะสูงกว่า

4. การตั้งค่าการแจ้งเตือน

ขั้นตอนถัดไปคือการใช้ทุกสิ่งที่คุณได้เรียนรู้ในส่วนก่อนหน้าเพื่อตั้งค่าการแจ้งเตือนในโปรเจ็กต์

การสร้างนโยบายการแจ้งเตือน

การแจ้งเตือนอัตโนมัติใน Google Cloud จะตั้งค่าผ่านนโยบายการแจ้งเตือน คุณเข้าถึงนโยบายการแจ้งเตือนได้ผ่านเมนูด้านข้าง แท็บการดำเนินการ > การตรวจสอบ > การแจ้งเตือน คุณสร้างนโยบายการแจ้งเตือนใหม่ได้โดยเลือกตัวเลือก +สร้างนโยบาย ซึ่งจะนำคุณไปยังหน้าจอการสร้างนโยบายการแจ้งเตือน

6e417d88c2274b3d.png

การสร้างนโยบายการแจ้งเตือนแบ่งออกเป็น 3 ส่วน ก่อนอื่นคุณต้องกำหนดสิ่งที่จะติดตามโดยการเพิ่มเงื่อนไข การกดปุ่มเพิ่มเงื่อนไขจะแสดงหน้าต่างที่คล้ายกับเครื่องมือสํารวจเมตริก พร้อมตัวควบคุมเพิ่มเติมสําหรับการกําหนดค่าเงื่อนไข

df1ccf7da741e1c7.png

สําหรับเป้าหมาย ให้เลือกเมตริกความเชื่อมั่นที่เรากล่าวถึงในส่วนก่อนหน้า ตรวจสอบว่าได้ตั้งค่าเครื่องมือจัดแนวเป็นเดลต้าโดยใช้เมตริกนี้ (แสดงตัวเลือกขั้นสูง > เครื่องมือจัดแนว) ขั้นตอนถัดไปคือการกำหนดค่าเงื่อนไขการแจ้งเตือนและการใช้การตั้งค่าต่อไปนี้

4192e0f4ea00dd28.png

ทริกเกอร์เงื่อนไขหาก - นี่คือการกำหนดค่าหลักเพื่อกำหนดเวลาที่จะทริกเกอร์การแจ้งเตือน การเลือกอนุกรมเวลาใดก็ตามที่ละเมิดจะทํางานตามที่เราจะกําหนดเกณฑ์ในเมตริกและตรวจสอบว่าค่าเกินเกณฑ์หรือไม่

เงื่อนไข - เราต้องการให้ระบบทริกเกอร์การแจ้งเตือนเมื่อค่าลดลงต่ำกว่าเกณฑ์ จึงจะตั้งค่านี้เป็นต่ำกว่า เมตริกของเรามีค่า 1.0 หมายความว่าการผสานรวมทำงานได้ดี และ 0.0 หมายความว่าเกิดการหยุดทำงานอย่างแน่นอน

เกณฑ์ - เราได้สร้างเมตริกความเชื่อมั่นเพื่อให้ผลลัพธ์ที่ดีที่สุดเมื่อตั้งค่านี้เป็น 0.5 หากต้องการรับการแจ้งเตือนบ่อยขึ้นและได้รับการแจ้งเตือนสำหรับเหตุการณ์เล็กๆ น้อยๆ คุณสามารถลองเพิ่มค่านี้ได้ (สูงสุด 1.0) จากนั้นหากต้องการรับการแจ้งเตือนน้อยลง เฉพาะปัญหาที่รุนแรงกว่า คุณสามารถลองลดค่านี้ได้ (ขั้นต่ำ 0.0)

สำหรับ - การตั้งค่านี้ใช้เพื่อระบุระยะเวลาที่ระบบควรหยุดทำงานก่อนที่คุณจะได้รับการแจ้งเตือน เราขอแนะนำให้ตั้งค่านี้เป็นค่าล่าสุดเพื่อให้ได้รับการแจ้งเตือนเมื่อจุดใดก็ตามข้ามเกณฑ์ เราจะเผยแพร่เมตริกความเชื่อมั่นทุกๆ 15 นาที โดยดูความสําเร็จโดยเฉลี่ยในช่วงเวลานั้น

เมื่อเพิ่มเงื่อนไขเสร็จแล้ว ขั้นตอนถัดไปคือการเลือกช่องทางการแจ้งเตือน วิธีแจ้งเตือนที่ง่ายที่สุดคือการแจ้งเตือนทางอีเมล คุณเลือกอีเมลที่แสดงในเมนูแบบเลื่อนลงช่องทางการแจ้งเตือนได้โดยทำดังนี้

3cc10629830e7f13.png

หากเลือกตัวเลือกแจ้งเตือนเมื่อปิดเหตุการณ์ ระบบจะส่งการแจ้งเตือนอีกรายการเมื่อมีการทำเครื่องหมายว่าเหตุการณ์ปิดแล้ว ในกรณีนี้ คุณควรเลือกระยะเวลาปิดเหตุการณ์โดยอัตโนมัติด้วย ซึ่งระบบจะระบุเป็น 7 วันโดยค่าเริ่มต้น

ขั้นตอนสุดท้ายคือการตั้งชื่อการแจ้งเตือนและเพิ่มเอกสารที่ต้องการรวมไว้ในการแจ้งเตือน

686fb1c537fee10.png

เราขอแนะนำให้คุณระบุเอกสาร โดยเฉพาะอย่างยิ่งหากคุณไม่ใช่ผู้ที่จะได้รับการแจ้งเตือน การเพิ่มขั้นตอนต่างๆ เช่น ตำแหน่งที่ต้องตรวจสอบระหว่างเกิดเหตุการณ์ รวมถึงวิธีจัดลำดับความสำคัญและแก้ไขข้อบกพร่อง จะช่วยได้ในระหว่างที่เกิดการหยุดทำงาน คุณดูคู่มือการแก้ปัญหาได้ตามต้องการ

เมื่อบันทึกแล้ว นโยบายการแจ้งเตือนจะแสดงในส่วนนโยบายในหน้าการแจ้งเตือน

c71a001e4df035ee.png

5. การลดปัญหาการหยุดชะงัก

เมื่อตั้งค่าการแจ้งเตือนแล้ว คุณจะได้รับการแจ้งเตือนในช่วงที่เกิดการหยุดทำงานจากช่องทางการแจ้งเตือนที่คุณระบุไว้ รวมถึงจะมีการสร้างรายการเหตุการณ์ในหน้าการแจ้งเตือนด้วย

การรับการแจ้งเตือน

ช่องทางการแจ้งเตือนที่เราให้ไว้ใน Codelab นี้คืออีเมล เมื่อตั้งค่าแล้ว คุณอาจไม่ได้รับการแจ้งเตือน (ไม่มีการหยุดทำงาน) แต่หากได้รับการแจ้งเตือน การแจ้งเตือนจะมีลักษณะดังนี้

43217b0a145c2cd.png

โปรดทราบว่าการแจ้งเตือนจะแสดงค่าที่สังเกตได้ซึ่งเกินเกณฑ์ที่คุณระบุ รวมถึงการประทับเวลาที่ระบุว่าเหตุการณ์เริ่มขึ้นเมื่อใด

เหตุการณ์การตรวจสอบ

เมื่อเกิดเหตุการณ์ ระบบจะนับเหตุการณ์เหล่านั้นในส่วนเหตุการณ์ในหน้าการแจ้งเตือนด้วย

fdd883a9604ed981.png

คุณสามารถคลิกเหตุการณ์ที่เฉพาะเจาะจงเพื่อดูรายละเอียดเกี่ยวกับการหยุดทำงาน เช่น ระยะเวลาที่เกิดการหยุดทำงานหรือความรุนแรงของการหยุดทำงาน

โปรดทราบว่าเมื่อได้รับการแจ้งเตือน ขั้นตอนแรกที่ดีที่สุดคือการดูเมตริก จากนั้นค้นหาข้อผิดพลาดที่ทำให้เกิดการหยุดทำงานในบันทึก คุณสามารถดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีดำเนินการเหล่านี้ได้ใน Codelab การแก้ไขข้อบกพร่องของสมาร์ทโฮม

6. ขอแสดงความยินดี

17d485868a6771bc.png

ยินดีด้วย คุณได้เรียนรู้วิธีตั้งค่าการแจ้งเตือนโดยใช้เมตริกที่ระบุไว้ในโปรเจ็กต์เพื่อตรวจสอบการหยุดทำงานโดยอัตโนมัติและรับการแจ้งเตือนเมื่อบริการขัดข้องเรียบร้อยแล้ว

ขั้นตอนถัดไป

ลองทำแบบฝึกหัดต่อไปนี้และสำรวจแหล่งข้อมูลเพิ่มเติมโดยอิงจาก Codelab นี้

  • คุณสามารถนำสิ่งที่ได้เรียนรู้ในโค้ดแล็บนี้ไปใช้ร่วมกับเมตริกอื่นๆ ที่มีให้ในโปรเจ็กต์ คุณดูรายการเมตริกที่มีทั้งหมดได้ในส่วนเมตริกที่รองรับของหน้าการตรวจสอบ
  • ดูช่องทางการแจ้งเตือนประเภทอื่นๆ สำหรับการแจ้งเตือนที่อธิบายไว้ในหน้าตัวเลือกการแจ้งเตือนของเอกสารประกอบ Google Cloud