การตรวจสอบการหยุดทำงานของสมาร์ทโฮม

1. ก่อนเริ่มต้น

ตามที่ได้อธิบายไว้ใน Codelab การแก้ไขข้อบกพร่องสมาร์ทโฮม เราจะเผยแพร่เมตริกและบันทึกไปยังโปรเจ็กต์สมาร์ทโฮมของคุณ เมตริกช่วยให้คุณทราบว่าการดำเนินการสมาร์ทโฮมมีปัญหาตรงไหน และบันทึกจะมีประโยชน์เมื่อเจาะลึกเพื่อแก้ปัญหาเหล่านี้

dd44868a4ff2df6e.png

คุณสามารถตั้งค่าการแจ้งเตือนโดยใช้เมตริกที่ระบุไว้ในโปรเจ็กต์เพื่อตรวจสอบการหยุดทำงานในลักษณะอัตโนมัติและรับการแจ้งเตือนระหว่างที่บริการหยุดชะงัก เราจะเผยแพร่เมตริกความเชื่อมั่นเพื่อไฮไลต์การหยุดชะงักของโปรเจ็กต์ ซึ่งเราจะกล่าวถึงในโค้ดแล็บนี้ควบคู่ไปกับเครื่องมือแจ้งเตือนอื่นๆ ทั้งหมดที่มีให้ใช้งานใน Google Cloud

ข้อกำหนดเบื้องต้น

สิ่งที่คุณจะได้เรียนรู้

  • วิธีตรวจสอบปัญหาด้านประสิทธิภาพและการหยุดชะงักของบริการในโปรเจ็กต์
  • วิธีสร้างการแจ้งเตือนตามเกณฑ์และรับการแจ้งเตือนระหว่างการหยุดชะงัก
  • วิธีใช้เมตริกความเชื่อมั่นที่ระบุไว้ในโปรเจ็กต์เพื่อตรวจหาการหยุดทำงาน

2. การตรวจสอบประสิทธิภาพ

การตรวจสอบประสิทธิภาพเป็นสิ่งสำคัญในการผสานรวมกับระบบนิเวศของ Google Home ให้สำเร็จ เราจัดเตรียมชุดเครื่องมือตรวจสอบให้กับนักพัฒนาแอปสมาร์ทโฮมใน Google Cloud คุณสามารถใช้เครื่องมือเหล่านี้เพื่อประเมินประสิทธิภาพของโปรเจ็กต์

การเข้าถึงแดชบอร์ด

ขั้นตอนแรกในการเข้าถึงข้อมูลคือการตรวจสอบหน้าแดชบอร์ดของ Google Home โดยเข้าสู่ระบบ Google Cloud Console แล้วไปที่การดําเนินการ > การตรวจสอบ > หน้าแดชบอร์ด คุณจะเห็นแดชบอร์ดจํานวนหนึ่งที่ใช้ได้ และแดชบอร์ดสําหรับสมาร์ทโฮมจะมีคํานำหน้า Google Home Analytics

317697e52ced2437.png

เราสร้างแดชบอร์ดแต่ละรายการเพื่อแสดงการผสานรวมแต่ละประเภท การผสานรวมระบบคลาวด์ อุปกรณ์ และ Matter มีแดชบอร์ดของตัวเอง และข้อมูลสำหรับโปรโตคอลสตรีมมิงของกล้องจะแสดงในแดชบอร์ดคุณภาพกล้อง แดชบอร์ดเหล่านี้จะมีข้อมูลก็ต่อเมื่อคุณมีการผสานรวมประเภทที่เกี่ยวข้อง รวมถึงโปรเจ็กต์ที่ทำงานอยู่ซึ่งตอบสนองคําขอ

เมื่อเปิดแดชบอร์ดรายการใดรายการหนึ่งเหล่านี้ มุมมองที่คุณเห็นจะมีลักษณะดังต่อไปนี้

f8bfd69286c569a4.png

แดชบอร์ดมีแผนภูมิต่างๆ ที่แสดงรายละเอียดของคำขอที่จัดการโดยโปรเจ็กต์ ในหน้าแดชบอร์ดการผสานรวมแต่ละหน้า คุณจะเห็นแผนภูมิแสดงจํานวนคําขอทั้งหมดที่จัดการโดยโปรเจ็กต์ แผนภูมิแสดงอัตราความสําเร็จสําหรับการผสานรวมประเภทนั้น และแผนภูมิหลายแผนภูมิที่แสดงประเภทและลักษณะของอุปกรณ์ที่เกี่ยวข้อง

แผนภูมิ 3 รายการที่สําคัญต่อการประเมินประสิทธิภาพของการดำเนินการสมาร์ทโฮม ได้แก่

f511fafd3aaaa1eb.png

ในช่วงที่หยุดทำงาน โดยทั่วไปคุณจะเห็นแนวโน้มที่ลดลงของเปอร์เซ็นต์ความสําเร็จและแนวโน้มที่เพิ่มขึ้นของแผนภูมิรายละเอียดข้อผิดพลาด การตรวจสอบเปอร์เซ็นต์ความสําเร็จของการดำเนินการจะช่วยให้ทราบถึงการหยุดทำงานได้ ส่วนการตรวจสอบข้อผิดพลาดยอดนิยมในรายละเอียดข้อผิดพลาดจะช่วยในการแก้ไขข้อบกพร่อง นอกจากนี้ คุณอาจเห็นว่าเวลาในการตอบสนองมีแนวโน้มเพิ่มขึ้นในช่วงที่หยุดทำงาน ซึ่งดูได้ในแผนภูมิเวลาในการตอบสนองของคำขอ

โปรดทราบว่ามุมมองเริ่มต้นที่มีแผนภูมิที่คุณเห็นในหน้าแดชบอร์ด Google Home Analytics เป็นเพียงมุมมองที่เราสร้างขึ้นสำหรับโปรเจ็กต์ของคุณโดยใช้ข้อมูลเมตริกสมาร์ทโฮม นอกจากนี้ คุณยังใช้เครื่องมือสํารวจเมตริกเพื่อสร้างแผนภูมิของคุณเองจากเมตริกพื้นฐานเดียวกันและบันทึกไว้ในหน้าแดชบอร์ดที่กำหนดเองได้ด้วย

เครื่องมือสํารวจเมตริก

เครื่องมือสํารวจเมตริกเป็นเครื่องมือแสดงภาพส่วนตัดขวางชุดข้อมูลของโปรเจ็กต์ เครื่องมือนี้เข้าถึงได้ใน Google Cloud Console โดยไปที่การดําเนินการ > การตรวจสอบ > เครื่องมือสํารวจเมตริก

Google Cloud มีเมตริกต่างๆ มากมายที่พร้อมใช้งานโดยทันที ซึ่งรวมถึงเมตริกบางส่วนที่ไม่เกี่ยวข้องกับสมาร์ทโฮม เมตริกที่เรามีให้สําหรับสมาร์ทโฮมจะแสดงอยู่ในแหล่งข้อมูล "actions.googleapis.com/smarthome_action/..." และค้นหาได้โดยพิมพ์ "สมาร์ทโฮม" ในช่องการเลือกเมตริก

538d851edfd34764.png

การค้นหา "สมาร์ทโฮม" จะแสดงเมตริกสมาร์ทโฮมทั้งหมดที่เรามีให้สำหรับโปรเจ็กต์ ดูข้อมูลโดยละเอียดเกี่ยวกับเมตริกแต่ละรายการได้ในหน้าการตรวจสอบและการบันทึกของเอกสารประกอบ

เมื่อพูดถึงการตรวจสอบโปรเจ็กต์ เมตริกที่ง่ายที่สุดในการใช้อ้างอิงคือเมตริกจํานวนคําขอ (ซึ่งเป็นเมตริกเดลต้า) เมตริกนี้จะบันทึกรายการสําหรับการดำเนินการสมาร์ทโฮมแต่ละรายการที่ผู้ใช้เริ่ม และบันทึกช่องต่างๆ เช่น ประเภทอุปกรณ์ ลักษณะ ประเภทการดําเนินการที่เกี่ยวข้องกับการดําเนินการ และช่องสถานะที่แสดงผลลัพธ์

การเลือกเมตริกนี้จะสร้างหน้าจอที่แสดงที่เก็บข้อมูลแต่ละรายการในลักษณะดังต่อไปนี้

b1c18141d15a0e09.png

โดยพื้นฐานแล้ว สําหรับชุดค่าผสมของป้ายกํากับข้อมูลทั้งหมดที่มีอยู่ในเมตริกนี้ จะมีที่เก็บข้อมูลบันทึกการเปลี่ยนแปลง (เดลต้า) ระหว่างช่วงเวลาก่อนหน้ากับปัจจุบัน คุณสามารถจัดกลุ่มหรือกรองที่เก็บข้อมูลเหล่านี้เพื่อดูข้อมูลพร็อพเพอร์ตี้ที่คุณต้องการได้ นอกจากนี้ ระบบจะจัดแนวข้อมูลเป็นช่วงเวลาที่เลือกด้วยฟังก์ชันการจัดแนว (DELTA, MEAN, MEDIAN, SUM) โดยทั่วไปแล้ว คุณจะใช้การเชื่อมโยง Delta กับเมตริก Delta เว้นแต่ว่าจะต้องระบุเป็นอย่างอื่น

คุณสามารถสร้างแผนภูมิส่วนใหญ่ที่มีอยู่ในแดชบอร์ด Analytics ของ Google Home โดยใช้เครื่องมือสํารวจเมตริก และบันทึกแผนภูมิไว้เพื่อเข้าถึงในภายหลังในแดชบอร์ดที่กำหนดเอง หากต้องการดูมุมมองที่ซับซ้อนมากขึ้น เช่น แผนภูมิอัตราส่วน คุณจะต้องใช้ MQL - Monitoring Query Language

3. มาตรวัดความสำเร็จ

ในการติดตามความสําเร็จของการผสานรวม คุณสามารถใช้อัตราความสําเร็จที่เราคํานวณจากเมตริกจํานวนคําขอเป็นตัวบ่งชี้พื้นฐาน หรือใช้ความเชื่อมั่นในความสําเร็จสําหรับแนวทางเฉพาะทางมากขึ้นก็ได้

อัตรา ความสําเร็จ

ระบบจะคำนวณอัตราความสำเร็จสำหรับการผสานรวมทั้งหมดโดยหารจำนวนคำขอที่สำเร็จด้วยจำนวนคำขอทั้งหมด คุณสามารถเข้าถึงข้อมูลนี้ได้จากแผนภูมิอัตราความสำเร็จในการนำส่งในแดชบอร์ดข้อมูลวิเคราะห์ของ Google Home

55ea8930fbf48d9e.png

แผนภูมิอัตราความสําเร็จในการดําเนินการตามคําสั่งซื้อมีประโยชน์มากในการตรวจสอบประสิทธิภาพของโปรเจ็กต์ แต่ไม่ค่อยมีประโยชน์มากนักเมื่อสร้างหน้าแดชบอร์ดที่กำหนดเองหรือตั้งค่าการแจ้งเตือน เนื่องจากอัตราความสําเร็จมาจากเมตริกจํานวนคําขอ ไม่ใช่เมตริกเดี่ยว คุณจึงต้องสร้างเมตริกนี้อีกครั้งโดยใช้ MQL (ภาษาการค้นหาการตรวจสอบ) ในเครื่องมือสํารวจเมตริกเพื่อใช้กับฟีเจอร์ใดฟีเจอร์หนึ่ง

นอกจากนี้ เราคิดว่าต้องใช้แนวทางที่เฉพาะเจาะจงมากขึ้นในการติดตามการหยุดชะงักของประสิทธิภาพในโปรเจ็กต์ของคุณ ด้วยเหตุนี้ เราจึงสร้างเมตริกความเชื่อมั่นที่เปลี่ยนแปลงตามระดับความเบี่ยงเบนของอัตราความสำเร็จในการนำส่งปัจจุบันจากค่าปกติที่ผ่านมา

เมตริกความเชื่อมั่น

การหยุดทำงานอาจเกิดขึ้นในลักษณะและขนาดที่แตกต่างกันสำหรับโปรเจ็กต์ต่างๆ ซึ่งอาจอยู่ได้นานหลายชั่วโมงไปจนถึงเพียงไม่กี่นาที จึงอาจทำให้การระบุตัวตนทำได้ยาก ด้วยเหตุนี้ เราจึงได้สร้างเมตริกความเชื่อมั่นในโปรเจ็กต์ของคุณ ซึ่งจะให้ค่าที่แปลงเป็นมาตรฐานสําหรับการคาดการณ์ความน่าเชื่อถือโดยอิงตามประสิทธิภาพที่ผ่านมา คุณสามารถเข้าถึงเมตริกความเชื่อมั่นได้โดยค้นหาสมาร์ทโฮมในเครื่องมือสํารวจเมตริก แล้วเลือกความเชื่อมั่นในความสําเร็จของการดำเนินการ

ab467a1777281526.png

เมื่อการผสานรวมสมาร์ทโฮมมีประสิทธิภาพเท่ากับหรือสูงกว่าประสิทธิภาพที่ผ่านมา (ค่าเฉลี่ย 7 วัน) เมตริกนี้จะแสดงค่าสูงสุด (1.0) เมื่อเปอร์เซ็นต์ความสําเร็จของคุณเบี่ยงเบนมากกว่า 4 ส่วนเบี่ยงเบนมาตรฐาน (คํานวณจาก 7 วันด้วย) เมตริกนี้จะแสดงค่าต่ำสุด (0.0) ในกรณีที่ความเบี่ยงเบนมาตรฐานมีค่าน้อยเกินไป (น้อยกว่า 2.5%) เมตริกนี้จะตั้งค่า 0.0 ที่การลดลง 10% ของเปอร์เซ็นต์ความสําเร็จ

สำหรับกรณีอื่นๆ ทั้งหมด เมตริกนี้จะแสดงค่าระหว่าง 1.0 (มั่นใจอย่างยิ่งว่าไม่มีการหยุดทำงาน) ถึง 0.0 (มั่นใจสูงสุดว่ามีการหยุดทำงาน)

ดังนั้นเมื่อตั้งค่าการแจ้งเตือน (จะแสดงในส่วนถัดไป) เราขอแนะนำให้ใช้ค่า 0.5 เป็นเกณฑ์ ซึ่งจะสอดคล้องกับค่าเบี่ยงเบนมาตรฐาน 2 เท่าหรือการลดลง 5% แล้วแต่ว่าค่าใดจะสูงกว่า

4. การตั้งค่าการแจ้งเตือน

ขั้นตอนถัดไปคือใช้ทุกสิ่งที่ได้เรียนรู้ในส่วนก่อนหน้านี้เพื่อตั้งค่าการแจ้งเตือนในโปรเจ็กต์

การสร้างนโยบายการแจ้งเตือน

การตั้งค่าการแจ้งเตือนอัตโนมัติใน Google Cloud ทำได้ผ่านนโยบายการแจ้งเตือน คุณสามารถเข้าถึงนโยบายการแจ้งเตือนผ่านเมนูด้านข้างในแท็บการดําเนินการ > การตรวจสอบ > การแจ้งเตือน คุณสร้างนโยบายการแจ้งเตือนใหม่ได้โดยเลือกตัวเลือก +สร้างนโยบาย ซึ่งจะนำคุณไปยังหน้าจอการสร้างนโยบายการแจ้งเตือน

6e417d88c2274b3d.png

การสร้างนโยบายการแจ้งเตือนแบ่งออกเป็น 3 ส่วน ดังนี้ ก่อนอื่นคุณต้องระบุสิ่งที่ต้องการติดตามด้วยการเพิ่มเงื่อนไข การกดปุ่มเพิ่มเงื่อนไขจะเปิดหน้าต่างที่คล้ายกับเครื่องมือสํารวจเมตริก โดยมีตัวควบคุมเพิ่มเติมสําหรับการกําหนดค่าเงื่อนไข ดังนี้

df1ccf7da741e1c7.png

สําหรับเป้าหมาย ให้เลือกเมตริกความเชื่อมั่นที่เราได้พูดถึงในส่วนก่อนหน้า ตรวจสอบว่าได้ตั้งค่า aligner เป็น Delta โดยใช้เมตริกนี้ (แสดงตัวเลือกขั้นสูง > Aligner) ขั้นตอนถัดไปคือการกำหนดค่าเงื่อนไขการแจ้งเตือนและใช้การตั้งค่าต่อไปนี้

4192e0f4ea00dd28.png

เงื่อนไขทริกเกอร์หาก - การกำหนดค่าหลักเพื่อกำหนดเวลาทริกเกอร์การแจ้งเตือน การเลือกอนุกรมเวลาใดๆ ที่ละเมิดจะทํางานได้เนื่องจากเราจะกําหนดเกณฑ์ในเมตริกและตรวจสอบว่าค่ามีค่าเกินเกณฑ์หรือไม่

เงื่อนไข - เราต้องการให้ระบบทริกเกอร์การแจ้งเตือนเมื่อค่าลดลงต่ำกว่าเกณฑ์ ดังนั้นเราจะตั้งค่าเป็นต่ำกว่า โดยเมตริก 1.0 หมายความว่าการผสานรวมทํางานได้ตามปกติ และ 0.0 บ่งบอกว่ามีการหยุดทำงาน

เกณฑ์ - เราได้สร้างเมตริกความเชื่อมั่นเพื่อให้ผลลัพธ์ที่ดีที่สุดเมื่อตั้งค่านี้เป็น 0.5 หากต้องการได้รับการแจ้งเตือนบ่อยขึ้นและได้รับการแจ้งเตือนสำหรับเหตุการณ์ที่น้อยกว่า ให้ลองเพิ่มค่านี้ (สูงสุด 1.0) หากต้องการรับการแจ้งเตือนน้อยลงสำหรับปัญหาที่รุนแรงมากขึ้นเท่านั้น ให้ลองลดค่านี้ (ขั้นต่ำ 0.0)

For - การตั้งค่านี้ระบุระยะเวลาที่ระบบควรแจ้งเตือนคุณเมื่อเกิดปัญหาขัดข้อง เราขอแนะนำให้ตั้งค่านี้เป็นค่าล่าสุดเพื่อให้ได้รับการแจ้งเตือนเมื่อใดก็ตามที่จุดใดจุดหนึ่งสูงกว่าเกณฑ์ เมตริกความเชื่อมั่นจะเผยแพร่ทุก 15 นาที โดยพิจารณาจากความสําเร็จโดยเฉลี่ยในระยะนั้น

เมื่อเพิ่มเงื่อนไขเสร็จแล้ว ขั้นตอนถัดไปคือเลือกช่องทางการแจ้งเตือน วิธีที่ง่ายที่สุดในการแจ้งเตือนคือการแจ้งเตือนทางอีเมล คุณเลือกอีเมลที่แสดงในเมนูแบบเลื่อนลงช่องทางการแจ้งเตือนได้ ดังนี้

3cc10629830e7f13.png

หากเลือกตัวเลือกแจ้งเตือนเมื่อปิดเหตุการณ์ ระบบจะส่งการแจ้งเตือนอีกรายการเมื่อมีการทําเครื่องหมายเหตุการณ์ว่าปิดแล้ว ในกรณีนี้ คุณควรเลือกระยะเวลาการปิดเหตุการณ์อัตโนมัติด้วย ซึ่งจะระบุเป็น 7 วันโดยค่าเริ่มต้น

ขั้นตอนสุดท้ายคือตั้งชื่อการแจ้งเตือนและเพิ่มเอกสารประกอบที่ต้องการรวมไว้ในการแจ้งเตือน

686fb1c537fee10.png

เราขอแนะนำให้คุณส่งเอกสารประกอบ โดยเฉพาะอย่างยิ่งหากคุณไม่ใช่บุคคลที่จะได้รับการแจ้งเตือน การเพิ่มขั้นตอนต่างๆ เช่น ตำแหน่งที่จะตรวจสอบระหว่างที่เกิดเหตุการณ์ วิธีจัดประเภทและแก้ไขข้อบกพร่อง จะช่วยได้ในช่วงที่มีการหยุดทำงาน โปรดดูคู่มือการแก้ปัญหาตามความจำเป็น

เมื่อบันทึกแล้ว นโยบายการแจ้งเตือนจะแสดงในส่วนนโยบายในหน้าการแจ้งเตือน

c71a001e4df035ee.png

5. การลดการหยุดชะงัก

เมื่อตั้งค่าการแจ้งเตือนแล้ว คุณจะได้รับการแจ้งเตือนระหว่างที่ระบบหยุดทำงานจากช่องทางการแจ้งเตือนที่คุณระบุไว้ รวมถึงระบบจะสร้างรายการเหตุการณ์ในหน้าการแจ้งเตือน

การรับการแจ้งเตือน

ช่องทางการแจ้งเตือนที่เราระบุไว้ในโค้ดแล็บนี้คืออีเมล เมื่อตั้งค่าแล้ว เราหวังว่าคุณจะไม่ได้รับการแจ้งเตือน (ไม่มีการหยุดทำงาน) แต่หากได้รับการแจ้งเตือน การแจ้งเตือนจะมีลักษณะดังต่อไปนี้

43217b0a145c2cd.png

โปรดทราบว่าการแจ้งเตือนจะแสดงค่าที่สังเกตได้ซึ่งสูงกว่าเกณฑ์ที่คุณระบุ รวมถึงการประทับเวลาซึ่งระบุเวลาที่เหตุการณ์เริ่มต้นขึ้น

เหตุการณ์การตรวจสอบ

เมื่อเกิดเหตุการณ์ ระบบจะนับเหตุการณ์เหล่านั้นในส่วนเหตุการณ์ในหน้าการแจ้งเตือนด้วย

fdd883a9604ed981.png

คุณสามารถคลิกเหตุการณ์ที่เฉพาะเจาะจงเพื่อดูรายละเอียดเกี่ยวกับการหยุดทำงาน เช่น ระยะเวลาหรือความรุนแรงของการหยุดทำงาน

โปรดทราบว่าเมื่อได้รับการแจ้งเตือน ขั้นตอนแรกที่ดีที่สุดคือการดูเมตริก จากนั้นค้นหาข้อผิดพลาดที่ทําให้ระบบหยุดทํางานในบันทึก คุณทบทวนวิธีการทําสิ่งเหล่านี้ได้ใน Codelab การแก้ไขข้อบกพร่องสมาร์ทโฮม

6. ขอแสดงความยินดี

17d485868a6771bc.png

ยินดีด้วย คุณได้เรียนรู้วิธีตั้งค่าการแจ้งเตือนโดยใช้เมตริกที่ระบุไว้ในโปรเจ็กต์เพื่อตรวจสอบการหยุดทำงานในลักษณะอัตโนมัติและรับการแจ้งเตือนระหว่างที่บริการหยุดชะงักเรียบร้อยแล้ว

ขั้นตอนถัดไป

ลองทำแบบฝึกหัดต่อไปนี้และสำรวจแหล่งข้อมูลเพิ่มเติมเพื่อต่อยอดจาก Codelab นี้

  • คุณสามารถใช้สิ่งที่ได้เรียนรู้ในโค้ดแล็บนี้ร่วมกับเมตริกอื่นๆ ที่มีให้ในโปรเจ็กต์ คุณดูรายการเมตริกทั้งหมดที่ใช้ได้ในส่วนเมตริกที่รองรับของหน้าการตรวจสอบ
  • สำรวจช่องทางการแจ้งเตือนประเภทอื่นๆ สำหรับการแจ้งเตือนที่อธิบายไว้ในหน้าตัวเลือกการแจ้งเตือนของเอกสารประกอบ Google Cloud