การตรวจสอบการหยุดทำงานของสมาร์ทโฮม

1. ก่อนเริ่มต้น

ตามที่ได้อธิบายไปใน Codelab เกี่ยวกับการแก้ไขข้อบกพร่องของสมาร์ทโฮม เรากำลังเผยแพร่เมตริกและบันทึกไปยังโปรเจ็กต์สมาร์ทโฮมของคุณ เมตริกช่วยให้คุณระบุได้ว่าการดำเนินการของสมาร์ทโฮมมีปัญหาตรงไหน และบันทึกต่างๆ จะมีประโยชน์ในการเจาะลึกวิธีแก้ปัญหาเหล่านี้

dd44868a4ff2df6e.png

คุณตั้งค่าการแจ้งเตือนโดยใช้เมตริกที่ให้ไว้ในโปรเจ็กต์เพื่อตรวจสอบการหยุดทำงานโดยอัตโนมัติและรับการแจ้งเตือนระหว่างบริการขัดข้องได้ เรากำลังเผยแพร่เมตริกความเชื่อมั่นเพื่อไฮไลต์การหยุดชะงักในโปรเจ็กต์ ซึ่งเราจะกล่าวถึงใน Codelab นี้พร้อมกับเครื่องมือการแจ้งเตือนอื่นๆ ทั้งหมดที่มีให้คุณใช้งานใน Google Cloud Platform

ข้อกำหนดเบื้องต้น

สิ่งที่คุณจะได้เรียนรู้

  • วิธีตรวจสอบปัญหาด้านประสิทธิภาพและการขัดข้องของบริการในโปรเจ็กต์ของคุณ
  • วิธีสร้างการแจ้งเตือนตามเกณฑ์และรับการแจ้งเตือนระหว่างเหตุขัดข้อง
  • วิธีใช้เมตริกความเชื่อมั่นที่มีให้กับโปรเจ็กต์เพื่อตรวจหาการหยุดทำงาน

2. การตรวจสอบประสิทธิภาพ

การตรวจสอบประสิทธิภาพการทำงานเป็นสิ่งสำคัญที่จะช่วยให้การผสานรวมกับระบบนิเวศสมาร์ทโฮมของ Google ประสบความสำเร็จ เราได้มอบชุดเครื่องมือการตรวจสอบให้แก่นักพัฒนาสมาร์ทโฮมใน Google Cloud Platform คุณใช้เครื่องมือเหล่านี้เพื่อทำความเข้าใจประสิทธิภาพของโปรเจ็กต์ได้

การเข้าถึงหน้าแดชบอร์ด

ขั้นตอนแรกในการเข้าถึงข้อมูลคือการตรวจสอบแดชบอร์ด Google Home โดยเข้าสู่ระบบ Google Cloud Console แล้วไปที่การดำเนินการ > การตรวจสอบ > แดชบอร์ด คุณจะเห็นว่ามีหน้าแดชบอร์ดจำนวนหนึ่ง และแดชบอร์ดสำหรับสมาร์ทโฮมจะมีคำนำหน้า Google Home Analytics

317697e52ced2437.png

เราสร้างหน้าแดชบอร์ดแต่ละหน้าขึ้นมาเพื่อแสดงการผสานรวมแต่ละประเภท การผสานรวม Cloud, Local และ Matter มีหน้าแดชบอร์ดของตัวเอง และข้อมูลสำหรับโปรโตคอลสตรีมมิงของกล้องจะอยู่ในแดชบอร์ดคุณภาพกล้อง แดชบอร์ดเหล่านี้จะมีข้อมูลก็ต่อเมื่อคุณมีการผสานรวมประเภทที่เกี่ยวข้อง พร้อมกับคำขอที่ดำเนินการอยู่ในโปรเจ็กต์

เมื่อเปิดหน้าแดชบอร์ดเหล่านี้ มุมมองที่คุณได้รับจะมีลักษณะดังต่อไปนี้

f8bfd69286c569a4.png

หน้าแดชบอร์ดจะมีแผนภูมิต่างๆ ที่แสดงรายละเอียดของคำขอที่โปรเจ็กต์จัดการ ในทุกๆ หน้าแดชบอร์ดการผสานรวม คุณจะเห็นแผนภูมิแสดงจำนวนคำขอทั้งหมดที่โปรเจ็กต์จัดการ แผนภูมิที่แสดงอัตราความสำเร็จของการผสานรวมประเภทนั้น และแผนภูมิอีกหลายรายการที่แสดงประเภทและลักษณะอุปกรณ์ที่เกี่ยวข้อง

แผนภูมิ 3 รายการที่สำคัญต่อการประเมินประสิทธิภาพของการดำเนินการสมาร์ทโฮมมีดังนี้

f511fafd3aaaa1eb.png

ในช่วงที่มีการหยุดทำงาน โดยทั่วไปแล้วคุณมักจะเห็นว่าเปอร์เซ็นต์ความสำเร็จลดลงและมีแนวโน้มเพิ่มขึ้นในแผนภูมิรายละเอียดข้อผิดพลาด การตรวจสอบเปอร์เซ็นต์การดำเนินการสำเร็จจะช่วยให้คุณสังเกตเห็นการหยุดทำงาน ส่วนการตรวจสอบข้อผิดพลาดอันดับต้นๆ ในรายละเอียดของข้อผิดพลาดจะช่วยในการแก้ไขข้อบกพร่องได้ นอกจากนี้ คุณยังอาจสังเกตเห็นว่าเวลาในการตอบสนองเพิ่มขึ้นระหว่างการหยุดทำงาน ซึ่งดูได้ในแผนภูมิเวลาในการตอบสนองของคำขอ

โปรดทราบว่ามุมมองเริ่มต้นที่มีแผนภูมิที่คุณเห็นในแดชบอร์ด Google Home Analytics เป็นเพียงข้อมูลพร็อพเพอร์ตี้ที่เราสร้างขึ้นสำหรับโปรเจ็กต์ของคุณโดยใช้ข้อมูลเมตริกสมาร์ทโฮม นอกจากนี้ คุณยังใช้เครื่องมือสำรวจเมตริกเพื่อสร้างแผนภูมิของคุณเองจากเมตริกที่สำคัญเดียวกัน แล้วบันทึกไว้ในแดชบอร์ดที่กำหนดเองได้ด้วย

เครื่องมือสำรวจเมตริก

เครื่องมือสำรวจเมตริกเป็นเครื่องมือในการแสดงภาพชุดข้อมูลของโปรเจ็กต์แบบข้ามส่วนของ คุณเข้าถึงเครื่องมือนี้ได้ใน Google Cloud Console โดยไปที่การดำเนินการ > การตรวจสอบ > เครื่องมือสำรวจเมตริก

Google Cloud มีเมตริกต่างๆ มากมายตั้งแต่แรก รวมถึงเมตริกที่ไม่เกี่ยวข้องกับสมาร์ทโฮม เมตริกที่เรามีให้สำหรับสมาร์ทโฮมจะแสดงอยู่ใต้แหล่งข้อมูล "actions.googleapis.com/smarthome_action/..." ซึ่งคุณสามารถค้นหาได้อย่างง่ายดายด้วยการพิมพ์ "smarthome" ในช่องสำหรับเลือกเมตริก

538d851edfd34764.png

การค้นหา "สมาร์ทโฮม" จะแสดงเมตริกสมาร์ทโฮมทั้งหมดที่เรามีให้ในโครงการของคุณ คุณดูข้อมูลโดยละเอียดเกี่ยวกับเมตริกแต่ละรายการได้ในหน้าการตรวจสอบและการบันทึกของเอกสาร

เมื่อพูดถึงการตรวจสอบโปรเจ็กต์ เมตริกที่ง่ายที่สุดคือเมตริกจำนวนคำขอ (ซึ่งเป็นเมตริกเดลต้า) เมตริกนี้บันทึกรายการสำหรับการดำเนินการในสมาร์ทโฮมแต่ละรายการที่เริ่มต้นโดยผู้ใช้ และบันทึกช่องต่างๆ เช่น ประเภทอุปกรณ์ ลักษณะ ประเภทการดำเนินการที่เกี่ยวข้องกับการดำเนินการดังกล่าว และช่องสถานะที่แสดงผลลัพธ์

การเลือกเมตริกนี้จะทำให้หน้าจอแสดงที่เก็บข้อมูลแต่ละชุดในลักษณะเดียวกับข้อมูลต่อไปนี้

b1c18141d15a0e09.png

โดยพื้นฐานแล้ว สำหรับชุดค่าผสมทุกชุดของป้ายกำกับข้อมูลที่แสดงในเมตริกนี้จะมีที่เก็บข้อมูลที่บันทึกการเปลี่ยนแปลง (แบบเดลต้า) ระหว่างช่วงเวลาก่อนหน้ากับปัจจุบัน คุณสามารถจัดกลุ่มหรือกรองที่เก็บข้อมูลเหล่านี้ออกเพื่อให้ได้ส่วนแบ่งของข้อมูลพร็อพเพอร์ตี้ที่คุณต้องการ นอกจากนี้ ระบบจะปรับข้อมูลตามช่วงเวลาที่เลือกด้วยฟังก์ชันการตรวจสอบความสอดคล้อง (DELTA, MEAN, MEDIAN, SUM) โดยทั่วไปแล้ว คุณจะใช้การจัดแนวเดลต้ากับเมตริกเดลต้า เว้นแต่จะจําเป็น

คุณสร้างแผนภูมิส่วนใหญ่ที่พร้อมใช้งานในแดชบอร์ด Google Home Analytics ได้โดยใช้เครื่องมือสำรวจเมตริก และบันทึกแผนภูมิเพื่อเข้าถึงในภายหลังในแดชบอร์ดที่กำหนดเอง หากต้องการดูมุมมองที่ซับซ้อนมากขึ้น เช่น แผนภูมิอัตราส่วน คุณจะต้องใช้ MQL - Monitoring Query Language

3. มาตรวัดความสำเร็จ

เมื่อต้องติดตามความสำเร็จของการผสานรวม คุณสามารถใช้อัตราความสำเร็จที่เราคำนวณจากเมตริกจำนวนคำขอเป็นตัวบ่งชี้พื้นฐาน หรือความเชื่อมั่นความสำเร็จสำหรับแนวทางที่มีความเป็นเฉพาะทางมากขึ้น

อัตรา ความสำเร็จ

ระบบจะคํานวณอัตราความสําเร็จสําหรับการผสานรวมทั้งหมดโดยนําจํานวนคําขอที่สําเร็จไปยังคําขอทั้งหมด คุณเข้าถึงข้อมูลนี้ได้จากแผนภูมิอัตราความสำเร็จของการดำเนินการในแดชบอร์ด Google Home Analytics

55ea8930fbf48d9e.png

แผนภูมิอัตราความสำเร็จในการดำเนินการมีประโยชน์อย่างยิ่งในการตรวจสอบประสิทธิภาพในโปรเจ็กต์ แต่จะไม่มีประโยชน์มากนักเมื่อสร้างแดชบอร์ดที่กำหนดเองหรือตั้งค่าการแจ้งเตือน เนื่องจากอัตราความสําเร็จนั้นมาจากเมตริกจํานวนคําขอ ไม่ใช่ตัวเมตริกเท่านั้น คุณจะต้องสร้างขึ้นมาอีกครั้งโดยใช้ MQL (Monitoring Query Language) ในเครื่องมือสำรวจเมตริกเพื่อใช้ร่วมกับฟีเจอร์ใดฟีเจอร์หนึ่ง

นอกจากนี้ ในการติดตามการหยุดชะงักของประสิทธิภาพในโปรเจ็กต์ของคุณ เราคิดว่าจำเป็นต้องใช้แนวทางที่เฉพาะเจาะจงมากขึ้น ด้วยเหตุนี้ เราจึงได้สร้างเมตริกความเชื่อมั่นที่เปลี่ยนแปลงตามอัตราความสำเร็จในการดำเนินการตามสถานการณ์ในปัจจุบันของคุณซึ่งคลาดเคลื่อนไปจากปกติในอดีต

เมตริกความเชื่อมั่น

การหยุดทำงานอาจเกิดขึ้นในรูปร่างและขนาดต่างๆ สำหรับโปรเจ็กต์ อาจใช้เวลาหลายชั่วโมงหรือเพียงไม่กี่นาทีก็ได้ ซึ่งทำให้การระบุตัววัยรุ่นเป็นเรื่องท้าทาย สำหรับเรื่องนี้ เราได้สร้างเมตริกความเชื่อมั่นในโปรเจ็กต์ ซึ่งให้ค่ามาตรฐานสำหรับการคาดการณ์ความน่าเชื่อถือโดยอิงตามประสิทธิภาพที่ผ่านมา คุณเข้าถึงเมตริกความเชื่อมั่นได้โดยการค้นหาสมาร์ทโฮมในเครื่องมือสำรวจเมตริก แล้วเลือกความเชื่อมั่นสู่ความสำเร็จในการดำเนินการ

ab467a1777281526.png

เมื่อการผสานรวมสมาร์ทโฮมมีประสิทธิภาพเท่ากับหรือสูงกว่าประสิทธิภาพที่ผ่านมา (ค่าเฉลี่ย 7 วัน) เมตริกนี้จะแสดงผลค่าสูงสุด (1.0) เมื่อเปอร์เซ็นต์ความสำเร็จของคุณคลาดเคลื่อนมากกว่าตัวประกอบของค่าเบี่ยงเบนมาตรฐาน 4 ตัว (และคำนวณในช่วง 7 วันด้วยเช่นกัน) เมตริกนี้จะแสดงผลค่าต่ำสุด (0.0) สำหรับกรณีที่ค่าเบี่ยงเบนมาตรฐานน้อยเกินไป (น้อยกว่า 2.5%) เมตริกนี้จะอ้างอิงค่า 0.0 ที่เปอร์เซ็นต์ความสำเร็จที่ลดลง 10%

เมตริกนี้จะระบุค่าระหว่าง 1.0 (มั่นใจอย่างยิ่งว่าไม่มีปัญหาเรื่องการหยุดชะงัก) และ 0.0 (ความเชื่อมั่นสูงสุดว่าไม่มีการหยุดชะงัก) ในทุกกรณี

ดังนั้นเมื่อตั้งค่าการแจ้งเตือน (ซึ่งจะแสดงในส่วนถัดไป) เราขอแนะนําให้ใช้ค่า 0.5 เป็นเกณฑ์ ซึ่งจะสอดคล้องกับค่าเบี่ยงเบนมาตรฐาน 2 ค่า หรือลดลง 5% แล้วแต่ว่าอย่างใดจะสูงกว่า

4. การตั้งค่าการแจ้งเตือน

ขั้นตอนถัดไปคือใช้ทุกอย่างที่ได้เรียนรู้ในส่วนก่อนหน้าเพื่อตั้งค่าการแจ้งเตือนในโปรเจ็กต์

การสร้างนโยบายการแจ้งเตือน

การแจ้งเตือนอัตโนมัติใน Google Cloud Platform จะกำหนดผ่านนโยบายการแจ้งเตือน คุณสามารถเข้าถึงนโยบายการแจ้งเตือนได้ผ่านทางเมนูด้านข้างในแท็บการดำเนินการ > การตรวจสอบ > การแจ้งเตือน คุณสามารถสร้างนโยบายการแจ้งเตือนใหม่ได้โดยเลือกตัวเลือก +สร้างนโยบาย ซึ่งจะนำคุณไปยังหน้าจอการสร้างนโยบายการแจ้งเตือน:

6e417d88c2274b3d.png

การสร้างนโยบายการแจ้งเตือนประกอบด้วย 3 ส่วน ก่อนอื่น คุณต้องกำหนดสิ่งที่คุณต้องการติดตามโดยการเพิ่มเงื่อนไข การกดปุ่มเพิ่มเงื่อนไขจะแสดงหน้าต่างที่คล้ายกับเครื่องมือสำรวจเมตริก พร้อมการควบคุมเพิ่มเติมบางส่วนสำหรับการกำหนดค่าเงื่อนไขดังนี้

df1ccf7da741e1c7.png

สำหรับเป้าหมาย ให้เลือกเมตริกความเชื่อมั่นที่เรากล่าวถึงในส่วนก่อนหน้า ตรวจสอบว่าได้ตั้งค่าเครื่องมือจัดตำแหน่งเป็นเดลต้าโดยใช้เมตริกนี้ (แสดงตัวเลือกขั้นสูง > ตัวจัดตำแหน่ง) ขั้นตอนถัดไปคือให้กำหนดค่าเงื่อนไขการแจ้งเตือนและใช้การตั้งค่าต่อไปนี้

4192e0f4ea00dd28.png

เงื่อนไขจะทริกเกอร์หาก - นี่คือการกำหนดค่าหลักเพื่อกำหนดว่าเมื่อใดควรทริกเกอร์การแจ้งเตือน การเลือกการละเมิดอนุกรมเวลาใดๆ จะได้ผลเนื่องจากเราจะกำหนดเกณฑ์ในเมตริก แล้วตรวจสอบหากเกินค่าดังกล่าว

เงื่อนไข - เราต้องการให้ระบบเรียกให้แสดงการแจ้งเตือนเมื่อค่าลดลงต่ำกว่าเกณฑ์ เราจึงจะตั้งค่าเป็นต่ำกว่า สำหรับเมตริกนี้ 1.0 หมายความว่าการผสานรวมมีประสิทธิภาพดี และ 0.0 หมายถึงมีการหยุดทำงานกะทันหัน

เกณฑ์ - เราสร้างเมตริกความเชื่อมั่นเพื่อให้ผลลัพธ์ที่ดีที่สุดเมื่อตั้งค่าค่านี้เป็น 0.5 หากต้องการให้มีการแจ้งเตือนบ่อยขึ้นและรับการแจ้งเตือนเมื่อเกิดเหตุการณ์น้อยลง ให้ลองเพิ่มค่านี้ (สูงสุด 1.0) หลังจากนั้น หากคุณต้องการรับการแจ้งเตือนน้อยลงเฉพาะปัญหาที่ร้ายแรงกว่านั้น คุณอาจลองลดค่านี้ลง (ขั้นต่ำ 0.0)

สำหรับ - ส่วนนี้คือการตั้งค่าเพื่อระบุระยะเวลาการหยุดทำงานที่จะเกิดขึ้นก่อนที่คุณจะได้รับการแจ้งเตือน เราขอแนะนำให้คงการตั้งค่านี้ไว้ที่ค่าล่าสุดเพื่อรับการแจ้งเตือนเมื่อคะแนนถึงเกณฑ์ เมตริกความเชื่อมั่นของเราจะเผยแพร่ทุกๆ 15 นาที โดยพิจารณาจากความสำเร็จโดยเฉลี่ยในช่วงเวลานั้น

เมื่อเพิ่มเงื่อนไขเสร็จแล้ว ขั้นตอนถัดไปคือการเลือกช่องทางการแจ้งเตือน วิธีที่ง่ายที่สุดในการแจ้งเตือนคือการแจ้งเตือนทางอีเมล คุณสามารถเลือกอีเมลที่แสดงอยู่ในเมนูแบบเลื่อนลงช่องทางการแจ้งเตือนได้ดังนี้

3cc10629830e7f13.png

หากคุณเลือกตัวเลือกแจ้งเตือนเมื่อมีการปิดเหตุการณ์ ระบบจะส่งการแจ้งเตือนอีกครั้งหนึ่งเมื่อมีการทำเครื่องหมายว่าเหตุการณ์นั้นปิดแล้ว ในกรณีดังกล่าว คุณควรเลือกระยะเวลาการปิดเหตุการณ์อัตโนมัติด้วย ซึ่งระบุไว้เป็น 7 วันโดยค่าเริ่มต้น

ขั้นตอนสุดท้ายคือตั้งชื่อการแจ้งเตือนและเพิ่มเอกสารประกอบที่ต้องการรวมไว้ในการแจ้งเตือน

686fb1c537fee10.png

เราขอแนะนำให้แนบเอกสาร โดยเฉพาะหากคุณไม่ใช่ผู้ที่จะได้รับการแจ้งเตือน การเพิ่มขั้นตอน เช่น ตำแหน่งที่ควรตรวจสอบขณะเกิดเหตุการณ์ รวมถึงวิธีคัดแยกและแก้ไขข้อบกพร่อง สามารถช่วยในระหว่างที่เกิดเหตุขัดข้องได้ โปรดดูข้อมูลในคู่มือการแก้ปัญหาตามต้องการ

เมื่อบันทึกแล้ว นโยบายการแจ้งเตือนจะแสดงอยู่ในส่วนนโยบายในหน้าการแจ้งเตือน

c71a001e4df035ee.png

5. การลดการหยุดทำงาน

เมื่อตั้งค่าการแจ้งเตือนแล้ว คุณจะได้รับการแจ้งเตือนในช่วงที่ช่องทางการแจ้งเตือนที่ให้ไว้ไม่มีความเคลื่อนไหว รวมถึงรายการเหตุการณ์จะสร้างขึ้นในหน้า "การแจ้งเตือน"

การรับการแจ้งเตือน

ช่องทางการแจ้งเตือนที่เราระบุไว้ใน Codelab นี้เป็นอีเมล เมื่อตั้งค่าแล้ว เราหวังว่าคุณจะไม่ได้รับการแจ้งเตือนใดๆ (ไม่มีการหยุดชะงัก) แต่หากส่งการแจ้งเตือนจะมีลักษณะดังนี้

43217b0a145c2cd.png

โปรดทราบว่าการแจ้งเตือนจะให้ค่าที่สังเกตได้ซึ่งข้ามเกณฑ์ที่คุณระบุไว้ รวมถึงการประทับเวลาที่สรุปเวลาที่เหตุการณ์เริ่มต้นขึ้นเป็นครั้งแรก

การติดตามเหตุการณ์

เมื่อเหตุการณ์เกิดขึ้น ระบบจะนับเหตุการณ์เหล่านั้นในส่วนเหตุการณ์ของหน้าการแจ้งเตือนด้วย

fdd883a9604ed981.png

คุณคลิกที่เหตุการณ์ใดเหตุการณ์หนึ่งเพื่อดูรายละเอียดเกี่ยวกับการหยุดทำงานได้ เช่น ระยะเวลาที่เกิดขึ้นหรือระดับร้ายแรง

โปรดทราบว่าเมื่อได้รับการแจ้งเตือน ขั้นตอนแรกที่ดีที่สุดคือการดูเมตริก จากนั้นค้นหาข้อผิดพลาดที่ทำให้เกิดการหยุดทำงานในบันทึก คุณสามารถทบทวนวิธีทำสิ่งเหล่านี้ได้ใน Codelab สำหรับการแก้ไขข้อบกพร่องของสมาร์ทโฮม

6. ขอแสดงความยินดี

17d485868a6771bc.png

ยินดีด้วย คุณได้เรียนรู้วิธีตั้งค่าการแจ้งเตือนโดยใช้เมตริกที่มีให้ในโปรเจ็กต์แล้ว เพื่อตรวจสอบการหยุดทำงานโดยอัตโนมัติและรับการแจ้งเตือนระหว่างบริการหยุดชะงัก

ขั้นตอนถัดไป

จาก Codelab นี้ ให้ลองทำตามแบบฝึกหัดต่อไปนี้และสำรวจแหล่งข้อมูลเพิ่มเติม

  • คุณรวมสิ่งที่ได้เรียนรู้ใน Codelab นี้กับเมตริกอื่นๆ ที่มีให้กับโปรเจ็กต์ได้ คุณดูรายการเมตริกทั้งหมดที่มีได้ในส่วนเมตริกที่รองรับในหน้าการตรวจสอบ
  • สำรวจช่องทางการแจ้งเตือนประเภทอื่นๆ สำหรับการแจ้งเตือนซึ่งอธิบายไว้ในหน้าตัวเลือกการแจ้งเตือนของเอกสาร Google Cloud Platform