Giám sát tình trạng ngừng dịch vụ cho nhà thông minh

1. Trước khi bắt đầu

Như đã đề cập trong lớp học lập trình Gỡ lỗi Nhà thông minh, chúng tôi sẽ phát hành các chỉ số và nhật ký cho các dự án Nhà thông minh của bạn. Các chỉ số giúp bạn xác định vấn đề của Hành động nhà thông minh và nhật ký sẽ hữu ích khi bạn tìm hiểu sâu để giải quyết những vấn đề này.

dd44868a4ff2df6e.png

Bạn có thể thiết lập cảnh báo bằng các chỉ số được cung cấp cho dự án của mình để tự động theo dõi thời gian ngừng hoạt động và nhận thông báo trong thời gian gián đoạn dịch vụ. Chúng tôi sẽ phát hành một chỉ số độ tin cậy để nêu bật các sự cố xảy ra với dự án của bạn. Chúng tôi sẽ đề cập đến chỉ số này trong lớp học lập trình này cùng với tất cả các công cụ cảnh báo khác mà bạn có thể sử dụng trên Google Cloud.

Điều kiện tiên quyết

Kiến thức bạn sẽ học được

  • Cách theo dõi các vấn đề về hiệu suất và sự cố dịch vụ trên dự án của bạn.
  • Cách tạo cảnh báo dựa trên ngưỡng và nhận thông báo trong thời gian gián đoạn.
  • Cách sử dụng chỉ số độ tin cậy được cung cấp cho dự án của bạn để phát hiện sự cố ngừng hoạt động.

2. Giám sát Hiệu suất

Việc theo dõi hiệu suất là yếu tố quan trọng để tích hợp thành công với Hệ sinh thái Google Home. Chúng tôi đang cung cấp một bộ công cụ giám sát cho các nhà phát triển nhà thông minh trên Google Cloud. Bạn có thể sử dụng các công cụ này để nắm được hiệu suất của dự án.

Truy cập vào Trang tổng quan

Bước đầu tiên để truy cập vào dữ liệu của bạn là kiểm tra trang tổng quan của Google Home bằng cách đăng nhập vào Google Cloud Console rồi chuyển đến phần Operations (Hoạt động) > Monitoring (Theo dõi) > Dashboards (Trang tổng quan). Bạn sẽ thấy một số trang tổng quan và các trang tổng quan cho nhà thông minh có tiền tố là Google Home Analytics.

317697e52ced2437.png

Chúng tôi đã tạo các trang tổng quan riêng lẻ để đại diện cho từng loại chế độ tích hợp. Các chế độ tích hợp trên đám mây, cục bộ và Matter có bảng tổng quan riêng, còn dữ liệu cho các giao thức truyền trực tuyến camera được cung cấp trong bảng tổng quan về Chất lượng máy ảnh. Các trang tổng quan này sẽ chỉ chứa dữ liệu nếu bạn đã tích hợp loại tương ứng, cùng với một dự án đang hoạt động để thực hiện các yêu cầu.

Khi mở một trong các trang tổng quan này, bạn sẽ thấy chế độ xem như sau:

f8bfd69286c569a4.png

Trang tổng quan chứa nhiều biểu đồ cho thấy thông tin chi tiết về các yêu cầu do dự án của bạn xử lý. Với mỗi trang tổng quan về chế độ tích hợp, bạn sẽ thấy một biểu đồ cho biết tổng số yêu cầu mà dự án của bạn xử lý, một biểu đồ cho biết tỷ lệ thành công của loại chế độ tích hợp đó và một số biểu đồ cho biết các loại thiết bị và đặc điểm liên quan.

Có 3 biểu đồ quan trọng để đánh giá hiệu suất của các hành động trong Nhà thông minh:

f511fafd3aaaa1eb.png

Trong thời gian ngừng hoạt động, bạn thường sẽ thấy tỷ lệ thành công có xu hướng giảm và biểu đồ phân tích lỗi có xu hướng tăng. Việc theo dõi tỷ lệ phần trăm thành công của quá trình thực thi giúp bạn nhận thấy thời điểm ngừng hoạt động, trong khi việc xem xét các lỗi hàng đầu trong bảng chi tiết lỗi có thể giúp bạn gỡ lỗi. Bạn cũng có thể quan sát thấy xu hướng tăng độ trễ trong thời gian ngừng hoạt động. Bạn có thể xem thông tin này trong biểu đồ độ trễ của yêu cầu.

Xin lưu ý rằng chế độ xem mặc định có biểu đồ mà bạn thấy trong trang tổng quan của Google Home Analytics chỉ là một chế độ xem mà chúng tôi đã tạo cho dự án của bạn bằng dữ liệu chỉ số nhà thông minh. Bạn cũng có thể sử dụng Trình khám phá chỉ số để tạo biểu đồ của riêng mình từ cùng một chỉ số cơ bản và lưu các biểu đồ đó trong trang tổng quan tuỳ chỉnh.

Trình khám phá chỉ số

Trình khám phá chỉ số là một công cụ để trực quan hoá các phần cắt của tập dữ liệu dự án. Bạn có thể truy cập vào công cụ này trong Google Cloud Console bằng cách chuyển đến Operations (Hoạt động) > Monitoring (Theo dõi) > Metrics Explorer (Trình khám phá chỉ số).

Google Cloud cung cấp nhiều chỉ số ngay từ đầu, bao gồm cả một số chỉ số không liên quan đến nhà thông minh. Các chỉ số mà chúng tôi cung cấp cho nhà thông minh được liệt kê trong tài nguyên "actions.googleapis.com/smarthome_action/..." và bạn có thể dễ dàng tìm kiếm bằng cách nhập "smarthome" vào hộp chọn chỉ số.

538d851edfd34764.png

Khi bạn tìm kiếm "nhà thông minh", tất cả chỉ số nhà thông minh mà chúng tôi cung cấp cho dự án của bạn sẽ xuất hiện. Bạn có thể xem thông tin chi tiết về từng chỉ số của chúng tôi trong các trang Theo dõiGhi nhật ký của tài liệu.

Khi theo dõi dự án, chỉ số đơn giản nhất để tham khảo là chỉ số Số yêu cầu (là một chỉ số delta). Chỉ số này ghi lại một mục nhập cho mỗi lần thực thi nhà thông minh do người dùng của bạn khởi tạo, đồng thời ghi lại các trường như loại thiết bị, đặc điểm, loại thực thi liên quan đến quá trình thực thi và trường trạng thái cho biết kết quả.

Khi chọn chỉ số này, bạn sẽ thấy một màn hình hiển thị từng nhóm dữ liệu tương tự như sau:

b1c18141d15a0e09.png

Về cơ bản, đối với mỗi tổ hợp nhãn dữ liệu có trong chỉ số này, một bộ chứa sẽ ghi lại sự thay đổi (delta) giữa khoảng thời gian trước và hiện tại. Bạn có thể nhóm hoặc lọc ra các bộ chứa này để lấy lát cắt dữ liệu chế độ xem mà bạn muốn. Hơn nữa, dữ liệu được căn chỉnh thành các khoảng thời gian đã chọn bằng một hàm căn chỉnh (DELTA, MEAN, MEDIAN, SUM). Trừ khi cần thiết, bạn thường sẽ sử dụng cách căn chỉnh Delta với chỉ số delta.

Bạn có thể tạo hầu hết các biểu đồ có trong trang tổng quan Google Home Analytics bằng Trình khám phá chỉ số và lưu biểu đồ để truy cập sau trong một trang tổng quan tuỳ chỉnh. Để có được các chế độ xem phức tạp hơn, chẳng hạn như biểu đồ tỷ lệ, bạn cần sử dụng MQL – Ngôn ngữ truy vấn giám sát.

3. Đo Lường Thành Đạt

Khi theo dõi mức độ thành công của quá trình tích hợp, bạn có thể sử dụng tỷ lệ thành công mà chúng tôi tính toán từ chỉ số số yêu cầu làm chỉ báo cơ sở hoặc độ tin cậy về mức độ thành công để có phương pháp chuyên biệt hơn.

Tỷ lệ thành công

Tỷ lệ thành công được tính cho tất cả các chế độ tích hợp bằng cách chia số lượng yêu cầu thành công cho tất cả yêu cầu. Bạn có thể truy cập vào chỉ số này trong biểu đồ Tỷ lệ thành công của đơn hàng trên Trang tổng quan Analytics của Google Home.

55ea8930fbf48d9e.png

Biểu đồ Tỷ lệ thành công của đơn hàng rất hữu ích để theo dõi hiệu suất của dự án, nhưng không hữu ích lắm khi tạo trang tổng quan tuỳ chỉnh hoặc thiết lập cảnh báo. Vì tỷ lệ thành công được lấy từ chỉ số số yêu cầu chứ không phải là một chỉ số riêng lẻ, nên bạn sẽ phải tạo lại chỉ số này bằng MQL (Ngôn ngữ truy vấn giám sát) trong Trình khám phá chỉ số để sử dụng chỉ số này với một trong hai tính năng.

Ngoài ra, để theo dõi sự cố về hiệu suất trên dự án của bạn, chúng tôi cho rằng bạn cần có một phương pháp chuyên sâu hơn. Đó là lý do chúng tôi tạo ra chỉ số độ tin cậy thay đổi dựa trên mức độ chênh lệch giữa tỷ lệ thực hiện thành công hiện tại của bạn so với các chuẩn mực trước đây.

Chỉ số độ tin cậy

Sự cố có thể tồn tại ở nhiều hình dạng và kích thước đối với các dự án. Các cuộc tấn công này có thể kéo dài vài giờ đến vài phút, khiến việc xác định chúng trở nên khó khăn. Do đó, chúng tôi đã tạo một Chỉ số độ tin cậy trong dự án của bạn. Chỉ số này cung cấp một giá trị chuẩn hoá để dự đoán độ tin cậy dựa trên hiệu suất trước đây. Bạn có thể truy cập vào chỉ số độ tin cậy bằng cách tìm kiếm nhà thông minh trong trình khám phá chỉ số, sau đó chọn Độ tin cậy về việc thực thi thành công.

ab467a1777281526.png

Khi tính năng tích hợp nhà thông minh của bạn đạt hiệu suất bằng hoặc cao hơn hiệu suất trước đây (trung bình 7 ngày), chỉ số này sẽ trả về giá trị tối đa (1.0). Khi tỷ lệ thành công của bạn chênh lệch nhiều hơn 4 độ lệch chuẩn (cũng được tính trong 7 ngày), chỉ số này sẽ trả về giá trị tối thiểu (0,0). Đối với các trường hợp độ lệch chuẩn quá nhỏ (dưới 2,5%), chỉ số này sẽ lấy giá trị 0,0 khi tỷ lệ thành công giảm 10%.

Đối với tất cả các trường hợp ở giữa, chỉ số này cung cấp các giá trị trong khoảng từ 1.0 (đủ tin tưởng rằng không có sự cố ngừng dịch vụ) đến 0.0 (đủ tin tưởng rằng có sự cố ngừng dịch vụ).

Do đó, khi đặt cảnh báo (sẽ có trong phần tiếp theo), bạn nên đặt giá trị 0,5 làm ngưỡng. Điều này sẽ tương ứng với 2 độ lệch chuẩn hoặc mức giảm 5%, tuỳ theo giá trị nào cao hơn.

4. Thiết lập thông báo

Bước tiếp theo là sử dụng mọi kiến thức bạn đã học được trong phần trước để thiết lập cảnh báo cho dự án của bạn.

Tạo chính sách cảnh báo

Bạn có thể thiết lập tính năng thông báo tự động trên Google Cloud thông qua Chính sách thông báo. Bạn có thể truy cập vào Chính sách cảnh báo thông qua trình đơn bên, thẻ Hoạt động > Giám sát > Cảnh báo. Bạn có thể tạo chính sách cảnh báo mới bằng cách chọn tuỳ chọn +CREATE POLICY (TẠO CHÍNH SÁCH). Thao tác này sẽ đưa bạn đến màn hình tạo chính sách cảnh báo:

6e417d88c2274b3d.png

Quy trình tạo chính sách cảnh báo bao gồm 3 phần. Trước tiên, bạn cần xác định những gì bạn muốn theo dõi bằng cách thêm một điều kiện. Khi nhấn nút THÊM ĐIỀU KIỆN, một cửa sổ tương tự như Trình khám phá chỉ số sẽ xuất hiện, cùng với một số chế độ điều khiển bổ sung để định cấu hình điều kiện:

df1ccf7da741e1c7.png

Đối với mục tiêu, hãy chọn chỉ số độ tin cậy mà chúng ta đã đề cập trong phần trước. Đảm bảo bạn đặt trình căn chỉnh thành delta bằng chỉ số này (Hiện tuỳ chọn nâng cao > Trình căn chỉnh). Bước tiếp theo là định cấu hình điều kiện cảnh báo và sử dụng các chế độ cài đặt sau:

4192e0f4ea00dd28.png

Điều kiện kích hoạt nếu – Đây là cấu hình chính để xác định thời điểm kích hoạt cảnh báo. Bạn có thể chọn Mọi chuỗi thời gian vi phạm vì chúng ta sẽ đặt ngưỡng cho chỉ số và theo dõi xem giá trị có vượt quá ngưỡng hay không.

Điều kiện – Chúng ta muốn cảnh báo được kích hoạt khi giá trị giảm xuống dưới ngưỡng, vì vậy, chúng ta sẽ đặt điều kiện này thành dưới. Với chỉ số của chúng tôi, 1.0 có nghĩa là quá trình tích hợp đang hoạt động tốt và 0.0 cho biết đã có sự cố ngừng hoạt động.

Ngưỡng – Chúng tôi đã tạo chỉ số độ tin cậy để cung cấp kết quả tốt nhất khi giá trị này được đặt thành 0,5. Nếu muốn nhận cảnh báo thường xuyên hơn và được thông báo về các sự cố ít nghiêm trọng hơn, bạn có thể thử tăng giá trị này (tối đa là 1,0). Sau đó, nếu muốn nhận ít cảnh báo hơn, chỉ đối với các vấn đề nghiêm trọng hơn, bạn có thể thử giảm giá trị này (tối thiểu 0,0).

Trong – Đây là chế độ cài đặt để xác định thời lượng của sự cố ngừng hoạt động trước khi bạn nhận được cảnh báo. Bạn nên giữ chế độ cài đặt này ở giá trị gần đây nhất để nhận cảnh báo cho mọi điểm vượt quá ngưỡng. Chỉ số độ tin cậy của chúng tôi được xuất bản 15 phút một lần, dựa trên tỷ lệ thành công trung bình trong khoảng thời gian đó.

Sau khi bạn hoàn tất việc thêm điều kiện, bước tiếp theo là chọn kênh thông báo. Phương thức thông báo đơn giản nhất là cảnh báo qua email. Bạn có thể chọn một email trong trình đơn thả xuống Kênh thông báo:

3cc10629830e7f13.png

Nếu bạn chọn tuỳ chọn Thông báo khi sự cố kết thúc, hệ thống sẽ gửi một thông báo khác sau khi sự cố được đánh dấu là đã kết thúc. Trong trường hợp đó, bạn cũng nên chọn Thời lượng tự động đóng sự cố. Theo mặc định, thời lượng này được chỉ định là 7 ngày.

Bước cuối cùng là đặt tên cho cảnh báo và thêm mọi tài liệu bạn muốn đưa vào thông báo.

686fb1c537fee10.png

Bạn nên cung cấp tài liệu, đặc biệt là nếu bạn không phải là người sẽ nhận được cảnh báo. Việc thêm các bước như nơi cần kiểm tra trong sự cố và cách phân loại và gỡ lỗi có thể giúp ích trong trường hợp ngừng hoạt động. Bạn có thể tham khảo Hướng dẫn khắc phục sự cố của chúng tôi nếu cần.

Sau khi lưu, chính sách cảnh báo của bạn sẽ xuất hiện trong phần Chính sách trên trang Cảnh báo.

c71a001e4df035ee.png

5. Giảm thiểu sự cố

Sau khi thiết lập cảnh báo, bạn sẽ nhận được thông báo trong thời gian ngừng hoạt động từ các kênh thông báo mà bạn đã cung cấp, đồng thời một mục sự cố sẽ được tạo trong trang Cảnh báo.

Nhận cảnh báo

Kênh thông báo mà chúng tôi cung cấp trong lớp học lập trình này là email. Sau khi thiết lập, hy vọng bạn sẽ không nhận được cảnh báo nào (không có sự cố nào), nhưng nếu có, thông báo sẽ có dạng như sau:

43217b0a145c2cd.png

Lưu ý rằng thông báo cảnh báo cung cấp giá trị được quan sát vượt quá ngưỡng mà bạn chỉ định, cũng như dấu thời gian cho biết thời điểm sự cố bắt đầu.

Giám sát sự cố

Khi xảy ra sự cố, các sự cố đó cũng sẽ được tính trong mục sự cố trên trang Cảnh báo.

fdd883a9604ed981.png

Bạn có thể nhấp vào một sự cố cụ thể để xem thông tin chi tiết về sự cố ngừng hoạt động, chẳng hạn như thời lượng hoặc mức độ nghiêm trọng của sự cố.

Hãy nhớ rằng khi bạn nhận được cảnh báo, bước đầu tiên tốt nhất là xem xét các chỉ số, sau đó tìm lỗi gây ra sự cố ngừng hoạt động trong nhật ký. Bạn có thể xem lại cách thực hiện các thao tác này trong lớp học lập trình Gỡ lỗi nhà thông minh.

6. Xin chúc mừng

17d485868a6771bc.png

Xin chúc mừng! Bạn đã tìm hiểu thành công cách thiết lập cảnh báo bằng các chỉ số được cung cấp cho dự án của mình để tự động theo dõi tình trạng ngừng hoạt động và nhận thông báo trong thời gian gián đoạn dịch vụ.

Các bước tiếp theo

Dựa trên lớp học lập trình này, hãy thử các bài tập sau và khám phá các tài nguyên bổ sung:

  • Bạn có thể kết hợp những gì đã học được trong lớp học lập trình này với các chỉ số khác được cung cấp cho dự án của mình. Bạn có thể xem danh sách đầy đủ các chỉ số có sẵn trong phần Chỉ số được hỗ trợ trên trang Theo dõi.
  • Khám phá các loại kênh thông báo khác cho cảnh báo được giải thích trong trang Tuỳ chọn thông báo của tài liệu Google Cloud.