Giám sát tình trạng ngừng dịch vụ cho nhà thông minh

1. Trước khi bắt đầu

Như đã đề cập trong lớp học lập trình Gỡ lỗi cho Nhà thông minh, chúng ta sẽ xuất bản các chỉ số và nhật ký cho các dự án Nhà thông minh của bạn. Các chỉ số giúp bạn xác định xem Hành động trong nhà thông minh của bạn đang gặp sự cố ở đâu, và nhật ký sẽ rất hữu ích khi bạn tìm hiểu sâu hơn về giải quyết những vấn đề này.

dd44868a4ff2df6e.png

Bạn có thể thiết lập cảnh báo bằng các chỉ số được cung cấp cho dự án của mình để giám sát tình trạng ngừng dịch vụ theo cách tự động và để nhận thông báo trong thời gian gián đoạn dịch vụ. Chúng tôi đã phát hành một chỉ số về độ tin cậy để nêu bật những trường hợp gián đoạn xảy ra với dự án của bạn. Chúng tôi sẽ đề cập đến vấn đề này trong lớp học lập trình này cùng với tất cả các công cụ cảnh báo khác hiện có trên Google Cloud Platform.

Điều kiện tiên quyết

Kiến thức bạn sẽ học được

  • Cách theo dõi các vấn đề về hiệu suất và tình trạng gián đoạn dịch vụ trên dự án của bạn.
  • Cách tạo cảnh báo dựa trên ngưỡng và nhận thông báo trong thời gian gián đoạn.
  • Cách sử dụng chỉ số độ tin cậy được cung cấp cho dự án của bạn để phát hiện sự cố ngừng dịch vụ.

2. Giám sát Hiệu suất

Việc giám sát hiệu suất là rất quan trọng để tích hợp thành công với Hệ sinh thái nhà thông minh của Google. Chúng tôi đang cung cấp một bộ công cụ giám sát cho các nhà phát triển nhà thông minh trên Google Cloud Platform. Bạn có thể sử dụng các công cụ này để biết hiệu suất của dự án.

Truy cập vào Trang tổng quan

Bước đầu tiên để truy cập vào dữ liệu của bạn là kiểm tra Trang tổng quan chính của Google bằng cách đăng nhập vào Google Cloud Console rồi chuyển đến Hoạt động > Giám sát > Trang tổng quan. Bạn sẽ thấy rằng có một số trang tổng quan và các trang tổng quan cho nhà thông minh có tiền tố là Google Home Analytics.

317697e52ced2437.pngs

Chúng tôi đã tạo các trang tổng quan riêng lẻ để thể hiện từng loại tích hợp. Các công cụ tích hợp Cloud, Local và Matter đều có trang tổng quan riêng, còn dữ liệu cho các giao thức phát trực tuyến camera được cung cấp trong trang tổng quan về Chất lượng của máy ảnh. Các trang tổng quan này sẽ chỉ chứa dữ liệu nếu bạn có tích hợp loại tương ứng, cùng với một dự án đang hoạt động đáp ứng các yêu cầu.

Khi mở một trong những trang tổng quan này, bạn sẽ thấy chế độ xem như sau:

f8bfd69286c569a4.png

Trang tổng quan có nhiều biểu đồ cho biết thông tin chi tiết về các yêu cầu mà dự án của bạn xử lý. Trên mỗi trang tổng quan tích hợp, bạn sẽ thấy một biểu đồ cho thấy tổng số yêu cầu mà dự án của bạn đã xử lý, một biểu đồ cho thấy tỷ lệ thành công của loại tích hợp đó, một vài biểu đồ cho thấy các loại thiết bị và đặc điểm có liên quan.

Có ba biểu đồ quan trọng để đánh giá hiệu suất của các hành động trong Nhà thông minh:

f511fafd3aaaa1eb.png

Trong thời gian ngừng dịch vụ, bạn thường sẽ thấy xu hướng giảm trong tỷ lệ phần trăm thành công và xu hướng tăng trong biểu đồ phân tích lỗi. Việc theo dõi tỷ lệ phần trăm thực thi thành công sẽ giúp nhận thấy tình trạng ngừng hoạt động. Đồng thời, việc xem xét các lỗi hàng đầu trong bảng chi tiết lỗi có thể giúp gỡ lỗi. Bạn cũng có thể quan sát thấy xu hướng tăng về độ trễ trong thời gian ngừng hoạt động. Bạn có thể thấy xu hướng này trong biểu đồ về độ trễ của yêu cầu.

Xin lưu ý rằng chế độ xem mặc định có các biểu đồ mà bạn thấy trong trang tổng quan Google Home Analytics chỉ là một chế độ xem mà chúng tôi đã tạo cho dự án của bạn bằng cách sử dụng dữ liệu chỉ số nhà thông minh. Bạn cũng có thể sử dụng Trình khám phá chỉ số để tạo biểu đồ của riêng mình dựa trên cùng các chỉ số cơ bản và lưu các biểu đồ đó trong trang tổng quan tuỳ chỉnh.

Trình khám phá chỉ số

Trình khám phá chỉ số là một công cụ để trực quan hoá các mặt cắt của tập dữ liệu của dự án. Bạn có thể truy cập vào công cụ này trong Google Cloud Console bằng cách chuyển đến Operations > Monitoring > Metrics Explorer (Hoạt động > Giám sát > Trình khám phá chỉ số).

Google Cloud cung cấp nhiều chỉ số ngay từ đầu, trong đó có một số chỉ số không liên quan đến nhà thông minh. Các chỉ số mà chúng tôi cung cấp cho nhà thông minh được liệt kê trong tài liệu "actions.googleapis.com/smarthome_action/..." và bạn có thể dễ dàng tìm kiếm các chỉ số này bằng cách nhập "smarthome" vào hộp chọn chỉ số.

538d851edfd34764.png.

Khi tìm kiếm "nhà thông minh", bạn sẽ thấy tất cả các chỉ số về nhà thông minh mà chúng tôi cung cấp cho dự án của bạn. Bạn có thể xem thông tin chi tiết về từng chỉ số của chúng tôi trên các trang Theo dõiGhi nhật ký trong tài liệu của chúng tôi.

Khi theo dõi dự án của bạn, chỉ số đơn giản nhất để tham chiếu đến là chỉ số Số yêu cầu (đây là chỉ số delta). Chỉ số này ghi lại một mục nhập cho mỗi quy trình thực thi nhà thông minh do người dùng của bạn khởi tạo, đồng thời ghi lại các trường như loại thiết bị, trait, hình thức thực thi liên quan đến quá trình thực thi và trường trạng thái cho thấy kết quả.

Khi bạn chọn chỉ số này, một màn hình sẽ hiển thị từng nhóm dữ liệu tương tự như sau:

b1c18141d15a0e09.png

Về cơ bản, đối với mỗi tổ hợp nhãn dữ liệu có trong chỉ số này, tồn tại một bộ chứa để ghi lại sự thay đổi (delta) giữa các khoảng thời gian trước đó và hiện tại. Bạn có thể nhóm hoặc lọc ra các nhóm này để có được lát dữ liệu chế độ xem mong muốn. Hơn nữa, dữ liệu được căn chỉnh theo các khoảng thời gian đã chọn bằng hàm căn chỉnh (DELTA, MEAN, MEDIAN, SUM). Trừ phi cần thiết, thông thường, bạn sẽ sử dụng cách căn chỉnh Delta với chỉ số delta.

Bạn có thể tạo hầu hết các biểu đồ có sẵn trong trang tổng quan Google Home Analytics bằng Trình khám phá chỉ số và lưu biểu đồ để truy cập sau trong trang tổng quan tùy chỉnh. Để có được những chế độ xem phức tạp hơn, chẳng hạn như biểu đồ tỷ lệ, bạn sẽ cần sử dụng MQL – Ngôn ngữ truy vấn giám sát.

3. Đo Lường Thành Đạt

Để theo dõi mức độ thành công của quá trình tích hợp, bạn có thể sử dụng tỷ lệ thành công mà chúng tôi tính được từ chỉ số số yêu cầu của bạn làm chỉ báo cơ sở hoặc mức độ tin cậy thành công để áp dụng một phương pháp chuyên biệt hơn.

Tỷ lệ thành công

Tỷ lệ thành công được tính cho tất cả hoạt động tích hợp của bạn bằng cách chia số yêu cầu thành công cho tất cả yêu cầu. Bạn có thể truy cập vào báo cáo này từ biểu đồ Tỷ lệ thực hiện đơn hàng thành công trên Trang tổng quan của Google Home Analytics.

55ea8930fbf48d9e.png.

Biểu đồ Tỷ lệ thực hiện đơn hàng thành công rất hữu ích trong việc theo dõi hiệu suất của dự án, nhưng không hữu ích lắm khi bạn xây dựng trang tổng quan tuỳ chỉnh hoặc thiết lập cảnh báo. Vì tỷ lệ thành công được tính từ chỉ số số lượng yêu cầu chứ không phải chỉ số riêng, nên bạn sẽ phải tạo lại chỉ số đó bằng MQL (Theo dõi ngôn ngữ truy vấn) trong Trình khám phá chỉ số để có thể sử dụng kết hợp đó với một trong hai tính năng.

Ngoài ra, để theo dõi tình trạng gián đoạn hiệu suất đối với dự án của bạn, chúng tôi cho rằng cần có một phương pháp chuyên biệt hơn nhiều. Đó là lý do chúng tôi tạo ra chỉ số độ tin cậy. Chỉ số này sẽ thay đổi dựa trên mức độ chênh lệch giữa tỷ lệ thực hiện đơn hàng thành công hiện tại của bạn so với các định mức trước đây.

Chỉ số độ tin cậy

Tình trạng gián đoạn dịch vụ có thể tồn tại ở nhiều hình dạng và quy mô đối với các dự án. Quá trình xác minh có thể kéo dài từ vài giờ đến vài phút, điều này có thể gây khó khăn cho việc nhận dạng các em. Để làm được điều này, chúng tôi đã tạo Chỉ số độ tin cậy trong dự án của bạn. Chỉ số này cung cấp giá trị được chuẩn hoá để dự đoán độ tin cậy dựa trên hiệu suất trước đây. Bạn có thể truy cập vào chỉ số độ tin cậy bằng cách tìm kiếm Smarthome trong trình khám phá chỉ số, sau đó chọn Mức độ tin cậy khi thực thi thành công.

ab467a1777281526.png

Khi việc tích hợp nhà thông minh của bạn hoạt động bằng hoặc cao hơn hiệu suất trước đây (trung bình trong 7 ngày), chỉ số này sẽ cho ra giá trị tối đa (1.0). Khi tỷ lệ phần trăm thành công của bạn chênh lệch nhiều hơn hệ số 4 độ lệch chuẩn (cũng được tính trong 7 ngày), chỉ số này sẽ cho ra giá trị nhỏ nhất (0,0). Đối với các trường hợp độ lệch chuẩn quá nhỏ (dưới 2,5%), chỉ số này dựa trên giá trị 0,0 với tỷ lệ phần trăm thành công giảm 10%.

Đối với tất cả các trường hợp ở giữa, chỉ số này cung cấp các giá trị từ 1 (hoàn toàn tin tưởng rằng không có sự cố ngừng dịch vụ) đến 0 (độ tin cậy tối đa rằng có sự cố ngừng dịch vụ).

Do đó, khi thiết lập cảnh báo (sẽ tiếp theo trong phần tiếp theo), bạn nên dựa vào giá trị 0,5 làm ngưỡng. Giá trị này sẽ tương ứng với 2 độ lệch chuẩn hoặc mức giảm 5%, tuỳ theo giá trị nào cao hơn.

4. Thiết lập cảnh báo

Bước tiếp theo là sử dụng mọi kiến thức bạn đã tìm hiểu ở phần trước để thiết lập cảnh báo cho dự án.

Tạo chính sách cảnh báo

Cảnh báo tự động trên Google Cloud Platform được thiết lập thông qua Chính sách cảnh báo. Bạn có thể truy cập vào Chính sách cảnh báo thông qua trình đơn bên, thẻ Thao tác > Giám sát > Cảnh báo. Bạn có thể tạo một chính sách cảnh báo mới bằng cách chọn +TẠO CHÍNH SÁCH. Thao tác này sẽ đưa bạn đến màn hình tạo chính sách cảnh báo:

6e417d88c2274b3d.png.

Quy trình tạo một chính sách cảnh báo bao gồm ba phần. Trước tiên, bạn cần xác định những gì mình muốn theo dõi bằng cách thêm một điều kiện. Thao tác nhấn nút THÊM ĐIỀU KIỆN sẽ mở ra một cửa sổ tương tự như Trình khám phá chỉ số, với một số chế độ kiểm soát bổ sung để định cấu hình điều kiện:

df1ccf7da741e1c7.png

Đối với mục tiêu, hãy chọn chỉ số tin cậy mà chúng ta đã đề cập trong phần trước. Sử dụng chỉ số này để đảm bảo căn chỉnh được đặt thành delta (Hiển thị tuỳ chọn nâng cao > Căn chỉnh). Bước tiếp theo là định cấu hình điều kiện cảnh báo và sử dụng các chế độ cài đặt sau:

4192e0f4ea00dd28.pngs

Điều kiện kích hoạt nếu – Đây là cấu hình chính để xác định thời điểm kích hoạt cảnh báo. Chọn Vi phạm chuỗi thời gian bất kỳ sẽ có tác dụng vì chúng tôi sẽ đặt một ngưỡng cho chỉ số và theo dõi xem giá trị có vượt quá ngưỡng hay không.

Điều kiện – Chúng ta muốn cảnh báo được kích hoạt khi giá trị giảm xuống dưới ngưỡng, vì vậy, chúng tôi sẽ đặt giá trị này thành dưới ngưỡng. Với chỉ số của chúng tôi, 1.0 có nghĩa là tính năng tích hợp đang hoạt động tốt và 0.0 cho biết sự cố cụ thể.

Ngưỡng – Chúng tôi đã tạo chỉ số độ tin cậy để cung cấp kết quả tốt nhất khi bạn đặt giá trị này thành 0,5. Nếu muốn nhận cảnh báo thường xuyên hơn và nhận thông báo về các sự cố ít hơn, bạn có thể thử tăng giá trị này (tối đa 1.0). Sau đó, nếu muốn nhận ít cảnh báo hơn (chỉ đối với các vấn đề nghiêm trọng hơn), bạn có thể thử giảm giá trị này (tối thiểu 0,0).

Đối với – Đây là chế độ cài đặt xác định khoảng thời gian ngừng dịch vụ trước khi bạn nhận được cảnh báo. Bạn nên giữ chế độ cài đặt này ở giá trị gần đây nhất để nhận cảnh báo về bất kỳ điểm nào vượt quá ngưỡng. Chỉ số độ tin cậy của chúng tôi được công bố 15 phút một lần và xem xét mức độ thành công trung bình trong khoảng thời gian đó.

Sau khi bạn thêm xong điều kiện, bước tiếp theo là chọn kênh thông báo. Phương pháp thông báo đơn giản nhất là cảnh báo qua email. Bạn có thể chọn một email có trong danh sách thả xuống Kênh thông báo:

3cc10629830e7f13.png.

Nếu bạn đánh dấu vào mục Thông báo về việc đóng cửa do sự cố, thì bạn sẽ nhận được một thông báo khác sau khi đánh dấu sự cố là đã đóng cửa. Trong trường hợp đó, bạn cũng nên chọn Thời gian tự động đóng sự cố, được chỉ định là 7 ngày theo mặc định.

Bước cuối cùng là đặt tên cho cảnh báo và thêm bất kỳ tài liệu nào bạn muốn đưa vào thông báo.

686fb1c537fee10.png.

Bạn nên cung cấp tài liệu, đặc biệt nếu bạn không phải là người sẽ nhận được cảnh báo. Bạn nên thêm các bước như nơi kiểm tra khi xảy ra sự cố, cách phân loại và gỡ lỗi trong thời gian ngừng dịch vụ. Bạn có thể tham khảo Hướng dẫn khắc phục sự cố của chúng tôi nếu cần.

Sau khi lưu, chính sách cảnh báo của bạn sẽ hiển thị trong phần Chính sách trên trang Cảnh báo.

c71a001e4df035ee.png

5. Giảm thiểu sự cố ngừng dịch vụ

Sau khi thiết lập cảnh báo, bạn sẽ nhận được thông báo trong thời gian ngừng dịch vụ từ các kênh thông báo mà bạn cung cấp. Đồng thời, bạn sẽ tạo một mục nhập sự cố trong trang Cảnh báo.

Nhận cảnh báo

Kênh cảnh báo mà chúng tôi cung cấp trong lớp học lập trình này là một email. Sau khi đặt, hy vọng bạn không nhận được bất kỳ cảnh báo nào (không gặp sự cố ngừng dịch vụ nào). Tuy nhiên, nếu bạn nhận được thông báo, thông báo sẽ có dạng như sau:

43217b0a145c2cd.png.

Xin lưu ý rằng thông báo cảnh báo cung cấp giá trị quan sát được vượt quá ngưỡng mà bạn chỉ định, cũng như dấu thời gian nêu rõ thời điểm sự cố bắt đầu xảy ra lần đầu.

Giám sát sự cố

Khi sự cố xảy ra, chúng cũng sẽ được tính trong phần sự cố trên trang Cảnh báo.

fdd883a9604ed981.png

Bạn có thể nhấp vào sự cố cụ thể để xem thông tin chi tiết về sự cố ngừng dịch vụ, chẳng hạn như sự cố này kéo dài bao lâu hoặc nghiêm trọng như thế nào.

Hãy nhớ rằng khi bạn nhận được cảnh báo, bước đầu tiên phù hợp nhất là xem xét các chỉ số, sau đó tìm kiếm các lỗi góp phần gây ra sự cố ngừng dịch vụ trong nhật ký của bạn. Bạn có thể xem lại cách thực hiện những việc này trong lớp học lập trình Gỡ lỗi nhà thông minh.

6. Xin chúc mừng

17d485868a6771bc.png.

Xin chúc mừng! Bạn đã tìm hiểu thành công cách thiết lập cảnh báo bằng cách sử dụng các chỉ số được cung cấp cho dự án của mình để giám sát sự cố ngừng dịch vụ theo kiểu tự động và nhận thông báo trong thời gian gián đoạn dịch vụ.

Các bước tiếp theo

Dựa trên lớp học lập trình này, hãy thử các bài tập sau và khám phá các tài nguyên khác:

  • Bạn có thể kết hợp những gì đã tìm hiểu trong lớp học lập trình này với các chỉ số khác được cung cấp cho dự án của bạn. Bạn có thể xem danh sách đầy đủ các chỉ số hiện có trong phần Chỉ số được hỗ trợ trên trang Theo dõi.
  • Khám phá các loại kênh thông báo khác cho các cảnh báo được giải thích trên trang Tuỳ chọn thông báo của tài liệu Google Cloud Platform.