Giám sát tình trạng ngừng dịch vụ cho nhà thông minh

1. Trước khi bắt đầu

Như chúng ta đã đề cập trong codelab Gỡ lỗi Nhà thông minh, chúng tôi đang xuất bản các chỉ số và nhật ký cho các dự án Nhà thông minh của bạn. Các chỉ số giúp bạn xác định vị trí mà Thao tác nhà thông minh gặp vấn đề và nhật ký sẽ hữu ích khi bạn tìm hiểu sâu để giải quyết những vấn đề này.

dd44868a4ff2df6e.png

Bạn có thể thiết lập cảnh báo bằng cách sử dụng các chỉ số được cung cấp cho dự án của mình để tự động theo dõi tình trạng ngừng hoạt động và nhận thông báo trong thời gian dịch vụ bị gián đoạn. Chúng tôi sẽ xuất bản một chỉ số độ tin cậy để làm nổi bật những gián đoạn trong dự án của bạn. Chúng tôi sẽ đề cập đến chỉ số này trong lớp học lập trình này cùng với tất cả các công cụ cảnh báo khác mà bạn có thể sử dụng trên Google Cloud.

Điều kiện tiên quyết

Kiến thức bạn sẽ học được

  • Cách theo dõi các vấn đề về hiệu suất và tình trạng gián đoạn dịch vụ trên dự án của bạn.
  • Cách tạo cảnh báo dựa trên ngưỡng và nhận thông báo trong thời gian xảy ra sự cố.
  • Cách sử dụng chỉ số độ tin cậy được cung cấp cho dự án của bạn để phát hiện sự cố ngừng hoạt động.

2. Giám sát Hiệu suất

Việc theo dõi hiệu suất là yếu tố quan trọng để tích hợp thành công với Hệ sinh thái Google Home. Chúng tôi đang cung cấp một bộ công cụ giám sát cho các nhà phát triển nhà thông minh trên Google Cloud. Bạn có thể sử dụng các công cụ này để nắm được hiệu suất của dự án.

Truy cập vào trang tổng quan

Bước đầu tiên để truy cập vào dữ liệu của bạn là kiểm tra trang tổng quan Google Home bằng cách đăng nhập vào bảng điều khiển Google Cloud rồi chuyển đến phần Operations > Monitoring > Dashboards (Thao tác > Giám sát > Trang tổng quan). Bạn sẽ thấy có một số trang tổng quan, trong đó trang tổng quan dành cho nhà thông minh có tiền tố là Google Home Analytics.

317697e52ced2437.png

Chúng tôi đã tạo các trang tổng quan riêng biệt để thể hiện từng loại tích hợp. Các chế độ tích hợp Đám mây, Cục bộ và Matter đều có bảng điều khiển riêng và dữ liệu cho các giao thức truyền phát trực tiếp của camera được cung cấp trong bảng điều khiển Chất lượng camera. Những trang tổng quan này sẽ chỉ chứa dữ liệu nếu bạn có một chế độ tích hợp thuộc loại tương ứng, cùng với một dự án đang hoạt động đáp ứng các yêu cầu.

Khi bạn mở một trong các trang tổng quan này, chế độ xem bạn nhận được sẽ trông như sau:

f8bfd69286c569a4.png

Trang tổng quan chứa nhiều biểu đồ cho thấy thông tin chi tiết về các yêu cầu mà dự án của bạn xử lý. Với mỗi trang tổng quan về hoạt động tích hợp, bạn sẽ thấy một biểu đồ cho biết tổng số yêu cầu mà dự án của bạn xử lý, một biểu đồ cho biết tỷ lệ thành công của loại hoạt động tích hợp đó và một số biểu đồ cho biết các loại thiết bị và đặc điểm liên quan.

Có 3 biểu đồ quan trọng để đánh giá hiệu suất của các thao tác Nhà thông minh:

f511fafd3aaaa1eb.png

Trong thời gian ngừng dịch vụ, bạn thường thấy tỷ lệ phần trăm thành công giảm và tỷ lệ phần trăm lỗi tăng trong biểu đồ phân tích lỗi. Việc giám sát tỷ lệ thành công khi thực thi giúp bạn nhận thấy tình trạng ngừng dịch vụ, trong khi việc xem xét các lỗi hàng đầu trong bảng chi tiết lỗi có thể giúp bạn gỡ lỗi. Bạn cũng có thể nhận thấy độ trễ tăng lên trong thời gian ngừng hoạt động. Bạn có thể xem điều này trong biểu đồ độ trễ của yêu cầu.

Xin lưu ý rằng chế độ xem mặc định có biểu đồ mà bạn thấy trong trang tổng quan Google Home Analytics chỉ là một chế độ xem mà chúng tôi tạo cho dự án của bạn bằng cách sử dụng dữ liệu chỉ số nhà thông minh. Bạn cũng có thể dùng Trình khám phá chỉ số để tạo biểu đồ của riêng mình từ các chỉ số cơ bản tương tự và lưu các biểu đồ đó vào trang tổng quan tuỳ chỉnh.

Trình khám phá chỉ số

Metrics Explorer là một công cụ để trực quan hoá các phần cắt ngang của tập dữ liệu trong dự án. Bạn có thể truy cập vào công cụ này trong Google Cloud Console bằng cách chuyển đến Operations > Monitoring > Metrics Explorer (Thao tác > Giám sát > Trình khám phá chỉ số).

Google Cloud cung cấp sẵn nhiều chỉ số, bao gồm cả một số chỉ số không liên quan đến nhà thông minh. Các chỉ số mà chúng tôi cung cấp cho nhà thông minh được liệt kê trong tài nguyên "actions.googleapis.com/smarthome_action/..." và bạn có thể dễ dàng tìm kiếm bằng cách nhập "smarthome" vào hộp chọn chỉ số.

538d851edfd34764.png

Khi tìm kiếm "smarthome", bạn sẽ thấy tất cả các chỉ số nhà thông minh mà chúng tôi cung cấp cho dự án của bạn. Bạn có thể xem thông tin chi tiết về từng chỉ số của chúng tôi trên các trang Giám sátGhi nhật ký trong tài liệu của chúng tôi.

Khi giám sát dự án, chỉ số đơn giản nhất mà bạn có thể tham khảo là chỉ số Số yêu cầu (đây là chỉ số delta). Chỉ số này ghi lại một mục nhập cho mỗi lần thực thi nhà thông minh do người dùng của bạn bắt đầu và ghi lại các trường như loại thiết bị, đặc điểm, loại thực thi liên quan đến quá trình thực thi và trường trạng thái cho biết kết quả.

Khi chọn chỉ số này, bạn sẽ thấy một màn hình hiển thị từng nhóm dữ liệu tương tự như sau:

b1c18141d15a0e09.png

Về cơ bản, đối với mọi tổ hợp nhãn dữ liệu có trong chỉ số này, sẽ có một nhóm ghi lại sự thay đổi (delta) giữa khoảng thời gian trước và hiện tại. Bạn có thể nhóm hoặc lọc các nhóm này để có được lát dữ liệu chế độ xem mong muốn mà bạn muốn. Ngoài ra, dữ liệu được căn chỉnh thành các khoảng thời gian đã chọn bằng một hàm căn chỉnh (DELTA, MEAN, MEDIAN, SUM). Nếu không cần thiết, bạn thường sẽ sử dụng chế độ căn chỉnh Delta với chỉ số delta.

Bạn có thể tạo hầu hết các biểu đồ có trong trang tổng quan Google Home Analytics bằng cách sử dụng Trình khám phá chỉ số và lưu biểu đồ để truy cập sau này trong một trang tổng quan tuỳ chỉnh. Để đạt được các chế độ xem phức tạp hơn, chẳng hạn như biểu đồ tỷ lệ, bạn sẽ cần sử dụng MQL (Ngôn ngữ truy vấn giám sát).

3. Đo Lường Thành Đạt

Khi theo dõi mức độ thành công của việc tích hợp, bạn có thể sử dụng tỷ lệ thành công mà chúng tôi tính toán từ chỉ số số lượng yêu cầu làm chỉ báo cơ sở hoặc độ tin cậy thành công để có một phương pháp chuyên biệt hơn.

Tỷ lệ thành công

Tỷ lệ thành công được tính cho tất cả các hoạt động tích hợp của bạn bằng cách chia số yêu cầu thành công cho tất cả các yêu cầu. Bạn có thể truy cập vào trang này thông qua biểu đồ Tỷ lệ hoàn thành thành công trong Trang tổng quan phân tích Google Home.

55ea8930fbf48d9e.png

Biểu đồ Tỷ lệ hoàn thành đơn hàng rất hữu ích để theo dõi hiệu suất của dự án, nhưng không hữu ích lắm khi bạn tạo trang tổng quan tuỳ chỉnh hoặc thiết lập cảnh báo. Vì tỷ lệ thành công được lấy từ chỉ số số lượng yêu cầu chứ không phải là một chỉ số riêng biệt, nên bạn sẽ phải tạo lại chỉ số này bằng MQL (Ngôn ngữ truy vấn giám sát) trong Trình khám phá chỉ số để sử dụng với một trong hai tính năng.

Ngoài ra, để theo dõi các vấn đề về hiệu suất trong dự án của bạn, chúng tôi cho rằng bạn cần có một phương pháp chuyên biệt hơn nhiều. Đó là lý do chúng tôi tạo ra chỉ số độ tin cậy. Chỉ số này thay đổi tuỳ thuộc vào mức độ chênh lệch giữa tỷ lệ hoàn thành hiện tại của bạn so với các chuẩn mực trước đây.

Chỉ số độ tin cậy

Sự cố có thể xảy ra ở nhiều hình dạng và quy mô đối với các dự án. Chúng có thể kéo dài từ vài giờ đến chỉ vài phút, điều này có thể gây khó khăn cho việc xác định. Vì vậy, chúng tôi đã tạo một Chỉ số độ tin cậy trong dự án của bạn. Chỉ số này cung cấp một giá trị được chuẩn hoá để dự đoán độ tin cậy dựa trên hiệu suất trong quá khứ. Bạn có thể truy cập vào chỉ số độ tin cậy bằng cách tìm kiếm smarthome trong trình khám phá chỉ số, sau đó chọn Độ tin cậy khi thực hiện thành công.

ab467a1777281526.png

Khi hoạt động tích hợp nhà thông minh của bạn đạt hoặc vượt quá hiệu suất trước đây (trung bình 7 ngày), chỉ số này sẽ xuất ra giá trị tối đa (1.0). Khi tỷ lệ thành công của bạn lệch hơn 4 độ lệch chuẩn (cũng được tính trong 7 ngày), chỉ số này sẽ xuất ra giá trị tối thiểu (0,0). Đối với những trường hợp có độ lệch chuẩn quá nhỏ (dưới 2,5%), chỉ số này sẽ dựa vào giá trị 0,0 khi tỷ lệ thành công giảm 10%.

Đối với tất cả các trường hợp ở giữa, chỉ số này cung cấp các giá trị từ 1,0 (hoàn toàn tin tưởng rằng không có sự cố ngừng hoạt động) và 0,0 (mức độ tin cậy tối đa rằng có sự cố ngừng hoạt động).

Do đó, khi thiết lập cảnh báo (sẽ xuất hiện trong phần tiếp theo), bạn nên đặt giá trị 0,5 làm ngưỡng. Điều này sẽ tương ứng với 2 độ lệch chuẩn hoặc mức giảm 5%, tuỳ theo mức nào cao hơn.

4. Thiết lập Google Alerts

Bước tiếp theo là sử dụng mọi thứ bạn đã học được trong phần trước để thiết lập cảnh báo cho dự án của mình.

Tạo chính sách cảnh báo

Bạn có thể thiết lập tính năng cảnh báo tự động trên Google Cloud thông qua Chính sách cảnh báo. Bạn có thể truy cập vào Chính sách cảnh báo thông qua trình đơn bên, thẻ Operations > Monitoring > Alerting (Thao tác > Giám sát > Cảnh báo). Bạn có thể tạo một chính sách cảnh báo mới bằng cách chọn mục +TẠO CHÍNH SÁCH. Thao tác này sẽ đưa bạn đến màn hình tạo chính sách cảnh báo:

6e417d88c2274b3d.png

Có 3 phần để tạo một chính sách cảnh báo. Trước tiên, bạn cần xác định những gì bạn muốn theo dõi bằng cách thêm một điều kiện. Khi bạn nhấn nút THÊM ĐIỀU KIỆN, một cửa sổ tương tự như Trình khám phá chỉ số sẽ xuất hiện, cùng với một số chế độ điều khiển bổ sung để định cấu hình điều kiện:

df1ccf7da741e1c7.png

Đối với mục tiêu, hãy chọn chỉ số độ tin cậy mà chúng ta đã đề cập trong phần trước. Đảm bảo bạn đặt aligner thành delta bằng chỉ số này (Show Advanced Options > Aligner). Bước tiếp theo là định cấu hình điều kiện cảnh báo và sử dụng các chế độ cài đặt sau:

4192e0f4ea00dd28.png

Điều kiện kích hoạt nếu – Đây là cấu hình chính để xác định thời điểm kích hoạt cảnh báo. Việc chọn Bất kỳ chuỗi thời gian nào vi phạm sẽ hoạt động vì chúng ta sẽ đặt một ngưỡng cho chỉ số và theo dõi xem giá trị có vượt quá ngưỡng hay không.

Điều kiện – Chúng ta muốn cảnh báo được kích hoạt khi giá trị giảm xuống dưới ngưỡng, vì vậy, chúng ta sẽ đặt điều kiện này thành thấp hơn. Với chỉ số của chúng tôi, 1.0 có nghĩa là hoạt động tích hợp đang diễn ra bình thường và 0.0 cho biết tình trạng ngừng dịch vụ chắc chắn.

Ngưỡng – Chúng tôi đã tạo chỉ số độ tin cậy để cung cấp kết quả tốt nhất khi bạn đặt giá trị này thành 0,5. Nếu muốn nhận cảnh báo thường xuyên hơn và được thông báo về những sự cố nhỏ hơn, bạn có thể thử tăng giá trị này (tối đa là 1.0). Sau đó, nếu muốn nhận ít cảnh báo hơn, chỉ cho các vấn đề nghiêm trọng hơn, bạn có thể thử giảm giá trị này (tối thiểu là 0,0).

Trong – Đây là chế độ cài đặt để xác định thời gian ngừng dịch vụ trước khi bạn nhận được cảnh báo. Bạn nên giữ chế độ cài đặt này ở giá trị gần đây nhất để nhận được cảnh báo cho mọi điểm vượt quá ngưỡng. Chỉ số độ tin cậy của chúng tôi được xuất bản sau mỗi 15 phút, dựa trên mức độ thành công trung bình trong khoảng thời gian đó.

Sau khi hoàn tất việc thêm điều kiện, bước tiếp theo là chọn kênh thông báo. Phương thức thông báo đơn giản nhất là cảnh báo qua email. Bạn có thể chọn một email trong trình đơn thả xuống Kênh thông báo:

3cc10629830e7f13.png

Nếu bạn đánh dấu vào lựa chọn Thông báo khi sự cố được đóng, thì một thông báo khác sẽ được gửi khi sự cố được đánh dấu là đã đóng. Trong trường hợp đó, bạn cũng nên chọn Khoảng thời gian tự động đóng sự cố (theo mặc định là 7 ngày).

Bước cuối cùng là đặt tên cho cảnh báo và thêm mọi tài liệu bạn muốn đưa vào thông báo.

686fb1c537fee10.png

Bạn nên cung cấp giấy tờ, đặc biệt nếu bạn không phải là người nhận cảnh báo. Việc thêm các bước như nơi cần kiểm tra trong trường hợp xảy ra sự cố và cách phân loại cũng như gỡ lỗi có thể giúp ích trong thời gian ngừng hoạt động. Bạn có thể tham khảo Hướng dẫn khắc phục sự cố khi cần.

Sau khi được lưu, chính sách cảnh báo của bạn sẽ xuất hiện trong phần Chính sách trên trang Cảnh báo.

c71a001e4df035ee.png

5. Giảm thiểu sự cố

Sau khi thiết lập cảnh báo, bạn sẽ nhận được thông báo trong thời gian xảy ra sự cố thông qua các kênh thông báo mà bạn cung cấp, đồng thời một mục sự cố sẽ được tạo trên trang Cảnh báo.

Nhận Google Alerts

Kênh cảnh báo mà chúng tôi cung cấp trong lớp học lập trình này là email. Sau khi bạn thiết lập, hy vọng bạn sẽ không nhận được bất kỳ cảnh báo nào (không gặp phải sự cố ngừng hoạt động). Tuy nhiên, nếu có, thông báo sẽ có dạng như sau:

43217b0a145c2cd.png

Xin lưu ý rằng thông báo cảnh báo cung cấp giá trị quan sát được vượt quá ngưỡng mà bạn đã chỉ định, cũng như dấu thời gian cho biết thời điểm sự cố bắt đầu.

Giám sát sự cố

Khi sự cố xảy ra, sự cố đó cũng sẽ được tính vào mục sự cố trên trang Cảnh báo.

fdd883a9604ed981.png

Bạn có thể nhấp vào sự cố cụ thể để xem thông tin chi tiết về sự cố ngừng dịch vụ, chẳng hạn như thời gian ngừng dịch vụ hoặc mức độ nghiêm trọng.

Hãy nhớ rằng khi nhận được cảnh báo, bước đầu tiên tốt nhất là xem xét các chỉ số của bạn, sau đó tìm kiếm những lỗi góp phần gây ra sự cố ngừng dịch vụ trong nhật ký. Bạn có thể xem lại cách thực hiện những việc này trong lớp học lập trình Gỡ lỗi Nhà thông minh.

6. Xin chúc mừng

17d485868a6771bc.png

Xin chúc mừng! Bạn đã học được cách thiết lập cảnh báo bằng các chỉ số được cung cấp cho dự án của mình để tự động giám sát tình trạng ngừng hoạt động và nhận thông báo trong thời gian dịch vụ bị gián đoạn.

Các bước tiếp theo

Dựa trên Lớp học lập trình này, hãy thử các bài tập sau và khám phá các tài nguyên bổ sung:

  • Bạn có thể kết hợp những kiến thức đã học được trong lớp học lập trình này với các chỉ số khác được cung cấp cho dự án của mình. Bạn có thể xem danh sách đầy đủ các chỉ số có sẵn trong phần Chỉ số được hỗ trợ của trang Giám sát.
  • Khám phá các loại kênh thông báo khác cho cảnh báo được giải thích trong trang Lựa chọn thông báo của tài liệu Google Cloud.