Khi cần nhanh chóng chia sẻ vấn đề có ảnh hưởng với các bên liên quan.
Truyền đạt ngắn gọn sự thật, ảnh hưởng, trạng thái xử lý và bước tiếp theo.Hãy cấu trúc theo “ảnh hưởng → hiện trạng → hành động → thời điểm quyết định tiếp theo”.
We’re seeing a production issue affecting about 5% of users.
Chúng tôi đang thấy một sự cố production ảnh hưởng khoảng 5% người dùng.
Mở đầu bằng sự thật và phạm vi ảnh hưởng.
This is a SEV-2 incident; payments have been intermittently failing since 10:05 JST.
Đây là sự cố SEV-2; thanh toán bị lỗi gián đoạn từ 10:05 theo giờ Nhật.
Nêu mức độ nghiêm trọng và thời điểm phát sinh.
The on-call engineer has been paged and is engaged; an incident bridge is now open.
Kỹ sư trực đã được gọi và đang xử lý; cầu nối sự cố đã được mở.
Báo cáo việc thiết lập đội xử lý.
We rolled back the last deployment at 10:25 JST and are monitoring error rates.
Chúng tôi đã rollback bản triển khai gần nhất lúc 10:25 theo giờ Nhật và đang theo dõi tỷ lệ lỗi.
Chia sẻ hành động ban đầu và trạng thái giám sát.
Current impact: ~5% checkout errors; other services appear unaffected.
Ảnh hưởng hiện tại: khoảng 5% lỗi checkout; các dịch vụ khác có vẻ không bị ảnh hưởng.
Cụ thể hóa phạm vi ảnh hưởng.
Workaround: a retry typically succeeds on the second attempt; support is advising customers accordingly.
Cách khắc phục tạm thời: thử lại thường thành công ở lần thứ hai; bộ phận hỗ trợ đang hướng dẫn khách hàng theo cách này.
Đưa ra workaround tạm thời.
Suspected root cause: a gateway configuration change. Verification is in progress with logs and metrics.
Nguyên nhân nghi ngờ: thay đổi cấu hình gateway. Việc xác minh bằng log và metric đang được tiến hành.
Chia sẻ giả thuyết nguyên nhân và trạng thái kiểm chứng.
Next update at 11:00 JST or sooner.
Cập nhật tiếp theo lúc 11:00 theo giờ Nhật hoặc sớm hơn.
Cam kết thời điểm cập nhật tiếp theo.
Decision point: if the error rate remains above 2% by 11:15 JST, we will fail over to the secondary region.
Điểm quyết định: nếu tỷ lệ lỗi vẫn trên 2% lúc 11:15 theo giờ Nhật, chúng tôi sẽ fail over sang vùng phụ.
Nêu hành động tiếp theo có điều kiện.
External comms: requesting approval to post an incident on the status page and notify affected customers.
Truyền thông bên ngoài: xin phê duyệt đăng sự cố lên status page và thông báo cho khách hàng bị ảnh hưởng.
Xin phê duyệt cho thông báo khách hàng và truyền thông.
Affected endpoints and versions: /api/charge (v3.4–v3.5); others are stable.
Endpoint và phiên bản bị ảnh hưởng: /api/charge (v3.4–v3.5); các phần khác ổn định.
Xác định phạm vi kỹ thuật bị ảnh hưởng.
Tracking: an Incident ID has been created and linked in this thread; all updates will reference it.
Theo dõi: Incident ID đã được tạo và liên kết trong luồng này; mọi cập nhật sẽ tham chiếu ID đó.
Đưa ra ID theo dõi và hướng dẫn tập trung thông tin.
Post-incident: we’ll schedule a review for tomorrow at 2 p.m. JST and share action items.
Sau sự cố: chúng tôi sẽ lên lịch review vào 2 giờ chiều mai theo giờ Nhật và chia sẻ các việc cần làm.
Báo trước review sau sự cố và kế hoạch cải thiện.