Chỉ vì một lỗi sơ đẳng trong lập trình, các kỹ sư giỏi nhất của Google đã vô tình đánh sập một nửa internet của thế giới như thế nào

Chỉ vì một lỗi sơ đẳng trong lập trình, các kỹ sư giỏi nhất của Google đã vô tình đánh sập một nửa internet của thế giới như thế nào

Thứ 6, 27/06/2025 06:20
Sự cố này là một lời nhắc nhở chúng ta rằng ngay cả những hệ thống phức tạp và được thiết kế cẩn thận nhất như Google cũng có thể sụp đổ vì những lỗi rất cơ bản.

Vào lúc 10 giờ 45 phút sáng ngày 12 tháng 6 năm 2025, theo giờ Thái Bình Dương, hàng loạt nền tảng internet nổi tiếng trên thế giới như Google, Spotify, Discord và Cloudflare cùng nhiều dịch vụ internet khác dừng hoạt động trên diện rộng. Không lâu sau đó, nguyên nhân của sự cố này được xác định là do Google Cloud. Đây được xem như một trong những sự cố nghiêm trọng nhất trong lịch sử hoạt động của nền tảng này cũng như ảnh hưởng đến hàng chục triệu người dùng trên toàn cầu.

Điều đáng chú ý nhất về sự cố này không phải quy mô thiệt hại mà chính là nguyên nhân gây ra nó - một lỗi lập trình cơ bản mà bất kỳ sinh viên khoa học máy tính năm nhất nào cũng được dạy cách tránh. Câu chuyện này cho thấy như thế nào một sai lầm nhỏ có thể lan truyền và gây ra hậu quả khôn lường trong thế giới công nghệ hiện đại.

19fdb13daba174413d85e01f44eadfd93a00d8d2
Vào ngày 12-6 vừa qua, hàng loạt dịch vụ internet gặp sự cố dừng hoạt động

Chuỗi sai lầm nối tiếp sai lầm

Để hiểu rõ sự cố, trước tiên cần nắm được vai trò của hệ thống Service Control trong cơ sở hạ tầng Google Cloud. Service Control đóng vai trò như một cổng kiểm soát trung tâm, xử lý tất cả các yêu cầu API gửi đến Google Cloud. Hệ thống này chịu trách nhiệm xác thực người dùng, kiểm tra hạn ngạch sử dụng, thực thi các chính sách bảo mật và ghi lại thông tin để tính phí. Có thể nói, Service Control là "tim" của toàn bộ nền tảng Google Cloud.

Chuỗi sự kiện dẫn đến thảm họa bắt đầu từ ngày 29 tháng 5 năm 2025, khi đội ngũ kỹ sư Google triển khai một tính năng mới cho Service Control. Tính năng này được thiết kế để cung cấp khả năng kiểm soát hạn ngạch chi tiết hơn, nhằm đáp ứng nhu cầu ngày càng phức tạp của khách hàng doanh nghiệp.

Tuy nhiên, việc triển khai này đã mắc phải một sai lầm nghiêm trọng trong quy trình phát triển phần mềm. Các kỹ sư đã triển khai tính năng mới mà không sử dụng "feature flag" - một cơ chế cho phép bật hoặc tắt tính năng mới một cách nhanh chóng trong trường hợp khẩn cấp. Điều này có nghĩa là một khi tính năng được triển khai, nó sẽ hoạt động trên toàn bộ hệ thống mà không có cách nào để vô hiệu hóa ngay lập tức.

c3a8402e6e9b8ceff2ed2541741b69e7e511d7e3
Service Control, trung tâm trong hệ thống kiểm soát API của Google 

Tệ hơn nữa, tính năng mới này chứa một lỗi null pointer - một trong những lỗi cơ bản nhất trong lập trình. Lỗi null pointer xảy ra khi chương trình cố gắng truy cập vào một vùng nhớ không tồn tại hoặc chưa được khởi tạo. Trong trường hợp này, lỗi chỉ xuất hiện khi hệ thống gặp phải một loại dữ liệu cụ thể mà trong quá trình kiểm thử không được mô phỏng.

Hai tuần sau khi triển khai tính năng có lỗi, vào ngày 12 tháng 6, một sự kiện tưởng chừng như vô hại đã kích hoạt thảm họa. Một nhân viên Google đã tải lên một bản cập nhật chính sách vào cơ sở dữ liệu Spanner của công ty. Bản cập nhật này chứa một số trường dữ liệu trống - điều hoàn toàn bình thường trong vận hành hàng ngày và thường được hệ thống xử lý mà không gặp vấn đề gì.

Khi Service Control đọc dữ liệu chính sách có chứa các trường trống này, tính năng mới được kích hoạt và lập tức gặp phải lỗi null pointer. Kết quả là toàn bộ Service Control binary bị crash, khiến hệ thống không thể xử lý bất kỳ yêu cầu API nào.

Tình huống trở nên tồi tệ hơn do cách thức hoạt động của cơ sở dữ liệu Spanner. Spanner được thiết kế để tự động sao chép dữ liệu ra tất cả các khu vực trên toàn cầu nhằm đảm bảo tính nhất quán và sẵn sàng cao. Trong trường hợp này, dữ liệu chính sách có vấn đề đã được lan truyền đến mọi trung tâm dữ liệu của Google trên khắp thế giới chỉ trong vài giây. Kết quả là các phiên bản Service Control tại mọi khu vực đều lần lượt bị crash khi cố gắng xử lý dữ liệu độc hại này.

2219773de163d21237e86a55e8bcc584181d51d41
Từ một lỗi null pointer sơ đẳng, cả hệ thống của Google và các đối tác đã gặp sự cố theo dây chuyền domino

Hậu quả trầm trọng của sự cố

Tác động của sự cố lan rộng nhanh chóng ra ngoài hệ sinh thái Google. Vì nhiều dịch vụ và ứng dụng của bên thứ ba dựa vào Google Cloud để vận hành, chúng cũng bị ảnh hưởng nghiêm trọng. Trong số các dịch vụ bị gián đoạn đáng kể nhất có Cloudflare - một công ty chuyên cung cấp dịch vụ bảo mật và tăng tốc website, nổi tiếng với độ tin cậy cao.

Sự cố cũng ảnh hưởng đến hàng loạt ứng dụng phổ biến mà hàng triệu người dùng sử dụng hàng ngày. Spotify gặp khó khăn trong việc phát nhạc, Discord không thể duy trì kết nối giữa các cộng đồng người dùng, Snapchat gián đoạn dịch vụ chia sẻ ảnh, và thậm chí ChatGPT của OpenAI cũng ngừng hoạt động trong một thời gian. Một phần dịch vụ của Amazon Web Services cũng bị ảnh hưởng do sự phụ thuộc lẫn nhau giữa các nhà cung cấp dịch vụ đám mây.

Đội ngũ Site Reliability Engineering (SRE) của Google đã phản ứng khá nhanh chóng. Chỉ trong vòng 2 phút sau khi phát hiện sự cố, họ đã xác định được nguyên nhân và bắt đầu triển khai giải pháp khắc phục. Google đã kích hoạt cơ chế "kill switch" để vô hiệu hóa đường dẫn code có vấn đề sau mười phút kể từ khi sự cố được phát hiện.

3954749 0 99622300 1744385628 original

Quá trình phục hồi diễn ra khá thuận lợi ở hầu hết các khu vực. Trong vòng 40 phút, đa số các dịch vụ đã trở lại hoạt động bình thường. Tuy nhiên, khu vực us-central1 (Iowa) gặp phải vấn đề phức tạp hơn. Khi tất cả các phiên bản Service Control trong khu vực này cùng lúc cố gắng khởi động lại, chúng đã tạo ra một lượng tải quá lớn lên cơ sở dữ liệu backend. Hiện tượng này, được gọi là "herd effect", đã khiến việc phục hồi tại khu vực này kéo dài gần 3 giờ đồng hồ.

Một khía cạnh đáng chú ý khác của sự cố là vấn đề giao tiếp với khách hàng. Google không thể cập nhật thông tin về tình trạng dịch vụ cho người dùng vì chính bảng điều khiển trạng thái của họ cũng được lưu trữ trên cùng cơ sở hạ tầng bị sự cố. Điều này khiến khách hàng phải dựa vào các nguồn thông tin bên ngoài như DownDetector và mạng xã hội để hiểu tình hình.

Sau sự cố, Google đã công bố báo cáo phân tích chi tiết và cam kết thực hiện một số biện pháp khắc phục. Công ty hứa sẽ cải thiện khả năng xử lý dữ liệu không hợp lệ của hệ thống API management, triển khai các biện pháp bảo vệ để ngăn chặn việc sao chép dữ liệu có vấn đề ra toàn cầu mà không qua kiểm tra, và mở rộng quy trình kiểm thử để phát hiện sớm các trường hợp dữ liệu bất thường.

Sự cố đã làm nổi bật xu hướng tập trung hóa ngày càng gia tăng trong ngành công nghệ. Khi nhiều dịch vụ cùng phụ thuộc vào một số ít nhà cung cấp hạ tầng lớn, một sự cố tại một điểm có thể gây ra hiệu ứng domino trên quy mô toàn cầu. Điều này đặt ra câu hỏi về tính đa dạng và phân tán trong thiết kế hệ thống công nghệ hiện đại.

Mặc dù Google đã xử lý sự cố một cách chuyên nghiệp và nhanh chóng, nhưng sự kiện này nhắc nhở chúng ta rằng ngay cả những hệ thống phức tạp và được thiết kế cẩn thận nhất cũng có thể thất bại vì những lỗi rất cơ bản. Trong thời đại mà cuộc sống số ngày càng phụ thuộc vào các dịch vụ đám mây, việc xây dựng các biện pháp dự phòng và quy trình xử lý sự cố hiệu quả trở nên quan trọng hơn bao giờ hết.

Nguyễn Hải (Tổng hợp)

Cùng chuyên mục

Nước NATO cảnh báo một hành động của Nga ngay khi đạt thỏa thuận, ông Putin phản pháo

Thứ 6, 19/12/2025 08:04
Thủ tướng Phần Lan cảnh báo Nga sẽ điều động quân đến biên giới NATO nếu đạt được thỏa thuận hòa bình ở Ukraine đồng thời kêu gọi tăng ngân sách cho các quốc gia tiền tuyến.

Lịch trình về nước của U22 Việt Nam, chuẩn bị thi đấu U23 châu Á

Thứ 6, 19/12/2025 08:00
U22 Việt Nam sẽ về nước hôm nay và chuẩn bị bước vào hành trình tại VCK U23 châu Á 2026.

“Đánh bay” mỡ máu một cách tự nhiên không dùng thuốc: Giáo sư Harvard chỉ ra 2 cách tốt nhất

Thứ 6, 19/12/2025 08:00
Chuyên gia y tế cho biết thay đổi lối sống có thể giúp giảm cholesterol hiệu quả, thậm chí tương đương thuốc statin đời đầu.

BMW lại khiến dân chơi tốc độ ‘đứng ngồi không yên’ với màn hình hiển thị rất nhiều thông số vận hành trong thời gian thực

Thứ 6, 19/12/2025 07:53
BMW bổ sung loạt ứng dụng số mới dành riêng cho các mẫu M, biến khoang lái thành trung tâm dữ liệu hiệu suất. Từ đo lực G, công suất đến drag race và nội dung M độc quyền, trải nghiệm lái được cá nhân hóa sâu hơn bao giờ hết.

U22 Việt Nam tung HLV Kim Sang-sik lên ăn mừng HCV SEA Games! Đã quá Việt Nam ơi

Thứ 6, 19/12/2025 07:51
U22 Việt Nam tri ân HLV Kim Sang-sik bằng màn tung lên ăn mừng cực ngọt ngào.
     
Nổi bật trong ngày

Hướng dẫn cách gia nhập Túy Hoa Âm - môn phái gợi cảm, sang chảnh bậc nhất của Where Winds Meet

Thứ 5, 18/12/2025 09:00
Các game thủ Where Winds Meet đang rất hào hứng gia nhập môn phái mới này.

Ai sử dụng điều hòa LG đời này kiểm tra ngay: Một chi tiết được làm bằng vàng nguyên chất khiến nhiều người lùng tìm

Thứ 5, 18/12/2025 10:53
Một mẫu điều hòa LG Electronics ra mắt cách đây hơn 20 năm đang bất ngờ trở thành món đồ được săn lùng rầm rộ tại Hàn Quốc, sau khi một đoạn video lan truyền trên mạng xã hội hé lộ chi tiết ít người biết: logo thương hiệu gắn trên máy được làm từ vàng nguyên chất.

Bỏ 1,5 tỷ mua Hyundai Santa Fe Hybrid và những điều cần biết: Bớt bồng bềnh nhưng đừng kỳ vọng quá nhiều về tiết kiệm nhiên liệu

Thứ 5, 18/12/2025 13:31
Hyundai Santa Fe Hybrid mở bán tại Việt Nam với mức giá gây nhiều tranh cãi 1,369 tỷ đồng. Vậy mẫu xe này sẽ phù hợp với ai, cần biết điều gì trước khi mua sẽ được giải đáp ở bài trải nghiệm dưới đây.

Cha cầm cố nhà, mẹ tha hương 8 năm: Cô gái bại não tự học make up làm kênh Tiktok, giúp gia đình trả nợ 1,5 tỷ

Thứ 5, 18/12/2025 14:52
Bất chấp bản thân không may mắn như bao người, cô gái trẻ mắc não bại liệt đã tự học makeup, làm vlog suốt 3 năm để giúp gia đình trả hơn 40 vạn tệ (khoảng gần 1,5 tỷ đồng) tiền nợ.

130 triệu người xem nguyên nhân ly hôn của "Tiểu Long Nữ - Dương Quá": Sốc đến không thể nói ra!

Thứ 5, 18/12/2025 15:59
Đến nay lý do khiến cuộc hôn nhân vàng giữa Trần Hiểu và Trần Nghiên Hy đổ vỡ vẫn là chủ đề gây bàn tán trong dư luận.
xe.nguoiduatin.vn