WahanaNews.co | Vice President Infrastructure di Facebook, Santosh Janardhan memaparkan, gangguan yang terjadi pada Facebook, Instagram, dan WhatsApp pada Senin (4/10/2021) kemarin, dipicu oleh kesalahan internal yang tidak disengaja.
Janardhan mengatakan, masalah tersebut berasal dari jaringan backbone saat melakukan pemeliharaan rutin pada infrastruktur Facebook.
Baca Juga:
Iklan Aplikasi AI di Facebook Merebak, Waspada Akun Bisa Dicuri
"Problem tersebut menghasilkan efek domino yang membuat upaya perbaikan menjadi rumit dan butuh waktu lama," kata Santosh Janardhan melalui keterangan resmi dikutip Rabu (6/10/2021).
Perlu diketahui, Facebook, Instagram, dan WhatsApp termasuk dalam layanan Facebook Inc. Ketiganya lumpuh selama lebih kurang 8 jam dan baru mulai pulih pada Selasa (5/10/2021) pagi.
Gangguan layanan Facebook Inc. ini memang kerap terjadi, namun gangguan kemarin menjadi salah satu yang terparah.
Baca Juga:
Aturan Baru Meta: Serang 'Zionis' di FB dan IG Bisa Berujung Penghapusan Konten
Terkait hal ini, Facebook selaku perusahaan induk menjelaskan masalah di balik tumbangnya layanan Facebook, Instagram, dan WhatsApp.
Hubungkan Fasilitas Komputasi
Dalam sebuah blog resmi, Facebook menjelaskan bahwa tiga layanan tersebut berjalan di atas jaringan tulang punggung (backbone) yang sama.
Backbone ini dibangun untuk menghubungkan semua fasilitas komputasi dari layanan Facebook Inc.
Bentuknya berupa kabel serat optik sepanjang puluhan ribu kilometer yang terbentang di seluruh dunia dan menghubungkan semua pusat data (data center) Facebook.
Beberapa pusat data berupa gedung fisik. Di dalamnya terdapat komputer-komputer yang menyimpan data dan memproses beragam tugas untuk menjalankan semua layanan Facebook.
Pusat data lainnya berupa fasilitas yang lebih kecil yang menghubungkan jaringan backbone Facebook ke internet dan para pengguna platform Facebook Inc.
Di jaringan backbone dan pusat data Facebook inilah terjadi pertukaran data yang diminta oleh pengguna Facebook, WhatsApp, dan Instagram di seluruh dunia.
Saat pengguna ingin me-refresh feed Instagram, misalnya, perintah ini akan ditransfer dari ponsel pengguna ke data center Facebook terdekat. Transfer ini berjalan di atas backbone tadi menuju pusat data yang lebih besar.
Lalu lintas data antara semua fasilitas komputasi Facebook ini dikelola oleh router backbone, yang mencari tahu ke mana harus mengirim semua data yang masuk dan keluar.
"Di situlah informasi atau perintah yang diinginkan pengguna diambil dan diproses. Setelah itu, data akan dikirimkan kembali melalui jaringan backbone ke ponsel pengguna," kata Janardhan.
Saat pertukaran data berhasil, maka perintah pengguna tadi akan terealisasi. Misalnya refresh feed Instagram tadi sehingga menampilkan unggahan terbaru dari teman-teman.
Sederhananya, backbone dan pusat data merupakan bagian terpenting agar layanan Facebook, Instagram, serta WhatsApp bisa diakses dengan normal oleh pengguna. Ketika ada gangguan, dampaknya bisa terasa ke seluruh pengguna tiga layanan tersebut.
Berikut penyebab gangguan pada Facebook, Instagram, dan WhatsApp pada Senin kemarin:
1. Maintencance yang terhadang bug
Facebook diketahui sering kali melakukan pemeliharaan rutin pada infrastruktur miliknya. Ketika melakukan pemeliharaan, teknisi Facebook kadang perlu memutus akses ke sebagian jaringan backbone agar bisa melakukan maintenance atau pemeliharaan.
Baik untuk memperbaiki jaringan kabel, menambah kapasitas, memperbarui perangkat lunak, atau hal lainnya.
Tetapi, pada saat melakukan maintenance pada Senin lalu, pihaknya menerima perintah (command) yang diberikan ke sistem untuk memantau kapasitas jaringan backbone secara global.
Namun, alih-alih memberikan informasi yang diminta, command tersebut malah memutus semua koneksi di backbone Facebook.
Pusat-pusat data Facebook di seluruh dunia pun jadi offline karena tak saling terhubung.
Menurut Janardhan, sistem Facebook sebenarnya memiliki kemampuan audit untuk mencegah kesalahan perintah seperti ini. Namun ternyata, ada bug yang menyebabkan sistem gagal mendeteksi dan mencegat command tersebut.
2. DNS tak dapat diakses, server Facebook terisolasi
Masalah kedua yang dimaksud Janardhan adalah server Domain Name System (DNS) Facebook yang tidak bisa diakses karena backbone di belakangnya bertumbangan.
Janardhan menjelaskan, salah satu hal yang dilakukan oleh fasilitas data center Facebook yang lebih kecil adalah merespons DNS ketika diakses oleh pengguna.
DNS sendiri berperan untuk menerjemahkan nama host atau situs (seperti Facebook.com), menjadi alamat IP yang dapat dibaca komputer. Nantinya, server DNS mengirimkan alamat IP yang dimaksud melalui protokol bernama Border Gateway Protocol (BGP).
Selain berisi alamat IP dari nama DNS-nya, BGP juga bertugas untuk menentukan rute data yang diambil saat melewati lalu lintas informasi, sehingga alamat IP bisa diakses pengguna.
Masalahnya, server DNS Facebook dirancang untuk menonaktifkan protokol BGP ketika server terputus atau terdeteksi tidak bisa berkomunikasi dengan data center Facebook.
Pada saat gangguan kemarin, kesalahan pada jaringan backbone membuat koneksi server Facebook terputus total dari data center. Secara otomatis, protokol BGP ini juga berhenti bekerja.
"Hasil akhirnya adalah server DNS kami menjadi tidak dapat dijangkau meskipun masih beroperasi. Ini membuat seluruh internet tidak mungkin menemukan server kami," kata Janardhan.
Dengan kata lain, efek domino dari kesalahan perintah tadi mengisolasi server Facebook dkk dari jaringan internet selebihnya. Pengguna pun tidak bisa mengakses situs serta layanan Facebook, Instagram, WhatsApp, dan Messenger.
Perbaikan rumit dan makan waktu lama
Janardhan mengatakan, gangguan layanan Facebook Inc. terjadi begitu cepat, tapi tidak demikian dengan upaya perbaikannya yang ternyata membutuhkan waktu lama dan rumit sehingga layanan Facebook dkk offline berjam-jam.
Janardhan mengatakan, ada dua kendala besar yang dihadapi tim teknisi Facebook. Pertama, data center tidak bisa diakses seperti biasa karena jaringan terputus alias offline. Kendala kedua adalah hilangnya DNS Facebook Inc.
"Hilangnya DNS secara keseluruhan ikut menumbangkan banyak tools internal yang biasanya kami gunakan untuk menyelidiki dan menyelesaikan pemadaman layanan seperti ini," kata Janardhan.
Mau tak mau, Facebook pun harus mengirim teknisinya langsung ke pusat-pusat data di lapangan karena perbaikan tidak bisa dilakukan dari jauh. Mereka harus melakukan debug dan restart sistem supaya kembali beroperasi.
Namun, masalahnya masih belum selesai sampai di situ. Tim lapangan sulit mengakses server secara fisik karena pusat-pusat data memang dirancang dengan keamanan tinggi untuk mencegah campur tangan dari orang tak bertanggung jawab.
"Butuh waktu ekstra untuk melewati semua protokol keamanan, supaya teknisi bisa ke lapangan dan mulai memperbaiki server," ujar Janardhan.
Begitu server online dan koneksi backbone kembali tersambung, layanan-layanan Facebook dkk kembali dinyalakan secara bertahap untuk mencegah lonjakan daya listrik dan banjir trafik yang bisa menyebabkan masalah lain.
Janardhan mengatakan, pihak Facebook ikut memetik pelajaran dari tumbangnya layanan selama 8 jam. Menurut dia, selama ini belum pernah ada simulasi dari perusahaan untuk mengantisipasi kejadian seperti Senin lalu, saat backbone Facebook tumbang secara global.
"Ke depan, kami akan mencari cara untuk menyimulasikan event macam demikian. Setiap kegagalan adalah kesempatan untuk belajar dan menjadi lebih baik. Ada banyak pelajaran yang kami ambil dari kejadian terakhir itu," ujar Janardhan. [rin]