Ketika spider mengikuti sebuah link ke sebuah halaman Web, menggunakan bandwidth.
Kebanyakan layanan web hosting
biaya webmaster untuk konsumsi bandwidth. Jika webmaster merasa bahwa
Google's spiders adalah sebuah tanggung jawab, ia dapat membuat file
robot.txt dalam direktori root dari halaman Web yang akan memberitahu
spider untuk mengabaikan situs tertentu.
Peralatan Google
Kembali pada tahun 1998, peralatan Google adalah
relatif sederhana. Co-founders Larry Page dan Sergey Brin menggunakan
peralatan Stanford dan menyumbangkan mesin untuk menjalankan tugas
mesin pencari Google. Peralatan pada waktu itu meliputi:
- Dua 300-megahertz (MHz) Dual Pentium II server dengan 512 megabyte (MB) memori
- A four-processor F50 IBM RS6000 komputer dengan memori 512 MB
- Sebuah komputer dual-prosesor Sun Ultra II dengan 256 MB memori
-
Beberapa hard drive (beberapa di antaranya ditempatkan di sebuah kotak
tertutup batu bata LEGO) mulai 4 sampai 9 gigabyte (GB) dengan total
lebih dari 350 GB ruang penyimpanan [sumber: Google Stanford Hardware]
Pada saat ini, Google menggunakan ratusan ribu server untuk memberikan
layanan kepada penggunanya.
Strategi Google adalah dengan menggunakan mesin yang relatif murah yang berjalan pada sistem operasi berbasis Linux yang disesuaikan. Sebuah program yang disebut Google File System manages data di server Google [sumber: Google Cluster Architecture].
Strategi Google adalah dengan menggunakan mesin yang relatif murah yang berjalan pada sistem operasi berbasis Linux yang disesuaikan. Sebuah program yang disebut Google File System manages data di server Google [sumber: Google Cluster Architecture].
Google menggunakan server untuk berbagai tugas masing-masing yang
berbeda. Web server menerima dan memproses permintaan pengguna,
mengirim permintaan ke server yang sesuai berikutnya.
Indeks-indeks server store Google’s dan hasil pencarian. Dokumen server untuk menyimpan ringkasan pencarian, informasi pengguna, gmail dan file Google Docs. Server iklan menyimpan iklan Google menampilkan pada halaman pencarian.
Indeks-indeks server store Google’s dan hasil pencarian. Dokumen server untuk menyimpan ringkasan pencarian, informasi pengguna, gmail dan file Google Docs. Server iklan menyimpan iklan Google menampilkan pada halaman pencarian.
Google membagi informasi pada setiap server indeks ke 64 MB blok.
Ada tiga salinan dari setiap blok data, dan setiap salinan disimpan
pada server yang berbeda berjalan pada strip daya terpisah. Blok
data didistribusikan semi-acak sehingga tidak ada dua server
memiliki koleksi yang sama blok data. Dengan begitu, jika ada
masalah dengan satu server, data akan tetap ada di mesin lain.
Menggunakan beberapa salinan data untuk mencegah gangguan dalam layanan disebut redundancy.
Menggunakan beberapa salinan data untuk mencegah gangguan dalam layanan disebut redundancy.
Sebuah komputer induk mengelola setiap set server. Pekerjaan
seorang Master komputer adalah untuk melacak terus server pada
setiap blok data dalam hal yang tidak diinginkan.
Jika salah satu server turun, komputer master pengalihan semua lalu lintas ke server lain yang berisi data yang sama.
Jika salah satu server turun, komputer master pengalihan semua lalu lintas ke server lain yang berisi data yang sama.