ASP.NET Hosting Indonesia – JaringanHosting.com :: Cara Memblokir Bots dan Spiders dengan Request Filtering

Hal ini mungkin sering dikatakan oleh banyak orang, jika Anda tidak menginginkan tulisan atau konten Anda dicuri, maka jangan pernah mempublikasikan tulisan Anda tersebut di internet. Karena internet telah menjadi integral dari kehidupan kita, dan jika kita tidak memposting apapun yang telah kita buat di blog, forum atau situs web maka tidak akan ada orang yang mengetahui tentang apa yang telah kita buat. Dalam kata lain jika Anda telah membuat sesuatu lalu Anda hanya menyimpannya tanpa pernah mempublikasikannya di internet maka tidak ada satu pun orang yang tahu.

google-analytics-bot-spider-filter

Apa yang telah kita bahas diatas memiliki hubungan dengan apa isi artikel yang akan saya uraikan. Adalah robot indexing programs, crawler dan spiders. Sebuah rogram-program kecil yang berkerumun keluar ke Internet untuk mencari setiap situs web, caching dan me-logging informasi situs web ke dalam database mereka. Sering dibuat oleh mesin pencari untuk membantu halaman indeks, mereka berkeliaran internet dengan bebas dan merangkak semua situs web sepanjang waktu.

Biasanya ini merupakan bagian yang bisa diterima di internet, tetapi beberapa mesin pencari yang begitu agresif dapat meningkatkan konsumsi bandwidth. Dan beberapa bot berbahaya, contohnya mencuri foto dari situs web atau alamat email sehingga mereka dapat melakukan spam. Cara termudah untuk memblokir bot ini adalah dengan membuat file robots.txt sederhana yang berisi petunjuk untuk memblokir bot:

Namun, ada beberapa hal yang salah dengan pendekatan ini. Salah satunya adalah bahwa bot masih bisa meng-hits situs, Anda bisa mengabaikan untuk membuat file robots.txt Anda dan keinginan Anda untuk tidak diindeks.

Tapi ada kabar baik. Jika Anda berada di sebuah server IIS 7, Anda memiliki alternatif lain. Anda dapat menggunakan RequestFiltering setting yang disediakan pada IIS 7. Bekerja pada sebagian tingkat yang lebih tinggi dari layanan web dan tidak dapat dilewati oleh bot.

Untuk setup nya cukup sederhana, dan cara termudah dan tercepat untuk memulai Rule ReqestFiltering Anda adalah memberi kode ke dalam file web.config aplikasi Anda. Unsur RequestFiltering berjalan di dalam elemen <system.webServer> <security>. Jika Anda tidak memiliki ini dalam file aplikasi web.config Anda, maka Anda harus membuatnya. Setelah itu yang harus Anda lakukan adalah menciptakan skema ini untuk setup rules RequestFiltering Anda.

Anda dapat menamakan pengaturan filtering dengan nama apa pun yang Anda ingin dan di elemen  “requestHeader” Anda perlu memastikan bahwa Anda mendefinisikan “User-Agent.” Dalam elemen “add string” Anda harus menentukan nama User Agent . Dalam contoh ini saya set ke YandexBot yang mem-block mesin pencarian yang berasal dari Rusia. Anda juga dapat memblokir mesin pencari seperti Googlebot atau BingBot.

Jika Anda ingin melihat apakah pengaturan ini berhasil memblokir bot, Anda akan perlu untuk men-download log HTTP dari server dan menguraikannya untuk mencari header User-Agent. Jika Anda scroll ke kiri dan menemukan header SC-Status (kode status) Anda akan melihat respon 404 HTTP. Selain header juga akan membawa sc-substatus yang akan menjadi kode substatus ke kode respon HTTP primer.

Berikut adalah daftar kode substatus potensial Anda mungkin Anda lihat ketika Anda mengatur RequestFiltering Anda.

spiders

 

Saran dari saya, sebelum Anda melakukan ini seharusnya Anda harus memikirkan hal ini untuk keseluruhan apa yang akan terjadi. Karena jika Anda melakukan hal ini, ini akan berpengaruh untuk keseluruhan website Anda. Karena akan memberikan banyak perubahan yang akan Anda rasakan sendiri. Pelajari semua dengan seksama dan Anda harus mengerti apa tujuan Anda untuk melakukan semua hal ini.  Sebelumnya saya juga pernah memposting artikel mengenai Cara Mencegah Serangan SQL Injection dengan ASP.NET. Semoga bermanfaat

 

Leave a Reply