Cách chặn các bot spam không truy cập vào website

1. Sự nguy hiểm khi bot spam truy cập vào website của bạn

Các công cụ tìm kiếm như Google tạo ra rất nhiều con bot truy cập đến các website để thu thập dữ liệu. Nhờ có các dữ liệu mới có cơ sở để đánh giá, phân loại website. Nhiệm vụ của chúng ta là mở rộng cửa và làm thông thoáng các lối đi để chúng tiếp cận thông tin một cách dễ dàng nhất.

google-crawl

Các bot của Google thu thập dữ liệu một cách chính thống và có kỷ luật

Ngoài loại bot này, còn có những loại bot khác được tạo từ các cá nhân hoặc team nào đó, thâm nhập và thu thập dữ liệu trên website để phục vụ cho mục đích xấu. Từ đó chúng có thể hack website, spam email được cấu hình trong form liên hệ, hoang phí băng thông của hosting, sai lệch báo cáo của Google Analytics. Chúng ta gọi tên những con bot có hại này là bot spam. Chúng truy cập website, nhưng không tạo ra được một lợi ích hay ý nghĩa nào hết.

Bot của Google tuân thủ theo quy định của file robots.txt  trong website. File này được người thiết kế web hoặc người làm SEO tạo ra để cho các các con bot biết đâu là những nơi chúng được truy cập và thu thập dữ liệu.

Bot spam thì khác, chúng không tuân theo bất cứ quy định nào, chúng đến những nơi chúng muốn, lợi dụng hoặc hack những website kém bảo mật.

Hậu quả thứ nhất là người truy cập những website đó vô tình sẽ bị lây nhiễm những mã độc.

this-site-may-be-hacked

Hậu quả thứ hai, nặng nề hơn, Google dựa vào công cụ của mình có thể đánh giá một website có chứa mã độc hại không, nếu có, nó sẽ cảnh báo thông điệp “This site may be hacked” khi có người tìm kiếm. Vì thế, dù website lên top từ khoá, nhưng nếu người xem thấy thông điệp này, khả năng 100% họ sẽ không bấm vào coi.

Trong bài viết này chúng ta sẽ đi sâu vào cách làm sao biết website có đang bị dòm ngó bởi những con bot spam và cách để ngăn chặn chúng. Trợ thủ giúp chúng ta chính là Google Analytics.

2. Cách phát hiện website của bạn có bot spam

Đầu tiên hãy đăng nhập vào tài khoản Google Analytics của website. Chọn thời gian báo cáo là 2 tháng tính tới thời điểm hiện tại. chon-ngay-GA

Có rất nhiều cách để phát hiện. Nếu sau khi kiểm tra, bạn có 1 hoặc nhiều kết quả tương tự với bên dưới, chứng tỏ bạn website của bạn đang có bot spam truy cập.

Phát hiện 1: Có những trang lạ trên website.

Vào Behaviour –> Site Content –> Landing page

Đây là báo cáo lượng truy cập vào những trang con trong website. Có bot spam nếu có những trang không hề tồn tại trong website nhưng vẫn được thống kê.

landing-page-botspam

Nhấn vào để xem hình lớn

landing-page-botspam-2

Những trang ảo mà thường gặp mà chúng tôi thống kê được là: sharebutton.to, 37668473-1.compliance-ivan.xyz….

Phát hiện 2: có những ngôn ngữ kỳ lạ

Vào Audience –> Geo –> Language

Đây là thống kê người truy cập website sử dụng ngôn ngữ gì. Vì vậy kết quả hay nhận được sẽ là vi (vietnamese), en (english), nếu xuất hiện những ngôn ngữ lạ sẽ là điều bất thường.

language-page-botspam

Phát hiện 3: truy cập đột biến từ những vùng địa lý khác

Vào Audience –> Geo –> Location.

Đây là thống kê cho biết người truy cập ở đâu.

geo-bot-spam

Một trang web tiếng việt, nhưng có lượng truy cập từ Nga còn nhiều hơn cả trong nước.

Phát hiện 4: Xuất hiện những từ khoá không liên quan

Vào: Acquisition –> All traffic –> Channels –> Channels

Trong Channels, bạn nhấn chọn Organic search

Đây là báo cáo cho bạn biết người truy cập website thông qua tìm kiếm từ khoá gì trên Google. Bất thường khi xuất hiện những từ khoá sau:

keyword-bot-spam

3. Chặn bot spam truy cập website

Để bot spam không tiếp tục truy cập website nữa, chúng ta cần chặn chúng.

B1: Lấy danh sách web không tốt đang trỏ tới bạn.

Vào Audience –> Geo –> Location (vẫn giữ thời gian thống kê là 2 tháng). Sẽ xuất hiện danh sách các nước có người truy cập vào website của bạn. Chúng ta sẽ rà từng nước một.

Đầu tiên là từ Nga. Bấm chọn Russia.

local-bot-spam

Danh sách các địa điểm cụ thể ở Nga hiện ra, bạn chọn Secondary Dimension. Trong phần tìm kiếm, bạn nhập Source và chọn Source/Medium.

local-bot-spam-2

Bây giờ bạn hãy xem xét danh sách website nằm ở cột Source/Medium và chỉ quan tâm đến những web có phần đuôi là /referral. Đây là những website từ Nga có trỏ link tới website bạn.

local-bot-spam-3

Hãy nhớ lại xem website của bạn hoạt động trong lĩnh vực gì, những website này có cùng lĩnh vực đó không, nếu không hãy copy tên miền và bỏ vào file để lưu trữ.

Ví dụ:

  • lifehacĸer.com
  • motherboard.vice.com
  • blackhatworld.com
  • abc.xyz

Tuyệt đối không bấm xem thử những web này, vì bạn có thể dính mã độc.

Sau đó bạn làm tương tự với United States

local-bot-spam-4

Sau khi đã tổng hợp được hết danh sách các trang web này, chúng ta đến bước thứ 2.

Bước 2: Đưa danh sách này cho người quản trị mạng, người thiết kế web hoặc người làm SEO nhờ họ dùng file .htaccess chặn những website này truy cập.

Việc chặn bot spam sẽ không dừng lại tại đây, mà sẽ được kiểm tra vài tháng một lần. Sau khi chặn, bạn sẽ thấy lượng truy cập trong Google Analytics giảm, nhưng đây mới chính là những truy cập thực chất và có ý nghĩa với bạn.

Trang Lê