Công cụ tìm kiếm xử lý các liên kết như thế nào?

Hiểu được cách công cụ tìm kiếm xử lý và thu thập liên kết sẽ giúp cho bạn định hướng con đường tối ưu hóa website của mình nhằm tạo thuận lợi cho quá trình index trang. Seo Viet Nam

links-graph-web-pages

Có bao giờ bạn tự hỏi công cụ tìm kiếm thu thập dữ liệu, phân tích, index và xếp hạng các trang như thế nào không?

Và còn các trang 404, rel=canonicals, noindex, nofollow, và robots.txt hoạt động việc như thế nào? Sau đây là những giải thích rất cơ bản về cách công cụ tìm kiếm thu thập trang và liên kết:

Thu thập dữ liệu cơ bản

Công cụ tìm kiếm có các bot (giống các con nhện di chuyển trên mạng liên kết).

Các spider này ghé thăm website để thu thập dữ liệu. Cái đầu tiên mà nó thu thập là file robots.txt. File này sẽ cho nó biết đâu là chỗ được thu thập, đâu sẽ không được.

Nếu tập tin này không tồn tại. Công cụ vẫn sẽ thu thập thông tin trên tất cả các trang này và lấy cơ sở dữ liệu. Nghĩa là, nó như một hệ thống thu thập dữ liệu theo kế hoạch có sẵn nhằm sao lưu (lưu lại cache trang web) và ưu tiên thu thập ngẫu nhiên trên các trang.

search-engine-spider1

Khi đó, nó thu thập một danh sách tất cả các trang chứa liên kết. Nếu gặp liên kết nội bộ (internal link), công cụ này sẽ dựa vào để thu thập thông tin các trang khác. Nếu gặp liên kết ngoài, nó sẽ đưa vào một cơ sở dữ liệu.

search-engine-spider

Xử lý liên kết

Sau khi các liên kết được xử lý, công cụ tìm kiếm sẽ lấy tất cả các liên kết ra khỏi cơ sở dữ liệu và kết hợp chúng lại, gán các giá trị liên quan cho chúng. Các giá trị có thể là tích cực hoặc tiêu cực. Ví dụ, nếu có 1 trang spam và trang này liên kết đến các trang khác, nó có thể đem đến giá trị liên kết xấu vào những trang đó.

search-engine-spider

Chặn trang với Robots.txt

Trở lại với ví dụ ban đầu. Giả sử tập tin robots.txt cho biết các công cụ tìm kiếm không thể truy cập vào một trong các trang này.

Công cụ tìm kiếm vẫn sẽ thu thập tất cả các liên kết đến trang đó và đếm chúng. Tuy nhiên, công cụ tìm kiếm không thể nhìn thấy bất kỳ giá trị nào của những trang này.

search-engine-spider

 

Sử dụng 404 hoặc 410 để loại bỏ trang

Tiếp theo, giả sử rằng thay vì chặn trang đó với robots.txt, đơn giản hãy loại bỏ nó. Vì vậy, các công cụ tìm kiếm sẽ cố gắng để truy cập vào trang này, nhưng sẽ biết được trang này không còn tồn tại nữa.

search-engine-spider

Điều này có nghĩa là khi đồ thị liên kết được xử lý, các liên kết đến trang đó sẽ vô hiệu lực và được lưu trữ lại sau khi trang này hồi phục.

search-engine-spider

Tuy nhiên, đôi khi các trang ưu tiên sẽ được thu thập thông tin và index.

search-engine-spider

Công cụ tìm kiếm index như thế nào?

Công cụ tìm kiếm sử dụng thuật toán của nó để xác định các trang web được index, đánh giá các liên kết dẫn đến trang web và tên miền, xử lý hàng chục của các số liệu đã biết và chưa biết khác để đi đến một giá trị cuối cùng. Nếu thuật toán Panda hay Penguin của Google đang “chú ý”  trang web này thì đây sẽ là một vấn đề quan trọng. Giá trị cuối cùng sẽ quyết định thứ hạng trang đó trong kết quả tìm kiếm.

Loại bỏ trang với Noindex

Noindex hoạt động tương tự như robots.txt ngoại trừ thay vì bị chặn thu thập trang, công cụ tìm kiếm hoàn toàn có thể truy cập vào nó nhưng sau đó phải ra khỏi trang này. Công cụ tìm kiếm vẫn sẽ thu thập các liên kết trên trang để thêm vào cơ sở dữ liệu và nó vẫn sẽ gán giá trị cho các liên kết dẫn đến trang đó.

search-engine-spider

Tuy nhiên, nó sẽ không củng cố giá trị các trang khác và không dừng việc gán giá trị qua các trang. Tất cả những việc mà Noindex thực hiện đó là yêu cầu công cụ tìm kiếm không index trang.

Do đó, chỉ có một cách để ngăn chặn việc gán giá trị của liên kết cho các trang đó là sử dụng 404 hoặc 410. 410 có vẻ triệt để hơn 404, tuy nhiên cả hai sẽ khiến trang của bạn không thể index. Có nhiều cách khác để ngăn chặn gán giá trị từ liên kết này sang liên kết khác nhưng ít khi quản trị web kiểm soát các trang web khác, họ chỉ theo dõi các trang của mình.

Hy vọng rằng bài viết này sẽ giúp bạn hiểu được cách công cụ tìm kiếm truy cập vào các trang web và sự khác biệt giữa robots.txt và noindex.

Từ cách công cụ tìm kiếm xử lý các liên kết, có thể thấy giá trị các liên kết từ trang khác đến trang web của bạn có ảnh hưởng đến quá trình thu thập và index. Do đó, không những thường xuyên kiểm tra và kiểm soát các liên kết trên trang web của mình, bạn phải theo dõi các liên kết dẫn đến trang web mình cũng như các trang bạn đặt liên kết. –Seo Việt Nam

Tham khảo: SearchEngineLand