Lỗi sitemap Google BlackHat: Nó có ý nghĩa gì đối với XML Sitemap

.
Vài tháng trước, tôi phát hiện ra một lỗi gây shock trong cách Google xử lý các XML sitemaps, nó cho phép các trang web thương hiệu hoàn toàn mới xếp hạng cạnh tranh bằng cách tấn công vào liên kết từ các trang web hợp pháp.

Tôi đã báo vấn đề này cho Google, họ đã khắc phục nó và trả cho tôi một khoản tiền thưởng.

Tuy nhiên, từ khi tôi đăng tải thông tin về vấn đề này, một số chuyên gia SEO đã liên hệ với tôi và bày tỏ lo lắng rằng họ có thể cũng là nạn nhân của một vụ tấn công như vậy, và yêu cầu tôi giúp đỡ.

XML Sitemap được xem như là một tấm bản đồ của website, mà trong đó chứa đường dẫn trên trang web của bạn có đuôi tập tin là .xml. Khi người dùng nhấn vào đường dẫn này sẽ thấy được toàn bộ các trang có thể truy cập trên trang web của bạn. Ví dụ như sitemap của waytomarketing.com là: https://www.waytomarketing.com/sitemap.xml
Nhấn vào đây để mở rộng...
slide

Bài viết này sẽ trả lời cho một số câu hỏi phổ biến nhất mà tôi nhận được.

Lỗi XML sitemap của Google là gì?

Lỗi này liên quan đến cách Google xử lý và xác thực các tệp XML sitemap, cụ thể là các tệp này được submit qua cơ chế ping.

Sitemaps có thể được submit trực tiếp đến Google Search Console, thông qua một đường dẫn trong tệp robots.txt, hoặc “pinging” chúng bằng cách gửi sitemap URL đến một endpoint (thực chất là 1 URL) đặc biệt mà Google cung cấp.

Các đường dẫn GSC và robots.txt được xác nhận là chính thống bởi thực tế bạn đã nhập vào tệp GSC hoặc robots.txt của domain, nhưng đối với các URL ping, Google dường như còn cần quyết định xem chúng có đáng tin cậy hay không bằng cách xem tên miền trong URL mà bạn gửi.

Vấn đề là nếu URL này chuyển hướng đến nơi khác, thậm chí đến một tên miền (domain) khác, thì Google vẫn tin URL đó thuộc về URL gốc.

Ví dụ, tôi có thể báo cáo về một sitemap URL của apples.com/sitemap.xml, nhưng URL đó có thể chuyển hướng đến oranges.com/sitemap.xml, kết quả là Google vẫn cho rằng XML sitemap này thuộc về apples.com.

Điều hướng mở là gì?

Nhiều trang web không chống lại được một hình thức điều hướng được gọi là “điều hướng mở” mà một kẻ tấn công có thể sử dụng hình thức này để lừa một trang web chuyển hướng đến một nơi mà họ chọn.

Ví dụ các trang web có cơ chế đăng nhập dạng apples.com/login.php?continue=/shop, có thể bị điều hướng thành apples.com/logout.php?continue=http://evil.com/.

Trong nghiên cứu của tôi, tôi đã phát hiện ra các điều hướng mở trên Facebook, LinkedIn, Tesco và một số trang web khác (tôi đã báo vấn đề này tới tất cả các trang web trên và nhiều trang đã được sửa).

Để cho các bạn thấy về mức độ phổ biến của điều hướng mở, thì ta có thể kể tới việc Chương trình khen thưởng khi phát hiện lỗ hổng bảo mật của Google đã dứt khoát không bao gồm việc phát hiện điều hướng mở như là điều kiện để nhận tiền thưởng (và thực tế có các điều hướng mở được biết trên Google).

Điều này cho phép ping sitemaps thông qua một điều hướng mở trên một trang web hợp pháp chuyển hướng đến tệp XML được lưu trữ trên trang web của kẻ tấn công.

Ví dụ, bằng cách gửi một sitemap trên URL apples.com/logout.php?continue=http://evil.com/sitemap.xml, Google sẽ coi nó là một sitemap chính thống của apples.com, nhưng nó sẽ được lưu trữ trên trang web evil.com.

Tại thời điểm này, trang web evil.com có thể báo cáo sitemap của apples.com và bằng cách chứa các đường dẫn hreflang trong các sitemap này, nó có thể tận dụng liên kết của apples.com (PageRank) để xếp hạng cho kết quả tìm kiếm mà thực tế không có quyền hợp pháp để làm như vậy.

Bạn có phải là một nạn nhân và bị rớt thứ hạng?

Từ khi tin tức trở nên công khai, đã có nhiều chuyên gia SEO từ nhiều nơi liên hệ với tôi để nhờ tôi xem xét trường hợp của họ, họ lo ngại rằng họ có thể là nạn nhân của vấn đề này hoặc hỏi xem liệu vấn đề này có phải là cách đối thủ cạnh tranh có thể làm để nâng thứ hạng của họ lên hay không.

Tôi có thể chắc chắn hiểu lí do.

Đôi khi khá là đau đầu để cố gắng hiểu ra lý do tại sao một trang web khác lại có thứ hạng cao hơn bạn, hay tại sao trang web của bạn đột nhiên có hiệu suất kém đi.

Đưa ra một lời giải thích cho các trường hợp này chắc chắn rất hấp dẫn.

Cho đến nay tôi vẫn chưa thấy bất cứ điều gì đủ để thuyết phục tôi rằng lỗi này được sử dụng một cách không kiểm soát.

Google là một bộ máy phức tạp, và có thể có nhiều cách giải thích cho lý do vì sao một số trang web được xếp hạng theo cái cách chúng đang được làm, nhưng hiện tại tôi vẫn tin rằng lỗi này là một trong số những lý do đó.

Nếu bạn lo ngại mình là một nạn nhân của vấn đề này, thì dấu vết duy nhất mà vấn đề này để lại là một đường dẫn trong nhật ký máy chủ của bạn cho thấy GoogleBot truy cập vào trang web của bạn để thu thập sitemap và được chuyển hướng đến một miền khác (JavaScript và chuyển hướng meta-refresh sẽ không hoạt động).

Đây là điều tốt nhất bạn có thể kiểm tra.

Trong thử nghiệm của tôi, tôi thường xuyên ping lại sitemap, nhưng ngay cả khi không ping lại tôi vẫn tin rằng Google luôn đi qua điều hướng mở, vì vậy bạn sẽ thấy các đường dẫn trong nhật ký máy chủ của mình.

Điều này có thay đổi bất cứ điều gì về XML sitemaps không?

Có. Nó thay đổi khi đường dẫn hreflang được sử dụng.

Google sẽ không còn chú ý đến các đường dẫn hreflang trong “sitemaps chưa được xác minh” hay như cách tôi hiểu thì đó chính là những nội dung được báo cáo qua URL ping.

Những nội dung được báo cáo trong Google Search Console hay trong tệp robots.txt của bạn sẽ vẫn hoạt động như thường lệ, và ping một trong những sitemaps này để nhắc thu thập thông tin lại từ Google cũng sẽ hoạt động như mong đợi.

Tôi dự đoán thay đổi sẽ ảnh hưởng đến rất ít trang web, nhưng bạn nên biết điều đó.

Kết luận

Đề xuất của tôi là: báo cáo sitemap qua cả giao diện GSC và đưa chúng vào trong robots.txt của bạn.

Nếu bạn có một trang web gặp phải sự cố này, thì dù với bất cứ lý do gì, bạn đều có thể muốn loại trừ các đường dẫn sitemaps khỏi tệp robots.txt của mình sao cho những kẻ xấu không thể tìm thấy chúng và sử dụng chúng để đẩy nhanh mục đích xấu của họ.

Tham khảo thêm 2 bài viết về sitemap:

1. Tối ưu hóa XML Sitemap: 13 giải pháp thực tiến tốt nhất.
2. John Muller hướng dẫn cách để thêm sitemap cho website có hơn 50 ngàn url.

Ghi nguồn diễn đàn marketing khi sao chép lại nội dung này.
Link: Lỗi sitemap Google BlackHat: Nó có ý nghĩa gì đối với XML Sitemap.​
Nguồn: www.thegioiseo.com