Thứ Hai, 21 tháng 12, 2015

Tìm hiểu tập tin robots.txt để tránh rò rỉ URL và mất lưu lượng truy cập

Hôm nay tôi sẽ chia sẻ quá trình xử lý sự cố của mình để xác định các vấn đề với robots.txt khiến lưu lượng truy cập trên trang web của tôi đã bị giảm trong một thời gian dài.

Trước đây tôi cũng đã viết rất nhiều về các vấn đề kỹ thuật SEO có thể dẫn đến sự sụt giảm nghiệm trọng về thứ hạng và lưu lượng truy cập. Từ thẻ meta robots đến rel=canonical đến cloaked 404s và một số vấn đề khác có thể gây thiệt hại nghiêm trọng cho trang web của bạn.

slide ​



Vậy chuyện gì đã xảy ra? Và tầm quan trọng của việc kiểm soát tập tin robots.txt của bạn là gì?

Khi nói chuyện với khách hàng về những mối nguy hiểm SEO, tôi thường đề cập đến tập tin robots.txt. Đó là một tập tin văn bản đơn giản nhưng nó có tác động lớn trên những nỗ lực SEO của bạn nếu không được xử lý một cách chính xác.

Mặc dù hầu hết các SEO hiểu rằng việc chối bỏ trong robot.txt sẽ gây ra vấn đề lớn, có nhiều tình huống khác có thể gây ra vấn đề.

Một số có thể xảy ra từ từ và khiến các URL quan trọng bị rò rỉ khỏi chỉ mục của Google - và nếu những URL là quan trọng thì bạn đã gặp một vấn đề lớn.

Lưu lượng truy cập giảm, thứ hạng bị cuốn đi và URL bị deindex

Một công ty đã tìm đến với tôi sau khi nhận thấy một số từ khóa quan trọng của họ không còn được xếp hạng. Họ đã vô cùng lo lắng về điều này.

Nhưng với nhiều thay đổi xảy ra với Google, thứ hạng bị giảm có phải là tất cả với họ? Có lẽ đó là một bản cập nhật thuật toán hoặc có thể là một trò chơi của họ hoặc có thể là một vấn đề kỹ thuật nào đó gây ra sự sụt giảm về bảng xếp hạng. Vì vậy, tôi đã vào cuộc để thực hiện công việc điều tra.

Khi đi sâu vào phân tích tình hình, tôi nhanh chóng kiểm tra các URL được xếp hạng một lần với các từ khóa đó. Thú vị là một số URL vẫn được xếp hạng trong khi một số khác thì không thể được tìm thấy. Có một số URL đã bị biến mất khỏi chỉ mục của Google.

Tim hieu tap tin robots ​

Vì vậy, tôi đã kiểm tra thẻ meta robots. Tôi đã kiểm tra tiêu đề x-robots để đảm bảo noindex không được xuất hiện trong header.

Sau đó, tôi kiểm tra các URL. Về cơ bản, CMS không sử dụng các URL "đẹp" cho một tỷ lệ lớn các trang web (được thiết lập dựa trên CMS).

Tôi đã bắn lên robots.txt Tester trong Google Search Console (GSC) và bắt đầu thử nghiệm các loại URL. Một số URL được hiển thị như kiểu bị chặn trong khi một số khác hiển thị là cho phép.

Tim hieu tap tin robots 2 ​

Tôi cũng export một danh sách các URL mà trước đó đã nhận được lưu lượng truy cập từ Google và thu thập chúng. Điều đó giúp tôi có thể xem bất kỳ URL hiện đang bị chặn bởi robots.txt. Một lần nữa tôi nhận thấy rằng một số bị chặn và một số cho phép. Sau nhiều phân tích, tôi đã đúc kết được 2 vấn đề.

Có 2 vấn đề quan trọng: trường hợp nhạy cảm và những thay đổi trực tiếp từ bên thứ 3

Xem lại file robots.txt và tôi đã nhận thấy 2 vấn đề chính này.

Đầu tiên, chỉ thị mới đã được thêm vào robots.txt bởi nhà cung cấp CMS, và chủ sở hữu trang web không nhận thấy rằng nó đã xảy ra. Trang web có hàng chục ngàn các URL được index, vì vậy ngay cả một thay đổi nhỏ trong chỉ thị robots.txt có thể là nguy hiểm.

Thứ 2, chỉ thị này đã thay đổi một chút. Điều đó có nghĩa là những chỉ thị nhầm lẫn có thể bị bỏ lỡ các URL trên trang web.

Ví dụ, nếu bạn nhắm mục tiêu vào các directory /Category/ nhưng thư mục là /CATEGORY/, sau đó bạn sẽ không cho phép các URL được giải quyết trong thư mục /Category/, đây là một thư mục nhạy cảm. Đó là một điểm quan trọng cần lưu ý cho mọi SEO, webmaster và chủ doanh nghiệp. Xem ảnh chụp màn hình dưới đây.

Tim hieu tap tin robots 3 ​

Nguy hiểm của việc rò rỉ chậm

Giữa các thư mục được thêm hoặc bị xóa, công ty này đã vô tình chối bỏ các URL quan trọng. Khi URL bị chối bỏ, Google không thể thu thập dữ liệu trang để xác định các nội dung mà họ có và điều này đã khiến cho một số URL bị giảm khỏi chỉ mục của Google theo thời gian. Điều này là không tốt.

John Mueller nói về robots.txt

Vào tháng 8, trong Google Webmaster Trends Analyst, John Mueller đã dành riêng hangout này để nói về robots.txt. Với những người có liên quan với kỹ thuật SEO thì cần phải xem xét.

Lẽ ra John Mueller phải đứng ra để giải thích URL bị chối bỏ được Google xử lý như thế nào. Ví dụ, sẽ chối bỏ các URL vẫn còn trong chỉ mục, sẽ giảm và bao lâu chúng sẽ bị giảm?

Tại phút thứ 32 trong video, John giải thích rằng Google sẽ giảm thông tin về các URL bị chối bỏ từ các lần thu thập trước đó và nó có thể index các URL với các thông tin cơ bản.

Ngoài ra, Google có thể giảm các URL từ các chỉ mục theo thời gian. Không có gì đảm bảo rằng các URL sẽ bị giảm nhưng điều đó chắc chắn có thể xảy ra. Hãy xem video ở đây:

Nếu bạn muốn nghe John nói về những trường hợp nhạy cảm, bạn có thể xem ở phút 13:50 trong video. Ông đã đưa ra một số điểm quan trọng về các thư mục, trường hợp nhạy cảm và các ký tự phù hợp.

Làm thế nào để tránh việc rò rỉ URL khi thay đổi robots.txt

Vậy làm thế nào bạn có thể tránh điều này xảy ra trên trang web của bạn? Tôi sẽ cung cấp một số lời khuyên dưới đây để giúp bạn hiểu khi thay đổi được thực hiện trong tập tin robots.txt của bạn và làm thế nào để phát hiện ra nếu các URL được sử dụng để lái lưu lượng truy cập mà đang bị chối bỏ bởi robots.txt.

- Thu thập thông tin và audit trang web của bạn thường xuyên. Tôi đã nói điều này rất nhiều trong thời gian gần đây. Bạn càng thu thập trang web của bạn càng nhiều thì bạn càng hiểu về điểm mạnh, điểm yếu và rủi ro trên trang web của bạn. Và như là một phần của việc thu thập dữ liệu, bạn có thể xem các URL bị chối bỏ thông qua một công cụ (ví dụ như Screaming Frog, DeepCrawl và một vài công cụ khác). Bạn chỉ có thể lấy các URL quan trọng đang bị chặn. Nếu vậy, hãy đào sâu và tìm ra gốc rễ của vấn đề.

- Lịch sử thay đổi robots.txt. Bạn có thể yêu cầu thông báo từ nhà cung cấp của bạn bất cứ khi nào CMS được thay đổi với tập tin robots.txt của bạn. Nếu họ có thể gửi email hoặc tin nhắn cho bạn về những thay đổi thì bạn có thể nhanh chóng kiểm tra chúng. Và bạn có thể di chuyển một cách nhanh chóng để khắc phục mọi vấn đề.

- Tự động phát hiện những thay đổi trong tập tin robots.txt. Bạn cũng có thể sử dụng một dịch vụ để ping tập tin robots.txt của bạn hàng ngày. Bất cứ khi nào có một sự thay đổi gì đó thì nó sẽ gử email cho bạn. Sau đó, bạn có thể xem xét và thực hiện thay đổi khi cần thiết. Nó giống như một Google Alert về kỹ thuật SEO. Ví dụ, Robotto có thể phát hiện một số thay đổi quan trọng và thông báo cho bạn.
Tim hieu tap tin robots 4 ​

- Audit Google Search Console (GSC) liên tục. Bạn phải liên tục audit báo cáo Google Search Console. Có một số báo cáo có thể giúp bạn xác định những vấn đề mới với trang web của bạn từ góc độ kỹ thuật SEO. Với tình huống này, sử dụng robots.txt Tester trên các URL quan trọng sẽ giúp đỡ bạn. Bạn cũng có thể kiểm tra Index Status với “blocked by robots", nó có thể tiết lộ về sự gia tăng về số lượng các URL bị chặn bởi robots.txt. Và sau đó bạn có thể kiểm tra Smartphone Crawl Errors với “Blocked”. Điều này có thể được tìm thấy trong tab Smartphone nhưng hoàn toàn có thể liên quan đến URL destop,

- Sử dụng Wayback Machine để kiểm tra robots.txt. Vâng, bạn có thể sử dụng nó để xem lại tập tin robots.txt của bạn theo thời gian. Với nhiều trang web, bạn sẽ thấy những phiên bản khác nhau của robots.txt trên các website. Nó có thể cung cấp một manh mối quan trọng về việc các trang bị giảm truy cập.
Tim hieu tap tin robots 5 ​

Tóm lại

Như bạn có thể thấy với trường hợp này, những thay đổi kỹ thuật SEO có thể có một tác động lớn trên bảng xếp hạng và lưu lượng truy cập. Mặc dù robots.txt là một tập tin văn bản đơn giản, các chỉ thị của nó có thể chặn các URL quan trọng (có thể dẫn đến việc URL bị giảm khỏi chỉ mục của Google).

Và nếu những trang bị giảm khỏi chỉ mục, chúng sẽ không có cơ hội xếp hạng. Và không có cơ hội xếp hạng thì đồng nghĩa với việc chúng không thể lái lưu lượng truy cập. Do vậy, hãy làm theo các khuyến cáo của tôi ở trên và tránh việc các URL bị rò rỉ.

Không có nhận xét nào:

Đăng nhận xét