Tìm hiểu về Google Panda

Google Panda ra mắt lần đầu tiên vào tháng 2 năm 2011 với nhiệm vụ chính là loại bỏ các chiến thuật SEO mũ đen và webspam. Vào thời điểm đó, người dùng Google đã quá ngán ngẩm với sự tràn làn của những nội dung kém chất lượng và liên tục giống nhau.

Một thập kỷ nay, năm 2021, người làm SEO vẫn có thể thấy tầm quan trọng của thuật toán này – bước đầu tiên của Google để tập trung vào chất lượng và trải nghiệm người dùng.

Sự ra đời của thuật toán Google Panda

Vào năm 2010, chất lượng kết quả tìm kiếm của Google ngày càng giảm và sự trỗi dậy của mô hình “Content Farm” đã trở thành những chủ đề liên tục gây tranh cãi. Điều này ảnh hưởng nghiêm trọng đến trải nghiệm của người dùng thông thường, không muốn trở thành một công cụ bị gắn mác “spam” và bị quay lưng, Google phải có phương án xử lý tình trạng này

Trích theo Wikipedia: “Content Farm theo cách hiểu của World Wide Web, là một công ty thuê một số lượng lớn những tác giả tự do nhằm tạo ra những nội dung trên Internet nhằm thỏa mãn tối đa thuật toán của máy tìm kiếm thay vì đem lại nội dung có giá trị thực sự cho người dùng”

Ra mắt bản cập nhật đầu tiên: tháng 2/2011

Google Panda được giới thiệu lần đầu tiên vào ngày 23 tháng 2 năm 2011. Vào ngày 24 tháng 2, Google đã xuất bản một bài đăng trên blog về bản cập nhật và cho biết rằng họ “đã đưa ra một cải tiến thuật toán khá lớn đối với xếp hạng của chúng tôi – một thay đổi ảnh hưởng đáng kể đến 11,8% các truy vấn”.

Danny Sullivan, người sáng lập Search Engine Land, ban đầu gọi nó là bản cập nhật “Farmer”. Tuy nhiên, Google sau đó đã tiết lộ rằng nội bộ nó được gọi là “Panda”, tên của kỹ sư đã đưa ra bước đột phá thuật toán chính.

Hàng loạt website thay đổi sau khi ra mắt thuật toán mới

Sau bản cập nhật Google Panda, “kẻ thắng – người bại” hiện lên rõ ràng. Hàng loạt các trang web bị ảnh hưởng nặng nề nhất đã khá quen thuộc với bất kỳ ai trong ngành SEO vào thời điểm đó. Ở chiều ngược lại, nhiều trang web khác lại đạt hiệu suất tốt hơn. Bản cập nhật này cũng đánh trực tiếp vào doanh thu của các công ty cung cấp dịch vụ “Content Farm”

Rất rõ ràng, các trang web bị ảnh hưởng nặng nề nhất thường có thiết kế kém hấp dẫn hơn, nhiều quảng cáo hiển thị hơn, số lượng từ cao nhưng tiêu chuẩn biên tập thấp, cụm từ lặp đi lặp lại, nghiên cứu thiếu sót và nhìn chung không hữu ích hoặc đáng tin cậy.

Con đường để phục hồi website từ sau Panda vừa đơn giản vừa đầy thử thách. Thuật toán Google Panda tăng hiệu suất của các trang web có nội dung mà nó phân loại là có chất lượng cao, nên giải pháp duy nhất là tăng chất lượng và tính độc đáo cho nội dung của bạn. Nói cách khác chính là: VIẾT LẠI CÁC NỘI DUNG CŨ VÀ THAY ĐỔI CHIẾN LƯỢC CONTENT

> Có thể bạn quan tâm: Công cụ tìm kiếm là gì và hoạt động như thế nào?

Những hiểu biết về thuật toán Google Panda

Hơn 1 thập kỉ phát triển, Google Panda trở thành thành thuật toán quen thuộc và cũng là điều cơ bản nhất cần tìm hiểu cho bất kì ai đang hoạt động trong lĩnh vực tối ưu hoá công cụ tìm kiếm. Panda là thuật toán lớn, mỗi lần nhắc đến “gấu trúc” thì giới SEO lại có rất nhiều điều để bàn luận.

Thuật toán Google Panda không nói về nội dung trùng lặp (Duplicate Content)

John Mueller đã làm rõ rằng nội dung trùng lặp là độc lập với Panda. Google đã nhấn mạnh rằng Panda khuyến khích nội dung độc đáo, nhưng điều này còn đi sâu hơn là tránh trùng lặp. Những gì Panda đang tìm kiếm là thông tin thực sự độc đáo cung cấp giá trị vượt trội cho người dùng.

John Mueller đã nói với một blogger rằng việc loại bỏ các bản sao kỹ thuật thực sự là một ưu tiên rất thấp và thay vào đó, họ nên “suy nghĩ về điều gì làm cho trang web khác biệt so với trang web hàng đầu tuyệt đối trong thị trường ngách của bạn”.

Nếu các phần nội dung được lặp lại trên toàn bộ trang web, chẳng hạn như nội dung trong đầu trang hoặc chân trang, Mueller xác nhận rằng nó cũng sẽ không gửi các tín hiệu xếp hạng tiêu cực.

“…Nếu chúng tôi tìm thấy chính xác cùng một thông tin trên nhiều trang trên web và ai đó tìm kiếm cụ thể cho phần thông tin đó, thì chúng tôi sẽ cố gắng tìm trang phù hợp nhất.

Vì vậy, nếu bạn có cùng một nội dung trên nhiều trang thì chúng tôi sẽ không hiển thị tất cả các trang này. Chúng tôi sẽ cố gắng chọn một trong số chúng và thể hiện điều đó. Vì vậy, không phải là có bất kỳ tín hiệu tiêu cực nào liên quan đến điều đó. Trong nhiều trường hợp, điều bình thường là bạn có một số lượng nội dung được chia sẻ trên một số trang.” 

Panda và nội dung do người dùng tạo (UGC)

Thuật toán Google Panda không nhắm mục tiêu cụ thể đến nội dung do người dùng tạo, nó có xu hướng ảnh hưởng đến các trang web sản xuất nội dung chất lượng thấp – chẳng hạn như các bài đăng spam của khách hoặc các diễn đàn chứa đầy spam.

Nhiều trang web xếp hạng cao dựa vào nội dung do người dùng tạo – vì vậy nhiều trang web sẽ mất lưu lượng truy cập và thứ hạng đáng kể chỉ vì họ đã xóa loại nội dung đó. Ngay cả những nhận xét được đưa ra trên một bài đăng blog cũng có thể khiến nó được xếp hạng và thậm chí nhận được một Featured Snippet.

Chất lượng quan trọng hơn số lượng

Số lượng từ là một khía cạnh khác của Google Panda mà các chuyên gia SEO thường hiểu nhầm. Nhiều trang web mắc sai lầm khi không xuất bản bất kỳ nội dung mà không vượt quá số từ nhất định. Thay vào đó, Google khuyên bạn nên suy nghĩ về số lượng từ mà mỗi loại nội dung cần có để thành công thu hút người dùng.

Ví dụ:có rất nhiều trang có rất ít nội dung chính, nhưng Google cho rằng trang đó đủ chất lượng để kiếm được đoạn trích nổi bật cho truy vấn. Trong một trường hợp, nội dung chính chỉ vỏn vẹn 63 từ và nhiều người sẽ khó viết về chủ đề này theo cách không spam với độ dài hơn 350 từ. Vì vậy, bạn chỉ cần đủ từ để trả lời truy vấn.

Tấn công các trang web có Affiliate Links & Ads kém chất lượng

Các trang web liên kết và trang web “được tạo cho AdSense” thường bị Google Panda tấn công nhiều hơn các trang web khác, nhưng điều này không phải vì nó nhắm mục tiêu cụ thể đến chúng.

Mueller nói:

“Chúng tôi thấy rất nhiều “chi nhánh” liên kết doanh nghiệp (Affiliates) về cơ bản chỉ là những người lười biếng sao chép và dán các nguồn cấp dữ liệu mà họ nhận được và xuất bản chúng trên trang web của họ. Và loại nội dung chất lượng thấp hơn, nội dung mỏng, là thứ khó hiển thị trong tìm kiếm. ”

Nói cách khác, các trang web này đang bị thuật toán Google Panda tấn công vì những lý do tương tự: chúng không cung cấp nội dung hấp dẫn, độc đáo, hấp dẫn.

> Có thể bạn quan tâm: 

Thuật toán Panda và yếu tố E-A-T

Vào năm 2014, Google đã giới thiệu các nguyên tắc E-A-T trong các nguyên tắc về chất lượng tìm kiếm của mình, tập trung vào Expertise, Authority, and Trustworthiness. Kể từ năm 2018, các nguyên tắc này ngày càng trở thành trọng tâm đối với các nhà tiếp thị.

Giống như Panda, các bản cập nhật do đó và các thay đổi thuật toán cốt lõi tập trung vào chất lượng nội dung và trải nghiệm người dùng.

Và giống như Panda, trọng tâm là tránh:

Nội dung mỏng và không mang tính thông tin.
Thiếu nguồn có thẩm quyền.
Nội dung không đáng tin cậy và các liên kết có vấn đề.

> Có thể bạn quan tâm: E-A-T là gì? Cải thiện E-A-T để tăng hiệu quả SEO website

Hành trình 10 năm cập nhật của Google Panda

Dòng thời gian của các bản cập nhật thuật toán Google Panda được biết đến như sau:

Ngày 23/2/2011: Lần lặp đầu tiên của bản cập nhật thuật toán chưa được đặt tên khi đó đã được giới thiệu (12% truy vấn bị ảnh hưởng), gây sốc cho ngành công nghiệp tối ưu hóa công cụ tìm kiếm và nhiều công ty lớn, kết thúc hiệu quả mô hình kinh doanh “Content Farm” tồn tại vào thời điểm đó.
Ngày 11/4/2011. Bản cập nhật đầu tiên cho thuật toán Panda lõi. Bản cập nhật này kết hợp các tín hiệu bổ sung, chẳng hạn như các trang web mà người dùng Google đã chặn.
Ngày 9/5/2011. Đầu tiên trong ngành gọi đây là Panda 3.0, nhưng Google đã làm rõ rằng đó chỉ là một bản làm mới dữ liệu, cũng như các bản cập nhật sắp tới.
Ngày 12/8/2011. Google Panda được triển khai trên toàn thế giới cho tất cả các quốc gia nói tiếng Anh và các quốc gia không nói tiếng Anh ngoại trừ Nhật Bản, Trung Quốc và Hàn Quốc.
Ngày 19/10/2011. Google đã thêm một số tín hiệu mới vào thuật toán Panda và cũng tính toán lại cách thuật toán ảnh hưởng đến các trang web.
Ngày 18/11/2011. Google đã công bố một đợt cập nhật nhỏ, ảnh hưởng đến ít hơn 1 phần trăm tìm kiếm.
Ngày 18/1/2012. Google xác nhận việc làm mới dữ liệu đã xảy ra vào ngày này
Ngày 8/6/2012. Việc làm mới dữ liệu mà các công cụ xếp hạng đề xuất là gây ảnh hưởng nặng nề hơn so với các bản cập nhật gần đây khác.
Ngày 20/8/2012. Một bản cập nhật tương đối nhỏ đánh dấu sự khởi đầu của quy ước đặt tên mới do ngành chỉ định.
Ngày 27/9/2012. Một bản cập nhật Panda tương đối lớn cũng đánh dấu sự khởi đầu của một quy ước đặt tên khác. Ngành SEO đã nhận ra sự vụng về của quy ước đặt tên 9.x.x và nhận ra rằng các bản cập nhật cho cái mà họ gọi là Panda 3.0 có thể tiếp tục xảy ra trong một thời gian rất dài.
Ngày 14 tháng 3 năm 2013. Bản cập nhật này đã được thông báo trước. Matt Cutts của Google dường như gợi ý rằng đây sẽ là bản cập nhật cuối cùng trước khi Panda được tích hợp trực tiếp vào thuật toán Google. Tuy nhiên, sau đó rõ ràng rằng đây không phải là những gì đang xảy ra.
Ngày 11 tháng 6 năm 2013. Đây không phải là ngày cập nhật. Tuy nhiên, Cutts đã làm rõ Google Panda sẽ không được tích hợp trực tiếp vào thuật toán, mà là nó sẽ cập nhật hàng tháng với các đợt phát hành chậm hơn nhiều, thay vì làm mới dữ liệu đột ngột như trước đây.
Ngày 18 tháng 7 năm 2013. Bản cập nhật này dường như là một chỉnh sửa để sửa một số hoạt động quá khắc nghiệt của Panda.
Ngày 19 tháng 5 năm 2014. Một bản cập nhật Panda lớn (tác động đến 7,5 phần trăm truy vấn) đã xảy ra. Hầu hết những người trong ngành đều tin rằng đây là bản cập nhật cho thuật toán Panda, không chỉ là một bản làm mới dữ liệu, đặc biệt là theo tuyên bố của Cutts về việc triển khai chậm.
Ngày 23 tháng 9 năm 2014. Một bản cập nhật lớn khác (ảnh hưởng từ 3 đến 5 phần trăm các truy vấn) bao gồm một số thay đổi đối với thuật toán Panda. Do việc phát hành chậm, ngày chính xác vẫn chưa rõ ràng, nhưng thông báo được đưa ra vào ngày 25 tháng 9.
Ngày 17 tháng 7 năm 2015. Google đã công bố bản cập nhật Panda sẽ mất hàng tháng để triển khai. Do tính chất chậm của quá trình triển khai, không rõ mức độ tác động đáng kể hoặc chính xác thời điểm nó xảy ra. Đây là bản cập nhật Google Panda cuối cùng được xác nhận.
Ngày 11/1/2016. Google xác nhận rằng Panda đã được kết hợp vào thuật toán cốt lõi của Google, rõ ràng là một phần của quá trình triển khai chậm chạp vào ngày 17 tháng 7 năm 2015. Nói cách khác, Panda không còn là một bộ lọc được áp dụng cho thuật toán Google sau khi nó hoạt động mà được kết hợp như một tín hiệu xếp hạng cốt lõi khác. Tuy nhiên, người ta đã làm rõ rằng điều này không có nghĩa là trình phân loại Google Panda hoạt động trong thời gian thực.

Thuật toán Panda ở thời điểm hiện tại – năm 2021

Thuật toán Google Panda hiện đã được nhúng chắc chắn vào các thuật toán machine learning của Google và do đó, các bản cập nhật liên quan đến Panda sẽ không được coi là độc lập.

Vì Panda trở thành một phần trong thuật toán cốt lõi của Google nên SEOers sẽ không còn thấy các bản cập nhật Panda riêng biệt nữa. Các bản cập nhật thuật toán cốt lõi – đặc biệt là những bản cập nhật tập trung vào chất lượng và nội dung – về lý thuyết có liên quan đến ‘Panda’.

Người làm SEO cần tránh các chiến thuật mũ đen, tránh xây dựng liên kết spam và tập trung vào nội dung chất lượng cho người dùng và trải nghiệm của họ. Việc sử dụng máy học và công nghệ của Google vẫn tiếp tục tuân thủ các nguyên tắc này. Tên Google Panda có thể không xuất hiện, nhưng các nguyên tắc của Panda vẫn còn phù hợp cho đến ngày nay.

Đánh giá post