Hướng dẫn ngăn chặn sao chép nội dung blog trong WordPress

Nếu bạn tự viết nội dung cho website, bạn sẽ nhận ra rằng các nội dung của bạn sẽ xuất hiện trên một loạt các trang web SPAM khác chỉ vài phút hoặc vài ngày sau. Một số người còn nhận ra rằng web có nội dung bị sao chép còn vượt xa số lượng web có nội dung gốc. Thật khó chịu khi có người ăn cắp nội dung của bạn mà không được sự cho phép rồi kiếm tiền từ nó, có thứ hạng tốt hơn bạn trong SERPs và lấy hết lượt views của bạn.

Sao chép và đánh cắp nội dung của blog là một vấn đề lớn hiện nay vì hiện tại có rất nhiều cách tương đối dễ dàng để sao chép trang web WordPress. Trong bài viết này, chúng tôi sẽ đề cập đến định nghĩa “Blog Content Scraping (Sao chép và đánh cắp nội dung của blog)” là gì, cách để tìm ra và xử lý người đang sao chép trang web của bạn, làm thế nào bạn có thể giảm và ngăn chặn điều đó cũng như cách để tận dụng tối đa nội dung mà bạn tự viết một cách hiệu quả. Và cuối cùng là hành động sao chép nội dung có phải là 1 điều đúng đắn hay không?


Blog Content Scraping là gì?

Blog Content Scraping (Sao chép và đánh cắp nội dung của blog) là việc sao chép nội dung từ nhiều nguồn khác nhau và thêm vào nguồn nội dung cho website khác. Hiện tại rất dễ dàng để tạo 1 website WordPress, tìm theme phù hợp, lựa chọn từ khóa theo chủ đề website rồi dùng plugin để sao chép nội dung về từ các website có cùng chủ đề tương tự.

Lý do vì sao họ chọn thủ thuật Blog Content Scraping để tạo nội dung?

Lý do để họ chọn website của bạn để dùng thủ thuật Blog Content Scraping rất đơn giản. Đó là do website của bạn có nội dung thật sự tuyệt vời. Và đây là danh sách các lý do họ chọn thủ thuật Blog Content Scarping để xây dựng nội dung cho website của họ:

Đây chỉ là 1 vài lí do trong vô vàn lí do website của bạn sẽ bị người khác dùng thủ thuật sao chép nội dung.


Làm thế nào biết có người đang sao chép nội dung website của bạn?

Có một vài cách đơn giản để tìm ra những người đang sao chép nội dung của bạn, tuy việc này rất mất thời gian và nhàm chán.

Tìm kiếm tiêu đề bài viết của bạn trên Google

Đây là cách đơn giản nhất, nhưng rất mất thời gian vì có thể nội dung của bạn là 1 chủ đề phổ biến trên Internet.

Trackbacks (trackbacks là việc thông báo cho người khác về việc bạn kết nối bài viết/website đến họ)

Cách hiệu quả hơn đó là thêm internal links ( liên kết nội bộ) trong bài viết của bạn, nếu họ đang sao chép nội dung của bạn, bạn sẽ thấy 1 trackbacks trả về. Khi bạn sử dụng plugin Akismet, thì rất nhiều trackback sẽ hiển thị trong thư mục SPAM. Cách kiểm tra này chỉ hiệu quả khi bạn thêm internal links ( liên kết nội bộ) trong bài viết của bạn.

Webmaster Tools

Nếu bạn sử dụng Webmaster Tools của Google, bạn có thể kiểm tra phần trong phần Traffic, những site nào với hàng ngàn Links đến website của bạn. Rất có thể họ là người sao chép nội dung blog. Và dĩ nhiên, cách kiểm tra này chỉ hiệu quả khi bạn thêm internal links ( liên kết nội bộ) trong bài viết.

Sử dụng FeedBurner Uncommon

Nếu bạn đã cài đặt Feedburner cho website WordPress (một trình quản lý các feed của trang web trực tuyến) , thì có 1 cách kiểm tra khác bằng tính năng của FeedBurner. Tại Tab Analyze trong Feed Stats, bạn sẽ thấy mục “Uncommon Uses“. Tại mục này, bạn sẽ tìm được danh sách những website nào đang dùng thủ thuật sao chép nội dung website của bạn.

Cách xử lý những người dùng thủ thuật Blog Content Scraping

Có 1 vài cách để xử lý đối với những website đang sao chép nội dung trang web của bạn, cụ thể như sau:

Phương pháp “Không làm gì”

Đây là một trong những cách đơn giản nhất mà bạn có thể làm. Thông thường các blogger nổi tiếng sẽ luôn khuyến khích điều này bởi vì thật sự việc chiến đấu với những kẻ phá hoại rất phiền toái và mất thời gian. Cách này đơn giản là: Thay vì mất thời gian tìm cách xử lý chúng, thì chúng ta dùng thời gian đó để tạo ra những nội dung chất lượng hơn. Đối với những blog đã nổi tiếng như Smashing Magazine, CSS-Tricks, Problogger… thì họ không phải lo lắng về điều đó, bởi vì họ là những trang có độ tin cậy cao trong bảng xếp hạng tìm kiếm của google.

Tuy nhiên, trong Panda Update mới nhất, chúng ta biết rằng có 1 số trang web lại bị gắn cờ là ‘sao chép nội dung’ trong khi đó là nội dung của họ, và những trang web sao chép lại được xem là có nội dung gốc. Cho nên, chúng tôi không đề nghị phương pháp này là tốt nhất để xử lý vấn đề Blog Content Scraping.


Phương pháp chặn tất cả các tiếp cận


Ngược lại với phương Pháp ” Không làm gì”, phương pháp này thì bạn phải tìm ra liên hệ của người đang sao chép nội dung, sau đó yêu cầu họ gỡ bài đăng của bạn xuống. Nếu họ không thực hiện, bước tiếp theo bạn phải gửi 1 khiếu nại đến DMCA (Digital Millennium Copyright Act, tạm hiểu là luật bảo vệ bản quyền tác giả), với toàn bộ thông tin host của website sao chép. Thông thường những website sao chép nội dung này không có thông tin liên hệ cụ thể. Nếu bạn muốn lấy thông tin host, bạn cần thực hiện Tra cứu Whois (Whois Lookup).

Bạn có thể lấy thông tin liên hệ của họ trên administrative contact. Ngoài ra, thường thì administrative contact và technical contact là như nhau . Whois cũng hiển thị các công ty đăng ký domain. Hầu hết các công ty lưu trữ web và nhà đăng ký tên miền nổi tiếng đều có mẫu hoặc email để liên lạc về vấn đề DMCA. Trong ví dụ của chúng tôi bạn có thể thấy rằng công ty quản lý domain là Hostgator. HostGator cũng có hình thức khiếu nại DMCA. Nếu Domain name có dạng ns1.theirdomain.com, thì bạn phải tìm sâu hơn bằng cách thực hiện reverse IP lookups và tìm kiếm IP.

Bạn cũng có thể sử dụng dịch vụ của bên thứ ba về DMCA.com để gỡ nội dung bị sao chép xuống.

Trong bài viết của mình, Jeff Starr đề nghị bạn nên chặn IP của trang web sao chép nội dung. Truy cập vào logs và tìm ra IP address của họ, sau đó chặn nó bằng đoạn code này này trong file .htaccess root.

    Deny from 123.456.789

Bạn cũng có thể redirect chúng đến một dummy feed bằng cách làm như thế này:

RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]

Bạn có thể sáng tạo khác với những gì Jeff gợi ý. Hoặc bạn có thể gửi chúng 1 trang nội dung “Lorem Ipsum” với dữ liệu cực lớn, với những hình ảnh kinh tởm quái dị, hoặc thậm chí gửi RSS Feed của chính website đó để làm sập website của họ với vòng lặp vô hạn về nội dung.

Cách xử lý cuối cùng chúng tôi đề nghị là tận dụng lợi ích của việc bị sao chép nội dung

Làm thế nào để tận dụng lợi ích của việc bị sao chép nội dung?

Đây là cách mà chúng tôi đang sử dụng để đối phó với việc bị sao chép nội dung, tận dụng lợi thế của chúng để tăng lượt views của chúng tôi cũng như tăng thu nhập từ web. Đa số sao chép nội dung đều sử dụng RSS feed để sao chép nội dung của bạn, do đó đây là các cách bạn có thể áp dụng:

Làm thế nào để ngăn chặn và giảm việc bị sao chép nội dung Blog?

Sử dụng tất cả các phương pháp đã được đề xuất trên của chúng tôi, hoặc bạn cũng có thể dùng gợi ý của Jeff để chuyển hướng nội dung cho những trang sao chép nội dung Blog này để ngăn chặn việc bị đánh cắp nội dung. Ngoài ra đây là vài thủ thuật khác mà bạn có thể sử dụng:

Full RSS Feed hay Summary RSS Feed

Rất nhiều bài viết tranh luận về việc lựa chọn Full RSS Feed (hiển thị post đầy đủ cho dữ liệu feed) hay Summary RSS Feed (mô tả ngắn cho dữ liệu feed). Nhưng chúng tôi sẽ không đi sâu vào chi tiết đó. Tuy nhiên dùng phương pháp Summary RSS Feed (mô tả ngắn cho dữ liệu feed) cũng có thể giúp bạn ngăn chặn việc bị sao chép nội dung. Bạn có thể thay đổi cài đặt RSS Feed thành Summary RSS Feed (mô tả ngắn cho dữ liệu feed) bằng cách truy cập WordPress admin của bạn và vào phần Settings » Reading. Sau đó thay đổi cài đặt thành (mô tả ngắn cho dữ liệu feed)

Lưu ý: Chúng tôi dùng Full RSS Feed(hiển thị post đầy đủ cho dữ liệu feed) vì chúng tôi quan tâm nhiều hơn đến RSS Readers của chúng tôi hơn là những Spammers.


Trackbacks SPAM

Trackbacks  và Pingbacks  thật sự có công dụng thật tuyệt vời. Tuy nhiên, hiện tại chúng bị lạm dụng trở thành công cụ của việc sao chép. Thông thường themes hiển thị trackback và pingback ở dưới hoặc trong các bình luận. Điều này mang lại cho Spammer cách để sao chép nội dung và gửi 1 pingbacks bên dưới comments. Nếu bạn phê duyệt nhầm comments thì họ sẽ nhận được một backlinks từ trang web của bạn. Đây cũng là cách bạn có thể vô hiệu hóa Trackbacks trên tất cả các bài viết. Và đây là một bài viết sẽ chỉ cho bạn cách vô hiệu hóa trackback và pingback trên các bài đăng WordPress hiện có.

*trackbacks là việc thông báo cho người khác về việc bạn kết nối bài viết/website đến họ.

*Pingback là một chức năng thông báo trong phần comment của WordPress giúp tác giả biết được ai đã gắn liên kết (link) về bài viết của mình.

Sao chép nội dung có tốt không?

Trong một vài trường hợp, dĩ nhiên nó tốt nếu bạn có tiền từ những trang sao chép nội dung Blog này, hoặc bạn có 1 lượng traffic từ họ. Bạn luôn cố gắng kiểm soát nội dung của mình. Tuy nhiên khi website đã trở nên lớn hơn thì rất khó để ngăn chăn sao chép nội dung. Chúng tôi vẫn gửi khiếu nại đến DMCA. Tuy nhiên, chúng tôi cũng biết rằng hiện có rất nhiều trang web ăn cắp nội dung của chúng tôi nhưng chúng tôi không biết được.


Quan điểm của bạn là gì? Bạn có sử dụng bất kỳ cơ chế nào khác để ngăn chặn sao chép nội dung? Chúng tôi muốn được nghe những suy nghĩ của bạn.