Nếu bạn tự viết nội dung cho website, bạn sẽ nhận ra rằng các nội dung của bạn sẽ xuất hiện trên một loạt các trang web SPAM khác chỉ vài phút hoặc vài ngày sau. Một số người còn nhận ra rằng web có nội dung bị sao chép còn vượt xa số lượng web có nội dung gốc. Thật khó chịu khi có người ăn cắp nội dung của bạn mà không được sự cho phép rồi kiếm tiền từ nó, có thứ hạng tốt hơn bạn trong SERPs và lấy hết lượt views của bạn.
Sao chép và đánh cắp nội dung của blog là một vấn đề lớn hiện nay vì hiện tại có rất nhiều cách tương đối dễ dàng để sao chép trang web WordPress. Trong bài viết này, chúng tôi sẽ đề cập đến định nghĩa “Blog Content Scraping (Sao chép và đánh cắp nội dung của blog)” là gì, cách để tìm ra và xử lý người đang sao chép trang web của bạn, làm thế nào bạn có thể giảm và ngăn chặn điều đó cũng như cách để tận dụng tối đa nội dung mà bạn tự viết một cách hiệu quả. Và cuối cùng là hành động sao chép nội dung có phải là 1 điều đúng đắn hay không?
Blog Content Scraping là gì?
Blog Content Scraping (Sao chép và đánh cắp nội dung của blog) là việc sao chép nội dung từ nhiều nguồn khác nhau và thêm vào nguồn nội dung cho website khác. Hiện tại rất dễ dàng để tạo 1 website WordPress, tìm theme phù hợp, lựa chọn từ khóa theo chủ đề website rồi dùng plugin để sao chép nội dung về từ các website có cùng chủ đề tương tự.
Lý do vì sao họ chọn thủ thuật Blog Content Scraping để tạo nội dung?
Lý do để họ chọn website của bạn để dùng thủ thuật Blog Content Scraping rất đơn giản. Đó là do website của bạn có nội dung thật sự tuyệt vời. Và đây là danh sách các lý do họ chọn thủ thuật Blog Content Scarping để xây dựng nội dung cho website của họ:
- Affiliate links – Có một số người kiếm tiền từ Affiliate links (Affiliate link của một sản phẩm là một URL cụ thể có chứa ID hoặc tên người dùng để nhận hoa hồng từ chương trình Affiliate marketing – tiếp thị liên kết) chỉ muốn tăng nhanh khả năng tìm thêm vài đồng đô la từ website. Họ muốn tăng lưu lượng truy cập website từ các trang tìm kiếm bằng cách sử dụng nội dung của bạn và các nội dung từ nhiều nguồn khác. Các trang web này thường có 1 phân khúc cụ thể làm mục tiêu phát triển, và họ thường nhắm vào các nội dung có nội dung liên quan đến sản phẩm mà họ đang quảng cáo.
- Lead Generation – Thông thường chúng ta có thể thấy luật sư và nhân viên môi giới nhà đất thường dùng thủ thuật này, vì họ có nhu cầu thể hiện là đang dẫn đầu trong ngành dịch vụ mà họ đang làm. Tuy nhiên họ không có thời gian để tự tạo ra nội dung chất lượng. Vì vậy, họ sao chép nội dung website của người khác để rút ngắn thời gian. Đôi khi, họ cũng không viết việc này vì họ chủ yếu thuê người tạo nội dung với giá 30$/1 tháng để tăng khả năng SEO cho website.
- Doanh thu quảng cáo (Advertising Revenue)- Một số người muốn tạo ra 1 trang web với đa dạng nội dung khác nhau cho cùng 1 ngành nghề cụ thể, nơi người truy cập website của họ có thể lựa chọn rất nhiều nội dung cho cùng 1 chủ đề. Họ luôn nói rằng website của họ chỉ phục vụ cho cộng đồng. Tuy nhiên, website của họ lại tràn ngập quảng cáo. Nếu mỗi Views có 1 xu thì hàng trăm views sẽ có hàng trăm xu.
Đây chỉ là 1 vài lí do trong vô vàn lí do website của bạn sẽ bị người khác dùng thủ thuật sao chép nội dung.
Làm thế nào biết có người đang sao chép nội dung website của bạn?
Có một vài cách đơn giản để tìm ra những người đang sao chép nội dung của bạn, tuy việc này rất mất thời gian và nhàm chán.
Tìm kiếm tiêu đề bài viết của bạn trên Google
Đây là cách đơn giản nhất, nhưng rất mất thời gian vì có thể nội dung của bạn là 1 chủ đề phổ biến trên Internet.
Trackbacks (trackbacks là việc thông báo cho người khác về việc bạn kết nối bài viết/website đến họ)
Cách hiệu quả hơn đó là thêm internal links ( liên kết nội bộ) trong bài viết của bạn, nếu họ đang sao chép nội dung của bạn, bạn sẽ thấy 1 trackbacks trả về. Khi bạn sử dụng plugin Akismet, thì rất nhiều trackback sẽ hiển thị trong thư mục SPAM. Cách kiểm tra này chỉ hiệu quả khi bạn thêm internal links ( liên kết nội bộ) trong bài viết của bạn.
Webmaster Tools
Nếu bạn sử dụng Webmaster Tools của Google, bạn có thể kiểm tra phần trong phần Traffic, những site nào với hàng ngàn Links đến website của bạn. Rất có thể họ là người sao chép nội dung blog. Và dĩ nhiên, cách kiểm tra này chỉ hiệu quả khi bạn thêm internal links ( liên kết nội bộ) trong bài viết.

Sử dụng FeedBurner Uncommon
Nếu bạn đã cài đặt Feedburner cho website WordPress (một trình quản lý các feed của trang web trực tuyến) , thì có 1 cách kiểm tra khác bằng tính năng của FeedBurner. Tại Tab Analyze trong Feed Stats, bạn sẽ thấy mục “Uncommon Uses“. Tại mục này, bạn sẽ tìm được danh sách những website nào đang dùng thủ thuật sao chép nội dung website của bạn.

Cách xử lý những người dùng thủ thuật Blog Content Scraping
Có 1 vài cách để xử lý đối với những website đang sao chép nội dung trang web của bạn, cụ thể như sau:
Phương pháp “Không làm gì”
Đây là một trong những cách đơn giản nhất mà bạn có thể làm. Thông thường các blogger nổi tiếng sẽ luôn khuyến khích điều này bởi vì thật sự việc chiến đấu với những kẻ phá hoại rất phiền toái và mất thời gian. Cách này đơn giản là: Thay vì mất thời gian tìm cách xử lý chúng, thì chúng ta dùng thời gian đó để tạo ra những nội dung chất lượng hơn. Đối với những blog đã nổi tiếng như Smashing Magazine, CSS-Tricks, Problogger… thì họ không phải lo lắng về điều đó, bởi vì họ là những trang có độ tin cậy cao trong bảng xếp hạng tìm kiếm của google.
Tuy nhiên, trong Panda Update mới nhất, chúng ta biết rằng có 1 số trang web lại bị gắn cờ là ‘sao chép nội dung’ trong khi đó là nội dung của họ, và những trang web sao chép lại được xem là có nội dung gốc. Cho nên, chúng tôi không đề nghị phương pháp này là tốt nhất để xử lý vấn đề Blog Content Scraping.
Phương pháp chặn tất cả các tiếp cận
Ngược lại với phương Pháp ” Không làm gì”, phương pháp này thì bạn phải tìm ra liên hệ của người đang sao chép nội dung, sau đó yêu cầu họ gỡ bài đăng của bạn xuống. Nếu họ không thực hiện, bước tiếp theo bạn phải gửi 1 khiếu nại đến DMCA (Digital Millennium Copyright Act, tạm hiểu là luật bảo vệ bản quyền tác giả), với toàn bộ thông tin host của website sao chép. Thông thường những website sao chép nội dung này không có thông tin liên hệ cụ thể. Nếu bạn muốn lấy thông tin host, bạn cần thực hiện Tra cứu Whois (Whois Lookup).

Bạn có thể lấy thông tin liên hệ của họ trên administrative contact. Ngoài ra, thường thì administrative contact và technical contact là như nhau . Whois cũng hiển thị các công ty đăng ký domain. Hầu hết các công ty lưu trữ web và nhà đăng ký tên miền nổi tiếng đều có mẫu hoặc email để liên lạc về vấn đề DMCA. Trong ví dụ của chúng tôi bạn có thể thấy rằng công ty quản lý domain là Hostgator. HostGator cũng có hình thức khiếu nại DMCA. Nếu Domain name có dạng ns1.theirdomain.com, thì bạn phải tìm sâu hơn bằng cách thực hiện reverse IP lookups và tìm kiếm IP.
Bạn cũng có thể sử dụng dịch vụ của bên thứ ba về DMCA.com để gỡ nội dung bị sao chép xuống.
Trong bài viết của mình, Jeff Starr đề nghị bạn nên chặn IP của trang web sao chép nội dung. Truy cập vào logs và tìm ra IP address của họ, sau đó chặn nó bằng đoạn code này này trong file .htaccess root.
Deny from 123.456.789
Bạn cũng có thể redirect chúng đến một dummy feed bằng cách làm như thế này:
RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]
Bạn có thể sáng tạo khác với những gì Jeff gợi ý. Hoặc bạn có thể gửi chúng 1 trang nội dung “Lorem Ipsum” với dữ liệu cực lớn, với những hình ảnh kinh tởm quái dị, hoặc thậm chí gửi RSS Feed của chính website đó để làm sập website của họ với vòng lặp vô hạn về nội dung.
Cách xử lý cuối cùng chúng tôi đề nghị là tận dụng lợi ích của việc bị sao chép nội dung
Làm thế nào để tận dụng lợi ích của việc bị sao chép nội dung?
Đây là cách mà chúng tôi đang sử dụng để đối phó với việc bị sao chép nội dung, tận dụng lợi thế của chúng để tăng lượt views của chúng tôi cũng như tăng thu nhập từ web. Đa số sao chép nội dung đều sử dụng RSS feed để sao chép nội dung của bạn, do đó đây là các cách bạn có thể áp dụng:
- Internal Linking– Đối với Internal Linking (liên kết nội bộ) trong WordPress 3.1, việc tạo Internal Linking ( liên kết nội bộ) trong website cực kỳ dễ dàng. Bạn nên bỏ những interlink không giá trị ra khỏi bài viết của mình. Khi bạn có các liên kết nội bộ chặt chẽ, bạn sẽ có thể tăng thời gian lưu lại website của người xem, đồng thời giảm tỷ lệ thoát khỏi website. Thứ hai, Internal Linking(liên kết nội bộ) giúp bạn có được các backlinks (liên kết trả về) từ những trang sao chép nội dung. Cuối cùng, Internal Linking( liên kết nội bộ) cũng có thể giúp bạn lấy người từ những website sao chép nội dung. Nếu bạn là 1 blogger lâu năm, bạn sẽ hiểu cách để chèn các Internal Linking (liên kết nội bộ) sao cho phù hợp, tăng sức hấp dẫn để người xem click vào nó. Nếu bạn làm tốt điều đó, người xem của trang sao chép nội dung sẽ bị thu hút và chuyển hướng sang website của bạn.
- Tự động chèn link vào từ khóa với Affiliate Links– Có một vài plugin hỗ trợ tự động chèn link vào từ khóa với Affiliate Links như Ninja Affiliate và SEO Smart Links sẽ tự động thay thế các keywords được gán bằng các Affiliate Links. Ví dụ: HostGator, StudioPress, MaxCDN, Gravity Forms << Tất cả keywords này sẽ được tự động thay thế bằng các Affiliate Links khi bài đăng này được publish.
- Hãy sáng tạo với RSS Footer – Bạn có thể sử dụng RSS Footer hoặc sử dụng Plugin SEO WordPress : Yoast để thêm các mục tùy chỉnh vào RSS Footer. Bạn có thể tùy ý thêm tất cả những gì bạn muốn vào đây. Ví dụ như những người thích được quảng bá sản phẩm nên họ dùng 1 banners tại RSS footer. Và dĩ nhiên, những banners đó cũng sẽ xuất hiện trên trang sao chép nội dung. Chúng tôi thì có phương pháp thêm một phần nhỏ về quyền sở hữu ở cuối bài post trong RSS feeds, kiểu như “Cách để biến trang web wordpress thành trạng thái chỉ đọc dành cho việc di chuyển trang và bảo trì trang web là một bài viết của cunghocwp.com, không được sao chép trên các trang web khác”. Bằng cách này, chúng tôi sẽ có một backlink đến bài viết gốc từ web đang sao chép nội dung, các trang tìm kiếm cũng biết chúng tôi là chủ sở hữu nội dung . Đồng thời những người xem trên site sao chép nội dung cũng sẽ biết bài post này được sao chép từ nội dung của chúng tôi. Nếu bạn giỏi về code bạn có thể thêm các tùy chỉnh khác. Ví dụ như chỉ thêm các bài viết liên quan trong website của bạn. Và hàng loạt các cách tùy chỉnh khác. Kiểm tra hướng dẫn của chúng tôi để hoàn thành thao tác với nguồn cấp dữ liệu RSS WordPress.
Làm thế nào để ngăn chặn và giảm việc bị sao chép nội dung Blog?
Sử dụng tất cả các phương pháp đã được đề xuất trên của chúng tôi, hoặc bạn cũng có thể dùng gợi ý của Jeff để chuyển hướng nội dung cho những trang sao chép nội dung Blog này để ngăn chặn việc bị đánh cắp nội dung. Ngoài ra đây là vài thủ thuật khác mà bạn có thể sử dụng:
Full RSS Feed hay Summary RSS Feed
Rất nhiều bài viết tranh luận về việc lựa chọn Full RSS Feed (hiển thị post đầy đủ cho dữ liệu feed) hay Summary RSS Feed (mô tả ngắn cho dữ liệu feed). Nhưng chúng tôi sẽ không đi sâu vào chi tiết đó. Tuy nhiên dùng phương pháp Summary RSS Feed (mô tả ngắn cho dữ liệu feed) cũng có thể giúp bạn ngăn chặn việc bị sao chép nội dung. Bạn có thể thay đổi cài đặt RSS Feed thành Summary RSS Feed (mô tả ngắn cho dữ liệu feed) bằng cách truy cập WordPress admin của bạn và vào phần Settings » Reading. Sau đó thay đổi cài đặt thành (mô tả ngắn cho dữ liệu feed)
Lưu ý: Chúng tôi dùng Full RSS Feed(hiển thị post đầy đủ cho dữ liệu feed) vì chúng tôi quan tâm nhiều hơn đến RSS Readers của chúng tôi hơn là những Spammers.
Trackbacks SPAM
Trackbacks và Pingbacks thật sự có công dụng thật tuyệt vời. Tuy nhiên, hiện tại chúng bị lạm dụng trở thành công cụ của việc sao chép. Thông thường themes hiển thị trackback và pingback ở dưới hoặc trong các bình luận. Điều này mang lại cho Spammer cách để sao chép nội dung và gửi 1 pingbacks bên dưới comments. Nếu bạn phê duyệt nhầm comments thì họ sẽ nhận được một backlinks từ trang web của bạn. Đây cũng là cách bạn có thể vô hiệu hóa Trackbacks trên tất cả các bài viết. Và đây là một bài viết sẽ chỉ cho bạn cách vô hiệu hóa trackback và pingback trên các bài đăng WordPress hiện có.
*trackbacks là việc thông báo cho người khác về việc bạn kết nối bài viết/website đến họ.
*Pingback là một chức năng thông báo trong phần comment của WordPress giúp tác giả biết được ai đã gắn liên kết (link) về bài viết của mình.
Sao chép nội dung có tốt không?
Trong một vài trường hợp, dĩ nhiên nó tốt nếu bạn có tiền từ những trang sao chép nội dung Blog này, hoặc bạn có 1 lượng traffic từ họ. Bạn luôn cố gắng kiểm soát nội dung của mình. Tuy nhiên khi website đã trở nên lớn hơn thì rất khó để ngăn chăn sao chép nội dung. Chúng tôi vẫn gửi khiếu nại đến DMCA. Tuy nhiên, chúng tôi cũng biết rằng hiện có rất nhiều trang web ăn cắp nội dung của chúng tôi nhưng chúng tôi không biết được.
Quan điểm của bạn là gì? Bạn có sử dụng bất kỳ cơ chế nào khác để ngăn chặn sao chép nội dung? Chúng tôi muốn được nghe những suy nghĩ của bạn.