Web crawler còn được gọi là Web robot hoặc Web spider (trình thu thập thông tin web) là một chương trình tự động duyệt qua cấu trúc siêu văn bản của Web bằng cách truy xuất một tài liệu và truy xuất đệ quy tất cả các tài liệu được tham chiếu. Trình thu thập thông tin web thường được sử dụng làm công cụ khám phá và truy xuất tài nguyên cho các công cụ tìm kiếm Web như Google, Baidu, v.v ...
Nhưng việc trình thu thập thông tin tự động truy cập vào các trang Web cũng gây ra nhiều vấn đề. Thứ nhất, xét về bí mật kinh doanh, nhiều trang web thương mại điện tử không hy vọng các trình thu thập thông tin trái phép lấy thông tin từ trang web của họ. Thứ hai, nhiều trang web Thương mại điện tử cần phân tích hành vi duyệt của khách truy cập, nhưng phân tích như vậy có thể bị bóp méo nghiêm trọng do sự hiện diện của trình thu thập dữ liệu Web. Thứ ba, nhiều trang web của chính phủ cũng không hy vọng thông tin của họ được các trình thu thập thông tin thu thập và lập chỉ mục vì một lý do nào đó. Thứ tư, các trình thu thập dữ liệu được thiết kế kém thường ngốn nhiều tài nguyên mạng và máy chủ, ảnh hưởng đến việc truy cập của những khách hàng bình thường. Vì vậy, người quản lý trang Web cần phát hiện các trình thu thập dữ liệu Web từ tất cả những người truy cập và thực hiện các biện pháp thích hợp để chuyển hướng các trình thu thập dữ liệu Web hoặc ngừng phản hồi.
Tài liệu tham khảo
1. W. Guo, Y. Zhong and J. Xie, "A Web Crawler Detection Algorithm Based on Web Page Member List," 2012 4th International Conference on Intelligent Human-Machine Systems and Cybernetics, 2012, pp. 189-192, doi: 10.1109/IHMSC.2012.54.
2. Soumen Chakrabarti, Martin van den Berg, Byron Dom, Focused crawling: a new approach to topic-specific Web resource discovery, Computer Networks, Volume 31, Issues 11–16, 1999, Pages 1623-1640, ISSN 1389-1286, https://doi.org/10.1016/S1389-1286(99)00052-3.