Thuật ngữ

Crawling

Crawling là quá trình thu thập thông tin từ hàng tỷ trang web công khai trên internet bằng một phần mềm chuyên dụng gọi là “crawler” (hay còn gọi là “con bot”).

Những thông tin này sau đó được sử dụng để cập nhật, bổ sung và sắp xếp các trang web trong kho dữ liệu khổng lồ của công cụ tìm kiếm, gọi là “index”.

Hãy tưởng tượng internet như một mạng nhện khổng lồ, với mỗi trang web là một nút trên mạng. Các con bot của công cụ tìm kiếm giống như những chú nhện, liên tục bò dọc theo các sợi web để khám phá và thu thập thông tin từ các trang web.