1.1. Cơ chế hoạt động của bộ máy tìm kiếm

1. Các bộ phận của bộ máy tìm kiếm

Bộ thu thập thông tin – Robot (Google Bot)

Để có thể trích xuất được dữ liệu cho người dùng, Search Engine sẽ phải thu thập thông tin thông qua các con bot (spider, crawler, robot) được lập trình sẵn. Những con bot này có nhiệm vụ quét nội dung của các website. Từ đó thu thập thông tin để xây dựng thành database (cơ sở dữ liệu).

Bộ phận lập chỉ mục – Index

Google Index
Các con bot của Google sẽ tiến hành đọc và index trang web

Quá trình Index sẽ diễn ra song song cùng lúc với việc thu thập dữ liệu bao gồm các bước phân tích, lựa chọn rồi sau đó sẽ lưu trữ thông tin vào database (cơ sở dữ liệu) – đây là một siêu bộ nhớ với dung lượng đến đến hàng petabyte.

Bộ phận xử lý thanh toán

Để có thể trích xuất kết quả cho người tìm kiếm Google đã sử dựng hơn 200 yếu tố khác nhau để xếp hạng cho các website. Hai trong những yếu tố được Google đánh giá cao đó chính là chất lượng contentbacklink trên website của bạn.

2. Spider hoạt động như thế nào?

Bước 1: Tìm website thu thập thông tin

Các con bọ của Google sẽ vào website sau đó sẽ lấy danh sách máy chủ và bắt đầu cào dữ liệu (crawl) một URL ngẫu nhiên. Các bọ sẽ tiến hành index nội dung bài viết, dựa vào các keyword trong các thẻ tiêu đề (tittle), mô tả (meta description),… sau đó đánh giá mức độ liên quan của bài viết đối với truy vấn tìm kiếm của người dùng.

Bước 2: Lập chỉ mục

Các con bọ của Google sẽ tiến hành phân tích, lựa chọn. Sau đó Google sẽ lưu trữ thông tin cần thiết một cách nhanh chóng và chính xác.

Bot Google là gì
Các con bot được Google tạo ra với nhiệm vụ thu thập thông tin và lập chỉ mục

Bước 3: Xử lý thông tin

Sau khi lập chỉ mục, Google sẽ tiến hành mã hóa thông tin sau, rồi lưu trữ trong database (cơ sở dữ liệu). Nếu một người dùng nào đó search keyword liên quan đến bài viết của bạn thì Google sẽ trả về các kết quả liên quan đến truy vấn của người dùng.

Last updated