Search engine
|
Các quá trình hoạt động của một search engine |
Search engine là một hệ thống truy vấn thông tin trên máy tính. Các thông tin này có thể tồn tại ở nhiều dạng, như hình ảnh, âm thanh, nhưng đa số là văn bản (email, tài liệu, ebook, trang web). Text search engine sử dụng kỹ thuật full text search, cho phép người dùng nhập vào một vài từ khóa và tìm những văn bản nào có chứa những từ khóa này. Về cơ bản, những engine như vậy đều hoạt động dựa trên 3 quá trình: - Crawling (Raw Content à Acquire Content à Build Document): Thu thập văn bản từ các dữ liệu dạng thô. - Indexing (Analyze Document à Index Document): Tìm các từ khóa đặc trưng cho văn bản. - Searching (User Interface à Build Query à Run Query à Render Results): So khớp từ khóa do người dùng nhập vào với từ khóa đặc trưng để chọn lọc văn bản phù hợp. |
Search engine có mặt ở khắp mọi nơi và có qui mô rất khác biệt nhau. Những general-purpose engine (tìm kiếm tất cả nội dung số) như Google hay Bing có cả trăm ngàn máy chủ hoạt động trên môi trường phân tán, mỗi cụm máy chủ chỉ đảm nhiệm duy nhất một phần công việc cho một quá trình. Ngược lại, những vertical-purpose engine (tìm kiếm đối tượng dữ liệu trên một lĩnh vực cụ thể) thì nhỏ bé hơn, có thể chạy được trên một máy tính cá nhân hoặc có thể được tích hợp vào một phần mềm, ví dụ như tìm kiếm danh bạ trong Outlook, tìm kiếm file trong Windows.

No comments yet.