Lucene làm được gì?

Những người mới bắt đầu làm quen với Lucene thường nhầm lẫn nó là ứng dụng sẵn sàng để sử dụng, như một chương trình tìm kiếm file, một web crawler, một web search engine, đó đều không phải là Lucene. Lucene đơn thuần là một thư viện phần mềm, một bộ công cụ chứ không phải là một ứng dụng tìm kiếm có đầy đủ tính năng. Nó tập trung vào 2 quá trình indexing và searching và nó thực hiện 2 công việc này rất tốt, ngoài ra nó không hỗ trợ gì hơn. Lucene cho phép ứng dụng tự do làm việc với những qui luật nghiệp vụ đặc thù, trong khi giấu đi sự phức tạp đối với indexing và searching bên dưới các API đơn giản để sử dụng. Lucene là phần lõi và chương trình tìm kiếm là vỏ bọc bên ngoài.

Lucene có thể đánh chỉ mục và làm cho văn bản được rút trích trở nên tìm kiếm được. Như hình 1 đã cho thấy, Lucene không quan tâm đến nguồn dữ liệu là gì, định dạng của nó ra sao, hay ngôn ngữ của nó là gì, miễn là có cách nào đó để tách phần văn bản ra từ nó. Điều đó có nghĩa là không có vấn đề gì trong việc đánh chỉ mục và tìm kiếm dữ liệu lưu trong các file: trang web từ xa, tài liệu trong hệ thống file cục bộ, các file text đơn giản, tài liệu Microsoft Word, file XML, HTML hoặc PDF, hay những định dạng nào mà có thể cung cấp thông tin văn bản, như tin nhắn, email, các đoạn chat, trang Wiki, mailling list.

Tương tự, với sự giúp đỡ của Lucene, người dùng có được sự trải nghiệm phong phú trong việc tìm kiếm toàn văn mà nhiều database không hỗ trợ hoặc hỗ trợ ở mức căn bản có giới hạn. Một khi tích hợp Lucene, người dùng có thể thực thi tìm kiếm bằng các câu truy vấn như +George +Rice -eat –pudding, Apple -pie +Tiger, animal:monkey AND food:banana.

  1. No comments yet.

  1. No trackbacks yet.