MÁY TÌM KIẾM TRONG INTERNET


I. Giới thiệu về cấu trúc của máy tìm kiếm

        Bất kì một máy tìm kiếm nào cũng có 3 thành phần chính:

        Ðầu tiên, đó là chương trình thu thập các thông tin trên web và ghi vào cơ sở dữ liệu của mình. Chương trình này thường được gọi là spider (con nhện). Ðầu tiên, "con nhện" này sẽ ghé thăm một trang web nào đó, sau đó lần theo những địa chỉ được kết nối trong trang này và đi tới các trang khác. Quá trình này diễn đi diễn lại rất nhiều lần. Thông thường, "con nhện" sẽ ghé thăm lại các trang có trong cơ sở dữ liệu của nó sau 1 hoặc 2 tháng để cập nhật các thông tin mới.

        Cơ sở dữ liệu: Tất cả các thông tin mà con nhện thu nhận được ở trên sẽ được ghi thành một cơ sở dữ liệu nào đó. Cơ sở dữ liệu này, (đôi khi còn được gọi là catalog) rất giống một quyển sách lớn, một quyển từ điển thực sự chứa bản sao của tất cả các trang web được tìm thấy. Khi các trang web có thay đổi, cơ sở dữ liệu sẽ được cập nhật lại. Không phải tất cả các thông tin mà con nhện tìm thấy đều sẽ được đưa vào cơ sở dữ liệu tìm kiếm ngay lập tức, nó cần có thời gian để làm việc này. Vì thế, một trang web có thể đã được tìm thấy nhưng chưa chắc đã được đánh chỉ mục ngay lập tức.

        Thành phần cuối cùng của máy tìm kiếm, đóng vai trò rất quan trọng trong việc vận hành các máy này đó là một phần mềm tìm kiếm. Các phần mềm tìm kiếm trên web (thường được gọi là các máy tìm kiếm hay các công cụ tìm kiếm) thực chất là các trình quản lý cơ sở dữ liệu được phát triển qua nhiều năm và cho tới nay được mở rộng khả năng, cho phép người sử dụng truy nhập thông qua Internet hoặc là những chương trình quản lý cơ sở dữ liệu được phát triển theo một hướng đặc biệt để có thể sử dụng trong môi trường Internet. Ðã có một số công ty hoặc cá nhân đã tạo giao diện Web, cho phép trình duyệt Web giao tiếp với các máy tìm kiếm. Bên cạnh đó một vài tính năng mới cũng đã được trang bị cho các máy tìm kiếm bao gồm:

        * Quản lý các cơ sở dữ liệu có cấu trúc trường (ví dụ như: Foxpro), quản lý các các cơ sở dữ liệu dạng văn bản (ví dụ như: Excite)hay những cơ sở dữ liệu có cả hai dạng cấu trúc trên (ví dụ như WAIS).

        * Quản lý các cơ sở dữ liệu quan hệ (ví dụ như Dbase) quản lý các cơ sở dữ liệu có file chỉ mục (file chứa các từ đã được đánh chỉ mục) nhưng vẫn lưu giữ file nguồn ở một thư mục nào đó trong máy tính hay quản lý cơ sở dữ liệu có file chỉ mục (chứa các từ đã được đánh chỉ mục) nhưng vẫn lưu file nguồn ở trong một file dữ liệu duy nhất hỗ trợ nhiều hệ điều hành (chẳng hạn như UNIX, Windows NT, Windows 95).

        * Có thể truy nhập được thông qua nhiều dạng giao diện, kể cả trình duyệt Web, thông qua Telnet, thông qua kết nối modem, kết nối sử dụng giao diện GUI của Windows ...

        Trong bài viết này, chúng ta sẽ quan tâm nhiều hơn tới các phần mềm được phát triển để quản lý và thực hiện tìm kiếm trên cơ sở dữ liệu gồm cả hai dạng: cấu trúc trường và các đoạn văn bản.

    Ðánh chỉ mục

        Trước khi được đưa vào để thực hiện công việc tìm kiếm, các cơ sở dữ liệu của chương trình nhất thiết phải được đánh chỉ mục. Ðánh chỉ mục là quá trình thực hiện công việc tìm kiếm trên tất cả các tài liệu được đưa vào tìm kiếm và tạo ra một file chứa các cụm từ được tìm thấy trong những tài liệu đó. Tất nhiên là chỉ mục được đưa ra cũng bao gồm một con trỏ để trỏ tới tài liệu gốc hoặc vị trí của tài liệu gốc trong file cơ sở dữ liệu. Ðiều này cho phép người sử dụng thực hiện việc tìm kiếm một trên một cụm thông tin và nhận lại danh sách các tài liệu có chứa cụm từ này. Các máy tìm kiếm trên Internet thường phải chứa một lượng thông tin khổng lồ cần phải tìm kiếm, vì vậy chúng có thể có hoặc không có những chức năng sau:

    * Thực hiện đánh chỉ mục tất cả các file và thư mục
    * Tự động đánh chỉ mục tất cả các thư mục con bên trong thư mục cần đánh chỉ mục
    * Cho phép đánh chỉ mục với chỉ một số file có phần mở rộng xác định nào đó
    * Ghi nhận từ báo hiệu kết thúc
    * Thêm chỉ mục (khi có một file mới được thêm vào danh sách các tài liệu cần được tìm kiếm, hệ thống không phải tạo lại tệp chỉ mục)
    * Ðánh chỉ mục động (tài liệu có thể được đánh chỉ mục trong khi người sử dụng vẫn đang thực hiện tìm kiếm thông tin trên tài liệu này)
    * Tự động thực hiện đánh chỉ mục khi không có người sử dụng
    * Thực hiện đánh chỉ mục xuyên qua các máy chủ hoặc xuyên qua các mạng
    * Kết hợp các file chỉ mục lại với nhau
    * Ðánh chỉ mục cả một số tài liệu được lưu trữ dưới các dạng khác nhau: HTML, ASCII, PDF, DOC ...
    * §¸nh chØ môc c¸c thÎ HTML: meta, head, body, title, hay c¸c thÎ ghi chó.

    Tìm kiếm

        Sau khi các khi các cơ sở dữ liệu đã được đánh chỉ mục, người lập trình sẽ tạo ra một mẫu (form) hoặc một script nào đó để cho phép người sử dụng có thể thực hiện nhập dữ liệu để tìm kiếm. Khả năng tìm kiếm trên cơ sở dữ liệu của các máy tìm kiếm sẽ rất khác nhau, ngay cả khi người lập trình cũng sử dụng cùng một cấu hình máy. Sự khác nhau này thường phụ thuộc vào việc cơ sở dữ liệu được đánh chỉ mục như thế nào và giao diện được thiết kế như thế nào. Trong một số trường hợp, những máy tìm kiếm chỉ thực hiện việc đánh chỉ mục hệ thống các cơ sở dữ liệu của họ, còn việc cài đặt giao diện hoặc viết các thủ tục tìm kiếm sẽ do một công ty thứ ba hoặc do một ai đó sẽ tạo ra. Tuy nhiên, mặc dù cùng một hệ thống cơ sở dữ liệu, tuy nhiên khả năng thực hiện tìm kiếm của các chương trình cũng khác nhau khá xa. Ðiều này phụ thuộc vào những gì mà người lập trình cài đặt thêm vào bên trong đoạn mã tìm kiếm của họ. Tuỳ từng trường hợp mà lập trình viên có thể thiết kế để cài đặt hoặc không cài đặt những chức năng sau:

        * Sử dụng ngôn ngữ tự nhiên. Khả năng này cho phép người sử dụng nhập vào một câu hỏi hay một cụm từ mô tả một cách tốt nhất chủ đề mà họ đang cần tìm.

        * Chấp nhận các toán tử logic (AND, OR, NOT). Các toán tử này cho phép người sử dụng tìm địa chỉ các tài liệu có chứa tất cả các cụm từ (AND) hoặc các tài liệu có chứa một trong các cụm từ được nhập vào (OR) hoặc khi tài liệu chứa một cụm từ này nhưng không chứa bất kì cụm từ nào khác trong các cụm từ đã được nhập vào.

        * Chấp nhận các toán tử xấp xỉ: chức năng này sẽ cho phép những người sử dụng thực hiện tìm kiếm một cụm từ trong các cụm từ gồm rất nhiều ký tự. (Ðiều này tương tự như khi bạn sử dụng các dấu "?" và dấu "*" trong khi tìm kiếm file). Với cách này, người sử dụng có thể tìm được những từ mà họ không biết chính xác cách viết của nó. Dấu "?" được dùng để thế chỗ một kí tự còn dấu "*" được dùng để thế chỗ cho một chuỗi ký tự. Chẳng hạn như (phép tìm kiếm với chuỗi "Anders?n" có nghĩa là thực hiện tìm chuỗi "Anderson" hay "Andersen"... Tìm kiếm với cụm "dark*" có thể nhận về kết quả có chứa darker, darkness, darkest...)

        * Tìm kiếm cụm từ: cho phép người sử dụng tìm chính xác cụm từ.

        * Tìm kiếm các từ gần nghĩa: sử dụng một toán tử để thaythế cụm cần tìm bằng các cụm từ gần nghĩa hoặc cung cấp cho người sử dụng một bảng các cụm từ gần nghĩa, hay các cụm từ cùng chủ đề.

        * Tìm chính xác cụm từ: cho phép ngưới sử dụng tìm kiếm nguyên văn cụm từ giống hệt cụm được nhập vào (chữ hoa và chữ thường được coi là khác nhau).

        * Tìm kiếm mờ: trả về các từ có cách phát âm gần giống với cụm từ được nhập vào.

        * Chấp nhận các toán tử chỉ khoảng cần tìm: cho phép trả về danh sách các giá trị tìm được trong khoảng.

        * Tìm kiếm theo trường: cho phép người sử dụng chỉ thực hiện tìm kiếm trên một trường hay một số trường nhất định nào đó của cơ sở dữ liệu.

        * Tìm kiếm tương tự: cho phép người sử dụng tìm những tài liệu tương tự như tài liệu đã được tìm thấy.

        Ngoài ra, các máy tìm kiếm thường cho phép người sử dụng dùng thêm những chức năng sau:

        * Lựa chọn để thực hiện tìm kiếm trên một hoặc nhiều cơ sở dữ liệu khác

        * ấn định số kết quả tối đa được trả về.

        * Lựa chọn giữa dạng tìm kiếm thông thường hay dạng tìm kiếm với những chức năng nâng cao (advance)

    Hiển thị kết quả

        Sau khi cơ sở dữ liệu đã được tìm kiếm, kết quả phải được trả về trong một dạng nào đó. Khuôn dạng này có thể chứa một số thông tin sơ bộ mô tả về từng địa chỉ được tìm thấy để người sử dụng quyết định nên xem địa chỉ nào. Dựa trên cơ sở việc đánh địa chỉ và tìm kiếm được thực hiện như thế nào mà kết quả tìm kiếm được trả về có thể khác nhau, chúng có thể có hoặc không cung cấp thêm những thông tin sau:

* Tiêu đề của tài liệu được tìm thấy
* Tác giả của tài liệu này
* Một số mô tả sơ bộ về nội dung tài liệu
* Kích thước tài liệu
* Ðộ chính xác so với cụm từ được người sử dụng nhập vào
* Số tài liệu thoả mãn yêu cầu được tìm thấy
* Cụm từ và các toán tử đã được sử dụng để tìm kiếm
* Ngày tháng dữ liệu được tạo hay được đánh địa chỉ
* Cụm từ tìm kiếm được có thể được đánh dấu đặc biệt để làm nổi bật lên trong văn bản

II. Những máy tìm kiếm lớn

        Việc nghiên cứu cấu trúc, kỹ thuật cũng như so sánh hoạt động giữa các máy tìm kiếm sẽ đem lại cho chúng ta một số thông tin bổ ích và khá thú vị. Tuy nhiên, trong phần đầu tiên của mục này, chúng ta sẽ chỉ điểm qua sơ lược danh sách một số máy tìm nổi tiếng và quá trình phát triển của chúng.

    #AltaVista (địa chỉ http://altavista.digital.com/)

        Ðược đưa vào sử dụng từ tháng 12-1995 và nhanh chóng thu hút được rất nhiều người sử dụng. Từ tháng 6-1996, Altavista cộng tác với Yahoo (một máy tìm kiếm khác - sẽ nêu chi tiết hơn trong phần sau) trong lĩnh vực tìm kiếm thông tin. Ðôi khi, khi bạn thực hiện tìm kiếm thông tin với một số từ khoá nào đó, nếu như kết quả trả về quá ít Yahoo sẽ khuyên bạn tiếp tục thực hiện tìm kiếm với Altavista.

    #AOL NetFind (địa chỉ http://www.aol.com/netfind/)

        Ðược bắt đầu từ tháng 3 năm 97, AOL NetFind là một phiên bản mới của hệ thống tìm kiếm Excite. Tuy có một cái tên mới và một giao diện khác hẳn so với Excite, nhưng thành phần cơ bản bên trong của AOL Netfind vẫn là Excite. (Hình 2: giao diện của AOL Netfind trên Internet vào tháng 3 - 98)

    #Excite (địa chỉ http://www.excite.com/)

        Ði vào hoạt động từ cuối năm 1995, Excite lớn mạnh rất nhanh và đã chiến thắng được hai đối thủ của mình trong quá trình cạnh tranh. Tháng 7 năm 1996, Excite mua Magellan. Tháng 11 năm 1996, Excite thâu tóm được WebCrawler,
tuy vậy hai máy tìm kiếm này vẫn tiếp tục được phục vụ như một dịch vụ riêng biệt. Excite liệt kê các địa chỉ theo 1 trong 3 cách sau: Excite Search, Channels By Excite và Excite NewsTracker. Excite Search có nhiệm vụ thực hiện tìm kiếm trong các máy tìm kiếm nội bộ sau đó trả lại kết quả. Channels By Excite sẽ liệt kê các địa chỉ theo các chủ đề nào đó. Còn Excite NewsTracker có một nhiệm vụ khác. Dịch vụ này cung cấp cho người sử dụng khả năng tìm kiếm thông tin trên các usenet và đặc biệt là các news server. (Hình 3: giao diện của Excite tại địa chỉ www.excite.com)

    #Infoseek (địa chỉ http://www.infoseek.com/)

        Ðược mở vào khoảng đầu năm 1995, Infoseek là một trong những máy tìm kiếm nổi tiếng, hiệu quả và có tốc độ kết nối rất tốt. Trong những tháng đầu tiên, cơ sở dữ liệu của Infoseek mới chỉ có khoảng 1 -2 triệu địa chỉ. Nhưng cho đến cuối năm 1996, con số này đã lên tới 50 triệu và không ngừng tăng lên. Infoseek thực hiện việc tìm kiếm của mình trên một thư mục khác hẳn với thư mục có chứa máy tìm kiếm của nó. Các địa chỉ được liệt kê theo chủ đề và được tự động sắp xếp nhờ một phần mềm phân loại riêng. Những địa chỉ có một dấu check mark đỏ đi kèm là những địa chỉ đã được xác định là có nội dung hay và phong phú, được dùng để giới thiệu với những người sử dụng.

    #LookSmart (địa chỉ http://www.looksmart.com/)

        LookSmart đi vào phục vụ từ tháng 10 năm 1996. Hệ thống tìm kiếm này đã tìm được đồng minh của mình và bắt đầu nổi bật lên từ khi được đặt trong trang Net Search của Netscape. Bên cạnh chức năng xem xét tren các danh sách có sẵn LookSmart cũng cung cấp dịch vụ tìm kiếm dựa trên công nghệ của AltaVista. Ðầu tiên, LookSmart có giao diện được viết bằng Java nhưng sau đó, để giảm thời gian tải trang, giao diện này đã bị gỡ bỏ và thiết kế lại trong tháng 6 năm 1997.

    #Lycos (địa chỉ http://www.lycos.com/)

        Lycos là một trong những máy tìm kiếm nổi tiếng được phát triển sớm nhất - nó được bắt đầu vào khoảng tháng 5 năm 1994. Lycos được bắt đầu từ một đề án của trường đại học Carnegie Mellon. Cái tên Lycos được lấy từ tiếng latinh "wolf spider". Có hai cách chính liệt kê các địa chỉ được Lycos sử dụng, đó là liệt kê các địa chỉ được tìm thấy bởi hệ thống máy tìm kiếm kết hợp với một thư mục các địa chỉ, được gọi là "Web Guides." Hệ thống "Wev Guides" được thêm vào như là một dịch vụ của Lycos bắt đầu từ tháng 2 năm 1996, với tên gọi đầu tiên là "A2Z". Hiện nay ngoài các dịch vụ này, Lycos cũng cung cấp một dịch vụ khác được gọi là "Top 5%". Dịch vụ này sẽ đưa cho người dùng những địa chỉ web hay nhất. Với dịch vụ này, người sử dụng có thể tìm hay chọn những địa chỉ web được đánh giá tốt theo ngày tháng, chủ đề, thiết kế hay theo thứ tự ab... Ðây là một trong những dịch vụ khá hay nhưng không có mặt ở hầu hết các máy tìm kiếm khác.

    #Search.com (địa chỉ http://www.search.com/)

        Hệ thống tìm kiếm tại địa chỉ search.com được đưa vào hoạt động từ tháng 3 -1996, đây là một trong số nhiều dịch vụ khá nổi tiếng của mạng CNET. Tháng 5 năm 1997, hệ thống này bắt đầu có những thay đổi cơ bản, nó trở thành một phiên bản của máy tìm kiêms Infoseek, và có giao diện khác hẳn với giao diện được sử dụng trước đó. Có một dấu hiện để nhật biết sự khác nhau giữa Search.com và Infoseek. Trong khi thực hiện những yêu cầu tìm kiếm chung chung, Search.com sử dụng cơ sở dữ liệu của Infoseek, nhưng nó lại sử dụng cơ sở dữ liệu của riêng mình để thực hiện tìm kiếm theo các chủ đề.

#WebCrawler (địa chỉ http://www.webcrawler.com/)

        WebCrawler bắt đầu cho phép sử dụng từ ngày 20 tháng 4 năm 1994. Ðây là một đề tài của đại học Washington. America Online đã mua dịch vụ này vào tháng 5 năm 1995 và hệ thống này nhanh chóng trở thành máy tìm kiếm được ưa chuộng nhất cho tới tận tháng 11 năm 1996. Ðó là thời điểm cạnh tranh giữa Excite và WebCrawler. Cuối cùng, công ty WebCrawler đã thua nhưng hiện nay vẫn được hoạt động độc lập theo một cơ sở dữ liệu riêng.

#Yahoo (địa chỉ: http://www.yahoo.com/)

        Bắt đầu từ cuối năm 1994, Yahoo là một trong những hệ thống thư mục web site phát triển lâu nhất. Yahoo nổi tiếng, được sử dụng rộng rãi và được chú ý tới nhiều nhất. Vào giữa năm 1997, Yahoo đã sắp xếp và phần loại được hơn 500.000 địa chỉ web trong cơ sở dữ liệu của mình. Vì cơ chế hoạt động của Yahoo là thư mục các địa chỉ dựa trên sự đóng góp của người sử dụng, chính vì thế, có nhiều địa chỉ trong danh sách của các chương trình thu thập dữ liệu trên mạng không có trong Yahoo. Chính vì thế, khi bạn thực hiện tìm kiếm trong Yahoo nhưng không thu được một địa chỉ hữu ích nào, bạn sẽ cần tới một máy tìm kiếm thực sự - đây cũng chính là lý do hình thành sự hợp tác gữa AltaVista và Yahoo. Nhưng khi bạn thực hiện tìm kiếm trên cơ sở dữ liệu của Altavista bằng cách nhấn vào mục "Go to Altavista" không có nghĩa là bạn sẽ nhảy tới trang web của Altavista mà ngược lại, thông tin của Altavista trả về sẽ đi theo một đường riêng và được hiển thị như một phần trang web của Yahoo.

III. Các máy tìm kiếm đánh giá địa chỉ như thế nào?

        Khi nhận được lệnh tìm kiếm theo một số từ khoá nào đó, gần như ngay lập tức, máy tìm kiếm sẽ lướt qua hàng triệu trang web nó biết để lấy ra cho bằng được một vài trang phù hợp với yêu cầu của bạn. Những trang web được tìm thấy ở đây có thể được đánh giá và xếo hạng, chính vì thế, những trang web gần với yêu cầu nhất sẽ được đưa ra trước. Tất nhiên, các máy tìm kiếm không phải lúc nào cũng đúng, một vài trang với chủ đề lạc lõng nào đó có thể được đưa ra tuy nhiên, trong hầu hết các trường hợp, máy tìm kiếm đã thực hiện một công việc khá tuyệt vời.

        Hãy giả sử như bạn đi đến một thư viện rộng lớn và nói với người quản lý thư viện một từ duy nhất "du lịch", họ sẽ làm gì để tìm ra các cuốn sách mà bạn yêu cầu?... Khác với những người quản lý thư viện, các máy tìm kiếm không có khả năng hỏi bạn một số câu hỏi nào đó để xác định rõ trọng tâm của vấn đề bạn quan tâm. Và tất nhiên, những máy này cũng không thể dựa vào sự phán đoán qua những kinh nghiệm tìm kiếm trước đó giống như con người có thể làm. Một chương trình thông minh sẽ giải quyết vấn đề này nhưng quả thực là nó còn phải được cải tiến rất nhiều.

        Theo bạn thì các máy tìm kiếm có thể đánh giá độ chinh xác của các địa chỉ theo cách nào? Nó sẽ thực hiện đánh giá theo một số quy luật nhất định, trong đó quy luật chính là dựa vào vị trí cũng như tần số xuất hiện của từ khoá bên trong tài liệu.

    Vị trí, vị trí, vị trí... và tần số

        Bạn còn nhớ người quản lý thư viện ở phía trên chứ? Anh bạn này cần phải đi tìm những quyển sách ứng với chủ đề yêu cầu của bạn: "du lịch". Nếu như có một chút kinh nghiệm , anh chàng này sẽ tìm các quyển sách mà tiêu đề có chứa từ khoá mà bạn yêu cầu "du lịch". Các máy tìm kiếm cũng được thiết kế để hoạt động theo một cách tương tự, những trang web có từ khoá xuất hiện ở dòng tiêu đề sẽ được đánh giá là gần sát nhất so với những trang khác.

        Không những thế, các máy tìm kiếm còn thực hiện tìm kiếm để xác định xem từ khoá bạn tìm có xuất hiện ở gần phần đầu của trang web không (chẳng hạn như các dòng tiêu đề hoặc vài dòng đầu tiên của đoạn văn bản). Suy đoán này tương đối đơn giản và logic bởi vì nó cho rằng, những trang gần sát với yêu cầu của bạn sẽ có từ khoá xuất hiện ở ngay những dòng đầu.

        Tần số xuất hiện từ khoá trong tài liệu tìm được là một trong những nhân tố quam trọng được các máy tìm kiếm sử dụng để đánh giá các địa chỉ. Tất nhiên là những trang web nào có tần số xuất hiện từ khoá (hay các từ liên quan tới chủ đề mà từ khoá yêu cầu) sẽ được đánh giá cao hơn các trang khác.

    Thêm gia vị cho các công thức

        Bây giờ là lúc để đánh giá chất lượng của hai phương pháp, vị trí và tần số được mô tả ở phía trên. Tất cả các máy tìm kiếm nổi tiếng đều áp dụng các cách này nhưng theo một mức độ khác nhau, và thường thêm vào một số thành phần bí mật riêng. Ðiều này giúp ta giải thích được vì sao cùng một cơ sở dữ liệu mà các máytìm kiếm lại đưa ra những kết quả hết sức khác nhau. Chẳng hạn như WebCrawler cho phép các trang web tự quảng cáo rùm beng cho chính mình bằng cách hiển thị số địa chỉ đặt link tới trang này và coi đây như một phương pháp đánh giá ngang ngửa với hai cách đánh giá đã nêu ở phần trước. Xét cho cùng thì phương pháp này cũng có phần hợp lý của nó: những trang web nào được nhiều trang khác trỏ tới thường là những trang thu hút được nhiều chú ý nhất trên Internet. Với một số máy tìm kiếm khác, những địa chỉ nào đã được họ xem xét, kiểm tra và đánh giá lại thường được ưu tiên hơn trong khi xếo hạng bởi vì theo họ, những trang web đủ hay để họ bỏ công xem xét phải được ưu tiên hơn.

        Các thẻ META trong ngôn ngữ đánh dấu siêu văn bản HTML thường bị các nhà thiết kế web lãng quên lại là một trong những vũ khí bí mật để các trang web được đẩy tới đầu danh sách trong bảng xếp hạng. Nhưng không phải tất cả các máy tìm kiếm đều sử dụng cơ chế này. Ví dụ như: HotBot và Infoseek dành một ít thiên vị cho các trang web có từ khoá được đặt thẻ META lúc xếp hạng nhưng Excite lại chẳng quan tâm đến các thẻ này một chút nào, trong hệ thống này, những trang web không có thẻ META vẫn có thể có được những thứ hạng cao.

        Ngoài ra, để chống việc gian lận, các máy tìm kiếm cũng thực hiện việc phát hiện và loại bỏ những trang có cùng địa chỉ được đặt nhiều lần (nhằm khả năng xếp hạng và đánh giá cao của máy tìm) vào cơ sở dữ liệu của họ, hoặc chẳng hạn như một từ khoá được xuất hiện hàng trăm lần trong một trang, trên một dòng... để tăng tần số xuất hiện của từ trong văn bản để kiếm được thứ hạng cao. Các máy tìm kiếm sẽ kiểm tra độ lặp với một số cách thức riêng hoặc kiểm tra các địa chỉ theo thư phàn nàn của người sử dụng.