大陸國內外 FTP 搜尋引擎的分析與比較
大陸的國內外 FTP 搜尋引擎的分析與比較
陳華 李曉明 北京大學電腦科學技術系,100871 摘要 當針對HTML網頁信息的搜尋引擎紅紅火火的時候,另一種搜尋引擎也越來越受到人們的歡迎,它就是關於Web的FTP文件搜尋引擎。儘管目前相對WWW搜尋引擎而言,FTP搜尋引擎數目不多,技術上也不很成熟,但它的用戶量正在上升,越來越受到重視。本文統計研究了當前國際和國內著名的FTP搜尋引擎,從功能、數量、速度等方面進行了分析與比較,描述了FTP搜尋引擎的現狀並探討FTP搜尋引擎的發展趨勢。 關鍵字 FTP搜尋引擎 天網搜尋 信息搜尋 文件搜尋 1、引言 在英特網上存在著、流動著各種各樣的信息,例如email信息、BBS信息、OICQ信息、被HTTP伺服器管理的HTML網頁,還有被FTP伺服器管理的各種類型的文件。後者是本文關心的對象,它們的典型代表是各種學術和技術文件、電腦軟體、多媒體資料。多數FTP伺服器都開闢有一個公共訪問區,稱為「匿名FTP」,對公眾提供免費的文件信息服務。FTP搜尋引擎的功能是搜集匿名FTP伺服器提供的目錄列表,對用戶提供文件信息的查詢服務。由於FTP搜尋引擎是專門針對各種文件的,因而相對WWW搜尋引擎,尋找軟體、圖像、電影和音樂等文件使用FTP搜尋引擎將更加方便直接。 最早的FTP搜尋引擎是關於文本顯示的Archie。Archie實際上是一個大型的資料庫,再加上與這個大型資料庫相關聯的一套檢索方法。該資料庫中包括大量可通過FTP下載的文件資源的有關信息,包括這些資源的檔案名、文件長度、存放該檔案的電腦名稱及目錄名等。可以通過遠端登入到Archie主機來使用Archie伺服器,用Archie作為登入名。一旦登入成功,一個Archie程序將自動執行,這時一次輸入一條指令,告訴Archie想查尋的內容,Archie將檢索自己的資料庫並顯示檢索的結果。如果用戶對自己想要的東西並不太清楚,Archie還提供「whatis」服務項目,該服務提供成千上萬個程序、資料文件和我的文件的簡短說明。 WWW的出現改變了Archie在文件搜尋方面的統治地位,在美觀、方便的WWW頁面上搜尋ftp文件成為用戶的自然需求,即人們需要有一種關於Web的FTP搜尋引擎。在功能上,關於Web的ftp搜尋引擎與Archie基本一樣,都是對用戶提交的查詢匹配串找到可以下載的ftp站點連接。但關於Web的ftp搜尋引擎也有很多特色的功能,比如天網ftp搜尋引擎的文件分類功能就大大便利了用戶搜尋文件的程序,提高了查准率。關於Web的ftp搜尋引擎也採用了很多WWW搜尋引擎的原則,比如使用Spider自動收集資料,採用倒排索引,智能換頁連接技術以及大型ftp搜尋引擎必須採用的分佈收集和服務技術。 天網FTP搜尋引擎是北京大學電腦系網路與分佈式系統實驗室開發的一個產品,目前已經在http://bingle.pku.edu.cn/上提供服務,搜集文件資料量超過一千萬,每日用戶訪問超過40萬次,是目前國內規模最大的FTP搜尋引擎,也是國際FTP搜尋引擎中的佼佼者(試在Google查詢「ftp搜尋引擎」!)。以下我們將天網FTP搜尋引擎與多個著名的國內外FTP搜尋引擎進行分析比較,從而得到全球FTP搜尋引擎的現狀並探討其發展趨勢。 2、著名的國際國內FTP搜尋引擎 目前國內外ftp搜尋引擎已有不少,我們研究了許多FTP搜尋引擎,列出下列比較典型和著名的FTP搜尋引擎作為本文的討論對像: 國外著名的FTP搜尋引擎: 1 http://www.philes.com 號稱全球最大的FTP搜尋引擎 2 http://www.alltheweb.com/ fastsearch.com的產品,用戶有 http://www.lycos.com/ http://www.ftpsearch.net/ 3 http://www.filesearching.com/ Chertovy Kulichki Inc的產品 4 http://www.souborak.com/ internauci.pl的產品 5 http://www.ftpfind.com/ http://www.echo.fr/的產品 6 http://ftpsearch.laplink.com/ 一個很多年沒有更新資料的大型FTP搜尋引擎 7 http://parker.vslib.cz/ 作者是Technical University of Liberec Czech Republic的Jiri A. Randus,是國內大部分小型FTP搜尋引擎系統的原型。 國內使用Nosey Parker的著名FTP搜尋引擎有: 南京理工"一網打盡"搜尋引擎 http://bbs.njust.edu.cn/parker 清華ZIXIA搜尋http://search.zixia.net/Parker 清華9#搜尋引擎 http://166.111.136.3/ 幻想FTP搜尋 http://parker.5470.net.cn/ 交大思源搜尋 http://search.xjtu.edu.cn/ 全軍基因診斷技術研究所FTP引擎http://search.igd.edu.cn/ 國內著名的FTP搜尋引擎: 北大天網中英文FTP搜尋引擎 http://bingle.pku.edu.cn/ Nosey Parker家族(以下討論中我們將取清華9#作為Nosey Parker的代表): 清華9#搜尋引擎 http://166.111.136.3/ 南京理工"一網打盡"搜尋引擎 http://bbs.njust.edu.cn/parker 南京理工"輕鬆搜之" 搜尋引擎 http://sesa.nju.edu.cn/cgi-bin/parker/search 百合谷搜尋http://clilac.fmmu.edu.cn/ 清華ZIXIA搜尋http://search.zixia.net/Parker 幻想FTP搜尋 http://parker.5470.net.cn/ 交大思源搜尋 http://search.xjtu.edu.cn/ 全軍基因診斷技術研究所FTP引擎http://search.igd.edu.cn/ 夢軒FTP搜尋http://scutftp.yeah.net/ 中科大天狼中英文搜尋引擎 http://search.ustc.edu.cn/ 網路指南針 http://compass10.compass.edu.cn/ 華南理工木棉中英文搜尋引擎 http://search.cnkapok.com/ FTP星空搜尋http://www.sheenk.com/ 3、搜集文件條目資料量的比較 一個搜尋引擎是否大型,就在於其維護的信息量是否足夠。據統計,全球匿名FTP服務提供的文件條目已經超過數億,而中國國內的匿名FTP服務也提供了幾千萬的文件。由於很多搜尋引擎並沒有顯式的說明自己的資料庫究竟包含了多少個文件條目的信息,我們採用兩個通用查詢來估測搜尋引擎的資料量,一個是子串查詢Winzip,代表Windows平台常見的文件,另一個是子串查詢Linux,代表非Windows平台文件。 Ftp搜尋引擎資料量的比較: 搜尋引擎名稱 文件條目總數 站點數量 子串查詢Winzip 子串查詢Linux 天網FTP搜尋引擎 13,000,000 46065 1943 32,479 http://www.philes.com/ 209,698,206 沒有統計 2249 超過24,000 http://www.alltheweb.com/ 沒有統計 沒有統計 1700 68,000 http://www.filesearching.com/ 76,039,149 沒有統計 超過2000 超過2,000 http://www.souborak.com/ 18,216,064 2388 超過1000 超過1,000 http://www.ftpfind.com/ 沒有統計 沒有統計 3200 超過20,000 ftpsearch.laplink.com 37,813,040 2,683 898 超過10,000 清華9# Nosey Parker 沒有統計 沒有統計 205 22,875 中科大天狼搜尋 沒有統計 沒有統計 63 8,280 網路指南針 沒有統計 沒有統計 39 9,965 華南木棉搜尋 沒有統計 沒有統計 209 136,076 星空搜尋 沒有統計 沒有統計 2274 60,027 從以上統計信息可以看出,國外大型FTP搜尋引擎資料鏈一般都達到千萬條目以上,而國內FTP搜尋引擎中,只有北大天網搜尋、清華9#、華南木棉、星空搜尋可能達到了這個量級,其中又以天網搜尋星空搜尋文件數量最大,而華南木棉包含了HTTP和FTP兩個傳輸協定的文件,因而文件數目也很大。 4、FTP搜尋引擎功能選項比較 搜尋引擎是否吸引用戶,光看資料量是不夠的,因為即使在同樣的資料量下,各個搜尋引擎可以實現的資料挖掘結果各有區別,而這個就很大程度上影響了用戶找到需要的文件。 早期的Archie就已經提供了很多搜尋功能和選項,後來的FTP搜尋引擎很大程度上都是模仿了Archie,這些功能或選項包括: a、支持*,?等與或操作符 b、支持多種查詢模式,如是否大小寫區分,是否子串匹配或精確查詢等 c、支持文件時間、文件大小、最後修改時間等過濾選項 d、支持多頁面顯示查詢結果,常見的換頁方式有索引式和下一頁式 這些功能或選項是各種文件查詢系統應該支持的基本功能,我們稱之為Ftp搜尋引擎的基本功能選項。 當今的Ftp搜尋引擎技術在發展,其功能也日新月異。我們考查許多Ftp搜尋引擎,列出下列區別於基本功能選項的新功能,這些功能選項以其簡單方便成為一些Ftp搜尋引擎的亮點,我們稱之為「新興功能選項」: a、支持指定站點的站內文件查詢 b、支持結果排序,例如按時間、大小、站點等的排序 c、查詢結果中的再查詢 d、支持分類目錄,例如提供許多常用的查詢供用戶選項 e、支持查詢系統的文件分類,指在一個副檔名集內的查詢,如查電影 f、提供FTP站點在線與否的狀況顯示 g、支持在線的站點登記 h、FTP站點抓圖 Ftp搜尋引擎的基本功能選項比較: 搜尋引擎名稱 支持* ? 操作 多種查詢模式 時間大小過濾 結果換頁方式 天網FTP搜尋引擎 是 否 是 Index http://www.philes.com/ 是 否 否 Index http://www.alltheweb.com/ 是 是 是 NextPage http://www.filesearching.com/ 是 否 是 NextPage http://www.souborak.com/ 是 否 否 Index http://www.ftpfind.com/ 否 是 否 NextPage ftpsearch.laplink.com 是 否 否 否 清華9# Nosey Parker 是 否 否 NextPage 中科大天狼搜尋 是 是 否 否 網路指南針 是 是 是 NextPage 華南木棉搜尋 是 是 是 NextPage 星空搜尋 使用前後面 否 否 Index 由上表可以看出,絕大部分Ftp搜尋引擎都支持我們所指的「基本功能選項」,其中支持 * ?操作和結果換頁是最為必要的,Ftp搜尋引擎都應該支持這些功能。而多種查詢模式和時間大小過濾並不是特別需要,因為對於普通用戶而言,有最基本的功能選項就足夠了,而且檔案名大小寫以及其時間大小並不是特別確定的,不同的軟體提供者可能在同一軟體的名字和修改時間上有些改動,用戶用目視的方式可能可以得到更多的有效結果。結果換頁方式有兩種,一種是索引式,用戶可以在結果頁面裡任意挑選一頁顯示,另一種是下一頁式,用戶只能一頁一頁的向後翻才可以看到後續的結果。大部分WWW搜尋引擎都是使用了索引式換頁,因為當查詢結果有很多時,一頁一頁往下翻可能使得用戶無法跳出同一類不精確的查詢結果,而索引式換頁還可以支持用戶隨機地挑選查詢結果,比如用戶查詢*.rm,然後隨機的挑一些電影看。因此我們認為索引式的結果換頁是一種更為先進更為方便的方式。從上表可以看出,天網FTP搜尋引擎支持了大部分基本功能選項,結果換頁採用索引方式,因而使用起來是比較方便的。 Ftp搜尋引擎的新興功能選項比較(1): 搜尋引擎名稱 站內查詢 結果排序 結果中查詢 分類目錄 天網FTP搜尋引擎 是 是 是 是 http://www.philes.com/ 是 否 否 否 http://www.alltheweb.com/ 是 否 否 否 http://www.filesearching.com/ 是 否 否 否 http://www.souborak.com/ 否 否 否 否 http://www.ftpfind.com/ 是 是 否 否 ftpsearch.laplink.com 否 否 否 否 清華9# Nosey Parker 否 是 否 否 中科大天狼搜尋 否 否 否 否 網路指南針 否 否 否 否 華南木棉搜尋 是 是 否 否 星空搜尋 是 否 否 否 Ftp搜尋引擎的新興功能選項比較(2): 搜尋引擎名稱 文件分類 站點在線狀況 在線登記站點 站點抓圖 天網FTP搜尋引擎 是 是 是 否 http://www.philes.com/ 否 否 是 否 http://www.alltheweb.com/ 否 否 是 否 http://www.filesearching.com/ 是 否 否 否 http://www.souborak.com/ 否 否 是 否 http://www.ftpfind.com/ 是 否 否 是 ftpsearch.laplink.com 否 否 否 否 清華9# Nosey Parker 否 否 否 否 中科大天狼搜尋 否 否 否 否 網路指南針 否 否 否 否 華南木棉搜尋 是 否 是 否 星空搜尋 否 是 是 是 從上表可以看出,站內查詢、結果排序、文件分類和在線站點登記已經受到許多FTP搜尋引擎的重視,而結果中查詢、分類目錄、站點在線狀況分析和站點抓圖 等只有很少Ftp搜尋引擎實現了,例如天網Ftp搜尋的結果中查詢和分類目錄其他Ftp搜尋引擎都沒有實現。在這些新興功能選項裡,我們參考許多用戶的反饋和我們對天網Ftp搜尋查詢日誌的分析,認為「文件分類」和「站點在線狀況」是目前用戶最為希望能夠使用的,同時在查詢結果頁面裡面的結果排序是一種更為有效的結果排序。 5、FTP搜尋引擎速度比較: Ftp搜尋引擎的速度是十分重要的,因為搜尋引擎本身的目的就是提高用戶搜尋信息的速度。搜尋引擎的速度與系統底層的實現密切相關,一般而言,如果一個搜尋引擎底層的查詢是使用通用資料庫提供的查詢算法,則其查詢速度會慢很多,而如果採用WWW搜尋引擎常用的倒排表索引歸並算法,則可以達到在毫秒級完成千萬文件條目的查詢任務。由於我們無法得到大部分Ftp搜尋引擎底層究竟是使用了什麼查詢算法和系統,我們只能從外部來考查它的查詢速度,也就是搜尋引擎自己顯示的它所費的查詢時間。 我們用以下特別查詢來判斷搜尋引擎的速度: 1、查*.txt 代表正常的副檔名查詢 2、查ab*cd 代表*操作,是一個比較費時的查詢 3、查winzip??.exe 代表?操作,是一個比較費時的查詢 4、查windows 代表正常的子串查詢 我們同時統計了查詢的結果數目,如果系統沒有提供它所費的查詢時間,我們則僅僅統計它的查詢結果。下表表項分別是(查詢費時、結果數目),>表示超過搜尋引擎的最大結果顯示數。 搜尋引擎名稱 *.txt Ab*cd Winzip??.exe windows 天網FTP搜尋引擎 234ms 46萬 172ms 1414 422ms 816 125ms 10456 http://www.philes.com/ 1030ms >4800 637ms 0 707ms 1415 1124ms >4800 http://www.alltheweb.com/ 無統計 65000 無統計8500 無統計1000 無統計51000 http://www.filesearching.com/ 無統計 >1000 無統計 15 無統計 >1000 無統計 >1000 http://www.souborak.com/ 1.453sec >1000 2.115sec 461 0.045sec >1000 1.637sec 406 http://www.ftpfind.com/ 2.082 sec26000 不支持* 不支持? 1.826 sec 3600 ftpsearch.laplink.com 拒絕查詢 拒絕查詢 拒絕查詢 49.722sec 5996 清華9# Nosey Parker 無統計 拒絕查詢 無統計 55 無統計 中科大天狼搜尋 171.732 sec 27365 0.26sec 0 0.09 sec 17 1.975sec 1401 網路指南針 無統計33487 無統計 0 無統計 0 無統計 1229 華南木棉搜尋 無統計41585 無統計0 無統計31 無統計40782 星空搜尋 拒絕查詢 不支持* 不支持? 無統計 13003 從上表可以看出,在提供了查詢費時統計的所有Ftp搜尋引擎裡,北大天網Ftp搜尋引擎達到了毫秒級的查詢速度,且總體而言是最快的。很多搜尋引擎並沒有提供查詢費時的統計,我們只能假設這些搜尋引擎在搜尋速度上都是相等的,都屬於中上速度的搜尋引擎。 5、總結 從上面各個比較可以看出,天網FTP搜尋無論在功能、速度、資料量上都是名列前茅的FTP搜尋引擎,它的結果中查詢功能(是所有已知FTP搜尋引擎中唯一支持結果中查詢的),分類目錄功能(在Google的中文分類目錄搜尋引擎裡北大天網排名第四,超過了國內著名的WWW搜尋引擎百渡搜尋以及新浪分類目錄),文件分類查詢和在結果頁面裡面的結果排序都是極有特色的,而最為重要的是,天網FTP搜尋強大的查詢指令解析功能使得各種輸入都盡可能為用戶找到查詢結果,使得用戶使用搜尋引擎更為方便,不受限制。 但是,與Philes.com相比,天網FTP搜尋的資料量太少,這個可能是國內FTP站點大部分都是個人站點造成的。Philes.com也是一個很成功的FTP搜尋引擎,它支持各種與或操作的查詢,而且查詢速度十分快,但是功能方面比較簡單,只有簡單查詢。 AlltheWeb.com源自於原來的FastFtpSearch,是fastsearch.com多年來的重要產品,因而無論在資料量和功能上很強,而且由於它的商業開發比較早,也是少有的幾個提供商業套用服務的FTP搜尋引擎,lycos.com是它的一個主要客戶。但是AlltheWeb沒有支持很多新興的FTP搜尋引擎功能,不能說不是一大缺陷。 Filesearching.com和souborak.com都是非美國的FTP搜尋引擎,其中filesearching.com以其大資料量和通用與或操作查詢贏得較好評價,而souborak.com則相對比較差。 在國外的FTP搜尋引擎中,ftpfind.com是功能最為領先的,它支持了包括站點抓圖 和文件分類等新興功能,而且其資料量非常大,但速度相對比較慢,還是秒級的查詢速度。 Ftpsearch.laplink.com是老FTP搜尋引擎,它的資料已經3年沒有更新,僅僅因為它曾經存在的名氣和大的資料量我們依然分析評測了這個站點。 國內的FTP搜尋引擎裡,除了天網搜尋,最值得推薦的就是星空搜尋。星空搜尋以其大的資料量和特色功能如站點抓圖 、站點在線狀況等著稱,但是它對查詢串的解析功能太差,不能支持與或操作,造成很多常用查詢無法得到查詢結果。 Nosey Parker家族作為最常見的FTP搜尋引擎而著名,清華酒井的FTP搜尋資料量也很大,但是NoseyParker速度並不快,而且不支持各種新興功能,它的下一頁換頁方式不是很方便。值得注意的是NoseyParker家族裡面的「夢軒FTP搜尋」已經對Nosey Parker進行了很大的改進,增加了許多新興功能,使用起來還是很方便的。 與天網搜尋同屬於教育界科研項目的有華南木棉搜尋引擎、網路指南針以及比較新的中科大天狼搜尋引擎。 這些搜尋引擎中以華南木棉使用起來最為方便,它支持文件分類和排序以及傳統FTP搜尋引擎支持的各種與或操作符,但是它的資料量比較小,很大部分的文件信息來自於網際網路網頁而不是FTP,查詢時命中率並不是想像中的那麼高。 網路指南針和中科大天狼都沒有支持新興功能,但網路指南針用起來比中科大天狼方便,因為天狼搜尋由於其不支持結果換頁使得可用性大大降低。但是天狼搜尋查詢高速度卻很高,達到了毫秒級,估計是使用了比較好的索引算法。 根據以上各種統計資料,我們按五星制給各個Ftp搜尋引擎在資料量、功能、速度和綜合上各給一個評分。評分的目的是找出目前網際網路上比較好用的Ftp搜尋引擎以作為用戶選項FTP文件搜尋引擎時的參考。 搜尋引擎名稱 文件數目 功能 速度 綜合 天網FTP搜尋引擎 ☆★★★★ ★★★★★ ★★★★★ ★★★★★ http://www.philes.com/ ★★★★★ ☆☆☆★★ ☆★★★★ ★★★★★ http://www.alltheweb.com/ ★★★★★ ☆☆★★★ ☆☆☆☆☆ ★★★★★ http://www.filesearching.com/ ★★★★★ ☆☆☆★★ ☆☆☆☆☆ ☆★★★★ http://www.souborak.com/ ☆★★★★ ☆☆☆☆★ ☆☆★★★ ☆☆★★★ http://www.ftpfind.com/ ★★★★★ ☆★★★★ ☆☆★★★ ★★★★★ ftpsearch.laplink.com ☆★★★★ ☆☆☆★★ ☆☆☆☆☆ ☆☆★★★ 清華9# Nosey Parker ☆☆★★★ ☆☆★★★ ☆☆☆☆☆ ☆☆★★★ 中科大天狼搜尋 ☆☆☆★★ ☆☆☆☆★ ☆★★★★ ☆☆☆★★ 網路指南針 ☆☆☆★★ ☆☆★★★ ☆☆☆☆☆ ☆☆☆★★ 華南木棉搜尋 ☆☆★★★ ☆★★★★ ☆☆☆☆☆ ☆★★★★ 星空搜尋 ☆★★★★ ☆★★★★ ☆☆☆☆☆ ☆★★★★ 註:以上灰的說明資料無法統計。 |
所有時間均為台北時間。現在的時間是 08:23 PM。 |
Powered by vBulletin® 版本 3.6.8
版權所有 ©2000 - 2024, Jelsoft Enterprises Ltd.
『服務條款』
* 有問題不知道該怎麼解決嗎?請聯絡本站的系統管理員 *