《火車頭采集器電腦版》這款火車軟件的采集程序有支持遠程下載圖片文件,支持網站登陸后的信息采集,支持探測文件真實地址,支持代理,支持防盜鏈的采集,支持采集數據直接入庫和模仿人手工發布等許多功能特點。
火車采集器(LocoySpider)是一款功能強大且易于上手的專業采集軟件,強大的內容采集和數據導入功能能將您采集的任何網頁數據發布到遠程服務器,自定義用戶cms系統模塊,不管你的網站是什么系統,都有可能使用上火車采集器。
系統自帶的模塊文件支持:風訊文章,動易文章,動網論壇,PHPWIND論壇,Discuz論壇,phpcms文章,phparticle文章,LeadBBS論壇,魔力論壇,Dedecms文章,Xydw文章,驚云文章等的模塊文件。
更多cms模塊請自己參照制作修改,也可到官方網站與大家交流制作。同時您也可以使用系統的數據導出功能,利用系統內置標簽,將采集到的數據對應表的字段導出到本地任何一款Access,MySql,MS SqlServer內。
LocoySpider采用Visual C#編寫,可獨立在Windows2008下運行(windows2003自帶.net1.1框架。
最新版的火車采集器是2008版,需要升級到.net2.0框架才能使用),如您在Windows2000、Xp等環境下使用,請先到微軟官方下載一個.net framework2.0或更高環境組件。火車采集器V2009 SP2 04月29日。
數據抓取原理:
火車采集器如何去抓取數據,取決于您的規則。您要獲取一個欄目的網頁里的所有內容,需要先將這個網頁的網址采下來,這就是采網址。程序按您的規則抓取列表頁面,從中分析出網址,然后再去抓取獲得網址的網頁里的內容。
再根據您的采集規則,對下載到的網頁分析,將標題內容等信息分離開來并保存下來。如果您選擇了下載圖片等網絡資源,程序會對采集到的數據進行分析,找出圖片,資源等的下載地址并下載到本地。
數據發布原理:
在我們將數據采集下來后數據默認是保存在本地的,我們可以使用以下幾種方式對數據進行處理。
1、不做任何處理。因為數據本身是保存在數據庫的(access、db3、mysql、sqlserver),您如果只是查看數據,直接用相關軟件打開查看即可。
2、Web發布到網站。程序會模仿瀏覽器向您的網站發送數據,可以實現您手工發布的效果。
3、直接入數據庫。您只需寫幾個SQL語句,程序會將數據按您的SQL語句導入到數據庫中。
4、保存為本地文件。程序會讀取數據庫里的數據,按一定格式保存為本地sql或是文本文件。
工作流程:
火車采集器采集數據是分成兩個步驟的:一是采集數據,二是發布數據。這兩個過程是可以分開的。
1、采集數據,這個包括采集網址,采集內容。這個過程是獲得數據的過程。我們做規則,在采的過程中也算是對內容做了處理。
2、發布內容就是將數據發布到自己的論壇,CMS的過程,也是實現數據為已有的過程。可以用WEB在線發布,數據庫入庫或存為本地文件。
具體的使用其實是很靈活的,可以根據實際來決定。比如我可以采集時先采集不發布,有時間了再發布,或是同時采集發布,或是先做發布配置,也可以在采集完了再添加發布配置。總之,具體過程由您而定,火車采集器的強大功能之一也就是體現在靈活中。
采集規則:
采集規則分為站點規則和任務規則,通常是指任務規則。所謂采集規則就是要采集一個網站時在軟件里進行的設置。這個設置可以從軟件里導出保存成一個文件并可以再導入到軟件里。站點規則文件的后綴名為:.lsite;任務規則文件的后綴名為:.ljob。
采集任務:
采集任務又簡稱為任務。它是采集規則和發布規則的總和。也是采集規則和發布規則的載體。采集規則和發布規則的設置通過在任務編輯框里進行設置。從采集器里導出的采集規則文件(.ljob后綴的)也可稱為任務規則。導入導出任務規則就是指導入導出.ljob文件。
發布模塊:
發布模塊又稱為發布規則,通常是指數據庫發布模塊或者WEB發布模塊。所謂發布模塊就是在需要將已經采集的數據發布到目的地(比如:指定數據庫,網站中)時在軟件里進行的設置。這個設置可以保存成一個文件并可以導入到采集器里使用。數據庫發布模塊文件的后綴名為:.jhc;WEB在線發布模塊文件的后綴名為:.cwr。
(采集規則和發布模塊都可以從采集器里導出,也都可以導入到采集器中使用。采集規則負責將網頁上的數據采集下來,發布模塊負責將采集的數據發布到網站中。
可見,采集規則的編寫和修改和被采集的網站有關系,而發布模塊的編寫和修改和要發布數據的網站有關系。如從不同的網站欄目采集數據往同一個網站的某個板塊(頻道)里發布,需要多個采集規則和一個發布模塊。
從一個網站欄目采集數據往不同的網站系統里發布,需要一個采集規則和多個發布模塊。注意這里的說的采集規則是指采集網站和抓取內容的設置。)
發布接口:
發布接口就是一個小的頁面程序通常和WEB發布模塊配合使用。WEB在線發布(使用WEB發布模塊)是將采集的數據以POST方式發送到網站頁面程序中由網站程序處理數據。而發布接口就是為了滿足特定需求而寫的一個網站的頁面程序(如:PHP頁面,ASP頁面等)。
然后采集器通過WEB在線發布將數據發送到這個接口文件由這個接口文件處理數據。接口文件通常放在服務器網站某個目錄下。簡單的說就是采集器將采集的數據發送到接口文件中,接口文件得到數據后去處理數據。使用發布接口用戶可以更加靈活自由的處理采集器發送的數據。
插件:
火車采集器里的插件分為PHP插件和.NET插件兩種。標準版支持PHP插件,企業版支持PHP插件和.NET插件。插件可以讓用戶通過自己寫PHP程序或者.NET程序放到采集器中對采集的數據進行處理。
采集數據數據在四個地方可以使用插件,分別為:采網址時、采內容時、采多頁時,保存時。
發布數據:
發布數據就是將采集到的數據發布到指定的目的地,火車采集器支持四種發布方式。
方式一:Web在線發布到網站
這種發布方式類似于在網站后臺手工添加數據一樣。采集器將數據發送給網站后臺程序,由網站后臺程序去處理數據通常后臺程序講數據存入網站數據庫中。
方式二:保存為本地文件
這種方式可以將采集的數據發布到本地的文件中,采集器支持保存成Txt格式、Csv格式和Html格式。
方式三:導入到自定義數據庫
這種方式可以通過采集器連接到其他數據庫從而將采集的數據從軟件內置數據庫中導入到其他的數據庫中,采集器支持連接Mysql、Access、Oracle、MSsql數據庫。
方式四:保存為本地Sql文件(Insert語句)
這種方式是將采集的數據導出保存成Insert語句,可以用于在數據庫的管理工具中執行插入數據。
本地編輯數據:
采集器不僅可以采集發布數據,還可以將采集下來的數據經過編輯以后再發布。支持批量替換,通過SQL語句批量處理以及在文本編輯框里編輯。
2012-05-16更新:
1、屏蔽掉httpwebpost中瀏覽器的腳本錯誤提示。
2、修復使用偏好中的采集器沒有開機啟動和關閉窗口選項沒有啟用的bug。
3、對mysql和sqlserver做本地服務器建了索引,解決了大數據量時查詢出錯的問題。
4、細節修改,如在線發布里面的COOKIS可以全選,多頁默認傳前頁user-agent給多頁。
5、增加了多個任務在只使用一個任務運行窗口,減少資源使用。
6、更改任務運行完關機方式為只生效一次。
7、修復一個當多頁獲取為空時網址成默認頁的bug。
8、插件中沒有處理UseGetStepUrls的bug。
9、httpserver增加了列表分組,自動啟動,和新建任務返回分組和任務id。
10、對用戶對標簽組合再次標簽組合進行了允許處理。
11、修復對列表獲取的內容,部分情況下會補全的bug。
12、修復多頁管理時特殊情況下新建標簽沒有保存的bug。
13、修復部分情況下標簽提取大小寫無效的bug。
14、修復如果一個標簽出現多次時間轉換轉換部分無效的bug。
15、修復了ubb轉換中部分轉換錯誤的bug。
16、增加了將下載地址保存為html文件的功能。
17、增加了web發布時網頁超時設置。
18、修復本地數據庫使用Access時任務數據批量工具清理已發數據無效的bug。
19、修復任務完成后關機設置取消后還會再提示關機的bug。
20、修改部分電腦上Mongodb服務不能識別的bug。
上一個: 我的世界1.7.10戰爭在召喚整合包
下一個: 火車頭采集器 破解版
1、游戲安裝運行的時候出現缺少dll、內存不能讀、配置不正確等,請下載對應的單機游戲常用插件運行庫。
2、游戲可能被某些殺毒軟件提示,部分報毒與破解漢化有關,請謹慎下載。