1樓:像瘋一樣的菩提
1.scrapy是一個為了爬取**資料
2樓:中公教育it優就業
lxml:使用
lxml.etree
將字串轉換之後,我們可以使用xpath表示式來解析網頁,終極推薦。xpath對於網頁解析的支援非常強大,而且很容易上手。它本來是設計出來進行xml元素選擇的,但是它同樣支援html。
pyquery:另一個強大的解析庫,感興趣的可以學習下。
3樓:老男孩教育
python爬蟲工作原理:python爬蟲常用框架有:grab:網路爬蟲框架;
scrapy:網路爬蟲框架,不支援python3;
pyspider:一個強大的爬蟲系統;
cola:一個分散式爬蟲框架;
portia:基於scrapy的視覺化爬蟲;
restkit:python的http資源工具包。它可以讓你輕鬆地訪問http資源,並圍繞它建立的物件。
demiurge:基於pyquery的爬蟲微框架。
4樓:匿名使用者
py3的到來勢在必行,各個框架都已經支援放心使用,scrapy,spider等就很好了
python有哪些常見的,好用的爬蟲框架
5樓:育知同創教育
由於專案需求收集並使用過一些爬蟲相關庫,做過一些對比分析。以下是我接觸過的一些庫:
beautiful soup。名氣大,整合了一些常用爬蟲需求。缺點:不能載入js。
scrapy。看起來很強大的爬蟲框架,可以滿足簡單的頁面爬取(比如可以明確獲知url pattern的情況)。用這個框架可以輕鬆爬下來如亞馬遜商品資訊之類的資料。
但是對於稍微複雜一點的頁面,如weibo的頁面資訊,這個框架就滿足不了需求了。
mechanize。優點:可以載入js。缺點:文件嚴重缺失。不過通過官方的example以及人肉嘗試的方法,還是勉強能用的。
selenium。這是一個呼叫瀏覽器的driver,通過這個庫你可以直接呼叫瀏覽器完成某些操作,比如輸入驗證碼。
cola。一個分散式爬蟲框架。專案整體設計有點糟,模組間耦合度較高,不過值得借鑑。
以下是我的一些實踐經驗:
對於簡單的需求,比如有固定pattern的資訊,怎麼搞都是可以的。
對於較為複雜的需求,比如爬取動態頁面、涉及狀態轉換、涉及反爬蟲機制、涉及高併發,這種情況下是很難找到一個契合需求的庫的,很多東西只能自己寫。
至於題主提到的:
還有,採用現有的python爬蟲框架,相比與直接使用內建庫,優勢在哪?因為python本身寫爬蟲已經很簡單了。
third party library可以做到built-in library做不到或者做起來很困難的事情,僅此而已。還有就是,爬蟲簡不簡單,完全取決於需求,跟python是沒什麼關係的。
python爬蟲框架哪個好用?
6樓:箬淺箬漾
scrapy框架是一套比較成熟的python爬蟲框架,是使用python開發的快速、高層次的資訊爬取框架,可以高效的爬取web頁面並提取出結構化資料。
scrapy應用範圍很廣,爬蟲開發、資料探勘、資料監測、自動化測試等。
7樓:老男孩教育
python爬蟲常用框架有:
grab:網路爬蟲框架;
scrapy:網路爬蟲框架,不支援python3;
pyspider:一個強大的爬蟲系統;
cola:一個分散式爬蟲框架;
portia:基於scrapy的視覺化爬蟲;
restkit:python的http資源工具包。它可以讓你輕鬆地訪問http資源,並圍繞它建立的物件。
demiurge:基於pyquery的爬蟲微框架。
8樓:
用訊**爬蟲,我自己的事可以無限切換ip
各位能不能給推薦一個python的分散式爬蟲框架
9樓:戀戀土豆絲
爬蟲本質上不需要分散式。因為你要爬一個**通常5-10個執行緒足夠了,再多就是對**壓力測試了。
你只需要將任務分配到不同的機器上,然後各執行各自己的,結果合併一下就可以。 這個與nutch人map, reduse也沒有什麼差別。只是手工分,手工合併。
當然也可以用指令碼分,指令碼合併,指令碼遠端啟動。有一個遠端控制模組,似乎叫rpy。很簡單,很容易上手。
可以遠端控制一個模組。
資料庫用postgresql不是很好。因為爬行結果放在關係型資料庫裡太吃力。特別是網頁內容。
通常是url放在redis裡。 內容放在檔案系統裡,你可以用hadoop+hdfs+thrift方案放在hadoop裡。
如果使用了hadoop,就乾脆模仿nutch的流程,把python指令碼也交給hadoop去管理好了。
至於控制與通訊這個都讓hadoop來處理好了。
當然我個人覺著rpy方式更簡單。 裡面控制與通訊都是現成的。10分鐘就學會了。
還是回到原來的說法,大部分情況下,單機多執行緒跑爬蟲足夠用了。 不需要分散式。而且效率甚至比分散式更高。
支援python3的爬蟲框架有哪些
10樓:匿名使用者
py3的到來勢在必行,各個框架都已經支援放心使用,scrapy,spider等就很好了
11樓:匿名使用者
scrapy 就很好用啊
怎麼樣使用python的scrapy爬蟲框架
12樓:我的小名叫仙女
創造一個bai專案
在你要抓取之前
du,首先要建立一個新zhi的scrapy專案。
dao然後進去你回的存放**目錄,執行答如下命令。?1scrapy startproject tutorial它將會建立如下的嚮導目錄:
複製** **如下:
tutorial/
scrapy.cfg
tutorial/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
...這是一些基本資訊:
scrapy.cfg: 專案的配置檔案。
tutorial/: 專案的python模組, 在這裡稍後你將會匯入你的**。
tutorial/items.py: 專案items檔案。
tutorial/pipelines.py: 專案管道檔案。
tutorial/settings.py: 專案配置檔案。
tutorial/spiders/: 你將要放入你的spider到這個目錄中。
Python爬蟲是什麼,python網路爬蟲可以幹啥
哎喲帶你看娛樂 將根據一定的搜尋策略從佇列中選擇下一步要抓取的網頁url,並重覆上述過程,直到達到系統的某一條件時停止。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析 過濾,並建立索引,以便之後的查詢和檢索。 非攻即攻 首先要知道python爬蟲是一個程式,這個程式的目的就是為了抓取全球資...
用python寫爬蟲有多難,用python寫一個爬蟲有多難
老男孩教育 python爬蟲領域是相對於最好入門的,不過具體多長時間可以寫出來,要根據個人的理解能力以及學習能力來決定,學會python基礎語法之後,幾乎就可以寫出爬蟲。 知乎 有個不錯的答案 關於爬蟲入門的回答 很詳細了 雨落 看下urllib2 urllib 和beautifulsuop4就可以...
python寫了爬蟲內容儲存到mongodb資料庫遇
難道是img的問題。mongodb是可以直接存的。這種寫法沒有問題。問題還是出在變數名與變數值上。很簡單就可以定位。你先將img換成一個字串,如果成功了,就是img本身的格式問題。如果還不成可以試試將 id 換成 identify 類似的這樣的名子再式。2 3次試驗就可以找到原因。 我寫過一個爬蟲是...