Python的爬蟲框架有哪些,Python有哪些常見的,好用的爬蟲框架

時間 2021-05-07 20:00:40

1樓:像瘋一樣的菩提

1.scrapy是一個為了爬取**資料

2樓:中公教育it優就業

lxml:使用

lxml.etree

將字串轉換之後,我們可以使用xpath表示式來解析網頁,終極推薦。xpath對於網頁解析的支援非常強大,而且很容易上手。它本來是設計出來進行xml元素選擇的,但是它同樣支援html。

pyquery:另一個強大的解析庫,感興趣的可以學習下。

3樓:老男孩教育

python爬蟲工作原理:python爬蟲常用框架有:grab:網路爬蟲框架;

scrapy:網路爬蟲框架,不支援python3;

pyspider:一個強大的爬蟲系統;

cola:一個分散式爬蟲框架;

portia:基於scrapy的視覺化爬蟲;

restkit:python的http資源工具包。它可以讓你輕鬆地訪問http資源,並圍繞它建立的物件。

demiurge:基於pyquery的爬蟲微框架。

4樓:匿名使用者

py3的到來勢在必行,各個框架都已經支援放心使用,scrapy,spider等就很好了

python有哪些常見的,好用的爬蟲框架

5樓:育知同創教育

由於專案需求收集並使用過一些爬蟲相關庫,做過一些對比分析。以下是我接觸過的一些庫:

beautiful soup。名氣大,整合了一些常用爬蟲需求。缺點:不能載入js。

scrapy。看起來很強大的爬蟲框架,可以滿足簡單的頁面爬取(比如可以明確獲知url pattern的情況)。用這個框架可以輕鬆爬下來如亞馬遜商品資訊之類的資料。

但是對於稍微複雜一點的頁面,如weibo的頁面資訊,這個框架就滿足不了需求了。

mechanize。優點:可以載入js。缺點:文件嚴重缺失。不過通過官方的example以及人肉嘗試的方法,還是勉強能用的。

selenium。這是一個呼叫瀏覽器的driver,通過這個庫你可以直接呼叫瀏覽器完成某些操作,比如輸入驗證碼。

cola。一個分散式爬蟲框架。專案整體設計有點糟,模組間耦合度較高,不過值得借鑑。

以下是我的一些實踐經驗:

對於簡單的需求,比如有固定pattern的資訊,怎麼搞都是可以的。

對於較為複雜的需求,比如爬取動態頁面、涉及狀態轉換、涉及反爬蟲機制、涉及高併發,這種情況下是很難找到一個契合需求的庫的,很多東西只能自己寫。

至於題主提到的:

還有,採用現有的python爬蟲框架,相比與直接使用內建庫,優勢在哪?因為python本身寫爬蟲已經很簡單了。

third party library可以做到built-in library做不到或者做起來很困難的事情,僅此而已。還有就是,爬蟲簡不簡單,完全取決於需求,跟python是沒什麼關係的。

python爬蟲框架哪個好用?

6樓:箬淺箬漾

scrapy框架是一套比較成熟的python爬蟲框架,是使用python開發的快速、高層次的資訊爬取框架,可以高效的爬取web頁面並提取出結構化資料。

scrapy應用範圍很廣,爬蟲開發、資料探勘、資料監測、自動化測試等。

7樓:老男孩教育

python爬蟲常用框架有:

grab:網路爬蟲框架;

scrapy:網路爬蟲框架,不支援python3;

pyspider:一個強大的爬蟲系統;

cola:一個分散式爬蟲框架;

portia:基於scrapy的視覺化爬蟲;

restkit:python的http資源工具包。它可以讓你輕鬆地訪問http資源,並圍繞它建立的物件。

demiurge:基於pyquery的爬蟲微框架。

8樓:

用訊**爬蟲,我自己的事可以無限切換ip

各位能不能給推薦一個python的分散式爬蟲框架

9樓:戀戀土豆絲

爬蟲本質上不需要分散式。因為你要爬一個**通常5-10個執行緒足夠了,再多就是對**壓力測試了。

你只需要將任務分配到不同的機器上,然後各執行各自己的,結果合併一下就可以。 這個與nutch人map, reduse也沒有什麼差別。只是手工分,手工合併。

當然也可以用指令碼分,指令碼合併,指令碼遠端啟動。有一個遠端控制模組,似乎叫rpy。很簡單,很容易上手。

可以遠端控制一個模組。

資料庫用postgresql不是很好。因為爬行結果放在關係型資料庫裡太吃力。特別是網頁內容。

通常是url放在redis裡。 內容放在檔案系統裡,你可以用hadoop+hdfs+thrift方案放在hadoop裡。

如果使用了hadoop,就乾脆模仿nutch的流程,把python指令碼也交給hadoop去管理好了。

至於控制與通訊這個都讓hadoop來處理好了。

當然我個人覺著rpy方式更簡單。 裡面控制與通訊都是現成的。10分鐘就學會了。

還是回到原來的說法,大部分情況下,單機多執行緒跑爬蟲足夠用了。 不需要分散式。而且效率甚至比分散式更高。

支援python3的爬蟲框架有哪些

10樓:匿名使用者

py3的到來勢在必行,各個框架都已經支援放心使用,scrapy,spider等就很好了

11樓:匿名使用者

scrapy 就很好用啊

怎麼樣使用python的scrapy爬蟲框架

12樓:我的小名叫仙女

創造一個bai專案

在你要抓取之前

du,首先要建立一個新zhi的scrapy專案。

dao然後進去你回的存放**目錄,執行答如下命令。?1scrapy startproject tutorial它將會建立如下的嚮導目錄:

複製** **如下:

tutorial/

scrapy.cfg

tutorial/

__init__.py

items.py

pipelines.py

settings.py

spiders/

__init__.py

...這是一些基本資訊:

scrapy.cfg: 專案的配置檔案。

tutorial/: 專案的python模組, 在這裡稍後你將會匯入你的**。

tutorial/items.py: 專案items檔案。

tutorial/pipelines.py: 專案管道檔案。

tutorial/settings.py: 專案配置檔案。

tutorial/spiders/: 你將要放入你的spider到這個目錄中。

Python爬蟲是什麼,python網路爬蟲可以幹啥

哎喲帶你看娛樂 將根據一定的搜尋策略從佇列中選擇下一步要抓取的網頁url,並重覆上述過程,直到達到系統的某一條件時停止。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析 過濾,並建立索引,以便之後的查詢和檢索。 非攻即攻 首先要知道python爬蟲是一個程式,這個程式的目的就是為了抓取全球資...

用python寫爬蟲有多難,用python寫一個爬蟲有多難

老男孩教育 python爬蟲領域是相對於最好入門的,不過具體多長時間可以寫出來,要根據個人的理解能力以及學習能力來決定,學會python基礎語法之後,幾乎就可以寫出爬蟲。 知乎 有個不錯的答案 關於爬蟲入門的回答 很詳細了 雨落 看下urllib2 urllib 和beautifulsuop4就可以...

python寫了爬蟲內容儲存到mongodb資料庫遇

難道是img的問題。mongodb是可以直接存的。這種寫法沒有問題。問題還是出在變數名與變數值上。很簡單就可以定位。你先將img換成一個字串,如果成功了,就是img本身的格式問題。如果還不成可以試試將 id 換成 identify 類似的這樣的名子再式。2 3次試驗就可以找到原因。 我寫過一個爬蟲是...