Python的爬蟲框架有哪些，Python有哪些常見的，好用的爬蟲框架

1樓：像瘋一樣的菩提

1.scrapy是一個為了爬取**資料

2樓：中公教育it優就業

lxml：使用

lxml.etree

將字串轉換之後，我們可以使用xpath表示式來解析網頁，終極推薦。xpath對於網頁解析的支援非常強大，而且很容易上手。它本來是設計出來進行xml元素選擇的，但是它同樣支援html。

pyquery：另一個強大的解析庫，感興趣的可以學習下。

3樓：老男孩教育

python爬蟲工作原理:python爬蟲常用框架有：grab：網路爬蟲框架;

scrapy：網路爬蟲框架，不支援python3;

pyspider：一個強大的爬蟲系統;

cola：一個分散式爬蟲框架;

portia：基於scrapy的視覺化爬蟲;

restkit：python的http資源工具包。它可以讓你輕鬆地訪問http資源，並圍繞它建立的物件。

demiurge：基於pyquery的爬蟲微框架。

4樓：匿名使用者

py3的到來勢在必行，各個框架都已經支援放心使用，scrapy,spider等就很好了

python有哪些常見的，好用的爬蟲框架

5樓：育知同創教育

由於專案需求收集並使用過一些爬蟲相關庫，做過一些對比分析。以下是我接觸過的一些庫：

beautiful soup。名氣大，整合了一些常用爬蟲需求。缺點：不能載入js。

scrapy。看起來很強大的爬蟲框架，可以滿足簡單的頁面爬取（比如可以明確獲知url pattern的情況）。用這個框架可以輕鬆爬下來如亞馬遜商品資訊之類的資料。

但是對於稍微複雜一點的頁面，如weibo的頁面資訊，這個框架就滿足不了需求了。

mechanize。優點：可以載入js。缺點：文件嚴重缺失。不過通過官方的example以及人肉嘗試的方法，還是勉強能用的。

selenium。這是一個呼叫瀏覽器的driver，通過這個庫你可以直接呼叫瀏覽器完成某些操作，比如輸入驗證碼。

cola。一個分散式爬蟲框架。專案整體設計有點糟，模組間耦合度較高，不過值得借鑑。

以下是我的一些實踐經驗：

對於簡單的需求，比如有固定pattern的資訊，怎麼搞都是可以的。

對於較為複雜的需求，比如爬取動態頁面、涉及狀態轉換、涉及反爬蟲機制、涉及高併發，這種情況下是很難找到一個契合需求的庫的，很多東西只能自己寫。

至於題主提到的：

還有，採用現有的python爬蟲框架，相比與直接使用內建庫，優勢在哪？因為python本身寫爬蟲已經很簡單了。

third party library可以做到built-in library做不到或者做起來很困難的事情，僅此而已。還有就是，爬蟲簡不簡單，完全取決於需求，跟python是沒什麼關係的。

python爬蟲框架哪個好用？

6樓：箬淺箬漾

scrapy框架是一套比較成熟的python爬蟲框架，是使用python開發的快速、高層次的資訊爬取框架，可以高效的爬取web頁面並提取出結構化資料。

scrapy應用範圍很廣，爬蟲開發、資料探勘、資料監測、自動化測試等。

7樓：老男孩教育

python爬蟲常用框架有：

grab：網路爬蟲框架;

scrapy：網路爬蟲框架，不支援python3;

pyspider：一個強大的爬蟲系統;

cola：一個分散式爬蟲框架;

portia：基於scrapy的視覺化爬蟲;

restkit：python的http資源工具包。它可以讓你輕鬆地訪問http資源，並圍繞它建立的物件。

demiurge：基於pyquery的爬蟲微框架。

8樓：

用訊**爬蟲，我自己的事可以無限切換ip

各位能不能給推薦一個python的分散式爬蟲框架

9樓：戀戀土豆絲

爬蟲本質上不需要分散式。因為你要爬一個**通常5-10個執行緒足夠了，再多就是對**壓力測試了。

你只需要將任務分配到不同的機器上，然後各執行各自己的，結果合併一下就可以。這個與nutch人map, reduse也沒有什麼差別。只是手工分，手工合併。

當然也可以用指令碼分，指令碼合併，指令碼遠端啟動。有一個遠端控制模組，似乎叫rpy。很簡單，很容易上手。

可以遠端控制一個模組。

資料庫用postgresql不是很好。因為爬行結果放在關係型資料庫裡太吃力。特別是網頁內容。

通常是url放在redis裡。內容放在檔案系統裡，你可以用hadoop+hdfs+thrift方案放在hadoop裡。

如果使用了hadoop，就乾脆模仿nutch的流程，把python指令碼也交給hadoop去管理好了。

至於控制與通訊這個都讓hadoop來處理好了。

當然我個人覺著rpy方式更簡單。裡面控制與通訊都是現成的。10分鐘就學會了。

還是回到原來的說法，大部分情況下，單機多執行緒跑爬蟲足夠用了。不需要分散式。而且效率甚至比分散式更高。

支援python3的爬蟲框架有哪些

10樓：匿名使用者

py3的到來勢在必行，各個框架都已經支援放心使用，scrapy,spider等就很好了

11樓：匿名使用者

scrapy 就很好用啊

怎麼樣使用python的scrapy爬蟲框架

12樓：我的小名叫仙女

創造一個bai專案

在你要抓取之前

du,首先要建立一個新zhi的scrapy專案。

dao然後進去你回的存放**目錄,執行答如下命令。?1scrapy startproject tutorial它將會建立如下的嚮導目錄:

複製** **如下:

tutorial/

scrapy.cfg

tutorial/

__init__.py

items.py

pipelines.py

settings.py

spiders/

__init__.py

...這是一些基本資訊:

scrapy.cfg: 專案的配置檔案。

tutorial/: 專案的python模組, 在這裡稍後你將會匯入你的**。

tutorial/items.py: 專案items檔案。

tutorial/pipelines.py: 專案管道檔案。

tutorial/settings.py: 專案配置檔案。

tutorial/spiders/: 你將要放入你的spider到這個目錄中。

Python爬蟲是什麼，python網路爬蟲可以幹啥

哎喲帶你看娛樂將根據一定的搜尋策略從佇列中選擇下一步要抓取的網頁url，並重覆上述過程，直到達到系統的某一條件時停止。另外，所有被爬蟲抓取的網頁將會被系統存貯，進行一定的分析過濾，並建立索引，以便之後的查詢和檢索。非攻即攻首先要知道python爬蟲是一個程式，這個程式的目的就是為了抓取全球資...

用python寫爬蟲有多難，用python寫一個爬蟲有多難

老男孩教育 python爬蟲領域是相對於最好入門的，不過具體多長時間可以寫出來，要根據個人的理解能力以及學習能力來決定，學會python基礎語法之後，幾乎就可以寫出爬蟲。知乎有個不錯的答案關於爬蟲入門的回答很詳細了雨落看下urllib2 urllib 和beautifulsuop4就可以...

python寫了爬蟲內容儲存到mongodb資料庫遇

難道是img的問題。mongodb是可以直接存的。這種寫法沒有問題。問題還是出在變數名與變數值上。很簡單就可以定位。你先將img換成一個字串，如果成功了，就是img本身的格式問題。如果還不成可以試試將 id 換成 identify 類似的這樣的名子再式。2 3次試驗就可以找到原因。我寫過一個爬蟲是...

Python的爬蟲框架有哪些，Python有哪些常見的，好用的爬蟲框架

Python爬蟲是什麼，python網路爬蟲可以幹啥

用python寫爬蟲有多難，用python寫一個爬蟲有多難

python寫了爬蟲內容儲存到mongodb資料庫遇

其他用戶還看了：