python dataframe describe引數什麼意思

時間 2021-07-16 08:26:39

1樓:校zhang長

count 數量

mean 平均值

std 標準差

min 最小值

25% 第一四分位數 (q1),又稱「較小四分位數」,等於該樣本中所有數值由小到大排列後第25%的數字。

50% 中位數

75% 同上類似

max 最大值

2樓:匿名使用者

describe()檢視資料的分佈情況

可返回變數和觀測的數量、缺失值和唯一值的數目、平均值、分位數等相關資訊

3樓:

pandas.series.describe

dataframe.describe(percentiles=none, include=none, exclude=none)

生成描述性統計,總結資料集分佈的中心趨勢,分散和形狀,不包括nan值。

分析數字和物件系列,以及混合資料型別的dataframe列集。 輸出將根據所提供的內容而有所不同。 有關詳細資訊,請參閱下面的註釋。

變數:1、百分位數:數字列表,可選

輸出中包含的百分位數。 全部應該在0和1之間。預設值為[.25,.5,.75],返回第25,第50和第75百分位數。

2、包括:'all',dtypes的列表或無(預設),可選

要包括在結果中的白名單資料型別。 忽略了系列。 以下是選項:

l 'all':輸入的所有列都將包含在輸出中。

l 類似dtypes的列表:將結果限制為提供的資料型別。 將結果限制為數字型別,提交numpy.

number。要將其限制為分類物件,請提交numpy.object資料型別。

字串也可以以select_dtypes的樣式使用(例如,df.describe(include = ['o']))。

l 無(預設):結果將包括所有數字列。

3、排除:型別為dtypes或none(預設),可選

從結果中忽略的黑名單資料型別。 忽略了系列。 以下是選項:

l 類似dtypes的列表:從結果中排除提供的資料型別。 選擇數字型別submit numpy.

number。要選擇分類物件,請提交資料型別numpy.object。

字串也可以以select_dtypes的樣式使用(例如,df.describe(include = ['o']))。

l 無(預設):結果將不排除任何內容。

返回:總結:系列/ dataframe的匯**計

註釋:對於數值資料,結果的索引將包括計數,平均值,標準差,最小值,最大值以及較低的百分位數和50。預設情況下,較低的百分位數為25,較高的百分位數為75.

50百分位數與中位數相同。

對於物件資料(例如字串或時間戳),結果的索引將包括count,unique,top和freq。頂部是最常見的價值。頻率是最常見的頻率。時間戳還包括第一個和最後一個專案。

如果多個物件值具有最高的計數,則計數和頂部結果將從計數最高的那些中任意選擇。

對於通過dataframe提供的混合資料型別,預設值僅返回數字列的分析。如果include ='all'作為選項提供,則結果將包括每種型別的屬性的並集。

可以使用include和exclude引數來限制dataframe中哪些列被分析輸出。分析系列時,引數將被忽略。

例子:描述數字系列。

>>> s = pd.series([1, 2, 3])

>>> s.describe()

count 3.0

mean 2.0

std 1.0

min 1.0

25% 1.5

50% 2.0

75% 2.5

max 3.0

描述一個分類系列。

>>> s = pd.series(['a', 'a', 'b', 'c'])

>>> s.describe()

count 4

unique 3

top a

freq 2

dtype: object

描述時間戳系列。

>>> s = pd.series([

... np.datetime64("2000-01-01"),

... np.datetime64("2010-01-01"),

... np.datetime64("2010-01-01")

... ])

>>> s.describe()

count 3

unique 2

top 2010-01-0100:00:00

freq 2

first 2000-01-01 00:00:00

last 2010-01-01 00:00:00

dtype: object

描述dataframe。預設情況下只返回數字欄位。

>>> df = pd.dataframe([[1, 'a'], [2, 'b'], [3, 'c']],

... columns=['numeric', 'object'])

>>> df.describe()

numeric

count 3.0

mean 2.0

std 1.0

min 1.0

25% 1.5

50% 2.0

75% 2.5

max 3.0

描述dataframe的所有列,而不管資料型別如何。

>>> df.describe(include='all')

numericobject

count 3.0 3

unique nan 3

top nan b

freq nan 1

mean 2.0 nan

std 1.0 nan

min 1.0 nan

25% 1.5 nan

50% 2.0 nan

75% 2.5 nan

max 3.0 nan

通過訪問dataframe作為屬性來描述列。

>>> df.numeric.describe()

count 3.0

mean 2.0

std 1.0

min 1.0

25% 1.5

50% 2.0

75% 2.5

max 3.0

name: numeric, dtype: float64

在dataframe描述中僅包含數字列。

>>> df.describe(include=[np.number])

numeric

count 3.0

mean 2.0

std 1.0

min 1.0

25% 1.5

50% 2.0

75% 2.5

max 3.0

在dataframe描述中只包含字串列。

>>> df.describe(include=[np.object])

object

count 3

unique 3

top b

freq 1

從dataframe描述中排除數字列。

>>> df.describe(exclude=[np.number])

object

count 3

unique 3

top b

freq 1

從dataframe描述中排除物件列。

>>> df.describe(exclude=[np.object])

numeric

count 3.0

mean 2.0

std 1.0

min 1.0

25% 1.5

50% 2.0

75% 2.5

max 3.0頂0踩0

python裡面我想知道這是什麼意思,a是一個dataframe,求詳解 5

4樓:雙子座的我

應該是 b = a的x列的所有第0位組成的陣列吧

電腦記憶體引數為什麼是4g,500g是什麼意思

飛鷹 電腦配置常看到4g 500g的意思是 4g通常指電腦的記憶體容量為4g,如 4gb ddr3 1600 桌上型電腦記憶體。500g通常指電腦的硬碟容量為500g,如 500g 桌上型電腦電腦 硬碟 硬碟的容量指標還包括硬碟的單碟容量。所謂單碟容量是指硬碟單片碟片的容量,單碟容量越大,單位成本越...

請問數碼相機引數中的光學變焦倍數是什麼意思,有什麼作用

光學變焦俗話就是把遠處的東西拉近,跟望遠鏡很像。倍數就是把你拍的東西放大到原來的多少倍 個人建議和觀點供你參考 通俗點說,光學變焦是依靠光學鏡頭結構來實現變焦的,通過鏡片的移動來放大與縮小需要拍攝的景物,是真正有效實用的變焦方式,基本無損成像質量.數碼變焦實際上是畫面的電子放大,把原來ccd影像感應...

手機引數中的核心數4核和8核分別是什麼意思

手機引數中的核心數四核指的是基於單個半導體的一個處理器上擁有四個一樣功能的處理器核心,換而言之,將四個物理處理器核心整合入一個核中。八核就是說核心數比四核增加了一倍,原理是相同的。手機引數中的核心數4核和8核是什麼意思 就是指cpu的核心數量,但不一定核心多就效能高,多數高通的4核效能比低端8核快,...