English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Métodos básicos do Pandas

Exemplo de método básico do Pandas

Até agora, compreendemos três Pandas DataStructures e como criá-las. Devido à sua importância no processamento de dados em tempo real, nos concentraremos principalmente no objeto DataFrame, e discutiremos outras algumas DataStructures.

方法描述
axesRetorna a lista de rótulos do eixo de linha.
dtypeRetorna o dtype do objeto.
emptySe a Series estiver vazia, retorna True.
ndimDe acordo com a definição, retorna a dimensão da base de dados.
sizeRetorna o número de elementos na base de dados.
valuesRetorna a Series como ndarray.
head()返回前n行。
tail()返回最后n行。
A seguir, criaremos uma Series e veremos todas as operações de atributos dessa lista.
 import pandas como pd
 import numpy como np
 # 用100 números aleatórios criam uma Series
 s = pd.Series(np.random.randn(4))
 print(s)

Resultado da execução:

0 0.967853
1  -0.148368
2  -1.395906
3  -1.758394
dtype: float64

axes

Retorna a lista de rótulos da Series

 import pandas como pd
 import numpy como np
 # 用100 números aleatórios criam uma Series
 s = pd.Series(np.random.randn(4))
 print ("Os eixos são:")
 print(s.axes)

Resultado da execução:

 Os eixos são:
 [RangeIndex(start=0, stop=4, step=1])

O resultado acima é de 0 a5(ou seja, [0,1,2,3,4])。

empty

Retorna um valor booleano, indicando se o objeto está vazio. True indica que o objeto está vazio

 import pandas como pd
 import numpy como np
 # 用100 números aleatórios criam uma Series
 s = pd.Series(np.random.randn(4))
 print ("O objeto está vazio?")
 print(s.empty)

Resultado da execução:

O objeto está vazio?
False

ndim

Retorna a dimensão do objeto. De acordo com a definição, Series é uma1D Estrutura de dados, portanto, ela retorna

 import pandas como pd
 import numpy como np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print s
 print ("As dimensões do objeto:")
 print(s.ndim)

Resultado da execução:

     0 0.175898
1   0.166197
2  -0.609712
3  -1.377000
dtype: float64
As dimensões do objeto:
1

size

Retorna o tamanho (comprimento) da Series.

 import pandas como pd
 import numpy como np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(2))
 print s
 print ("O tamanho do objeto:")
 print(s.size)

Resultado da execução:

0   3.078058
1  -1.207803
dtype: float64
O tamanho do objeto:
2

values

Retorna os dados da Series em forma de array

 import pandas como pd
 import numpy como np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print s
 print ("A série de dados real é:")
 print(s.values)

Resultado da execução:

0   1.787373
1  -0.605159
2   0.180477
3  -0.140922
dtype: float64
A série de dados real é:
[ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]

Head e Tail

Para visualizar os dados iniciais e finais de um objeto Series ou DataFrame, use os métodos head() e tail().

head() Retorna as primeiras n linhas (índices de observação). O número padrão de elementos exibidos é5mas você pode passar números personalizados.

 import pandas como pd
 import numpy como np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print ("A série inicial é:")
 print s
 print ("As duas primeiras linhas da série de dados:")
 print(s.head(2))

Resultado da execução:

最初的系列是:
0 0.720876
1  -0.765898
2   0.479221
3  -0.139547
dtype: float64
As duas primeiras linhas da série de dados:
0 0.720876
1  -0.765898
dtype: float64

tail() Retornar as últimas n linhas (observe os valores do índice). O número padrão de elementos exibidos é5mas você pode passar números personalizados.

 import pandas como pd
 import numpy como np
 # 用4个随机数创建一个Series
 s = pd.Series(np.random.randn(4))
 print("最初的系列是:")
 print(s)
 print("数据序列的最后两行:")
 print(s.tail(2)

Resultado da execução:

最初的系列是:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64
数据序列的最后两行:
2 -0.608592
3 -2.341413
dtype: float64

DataFrame 基本功能

现在让我们了解什么是DataFrame基本功能。下表列出了有助于DataFrame基本功能的重要属性或方法。

属性/方法描述
T行和列互相转换
axes返回以行轴标签和列轴标签为唯一成员的列表。
dtypes返回此对象中的dtypes。
empty如果NDFrame完全为空[没有项目],则为true;否则为false。如果任何轴的长度为0。
ndim轴数/数组尺寸。
shape返回表示DataFrame维度的元组。
sizeNDFrame中的元素数。
valuesNDFrame的数字表示。
head()返回前n行。
tail()返回最后n行。

下面我们创建一个DataFrame并查看上述属性的所有操作方式。

Example

 import pandas como pd
 import numpy como np
 # Criar dicionário de Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Idade':pd.Series([25,26,25,23,30,29,23]),
    'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Criar um DataFrame
 df = pd.DataFrame(d)
 print("Our data series is:")
 print(df)

Resultado da execução:

Our data series is:
    Idade Nome Avaliação
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30 Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80

T (Transpose)

返回DataFrame的转置。行和列将互换。

 import pandas como pd
 import numpy como np
  
 # Criar dicionário de Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Idade':pd.Series([25,26,25,23,30,29,23]),
    'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Criar um DataFrame
 df = pd.DataFrame(d)
 print("数据序列的转置是:")
 print(df.T)

Resultado da execução:

数据序列的转置是:
         0     1       2      3      4      5       6
Age      25    26      25     23     30     29      23
Name Tom James Ricky Vin Steve Smith Jack
Rating   4.23  3.24    3.98   2.56   3.2    4.6     3.8

axes

返回行轴标签和列轴标签的列表。

 import pandas como pd
 import numpy como np
 # Criar dicionário de Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Idade':pd.Series([25,26,25,23,30,29,23]),
    'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Criar um DataFrame
 df = pd.DataFrame(d)
 print("行轴标签和列轴标签是:")
 print(df.axes)

Resultado da execução:

  行轴标签和列轴标签是:
 [RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'],
 dtype='object')]

dtypes

返回每一列的数据类型。

 import pandas como pd
 import numpy como np
 # Criar dicionário de Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Idade':pd.Series([25,26,25,23,30,29,23]),
    'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Criar um DataFrame
 df = pd.DataFrame(d)
 print("每列的数据类型如下:")
 print(df.dtypes)

Resultado da execução:

每列的数据类型如下:
Age int64
Name object
Rating float64
dtype: object

empty

Retorna um valor booleano que indica se o objeto está vazio; True indica que o objeto está vazio.

 import pandas como pd
 import numpy como np
  
 # Criar dicionário de Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Idade':pd.Series([25,26,25,23,30,29,23]),
    'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Criar um DataFrame
 df = pd.DataFrame(d)
 print("Está o objeto vazio?")
 print(df.empty)

Resultado da execução:

 Está o objeto vazio?
 False

ndim

Retorna o número de objetos. De acordo com a definição, o DataFrame é2Objeto D.

 import pandas como pd
 import numpy como np
 # Criar dicionário de Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Idade':pd.Series([25,26,25,23,30,29,23]),
    'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Criar um DataFrame
 df = pd.DataFrame(d)
 print("Nosso objeto é:")
 print df
 print("A dimensão do objeto é:")
 print(df.ndim)

Resultado da execução:

     Nosso objeto é:
      Idade Nome Avaliação
0     25     Tom      4.23
1     26     James    3.24
2     25     Ricky    3.98
3     23     Vin      2.56
4     30 Steve    3.20
5     29     Smith    4.60
6     23     Jack     3.80
A dimensão do objeto é:
2

shape

Retorna um tupla que representa a dimensão do DataFrame. A tupla (a, b), onde a representa o número de linhas e b o número de colunas.

 import pandas como pd
 import numpy como np
  
 # Criar dicionário de Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Idade':pd.Series([25,26,25,23,30,29,23]),
    'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Criar um DataFrame
 df = pd.DataFrame(d)
 print("Nosso objeto é:")
 print df
 print("A forma do objeto é:")
 print(df.shape)

Resultado da execução:

     Nosso objeto é:
   Idade Nome Avaliação
0  25    Tom     4.23
1  26    James   3.24
2  25    Ricky   3.98
3  23    Vin     2.56
4  30 Steve   3.20
5  29    Smith   4.60
6  23    Jack    3.80
A forma do objeto é:
(7, 3)

size

Retorna o número de elementos no DataFrame.

 import pandas como pd
 import numpy como np
  
 # Criar dicionário de Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Idade':pd.Series([25,26,25,23,30,29,23]),
    'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Criar um DataFrame
 df = pd.DataFrame(d)
 print("Nosso objeto é:")
 print df
 print("O número total de elementos no nosso objeto é:")
 print(df.size)

Resultado da execução:

     Nosso objeto é:
    Idade Nome Avaliação
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30 Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
O número total de elementos no nosso objeto é:
21

values

Retorna os dados reais no DataFrame na forma de NDarray.

 import pandas como pd
 import numpy como np
  
 # Criar dicionário de Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Idade':pd.Series([25,26,25,23,30,29,23]),
    'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Criar um DataFrame
 df = pd.DataFrame(d)
 print("Nosso objeto é:")
 print df
 print("Os dados reais no nosso frame de dados são:")
 print(df.values)

Resultado da execução:

     Nosso objeto é:
    Idade Nome Avaliação
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30 Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
Os dados reais no nosso frame de dados são:
[[25 "Tom" 4.23]
[26 "James" 3.24]
[25 "Ricky" 3.98]
[23 "Vin" 2.56]
[30 "Steve" 3.2]
[29 "Smith" 4.6]
[23 "Jack" 3.8]]

Cabeça & Cauda

Para visualizar os dados iniciais e finais do objeto DataFrame, use os métodos head() e tail(). head() retorna as primeiras n linhas (observando o valor do índice). O número padrão de elementos exibidos é5mas você pode passar números personalizados.

 import pandas como pd
 import numpy como np
  
 # Criar dicionário de Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Idade':pd.Series([25,26,25,23,30,29,23]),
    'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Criar um DataFrame
 df = pd.DataFrame(d)
 print("Nosso frame de dados é:")
 print df
 print("Os primeiros dois registros do frame de dados são:")
 print(df.head(2))

Resultado da execução:

     Nosso frame de dados é:
    Idade Nome Avaliação
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30 Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
As primeiras duas linhas do frame de dados são:
   Idade Nome Avaliação
0  25    Tom    4.23
1  26    James  3.24

tail() Retornar as últimas n linhas (observe os valores do índice). O número padrão de elementos exibidos é5mas você pode passar números personalizados.

 import pandas como pd
 import numpy como np
 # Criar dicionário de Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),
    'Idade':pd.Series([25,26,25,23,30,29,23]), 
    'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Criar um DataFrame
 df = pd.DataFrame(d)
 print ("Nossa matriz de dados é:")
 print df
 print ("As últimas duas linhas da matriz de dados são:")
 print(df.tail(2))

Resultado da execução:

Nossa matriz de dados é:
    Idade Nome Avaliação
0   25    Tom     4.23
1   26    James   3.24
2   25    Ricky   3.98
3   23    Vin     2.56
4   30 Steve   3.20
5   29    Smith   4.60
6   23    Jack    3.80
As últimas duas linhas da matriz de dados são:
    Idade Nome Avaliação
5   29    Smith    4.6
6   23    Jack     3.8