English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Exemplo de método básico do Pandas
Até agora, compreendemos três Pandas DataStructures e como criá-las. Devido à sua importância no processamento de dados em tempo real, nos concentraremos principalmente no objeto DataFrame, e discutiremos outras algumas DataStructures.
方法 | 描述 |
axes | Retorna a lista de rótulos do eixo de linha. |
dtype | Retorna o dtype do objeto. |
empty | Se a Series estiver vazia, retorna True. |
ndim | De acordo com a definição, retorna a dimensão da base de dados. |
size | Retorna o número de elementos na base de dados. |
values | Retorna a Series como ndarray. |
head() | 返回前n行。 |
tail() | 返回最后n行。 |
import pandas como pd import numpy como np # 用100 números aleatórios criam uma Series s = pd.Series(np.random.randn(4)) print(s)
Resultado da execução:
0 0.967853 1 -0.148368 2 -1.395906 3 -1.758394 dtype: float64
Retorna a lista de rótulos da Series
import pandas como pd import numpy como np # 用100 números aleatórios criam uma Series s = pd.Series(np.random.randn(4)) print ("Os eixos são:") print(s.axes)
Resultado da execução:
Os eixos são: [RangeIndex(start=0, stop=4, step=1])
O resultado acima é de 0 a5(ou seja, [0,1,2,3,4])。
Retorna um valor booleano, indicando se o objeto está vazio. True indica que o objeto está vazio
import pandas como pd import numpy como np # 用100 números aleatórios criam uma Series s = pd.Series(np.random.randn(4)) print ("O objeto está vazio?") print(s.empty)
Resultado da execução:
O objeto está vazio? False
Retorna a dimensão do objeto. De acordo com a definição, Series é uma1D Estrutura de dados, portanto, ela retorna
import pandas como pd import numpy como np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(4)) print s print ("As dimensões do objeto:") print(s.ndim)
Resultado da execução:
0 0.175898 1 0.166197 2 -0.609712 3 -1.377000 dtype: float64 As dimensões do objeto: 1
Retorna o tamanho (comprimento) da Series.
import pandas como pd import numpy como np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(2)) print s print ("O tamanho do objeto:") print(s.size)
Resultado da execução:
0 3.078058 1 -1.207803 dtype: float64 O tamanho do objeto: 2
Retorna os dados da Series em forma de array
import pandas como pd import numpy como np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(4)) print s print ("A série de dados real é:") print(s.values)
Resultado da execução:
0 1.787373 1 -0.605159 2 0.180477 3 -0.140922 dtype: float64 A série de dados real é: [ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]
Para visualizar os dados iniciais e finais de um objeto Series ou DataFrame, use os métodos head() e tail().
head() Retorna as primeiras n linhas (índices de observação). O número padrão de elementos exibidos é5mas você pode passar números personalizados.
import pandas como pd import numpy como np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(4)) print ("A série inicial é:") print s print ("As duas primeiras linhas da série de dados:") print(s.head(2))
Resultado da execução:
最初的系列是: 0 0.720876 1 -0.765898 2 0.479221 3 -0.139547 dtype: float64 As duas primeiras linhas da série de dados: 0 0.720876 1 -0.765898 dtype: float64
tail() Retornar as últimas n linhas (observe os valores do índice). O número padrão de elementos exibidos é5mas você pode passar números personalizados.
import pandas como pd import numpy como np # 用4个随机数创建一个Series s = pd.Series(np.random.randn(4)) print("最初的系列是:") print(s) print("数据序列的最后两行:") print(s.tail(2)
Resultado da execução:
最初的系列是: 0 -0.655091 1 -0.881407 2 -0.608592 3 -2.341413 dtype: float64 数据序列的最后两行: 2 -0.608592 3 -2.341413 dtype: float64
现在让我们了解什么是DataFrame基本功能。下表列出了有助于DataFrame基本功能的重要属性或方法。
属性/方法 | 描述 |
T | 行和列互相转换 |
axes | 返回以行轴标签和列轴标签为唯一成员的列表。 |
dtypes | 返回此对象中的dtypes。 |
empty | 如果NDFrame完全为空[没有项目],则为true;否则为false。如果任何轴的长度为0。 |
ndim | 轴数/数组尺寸。 |
shape | 返回表示DataFrame维度的元组。 |
size | NDFrame中的元素数。 |
values | NDFrame的数字表示。 |
head() | 返回前n行。 |
tail() | 返回最后n行。 |
下面我们创建一个DataFrame并查看上述属性的所有操作方式。
import pandas como pd import numpy como np # Criar dicionário de Series d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Idade':pd.Series([25,26,25,23,30,29,23]), 'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Criar um DataFrame df = pd.DataFrame(d) print("Our data series is:") print(df)
Resultado da execução:
Our data series is: Idade Nome Avaliação 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80
返回DataFrame的转置。行和列将互换。
import pandas como pd import numpy como np # Criar dicionário de Series d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Idade':pd.Series([25,26,25,23,30,29,23]), 'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Criar um DataFrame df = pd.DataFrame(d) print("数据序列的转置是:") print(df.T)
Resultado da execução:
数据序列的转置是: 0 1 2 3 4 5 6 Age 25 26 25 23 30 29 23 Name Tom James Ricky Vin Steve Smith Jack Rating 4.23 3.24 3.98 2.56 3.2 4.6 3.8
返回行轴标签和列轴标签的列表。
import pandas como pd import numpy como np # Criar dicionário de Series d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Idade':pd.Series([25,26,25,23,30,29,23]), 'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Criar um DataFrame df = pd.DataFrame(d) print("行轴标签和列轴标签是:") print(df.axes)
Resultado da execução:
行轴标签和列轴标签是: [RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'], dtype='object')]
返回每一列的数据类型。
import pandas como pd import numpy como np # Criar dicionário de Series d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Idade':pd.Series([25,26,25,23,30,29,23]), 'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Criar um DataFrame df = pd.DataFrame(d) print("每列的数据类型如下:") print(df.dtypes)
Resultado da execução:
每列的数据类型如下: Age int64 Name object Rating float64 dtype: object
Retorna um valor booleano que indica se o objeto está vazio; True indica que o objeto está vazio.
import pandas como pd import numpy como np # Criar dicionário de Series d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Idade':pd.Series([25,26,25,23,30,29,23]), 'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Criar um DataFrame df = pd.DataFrame(d) print("Está o objeto vazio?") print(df.empty)
Resultado da execução:
Está o objeto vazio? False
Retorna o número de objetos. De acordo com a definição, o DataFrame é2Objeto D.
import pandas como pd import numpy como np # Criar dicionário de Series d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Idade':pd.Series([25,26,25,23,30,29,23]), 'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Criar um DataFrame df = pd.DataFrame(d) print("Nosso objeto é:") print df print("A dimensão do objeto é:") print(df.ndim)
Resultado da execução:
Nosso objeto é: Idade Nome Avaliação 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 A dimensão do objeto é: 2
Retorna um tupla que representa a dimensão do DataFrame. A tupla (a, b), onde a representa o número de linhas e b o número de colunas.
import pandas como pd import numpy como np # Criar dicionário de Series d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Idade':pd.Series([25,26,25,23,30,29,23]), 'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Criar um DataFrame df = pd.DataFrame(d) print("Nosso objeto é:") print df print("A forma do objeto é:") print(df.shape)
Resultado da execução:
Nosso objeto é: Idade Nome Avaliação 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 A forma do objeto é: (7, 3)
Retorna o número de elementos no DataFrame.
import pandas como pd import numpy como np # Criar dicionário de Series d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Idade':pd.Series([25,26,25,23,30,29,23]), 'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Criar um DataFrame df = pd.DataFrame(d) print("Nosso objeto é:") print df print("O número total de elementos no nosso objeto é:") print(df.size)
Resultado da execução:
Nosso objeto é: Idade Nome Avaliação 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 O número total de elementos no nosso objeto é: 21
Retorna os dados reais no DataFrame na forma de NDarray.
import pandas como pd import numpy como np # Criar dicionário de Series d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Idade':pd.Series([25,26,25,23,30,29,23]), 'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Criar um DataFrame df = pd.DataFrame(d) print("Nosso objeto é:") print df print("Os dados reais no nosso frame de dados são:") print(df.values)
Resultado da execução:
Nosso objeto é: Idade Nome Avaliação 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 Os dados reais no nosso frame de dados são: [[25 "Tom" 4.23] [26 "James" 3.24] [25 "Ricky" 3.98] [23 "Vin" 2.56] [30 "Steve" 3.2] [29 "Smith" 4.6] [23 "Jack" 3.8]]
Para visualizar os dados iniciais e finais do objeto DataFrame, use os métodos head() e tail(). head() retorna as primeiras n linhas (observando o valor do índice). O número padrão de elementos exibidos é5mas você pode passar números personalizados.
import pandas como pd import numpy como np # Criar dicionário de Series d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Idade':pd.Series([25,26,25,23,30,29,23]), 'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Criar um DataFrame df = pd.DataFrame(d) print("Nosso frame de dados é:") print df print("Os primeiros dois registros do frame de dados são:") print(df.head(2))
Resultado da execução:
Nosso frame de dados é: Idade Nome Avaliação 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 As primeiras duas linhas do frame de dados são: Idade Nome Avaliação 0 25 Tom 4.23 1 26 James 3.24
tail() Retornar as últimas n linhas (observe os valores do índice). O número padrão de elementos exibidos é5mas você pode passar números personalizados.
import pandas como pd import numpy como np # Criar dicionário de Series d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Idade':pd.Series([25,26,25,23,30,29,23]), 'Avaliação':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Criar um DataFrame df = pd.DataFrame(d) print ("Nossa matriz de dados é:") print df print ("As últimas duas linhas da matriz de dados são:") print(df.tail(2))
Resultado da execução:
Nossa matriz de dados é: Idade Nome Avaliação 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 As últimas duas linhas da matriz de dados são: Idade Nome Avaliação 5 29 Smith 4.6 6 23 Jack 3.8