English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Estrutura de dados do Pandas

Pandas tem três estruturas de dados comuns

Series DataFrame Panel

Essas estruturas de dados são construídas sobre arrays Numpy, o que significa que eles têm uma velocidade de execução muito rápida.

Comparação entre Python, Numpy e Pandas

Python

list: tipo de dados nativo do Python, usado principalmente em uma dimensão, funcionalidade simples, eficiência baixa Dict: tipo de dados nativo do Python, pares de chave / valor multidimensionais, eficiência baixa

Numpy

ndarray: tipo de dados básico do Numpy, tipo de dados único Foco na estrutura de dados/Operação/Dimensão (relação entre dados)

Pandas

Series:1Multidimensional, semelhante a tipos de dados com índice1ndarray multidimensional DataFrame:2Multidimensional, tipo de dados de tabela, semelhante a tipos de dados com índice de linha / coluna2ndarray multidimensional, foca na relação entre dados e índice (aplicação real dos dados)

Comparando pela utilidade, força funcional e operacionalidade: list < ndarray < Series/DataFrame

Em trabalhos de organização e análise de dados, o array ndarray é uma suplementação necessária, e a maioria dos dados deve usar tipos de dados Pandas

O melhor método para considerar essas estruturas de dados é que a estrutura de dados de alta dimensão é o contêiner das estruturas de dados de baixa dimensão. Por exemplo, DataFrame é o contêiner de Series, e Panel é o contêiner de DataFrame.

Estrutura de dados DimensãoDescrição
Series1Usado para armazenar dados unidimensionais de uma sequência
Data Frames2DataFrame, como uma estrutura de dados mais complexa, é usada para armazenar dados multidimensionais
Panel3Universal3D rótulo, array de tamanho variável.

Estabelecer e gerenciar arrays bidimensionais é uma tarefa onerosa, e ao escrever funções, é necessário que o usuário considere a direção do conjunto de dados. No entanto, a estrutura de dados Pandas pode reduzir o esforço do usuário.
Por exemplo, para dados de tabela (DataFrame), considerar o índice (linha) e a coluna em termos semânticos é mais importante do que considerar o eixo 0 e o eixo1Mais útil na parte superior.

Variabilidade

Todas as estruturas de dados do Pandas são mutáveis (pode ser alterado), exceto Series, cujo tamanho é invariável. Outros tamanhos são variáveis.

Nota -DataFrame é amplamente utilizado e é uma das estruturas de dados mais importantes. O painel é usado muito menos.

Series

Series é uma estrutura de array unidimensional com dados uniformes. Por exemplo, a seguinte série é de inteiros10,23,56,

10235617526173902672

Series é uma estrutura de array unidimensional com dados uniformes. Por exemplo, a seguinte série é de inteiros10,23,56,

Ponto-chave

Coletivo de dados idênticos... Tamanho invariável Valores variáveis

Data Frames

DataFrame é uma matriz bidimensional com dados heterogêneos. Por exemplo:

NomeIdadeGêneroAvaliação
Steve32Masculino3.45
Lia28Feminino4.6
Vin45Masculino3.9
Katie38Feminino2.78

A tabela acima representa os dados da equipe de vendas da organização e a classificação geral do desempenho, representados por linhas e colunas, onde cada coluna representa uma propriedade e cada linha representa uma pessoa.

Tipo de dados da coluna
ColunaTipo
Nome String
Idade Integer
Gênero String
Avaliação Float
Ponto-chave

Dado heterogêneo Tamanho invariável Dado variável

Panel

O Panel é uma estrutura de dados tridimensional com dados heterogêneos. É difícil representar o painel gráficamente. No entanto, o painel pode ser descrito como um contêiner de DataFrame.

Ponto-chave

Dado heterogêneo Tamanho variável Dado variável