English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Pandas tem três estruturas de dados comuns
Series DataFrame Panel
Essas estruturas de dados são construídas sobre arrays Numpy, o que significa que eles têm uma velocidade de execução muito rápida.
list: tipo de dados nativo do Python, usado principalmente em uma dimensão, funcionalidade simples, eficiência baixa Dict: tipo de dados nativo do Python, pares de chave / valor multidimensionais, eficiência baixa
ndarray: tipo de dados básico do Numpy, tipo de dados único Foco na estrutura de dados/Operação/Dimensão (relação entre dados)
Series:1Multidimensional, semelhante a tipos de dados com índice1ndarray multidimensional DataFrame:2Multidimensional, tipo de dados de tabela, semelhante a tipos de dados com índice de linha / coluna2ndarray multidimensional, foca na relação entre dados e índice (aplicação real dos dados)
Comparando pela utilidade, força funcional e operacionalidade: list < ndarray < Series/DataFrame
Em trabalhos de organização e análise de dados, o array ndarray é uma suplementação necessária, e a maioria dos dados deve usar tipos de dados Pandas
O melhor método para considerar essas estruturas de dados é que a estrutura de dados de alta dimensão é o contêiner das estruturas de dados de baixa dimensão. Por exemplo, DataFrame é o contêiner de Series, e Panel é o contêiner de DataFrame.
Estrutura de dados | Dimensão | Descrição |
Series | 1 | Usado para armazenar dados unidimensionais de uma sequência |
Data Frames | 2 | DataFrame, como uma estrutura de dados mais complexa, é usada para armazenar dados multidimensionais |
Panel | 3 | Universal3D rótulo, array de tamanho variável. |
Estabelecer e gerenciar arrays bidimensionais é uma tarefa onerosa, e ao escrever funções, é necessário que o usuário considere a direção do conjunto de dados. No entanto, a estrutura de dados Pandas pode reduzir o esforço do usuário.
Por exemplo, para dados de tabela (DataFrame), considerar o índice (linha) e a coluna em termos semânticos é mais importante do que considerar o eixo 0 e o eixo1Mais útil na parte superior.
Todas as estruturas de dados do Pandas são mutáveis (pode ser alterado), exceto Series, cujo tamanho é invariável. Outros tamanhos são variáveis.
Nota -DataFrame é amplamente utilizado e é uma das estruturas de dados mais importantes. O painel é usado muito menos.
Series é uma estrutura de array unidimensional com dados uniformes. Por exemplo, a seguinte série é de inteiros10,23,56,
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Series é uma estrutura de array unidimensional com dados uniformes. Por exemplo, a seguinte série é de inteiros10,23,56,
Coletivo de dados idênticos... Tamanho invariável Valores variáveis
DataFrame é uma matriz bidimensional com dados heterogêneos. Por exemplo:
Nome | Idade | Gênero | Avaliação |
Steve | 32 | Masculino | 3.45 |
Lia | 28 | Feminino | 4.6 |
Vin | 45 | Masculino | 3.9 |
Katie | 38 | Feminino | 2.78 |
A tabela acima representa os dados da equipe de vendas da organização e a classificação geral do desempenho, representados por linhas e colunas, onde cada coluna representa uma propriedade e cada linha representa uma pessoa.
Coluna | Tipo |
Nome | String |
Idade | Integer |
Gênero | String |
Avaliação | Float |
Dado heterogêneo Tamanho invariável Dado variável
O Panel é uma estrutura de dados tridimensional com dados heterogêneos. É difícil representar o painel gráficamente. No entanto, o painel pode ser descrito como um contêiner de DataFrame.
Dado heterogêneo Tamanho variável Dado variável