Operações SQL do Pandas Instalação do Pandas

Estrutura de dados do Pandas

Pandas tem três estruturas de dados comuns

Series DataFrame Panel

Essas estruturas de dados são construídas sobre arrays Numpy, o que significa que eles têm uma velocidade de execução muito rápida.

Comparação entre Python, Numpy e Pandas

Python

list: tipo de dados nativo do Python, usado principalmente em uma dimensão, funcionalidade simples, eficiência baixa Dict: tipo de dados nativo do Python, pares de chave / valor multidimensionais, eficiência baixa

Numpy

ndarray: tipo de dados básico do Numpy, tipo de dados único Foco na estrutura de dados/Operação/Dimensão (relação entre dados)

Pandas

Series：1Multidimensional, semelhante a tipos de dados com índice1ndarray multidimensional DataFrame：2Multidimensional, tipo de dados de tabela, semelhante a tipos de dados com índice de linha / coluna2ndarray multidimensional, foca na relação entre dados e índice (aplicação real dos dados)

Comparando pela utilidade, força funcional e operacionalidade: list < ndarray < Series/DataFrame

Em trabalhos de organização e análise de dados, o array ndarray é uma suplementação necessária, e a maioria dos dados deve usar tipos de dados Pandas

O melhor método para considerar essas estruturas de dados é que a estrutura de dados de alta dimensão é o contêiner das estruturas de dados de baixa dimensão. Por exemplo, DataFrame é o contêiner de Series, e Panel é o contêiner de DataFrame.

Estrutura de dados	Dimensão	Descrição
Series	1	Usado para armazenar dados unidimensionais de uma sequência
Data Frames	2	DataFrame, como uma estrutura de dados mais complexa, é usada para armazenar dados multidimensionais
Panel	3	Universal3D rótulo, array de tamanho variável.

Estabelecer e gerenciar arrays bidimensionais é uma tarefa onerosa, e ao escrever funções, é necessário que o usuário considere a direção do conjunto de dados. No entanto, a estrutura de dados Pandas pode reduzir o esforço do usuário.
Por exemplo, para dados de tabela (DataFrame), considerar o índice (linha) e a coluna em termos semânticos é mais importante do que considerar o eixo 0 e o eixo1Mais útil na parte superior.

Variabilidade

Todas as estruturas de dados do Pandas são mutáveis (pode ser alterado), exceto Series, cujo tamanho é invariável. Outros tamanhos são variáveis.

Nota -DataFrame é amplamente utilizado e é uma das estruturas de dados mais importantes. O painel é usado muito menos.

Series

Series é uma estrutura de array unidimensional com dados uniformes. Por exemplo, a seguinte série é de inteiros10,23,56,

10	23	56	17	52	61	73	90	26	72

Series é uma estrutura de array unidimensional com dados uniformes. Por exemplo, a seguinte série é de inteiros10,23,56,

Ponto-chave

Coletivo de dados idênticos... Tamanho invariável Valores variáveis

Data Frames

DataFrame é uma matriz bidimensional com dados heterogêneos. Por exemplo:

Nome	Idade	Gênero	Avaliação
Steve	32	Masculino	3.45
Lia	28	Feminino	4.6
Vin	45	Masculino	3.9
Katie	38	Feminino	2.78

A tabela acima representa os dados da equipe de vendas da organização e a classificação geral do desempenho, representados por linhas e colunas, onde cada coluna representa uma propriedade e cada linha representa uma pessoa.

Tipo de dados da coluna

Coluna	Tipo
Nome	String
Idade	Integer
Gênero	String
Avaliação	Float

Ponto-chave

Dado heterogêneo Tamanho invariável Dado variável

Panel

O Panel é uma estrutura de dados tridimensional com dados heterogêneos. É difícil representar o painel gráficamente. No entanto, o painel pode ser descrito como um contêiner de DataFrame.

Ponto-chave

Dado heterogêneo Tamanho variável Dado variável

Operações SQL do Pandas Instalação do Pandas

Tutorial Pandas

Estrutura de dados do Pandas

Comparação entre Python, Numpy e Pandas

Variabilidade

Series

Data Frames

Panel