English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Tutorial do Pandas

Pandas é um software de código aberto licenciado sob BSD Python Biblioteca de suporte para análise de dados, que fornece estruturas de dados e ferramentas de análise de dados de alta performance e fácil uso para o linguagem de programação Python. Python com Pandas é usado em uma ampla gama de áreas, incluindo academia, negócios, finanças, economia, estatística, análise, etc. Pandas é um conjunto poderoso de ferramentas para análise de dados estruturados; sua base é o Numpy (que fornece operações matriciais de alta performance); usado para mineração de dados e análise de dados, e também oferece funções de limpeza de dados. Neste tutorial, vamos aprender sobre as várias funcionalidades do Python Pandas e como usá-las na prática.

Este tutorial é preparado para aqueles que desejam aprender os conhecimentos básicos e várias funcionalidades do pandas. Isso é especialmente útil para profissionais que lidam com limpeza e análise de dados. Ao completar este tutorial, você descobrirá que possui um nível de conhecimento intermediário, a partir do qual você pode obter um nível mais alto de conhecimento.

Antes de aprender pandas, você deve ter uma compreensão básica dos termos de programação de computador. Uma compreensão básica de qualquer linguagem de programação é um ponto extra. A biblioteca pandas usa a maioria das funcionalidades do NumPy. Recomenda-se que você leia tutoriais sobre NumPy antes de continuar com este tutorial.

O Pandas é adequado para lidar com os seguintes tipos de dados:

Dados tabulares semelhantes a tabelas SQL ou Excel, contendo colunas heterogêneas; Os elementos do array NumPy devem ter o mesmo tipo de dados, portanto, têm o mesmo tamanho em memória; Séries temporais ordenadas e não ordenadas (não de frequência fixa); Matrizes de dados com rótulos de linha e coluna, incluindo dados homogêneos ou heterogêneos; Qualquer outro tipo de conjunto de dados de observação ou estatística, não é necessário marcar previamente ao transferir para a estrutura de dados Pandas;

Por que usar Pandas?

A estrutura de dados principal do Pandas é Series (dados unidimensionais) e DataFrame (dados bidimensionais), que são suficientes para lidar com a maioria dos casos típicos em finanças, estatísticas, ciências sociais, engenharia e outros campos. Para usuários do R, o DataFrame oferece funcionalidades mais ricas do que o data.frame do R. O Pandas é desenvolvido com base no NumPy e pode ser integrado perfeitamente com outras bibliotecas de cálculo científico de terceiros. O Pandas é como uma tesoura suíça universal, e aqui estão apenas algumas de suas vantagens:

Tratar dados ausentes em dados de ponto flutuante e não-ponto flutuante, representados como NaN; Tamanho variável: inserir ou excluir colunas de objetos multidimensionais como DataFrame; Alinhamento de dados automático e explícito: alinhar explicitamente objetos com um conjunto de etiquetas, ou ignorar as etiquetas, alinhando automaticamente com os dados em cálculos de Series e DataFrame; Funcionalidade poderosa e flexível de agrupamento (group by): dividir-Aplicar-Combinar conjuntos de dados, agregar e transformar dados; Converter facilmente dados irregulares e com índices diferentes em estruturas de dados Python e NumPy em objetos DataFrame; Realizar operações como fatiar, criar índices criativos e decompor subconjuntos em grandes conjuntos de dados com base em etiquetas inteligentes; Mesclar intuitivamente (merge),**Conectar (join)**Conjunto de Dados; Reestruturar flexivelmente (reshape),**Perspectiva (pivot)**Conjunto de Dados; Suporte a Eixos com Etiquetas Estruturadas: Uma escala suporta várias etiquetas; Ferramentas IO M maduras: Leitura de arquivos de texto (CSV e outros arquivos que suportam delimitadores), arquivos Excel, banco de dados e outros dados de origem, utilizando o HDF rápido e super rápido.5 Formatação de Salvação / Carregamento de Dados; Séries Temporais: Suporta geração de intervalos de datas, conversão de frequência, estatísticas de janela móvel, regressão linear de janela móvel, deslocamento de datas e outras funcionalidades de séries temporais.

Essas funcionalidades são principalmente para resolver os pontos de dor de outras linguagens de programação e ambientes de pesquisa. O processamento de dados geralmente é dividido em várias fases: organização e limpeza de dados, análise e modelagem de dados, visualização de dados e tabulação, o Pandas é a ferramenta ideal para o processamento de dados.

Outras Notas:

O Pandas é rápido. Muitos algoritmos subjacentes do Pandas são otimizados com Cython. No entanto, para manter a universalidade, é necessário sacrificar alguns desempenhos, e se se concentrar em uma função específica, é possível desenvolver ferramentas especializadas mais rápidas que o Pandas. O Pandas é dependência do statsmodels, portanto, também é uma parte importante do ecossistema de cálculo estatístico do Python. O Pandas já é amplamente aplicado no campo financeiro.

Exemplo Simples do Pandas

  $ pip install pandas
  $ python -i
  >>> pandaspd
 >>> df = pd.() 
 >>> print(df)
  DataFrame Vazio
 Colunas: []
 Índice: []