Estudos e projetos feitos com PySpark.

Last update: Nov 06, 2022

Related tags

Overview

PySpark (Spark com Python)

PySpark é uma biblioteca Spark escrita em Python, e seu objetivo é permitir a análise interativa dos dados em um ambiente distribuído. Seu uso é extremamente importante quando o assunto é grande volume de dados, BigData, por conta do seu processamento eficiente de grandes conjuntos de dados.

Documentação

Data

Os dados para esse tutorial foram obtidos no Kaggle, a base é pequena, então teoricamente utilizar o pyspark nesse caso seria "matar uma mosca com um canhão", mas como o objetivo é explorar as principais funções, esse dataset vai nos atender bem.

Para fazer download desse conjunto de dados você precisa ter uma conta no kaggle.

Tópicos

Vamos explorar as principais funções:

Count
Describe
Select
OrderBy
WithColumnRenamed
WithColumn
When
Drop
Filter
Where
GroupBy

Requisitos

Você precisará de Python 3 e pip. É altamente recomendado utilizar ambientes virtuais com o virtualenv ou com o conda e o arquivo requirements.txt para instalar os pacotes dependências do projeto:

Conda

$ conda create --name nameenv python
$ conda activate nameenv
$ pip install -r requirements.txt

Virtualenv

$ pip3 install virtualenv
$ virtualenv venv -p python3
$ source venv/bin/activate
$ pip install -r requirements.txt

Observação

Para executar o PySpark, você também precisa que o Java seja instalado.

Estudos e projetos feitos com PySpark.

Related tags

Overview

PySpark (Spark com Python)

Data

Para fazer download desse conjunto de dados você precisa ter uma conta no kaggle.

Tópicos

Requisitos

Observação

Owner

Karinne Cristina

Sleep stages are classified with the help of ML. We have used 4 different ML algorithms (SVM, KNN, RF, NN) to demonstrate them

Stock Price Prediction Bank Jago Using Facebook Prophet Machine Learning & Python

Graphsignal is a machine learning model monitoring platform.

Learning --> Numpy January 2022 - winter'22

Sequence learning toolkit for Python

Titanic Traveller Survivability Prediction

Case studies with Bayesian methods

Simple Machine Learning Tool Kit

Using Logistic Regression and classifiers of the dataset to produce an accurate recall, f-1 and precision score

A collection of Scikit-Learn compatible time series transformers and tools.

Time series changepoint detection

AI and Machine Learning with Kubeflow, Amazon EKS, and SageMaker

ELI5 is a Python package which helps to debug machine learning classifiers and explain their predictions

Python-based implementations of algorithms for learning on imbalanced data.

PyNNDescent is a Python nearest neighbor descent for approximate nearest neighbors.

Python package for concise, transparent, and accurate predictive modeling

BioPy is a collection (in-progress) of biologically-inspired algorithms written in Python

Automated machine learning: Review of the state-of-the-art and opportunities for healthcare

Bayesian Modeling and Computation in Python

Esse é o meu primeiro repo tratando de fim a fim, uma pipeline de dados abertos do governo brasileiro relacionado a compras de contrato e cronogramas anuais com spark, em pyspark e SQL!