Big Data Analysis Using PySpark

📌 Project Overview

This project demonstrates Big Data processing using PySpark on the BigMart Sales dataset. The analysis includes data preprocessing, aggregation, feature engineering, and a machine learning model to predict sales.

🛠 Tools Used

Python
PySpark
Spark MLlib
Jupyter Notebook

📊 Dataset

BigMart Sales Dataset including:

Item Identifier
Item Type
Item MRP
Outlet Type
Location Tier
Item Outlet Sales

🔍 Analysis Performed

Data Cleaning
Missing Value Handling
Aggregation & GroupBy Operations
Sales Trend Analysis
Linear Regression Model

📈 Key Insights

Supermarket Type outlets generate higher revenue
Tier 3 cities show strong sales trends
Item MRP significantly impacts sales
PySpark efficiently processes large-scale data

🎯 Conclusion

This project demonstrates scalable data processing using distributed computing with PySpark, suitable for large datasets in real-world business environments.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
BigData_Analysis_PySpark_BigMart.ipynb		BigData_Analysis_PySpark_BigMart.ipynb
Big_Data_Analysis_PySpark_BigMart_Presentation.pptx		Big_Data_Analysis_PySpark_BigMart_Presentation.pptx
LICENSE		LICENSE
README.md		README.md
bigmart_data.csv		bigmart_data.csv
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Big Data Analysis Using PySpark

📌 Project Overview

🛠 Tools Used

📊 Dataset

🔍 Analysis Performed

📈 Key Insights

🎯 Conclusion

About

Uh oh!

Releases

Packages

Languages

License

pavithralanalytics/Big-Data-Analysis-PySpark

Folders and files

Latest commit

History

Repository files navigation

Big Data Analysis Using PySpark

📌 Project Overview

🛠 Tools Used

📊 Dataset

🔍 Analysis Performed

📈 Key Insights

🎯 Conclusion

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages