README

NSF I-GUIDE Convergence Curriculum – Geospatial Data Science

Module: Intro to Data Preprocessing and Clustering (Titanic Dataset)

This module introduces foundational techniques in data preprocessing and unsupervised learning using the Titanic dataset. Learners practice cleaning real-world data, preparing features for modeling, and applying K-Means clustering to uncover patterns.

Overview

Dataset: Kaggle Titanic Dataset
Objective:

Preprocess and explore tabular data.
Apply K-Means clustering.
Interpret cluster characteristics and patterns.

Tasks

Task 1 — Data Preprocessing

Students load the Titanic dataset and perform standard cleaning steps:

Inspect data structure and basic statistics
Handle missing values (Age, Embarked, Fare)
Drop high-cardinality or unused columns (Name, Ticket, Cabin)
Encode categorical variables (Sex, Embarked)
Normalize numerical features (Age, Fare) using MinMaxScaler

This prepares the dataset for clustering by ensuring all features are numeric, scaled, and free of missing values.

Task 2 — Clustering

Learners:

Select relevant features
Apply K-Means with 3 clusters
Visualize clusters (Age vs. Fare)
Compute mean feature values per cluster to understand typical passenger profiles
Explore feature distributions using box plots segmented by cluster

These steps introduce how unsupervised learning groups similar passengers based on socioeconomic indicators, demographics, and travel details.

Task 3 — Interpretation

Students analyze:

How clusters differ in class, age, fare, family size, and encoded attributes
Whether clusters align with survival patterns
How additional features or alternative techniques (e.g., hierarchical clustering, PCA) might improve insights

Example themes include socioeconomic patterns, demographic groupings, and relationships between cluster membership and survival outcomes.

Requirements

Python 3.x
pandas
matplotlib
seaborn
scikit-learn

Dataset Reference

Column descriptions and dataset details:
https://www.kaggle.com/competitions/titanic/data

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
Convergence Curriculum - Data Mining - One-Hour Activity.ipynb		Convergence Curriculum - Data Mining - One-Hour Activity.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

README

NSF I-GUIDE Convergence Curriculum – Geospatial Data Science

Module: Intro to Data Preprocessing and Clustering (Titanic Dataset)

Overview

Tasks

Task 1 — Data Preprocessing

Task 2 — Clustering

Task 3 — Interpretation

Requirements

Dataset Reference

About

Uh oh!

Releases

Packages

Languages

vavramusser/ccdatamining

Folders and files

Latest commit

History

Repository files navigation

README

NSF I-GUIDE Convergence Curriculum – Geospatial Data Science

Module: Intro to Data Preprocessing and Clustering (Titanic Dataset)

Overview

Tasks

Task 1 — Data Preprocessing

Task 2 — Clustering

Task 3 — Interpretation

Requirements

Dataset Reference

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages