Pipeline model dari transaksi ke segmentasi.

Halaman ini menjelaskan alur ML yang dipakai aplikasi. Implementasi deployment mengikuti pipeline notebook, dengan catatan bahwa model saat ini memakai KMeans baseline, belum full K-means-QLDE.

Raw transaction data

Online Retail.xlsx dengan invoice, product, quantity, price, customer, country.

Cleaning

Pisahkan transaksi valid dan cancelled, hapus data yang tidak bisa dihitung.

Feature engineering

Hitung Var1-Var11 per customer: recency, frequency, spend, cancel, dan fitur RFM-like lain.

Clipping p1-p99

Batasi outlier ekstrem sebelum scaling agar clustering tidak didominasi customer anomali.

StandardScaler

Normalisasi Z-score supaya fitur dengan skala besar tidak mendominasi jarak KMeans.

PCA 6 components

Reduksi 11 fitur ke 6 principal components mengikuti pipeline notebook/paper.

KMeans K=6

Model deployment memakai KMeans baseline untuk inference C1-C6.

Business mapping

Cluster mentah dipetakan menjadi profil bisnis dan strategi marketing.

Decision Tree validation

Classifier supervised dilatih untuk memvalidasi label cluster C1-C6 hasil pipeline PCA + KMeans.

Validation

Decision Tree sebagai validasi cluster.

Decision Tree di sini bukan model segmentasi utama. Ia dilatih setelah clustering untuk melihat apakah label C1-C6 dari PCA + KMeans punya pola supervised yang konsisten dan bisa dipelajari dari komponen PCA.

Untuk klaim akademik, sebutkan bahwa aplikasi ini adalah deployment/inference praktis dari pipeline notebook. Full K-means-QLDE belum menjadi model inference utama; Decision Tree dipakai sebagai validasi supervised terhadap label cluster.