Pipeline model dari transaksi ke segmentasi.
Halaman ini menjelaskan alur ML yang dipakai aplikasi. Implementasi deployment mengikuti pipeline notebook, dengan catatan bahwa model saat ini memakai KMeans baseline, belum full K-means-QLDE.
Raw transaction data
Online Retail.xlsx dengan invoice, product, quantity, price, customer, country.
Cleaning
Pisahkan transaksi valid dan cancelled, hapus data yang tidak bisa dihitung.
Feature engineering
Hitung Var1-Var11 per customer: recency, frequency, spend, cancel, dan fitur RFM-like lain.
Clipping p1-p99
Batasi outlier ekstrem sebelum scaling agar clustering tidak didominasi customer anomali.
StandardScaler
Normalisasi Z-score supaya fitur dengan skala besar tidak mendominasi jarak KMeans.
PCA 6 components
Reduksi 11 fitur ke 6 principal components mengikuti pipeline notebook/paper.
KMeans K=6
Model deployment memakai KMeans baseline untuk inference C1-C6.
Business mapping
Cluster mentah dipetakan menjadi profil bisnis dan strategi marketing.
Decision Tree validation
Classifier supervised dilatih untuk memvalidasi label cluster C1-C6 hasil pipeline PCA + KMeans.
Decision Tree di sini bukan model segmentasi utama. Ia dilatih setelah clustering untuk melihat apakah label C1-C6 dari PCA + KMeans punya pola supervised yang konsisten dan bisa dipelajari dari komponen PCA.