EVALUASI KINERJA ALGORITMA MACHINE LEARNING PADA DATASET SKALA BESAR

Authors

  • Desy Lusiyanti Universitas University
  • Selvy Musdalifah Universitas Tadulako
  • Agusman Sahari Universitas Tadulako
  • Iman Al Fajri Universitas Tadulako

DOI:

https://doi.org/10.55719/mv.v7i1.1661

Keywords:

Machine Learning, Big Data, Evaluasi Model , XGBoost , Cross-Validation

Abstract

Di era digital, volume data yang dihasilkan terus meningkat secara eksponensial, menuntut pengembangan metode analisis yang lebih efisien dan akurat. Machine Learning (ML) telah menjadi pendekatan utama dalam pengolahan dataset skala besar, termasuk dalam analisis kualitas air. Penelitian ini bertujuan untuk mengevaluasi performa beberapa algoritma ML dalam mengklasifikasikan kualitas air berdasarkan dataset berskala besar yang diperoleh dari sumber daring. Model yang diuji mencakup Logistic Regression (LR), Decision Tree (DT), Random Forest (RF), XGBoost (XGB), K-Nearest Neighbors (KNN), dan Support Vector Machine (SVM).

Metodologi yang diterapkan mencakup preprocessing data dengan imputasi median untuk menangani missing values serta K-Fold Cross Validation (k=10) untuk memastikan hasil yang lebih generalizable. Evaluasi model dilakukan berdasarkan metrik akurasi, precision, recall, F1-score, dan waktu komputasi. Hasil penelitian menunjukkan bahwa XGBoost memiliki performa terbaik dengan akurasi 67%, diikuti oleh Decision Tree, KNN, dan SVM dengan akurasi 65%, sedangkan Logistic Regression dan Random Forest memiliki akurasi 63%. Temuan ini mengonfirmasi bahwa model berbasis gradient boosting seperti XGBoost lebih unggul dalam menangani kompleksitas dataset skala besar dibandingkan model berbasis regresi atau pohon keputusan tunggal. Penelitian ini berkontribusi dalam memberikan rekomendasi bagi akademisi dan praktisi dalam memilih algoritma ML yang paling efisien dan optimal untuk analisis kualitas air. Rekomendasi untuk penelitian selanjutnya mencakup eksplorasi optimasi hyperparameter, balancing dataset, serta pengujian dengan dataset real-time untuk validasi lebih lanjut.

Downloads

Download data is not yet available.

References

H. Zhang, S. Lee, Y. Lu, X. Yu, and H. Lu, “A Survey on Big Data Technologies and Their Applications to the Metaverse: Past, Current and Future,” Mathematics, vol. 11, no. 1. 2023. doi: 10.3390/math11010096.

S. K. Pani, S. Tripathy, G. Jandieri, S. Kundu, and T. A. Butt, “Applications of Machine Learning in Big-Data Analytics and Cloud Computing,” in Applications of Machine Learning in Big-Data Analytics and Cloud Computing, River Publishers, 2021, pp. i–xxxii. [Online]. Available: http://ieeexplore.ieee.org/document/9478291

N. Raju and P. Devi, “A Comparative Analysis of Machine Learning Algorithms for Big Data Applications in Predictive Analytics,” Int. J. Sci. Res. Manag., vol. 12, pp. 1608–1630, Oct. 2024, doi: 10.18535/ijsrm/v12i10.ec09.

K. Singh and N. S. Singh, “Performance Analysis of Large Scale Machine Learning Optimization Algorithms,” in 2023 IEEE 12th International Conference on Communication Systems and Network Technologies (CSNT), 2023, pp. 226–230. doi: 10.1109/CSNT57126.2023.10134605.

S. Sausan, “Metode Decision Tree Classifier dan XGBoost Classifier Dalam Memprediksi Penyakit Jantung,” Proc. Natl. Conf. Electr. Eng. Informatics, Ind. Technol. Creat. Media, vol. 4, no. 1 SE-Informatics, Jan. 2025, [Online]. Available: https://conferences.ittelkom-pwt.ac.id/index.php/centive/article/view/336

D. Lusiyanti, I. Al Fajri, Andri, and M. Fajri, “Analisis Komparasi Algoritma Clustering Berbasis Partisi Untuk Data Numerik Dan Data Kategorikal,” J. Ilm. Mat. Dan Terap., vol. 20, no. 2, pp. 147–153, 2023, doi: 10.22487/2540766x.2023.v20.i2.16871.

A. L’Heureux, K. Grolinger, H. F. Elyamany, and M. A. M. Capretz, “Machine Learning With Big Data: Challenges and Approaches,” IEEE Access, vol. 5, pp. 7776–7797, 2017, doi: 10.1109/ACCESS.2017.2696365.

D. M. Pratiwi and L. Mufidah, “Perbandingan Metode Decision Tree Classifier dan XGBoost Classifier Dalam Memprediksi Penyakit Jantung,” pp. 991–1000, 2024.

A. Soni, C. Arora, R. Kaushik, and V. Upadhyay, “Evaluating the Impact of Data Quality on Machine Learning Model Performance,” J. Nonlinear Anal. Optim., vol. 14, pp. 13–18, Jan. 2023, doi: 10.36893/JNAO.2023.V14I1.0013-0018.

O. Al-Jarrah, P. Yoo, S. Muhaidat, G. Karagiannidis, and K. Taha, “Efficient Machine Learning for Big Data: A Review,” Big Data Res., vol. 2, pp. 87–93, Sep. 2015, doi: 10.1016/j.bdr.2015.04.001.

K. Manley, C. Nyelele, and B. N. Egoh, “A review of machine learning and big data applications in addressing ecosystem service research gaps,” Ecosyst. Serv., vol. 57, p. 101478, 2022, doi: https://doi.org/10.1016/j.ecoser.2022.101478.

L. Caballero, M. Jojoa, and W. S. Percybrooks, “Optimized neural networks in industrial data analysis,” SN Appl. Sci., vol. 2, no. 2, p. 300, 2020, doi: 10.1007/s42452-020-2060-5.

D. M. Rodgers, R. Jacobucci, and K. J. Grimm, “A Multiple Imputation Approach for Handling Missing Data in Classification and Regression Trees,” J. Behav. Data Sci., vol. 1, no. 1 SE-Theory and Methods, pp. 127–153, doi: 10.35566/jbds/v1n1/p6.

D. W. Hosmer, S. Lemeshow, and R. X. Sturdivant, “Applied Logistic Regression,” 2013, doi: 10.1002/9781118548387.

L. Rokach and O. Maimon, Data mining with decision trees. Theory and applications, vol. 69. 2008. doi: 10.1142/9789812771728_0001.

L. Breiman, “Random Forests,” Mach. Learn., vol. 45, no. 1, pp. 5–32, 2001, doi: 10.1023/A:1010933404324.

T. Chen and C. Guestrin, “XGBoost,” pp. 785–794, 2016, doi: 10.1145/2939672.2939785.

P. Cunningham and S. J. Delany, “K-Nearest Neighbour Classifiers - A Tutorial,” Acm Comput. Surv., vol. 54, no. 6, pp. 1–25, 2021, doi: 10.1145/3459665.

D. Lusyanti and M. I. Irawan, “Perbandingan metode learning vector quantization (LVQ) dan support vector machine (SVM) untuk prediksi penyakit jantung koroner,” Inst. Teknol. Sepuluh Nop. Surabaya (ITS), Tech. Rep, 2014.

C. MELAN, “Evaluasi Metode Random Forest, Xgboost Dan C5. 0 Dalam Klasifikasi Kualitas Air Bersih Untuk Mendukung Pengelolaan Sumber Daya Air,” 2024.

G. Pritalia, “Analisis Komparatif Algoritme Machine Learning dan Penanganan Imbalanced Data pada Klasifikasi Kualitas Air Layak Minum,” KONSTELASI Konvergensi Teknol. dan Sist. Inf., vol. 2, Apr. 2022, doi: 10.24002/konstelasi.v2i1.5630.

Downloads

Published

2025-03-30

How to Cite

Lusiyanti, D., Musdalifah, S., Sahari, A., & Fajri, I. A. (2025). EVALUASI KINERJA ALGORITMA MACHINE LEARNING PADA DATASET SKALA BESAR. MathVision : Jurnal Matematika, 7(1), 84–92. https://doi.org/10.55719/mv.v7i1.1661

Issue

Section

Articles