Uso del algoritmo Adaboost y la regresión logística para la predicción de fuga de clientes en una empresa de telefonía móvil

Autores/as

  • Aldo Richard Meza Rodríguez Dpto. Estadística e Informática. Facultad de Economía y Planificación. Universidad Nacional Agraria la Molina, Apartado postal 12-056 - La Molina, Lima (Perú).
  • Jorge Chue Gallardo Dpto. Estadística e Informática. Facultad de Economía y Planificación. Universidad Nacional Agraria la Molina, Apartado postal 12-056 - La Molina, Lima (Perú).

DOI:

https://doi.org/10.21704/ne.v5i2.1610

Palabras clave:

Algoritmo Adaboost, regresión logística, datos desbalanceados, medidas de desempeño, curva roc, validación cruzada, fuga de clientes.

Resumen

El objetivo de esta investigación tiene como propósito comparar un modelo de predicción de fuga de clientes en una empresa de telefonía móvil. El modelo propuesto fue el algoritmo Adaboost, el cual se desarrolla a través de aprendizaje adaptativo. Para probar su eficiencia se comparó con la regresión logística desde la perspectiva de la minería de datos. Como la variable objetivo de respuesta era desbalanceada se utilizó procedimientos de muestreo para equilibrar los datos (sub-muestreo, sobre-muestreo y SMOTE). Las medidas de desempeño para elegir el modelo fueron la precisión, el recall (sensibilidad), el F-mesausre y el AUC (curvas ROC). La precisión, el recall y el F-mesuare arrojaron rendimientos superiores a favor del algoritmo Adaboost, también la medida principal de desempeño dio un AUC=0,93 para el Adaboost, frente a un AUC=0,86 para la regresión logística. Realizadas todas las comparaciones, la validación y las medidas de desempeño, en conclusión, el modelo óptimo para la predicción de fuga de clientes en la empresa de telefonía móvil es el algoritmo Adaboost. Finalmente, con este algoritmo se detectó que las variables más importantes para entender el patrón de fuga de los clientes fueron el tipo de reclamo, rol del cliente, comunidad (relación del cliente con otros contactos), tipo de cliente, número de reclamos, número de llamadas, nota del cliente y MOU.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Ahmad, A.; Jafar, A.; Aljoumaa, K. 2019. Customer churn prediction in telecom using machine learning in big data platform. Journal of Big Data 6(28). doi: 10.1186/s40537-019-0191-6

Bhatia, A.; Chiu, Y. 2017. Machine Learning with R Cookbook. 2da Edición. Editorial Packt Publishing, Birmingham B3 2PB, UK. 274 p.

Barrientos, F. 2012. Diseño e implementación de una metodología de predicción de fuga de clientes en una compañía de telecomunicaciones. Memoria para optar al título de ingeniero civil industrial. Departamento de Ingeniería Industrial. Universidad de Chile. Disponible en http://repositorio.uchile.cl/handle/2250/104421

Brownlee, J. 2015. 8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset. Machine Learning Process. Disponible en: http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/

Chicco, D.; Jurman, G. 2020. The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC genomics, 21(1): 6. doi: 10.1186/s12864-019-6413-7

Escobar, C.; Lolas, F. 2015. Desarrollo de un sistema prototipo para la detección temprana de la deserción escolar en escuelas públicas chilenas. Memoria de Título, Universidad Adolfo Ibáñez, Santiago de Chile.

Fernández, A.; Río, S.; Chawla, N.; Herrera, F. 2017. An insight into imbalanced Big Data classification: outcomes and challenges. Complex & Intelligent Systems 3: 105-120. doi: 10.1007/s40747-017-0037-9

Freund, Y.; Schapire, R. 1996. Experiments with a New Boosting Algorithm. Machine Learning: Proceedings of the Thirteenth International Conference. Murray Hill, NJ 07974- 0636.

Hadad, A.; Evin, D.; Drozdowicz, B. 2009. Modelo para el tratamiento de datos desbalanceados basado en redes neuronales autoorganizadas. XVII Congreso Argentino de Bioingeniería, Rosario, Santa Fe.

Haibo, H.; Yunqian, M. 2013. Imbalanced Learning: Foundations, Algorithms, and Applications. 1era Edición. Editoria John Wiley & Sons, Hoboken, New Jersey. 86 p.

Hair, J.; Anderson R.; Tatham R.; Black W. 1999. Análisis Multivariante. 5ta edición. Editorial Prentice Hall Iberia , Madrid. 195 p.

Ijaz, M.; Alfian, G.; Syafrudin, M.; Rhee, J. 2018. Hybrid Prediction Model for Type 2 Diabetes and Hypertension Using DBSCAN-Based Outlier Detection, Synthetic Minority Over Sampling Technique (SMOTE), and Random Forest. Applied Sciences 8(8): 1325. doi: 10.3390/app8081325

Hosmer, D.; Lemeshow, S. 2000. Applied Logistic Regression. 2da Edición. Editorial Wiley. ISBN 0-471-35632-8. 88-102 pp.

Hu, H. 2019. Research on Customer Churn Prediction Using Logistic Regression Model. Advances in Intelligent Systems and Computing 885: 344-350. doi: 10.1007/978-3-030-02804-6_46

Kunal, J. 2016. Practical Guide to deal with Imbalanced Classification Problems in R. Analytics Vidhya. Learn Everything About Analytics. Disponible en: https://www.analyticsvidhya.com/blog/2016/03/practical-guide-deal-imbalanced-classification-problems/

Lang, J. 2011. Predictors tutorial, Bioinformatic Department Projects. Disponible en: https://es.wikipedia.org/wiki/Validaci%C3%B3n_cruzada

Lejenue, M. 2001. Measuring the impact of data mining on Churn Management. Research Internet, 11(5): 374-384. doi: 08/10662240110410183

Liu, X.; Wu, J.; Zhou, Z. 2006. Exploratory Under-Sampling for Class-Imbalance Learning. 965-969. 10.1109/ICDM.2006.68

Mao, W.; Wang, J.; Xue, Z. 2017. An ELM-based model with sparse-weighting strategy for sequential data imbalance problem. Int. J. Mach. Learn. & Cyber. 8:1333–1345. doi: 10.1007/s13042-016-0509-z

Meza, A. 2018. Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica. Tesis para optar el grado de Magister. Universidad Agraria la Molina. Disponible en: http://repositorio.lamolina.edu.pe/handle/UNALM/3245

Neslin, S.; Gupta, S.; Kamakura, W.; Lu, J.; Mason, C. 2006. Defection Detection: Measuring and Understanding the Predictive Accuracy of Customer Churn Models. Journal of Marketing Research American Marketing Association ISSN 43(2): 204-211. doi: 10.1509/jmkr.43.2.204

Osiptel. 2019. PERÚ: Portabilidad móvil se mantiene arriba de las 800,000 portaciones por cuarto mes consecutivo. Disponible en: https://www.osiptel.gob.pe/noticia/np-portabilidad-movil-mantiene-arriba-800000-portaciones-cuarto-mes

Obregón, S. 2016. Desarrollo de una Herramienta de Diagnóstico de Fallos en Motores de Inducción Mediante la técnica Adaboost. Trabajo fin de Máster para obtener el título de Ingeniero Industrial. Universidad de Valladolid. Disponible en: http://uvadoc.uva.es/handle/10324/18912

Pérez, P. 2014. Modelo de predicción de fuga de clientes de telefonía móvil post pago. Memoria para Optar al Título de Ingeniero Civil Industrial. Departamento de Ingeniería Industrial. Universidad de Chile. Disponible en: Disponible en http://repositorio.uchile.cl/handle/2250/115942

Powers, D. 2008. Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation. Mach. Learn. Technol 2.

Tharwat, A. 2018. Classification assessment methods. Applied Computing and Informatics. doi: 10.1016/j.aci.2018.08.003

Valavi, R.; Elith, J.; Lahoz-Monfort, J.; Guillera-Arroita, G. 2018. blockCV: an R package for generating spatially or environmentally separated folds for k-fold cross-validation of species distribution models. Methods in Ecology and Evolution 10(2): 225-232. doi: 10.1111/2041-210X.13107

Wu, Z.; Lin, W.; Ji, Y. 2018. An Integrated Ensemble Learning Model for Imbalanced Fault Diagnostics and Prognostics. in IEEE Access 6: 8394-8402. doi: 10.1109/ACCESS.2018.2807121

Descargas

Publicado

2020-12-30

Número

Sección

Artículos