junio 06, 2013

SAP HANA PAL – Algoritmo k-means, o cómo segmentar clientes en la industria de las telecomunicaciones

By Lucas Sparvieri

PAL es un componente opcional provisto por SAP HANA. Su propósito principal es permitir a los modeladores realizar análisis predictivos sobre grandes volúmenes de datos. Si ésta es la primera vez que oyen hablar de PAL, les recomiendo la documentación oficial. También pueden ver mi post anterior, donde hablo del Algoritmo Apriori.
En este post me voy a enfocar en cómo se usa el Algoritmo K-Means incluido en PAL, porque es uno de los más populares y más comúnmente usados en minería de datos (data mining).
Según Wikipedia, “clustering es la tarea de agrupar un conjunto de objetos de forma que los objetos de un mismo grupo (llamado cluster) sean más similares entre sí (en un sentido determinado) que respecto de los objetos de otros clusters”. En otras palabras, se trata de agrupar datos en múltiples clusters.
El caso más común para aplicar algoritmos de clustering es la segmentación de clientes, es decir, la tarea de dividir la base de clientes en grupos mediante un algoritmo que tome en cuenta cuán similares sean los clientes, o bien cuán similares sean sus comportamientos, por ejemplo, respecto de su edad, género, intereses, hábitos de consumo, etc.