Decision Trees y Random Forest mediante herramientas Open Source: Acercando el Machine Learning a la explotación en el entorno empresarial

AutorGuadalupe Peláez Ramírez, Francisco Javier Lena-Acebo
Páginas91-104
91
DECISION TREES Y RANDOM FOREST MEDIANTE HERRAMIENTAS OPEN SOURCE: ACERCAN-
DO EL MACHINE LEARNING A LA EXPLOTACIÓN EN EL ENTORNO EMPRESARIAL
Guadalupe Peláez Ramírez
Universidad de Cantabria
Francisco Javier Lena-Acebo
Universidad de Cantabria
DOI: 10.14679/1242
1.!INTRODUCCIÓN
Con el presente caso práctico se pretende comprobar el desempeño de algunos algoritmos de Machine
Learning de aprendizaje supervisado, específicamente, usados en problemas de clasificación. Para este traba-
jo, se hará uso de los árboles de decisión y de los bosques aleatorios, mediante el uso herramientas Open
Source drag and drop (arrastrar y soltar) Knime, Rapid Miner Studio y Orange. Este tipo de herramientas
facilita al usuario la interacción con las aplicaciones de manera intuitiva. Además, se utilizará un conjunto de
datos disponibles en el repositorio “UCI Machine Learning” que alberga una colección de data sets gratuitos
para el uso y ex ploración del aprendizaje automático. Se utili zó el data set llamado “Bank Marketing” que
contiene datos relacionados con las campañas de marketing telefónico de un banco portugués.
El documento está organizado en varias secciones, en donde se presentan la metodología utilizada para
el ciclo de procesamiento de datos, el set de datos elegido, los algoritmos que se utilizaron para el modela-
miento, las generalidades que se deben tener en cuenta para la comprensión del caso, el modelado de los al-
goritmos de árboles de decisión y bosques aleatorios por herramienta, los resultados de modelamiento y las
conclusiones.
2.!METODOLOGÍA
Para el presente ejercicio práctico, se tendrán en cuenta las fases de la metodología de minería de datos
llamada CRISP-DM (CRoss-Industry Standard Process for Data Mining), ya que es una de las más utilizadas
y la que guía de manera sistemática la extracción de datos para la identificación de patrones (Moine et al.,
2011). y que se resume en la Tabla 1.
!∀!SET DE DATOS+
Se selecciona un Data Set del repositorio “UCI Machine Learning Repository” de la Universidad de Cali-
fornia (Dua & Graff, 2017). El conjunto de datos seleccionado está disponible al público para investigación y
fue recopilado por (Moro et al., 2011). Las características del Data Set empleado se resumen en la Tabla 2.
1∀!ALGORITMOS+
La elección del modelo más aprop iado para la resolución de un problema organizacional y el algoritmo
que se usará es una de las actividades más cruciales en la aplicación del aprendizaje automático a nivel em-
presarial. Esto se debe a que dicha selección será el mejor punto de partida para que el Machine Learn ing se
convierta en un aliado para la predicción de resultados para la toma de decisiones. Hay que asegurarse que
el modelo no solo funcionará con los datos históricos con los que fue entrenado y testeado, sino que también
tendrá una buena respuesta cuando se ingresen nuevos datos.

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR