Saltar contenido

Tableau Update Pills: Predicciones sobre Datos I

Las funciones de modelado predictivo de Tableau utilizan la regresión lineal para crear modelos predictivos y generar predicciones sobre sus datos. Hay dos cálculos de tabla, MODEL_PERCENTILE y MODEL_QUANTILE, que pueden generar predicciones y relaciones de superficie dentro de sus datos. Se pueden utilizar para identificar valores atípicos, estimar valores para datos dispersos o que faltan y predecir valores para períodos de tiempo futuros.

Funciones del Modelado Predictivo

Regresión lineal

La regresión lineal también conocida como regresión de mínimos cuadrados ordinarios, u OLS) se suele utilizar cuando hay uno o más predictores que tienen una relación lineal entre la predicción y el destino de predicción, no se ven afectados por las mismas condiciones subyacentes y no representan dos instancias de los mismos datos.

Regresión lineal regularizada

Se suele utilizar cuando hay una relación lineal aproximada entre dos o más variables independientes, también conocida como multicolinealidad.

Regresión del proceso gaussiano

Se suele utilizar al generar predicciones en un dominio continuo, como el tiempo o el espacio, o cuando hay una relación no lineal entre la variable y el destino de predicción. La regresión del proceso gaussiano en Tableau debe tener una única dimensión ordenada como predictor, pero puede incluir varias dimensiones desordenadas como predictores. 

Ejemplo: estudiar la esperanza de vida femenina con funciones de modelado predictivo

Uso de MODEL_PERCENTILE

  • Paso 1: crear el cálculo de predicción.
  • Paso 2: agregar el cálculo de predicción a la vista.
  • Paso 3: agrupar los resultados por color.
  • Paso 4: comparar la esperanza de vida con la tasa de natalidad.

Regularización y aumento en el modelado predictivo (usuarios avanzados en área de ciencia de datos)

Además de los argumentos predeterminados, como la expresión de destino (la medida que se va a predecir) y la expresión de predictor (la medida o las dimensiones utilizadas para realizar la predicción), puede agregar dos argumentos más para ajustar las predicciones: lambda, un parámetro de regularización y aumento.

¿Qué modelos funcionan con regularización y aumento?

La regularización y el aumento no se pueden aplicar a la regresión del proceso gaussiano.

  • La regresión lineal se suele utilizar cuando hay uno o más predictores que tienen una relación lineal entre la predicción y el destino de predicción, no se ven afectados por las mismas condiciones subyacentes y no representan dos instancias de los mismos datos
  • La regresión lineal regularizada sirve para mejorar la estabilidad, reducir el impacto de la colinealidad y mejorar la eficiencia computacional y la generalización. En Tableau, se utiliza la regularización L2.

¿Qué es la regularización?

La regresión ridge es un tipo específico de regresión lineal regularizada. La regularización impone una penalización sobre el tamaño de los coeficientes del modelo. La fuerza de la regularización está controlada por lambda, un escalar utilizado para ajustar el impacto general de la regularización. Cuanto mayor sea el valor, más pesada será la penalización (es decir, mayor será la regularización).

¿Qué es el aumento?

El aumento en MODEL_QUANTILE y MODEL_PERCENTILE es un ejemplo sencillo de aumento de datos: los predictores se expanden a polinomios de orden superior. En Tableau, hay un par de tipos de aumentos polinómicos integrados en las funciones de modelado predictivo.

  • Para las dimensiones ordenadas, los polinomios de Legendre hasta el orden 3 permiten al modelo lineal recoger relaciones cuadráticas y cúbicas entre el predictor aumentado y la respuesta.
  • Para las medidas , los polinomios de Hermite de 2º grado permiten al modelo lineal recoger relaciones cuadráticas entre el predictor aumentado y la respuesta.

Herramientas de Ciencia de Datos–Extensiones de Análisis

RServe

R es un lenguaje de programación de software de código abierto y un entorno de software para cálculos estadísticos y gráficos. Implementar conexiones Rserve: En R, es necesario acceder a un servidor que permita a las aplicaciones acceder a la funcionalidad de R. Tableau Desktop se puede conectar a R mediante texto sin formato o tráfico cifrado con SSL.

MATLAB

MATLAB es un lenguaje de alto nivel que le conecta mediante la API de extensiones de análisis y le permite llevar a cabo tareas con una gran carga computacional con mayor rapidez que con los lenguajes de programación tradicionales, como C, C++ o Fortran. Puede utilizar MATLAB en una amplia gama de aplicaciones, incluido el procesamiento de señales e imágenes, comunicaciones, diseño de control, pruebas y medición, modelado y análisis financiero y biología computacional.

TabPy

Python es un lenguaje de programación de alto nivel muy conocido para la programación general. Al enviar comandos de Python a una extensión de análisis, puede realizar acciones como predecir el cambio de proveedor de un cliente o la ejecución de análisis de opiniones.

Funciones SCRIPT en expresiones

En Tableau hay disponible un conjunto de cuatro funciones SCRIPT para pasar expresiones a extensiones de análisis y obtener un resultado. Las funciones son:

SCRIPT_BOOL     SCRIPT_INT     SCRIPT_REAL     SCRIPT_STR

Puesto que estas funciones SCRIPT son funciones de cálculo de tablas, se aplican los conceptos de direccionamiento y particionamiento. Tableau realiza una llamada a una extensión de análisis por división. Esto significa que para cada dimensión en la que se realiza la partición del cálculo, se realizará una llamada para cada miembro de esa dimensión presente en la visualización. Por esta razón, se recomienda asignar dimensiones al direccionamiento a menos que sea necesario realizar particiones.

Dado que la conexión a una extensión de análisis implica cierta sobrecarga de la red, lo más eficiente suele ser pasar todos los datos a la vez en lugar de como valores de fila individuales siempre que sea posible.

La forma más fácil de garantizar que se realicen llamadas eficientes a la extensión de análisis es navegar a Editar cálculo de tabla, seleccionar Dimensiones específicas y luego marcar la casilla junto a cada dimensión para poner esa dimensión en el direccionamiento. Esto generará una única llamada de extensión de análisis para toda la visualización. Cualquier dimensión que no esté marcada será particionada, generando una llamada separada para cada miembro en la visualización.

Ejemplo de Clustering:

¿Tienes alguna pregunta o deseas recibir más información sobre nuestros servicios? No lo dudes contacta con nosotros.