Aprendizaje automático: ¿qué enfoque se adapta mejor para predecir soluciones discretas y continuas a partir de características de diversa importancia?

Necesito encontrar una fórmula que tome hasta N entradas y calcule un solo número que debería predecir la respuesta "correcta" con la mayor frecuencia posible. Cada entrada es un valor decimal o entero. La salida también es un valor decimal.

Tengo una cantidad absurda de datos (considéralos infinitos). En cada caso tengo el valor de todas las entradas y el valor correcto de la salida.

Todas las características están interrelacionadas (es decir, cuando una es alta, es más probable que la otra sea baja) y tienen diferentes grados de relevancia para la respuesta.

No existe una fórmula "perfecta", pero debe haber una que sea cierta en muchos casos estadísticamente significativos. Si tuviera una "mejor" solución, probablemente sería tanto no lineal como discreta. Esto es, sin embargo, un cálculo de una sola vez.

¿Qué solución de aprendizaje automático es mejor para tomar este tipo de características y crear un modelo preciso para representar datos tan complicados y algo aleatorios?

Editar: al investigar un poco más, parece que cualquier tipo de regresión lineal fallará. Las redes neuronales parecen la mejor opción, pero no sé si pueden predecir esta función "discreta" que tiene diferentes fórmulas en diferentes rangos.

preguntado el 03 de julio de 12 a las 23:07

1 Respuestas

Tener una cantidad casi infinita de datos de entrenamiento y prueba es una gran ventaja. regresión lineal is es poco probable que sea útil para la función irregular que describe, pero antes de descartarla por completo, es posible que desee observar la regresión en las características derivadas en lugar de la entrada en sí. Las funciones de polarización radial a veces son útiles en lugar de o además de sus entradas N básicas.

Sin embargo, mi consejo es echar un vistazo a los árboles de regresión y, en particular, a los bosques aleatorios.

Los árboles de regresión son básicamente árboles de decisión que comienzan en la raíz y hacen alguna comparación en una de sus N entradas para seleccionar una rama a seguir. Esto continúa hasta llegar a una hoja del árbol que tiene un modelo lineal asociado. En el caso más simple, esto puede ser simplemente una función de valor constante que representa el promedio de los datos que terminan en esa hoja, pero los algoritmos de aprendizaje más complejos intentarán seleccionar un modelo lineal para la hoja que minimice el error cuadrático esperado en la hoja ( como la regresión de cresta en algún subconjunto de los N valores de entrada).

La ventaja de los árboles de regresión para su problema es que el árbol divide su entrada en diferentes regiones en las que se pueden aplicar fórmulas diferentes. Con suficientes regiones, las funciones lineales pueden aproximarse a funciones muy complejas.

Los árboles de regresión tienen algunos problemas. El comportamiento del modelo cerca de los límites de decisión que definen sus regiones puede dar saltos poco realistas que no son compatibles con los datos. Además, pueden tener algunos problemas estadísticos. Ambos problemas se alivian en gran medida mediante el uso de bosques aleatorios.

Cada árbol en un bosque aleatorio se crea mediante un conjunto de datos de arranque único. Normalmente, este conjunto de arranque se crea tomando una muestra aleatoria con reemplazo de los datos de entrenamiento, pero en su caso único, puede mejorar esto tomando un nuevo conjunto aleatorio de datos de entrenamiento para crear cada árbol en el bosque. Luego, al hacer crecer el árbol, la variable de decisión que ramifica el árbol en cada nodo se restringe en ese nodo único a un subconjunto aleatorio de las N variables. Dado que cada árbol en el bosque se crea a partir de un conjunto de datos diferente y probablemente se bifurca en datos diferentes, los puntos débiles de los árboles de regresión se distribuyen. Para hacer una predicción, la entrada se da a cada árbol del bosque y la respuesta se obtiene promediando los resultados de todos los árboles. Esto también evita los problemas estadísticos que pueden tener los árboles de regresión.

Los bosques aleatorios están bien considerados y son una de las mejores técnicas de regresión para muchos problemas de prueba.

(Consulte Elements of Statistical Learning: Data Mining, Inference and Prediction 2nd ed. - Trevor Hastie, Robert Tibshirani, Jerome Friedman, Springer 2008).

O para un enfoque un poco más limitado, el informe técnico de Microsoft Decision Forests for Classication, Regression, Density Estimation, Manifold Learning y Semi-Supervised Learning, http://research.microsoft.com/pubs/155552/decisionForests_MSR_TR_2011_114.pdf

Respondido 09 Jul 12, 08:07

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.