Preguntas con respuestas sobre "hadoop-streaming"

59 preguntas, página #1

0

votos

2

respuestas

vistas 161

transmisión de hadoop obteniendo un número óptimo de ranuras

Tengo un trabajo de reducción de mapa de transmisión. Tengo unas 30 ranuras para el procesamiento. Inicialmente obtengo un único archivo de entrada que contiene 60 registros (los campos están separados por tabuladores), el primer campo de cada registro es un número, el primer número de registro (primer campo) es 1, el segundo número de registro (primer campo) es 2, etc. . YO ...

preguntado 10 años, 9 meses

1

votos

3

respuestas

vistas 689

¿Cómo puedo crear un comando de shell de Linux a partir de dos comandos que se comporte como una tubería estándar?

Estoy tratando de usar Hadoop Streaming para ejecutar dos comandos como gunzip | map_to_old_format.py, pero falla con gzip diciendo "|.gz no encontrado" o algo por el estilo (solo cuando se ejecuta a través de Hadoop... si ejecuto en la línea de comando, funciona bien). ...

preguntado 10 años, 10 meses

0

votos

1

respuestas

vistas 739

División/partición de archivos en hadoop

En el sistema de archivos hadoop, tengo dos archivos, digamos X e Y. Normalmente, hadoop crea fragmentos de archivos X e Y de 64 MB de tamaño. ¿Es posible forzar a Hadoop a dividir los dos archivos de modo que se cree un fragmento de 64 MB a partir de 32 MB de X y 32 MB de Y? En otras palabras, ¿es posible anular el valor predeterminado...?

preguntado 10 años, 11 meses

0

votos

2

respuestas

vistas 725

Limitar la cantidad de mapeadores que se ejecutan en Hadoop Streaming

¿Es posible limitar la cantidad de mapeadores que se ejecutan para un trabajo en un momento dado usando Hadoop Streaming? Por ejemplo, tengo un clúster de 28 nodos que puede ejecutar 1 tarea por nodo. Si tengo un trabajo con 100 tareas, me gustaría usar solo 20 de los 28 nodos en cualquier momento. Me gustaría hacer un límite...

preguntado 11 años, 0 meses

1

votos

3

respuestas

vistas 1,149

¿Amazon Elastic Map Reduce ejecuta uno o varios procesos de mapeador por instancia?

Mi pregunta es: ¿debería preocuparme por el multiprocesamiento en mi mapeador (leer las tareas de stdin y luego distribuirlas en los procesos de trabajo, combinar los resultados en un proceso maestro y enviarlos a stdout) o Hadoop se encargará de ello automáticamente? ...

preguntado 11 años, 1 meses