¿Dónde se almacenan mis archivos (dir) cuando utilicé hadoop fs -mkdir?

Soy totalmente nuevo en Hadoop y acabo de terminar la instalación, lo que me tomó 2 días... Ahora estoy intentando con el comando Hadoop dfs, pero simplemente no pude entenderlo, aunque estuve navegando durante días, no pude encontrar la respuesta a lo que quiero saber. Todos los ejemplos muestran cuál se supone que debe ser el resultado, sin explicar la estructura real del mismo, por lo que me alegraría si alguien pudiera ayudarme a comprender Hadoop HDF.

He creado un directorio en el HDFS.

bin/hadoop fs -mkdir input

Bien, lo verificaré con el comando ls.

bin/hadoop fs -ls
Found 1 items
drwxr-xr-x   - hadoop supergroup          0 2012-07-30 11:08 input

Bien, no hay problema, todo parece perfecto... PERO, ¿dónde se almacenan realmente los datos HDFS? Pensé que se almacenaría en el directorio my datanode (/home/hadoop/datastore), que se definió en core-site.xml en hadoop.tmp.dir, pero no está allí.

Luego traté de ver a través de WEB-UI y descubrí que la "entrada" se creó en "/usuario/hadoop/" (/usuario/hadoop/entrada).

Mis preguntas son

  • (1) ¿Para qué se usa el directorio de nodos de datos (hadoop.tmp.dir), ya que no almacena todo lo que procesé a través del comando dfs?
  • (2) Todo lo creado con el comando dfs va a /user/XXX/ , ¿cómo cambiar su valor?
  • (3) No puedo ver nada cuando trato de acceder a través del comando normal de Linux (ls /user/hadoop). ¿/user/hadoop existe lógicamente?

Lo siento si mis preguntas son estúpidas... un novato que lucha por entender mejor Hadoop...

Gracias de antemano.

preguntado el 30 de julio de 12 a las 04:07

1 Respuestas

hdfs es no es un sistema de archivos posix y debe usar la API de hadoop para leer y ver este sistema de archivos. Esa es la razón por la que tienes que hacer hadoop fs-ls ya que está utilizando la API de hadoop para leer archivos aquí. Los datos en hdfs se almacenan en bloques y se almacenan en todos los nodos de datos. Los metadatos sobre este sistema de archivos se almacenan en Namenode. Los archivos de datos que ve en el directorio "/home/hadoop/datastore" son bloques almacenados en nodos de datos individuales.

Creo que deberías explorar más sobre su sistema de archivos en su tutorial. Tutorial de Yahoo, YDN sobre hdfs

Respondido 30 Jul 12, 05:07

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.