Ejemplo MapReduce Hadoop 3

Clase Map

Analizado el texto del cual obtendremos la informacion, vamos a crear la clase map la cual nos agrupara los paises por region, descartando todas las partes del texto que no sean necesarias.

En esta clase map lo que se va a hacer es identificar los paises y los datos necesarios por region:

 

Se utiliza tambien patterns para identificar los datos necesarios:

 

Se utiliza una clase plana para guardar los datos de pais

 

debemos quitar los datos del mundo para que no se contabilice

 

Aqui el codigo completo del Map

 

estos son los datos que se pintan al ejecutarse el map:

14/04/25 10:45:55 INFO mapred.MapTask: Processing split: file:/home/cloudera/workspace/training/input/CW.txt:0+3013209
14/04/25 10:45:55 INFO mapred.MapTask: Map output collector class = org.apache.hadoop.mapred.MapTask$MapOutputBuffer
14/04/25 10:45:55 INFO mapred.MapTask: (EQUATOR) 0 kvi 26214396(104857584)
14/04/25 10:45:55 INFO mapred.MapTask: mapreduce.task.io.sort.mb: 100
14/04/25 10:45:55 INFO mapred.MapTask: soft limit at 83886080
14/04/25 10:45:55 INFO mapred.MapTask: bufstart = 0; bufvoid = 104857600
14/04/25 10:45:55 INFO mapred.MapTask: kvstart = 26214396; length = 6553600
pais : Afghanistan
region : Asia
pais : Albania
region : Ethnic Groups in Eastern Europe, Europe
pais : Algeria
region : Africa
pais : American Samoa
region : Oceania
pais : Andorra
region : Europe
pais : Angola
region : Africa
pais : Anguilla
region : Central America and the Caribbean
pais : Antarctica
region : Antarctic Region
pais : Antigua And Barbuda
region : Central America and the Caribbean
pais : Arctic Ocean
region : Arctic Region
pais : Argentina
region : South America
pais : Armenia
region : Commonwealth of Independent States - European States
pais : Aruba
region : Central America and the Caribbean

etc....