Merge branch 'master' of https://github.com/eugenp/tutorials

dkapil · dkapil · commit 1d0581cafbf3 · 2018-08-27T23:36:29.000+05:30
diff --git a/core-java-collections/src/test/java/com/baeldung/collection/StreamOperateAndRemoveUnitTest.java b/core-java-collections/src/test/java/com/baeldung/collection/StreamOperateAndRemoveUnitTest.java
@@ -2,6 +2,7 @@
 
 import java.util.ArrayList;
 import java.util.List;
+import java.util.function.Predicate;
 import java.util.stream.Collectors;
 
 import org.junit.Assert;
@@ -35,8 +36,9 @@ public void givenAListOf10Items_whenFilteredForQualifiedItems_thenFilteredListCo
     @Test
     public void givenAListOf10Items_whenOperateAndRemoveQualifiedItemsUsingRemoveIf_thenListContains5Items() {
 
-        itemList.stream().filter(item -> item.isQualified()).forEach(item -> item.operate());
-        itemList.removeIf(item -> item.isQualified());
+        final Predicate<Item> isQualified = item -> item.isQualified();
+        itemList.stream().filter(isQualified).forEach(item -> item.operate());
+        itemList.removeIf(isQualified);
 
         Assert.assertEquals(5, itemList.size());
     }
diff --git a/libraries-data/README.md b/libraries-data/README.md
@@ -9,4 +9,5 @@
 - [Introduction to JCache](http://www.baeldung.com/jcache)
 - [A Guide to Apache Ignite](http://www.baeldung.com/apache-ignite)
 - [Apache Ignite with Spring Data](http://www.baeldung.com/apache-ignite-spring-data)
-- [Guide to JMapper](https://github.com/eugenp/tutorials/tree/master/libraries-data)
+- [Guide to JMapper](https://www.baeldung.com/jmapper)
+- [A Guide to Apache Crunch](https://www.baeldung.com/crunch)
diff --git a/libraries-data/pom.xml b/libraries-data/pom.xml
@@ -147,6 +147,44 @@
             <artifactId>jmapper-core</artifactId>
             <version>${jmapper.version}</version>
         </dependency>
+
+        <!--  crunch project  -->
+		<dependency>
+			<groupId>org.apache.crunch</groupId>
+			<artifactId>crunch-core</artifactId>
+			<version>${org.apache.crunch.crunch-core.version}</version>
+		</dependency>
+		<dependency>
+			<groupId>org.apache.hadoop</groupId>
+			<artifactId>hadoop-client</artifactId>
+			<version>${org.apache.hadoop.hadoop-client}</version>
+			<scope>provided</scope>
+		</dependency>
+
+		<dependency>
+			<groupId>commons-cli</groupId>
+			<artifactId>commons-cli</artifactId>
+			<version>1.2</version>
+			<scope>provided</scope>
+		</dependency>
+		<dependency>
+			<groupId>commons-io</groupId>
+			<artifactId>commons-io</artifactId>
+			<version>2.1</version>
+			<scope>provided</scope>
+		</dependency>
+		<dependency>
+			<groupId>commons-httpclient</groupId>
+			<artifactId>commons-httpclient</artifactId>
+			<version>3.0.1</version>
+			<scope>provided</scope>
+			<exclusions>
+				<exclusion>
+					<groupId>commons-codec</groupId>
+					<artifactId>commons-codec</artifactId>
+				</exclusion>
+			</exclusions>
+		</dependency>
                 
     </dependencies>
 
@@ -252,6 +290,31 @@
                 </executions>
             </plugin>
 
+			<plugin>
+				<groupId>org.apache.maven.plugins</groupId>
+				<artifactId>maven-assembly-plugin</artifactId>
+				<version>2.3</version>
+				<configuration>
+					<descriptors>
+						<descriptor>src/main/assembly/hadoop-job.xml</descriptor>
+					</descriptors>
+					<archive>
+						<manifest>
+							<mainClass>com.baeldung.crunch.WordCount</mainClass>
+						</manifest>
+					</archive>
+				</configuration>
+				<executions>
+					<execution>
+						<id>make-assembly</id>
+						<phase>package</phase>
+						<goals>
+							<goal>single</goal>
+						</goals>
+					</execution>
+				</executions>
+			</plugin>
+
         </plugins>
     </build>
 
@@ -282,7 +345,9 @@
         <datanucleus-maven-plugin.version>5.0.2</datanucleus-maven-plugin.version>
         <datanucleus-xml.version>5.0.0-release</datanucleus-xml.version>
         <datanucleus-jdo-query.version>5.0.4</datanucleus-jdo-query.version>
-        <jmapper.version>1.6.0.1</jmapper.version>        
+        <jmapper.version>1.6.0.1</jmapper.version>
+        <org.apache.crunch.crunch-core.version>0.15.0</org.apache.crunch.crunch-core.version>
+        <org.apache.hadoop.hadoop-client>2.2.0</org.apache.hadoop.hadoop-client>   
     </properties>
 
 </project>
diff --git a/libraries-data/src/main/assembly/hadoop-job.xml b/libraries-data/src/main/assembly/hadoop-job.xml
@@ -0,0 +1,28 @@
+<?xml version="1.0" encoding="UTF-8"?>
+
+<assembly xmlns="http://maven.apache.org/plugins/maven-assembly-plugin/assembly/1.1.0"
+    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
+    xsi:schemaLocation="http://maven.apache.org/plugins/maven-assembly-plugin/assembly/1.1.0 http://maven.apache.org/xsd/assembly-1.1.0.xsd">
+
+  <id>job</id>
+  <formats>
+    <format>jar</format>
+  </formats>
+  <includeBaseDirectory>false</includeBaseDirectory>
+  <dependencySets>
+    <dependencySet>
+      <unpack>false</unpack>
+      <scope>runtime</scope>
+      <outputDirectory>lib</outputDirectory>
+      <excludes>
+        <exclude>${groupId}:${artifactId}</exclude>
+      </excludes>
+    </dependencySet>
+    <dependencySet>
+      <unpack>true</unpack>
+      <includes>
+        <include>${groupId}:${artifactId}</include>
+      </includes>
+    </dependencySet>
+  </dependencySets>
+</assembly>
diff --git a/libraries-data/src/main/java/com/baeldung/crunch/StopWordFilter.java b/libraries-data/src/main/java/com/baeldung/crunch/StopWordFilter.java
@@ -0,0 +1,25 @@
+package com.baeldung.crunch;
+
+import java.util.Set;
+
+import org.apache.crunch.FilterFn;
+
+import com.google.common.collect.ImmutableSet;
+
+/**
+ * A filter that removes known stop words.
+ */
+public class StopWordFilter extends FilterFn<String> {
+
+    // English stop words, borrowed from Lucene.
+    private static final Set<String> STOP_WORDS = ImmutableSet
+        .copyOf(new String[] { "a", "and", "are", "as", "at", "be", "but", "by",
+                "for", "if", "in", "into", "is", "it", "no", "not", "of", "on",
+                "or", "s", "such", "t", "that", "the", "their", "then", "there",
+                "these", "they", "this", "to", "was", "will", "with" });
+
+    @Override
+    public boolean accept(String word) {
+        return !STOP_WORDS.contains(word);
+    }
+}
diff --git a/libraries-data/src/main/java/com/baeldung/crunch/ToUpperCaseFn.java b/libraries-data/src/main/java/com/baeldung/crunch/ToUpperCaseFn.java
@@ -0,0 +1,11 @@
+package com.baeldung.crunch;
+
+import org.apache.crunch.MapFn;
+
+public class ToUpperCaseFn extends MapFn<String, String> {
+
+    @Override
+    public String map(String input) {
+        return input != null ? input.toUpperCase() : input;
+    }
+}
diff --git a/libraries-data/src/main/java/com/baeldung/crunch/ToUpperCaseWithCounterFn.java b/libraries-data/src/main/java/com/baeldung/crunch/ToUpperCaseWithCounterFn.java
@@ -0,0 +1,20 @@
+package com.baeldung.crunch;
+
+import org.apache.crunch.MapFn;
+
+@SuppressWarnings("serial")
+public class ToUpperCaseWithCounterFn extends MapFn<String, String> {
+
+    @Override
+    public String map(String input) {
+        if (input == null) {
+            return input;
+        } else {
+            String output = input.toUpperCase();
+            if (!input.equals(output)) {
+                increment("UpperCase", "modified");
+            }
+            return output;
+        }
+    }
+}
diff --git a/libraries-data/src/main/java/com/baeldung/crunch/Tokenizer.java b/libraries-data/src/main/java/com/baeldung/crunch/Tokenizer.java
@@ -0,0 +1,23 @@
+package com.baeldung.crunch;
+
+import org.apache.crunch.DoFn;
+import org.apache.crunch.Emitter;
+
+import com.google.common.base.Splitter;
+
+/**
+ * Splits a line of text, filtering known stop words.
+ */
+public class Tokenizer extends DoFn<String, String> {
+    private static final Splitter SPLITTER = Splitter
+        .onPattern("\\s+")
+        .omitEmptyStrings();
+
+    @Override
+    public void process(String line,
+        Emitter<String> emitter) {
+        for (String word : SPLITTER.split(line)) {
+            emitter.emit(word);
+        }
+    }
+}
diff --git a/libraries-data/src/main/java/com/baeldung/crunch/WordCount.java b/libraries-data/src/main/java/com/baeldung/crunch/WordCount.java
@@ -0,0 +1,62 @@
+package com.baeldung.crunch;
+
+import org.apache.crunch.PCollection;
+import org.apache.crunch.PTable;
+import org.apache.crunch.Pipeline;
+import org.apache.crunch.PipelineResult;
+import org.apache.crunch.impl.mr.MRPipeline;
+import org.apache.crunch.types.writable.Writables;
+import org.apache.hadoop.conf.Configuration;
+import org.apache.hadoop.conf.Configured;
+import org.apache.hadoop.util.GenericOptionsParser;
+import org.apache.hadoop.util.Tool;
+import org.apache.hadoop.util.ToolRunner;
+
+/**
+ * A word count example for Apache Crunch, based on Crunch's example projects.
+ */
+public class WordCount extends Configured implements Tool {
+
+    public static void main(String[] args) throws Exception {
+        ToolRunner.run(new Configuration(), new WordCount(), args);
+    }
+
+    public int run(String[] args) throws Exception {
+
+        if (args.length != 2) {
+            System.err.println("Usage: hadoop jar crunch-1.0.0-SNAPSHOT-job.jar" + " [generic options] input output");
+            System.err.println();
+            GenericOptionsParser.printGenericCommandUsage(System.err);
+            return 1;
+        }
+
+        String inputPath = args[0];
+        String outputPath = args[1];
+
+        // Create an object to coordinate pipeline creation and execution.
+        Pipeline pipeline = new MRPipeline(WordCount.class, getConf());
+
+        // Reference a given text file as a collection of Strings.
+        PCollection<String> lines = pipeline.readTextFile(inputPath);
+
+        // Define a function that splits each line in a PCollection of Strings into
+        // a PCollection made up of the individual words in the file.
+        // The second argument sets the serialization format.
+        PCollection<String> words = lines.parallelDo(new Tokenizer(), Writables.strings());
+
+        // Take the collection of words and remove known stop words.
+        PCollection<String> noStopWords = words.filter(new StopWordFilter());
+
+        // The count method applies a series of Crunch primitives and returns
+        // a map of the unique words in the input PCollection to their counts.
+        PTable<String, Long> counts = noStopWords.count();
+
+        // Instruct the pipeline to write the resulting counts to a text file.
+        pipeline.writeTextFile(counts, outputPath);
+
+        // Execute the pipeline as a MapReduce.
+        PipelineResult result = pipeline.done();
+
+        return result.succeeded() ? 0 : 1;
+    }
+}
diff --git a/libraries-data/src/test/java/com/baeldung/crunch/MemPipelineUnitTest.java b/libraries-data/src/test/java/com/baeldung/crunch/MemPipelineUnitTest.java
@@ -0,0 +1,89 @@
+package com.baeldung.crunch;
+
+import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertIterableEquals;
+
+import java.io.File;
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.util.Calendar;
+
+import org.apache.crunch.PCollection;
+import org.apache.crunch.Pipeline;
+import org.apache.crunch.Source;
+import org.apache.crunch.Target;
+import org.apache.crunch.impl.mem.MemPipeline;
+import org.apache.crunch.io.From;
+import org.apache.crunch.io.To;
+import org.junit.Ignore;
+import org.junit.Test;
+
+public class MemPipelineUnitTest {
+
+    private static final String INPUT_FILE_PATH = "src/test/resources/crunch/input.txt";
+
+    @Test
+    public void givenPipeLineAndSource_whenSourceRead_thenExpectedNumberOfRecordsRead() {
+        Pipeline pipeline = MemPipeline.getInstance();
+        Source<String> source = From.textFile(INPUT_FILE_PATH);
+
+        PCollection<String> lines = pipeline.read(source);
+
+        assertEquals(21, lines.asCollection()
+            .getValue()
+            .size());
+    }
+
+    @Test
+    public void givenPipeLine_whenTextFileRead_thenExpectedNumberOfRecordsRead() {
+        Pipeline pipeline = MemPipeline.getInstance();
+
+        PCollection<String> lines = pipeline.readTextFile(INPUT_FILE_PATH);
+
+        assertEquals(21, lines.asCollection()
+            .getValue()
+            .size());
+    }
+
+    private String createOutputPath() throws IOException {
+        Path path = Files.createTempDirectory("test");
+        final String outputFilePath = path.toString() + File.separatorChar
+            + "output.text";
+        return outputFilePath;
+    }
+
+    @Test
+    @Ignore("Requires Hadoop binaries")
+    public void givenCollection_whenWriteCalled_fileWrittenSuccessfully()
+        throws IOException {
+        PCollection<String> inputStrings = MemPipeline.collectionOf("Hello",
+            "Apache", "Crunch", Calendar.getInstance()
+                .toString());
+        final String outputFilePath = createOutputPath();
+        Target target = To.textFile(outputFilePath);
+
+        inputStrings.write(target);
+
+        Pipeline pipeline = MemPipeline.getInstance();
+        PCollection<String> lines = pipeline.readTextFile(outputFilePath);
+        assertIterableEquals(inputStrings.materialize(), lines.materialize());
+    }
+
+    @Test
+    @Ignore("Requires Hadoop binaries")
+    public void givenPipeLine_whenWriteTextFileCalled_fileWrittenSuccessfully()
+        throws IOException {
+        Pipeline pipeline = MemPipeline.getInstance();
+        PCollection<String> inputStrings = MemPipeline.collectionOf("Hello",
+            "Apache", "Crunch", Calendar.getInstance()
+                .toString());
+        final String outputFilePath = createOutputPath();
+
+        pipeline.writeTextFile(inputStrings, outputFilePath);
+
+        PCollection<String> lines = pipeline.readTextFile(outputFilePath);
+        assertIterableEquals(inputStrings.materialize(), lines.materialize());
+    }
+
+}
diff --git a/libraries-data/src/test/java/com/baeldung/crunch/StopWordFilterUnitTest.java b/libraries-data/src/test/java/com/baeldung/crunch/StopWordFilterUnitTest.java
diff --git a/libraries-data/src/test/java/com/baeldung/crunch/ToUpperCaseFnUnitTest.java b/libraries-data/src/test/java/com/baeldung/crunch/ToUpperCaseFnUnitTest.java
diff --git a/libraries-data/src/test/java/com/baeldung/crunch/ToUpperCaseWithCounterFnUnitTest.java b/libraries-data/src/test/java/com/baeldung/crunch/ToUpperCaseWithCounterFnUnitTest.java
diff --git a/libraries-data/src/test/java/com/baeldung/crunch/TokenizerUnitTest.java b/libraries-data/src/test/java/com/baeldung/crunch/TokenizerUnitTest.java
diff --git a/libraries-data/src/test/resources/crunch/input.txt b/libraries-data/src/test/resources/crunch/input.txt