How to use
setInputCol
method
in
org.apache.spark.ml.feature.StringIndexer

Best Java code snippets using org.apache.spark.ml.feature.StringIndexer.setInputCol (Showing top 5 results out of 315)

/**
 * Creates a processing pipeline.
 * @return a pipeline
 */
private Pipeline createPipeline() {
  Tokenizer tokenizer = new Tokenizer()
    .setInputCol("featureStrings")
    .setOutputCol("tokens");
  CountVectorizer countVectorizer = new CountVectorizer()
    .setInputCol("tokens")
    .setOutputCol("features")
    .setMinDF((Double)params.getOrDefault(params.getMinFF()))
    .setVocabSize((Integer)params.getOrDefault(params.getNumFeatures()));  
  StringIndexer tagIndexer = new StringIndexer()
    .setInputCol("tag")
    .setOutputCol("label");
  
  Pipeline pipeline = new Pipeline().setStages(new PipelineStage[]{tokenizer, countVectorizer, tagIndexer});
  return pipeline;
}

/**
 * Creates a processing pipeline.
 * @return a pipeline
 */
protected Pipeline createPipeline() {
  Tokenizer tokenizer = new Tokenizer()
    .setInputCol("text")
    .setOutputCol("tokens");
  CountVectorizer countVectorizer = new CountVectorizer()
    .setInputCol("tokens")
    .setOutputCol("features")
    .setMinDF((Double)params.getOrDefault(params.getMinFF()))
    .setVocabSize((Integer)params.getOrDefault(params.getNumFeatures()));  
  StringIndexer transitionIndexer = new StringIndexer()
    .setInputCol("transition")
    .setOutputCol("label");
  
  Pipeline pipeline = new Pipeline().setStages(new PipelineStage[]{tokenizer, countVectorizer, transitionIndexer});
  return pipeline;
}

@Test
public void testStringIndexer() {
 StructType schema = createStructType(new StructField[]{
  createStructField("id", IntegerType, false),
  createStructField("label", StringType, false)
 });
 List<Row> data = Arrays.asList(
  cr(0, "a"), cr(1, "b"), cr(2, "c"), cr(3, "a"), cr(4, "a"), cr(5, "c"));
 Dataset<Row> dataset = spark.createDataFrame(data, schema);
 StringIndexer indexer = new StringIndexer()
  .setInputCol("label")
  .setOutputCol("labelIndex");
 Dataset<Row> output = indexer.fit(dataset).transform(dataset);
 Assert.assertEquals(
  Arrays.asList(cr(0, 0.0), cr(1, 2.0), cr(2, 1.0), cr(3, 0.0), cr(4, 0.0), cr(5, 1.0)),
  output.orderBy("id").select("id", "labelIndex").collectAsList());
}

@Test
public void testStringIndexer() {
 StructType schema = createStructType(new StructField[]{
  createStructField("id", IntegerType, false),
  createStructField("label", StringType, false)
 });
 List<Row> data = Arrays.asList(
  cr(0, "a"), cr(1, "b"), cr(2, "c"), cr(3, "a"), cr(4, "a"), cr(5, "c"));
 Dataset<Row> dataset = spark.createDataFrame(data, schema);
 StringIndexer indexer = new StringIndexer()
  .setInputCol("label")
  .setOutputCol("labelIndex");
 Dataset<Row> output = indexer.fit(dataset).transform(dataset);
 Assert.assertEquals(
  Arrays.asList(cr(0, 0.0), cr(1, 2.0), cr(2, 1.0), cr(3, 0.0), cr(4, 0.0), cr(5, 1.0)),
  output.orderBy("id").select("id", "labelIndex").collectAsList());
}

@Test
public void testStringIndexer() {
 StructType schema = createStructType(new StructField[]{
  createStructField("id", IntegerType, false),
  createStructField("label", StringType, false)
 });
 List<Row> data = Arrays.asList(
  cr(0, "a"), cr(1, "b"), cr(2, "c"), cr(3, "a"), cr(4, "a"), cr(5, "c"));
 Dataset<Row> dataset = spark.createDataFrame(data, schema);
 StringIndexer indexer = new StringIndexer()
  .setInputCol("label")
  .setOutputCol("labelIndex");
 Dataset<Row> output = indexer.fit(dataset).transform(dataset);
 Assert.assertEquals(
  Arrays.asList(cr(0, 0.0), cr(1, 2.0), cr(2, 1.0), cr(3, 0.0), cr(4, 0.0), cr(5, 1.0)),
  output.orderBy("id").select("id", "labelIndex").collectAsList());
}

Popular methods of StringIndexer

Popular in Java

Making http post requests using okhttp
addToBackStack (FragmentTransaction)
putExtra (Intent)
findViewById (Activity)
System (java.lang)
Provides access to system-related information and resources including standard input and output. Ena
SimpleDateFormat (java.text)
Formats and parses dates in a locale-sensitive manner. Formatting turns a Date into a String, and pa
PriorityQueue (java.util)
A PriorityQueue holds elements on a priority heap, which orders the elements according to their natu
StringTokenizer (java.util)
Breaks a string into tokens; new code should probably use String#split.> // Legacy code: StringTo
JarFile (java.util.jar)
JarFile is used to read jar entries and their associated data from jar files.
BorderLayout (java.awt)
A border layout lays out a container, arranging and resizing its components to fit in five regions:
CodeWhisperer alternatives

How to use setInputColmethodin org.apache.spark.ml.feature.StringIndexer

Best Java code snippets using org.apache.spark.ml.feature.StringIndexer.setInputCol (Showing top 5 results out of 315)

How to use
setInputCol
method
in
org.apache.spark.ml.feature.StringIndexer