cc.mallet.pipe.TokenSequenceRemoveStopwords.<init> java code examples

private Pipe buildPipe() {
  Pattern tokenPattern = Pattern.compile("\\S[\\S]+\\S");
  int[] sizes = {1,2};
  ArrayList pipeList = new ArrayList();
  pipeList.add(new CharSequence2TokenSequence(tokenPattern));
  pipeList.add(new TokenSequenceRemoveStopwords(false, false)); // we should use a real stop word list
  pipeList.add(new TokenSequenceNGramsDelim(sizes, " "));
  pipeList.add(new TokenSequence2FeatureSequence());
  return new SerialPipes(pipeList);
}

public InstanceList malletPreprocess(List<TokenSequence> data) {
  ArrayList<Pipe> pipeList = new ArrayList<>();
  pipeList.add(new TokenSequenceRemoveStopwords(false, false));
  pipeList.add(new TokenSequence2FeatureSequence());
  InstanceList instances = new InstanceList(new SerialPipes(pipeList));
  ArrayIterator dataListIterator = new ArrayIterator(data);
  instances.addThruPipe(dataListIterator);
  return instances;
}

  (Pipe) new CharSequence2TokenSequence(),
  (Pipe) new TokenSequenceLowercase(),
  (Pipe) new TokenSequenceRemoveStopwords(false, false),
  (Pipe) new TokenSequence2FeatureSequence()
});

  (Pipe) new CharSequence2TokenSequence(),
  (Pipe) new TokenSequenceLowercase(),
  (Pipe) new TokenSequenceRemoveStopwords(false, false),
  (Pipe) new TokenSequence2FeatureSequence()
});

  (Pipe) new CharSequence2TokenSequence(),
  (Pipe) new TokenSequenceLowercase(),
  (Pipe) new TokenSequenceRemoveStopwords(false, false),
  (Pipe) new TokenSequence2FeatureSequence()
});

public void testThree ()
{
  InstanceList il = new InstanceList (
    new SerialPipes (new Pipe[] {
      new Target2Label (),
      new CharSequence2TokenSequence (),
      new TokenSequenceLowercase (),
      new TokenSequenceRemoveStopwords (),
      new TokenSequence2FeatureSequence (),
      new FeatureSequence2FeatureVector ()
    }));
  Iterator<Instance> pi = new FileIterator (new File("foo/bar"), null, Pattern.compile("^([^/]*)/"));
  il.addThruPipe (pi);
}

public void testThree ()
{
  InstanceList il = new InstanceList (
    new SerialPipes (new Pipe[] {
      new Target2Label (),
      new CharSequence2TokenSequence (),
      new TokenSequenceLowercase (),
      new TokenSequenceRemoveStopwords (),
      new TokenSequence2FeatureSequence (),
      new FeatureSequence2FeatureVector ()
    }));
  Iterator<Instance> pi = new FileIterator (new File("foo/bar"), null, Pattern.compile("^([^/]*)/"));
  il.addThruPipe (pi);
}

pipeList.add( new TokenSequenceRemoveStopwords(new File("stoplists/en.txt"), "UTF-8", false, false, false) );
pipeList.add( new TokenSequence2FeatureSequence() );

pipeList.add( new TokenSequenceRemoveStopwords(new File("stoplists/en.txt"), "UTF-8", false, false, false) );
pipeList.add( new TokenSequence2FeatureSequence() );

pipeList.add( new TokenSequenceRemoveStopwords(new File("stoplists/en.txt"), "UTF-8", false, false, false) );
pipeList.add( new TokenSequence2FeatureSequence() );

new TokenSequenceRemoveStopwords(stoplistFile.value,
                 encoding.value,
                 false, // don't include default list
new TokenSequenceRemoveStopwords(false, keepSequenceBigrams.value);

new TokenSequenceRemoveStopwords(stoplistFile.value,
                 encoding.value,
                 false, // don't include default list
new TokenSequenceRemoveStopwords(false, keepSequenceBigrams.value);

new TokenSequenceRemoveStopwords(stoplistFile.value,
                 encoding.value,
                 false, // don't include default list
new TokenSequenceRemoveStopwords(false, keepSequenceBigrams.value);

new TokenSequenceRemoveStopwords(stoplistFile.value,
                 encoding.value,
                 false, // don't include default list
new TokenSequenceRemoveStopwords(false, keepSequenceBigrams.value);

new TokenSequenceRemoveStopwords(stoplistFile.value,
                 encoding.value,
                 false, // don't include default list
new TokenSequenceRemoveStopwords(false, keepSequenceBigrams.value);

new TokenSequenceRemoveStopwords(stoplistFile.value,
                 encoding.value,
                 false, // don't include default list
new TokenSequenceRemoveStopwords(false, keepSequenceBigrams.value);

new CharSequence2TokenSequence (),  // Data String -> TokenSequence
new TokenSequenceLowercase (),		  // TokenSequence words lowercased
new TokenSequenceRemoveStopwords (),// Remove stopwords from sequence
new TokenSequence2FeatureSequence(),// Replace each Token with a feature index
new FeatureSequence2FeatureVector(),// Collapse word order into a "feature vector"

new CharSequence2TokenSequence (),  // Data String -> TokenSequence
new TokenSequenceLowercase (),		  // TokenSequence words lowercased
new TokenSequenceRemoveStopwords (),// Remove stopwords from sequence
new TokenSequence2FeatureSequence(),// Replace each Token with a feature index
new FeatureSequence2FeatureVector(),// Collapse word order into a "feature vector"

new CharSequence2TokenSequence (),  // Data String -> TokenSequence
new TokenSequenceLowercase (),		  // TokenSequence words lowercased
new TokenSequenceRemoveStopwords (),// Remove stopwords from sequence
new TokenSequence2FeatureSequence(),// Replace each Token with a feature index
new FeatureSequence2FeatureVector(),// Collapse word order into a "feature vector"

Javadoc

Load a stoplist from a file.

Popular methods of TokenSequenceRemoveStopwords

Popular in Java

Finding current android device location
getSharedPreferences (Context)
scheduleAtFixedRate (ScheduledExecutorService)
getSupportFragmentManager (FragmentActivity)
URLEncoder (java.net)
This class is used to encode a string using the format required by application/x-www-form-urlencoded
TreeMap (java.util)
Walk the nodes of the tree left-to-right or right-to-left. Note that in descending iterations, next
Logger (org.slf4j)
The org.slf4j.Logger interface is the main user entry point of SLF4J API. It is expected that loggin
Menu (java.awt)
Get (org.apache.hadoop.hbase.client)
Used to perform Get operations on a single row. To get everything for a row, instantiate a Get objec
Reflections (org.reflections)
Reflections one-stop-shop objectReflections scans your classpath, indexes the metadata, allows you t
Top Sublime Text plugins

How to use cc.mallet.pipe.TokenSequenceRemoveStopwordsconstructor

Best Java code snippets using cc.mallet.pipe.TokenSequenceRemoveStopwords.<init> (Showing top 19 results out of 315)

How to use
cc.mallet.pipe.TokenSequenceRemoveStopwords
constructor