How to use
de.tudarmstadt.ukp.dkpro.core.ngrams.util.CharacterNGramStringIterable
constructor

Best Java code snippets using de.tudarmstadt.ukp.dkpro.core.ngrams.util.CharacterNGramStringIterable.<init> (Showing top 4 results out of 315)

  private FrequencyDistribution<String> getCharacterNgramsFromCasText(
      String text, boolean lowerCaseNgrams, int minN, int maxN)
  {
    
    if (lowerCaseNgrams) {
      text = text.toLowerCase();
    }
    
    text = CHAR_WORD_BEGIN + text.replaceAll(" ", CHAR_WORD_BEGIN + " " + CHAR_WORD_END) + CHAR_WORD_END;

    FrequencyDistribution<String> charNgrams = new FrequencyDistribution<String>();
    for (String charNgram : new CharacterNGramStringIterable(text, minN, maxN)) {
      charNgrams.inc(charNgram);
    }

    return charNgrams;
  }
}

public static FrequencyDistribution<String> getDocumentCharacterNgrams(JCas jcas,
    boolean lowerCaseNgrams, int minN, int maxN)
{
  FrequencyDistribution<String> charNgrams = new FrequencyDistribution<String>();
  for (String charNgram : new CharacterNGramStringIterable(jcas.getDocumentText(), minN, maxN)) {
    if (lowerCaseNgrams) {
      charNgram = charNgram.toLowerCase();
    }
    charNgrams.inc(charNgram);
  }
  return charNgrams;
}

/**
 * Creates a frequency distribution of character ngrams over the span of an annotation. The
 * boundary* parameter allows it to provide a string that is added additionally at the beginning
 * and end of the respective annotation span. If for instance the 'begin of sequence' or 'end of
 * sequence' of a span shall be marked the boundary parameter can be used. Provide an empty
 * character in case this parameters are not needed
 */
public static FrequencyDistribution<String> getAnnotationCharacterNgrams(
    Annotation focusAnnotation, boolean lowerCaseNgrams, int minN, int maxN,
    char boundaryBegin, char boundaryEnd)
{
  FrequencyDistribution<String> charNgrams = new FrequencyDistribution<String>();
  for (String charNgram : new CharacterNGramStringIterable(boundaryBegin
      + focusAnnotation.getCoveredText() + boundaryEnd, minN, maxN)) {
    if (lowerCaseNgrams) {
      charNgram = charNgram.toLowerCase();
    }
    charNgrams.inc(charNgram);
  }
  return charNgrams;
}

for (String charNgram : new CharacterNGramStringIterable(boundaryBegin + text + boundaryEnd,
    minN, maxN)) {
  charNgrams.inc(charNgram);

Popular methods of CharacterNGramStringIterable

Popular in Java

Creating JSON documents from java classes using gson
notifyDataSetChanged (ArrayAdapter)
onRequestPermissionsResult (Fragment)
runOnUiThread (Activity)
File (java.io)
An "abstract" representation of a file system entity identified by a pathname. The pathname may be a
IOException (java.io)
Signals a general, I/O-related error. Error details may be specified when calling the constructor, a
Runnable (java.lang)
Represents a command that can be executed. Often used to run code in a different Thread.
Container (java.awt)
A generic Abstract Window Toolkit(AWT) container object is a component that can contain other AWT co
JComboBox (javax.swing)
JOptionPane (javax.swing)
Top 12 Jupyter Notebook extensions

How to use de.tudarmstadt.ukp.dkpro.core.ngrams.util.CharacterNGramStringIterableconstructor

Best Java code snippets using de.tudarmstadt.ukp.dkpro.core.ngrams.util.CharacterNGramStringIterable.<init> (Showing top 4 results out of 315)

How to use
de.tudarmstadt.ukp.dkpro.core.ngrams.util.CharacterNGramStringIterable
constructor