org.apache.lucene.analysis.ja.JapaneseKatakanaStemFilter java code examples

  @Override
  public TokenStream create(TokenStream tokenStream) {
    return new JapaneseKatakanaStemFilter(tokenStream, minimumLength);
  }
}

private int stem(char[] term, int length) {
 if (length < minimumKatakanaLength) {
  return length;
 }
 if (! isKatakana(term, length)) {
  return length;
 }
 if (term[length - 1] == HIRAGANA_KATAKANA_PROLONGED_SOUND_MARK) {
  return length - 1;
 }
 return length;
}

@Override
public boolean incrementToken() throws IOException {
 if (input.incrementToken()) {
  if (!keywordAttr.isKeyword()) {
   termAttr.setLength(stem(termAttr.buffer(), termAttr.length()));
  }
  return true;
 } else {
  return false;
 }
}

/**
 * Returns the next input Token, after being stemmed
 */
@Override
public boolean incrementToken() throws IOException {
 if (input.incrementToken()) {
  if (!keywordAtt.isKeyword()) {
   final char buffer[] = termAtt.buffer();
   int length = termAtt.length();
   if (length > 3 && buffer[length-1] == KATAKANA_HIRAGANA_PROLONGED_SOUND_MARK && isKatakanaString(buffer, length)) {
    termAtt.setLength(length - 1);
   }
  }
  return true;
 } else {
  return false;
 }
}

  @Override
  public TokenStream create(final TokenStream tokenStream) {
    return new JapaneseKatakanaStemFilter(tokenStream, minimumLength);
  }
}

  @Override
  public TokenStream create(TokenStream tokenStream) {
    return new JapaneseKatakanaStemFilter(tokenStream);
  }
}));

  @Override
  public TokenStream create(TokenStream tokenStream) {
    return new JapaneseKatakanaStemFilter(tokenStream, minimumLength);
  }
}

 @Override
 public TokenStream create(TokenStream input) {
  return new JapaneseKatakanaStemFilter(input, minimumLength);
 }
}

  @Override
  public TokenStream create(TokenStream tokenStream) {
    return new JapaneseKatakanaStemFilter(tokenStream);
  }
}));

  @Override
  public TokenStream create(final TokenStream tokenStream) {
    return new JapaneseKatakanaStemFilter(tokenStream, minimumLength);
  }
}

 public TokenStream create(TokenStream stream) {
  return new JapaneseKatakanaStemFilter(stream);
 }
}

@Override
protected TokenStreamComponents createComponents(String fieldName) {
 Tokenizer tokenizer = new JapaneseTokenizer(userDict, true, mode);
 TokenStream stream = new JapaneseBaseFormFilter(tokenizer);
 stream = new JapanesePartOfSpeechStopFilter(stream, stoptags);
 stream = new CJKWidthFilter(stream);
 stream = new StopFilter(stream, stopwords);
 stream = new JapaneseKatakanaStemFilter(stream);
 stream = new LowerCaseFilter(stream);
 return new TokenStreamComponents(tokenizer, stream);
}

  @Override
  public TokenStream getTokenStream(Tokenizer tokenizer, CharArraySet stemExclusionSet) {
    TokenStream stream = new JapaneseBaseFormFilter(tokenizer);
    stream = new CJKWidthFilter(stream);
    if (caseInsensitive)
      stream = new LowerCaseFilter(matchVersion, stream);
    if (useStopWords) {
      stream = new JapanesePartOfSpeechStopFilter(true, stream, JapaneseAnalyzer.getDefaultStopTags());
      stream = new StopFilter(matchVersion, stream, JapaneseAnalyzer.getDefaultStopSet());
    }
    if (useStem)
      stream = new JapaneseKatakanaStemFilter(stream);
    return stream;
  }
}

 /**
  * Creates
  * {@link org.apache.lucene.analysis.util.ReusableAnalyzerBase.TokenStreamComponents}
  * used to tokenize all the text in the provided {@link Reader}.
  * 
  * @return {@link org.apache.lucene.analysis.util.ReusableAnalyzerBase.TokenStreamComponents}
  *         built from a {@link JapaneseTokenizer} filtered with
  *         {@link JapaneseWidthFilter}, {@link JapanesePunctuationFilter},
  *         {@link JapanesePartOfSpeechStopFilter}, {@link JapaneseStopFilter},
  *         {@link KeywordMarkerFilter} if a stem exclusion set is provided, 
  *         {@link JapaneseBasicFormFilter}, {@link JapaneseKatakanaStemFilter},
  *         and  {@link LowerCaseFilter}
  */
 @Override
 protected TokenStreamComponents createComponents(String field, Reader reader) {
  Tokenizer tokenizer = new JapaneseTokenizer(reader, null, dictionaryDir);
  TokenStream stream = new JapaneseWidthFilter(tokenizer);
  stream = new JapanesePunctuationFilter(true, stream);
  stream = new JapanesePartOfSpeechStopFilter(true, stream, stoptags);
  stream = new StopFilter(matchVersion, stream, stopwords);
  if (!stemExclusionSet.isEmpty())
   stream = new KeywordMarkerFilter(stream, stemExclusionSet);
  stream = new JapaneseBasicFormFilter(stream);
  stream = new JapaneseKatakanaStemFilter(stream);
  stream = new LowerCaseFilter(matchVersion, stream);
  return new TokenStreamComponents(tokenizer, stream);
 }
}

Javadoc

A TokenFilter that normalizes common katakana spelling variations ending in a long sound character by removing this character (U+30FC). Only katakana words longer than a minimum length are stemmed (default is four).

Note that only full-width katakana characters are supported. Please use a org.apache.lucene.analysis.cjk.CJKWidthFilter to convert half-width katakana to full-width before using this filter.

In order to prevent terms from being stemmed, use an instance of org.apache.lucene.analysis.miscellaneous.SetKeywordMarkerFilteror a custom TokenFilter that sets the KeywordAttributebefore this TokenStream.

Most used methods

Popular in Java

Updating database using SQL prepared statement
setScale (BigDecimal)
scheduleAtFixedRate (Timer)
runOnUiThread (Activity)
Thread (java.lang)
A thread is a thread of execution in a program. The Java Virtual Machine allows an application to ha
BigInteger (java.math)
An immutable arbitrary-precision signed integer.FAST CRYPTOGRAPHY This implementation is efficient f
ByteBuffer (java.nio)
A buffer for bytes. A byte buffer can be created in either one of the following ways: * #allocate
FileUtils (org.apache.commons.io)
General file manipulation utilities. Facilities are provided in the following areas: * writing to a
SAXParseException (org.xml.sax)
Encapsulate an XML parse error or warning.> This module, both source code and documentation, is in t
Scheduler (org.quartz)
This is the main interface of a Quartz Scheduler. A Scheduler maintains a registry of org.quartz.Job
Top Sublime Text plugins

How to useJapaneseKatakanaStemFilter in org.apache.lucene.analysis.ja

Best Java code snippets using org.apache.lucene.analysis.ja.JapaneseKatakanaStemFilter (Showing top 14 results out of 315)

How to use
JapaneseKatakanaStemFilter
in
org.apache.lucene.analysis.ja