org.apache.lucene.index.Terms.iterator java code examples

Refine search

TermsEnum.next

/** Returns the smallest term (in lexicographic order) in the field. 
 *  Note that, just like other term measures, this measure does not 
 *  take deleted documents into account.  This returns
 *  null when there are no terms. */
public BytesRef getMin() throws IOException {
 return iterator().next();
}

Fields fields = MultiFields.getFields(indexReader);
   Terms terms = fields.terms("field");
   TermsEnum iterator = terms.iterator(null);
   BytesRef byteRef = null;
   while((byteRef = iterator.next()) != null) {
     String term = new String(byteRef.bytes, byteRef.offset, byteRef.length);
   }

private static Terms getTerms( String value, int frequency ) throws IOException
{
  TermsEnum termsEnum = mock( TermsEnum.class );
  Terms terms = mock( Terms.class );
  when( terms.iterator() ).thenReturn( termsEnum );
  when( termsEnum.next() ).thenReturn( new BytesRef( value.getBytes() ) ).thenReturn( null );
  when( termsEnum.docFreq() ).thenReturn( frequency );
  return terms;
}

iter = terms.iterator(); // init uid iterator
BytesRef next = iter.next();
if (next == null) {
  iter = null;

public void listTokens(int freq) throws IOException {
  IndexReader ireader = null;
  TermsEnum iter = null;
  Terms terms;
  try {
    ireader = DirectoryReader.open(indexDirectory);
    int numDocs = ireader.numDocs();
    if (numDocs > 0) {
      Fields uFields = MultiFields.getFields(ireader);//reader.getTermVectors(0);
      terms = uFields.terms(QueryBuilder.DEFS);
      iter = terms.iterator(); // init uid iterator
    }
    while (iter != null && iter.term() != null) {
      //if (iter.term().field().startsWith("f")) {
      if (iter.docFreq() > 16 && iter.term().utf8ToString().length() > freq) {
        LOGGER.warning(iter.term().utf8ToString());
      }
      BytesRef next = iter.next();
      if (next==null) {iter=null;}
    }
  } finally {
    if (ireader != null) {
      try {
        ireader.close();
      } catch (IOException e) {
        LOGGER.log(Level.WARNING, "An error occurred while closing index reader", e);
      }
    }
  }
}

@Override
public void write(Fields fields) throws IOException {
 //if (DEBUG) System.out.println("\nBTTW.write seg=" + segment);
 String lastField = null;
 for(String field : fields) {
  assert lastField == null || lastField.compareTo(field) < 0;
  lastField = field;
  //if (DEBUG) System.out.println("\nBTTW.write seg=" + segment + " field=" + field);
  Terms terms = fields.terms(field);
  if (terms == null) {
   continue;
  }
  TermsEnum termsEnum = terms.iterator();
  TermsWriter termsWriter = new TermsWriter(fieldInfos.fieldInfo(field));
  while (true) {
   BytesRef term = termsEnum.next();
   //if (DEBUG) System.out.println("BTTW: next term " + term);
   if (term == null) {
    break;
   }
   //if (DEBUG) System.out.println("write field=" + fieldInfo.name + " term=" + brToString(term));
   termsWriter.write(term, termsEnum);
  }
  termsWriter.finish();
  //if (DEBUG) System.out.println("\nBTTW.write done seg=" + segment + " field=" + field);
 }
}

TermsEnum termsEnum = terms.iterator();
 BytesRef term = termsEnum.next();
 if (term == null) {
  break;

uidIter = terms.iterator();
TermsEnum.SeekStatus stat = uidIter.seekCeil(new BytesRef(startuid)); //init uid
if (stat == TermsEnum.SeekStatus.END) {
BytesRef next = uidIter.next();
if (next == null) {
  uidIter=null;

final TermsEnum termsEnum = terms.iterator();
while(true) {
 final BytesRef term = termsEnum.next();
 if (term == null) {
  break;

TermsEnum termsEnum = terms.iterator();
final boolean postingsHasFreq = fieldInfo.getIndexOptions().compareTo(IndexOptions.DOCS_AND_FREQS) >= 0;
final boolean postingsHasPayload = fieldInfo.hasPayloads();
 throw new RuntimeException("vector field=" + field + " does not exist in postings; doc=" + j);
TermsEnum postingsTermsEnum = postingsTerms.iterator();
while ((term = termsEnum.next()) != null) {

 TermsEnum termsEnum2 = terms.iterator();
 for (TermAndState t : collectedTerms) {
  termsEnum2.seekExact(t.term, t.state);
 docs = termsEnum.postings(docs, PostingsEnum.NONE);
 builder.add(docs);
} while (termsEnum.next() != null);

  TermsEnum iterator = iterator();
  iterator.seekExact(size - 1);
  return iterator.term();
TermsEnum iterator = iterator();
BytesRef v = iterator.next();
if (v == null) {

 termsEnum = terms.iterator();
 while(termsEnum.next() != null) {
  numTerms++;
termsEnum = terms.iterator();
while(termsEnum.next() != null) {
 termCount++;

Terms terms = segState.reader.terms(field);
if (terms != null) {
 termsEnum = terms.iterator();
 readerTerm = termsEnum.next();
} else {
 termsEnum = null;

 termsEnum = terms.iterator();
 while(termsEnum.next() != null) {
  numTerms++;
termsEnum = terms.iterator();
while(termsEnum.next() != null) {
 termCount++;

private static void findSplitDocs(String idField, Predicate<BytesRef> includeInShard, LeafReader leafReader,
                 IntConsumer consumer) throws IOException {
  Terms terms = leafReader.terms(idField);
  TermsEnum iterator = terms.iterator();
  BytesRef idTerm;
  PostingsEnum postingsEnum = null;
  while ((idTerm = iterator.next()) != null) {
    if (includeInShard.test(idTerm) == false) {
      postingsEnum = iterator.postings(postingsEnum);
      int doc;
      while ((doc = postingsEnum.nextDoc()) != DocIdSetIterator.NO_MORE_DOCS) {
        consumer.accept(doc);
      }
    }
  }
}

for (String fieldName : fields) {
  Terms terms = fields.terms(fieldName);
  final TermsEnum termsEnum = terms.iterator();
  BytesRef text;
  while ((text = termsEnum.next()) != null) {
    skipTerms.add(new Term(fieldName, text.utf8ToString()));

private List<Object> distinctTerms(@Name("label") String label, @Name("key") String key) throws SchemaRuleNotFoundException, IndexNotFoundKernelException, IOException, DuplicateSchemaRuleException {
  SimpleIndexReader reader = getLuceneIndexReader(label,key);
  SortedIndexReader sortedIndexReader = new SortedIndexReader(reader, 0, Sort.INDEXORDER);
  Set<Object> values = new LinkedHashSet<>(100);
  TermsEnum termsEnum;
  Fields fields = MultiFields.getFields(sortedIndexReader.getIndexSearcher().getIndexReader());
  Terms terms = fields.terms("string");
  if (terms != null) {
    termsEnum = terms.iterator();
    while ((termsEnum.next()) != null) {
      values.add(termsEnum.term().utf8ToString());
    }
  }
  return new ArrayList<>(values);
}

CharsRefBuilder spare = new CharsRefBuilder();
if (terms != null) {
 TermsEnum te = terms.iterator();
 BytesRef text;
 while ((text = te.next()) != null) {
  if (te.docFreq() > maxDocFreq) {
   spare.copyUTF8Bytes(text);

private Map<String, Integer> distinctTermsCount(@Name("label") String label, @Name("key") String key) {
  try {
    SortedIndexReader sortedIndexReader = getSortedIndexReader(label, key, 0, Sort.INDEXORDER);
    Fields fields = MultiFields.getFields(sortedIndexReader.getIndexSearcher().getIndexReader());
    Map<String, Integer> values = new HashMap<>();
    TermsEnum termsEnum;
    Terms terms = fields.terms("string");
    if (terms != null) {
      termsEnum = terms.iterator();
      while ((termsEnum.next()) != null) {
        values.put(termsEnum.term().utf8ToString(), termsEnum.docFreq());
      }
    }
    return values;
  } catch (Exception e) {
    throw new RuntimeException("Error collecting distinct terms of label: " + label + " and key: " + key, e);
  }
}

Javadoc

Returns an iterator that will step through all terms. This method will not return null.

Popular methods of Terms

size
Returns the number of terms for this field, or -1 if this measure isn't stored by the codec. Note th
getSumTotalTermFreq
Returns the sum of TermsEnum#totalTermFreq for all terms in this field, or -1 if this measure isn't
hasPositions
Returns true if documents in this field store positions.
getDocCount
Returns the number of documents that have at least one term for this field, or -1 if this measure is
getSumDocFreq
Returns the sum of TermsEnum#docFreq() for all terms in this field, or -1 if this measure isn't stor
hasPayloads
Returns true if documents in this field store payloads.
hasOffsets
Returns true if documents in this field store offsets.
getMax
Returns the largest term (in lexicographic order) in the field. Note that, just like other term meas
getMin
Returns the smallest term (in lexicographic order) in the field. Note that, just like other term mea
intersect
Returns a TermsEnum that iterates over all terms and documents that are accepted by the provided Com
hasFreqs
Returns true if documents in this field store per-document term frequency ( PostingsEnum#freq).
getStats
Expert: returns additional information about this Terms instance for debugging purposes.

Popular in Java

Creating JSON documents from java classes using gson
setContentView (Activity)
getSupportFragmentManager (FragmentActivity)
runOnUiThread (Activity)
ConnectException (java.net)
A ConnectException is thrown if a connection cannot be established to a remote host on a specific po
URI (java.net)
A Uniform Resource Identifier that identifies an abstract or physical resource, as specified by RFC
NumberFormat (java.text)
The abstract base class for all number formats. This class provides the interface for formatting and
Comparator (java.util)
A Comparator is used to compare two objects to determine their ordering with respect to each other.
JFileChooser (javax.swing)
Option (scala)
Best plugins for Eclipse

How to use iteratormethodin org.apache.lucene.index.Terms

Best Java code snippets using org.apache.lucene.index.Terms.iterator (Showing top 20 results out of 738)

Refine search

How to use
iterator
method
in
org.apache.lucene.index.Terms