How to use
ArticleExtractor
in
de.l3s.boilerpipe.extractors

Best Java code snippets using de.l3s.boilerpipe.extractors.ArticleExtractor (Showing top 9 results out of 315)

/**
 * {@inheritDoc}
 */
@Override
public String extractTextFromHtml(String html) throws Exception {
  return ArticleExtractor.getInstance().getText(html);
}

public boolean process(TextDocument doc)
    throws BoilerpipeProcessingException {
  return
  ArticleExtractor.INSTANCE.process(doc)
      | SplitParagraphBlocksFilter.INSTANCE.process(doc)
      | MinClauseWordsFilter.INSTANCE.process(doc);
}

public static final String extractPageBodyText(String pageUrl)
    throws Exception {
  URL url = new URL(pageUrl);
  URLConnection conn = url.openConnection();
  if (url.getProtocol().startsWith("http")) {
    if (((HttpURLConnection) conn).getResponseCode() == 303) {
      String location = conn.getHeaderField("Location");
      System.out.println(">> 303 Other : " + location);
      return Words.replaceSmartQuotes(ArticleExtractor.INSTANCE
          .getText(fetchPageText(location)));
    }
  }
  String text = Words.replaceSmartQuotes(ArticleExtractor.INSTANCE
      .getText(new URL(pageUrl)));
  if (text == null || text.length() == 0) {
    text = Words.replaceSmartQuotes(ArticleExtractor.INSTANCE
        .getText(Feeds.fetchPageText(pageUrl)));
  }
  return Jsoup.parse(text).body().text();
}/*
 * public static final String escapeHtml(String input) { if(input == null ||

private void loadDefaultRules() {
  addTextExtractor("default-extractor"      , PAGE_CONTENT_DE_PROPERTY , DefaultExtractor.getInstance());
  addTextExtractor("article-extractor"      , PAGE_CONTENT_AE_PROPERTY , ArticleExtractor.getInstance());
  addTextExtractor("large-content-extractor", PAGE_CONTENT_LCE_PROPERTY, LargestContentExtractor.getInstance());
  addTextExtractor("canola-extractor"       , PAGE_CONTENT_CE_PROPERTY , CanolaExtractor.getInstance());
}

public boolean process(TextDocument doc)
    throws BoilerpipeProcessingException {
  return
  ArticleExtractor.INSTANCE.process(doc)
      | SplitParagraphBlocksFilter.INSTANCE.process(doc)
      | MinClauseWordsFilter.INSTANCE.process(doc);
}

try {
  System.out.println("Extracting the text content of the URL...");
  String text = ArticleExtractor.INSTANCE.getText(new InputStreamReader(url.openStream(), "UTF-8"));
  if (verbose) {
    System.out.println("URL text content:");

private String extractTextFromHtml(String text) throws BoilerpipeProcessingException {
  String extractedText;
  text = cleanHtml(text);
  extractedText = NumWordsRulesExtractor.getInstance().getText(text);
  if (extractedText != null && extractedText.length() > 0) {
    return extractedText;
  }
  extractedText = ArticleExtractor.getInstance().getText(text);
  if (extractedText != null && extractedText.length() > 0) {
    return extractedText;
  }
  return null;
}

public boolean process(TextDocument doc)
    throws BoilerpipeProcessingException {
  return
  ArticleExtractor.INSTANCE.process(doc)
      | SplitParagraphBlocksFilter.INSTANCE.process(doc)
      | MinClauseWordsFilter.INSTANCE.process(doc);
}

public boolean process(TextDocument doc)
    throws BoilerpipeProcessingException {
  return
  ArticleExtractor.INSTANCE.process(doc)
      | SplitParagraphBlocksFilter.INSTANCE.process(doc)
      | MinClauseWordsFilter.INSTANCE.process(doc);
}

Javadoc

A full-text extractor which is tuned towards news articles. In this scenario it achieves higher accuracy than DefaultExtractor.

Most used methods

getText
getInstance
Returns the singleton instance for ArticleExtractor.
process

Popular in Java

Finding current android device location
getSupportFragmentManager (FragmentActivity)
getOriginalFilename (MultipartFile)
Return the original filename in the client's filesystem.This may contain path information depending
getExternalFilesDir (Context)
Enumeration (java.util)
A legacy iteration interface.New code should use Iterator instead. Iterator replaces the enumeration
Map (java.util)
A Map is a data structure consisting of a set of keys and values in which each key is mapped to a si
Properties (java.util)
A Properties object is a Hashtable where the keys and values must be Strings. Each property can have
TimeZone (java.util)
TimeZone represents a time zone offset, and also figures out daylight savings. Typically, you get a
GridLayout (java.awt)
The GridLayout class is a layout manager that lays out a container's components in a rectangular gri
JComboBox (javax.swing)
Best IntelliJ plugins

How to useArticleExtractor in de.l3s.boilerpipe.extractors

Best Java code snippets using de.l3s.boilerpipe.extractors.ArticleExtractor (Showing top 9 results out of 315)

How to use
ArticleExtractor
in
de.l3s.boilerpipe.extractors