org.apache.parquet.io.MessageColumnIO.getRecordReader java code examples

final RecordReader recordReader = colIO.getRecordReader(pages, new GroupRecordConverter(schema));

/**
 * Load Decision Tree model.
 *
 * @param pathToMdl Path to model.
 */
private static Model loadDecisionTreeModel(String pathToMdl) {
  try (ParquetFileReader r = ParquetFileReader.open(HadoopInputFile.fromPath(new Path(pathToMdl), new Configuration()))) {
    PageReadStore pages;
    final MessageType schema = r.getFooter().getFileMetaData().getSchema();
    final MessageColumnIO colIO = new ColumnIOFactory().getColumnIO(schema);
    final Map<Integer, NodeData> nodes = new TreeMap<>();
    while (null != (pages = r.readNextRowGroup())) {
      final long rows = pages.getRowCount();
      final RecordReader recordReader = colIO.getRecordReader(pages, new GroupRecordConverter(schema));
      for (int i = 0; i < rows; i++) {
        final SimpleGroup g = (SimpleGroup)recordReader.read();
        NodeData nodeData = extractNodeDataFromParquetRow(g);
        nodes.put(nodeData.id, nodeData);
      }
    }
    return buildDecisionTreeModel(nodes);
  }
  catch (IOException e) {
    System.out.println("Error reading parquet file.");
    e.printStackTrace();
  }
  return null;
}

  final RecordReader recordReader = colIO.getRecordReader(pagesMetaData, new GroupRecordConverter(schema));
  for (int i = 0; i < rows; i++) {
    final SimpleGroup g = (SimpleGroup)recordReader.read();
while (null != (pages = r.readNextRowGroup())) {
  final long rows = pages.getRowCount();
  final RecordReader recordReader = colIO.getRecordReader(pages, new GroupRecordConverter(schema));
  for (int i = 0; i < rows; i++) {
    final SimpleGroup g = (SimpleGroup)recordReader.read();

/**
 * Load SVM model.
 *
 * @param pathToMdl Path to model.
 */
private static Model loadLinearSVMModel(String pathToMdl) {
  Vector coefficients = null;
  double interceptor = 0;
  try (ParquetFileReader r = ParquetFileReader.open(HadoopInputFile.fromPath(new Path(pathToMdl), new Configuration()))) {
    PageReadStore pages;
    final MessageType schema = r.getFooter().getFileMetaData().getSchema();
    final MessageColumnIO colIO = new ColumnIOFactory().getColumnIO(schema);
    while (null != (pages = r.readNextRowGroup())) {
      final long rows = pages.getRowCount();
      final RecordReader recordReader = colIO.getRecordReader(pages, new GroupRecordConverter(schema));
      for (int i = 0; i < rows; i++) {
        final SimpleGroup g = (SimpleGroup)recordReader.read();
        interceptor = readSVMInterceptor(g);
        coefficients = readSVMCoefficients(g);
      }
    }
  }
  catch (IOException e) {
    System.out.println("Error reading parquet file.");
    e.printStackTrace();
  }
  return new SVMLinearClassificationModel(coefficients, interceptor);
}

/**
 * Load linear regression model.
 *
 * @param pathToMdl Path to model.
 */
private static Model loadLinRegModel(String pathToMdl) {
  Vector coefficients = null;
  double interceptor = 0;
  try (ParquetFileReader r = ParquetFileReader.open(HadoopInputFile.fromPath(new Path(pathToMdl), new Configuration()))) {
    PageReadStore pages;
    final MessageType schema = r.getFooter().getFileMetaData().getSchema();
    final MessageColumnIO colIO = new ColumnIOFactory().getColumnIO(schema);
    while (null != (pages = r.readNextRowGroup())) {
      final long rows = pages.getRowCount();
      final RecordReader recordReader = colIO.getRecordReader(pages, new GroupRecordConverter(schema));
      for (int i = 0; i < rows; i++) {
        final SimpleGroup g = (SimpleGroup)recordReader.read();
        interceptor = readLinRegInterceptor(g);
        coefficients = readLinRegCoefficients(g);
      }
    }
  }
  catch (IOException e) {
    System.out.println("Error reading parquet file.");
    e.printStackTrace();
  }
  return new LinearRegressionModel(coefficients, interceptor);
}

/**
 * Load logistic regression model.
 *
 * @param pathToMdl Path to model.
 */
private static Model loadLogRegModel(String pathToMdl) {
  Vector coefficients = null;
  double interceptor = 0;
  try (ParquetFileReader r = ParquetFileReader.open(HadoopInputFile.fromPath(new Path(pathToMdl), new Configuration()))) {
    PageReadStore pages;
    final MessageType schema = r.getFooter().getFileMetaData().getSchema();
    final MessageColumnIO colIO = new ColumnIOFactory().getColumnIO(schema);
    while (null != (pages = r.readNextRowGroup())) {
      final long rows = pages.getRowCount();
      final RecordReader recordReader = colIO.getRecordReader(pages, new GroupRecordConverter(schema));
      for (int i = 0; i < rows; i++) {
        final SimpleGroup g = (SimpleGroup)recordReader.read();
        interceptor = readInterceptor(g);
        coefficients = readCoefficients(g);
      }
    }
  }
  catch (IOException e) {
    System.out.println("Error reading parquet file.");
    e.printStackTrace();
  }
  return new LogisticRegressionModel(coefficients, interceptor);
}

private static Model loadKMeansModel(String pathToMdl) {
  Vector[] centers = null;
  try (ParquetFileReader r = ParquetFileReader.open(HadoopInputFile.fromPath(new Path(pathToMdl), new Configuration()))) {
    PageReadStore pages;
    final MessageType schema = r.getFooter().getFileMetaData().getSchema();
    final MessageColumnIO colIO = new ColumnIOFactory().getColumnIO(schema);
    while (null != (pages = r.readNextRowGroup())) {
      final int rows = (int)pages.getRowCount();
      final RecordReader recordReader = colIO.getRecordReader(pages, new GroupRecordConverter(schema));
      centers = new DenseVector[rows];
      for (int i = 0; i < rows; i++) {
        final SimpleGroup g = (SimpleGroup)recordReader.read();
        // final int clusterIdx = g.getInteger(0, 0);
        Group clusterCenterCoeff = g.getGroup(1, 0).getGroup(3, 0);
        final int amountOfCoefficients = clusterCenterCoeff.getFieldRepetitionCount(0);
        centers[i] = new DenseVector(amountOfCoefficients);
        for (int j = 0; j < amountOfCoefficients; j++) {
          double coefficient = clusterCenterCoeff.getGroup(0, j).getDouble(0, 0);
          centers[i].set(j, coefficient);
        }
      }
    }
  }
  catch (IOException e) {
    System.out.println("Error reading parquet file.");
    e.printStackTrace();
  }
  return new KMeansModel(centers, new EuclideanDistance());
}

public <T> RecordReader<T> getRecordReader(PageReadStore columns,
                      RecordMaterializer<T> recordMaterializer) {
 return getRecordReader(columns, recordMaterializer, FilterCompat.NOOP);
}

public <T> RecordReader<T> getRecordReader(PageReadStore columns,
                      RecordMaterializer<T> recordMaterializer) {
 return getRecordReader(columns, recordMaterializer, FilterCompat.NOOP);
}

/**
 * @param columns a page read store with the column data
 * @param recordMaterializer a record materializer
 * @param filter a record filter
 * @param <T> the type of records returned by the reader
 * @return a record reader
 * @deprecated use getRecordReader(PageReadStore, RecordMaterializer, Filter)
 */
@Deprecated
public <T> RecordReader<T> getRecordReader(PageReadStore columns,
                      RecordMaterializer<T> recordMaterializer,
                      UnboundRecordFilter filter) {
 return getRecordReader(columns, recordMaterializer, FilterCompat.get(filter));
}

/**
 * @param columns a page read store with the column data
 * @param recordMaterializer a record materializer
 * @param filter a record filter
 * @param <T> the type of records returned by the reader
 * @return a record reader
 * @deprecated use getRecordReader(PageReadStore, RecordMaterializer, Filter)
 */
@Deprecated
public <T> RecordReader<T> getRecordReader(PageReadStore columns,
                      RecordMaterializer<T> recordMaterializer,
                      UnboundRecordFilter filter) {
 return getRecordReader(columns, recordMaterializer, FilterCompat.get(filter));
}

LOG.debug("initializing Record assembly with requested schema {}", requestedSchema);
MessageColumnIO columnIO = columnIOFactory.getColumnIO(requestedSchema, fileSchema, strictTypeChecking);
recordReader = columnIO.getRecordReader(pages, recordConverter,
  filterRecords ? filter : FilterCompat.NOOP);
startedAssemblingCurrentBlockAt = System.currentTimeMillis();

LOG.debug("initializing Record assembly with requested schema {}", requestedSchema);
MessageColumnIO columnIO = columnIOFactory.getColumnIO(requestedSchema, fileSchema, strictTypeChecking);
recordReader = columnIO.getRecordReader(pages, recordConverter,
  filterRecords ? filter : FilterCompat.NOOP);
startedAssemblingCurrentBlockAt = System.currentTimeMillis();

if (Log.DEBUG) LOG.debug("initializing Record assembly with requested schema " + requestedSchema);
MessageColumnIO columnIO = columnIOFactory.getColumnIO(requestedSchema, fileSchema, strictTypeChecking);
recordReader = columnIO.getRecordReader(pages, recordConverter, filter);
startedAssemblingCurrentBlockAt = System.currentTimeMillis();
totalCountLoadedSoFar += pages.getRowCount();

if (Log.DEBUG) LOG.debug("initializing Record assembly with requested schema " + requestedSchema);
MessageColumnIO columnIO = columnIOFactory.getColumnIO(requestedSchema, fileSchema, strictTypeChecking);
recordReader = columnIO.getRecordReader(pages, recordConverter, filter);
startedAssemblingCurrentBlockAt = System.currentTimeMillis();
totalCountLoadedSoFar += pages.getRowCount();

if (!schemaOnly) {
 if (deltas != null) {
  recordReader = columnIO.getRecordReader(pageReadStore, recordMaterializer, new UnboundRecordFilter() {
   @Override
   public RecordFilter bind(Iterable<ColumnReader> readers) {
  recordReader = columnIO.getRecordReader(pageReadStore, recordMaterializer);

final Collection<SchemaPath> columns = columnsNotFound == null || columnsNotFound.size() == 0 ? getColumns(): CollectionUtils.subtract(getColumns(), columnsNotFound);
recordMaterializer = new DrillParquetRecordMaterializer(output, projection, columns, fragmentContext.getOptions(), containsCorruptedDates);
recordReader = columnIO.getRecordReader(pageReadStore, recordMaterializer);

private List<IColumn> loadColumns(ParquetMetadata md) {
  try {
    MessageType schema = md.getFileMetaData().getSchema();
    List<IAppendableColumn> cols = createColumns(md);
    ParquetFileReader r = ParquetFileReader.open(this.configuration, this.path);
    MessageColumnIO columnIO = new ColumnIOFactory().getColumnIO(schema);
    PageReadStore pages;
    while (null != (pages = r.readNextRowGroup())) {
      final long rows = pages.getRowCount();
      RecordReader<Group> recordReader = columnIO.getRecordReader(
          pages, new GroupRecordConverter(schema));
      for (int i = 0; i < rows; i++) {
        Group g = recordReader.read();
        appendGroup(cols, g, md.getFileMetaData().getSchema().getColumns());
      }
    }
    for (IAppendableColumn c : cols)
      c.seal();
    r.close();
    return Linq.map(cols, e -> e);
  } catch (IOException ex) {
    throw new RuntimeException(ex);
  }
}

Popular methods of MessageColumnIO

Popular in Java

Finding current android device location
setScale (BigDecimal)
findViewById (Activity)
onCreateOptionsMenu (Activity)
HashSet (java.util)
HashSet is an implementation of a Set. All optional operations (adding and removing) are supported.
Map (java.util)
A Map is a data structure consisting of a set of keys and values in which each key is mapped to a si
CountDownLatch (java.util.concurrent)
A synchronization aid that allows one or more threads to wait until a set of operations being perfor
ZipFile (java.util.zip)
This class provides random read access to a zip file. You pay more to read the zip file's central di
SAXParseException (org.xml.sax)
Encapsulate an XML parse error or warning.> This module, both source code and documentation, is in t
Point (java.awt)
A point representing a location in (x,y) coordinate space, specified in integer precision.
Best plugins for Eclipse

How to use getRecordReadermethodin org.apache.parquet.io.MessageColumnIO

Best Java code snippets using org.apache.parquet.io.MessageColumnIO.getRecordReader (Showing top 18 results out of 315)

How to use
getRecordReader
method
in
org.apache.parquet.io.MessageColumnIO