org.apache.spark.sql.Dataset.createOrReplaceTempView java code examples

@Before
public void setUp() throws IOException {
 spark = SparkSession.builder()
  .master("local[*]")
  .appName("testing")
  .getOrCreate();
 path =
  Utils.createTempDir(System.getProperty("java.io.tmpdir"), "datasource").getCanonicalFile();
 if (path.exists()) {
  path.delete();
 }
 List<String> jsonObjects = new ArrayList<>(10);
 for (int i = 0; i < 10; i++) {
  jsonObjects.add("{\"a\":" + i + ", \"b\":\"str" + i + "\"}");
 }
 Dataset<String> ds = spark.createDataset(jsonObjects, Encoders.STRING());
 df = spark.read().json(ds);
 df.createOrReplaceTempView("jsonTable");
}

@Before
public void setUp() throws IOException {
 spark = SparkSession.builder()
  .master("local[*]")
  .appName("testing")
  .getOrCreate();
 path =
  Utils.createTempDir(System.getProperty("java.io.tmpdir"), "datasource").getCanonicalFile();
 if (path.exists()) {
  path.delete();
 }
 List<String> jsonObjects = new ArrayList<>(10);
 for (int i = 0; i < 10; i++) {
  jsonObjects.add("{\"a\":" + i + ", \"b\":\"str" + i + "\"}");
 }
 Dataset<String> ds = spark.createDataset(jsonObjects, Encoders.STRING());
 df = spark.read().json(ds);
 df.createOrReplaceTempView("jsonTable");
}

    .option(DataSourceOptions.TABLE_KEY, tableName)
    .option(PhoenixDataSource.ZOOKEEPER_URL, getUrl()).load();
phoenixDataSet.createOrReplaceTempView(tableName);
Dataset<Row> dataset =
    sqlContext.sql("SELECT col1+col2, col4, a_string FROM " + tableName

@Before
public void setUp() throws IOException {
 spark = SparkSession.builder()
  .master("local[*]")
  .appName("testing")
  .getOrCreate();
 path =
  Utils.createTempDir(System.getProperty("java.io.tmpdir"), "datasource").getCanonicalFile();
 if (path.exists()) {
  path.delete();
 }
 List<String> jsonObjects = new ArrayList<>(10);
 for (int i = 0; i < 10; i++) {
  jsonObjects.add("{\"a\":" + i + ", \"b\":\"str" + i + "\"}");
 }
 Dataset<String> ds = spark.createDataset(jsonObjects, Encoders.STRING());
 df = spark.read().json(ds);
 df.createOrReplaceTempView("jsonTable");
}

@Test
public void applySchema() {
 List<Person> personList = new ArrayList<>(2);
 Person person1 = new Person();
 person1.setName("Michael");
 person1.setAge(29);
 personList.add(person1);
 Person person2 = new Person();
 person2.setName("Yin");
 person2.setAge(28);
 personList.add(person2);
 JavaRDD<Row> rowRDD = jsc.parallelize(personList).map(
   person -> RowFactory.create(person.getName(), person.getAge()));
 List<StructField> fields = new ArrayList<>(2);
 fields.add(DataTypes.createStructField("name", DataTypes.StringType, false));
 fields.add(DataTypes.createStructField("age", DataTypes.IntegerType, false));
 StructType schema = DataTypes.createStructType(fields);
 Dataset<Row> df = spark.createDataFrame(rowRDD, schema);
 df.createOrReplaceTempView("people");
 List<Row> actual = spark.sql("SELECT * FROM people").collectAsList();
 List<Row> expected = new ArrayList<>(2);
 expected.add(RowFactory.create("Michael", 29));
 expected.add(RowFactory.create("Yin", 28));
 Assert.assertEquals(expected, actual);
}

@SuppressWarnings("unchecked")
@Test
public void udf1Test() {
 spark.range(1, 10).toDF("value").createOrReplaceTempView("df");
 spark.udf().registerJavaUDAF("myDoubleAvg", MyDoubleAvg.class.getName());
 Row result = spark.sql("SELECT myDoubleAvg(value) as my_avg from df").head();
 Assert.assertEquals(105.0, result.getDouble(0), 1.0e-6);
}

@SuppressWarnings("unchecked")
@Test
public void udf1Test() {
 spark.range(1, 10).toDF("value").createOrReplaceTempView("df");
 spark.udf().registerJavaUDAF("myDoubleAvg", MyDoubleAvg.class.getName());
 Row result = spark.sql("SELECT myDoubleAvg(value) as my_avg from df").head();
 Assert.assertEquals(105.0, result.getDouble(0), 1.0e-6);
}

@Test
public void applySchema() {
 List<Person> personList = new ArrayList<>(2);
 Person person1 = new Person();
 person1.setName("Michael");
 person1.setAge(29);
 personList.add(person1);
 Person person2 = new Person();
 person2.setName("Yin");
 person2.setAge(28);
 personList.add(person2);
 JavaRDD<Row> rowRDD = jsc.parallelize(personList).map(
   person -> RowFactory.create(person.getName(), person.getAge()));
 List<StructField> fields = new ArrayList<>(2);
 fields.add(DataTypes.createStructField("name", DataTypes.StringType, false));
 fields.add(DataTypes.createStructField("age", DataTypes.IntegerType, false));
 StructType schema = DataTypes.createStructType(fields);
 Dataset<Row> df = spark.createDataFrame(rowRDD, schema);
 df.createOrReplaceTempView("people");
 List<Row> actual = spark.sql("SELECT * FROM people").collectAsList();
 List<Row> expected = new ArrayList<>(2);
 expected.add(RowFactory.create("Michael", 29));
 expected.add(RowFactory.create("Yin", 28));
 Assert.assertEquals(expected, actual);
}

@Test
public void applySchema() {
 List<Person> personList = new ArrayList<>(2);
 Person person1 = new Person();
 person1.setName("Michael");
 person1.setAge(29);
 personList.add(person1);
 Person person2 = new Person();
 person2.setName("Yin");
 person2.setAge(28);
 personList.add(person2);
 JavaRDD<Row> rowRDD = jsc.parallelize(personList).map(
   person -> RowFactory.create(person.getName(), person.getAge()));
 List<StructField> fields = new ArrayList<>(2);
 fields.add(DataTypes.createStructField("name", DataTypes.StringType, false));
 fields.add(DataTypes.createStructField("age", DataTypes.IntegerType, false));
 StructType schema = DataTypes.createStructType(fields);
 Dataset<Row> df = spark.createDataFrame(rowRDD, schema);
 df.createOrReplaceTempView("people");
 List<Row> actual = spark.sql("SELECT * FROM people").collectAsList();
 List<Row> expected = new ArrayList<>(2);
 expected.add(RowFactory.create("Michael", 29));
 expected.add(RowFactory.create("Yin", 28));
 Assert.assertEquals(expected, actual);
}

StructType actualSchema1 = df1.schema();
Assert.assertEquals(expectedSchema, actualSchema1);
df1.createOrReplaceTempView("jsonTable1");
List<Row> actual1 = spark.sql("select * from jsonTable1").collectAsList();
Assert.assertEquals(expectedResult, actual1);
StructType actualSchema2 = df2.schema();
Assert.assertEquals(expectedSchema, actualSchema2);
df2.createOrReplaceTempView("jsonTable2");
List<Row> actual2 = spark.sql("select * from jsonTable2").collectAsList();
Assert.assertEquals(expectedResult, actual2);

@Test
public void dataFrameRDDOperations() {
 List<Person> personList = new ArrayList<>(2);
 Person person1 = new Person();
 person1.setName("Michael");
 person1.setAge(29);
 personList.add(person1);
 Person person2 = new Person();
 person2.setName("Yin");
 person2.setAge(28);
 personList.add(person2);
 JavaRDD<Row> rowRDD = jsc.parallelize(personList).map(
   person -> RowFactory.create(person.getName(), person.getAge()));
 List<StructField> fields = new ArrayList<>(2);
 fields.add(DataTypes.createStructField("", DataTypes.StringType, false));
 fields.add(DataTypes.createStructField("age", DataTypes.IntegerType, false));
 StructType schema = DataTypes.createStructType(fields);
 Dataset<Row> df = spark.createDataFrame(rowRDD, schema);
 df.createOrReplaceTempView("people");
 List<String> actual = spark.sql("SELECT * FROM people").toJavaRDD()
  .map(row -> row.getString(0) + "_" + row.get(1)).collect();
 List<String> expected = new ArrayList<>(2);
 expected.add("Michael_29");
 expected.add("Yin_28");
 Assert.assertEquals(expected, actual);
}

@Test
public void dataFrameRDDOperations() {
 List<Person> personList = new ArrayList<>(2);
 Person person1 = new Person();
 person1.setName("Michael");
 person1.setAge(29);
 personList.add(person1);
 Person person2 = new Person();
 person2.setName("Yin");
 person2.setAge(28);
 personList.add(person2);
 JavaRDD<Row> rowRDD = jsc.parallelize(personList).map(
   person -> RowFactory.create(person.getName(), person.getAge()));
 List<StructField> fields = new ArrayList<>(2);
 fields.add(DataTypes.createStructField("", DataTypes.StringType, false));
 fields.add(DataTypes.createStructField("age", DataTypes.IntegerType, false));
 StructType schema = DataTypes.createStructType(fields);
 Dataset<Row> df = spark.createDataFrame(rowRDD, schema);
 df.createOrReplaceTempView("people");
 List<String> actual = spark.sql("SELECT * FROM people").toJavaRDD()
  .map(row -> row.getString(0) + "_" + row.get(1)).collect();
 List<String> expected = new ArrayList<>(2);
 expected.add("Michael_29");
 expected.add("Yin_28");
 Assert.assertEquals(expected, actual);
}

StructType actualSchema1 = df1.schema();
Assert.assertEquals(expectedSchema, actualSchema1);
df1.createOrReplaceTempView("jsonTable1");
List<Row> actual1 = spark.sql("select * from jsonTable1").collectAsList();
Assert.assertEquals(expectedResult, actual1);
StructType actualSchema2 = df2.schema();
Assert.assertEquals(expectedSchema, actualSchema2);
df2.createOrReplaceTempView("jsonTable2");
List<Row> actual2 = spark.sql("select * from jsonTable2").collectAsList();
Assert.assertEquals(expectedResult, actual2);

StructType actualSchema1 = df1.schema();
Assert.assertEquals(expectedSchema, actualSchema1);
df1.createOrReplaceTempView("jsonTable1");
List<Row> actual1 = spark.sql("select * from jsonTable1").collectAsList();
Assert.assertEquals(expectedResult, actual1);
StructType actualSchema2 = df2.schema();
Assert.assertEquals(expectedSchema, actualSchema2);
df2.createOrReplaceTempView("jsonTable2");
List<Row> actual2 = spark.sql("select * from jsonTable2").collectAsList();
Assert.assertEquals(expectedResult, actual2);

@Test
public void dataFrameRDDOperations() {
 List<Person> personList = new ArrayList<>(2);
 Person person1 = new Person();
 person1.setName("Michael");
 person1.setAge(29);
 personList.add(person1);
 Person person2 = new Person();
 person2.setName("Yin");
 person2.setAge(28);
 personList.add(person2);
 JavaRDD<Row> rowRDD = jsc.parallelize(personList).map(
   person -> RowFactory.create(person.getName(), person.getAge()));
 List<StructField> fields = new ArrayList<>(2);
 fields.add(DataTypes.createStructField("", DataTypes.StringType, false));
 fields.add(DataTypes.createStructField("age", DataTypes.IntegerType, false));
 StructType schema = DataTypes.createStructType(fields);
 Dataset<Row> df = spark.createDataFrame(rowRDD, schema);
 df.createOrReplaceTempView("people");
 List<String> actual = spark.sql("SELECT * FROM people").toJavaRDD()
  .map(row -> row.getString(0) + "_" + row.get(1)).collect();
 List<String> expected = new ArrayList<>(2);
 expected.add("Michael_29");
 expected.add("Yin_28");
 Assert.assertEquals(expected, actual);
}

@SuppressWarnings("unchecked")
@Test
public void udf4Test() {
 spark.udf().register("inc", (Long i) -> i + 1, DataTypes.LongType);
 spark.range(10).toDF("x").createOrReplaceTempView("tmp");
 // This tests when Java UDFs are required to be the semantically same (See SPARK-9435).
 List<Row> results = spark.sql("SELECT inc(x) FROM tmp GROUP BY inc(x)").collectAsList();
 Assert.assertEquals(10, results.size());
 long sum = 0;
 for (Row result : results) {
  sum += result.getLong(0);
 }
 Assert.assertEquals(55, sum);
}

@SuppressWarnings("unchecked")
@Test
public void udf4Test() {
 spark.udf().register("inc", (Long i) -> i + 1, DataTypes.LongType);
 spark.range(10).toDF("x").createOrReplaceTempView("tmp");
 // This tests when Java UDFs are required to be the semantically same (See SPARK-9435).
 List<Row> results = spark.sql("SELECT inc(x) FROM tmp GROUP BY inc(x)").collectAsList();
 Assert.assertEquals(10, results.size());
 long sum = 0;
 for (Row result : results) {
  sum += result.getLong(0);
 }
 Assert.assertEquals(55, sum);
}

 @SuppressWarnings("unchecked")
 @Test
 public void udf4Test() {
  spark.udf().register("inc", (Long i) -> i + 1, DataTypes.LongType);

  spark.range(10).toDF("x").createOrReplaceTempView("tmp");
  // This tests when Java UDFs are required to be the semantically same (See SPARK-9435).
  List<Row> results = spark.sql("SELECT inc(x) FROM tmp GROUP BY inc(x)").collectAsList();
  Assert.assertEquals(10, results.size());
  long sum = 0;
  for (Row result : results) {
   sum += result.getLong(0);
  }
  Assert.assertEquals(55, sum);
 }
}

rfDataset.createOrReplaceTempView("rfTable");

  public static ResultSet executeQuery(Connection conn, QueryBuilder queryBuilder, String url, Configuration config)
      throws SQLException {
    SQLContext sqlContext = getSparkSession().sqlContext();

    boolean forceRowKeyOrder =
        conn.unwrap(PhoenixConnection.class).getQueryServices().getProps()
            .getBoolean(QueryServices.FORCE_ROW_KEY_ORDER_ATTRIB, false);
    // if we are forcing row key order we have to add an ORDER BY
    // here we assume that the required columns are in the primary key column order
    String prevOrderBy = queryBuilder.getOrderByClause();
    if (forceRowKeyOrder &&  (queryBuilder.getOrderByClause()==null || queryBuilder.getOrderByClause().isEmpty())) {
      queryBuilder.setOrderByClause(Joiner.on(", ").join(queryBuilder.getRequiredColumns()));
    }

    // create PhoenixRDD using the table name and columns that are required by the query
    // since we don't set the predicate filtering is done after rows are returned from spark
    Dataset phoenixDataSet = getSparkSession().read().format("phoenix")
        .option(DataSourceOptions.TABLE_KEY, queryBuilder.getFullTableName())
        .option(PhoenixDataSource.ZOOKEEPER_URL, url).load();

    phoenixDataSet.createOrReplaceTempView(queryBuilder.getFullTableName());
    Dataset<Row> dataset = sqlContext.sql(queryBuilder.build());
    SparkPlan plan = dataset.queryExecution().executedPlan();
    List<Row> rows = dataset.collectAsList();
    queryBuilder.setOrderByClause(prevOrderBy);
    ResultSet rs = new SparkResultSet(rows, dataset.columns());
    return rs;
  }
}

Popular methods of Dataset

Popular in Java

Reactive rest calls using spring rest template
getApplicationContext (Context)
orElseThrow (Optional)
Return the contained value, if present, otherwise throw an exception to be created by the provided s
compareTo (BigDecimal)
NoSuchElementException (java.util)
Thrown when trying to retrieve an element past the end of an Enumeration or Iterator.
XPath (javax.xml.xpath)
XPath provides access to the XPath evaluation environment and expressions. Evaluation of XPath Expr
Component (java.awt)
A component is an object having a graphical representation that can be displayed on the screen and t
GridLayout (java.awt)
The GridLayout class is a layout manager that lays out a container's components in a rectangular gri
Response (javax.ws.rs.core)
Defines the contract between a returned instance and the runtime when an application needs to provid
Option (scala)
Top PhpStorm plugins

How to use createOrReplaceTempViewmethodin org.apache.spark.sql.Dataset

Best Java code snippets using org.apache.spark.sql.Dataset.createOrReplaceTempView (Showing top 20 results out of 315)

How to use
createOrReplaceTempView
method
in
org.apache.spark.sql.Dataset