Unable to insert data into ES through spark-submit - works with pyspark

rohitgcs · December 4, 2018, 12:30am

This is the line I use:
.write.options(**es_write_conf).mode("append").format("org.elasticsearch.spark.sql").save(esPath)

When I run it in a shell launching it with pyspark -jars /usr/lib/spark/jars/elasticsearch-hadoop-5.6.9.jar it runs perfectly. But when I tried to run it through spark-submit -jars /usr/lib/spark/jars/elasticsearch-hadoop-5.6.9.jar I get a ClassNotFoundException.

What would I need to do to figure out why it doesn't work on spark-submit?

james.baiera · December 12, 2018, 8:02pm

Can you add the full ClassNotFoundException text here?

rohitgcs · December 13, 2018, 5:36am

Error output here in the gist:

gist.github.com

https://gist.github.com/rohitgcs/17940e4804b15aa0855b420539a86805

erorroutput.txt

			18/12/13 05:32:50 INFO org.elasticsearch.hadoop.util.Version: Elasticsearch Hadoop v5.6.9 [491e9397f3]
			18/12/13 05:32:51 WARN org.apache.spark.scheduler.TaskSetManager: Lost task 1.0 in stage 4.0 (TID 8, cluster-dcd-w-1.c.datascience-214900.internal, executor 1): java.lang.ClassNotFoundException: org.elasticsearch.spark.sql.EsSparkSQL$$anonfun$saveToEs$1
			at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
			at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
			at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
			at java.lang.Class.forName0(Native Method)
			at java.lang.Class.forName(Class.java:348)
			at org.apache.spark.serializer.JavaDeserializationStream$$anon$1.resolveClass(JavaSerializer.scala:67)
			at java.io.ObjectInputStream.readNonProxyDesc(ObjectInputStream.java:1866)
			at java.io.ObjectInputStream.readClassDesc(ObjectInputStream.java:1749)

This file has been truncated. show original

rohitgcs · December 20, 2018, 6:36am

@james.baiera any idea why this would happen?

james.baiera · January 2, 2019, 4:40pm

This seems like a pretty strange problem here. I would check to make sure that you are using the correct ES-Hadoop version for your distribution of Spark as well as for your distribution of Scala.

system · January 30, 2019, 4:40pm

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
How to write to ES from a pyspark dataframe? Elasticsearch es-hadoop	5	5119	July 6, 2017
Error with pyspark connect es Elasticsearch es-hadoop	1	900	September 24, 2020
Connection Spark and ElasticSearch Elasticsearch es-hadoop	3	3277	August 27, 2017
java.lang.ClassNotFoundException: org.apache.spark.Partition$class Elasticsearch es-hadoop	1	1086	April 5, 2020
Connecting elastic search through pyspark Elasticsearch es-hadoop	2	1701	December 7, 2021

Unable to insert data into ES through spark-submit - works with pyspark

Related topics