How to run ES-Hadoop in Jupyter Notebook (Python or Scala)

Luan_Ha_Thanh · May 11, 2018, 10:24am

Hello there, I 'm following this tut to connect Elasticsearch and Spark:

I use command:

setx PYSPARK_DRIVER_PYTHON ipython
setx PYSPARK_DRIVER_PYTHON_OPTS notebook
pyspark ----driver-class-path /path-to-jar-file...

Everything is fine. But I don't want to connect to Spark server very more. Maybe I can only:

setx PYSPARK_DRIVER_PYTHON ipython
setx PYSPARK_DRIVER_PYTHON_OPTS notebook
setx SPARK_CLASSPATH /path-to-all-jar-files...
pyspark ----driver-class-path SPARK_CLASSPATH

But all are not run. Error:

Py4JJavaError: An error occurred while calling o139.save.
: java.lang.ClassNotFoundException: Failed to find data source: es. Please find packages at Third-Party Projects | Apache Spark
at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:635)
at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:241)
at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:225)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
at py4j.Gateway.invoke(Gateway.java:282)
at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
at py4j.commands.CallCommand.execute(CallCommand.java:79)
at py4j.GatewayConnection.run(GatewayConnection.java:214)
at java.lang.Thread.run(Thread.java:748)
Caused by: java.lang.ClassNotFoundException: es.DefaultSource
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$23$$anonfun$apply$15.apply(DataSource.scala:618)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$23$$anonfun$apply$15.apply(DataSource.scala:618)
at scala.util.Try$.apply(Try.scala:192)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$23.apply(DataSource.scala:618)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$23.apply(DataSource.scala:618)
at scala.util.Try.orElse(Try.scala:84)
at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:618)
... 13 more

james.baiera · May 30, 2018, 7:32pm

I would make sure that ES-Hadoop is on all of your classpaths. Alternatively, you could try using the full length name for the connector (org.elasticsearch.spark.sql) and give it a shot? I've seen some cases where the short name was unusable

Malek_Soltani · June 9, 2018, 12:01am

you can specify the path to the jar file while starting pyspark :

pyspark --jars /Path_to _ESHadoop_sparkJar/YourESHadoop_sparkJar.jar

system · July 7, 2018, 12:01am

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Using Elasticsearch Spark adapter in Jupyter notebooks with Python kernel Elasticsearch es-hadoop	4	2969	July 6, 2017
Pyspark-Elasticsearch connectivity and latest version compatibilty Elasticsearch es-hadoop	7	2512	March 24, 2023
Jupyter spark connect to elasticsearch Elasticsearch docker , es-hadoop	12	1460	March 29, 2023
Elasticsearch-Pyspark Problem Elasticsearch es-hadoop	2	50	January 20, 2025
ES-Hadoop PySpark error Elasticsearch es-hadoop	2	2172	January 10, 2018

How to run ES-Hadoop in Jupyter Notebook (Python or Scala)

Related topics