Spark-elasticsearch에서 SQL 문을 사용하면 응답속도가 매우느립니다

hyungsun_lim · March 5, 2020, 2:33pm

안녕하세요? 현재 es에서 spark로 데이터를 읽어와 SQL 처리를 하는 기능을 적용중인데요.

아래와 같은 코드 사용시 문제가 있습니다.

# Initializing PySpark
from pyspark import SparkContext, SparkConf, SQLContext

# Spark Config
conf = SparkConf().setAppName("es_app")
sc = SparkContext(conf=conf)

# sqlContext
sqlContext = SQLContext(sc)

# ES to dataframe
df = sqlContext.read.format("org.elasticsearch.spark.sql").option("es.nodes","xxx.xxx.xxx.xxx:9200").option("es.nodes.discovery", "true").load("sample")

# make view 
df.registerTempTable("sample")

# Too long
sqlContext.sql("SELECT count(*) from sample").show()

sample에 500만개 정도 document를 가지고 있는데, 저 쿼리를 날리면 결과가 나오기 까지 3~5분 정도 소요가 됩니다.

로그를 보니 모든 document를 가져온 다음 처리하는 듯 한데, 이 문제를 해결하려면 어떻게 해야하나요? 샤드 개수를 늘려보아도 한계가 있네요 ㅠㅠ

system · April 2, 2020, 2:33pm

This topic was automatically closed 28 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Reading es by spark SQL is too slow Elasticsearch	1	396	March 18, 2020
Reading elasticsearch data using spark SQL is too slow Elasticsearch es-hadoop	1	709	April 3, 2020
[Hadoop] Slow performance of Elasticsearch-Hadoop + Spark SQL Elasticsearch	2	1013	July 6, 2017
Slow performance of Elasticsearch-Hadoop + Spark SQL Elasticsearch es-hadoop	11	6167	July 6, 2017
Reading from Elasticsearch to Spark is very slow Elasticsearch	1	862	July 29, 2019

Spark-elasticsearch에서 SQL 문을 사용하면 응답속도가 매우느립니다

Related topics