Один момент, который я хотел бы обсудить с вами и попросить вас о помощи, - это требования к оборудованию, которые мы должны использовать для надежной и эффективной работы.
У нас есть входные данные:
EPS – 10000
Online Retention – 90 days
Offline Retention – 1000 days (3 years)
Total Raw GB/day – 600
Для Logstash:
2 servers - 8 cores 16 gb ram ? HDD
Для ES :
3 servers - master node, 16 gb ram , ? cores CPU , ? TB HDD
2 servers - data node (HOT 30days), 64 gb ram , 16 cores CPU , 30TB SSD
2 servers - data node (WARM 90days), 64 gb ram , 16 cores CPU , 120TB HDD
2 servers - data node (COLD 1000days), 64 gb ram , 16 cores CPU ,1200TB HDD
? servers - ingest node, ?, ?, ?
Для KIbana :
1 server - 1 core 2 gb, 100 GB, HDD
Очень много вопросов по архитектуре этого стека , на данный момент есть такие сырые данные .
Буду признателен за ваши ответы и коректировки выше написаного.
Зависит от того, что вы будете делать на этих нодах.
Моя рекомендация - начать с одного узла и загрузить туда тестовые данные и посмотреть, сколько вы можете загрузить, с какой скоростью и сколько места это занимает, и получаете ли вы ответы на запросы в приемлемое время. Многое зависит от распеределения значений по полям и типам запросов, которые вы будете запускать.
Apache, Apache Lucene, Apache Hadoop, Hadoop, HDFS and the yellow elephant
logo are trademarks of the
Apache Software Foundation
in the United States and/or other countries.