Tuesday, 20 August 2013

Пост 17. Насколько быстр слон. Hadoop performance.

Доброго времени суток!
Достаточно много я описывал все прелести Hadoop и возможно у вас уже возникло желание попробовать его под конкретный проект и тут встает вопрос о том на сколько производетелен слон. Для прояснения сложившейся ситуации расскажу о своих тестированиях Hadoop.
Последноего по-возрослому я тестировал только на оракловой железке Big Data Appliance x2-2.
Рис1. Oracle Big Data Appliance.

Это Hadoop шкаф предыдущего поколения (сейчас железки помощнее), состояший из 18 серверов. Каждый сервер представлял из себя следующее:
48 GB RAM, 12 core CPU, 12x3TB Disks.
+ волшебная сеть infiniband (40 Гб/сек при очень низкой латентности).

Тест1. SQL запросы вида 
select function1(col1), function2(col2), col3 from table
group by col3 

Около 4 минут на сканирование терабайта данны (сжатых).

select function1(col1), function2(col2), col3 from table
where
....
group by col3 

Где условие where отсекало половину данных.
Около 3 минут на сканирование терабайта данны (сжатых).

Это скорее нижняя граница. Верхняя граница это около 2 мин на TB данных, но это при определенных условиях. 4 минуты, это можно сказать гарантированный результат.

Тест2. 
Сортировка 10 Тб данных 2 часа 35 мин
=> 4 Гб/сек
WordCount – подсчет уникальных слов в тексте
10 Тб – 3 часа 23 мин
=> 3 Гб/сек

Тест3. Кейс банка, описанного в предыдущем посте


Быстро это или медленно... все в этом мире относительно:) Если есть желние протестировать свою систему на мощном Hadoop кластере - пишите!

4 comments:

  1. Я правильно понимаю что в Big Data Appliance не входит Oracle Database, а только Oracle NoSQL Database?

    ReplyDelete
  2. Hi kalimba!

    Соверешнно верно! Oracle RDBMS там нет. О том как скрещивать с Oracle RDBMS я планировал написать в ближайшее время!

    ReplyDelete
  3. Спасибо. Имеется в виду покажете примеры с OLH?

    ReplyDelete
  4. > Имеется в виду покажете примеры с OLH?
    в точности так!

    ReplyDelete