Доброго времени суток!
Достаточно много я описывал все прелести Hadoop и возможно у вас уже возникло желание попробовать его под конкретный проект и тут встает вопрос о том на сколько производетелен слон. Для прояснения сложившейся ситуации расскажу о своих тестированиях Hadoop.
Последноего по-возрослому я тестировал только на оракловой железке Big Data Appliance x2-2.
Рис1. Oracle Big Data Appliance.
Это Hadoop шкаф предыдущего поколения (сейчас железки помощнее), состояший из 18 серверов. Каждый сервер представлял из себя следующее:
48 GB RAM, 12 core CPU, 12x3TB Disks.
+ волшебная сеть infiniband (40 Гб/сек при очень низкой латентности).
Тест1. SQL запросы вида
select function1(col1), function2(col2), col3 from table
group by col3
Около 4 минут на сканирование терабайта данны (сжатых).
select function1(col1), function2(col2), col3 from table
where
....
group by col3
Где условие where отсекало половину данных.
Около 3 минут на сканирование терабайта данны (сжатых).
Это скорее нижняя граница. Верхняя граница это около 2 мин на TB данных, но это при определенных условиях. 4 минуты, это можно сказать гарантированный результат.
Тест2.
Сортировка 10 Тб данных 2 часа 35 мин
=> 4 Гб/сек
=> 4 Гб/сек
WordCount – подсчет уникальных слов в тексте
10 Тб – 3 часа 23 мин
=> 3 Гб/сек
10 Тб – 3 часа 23 мин
=> 3 Гб/сек
Тест3. Кейс банка, описанного в предыдущем посте
Быстро это или медленно... все в этом мире относительно:) Если есть желние протестировать свою систему на мощном Hadoop кластере - пишите!
Я правильно понимаю что в Big Data Appliance не входит Oracle Database, а только Oracle NoSQL Database?
ReplyDeleteHi kalimba!
ReplyDeleteСоверешнно верно! Oracle RDBMS там нет. О том как скрещивать с Oracle RDBMS я планировал написать в ближайшее время!
Спасибо. Имеется в виду покажете примеры с OLH?
ReplyDelete> Имеется в виду покажете примеры с OLH?
ReplyDeleteв точности так!