Принципы параллельной обработки в Greenplum
Выполнение запросов производится на первичных сегментах. Всегда задействуются все сегменты — пользователь не может задать выполнение запроса на части сегментов.
Сегменты Greenplum работают синхронно, обеспечивая параллелизацию обработки каждого запроса. Каждый запрос распараллеливается на столько процессов, сколько есть первичных сегментов в кластере.
Ситуация, когда количество данных, обрабатываемых запросом на разных сегментах, сильно отличается, называется перекос (в англоязычной документации - skew). Перекос всегда приводит к уменьшению производительности, и задача разработчиков писать SQL так, чтобы перекосов не возникало.