TPCDS
Инструкция по созданию набора данных TPCDS на MacOS и Linux
Установка
- Клонировать репозиторий с GitHub,
- Установить зависимости для сборки.
- MacOS:
xcode-select --install
- Linux:
sudo apt-get install gcc make flex bison byacc git
- `sudo yum install gcc make flex bison byacc git
- MacOS:
cd tpcds-kit/tools
- Сборка
make OS=MACOS
make OS=LINUX
Версия gcc в Linux
Для того чтобы сборка прошла в Ubuntu 24.04 мне потребовалось установить более старую версию gcc
и её собрать с дополнительными ключами.
Генерация
Где:
- директория уже должна быть создана
Параллельная генерация данных
Since dsdgen generates 200-300GB/hour serially on a 2-3GHz x86 processor, it is useful to run multiple parallel streams when generating large amounts of data.
Example:generating 1 GB with 4 parallel streams simultaneously
Загрузка данных
- Создать таблицы скриптом, что лежит в папке tools:
psql -h 10.73.152.23 -U tpcds -d tpcds -f tpcds.sql
- Выполнить скрипт ниже для загрузки данных: