Манифест

Файлы манифестов отслеживают файлы в слое данных (т. е. файлы данных и файлы удаления), а также хранят дополнительные сведения и статистику о каждом файле, например минимальные и максимальные значения в столбцах в файлах данных.

Это Avro файл. Ниже его JSON представление:

{
  "data": [
    {
      "status": 1,
      "snapshot_id": 859055018496945595,
      "sequence_number": null,
      "file_sequence_number": null,
      "data_file": {
        "content": 0,
        "file_path": "hdfs://10.216.0.1:9000/warehouse/btc-6b49ca37dc684d79aebd6caef9e7f421/data/date_year=2024/20250623_072459_00025_kdv89-ffe97cf3-736b-4552-be3d-e63cde454eb4.parquet",
        "file_format": "PARQUET",
        "partition": {
          "date_year": 54
        },
        "record_count": 154647,
        "file_size_in_bytes": 992172,
        "column_sizes": [
          {
            "key": 1,
            "value": 677883
          },
          {
            "key": 2,
            "value": 313981
          }
        ],
        "value_counts": [
          {
            "key": 1,
            "value": 154647
          },
          {
            "key": 2,
            "value": 154647
          }
        ],
        "null_value_counts": [
          {
            "key": 1,
            "value": 0
          },
          {
            "key": 2,
            "value": 0
          }
        ],
        "nan_value_counts": [],
        "lower_bounds": [
          {
            "key": 1,
            "value": "0ShsjJMgBgA="
          },
          {
            "key": 2,
            "value": "tDWRSg=="
          }
        ],
        "upper_bounds": [
          {
            "key": 1,
            "value": "LoawtpkqBgA="
          },
          {
            "key": 2,
            "value": "gsQrSw=="
          }
        ],
        "key_metadata": null,
        "split_offsets": null,
        "equality_ids": null,
        "sort_order_id": 0
      }
    },
    {
      "status": 1,
      "snapshot_id": 859055018496945595,
      "sequence_number": null,
      "file_sequence_number": null,
      "data_file": {
        "content": 0,
        "file_path": "hdfs://10.216.0.1:9000/warehouse/btc-6b49ca37dc684d79aebd6caef9e7f421/data/date_year=2025/20250623_072459_00025_kdv89-763e6088-02da-4740-a1be-bf9d2c6948fd.parquet",
        "file_format": "PARQUET",
        "partition": {
          "date_year": 55
        },
        "record_count": 241642,
        "file_size_in_bytes": 1569296,
        "column_sizes": [
          {
            "key": 1,
            "value": 1069871
          },
          {
            "key": 2,
            "value": 499125
          }
        ],
        "value_counts": [
          {
            "key": 1,
            "value": 241642
          },
          {
            "key": 2,
            "value": 241642
          }
        ],
        "null_value_counts": [
          {
            "key": 1,
            "value": 0
          },
          {
            "key": 2,
            "value": 0
          }
        ],
        "nan_value_counts": [],
        "lower_bounds": [
          {
            "key": 1,
            "value": "5qRLupkqBgA="
          },
          {
            "key": 2,
            "value": "puXDSg=="
          }
        ],
        "upper_bounds": [
          {
            "key": 1,
            "value": "/t8btSk4BgA="
          },
          {
            "key": 2,
            "value": "i7QqSw=="
          }
        ],
        "key_metadata": null,
        "split_offsets": null,
        "equality_ids": null,
        "sort_order_id": 0
      }
    }
  ]
}