Format Apache Arrow IPC — Données en colonnes en mémoire

Apache Arrow IPC est un format de données en colonnes en mémoire conçu pour les transferts de données à coût zéro entre processus et frameworks. Il élimine la surcharge de sérialisation/désérialisation pour les pipelines analytiques.

Type MIME

application/vnd.apache.arrow.file

Type

Binaire

Compression

Sans perte

Avantages

+ Zero-copy data sharing between languages and processes
+ Optimized for SIMD and vectorized computation
+ Standard memory layout for modern data tools (DuckDB, Polars, Pandas)

Inconvénients

− Not designed for persistent storage — use Parquet for that
− Files are larger than compressed Parquet or CSV
− More complex than CSV for simple data exchange

Quand utiliser .ARROW

Utilisez Arrow IPC pour la communication inter-processus dans les pipelines analytiques, le transfert de données entre pandas/Spark/DuckDB et les cas nécessitant un traitement en colonnes à coût zéro.

Détails techniques

Arrow utilise une disposition mémoire en colonnes avec des buffers alignés sur 64 octets, des bitmaps de validité pour les null et un format IPC basé sur FlatBuffers. Prend en charge le streaming (messages séquentiels) et les fichiers (accès aléatoire avec pied de page).

Historique

Apache Arrow a été créé en 2016 par Wes McKinney (créateur de pandas) et d'autres pour résoudre le problème de copie de données entre systèmes analytiques. Il a unifié les formats en mémoire entre Spark, pandas, R et DuckDB.