Das Wissensportal für IT-Professionals. Entdecke die Tiefe und Breite unseres IT-Contents in exklusiven Themenchannels und Magazinmarken.

heise conferences gmbh

(vormals SIGS DATACOM GmbH)

Lindlaustraße 2c, 53842 Troisdorf

Tel: +49 (0)511/5352-100

service-sigs@heise.de

Architektur und Kompromisse von BigQuery DataFrames – Interview mit Ivan Santa Maria Filho

BigQuery DataFrames (BigFrames) ist eine Open-Source-Python-Bibliothek von Google, die eine zu pandas kompatible API zur Analyse von in BigQuery gespeicherten Daten bereitstellt. Im Gegensatz zu pandas, das Daten in den lokalen Speicher lädt, übersetzt BigFrames Operationen in BigQuery-SQL, damit Datenwissenschaftler mit Datensätzen im Terabyte-Bereich unter Verwendung der vertrauten pandas-Syntax arbeiten können. Der Text ist eine Übersetzung des von Roberto V. Zicari auf Englisch mit Ivan Santa Maria Filho, Leiter einer Gruppe bei Google BigQuery namens „BeyondSQL“, geführten Interviews [1].

Roberto V. Zicari: Sie haben erwähnt, dass BigFrames eine interessante Fallstudie dafür darstellt, „wie ein großes Unternehmen wie Google OSS (Open Source Software) nutzen kann, ohne OSS tatsächlich im Code zu verwenden“. Können Sie dieses Paradoxon näher erläutern?

Konkret:

  • BigFrames stellt eine pandas-API bereit, aber die eigentliche Ausführung erfolgt in der SQL-Engine von BigQuery über Transpilation durch Zwischendarstellungen (Ibis, SQLGlot). Was sind die grundlegenden architektonischen Komp…