Snowpark Python: UDFs, Stored Procedures & DataFrames

Free Lesson

Advertisement

Snowpark Python: UDFs, Stored Procedures & DataFrames

Architecture Diagram 1: Snowpark Architecture

Architecture Diagram
ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”
│                    SNOWPARK PYTHON ARCHITECTURE                              │
ā”œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”¤
│                                                                             │
│  CLIENT APPLICATION                                                         │
│  ══════════════════                                                         │
│  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │
│  │                                                                      │   │
│  │  Python Code (Local Development):                                   │   │
│  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │   │
│  │  │  from snowflake.snowpark import Session                      │   │   │
│  │  │  from snowflake.snowpark.functions import col, sum as sum_  │   │   │
│  │  │                                                               │   │   │
│  │  │  # Create session                                            │   │   │
│  │  │  session = Session.builder.configs({                         │   │   │
│  │  │      "account": "your_account",                              │   │   │
│  │  │      "user": "your_user",                                    │   │   │
│  │  │      "password": "your_password"                             │   │   │
│  │  │  }).create()                                                 │   │   │
│  │  │                                                               │   │   │
│  │  │  # DataFrame operations                                      │   │   │
│  │  │  df = session.table("sales_data")                            │   │   │
│  │  │  result = df.filter(col("amount") > 1000)                   │   │   │
│  │  │              .group_by("region")                              │   │   │
│  │  │              .agg(sum_(col("amount")).alias("total"))        │   │   │
│  │  │              .collect()                                       │   │   │
│  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │   │
│  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │
│                                    │                                        │
│                                    │  Snowpark Client Library              │
│                                    │  (Translates Python to SQL)           │
│                                    ā–¼                                        │
│  SNOWPARK CLIENT LIBRARY                                                     │
│  ═════════════════════════                                                   │
│  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │
│  │                                                                      │   │
│  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │   │
│  │  │  Translation Layer:                                           │   │   │
│  │  │                                                               │   │   │
│  │  │  Python DataFrame Operations  ──▶  SQL Execution Plans       │   │   │
│  │  │                                                               │   │   │
│  │  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”  │   │   │
│  │  │  │  df.filter(col("amount") > 1000)                       │  │   │   │
│  │  │  │       ā–¼                                                │  │   │   │
│  │  │  │  WHERE amount > 1000                                    │  │   │   │
│  │  │  │                                                         │  │   │   │
│  │  │  │  df.group_by("region")                                  │  │   │   │
│  │  │  │       ā–¼                                                │  │   │   │
│  │  │  │  GROUP BY region                                        │  │   │   │
│  │  │  │                                                         │  │   │   │
│  │  │  │  .agg(sum_(col("amount")))                              │  │   │   │
│  │  │  │       ā–¼                                                │  │   │   │
│  │  │  │  SUM(amount)                                            │  │   │   │
│  │  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜  │   │   │
│  │  │                                                               │   │   │
│  │  │  Query Optimization:                                         │   │   │
│  │  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”  │   │   │
│  │  │  │  • Predicate pushdown                                   │  │   │   │
│  │  │  │  • Column pruning                                       │  │   │   │
│  │  │  │  • Join optimization                                    │  │   │   │
│  │  │  │  • Partition pruning                                    │  │   │   │
│  │  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜  │   │   │
│  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │   │
│  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │
│                                    │                                        │
│                                    │  Optimized SQL                        │
│                                    ā–¼                                        │
│  SNOWFLAKE COMPUTE (Virtual Warehouse)                                      │
│  ═══════════════════════════════════════                                    │
│  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │
│  │                                                                      │   │
│  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │   │
│  │  │  SQL Execution Engine:                                        │   │   │
│  │  │                                                               │   │   │
│  │  │  SELECT region, SUM(amount) as total                         │   │   │
│  │  │  FROM sales_data                                              │   │   │
│  │  │  WHERE amount > 1000                                          │   │   │
│  │  │  GROUP BY region;                                             │   │   │
│  │  │                                                               │   │   │
│  │  │  Execution Plan:                                              │   │   │
│  │  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”  │   │   │
│  │  │  │  1. Table Scan (sales_data)                             │  │   │   │
│  │  │  │  2. Filter (amount > 1000)                              │  │   │   │
│  │  │  │  3. Hash Aggregate (GROUP BY region)                    │  │   │   │
│  │  │  │  4. Sort (optional)                                      │  │   │   │
│  │  │  │  5. Return results                                       │  │   │   │
│  │  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜  │   │   │
│  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │   │
│  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │
│                                    │                                        │
│                                    │  Results                              │
│                                    ā–¼                                        │
│  RETURN TO CLIENT                                                           │
│  ══════════════════                                                         │
│  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │
│  │                                                                      │   │
│  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │   │
│  │  │  Result:                                                     │   │   │
│  │  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”¬ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”                                     │   │   │
│  │  │  │ Region  │ Total    │                                     │   │   │
│  │  │  ā”œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”¼ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”¤                                     │   │   │
│  │  │  │ US      │ 1,500,000│                                     │   │   │
│  │  │  │ EU      │ 800,000  │                                     │   │   │
│  │  │  │ APAC    │ 600,000  │                                     │   │   │
│  │  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”“ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜                                     │   │   │
│  │  │                                                               │   │   │
│  │  │  Return Format:                                              │   │   │
│  │  │  • collect() → List of Row objects                           │   │   │
│  │  │  • to_pandas() → Pandas DataFrame                            │   │   │
│  │  │  • show() → Formatted output                                 │   │   │
│  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │   │
│  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │
│                                                                             │
ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜

Architecture Diagram 2: UDF Architecture

Architecture Diagram
ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”
│                    SNOWPARK UDF ARCHITECTURE                                 │
ā”œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”¤
│                                                                             │
│  UDF DEFINITION                                                             │
│  ══════════════                                                             │
│  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │
│  │                                                                      │   │
│  │  @udf(name="calculate_discount",                                    │   │
│  │       return_type=FloatType(),                                       │   │
│  │       input_types=[FloatType(), FloatType()],                       │   │
│  │       packages=["pandas"],                                          │   │
│  │       imports=["utils/discount_logic.py"])                          │   │
│  │  def calculate_discount(price: float, discount_pct: float) -> float:│   │
│  │      return price * (discount_pct / 100)                           │   │
│  │                                                                      │   │
│  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │
│                                    │                                        │
│                                    │  Register UDF                          │
│                                    ā–¼                                        │
│  UDF REGISTRATION                                                           │
│  ═════════════════                                                          │
│  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │
│  │                                                                      │   │
│  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │   │
│  │  │  UDF Metadata:                                                │   │   │
│  │  │  • Name: calculate_discount                                   │   │   │
│  │  │  • Language: Python                                           │   │   │
│  │  │  • Return Type: FLOAT                                         │   │   │
│  │  │  • Input Types: [FLOAT, FLOAT]                                │   │   │
│  │  │  • Handler: calculate_discount                                │   │   │
│  │  │  • Packages: pandas                                           │   │   │
│  │  │  • Imports: utils/discount_logic.py                           │   │   │
│  │  │                                                               │   │   │
│  │  │  Runtime Environment:                                         │   │   │
│  │  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”  │   │   │
│  │  │  │  • Isolated Python runtime per warehouse node          │  │   │   │
│  │  │  │  • Pre-packaged with common libraries                  │  │   │   │
│  │  │  │  • Cached for subsequent calls                         │  │   │   │
│  │  │  │  • Supports custom packages via imports                │  │   │   │
│  │  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜  │   │   │
│  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │   │
│  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │
│                                    │                                        │
│                                    │  Call UDF in SQL                       │
│                                    ā–¼                                        │
│  UDF EXECUTION                                                              │
│  ═══════════════                                                            │
│  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │
│  │                                                                      │   │
│  │  SQL Query:                                                         │   │
│  │  SELECT                                                              │   │
│  │    product,                                                          │   │
│  │    price,                                                            │   │
│  │    discount_pct,                                                     │   │
│  │    calculate_discount(price, discount_pct) as discount_amount       │   │
│  │  FROM products;                                                     │   │
│  │                                                                      │   │
│  │  Execution Flow:                                                    │   │
│  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │   │
│  │  │                                                               │   │   │
│  │  │  1. Query Parsing                                             │   │   │
│  │  │     └── Identify UDF call: calculate_discount                 │   │   │
│  │  │                                                               │   │   │
│  │  │  2. UDF Resolution                                            │   │   │
│  │  │     └── Lookup UDF metadata and handler                      │   │   │
│  │  │                                                               │   │   │
│  │  │  3. Runtime Initialization (if needed)                        │   │   │
│  │  │     └── Load Python runtime and dependencies                  │   │   │
│  │  │                                                               │   │   │
│  │  │  4. Batch Processing                                          │   │   │
│  │  │     └── Process rows in batches (vectorized execution)        │   │   │
│  │  │                                                               │   │   │
│  │  │  5. Return Results                                            │   │   │
│  │  │     └── Aggregate results and return to query                 │   │   │
│  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │   │
│  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │
│                                    │                                        │
│                                    ā–¼                                        │
│  UDF TYPES                                                                  │
│  ══════════                                                                 │
│  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │
│  │                                                                      │   │
│  │  1. SCALAR UDF                                                      │   │
│  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │   │
│  │  │  • Processes one row at a time                                │   │   │
│  │  │  • Returns single value per row                               │   │   │
│  │  │  • Can be used in SELECT, WHERE, GROUP BY                     │   │   │
│  │  │  • Example: calculate_discount(price, pct)                   │   │   │
│  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │   │
│  │                                                                      │   │
│  │  2. TABLE UDF (UDTF)                                                │   │
│  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │   │
│  │  │  • Processes one row at a time                                │   │   │
│  │  │  • Returns multiple rows per input row                       │   │   │
│  │  │  • Used with LATERAL JOIN                                     │   │   │
│  │  │  • Example: parse_json_to_rows(json_string)                  │   │   │
│  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │   │
│  │                                                                      │   │
│  │  3. AGGREGATE UDF                                                   │   │
│  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │   │
│  │  │  • Processes multiple rows at a time                         │   │   │
│  │  │  • Returns single aggregated value                           │   │   │
│  │  │  • Used with GROUP BY                                         │   │   │
│  │  │  • Example: custom_aggregate(values)                         │   │   │
│  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │   │
│  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │
│                                                                             │
ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜

Architecture Diagram 3: Stored Procedures Architecture

Architecture Diagram
ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”
│                    SNOWPARK STORED PROCEDURES ARCHITECTURE                   │
ā”œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”¤
│                                                                             │
│  PROCEDURE DEFINITION                                                       │
│  ═══════════════════                                                        │
│  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │
│  │                                                                      │   │
│  │  @sproc(name="process_data",                                        │   │
│  │         return_type=StringType(),                                    │   │
│  │         input_types=[StringType()],                                  │   │
│  │         packages=["pandas", "numpy"],                                │   │
│  │         imports=["utils/processing.py"])                             │   │
│  │  def process_data(session: Session, table_name: str) -> str:        │   │
│  │      # Access data using Snowpark                                   │   │
│  │      df = session.table(table_name)                                 │   │
│  │                                                                      │   │
│  │      # Transform data                                               │   │
│  │      result = df.filter(col("status") == "active") \               │   │
│  │                  .with_column("processed", lit(True)) \             │   │
│  │                  .collect()                                          │   │
│  │                                                                      │   │
│  │      # Write results                                                │   │
│  │      session.create_dataframe(result) \                             │   │
│  │             .write.mode("overwrite") \                              │   │
│  │             .save_as_table("processed_data")                        │   │
│  │                                                                      │   │
│  │      return f"Processed {len(result)} rows"                         │   │
│  │                                                                      │   │
│  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │
│                                    │                                        │
│                                    │  Register & Execute                   │
│                                    ā–¼                                        │
│  PROCEDURE EXECUTION                                                        │
│  ═══════════════════                                                        │
│  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │
│  │                                                                      │   │
│  │  CALL process_data('raw_data');                                     │   │
│  │                                                                      │   │
│  │  Execution Flow:                                                    │   │
│  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │   │
│  │  │                                                               │   │   │
│  │  │  1. Procedure Call Received                                   │   │   │
│  │  │     └── Parse call and validate parameters                   │   │   │
│  │  │                                                               │   │   │
│  │  │  2. Session Creation                                          │   │   │
│  │  │     └── Create Snowpark session with procedure context       │   │   │
│  │  │                                                               │   │   │
│  │  │  3. Python Runtime Initialization                            │   │   │
│  │  │     └── Load Python interpreter and dependencies             │   │   │
│  │  │                                                               │   │   │
│  │  │  4. Procedure Execution                                       │   │   │
│  │  │     └── Execute procedure body with session context          │   │   │
│  │  │                                                               │   │   │
│  │  │  5. Return Result                                             │   │   │
│  │  │     └── Return scalar value or result set                    │   │   │
│  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │   │
│  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │
│                                    │                                        │
│                                    ā–¼                                        │
│  SESSION CONTEXT                                                             │
│  ═════════════════                                                          │
│  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │
│  │                                                                      │   │
│  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │   │
│  │  │  Session Object Capabilities:                                 │   │   │
│  │  │                                                               │   │   │
│  │  │  Data Access:                                                 │   │   │
│  │  │  • session.table("table_name")                               │   │   │
│  │  │  • session.sql("SELECT ...")                                 │   │   │
│  │  │  • session.read.option("format").load("path")                │   │   │
│  │  │                                                               │   │   │
│  │  │  Data Writing:                                                │   │   │
│  │  │  • df.write.mode("overwrite").save_as_table("table")         │   │   │
│  │  │  • df.write.mode("append").save_as_table("table")            │   │   │
│  │  │  • df.write.copy_into("stage")                               │   │   │
│  │  │                                                               │   │   │
│  │  │  Session Management:                                          │   │   │
│  │  │  • session.get_current_database()                            │   │   │
│  │  │  • session.get_current_schema()                              │   │   │
│  │  │  • session.use_database("db")                                │   │   │
│  │  │  • session.use_schema("schema")                              │   │   │
│  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │   │
│  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │
│                                    │                                        │
│                                    ā–¼                                        │
│  RETURN VALUE HANDLING                                                       │
│  ═════════════════════                                                      │
│  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │
│  │                                                                      │   │
│  │  Return Types:                                                      │   │
│  │  ā”Œā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”   │   │
│  │  │                                                               │   │   │
│  │  │  1. SCALAR VALUE                                              │   │   │
│  │  │     • return_type=StringType()                                │   │   │
│  │  │     • return_type=IntegerType()                               │   │   │
│  │  │     • return_type=FloatType()                                 │   │   │
│  │  │     • Example: return "Processed 1000 rows"                  │   │   │
│  │  │                                                               │   │   │
│  │  │  2. RESULT SET                                                │   │   │
│  │  │     • Return DataFrame as result                              │   │   │
│  │  │     • return_type=PandasDataFrameType()                       │   │   │
│  │  │     • Example: return df.to_pandas()                          │   │   │
│  │  │                                                               │   │   │
│  │  │  3. NULL VALUE                                                 │   │   │
│  │  │     • return None                                             │   │   │
│  │  │     • Example: return None (no output)                        │   │   │
│  │  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │   │
│  ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜   │
│                                                                             │
ā””ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”€ā”˜

A Snowpark DataFrame is a lazy evaluation abstraction that represents a computation plan in Snowpark. Operations (select, filter, join, groupBy) build a computation graph without executing. Execution occurs only when an action is invoked (collect, count, write), and the optimized plan is translated into SQL executed on Snowflake warehouses.

A Snowpark Session is the entry point for all Snowpark operations. It manages connection to Snowflake, handles authentication, and provides methods to create DataFrames, register UDFs, and manage transactions. Each session represents a single authenticated connection.

Use Snowpark for: ETL pipelines (DataFrame transformations), ML feature engineering, data quality validation, and complex data processing. Prefer stored procedures over UDFs for batch operations. Use cache() for frequently accessed DataFrames.

  • Lazy evaluation: Operations build plans; execution only on actions
  • SQL translation: DataFrame operations compile to optimized SQL
  • Multi-language: Python, Java, Scala support with uniform DataFrame API
  • ML integration: scikit-learn, XGBoost, PyTorch via Snowpark ML
  • Cost model: Same as regular queries — warehouse credits Ɨ execution time

Detailed Explanation

Snowpark Fundamentals

Snowpark is Snowflake's developer framework for writing data-intensive applications in Python, Java, and Scala. It enables developers to write code that executes entirely within Snowflake, leveraging the platform's compute resources while using familiar programming languages and paradigms. Snowpark eliminates the need to extract data for processing in external systems, reducing data movement, security risks, and complexity.

The core abstraction in Snowpark is the DataFrame, which represents a distributed dataset. DataFrame operations (filter, join, groupBy, agg) are translated into optimized SQL execution plans that run within Snowflake's compute layer. This translation happens automatically, allowing developers to write Pythonic code while benefiting from Snowflake's query optimization and parallel execution capabilities.

UDF Implementation Patterns

User-defined functions (UDFs) in Snowpark enable custom data processing logic that extends Snowflake's built-in function library. Scalar UDFs process individual rows and return single values, while table-valued functions (UDTFs) can return multiple rows per input. UDFs are registered with Snowflake and can be used in SQL queries like built-in functions.

UDF performance depends on several factors: the complexity of the function logic, the efficiency of the Python runtime, and the volume of data processed. For optimal performance, keep UDF logic simple, avoid external dependencies when possible, and consider batch processing for large datasets. Snowpark automatically optimizes UDF execution by processing rows in batches, reducing per-row overhead.

Stored Procedures for Complex Workflows

Snowpark stored procedures enable complex data processing workflows that combine SQL operations, DataFrame transformations, and procedural logic. Unlike UDFs, stored procedures can access the Snowpark Session object, enabling dynamic SQL execution, data reading and writing, and multi-step transformations.

Stored procedures are particularly useful for ETL processes, data quality checks, and complex business logic implementation. They can read from multiple tables, apply transformations using DataFrame operations, and write results to target tables. The Session object provides transaction management, error handling, and resource monitoring capabilities.

Session Management and Configuration

Snowpark sessions manage the connection between Python code and Snowflake compute resources. Sessions can be configured with account credentials, warehouse assignments, and database/schema contexts. The session object provides methods for executing SQL, reading and writing data, and managing the execution environment.

Session configuration affects performance and cost. Choosing the right warehouse size, setting appropriate timeouts, and managing session lifecycle are important considerations. For production workloads, consider using dedicated service accounts, implementing connection pooling, and monitoring session usage.

Best Practices for Snowpark Development

Effective Snowpark development requires understanding the translation between Python code and SQL execution. Optimize DataFrame operations by minimizing data shuffling, using appropriate partitioning, and leveraging predicate pushdown. Test code with representative data volumes to identify performance bottlenecks.

For UDFs, keep function logic simple and avoid expensive operations. Consider using vectorized operations for batch processing and caching frequently accessed data. For stored procedures, implement proper error handling, use transaction management for data consistency, and monitor execution metrics.

Key Concepts Table

ComponentPurposeExecutionUse Case
DataFrameDistributed datasetSQL translationData manipulation
UDFCustom functionRow/batch processingData transformation
UDTFTable functionRow processingData expansion
Stored ProcedureComplex workflowFull Python runtimeETL, business logic
Return TypeUsageExample
StringTypeText results"Processed 100 rows"
IntegerTypeNumeric results42
FloatTypeDecimal results3.14
BooleanTypeTrue/falseTrue
PandasDataFrameResult setsdf.to_pandas()
Session MethodPurposeExample
table()Read tablesession.table("sales")
sql()Execute SQLsession.sql("SELECT 1")
writeWrite datadf.write.save_as_table()
use_database()Set contextsession.use_database("db")

Code Examples

# Example 1: Basic DataFrame operations
from snowflake.snowpark import Session
from snowflake.snowpark.functions import col, sum as sum_, avg

# Create session
session = Session.builder.configs({
    "account": "your_account",
    "user": "your_user",
    "password": "your_password",
    "role": "ANALYTICS_ROLE",
    "warehouse": "ANALYTICS_WH",
    "database": "ANALYTICS_DB",
    "schema": "PUBLIC"
}).create()

# Read table
df = session.table("sales_data")

# Filter and aggregate
result = df.filter(col("amount") > 1000) \
           .group_by("region") \
           .agg(
               sum_(col("amount")).alias("total_amount"),
               avg(col("amount")).alias("avg_amount")
           ) \
           .collect()

# Show results
for row in result:
    print(f"Region: {row['REGION']}, Total: {row['TOTAL_AMOUNT']}")
# Example 2: Scalar UDF
from snowflake.snowpark.types import FloatType
from snowflake.snowpark.udf import udf

@udf(name="calculate_tax",
     return_type=FloatType(),
     input_types=[FloatType(), FloatType()],
     packages=["pandas"])
def calculate_tax(amount: float, tax_rate: float) -> float:
    return amount * (tax_rate / 100)

# Use UDF in query
session.udf.register(calculate_tax)
result = session.sql("""
    SELECT product, amount, 
           calculate_tax(amount, 0.08) as tax
    FROM sales
""").collect()
# Example 3: Table UDF
from snowflake.snowpark.types import StructType, StructField, StringType, IntegerType
from snowflake.snowpark.udtf import udtf

@udtf(name="parse_json_array",
      output_schema=StructType([
          StructField("key", StringType()),
          StructField("value", StringType())
      ]),
      input_types=[StringType()])
def parse_json_array(json_str: str):
    import json
    data = json.loads(json_str)
    for key, value in data.items():
        yield (key, str(value))

# Use UDTF in query
session.udtf.register(parse_json_array)
result = session.sql("""
    SELECT *
    FROM TABLE(parse_json_array('{"a": 1, "b": 2}'))
""").collect()
# Example 4: Stored procedure
from snowflake.snowpark import Session

def process_sales_data(session: Session, region: str) -> str:
    # Read data
    df = session.table("raw_sales")
    
    # Transform
    filtered = df.filter(col("region") == region.upper())
    aggregated = filtered.group_by("product") \
                         .agg(sum_(col("amount")).alias("total"))
    
    # Write results
    aggregated.write.mode("overwrite") \
             .save_as_table(f"sales_{region.lower()}")
    
    return f"Processed {filtered.count()} rows for {region}"

# Register procedure
session.sproc.register(
    process_sales_data,
    return_type=StringType(),
    input_types=[StringType()],
    packages=["pandas"]
)

# Call procedure
result = session.call("process_sales_data", "US")
print(result)
# Example 5: Advanced DataFrame operations
from snowflake.snowpark.functions import when, lit, col

# Complex transformations
df = session.table("customers") \
    .with_column("age_group",
        when(col("age") < 25, lit("Young"))
        .when(col("age") < 50, lit("Adult"))
        .otherwise(lit("Senior"))
    ) \
    .with_column("full_name",
        col("first_name") + " " + col("last_name")
    ) \
    .select("customer_id", "full_name", "age_group", "email")

# Write to table
df.write.mode("overwrite").save_as_table("customer_segments")
# Example 6: Error handling and logging
from snowflake.snowpark import Session
import logging

def robust_etl(session: Session) -> str:
    try:
        # Read source
        source_df = session.table("source_table")
        
        # Validate data quality
        null_count = source_df.filter(col("id").isNull()).count()
        if null_count > 0:
            logging.warning(f"Found {null_count} null IDs")
        
        # Transform
        clean_df = source_df.filter(col("id").is_not_null()) \
                           .drop_duplicates(["id"])
        
        # Write with error handling
        clean_df.write.mode("overwrite").save_as_table("target_table")
        
        return f"Success: Processed {clean_df.count()} rows"
        
    except Exception as e:
        logging.error(f"ETL failed: {str(e)}")
        raise

Performance Metrics

MetricTargetWarningCritical
DataFrame Translation Time< 1s1-5s> 5s
UDF Execution Time< 100ms100-500ms> 500ms
Stored Procedure Time< 30s30-120s> 120s
Data Transfer Latency< 1s1-10s> 10s

Best Practices

  1. Optimize DataFrame operations: Use predicate pushdown, column pruning, and partitioning to minimize data movement.

  2. Keep UDFs simple: Avoid expensive operations in UDFs. Use batch processing for large datasets.

  3. Manage sessions properly: Use appropriate warehouse sizes and implement connection pooling for production workloads.

  4. Handle errors gracefully: Implement try-except blocks and logging in stored procedures.

  5. Test with representative data: Validate performance and correctness with data volumes similar to production.

  6. Use appropriate return types: Choose the most efficient return type for your use case.

  7. Leverage built-in functions: Use Snowpark's built-in functions instead of custom UDFs when possible.

  8. Monitor execution metrics: Track DataFrame translation times, UDF execution times, and data transfer volumes.

  9. Implement transaction management: Use transactions in stored procedures for data consistency.

  10. Document code thoroughly: Include comments explaining complex logic and data transformations.


See Also

Advertisement

Need Expert Snowflake Help?

Get personalized warehouse optimization, data modeling, or Snowflake platform consulting.

Advertisement