Treat macro refs in on_virtual_update stmts as metadata-only, fix inline audits, add another warning

georgesittas · georgesittas · commit bf054e4d9b5d · 2025-04-10T00:57:16.000+03:00
diff --git a/sqlmesh/core/model/common.py b/sqlmesh/core/model/common.py
@@ -31,7 +31,10 @@
 
 
 def make_python_env(
-    expressions: t.Union[exp.Expression, t.List[exp.Expression]],
+    expressions: t.Union[
+        exp.Expression,
+        t.List[t.Union[exp.Expression, t.Tuple[exp.Expression, bool]]],
+    ],
     jinja_macro_references: t.Optional[t.Set[MacroReference]],
     module_path: Path,
     macros: MacroRegistry,
@@ -53,7 +56,12 @@ def make_python_env(
     used_variables = (used_variables or set()).copy()
 
     expressions = ensure_list(expressions)
-    for expression in expressions:
+    for expression_metadata in expressions:
+        if isinstance(expression_metadata, tuple):
+            expression, is_metadata = expression_metadata
+        else:
+            expression, is_metadata = expression_metadata, None
+
         if isinstance(expression, d.Jinja):
             continue
 
@@ -66,7 +74,7 @@ def make_python_env(
                 # If this macro has been seen before as a non-metadata macro, prioritize that
                 used_macros[name] = (
                     macros[name],
-                    (used_macros.get(name) or (None, expression.meta.get("is_metadata")))[1],
+                    (used_macros.get(name) or (None, is_metadata))[1],
                 )
                 if name == c.VAR:
                     args = macro_func_or_var.this.expressions
@@ -84,7 +92,7 @@ def make_python_env(
                     # If this macro has been seen before as a non-metadata macro, prioritize that
                     used_macros[name] = (
                         macros[name],
-                        (used_macros.get(name) or (None, expression.meta.get("is_metadata")))[1],
+                        (used_macros.get(name) or (None, is_metadata))[1],
                     )
                 elif name in variables:
                     used_variables.add(name)
diff --git a/sqlmesh/core/model/definition.py b/sqlmesh/core/model/definition.py
@@ -2035,14 +2035,7 @@ def load_sql_based_model(
             continue
 
         prop_name = prop.name.lower()
-        if (
-            prop_name
-            in {
-                "signals",
-                "audits",
-            }
-            | PROPERTIES
-        ):
+        if prop_name in {"signals", "audits"} | PROPERTIES:
             unrendered_properties[prop_name] = prop.args.get("value")
         elif (
             prop.name.lower() == "kind"
@@ -2404,8 +2397,10 @@ def _create_model(
         statements.append(kwargs["query"])
     if "post_statements" in kwargs:
         statements.extend(kwargs["post_statements"])
+
+    # Macros extracted from these statements need to be treated as metadata only
     if "on_virtual_update" in kwargs:
-        statements.extend(kwargs["on_virtual_update"])
+        statements.extend((stmt, True) for stmt in kwargs["on_virtual_update"])
 
     # This is done to allow variables like @gateway to be used in these properties
     # since rendering shifted from load time to run time.
@@ -2444,11 +2439,15 @@ def _create_model(
         raise_config_error(str(ex), location=path)
         raise
 
-    audit_definitions = audit_definitions or {}
-    inline_audits = inline_audits or {}
-    audit_definitions = {**audit_definitions, **inline_audits}
+    audit_definitions = {
+        **(audit_definitions or {}),
+        **(inline_audits or {}),
+    }
 
-    used_audits = set(inline_audits)
+    # TODO: default_audits needs to be merged with model.audits; the former's arguments
+    # are silently dropped today because we add them in audit_definitions. We also need
+    # to check for duplicates when we implement this merging logic.
+    used_audits: t.Set[str] = set()
     used_audits.update(audit_name for audit_name, _ in default_audits or [])
     used_audits.update(audit_name for audit_name, _ in model.audits)
 
@@ -2460,16 +2459,15 @@ def _create_model(
 
     model.audit_definitions.update(audit_definitions)
 
-    statements.extend(audit.query for audit in audit_definitions.values())
+    # Any macro referenced in audits or signals needs to be treated as metadata-only
+    statements.extend((audit.query, True) for audit in audit_definitions.values())
     for _, audit_args in model.audits:
-        for audit_arg_expression in audit_args.values():
-            audit_arg_expression.meta["is_metadata"] = True
-            statements.append(audit_arg_expression)
+        statements.extend(
+            (audit_arg_expression, True) for audit_arg_expression in audit_args.values()
+        )
 
     for _, kwargs in model.signals:
-        for signal_kwarg in kwargs.values():
-            signal_kwarg.meta["is_metadata"] = True
-            statements.append(signal_kwarg)
+        statements.extend((signal_kwarg, True) for signal_kwarg in kwargs.values())
 
     python_env = python_env or {}
 
diff --git a/sqlmesh/migrations/v0078_detect_diff_caused_py_metadata_flag_propagation_and_warn.py b/sqlmesh/migrations/v0078_detect_diff_caused_py_metadata_flag_propagation_and_warn.py
diff --git a/sqlmesh/migrations/v0078_warn_if_non_migratable_python_env_and_make_audits_and_signals_macros_metadata.py b/sqlmesh/migrations/v0078_warn_if_non_migratable_python_env_and_make_audits_and_signals_macros_metadata.py
@@ -0,0 +1,141 @@
+"""
+This migration script has two purposes:
+
+1) Mark all python env macros referenced in audits, signals or on_virtual_update statements
+   as metadata, unless they're referenced elsewhere in the model and they're not metadata-only.
+
+2) Warn if there is both metadata and non-metadata reference in the python environment of a model.
+
+   The metadata status for macros and signals is now transitive, i.e. every dependency of a
+   metadata macro or signal is also metadata, unless it is referenced by a non-metadata object.
+
+   This means that global references of metadata objects may now be excluded from the
+   data hash calculation because of their new metadata status, which would lead to a
+   diff. This script detects the possibility for such a diff and warns users ahead of time.
+"""
+
+import json
+
+from sqlglot import exp
+
+import sqlmesh.core.dialect as d
+from sqlmesh.core.console import get_console
+
+
+def migrate(state_sync, **kwargs):  # type: ignore
+    engine_adapter = state_sync.engine_adapter
+    schema = state_sync.schema
+    snapshots_table = "_snapshots"
+    if schema:
+        snapshots_table = f"{schema}.{snapshots_table}"
+
+    common_msg = (
+        "Since the metadata status is now propagated transitively, this means that the next plan "
+        "command may detect unexpected changes and prompt about backfilling this model, or others, "
+        "for the same reason. If this is a concern, consider running a forward-only plan instead: "
+        "https://sqlmesh.readthedocs.io/en/stable/concepts/plans/#forward-only-plans.\n"
+    )
+
+    for (snapshot,) in engine_adapter.fetchall(
+        exp.select("snapshot").from_(snapshots_table), quote_identifiers=True
+    ):
+        parsed_snapshot = json.loads(snapshot)
+        node = parsed_snapshot["node"]
+
+        # Standalone audits don't have a data hash, so they're unaffected
+        if node.get("source_type") == "audit":
+            continue
+
+        name = node["name"]
+        python_env = node.get("python_env") or {}
+
+        has_metadata = False
+        has_non_metadata = False
+
+        for k, v in python_env.items():
+            if v.get("is_metadata"):
+                has_metadata = True
+            else:
+                has_non_metadata = True
+
+            if has_metadata and has_non_metadata:
+                get_console().log_warning(
+                    f"Model '{name}' references both metadata and non-metadata functions (macros or signals). "
+                    + common_msg
+                )
+                return
+
+        dialect = node.get("dialect")
+        metadata_hash_statements = []
+
+        if on_virtual_update := node.get("on_virtual_update"):
+            metadata_hash_statements.extend(parse_expression(on_virtual_update, dialect))
+
+        for _, audit_args in func_call_validator(node.get("audits") or []):
+            metadata_hash_statements.extend(audit_args.values())
+
+        for signal_name, signal_args in func_call_validator(
+            node.get("signals") or [], is_signal=True
+        ):
+            metadata_hash_statements.extend(signal_args.values())
+
+        if audit_definitions := node.get("audit_definitions"):
+            audit_queries = [
+                parse_expression(audit["query"], audit["dialect"])
+                for audit in audit_definitions.values()
+            ]
+            metadata_hash_statements.extend(audit_queries)
+
+        for macro_name in extract_used_macros(metadata_hash_statements):
+            serialized_macro = python_env.get(macro_name)
+            if isinstance(serialized_macro, dict) and not serialized_macro.get("is_metadata"):
+                get_console().log_warning(
+                    f"Model '{name}' references macro '{macro_name}' which is now implicitly treated as metadata-only. "
+                    + common_msg
+                )
+                return
+
+
+def extract_used_macros(expressions):
+    used_macros = set()
+    for expression in expressions:
+        if isinstance(expression, d.Jinja):
+            continue
+
+        for macro_func in expression.find_all(d.MacroFunc):
+            if macro_func.__class__ is d.MacroFunc:
+                used_macros.add(macro_func.this.name.lower())
+
+    return used_macros
+
+
+def func_call_validator(v, is_signal=False):
+    assert isinstance(v, list)
+
+    audits = []
+    for entry in v:
+        if isinstance(entry, dict):
+            args = entry
+            name = "" if is_signal else entry.pop("name")
+        else:
+            assert isinstance(entry, (tuple, list))
+            name, args = entry
+
+        parsed_audit = {
+            key: d.parse_one(value) if isinstance(value, str) else value
+            for key, value in args.items()
+        }
+        audits.append((name.lower(), parsed_audit))
+
+    return audits
+
+
+def parse_expression(v, dialect):
+    if v is None:
+        return None
+
+    if isinstance(v, list):
+        return [d.parse_one(e, dialect=dialect) for e in v]
+
+    assert isinstance(v, str)
+    return d.parse_one(v, dialect=dialect)
diff --git a/tests/core/test_audit.py b/tests/core/test_audit.py
@@ -849,7 +849,7 @@ def test_load_inline_audits(assert_exp_eq):
         MODEL (
             name db.table,
             dialect spark,
-            audits(does_not_exceed_threshold)
+            audits(does_not_exceed_threshold, assert_positive_id)
         );
 
         SELECT id FROM tbl;
@@ -871,7 +871,7 @@ def test_load_inline_audits(assert_exp_eq):
     )
 
     model = load_sql_based_model(expressions)
-    assert len(model.audits) == 1
+    assert len(model.audits) == 2
     assert len(model.audits_with_args) == 2
     assert isinstance(model.audit_definitions["assert_positive_id"], ModelAudit)
     assert isinstance(model.audit_definitions["does_not_exceed_threshold"], ModelAudit)
diff --git a/tests/core/test_model.py b/tests/core/test_model.py