From 8b90d7f9eb9d8763440d6d7c2a95f78fa4819a34 Mon Sep 17 00:00:00 2001
From: Yun Hsiao Wu <yunhsiaow@gmail.com>
Date: Mon, 29 Mar 2021 18:18:43 +0800
Subject: [PATCH] enoki headers (#140)

---
 sources/SocketRocket/CMakeLists.txt |    6 +-
 sources/enoki/array.h               |  182 ++
 sources/enoki/array_avx.h           | 1173 +++++++++++++
 sources/enoki/array_avx2.h          | 1257 ++++++++++++++
 sources/enoki/array_avx512.h        | 1928 +++++++++++++++++++++
 sources/enoki/array_base.h          |  240 +++
 sources/enoki/array_call.h          |  291 ++++
 sources/enoki/array_enum.h          |   82 +
 sources/enoki/array_fallbacks.h     |  546 ++++++
 sources/enoki/array_generic.h       |  626 +++++++
 sources/enoki/array_idiv.h          |  327 ++++
 sources/enoki/array_intrin.h        |  326 ++++
 sources/enoki/array_kmask.h         |  296 ++++
 sources/enoki/array_macro.h         |  419 +++++
 sources/enoki/array_masked.h        |   92 +
 sources/enoki/array_math.h          | 1505 +++++++++++++++++
 sources/enoki/array_neon.h          | 1305 +++++++++++++++
 sources/enoki/array_recursive.h     |  556 ++++++
 sources/enoki/array_round.h         |  156 ++
 sources/enoki/array_router.h        | 1400 ++++++++++++++++
 sources/enoki/array_sse42.h         | 2410 +++++++++++++++++++++++++++
 sources/enoki/array_static.h        | 1231 ++++++++++++++
 sources/enoki/array_struct.h        |  544 ++++++
 sources/enoki/array_traits.h        |  615 +++++++
 sources/enoki/array_utils.h         |  200 +++
 sources/enoki/autodiff.h            | 1569 +++++++++++++++++
 sources/enoki/color.h               |   95 ++
 sources/enoki/complex.h             |  289 ++++
 sources/enoki/cuda.h                | 1026 ++++++++++++
 sources/enoki/dynamic.h             | 1145 +++++++++++++
 sources/enoki/fwd.h                 |  330 ++++
 sources/enoki/half.h                |  193 +++
 sources/enoki/matrix.h              |  658 ++++++++
 sources/enoki/morton.h              |  161 ++
 sources/enoki/python.h              |  229 +++
 sources/enoki/quaternion.h          |  361 ++++
 sources/enoki/random.h              |  333 ++++
 sources/enoki/sh.h                  |  843 ++++++++++
 sources/enoki/special.h             |  675 ++++++++
 sources/enoki/stl.h                 |  323 ++++
 sources/enoki/transform.h           |  202 +++
 41 files changed, 26142 insertions(+), 3 deletions(-)
 create mode 100644 sources/enoki/array.h
 create mode 100644 sources/enoki/array_avx.h
 create mode 100644 sources/enoki/array_avx2.h
 create mode 100644 sources/enoki/array_avx512.h
 create mode 100644 sources/enoki/array_base.h
 create mode 100644 sources/enoki/array_call.h
 create mode 100644 sources/enoki/array_enum.h
 create mode 100644 sources/enoki/array_fallbacks.h
 create mode 100644 sources/enoki/array_generic.h
 create mode 100644 sources/enoki/array_idiv.h
 create mode 100644 sources/enoki/array_intrin.h
 create mode 100644 sources/enoki/array_kmask.h
 create mode 100644 sources/enoki/array_macro.h
 create mode 100644 sources/enoki/array_masked.h
 create mode 100644 sources/enoki/array_math.h
 create mode 100644 sources/enoki/array_neon.h
 create mode 100644 sources/enoki/array_recursive.h
 create mode 100644 sources/enoki/array_round.h
 create mode 100644 sources/enoki/array_router.h
 create mode 100644 sources/enoki/array_sse42.h
 create mode 100644 sources/enoki/array_static.h
 create mode 100644 sources/enoki/array_struct.h
 create mode 100644 sources/enoki/array_traits.h
 create mode 100644 sources/enoki/array_utils.h
 create mode 100644 sources/enoki/autodiff.h
 create mode 100644 sources/enoki/color.h
 create mode 100644 sources/enoki/complex.h
 create mode 100644 sources/enoki/cuda.h
 create mode 100644 sources/enoki/dynamic.h
 create mode 100644 sources/enoki/fwd.h
 create mode 100644 sources/enoki/half.h
 create mode 100644 sources/enoki/matrix.h
 create mode 100644 sources/enoki/morton.h
 create mode 100644 sources/enoki/python.h
 create mode 100644 sources/enoki/quaternion.h
 create mode 100644 sources/enoki/random.h
 create mode 100644 sources/enoki/sh.h
 create mode 100644 sources/enoki/special.h
 create mode 100644 sources/enoki/stl.h
 create mode 100644 sources/enoki/transform.h

diff --git a/sources/SocketRocket/CMakeLists.txt b/sources/SocketRocket/CMakeLists.txt
index ae2ed906..928f7c6d 100644
--- a/sources/SocketRocket/CMakeLists.txt
+++ b/sources/SocketRocket/CMakeLists.txt
@@ -47,7 +47,7 @@ set(SOCKET_ROCKET_SOURCES
 
 set(SOCKET_ROCKET_SOURCES_M ${SOCKET_ROCKET_SOURCES})
 list(FILTER SOCKET_ROCKET_SOURCES_M INCLUDE REGEX ".*m$")
-set_source_files_properties(${SOCKET_ROCKET_SOURCES_M} PROPERTIES COMPILE_FLAGS 
+set_source_files_properties(${SOCKET_ROCKET_SOURCES_M} PROPERTIES COMPILE_FLAGS
     -fobjc-arc
     )
 
@@ -62,5 +62,5 @@ list(APPEND CC_EXTERNAL_PRIVATE_INCLUDES
     ${CMAKE_CURRENT_LIST_DIR}/Internal/Proxy
 )
 
-list(APPEND CC_EXTERNAL_SROUCES ${SOCKET_ROCKET_SOURCES})
-list(APPEND CC_EXTERNAL_INCLUDES ${CMAKE_CURRENT_LIST_DIR})
\ No newline at end of file
+list(APPEND CC_EXTERNAL_SOURCES ${SOCKET_ROCKET_SOURCES})
+list(APPEND CC_EXTERNAL_INCLUDES ${CMAKE_CURRENT_LIST_DIR})
diff --git a/sources/enoki/array.h b/sources/enoki/array.h
new file mode 100644
index 00000000..c4b12360
--- /dev/null
+++ b/sources/enoki/array.h
@@ -0,0 +1,182 @@
+/*
+    enoki/array.h -- Main header file for the Enoki array class and
+    various template specializations
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#if defined(_MSC_VER)
+#  pragma warning(push)
+#  pragma warning(disable: 4146) // warning C4146: unary minus operator applied to unsigned type, result still unsigned
+#  pragma warning(disable: 4554) // warning C4554: '>>': check operator precedence for possible error; use parentheses to clarify precedence
+#  pragma warning(disable: 4702) // warning C4702: unreachable code
+#  pragma warning(disable: 4522) // warning C4522: multiple assignment operators specified
+#  pragma warning(disable: 4310) // warning C4310: cast truncates constant value
+#  pragma warning(disable: 4127) // warning C4127: conditional expression is constant
+#elif defined(__GNUC__) && !defined(__clang__)
+#  pragma GCC diagnostic push
+#  pragma GCC diagnostic ignored "-Wclass-memaccess"
+#endif
+
+#include <enoki/array_generic.h>
+
+#include <enoki/array_math.h>
+
+#if defined(ENOKI_ARM_NEON) || defined(ENOKI_X86_SSE42)
+#  include <enoki/array_recursive.h>
+#endif
+
+#if defined(ENOKI_X86_AVX512F)
+#  include <enoki/array_kmask.h>
+#endif
+
+#if defined(ENOKI_X86_SSE42)
+#  include <enoki/array_sse42.h>
+#endif
+
+#if defined(ENOKI_X86_AVX)
+#  include <enoki/array_avx.h>
+#endif
+
+#if defined(ENOKI_X86_AVX2)
+#  include <enoki/array_avx2.h>
+#endif
+
+#if defined(ENOKI_X86_AVX512F)
+#  include <enoki/array_avx512.h>
+#endif
+
+#if defined(ENOKI_ARM_NEON)
+#  include <enoki/array_neon.h>
+#endif
+
+#include <enoki/array_idiv.h>
+#include <enoki/array_call.h>
+#include <enoki/array_enum.h>
+#include <enoki/array_utils.h>
+#include <enoki/array_macro.h>
+
+#include <enoki/half.h>
+
+NAMESPACE_BEGIN(enoki)
+
+template <typename Value_, size_t Size_>
+struct Array : StaticArrayImpl<Value_, Size_, false, Array<Value_, Size_>> {
+
+    using Base = StaticArrayImpl<Value_, Size_, false, Array<Value_, Size_>>;
+
+    using ArrayType = Array;
+    using MaskType = Mask<Value_, Size_>;
+
+    /// Type alias for creating a similar-shaped array over a different type
+    template <typename T> using ReplaceValue = Array<T, Size_>;
+
+    ENOKI_ARRAY_IMPORT(Base, Array)
+};
+
+template <typename Value_, size_t Size_>
+struct Mask : StaticArrayImpl<Value_, Size_, true, Mask<Value_, Size_>> {
+
+    using Base = StaticArrayImpl<Value_, Size_, true, Mask<Value_, Size_>>;
+
+    using ArrayType = Array<Value_, Size_>;
+    using MaskType = Mask;
+
+    /// Type alias for creating a similar-shaped array over a different type
+    template <typename T> using ReplaceValue = Mask<T, Size_>;
+
+    Mask() = default;
+
+    template <typename T> Mask(T &&value)
+        : Base(std::forward<T>(value), detail::reinterpret_flag()) { }
+
+    template <typename T> Mask(T &&value, detail::reinterpret_flag)
+        : Base(std::forward<T>(value), detail::reinterpret_flag()) { }
+
+    /// Construct from sub-arrays
+    template <typename T1, typename T2, typename T = Mask, enable_if_t<
+              array_depth_v<T1> == array_depth_v<T> && array_size_v<T1> == Base::Size1 &&
+              array_depth_v<T2> == array_depth_v<T> && array_size_v<T2> == Base::Size2 &&
+              Base::Size2 != 0> = 0>
+    Mask(const T1 &a1, const T2 &a2)
+        : Base(a1, a2) { }
+
+    template <typename... Ts,
+        enable_if_t<(sizeof...(Ts) == Base::Size || sizeof...(Ts) == Base::ActualSize) && Size_ != 1 &&
+                    std::conjunction_v<detail::is_not_reinterpret_flag<Ts>...>> = 0>
+    Mask(Ts&&... ts) : Base(std::forward<Ts>(ts)...) { }
+
+    ENOKI_ARRAY_IMPORT_BASIC(Base, Mask)
+    using Base::operator=;
+};
+
+template <typename Value_, size_t Size_>
+struct Packet : StaticArrayImpl<Value_, Size_, false, Packet<Value_, Size_>> {
+
+    using Base = StaticArrayImpl<Value_, Size_, false, Packet<Value_, Size_>>;
+
+    using ArrayType = Packet;
+    using MaskType = PacketMask<Value_, Size_>;
+
+    static constexpr bool BroadcastPreferOuter = false;
+
+    /// Type alias for creating a similar-shaped array over a different type
+    template <typename T> using ReplaceValue = Packet<T, Size_>;
+
+    ENOKI_ARRAY_IMPORT(Base, Packet)
+};
+
+template <typename Value_, size_t Size_>
+struct PacketMask : StaticArrayImpl<Value_, Size_, true, PacketMask<Value_, Size_>> {
+
+    using Base = StaticArrayImpl<Value_, Size_, true, PacketMask<Value_, Size_>>;
+
+    static constexpr bool BroadcastPreferOuter = false;
+
+    using ArrayType = Packet<Value_, Size_>;
+    using MaskType = PacketMask;
+
+    /// Type alias for creating a similar-shaped array over a different type
+    template <typename T> using ReplaceValue = PacketMask<T, Size_>;
+
+    PacketMask() = default;
+
+    template <typename T> PacketMask(T &&value)
+        : Base(std::forward<T>(value), detail::reinterpret_flag()) { }
+
+    template <typename T> PacketMask(T &&value, detail::reinterpret_flag)
+        : Base(std::forward<T>(value), detail::reinterpret_flag()) { }
+
+    /// Construct from sub-arrays
+    template <typename T1, typename T2, typename T = PacketMask, enable_if_t<
+              array_depth_v<T1> == array_depth_v<T> && array_size_v<T1> == Base::Size1 &&
+              array_depth_v<T2> == array_depth_v<T> && array_size_v<T2> == Base::Size2 &&
+              Base::Size2 != 0> = 0>
+    PacketMask(const T1 &a1, const T2 &a2)
+        : Base(a1, a2) { }
+
+    template <typename... Ts,
+        enable_if_t<(sizeof...(Ts) == Base::Size || sizeof...(Ts) == Base::ActualSize) && Size_ != 1 &&
+                    std::conjunction_v<detail::is_not_reinterpret_flag<Ts>...>> = 0>
+    PacketMask(Ts&&... ts) : Base(std::forward<Ts>(ts)...) { }
+
+    ENOKI_ARRAY_IMPORT_BASIC(Base, PacketMask)
+    using Base::operator=;
+};
+
+NAMESPACE_END(enoki)
+
+#if defined(_MSC_VER)
+#  pragma warning(pop)
+#elif defined(__GNUC__) && !defined(__clang__)
+#  pragma GCC diagnostic pop
+#endif
diff --git a/sources/enoki/array_avx.h b/sources/enoki/array_avx.h
new file mode 100644
index 00000000..a1bb60c9
--- /dev/null
+++ b/sources/enoki/array_avx.h
@@ -0,0 +1,1173 @@
+/*
+    enoki/array_avx.h -- Packed SIMD array (AVX specialization)
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyrighe (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+NAMESPACE_BEGIN(enoki)
+NAMESPACE_BEGIN(detail)
+template <> struct is_native<float, 8>  : std::true_type { } ;
+template <> struct is_native<double, 4> : std::true_type { };
+template <> struct is_native<double, 3> : std::true_type { };
+NAMESPACE_END(detail)
+
+/// Partial overload of StaticArrayImpl using AVX intrinsics (single precision)
+template <bool IsMask_, typename Derived_> struct alignas(32)
+    StaticArrayImpl<float, 8, IsMask_, Derived_>
+  : StaticArrayBase<float, 8, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(float, 8, __m256)
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(Value value) : m(_mm256_set1_ps(value)) { }
+    ENOKI_INLINE StaticArrayImpl(Value v0, Value v1, Value v2, Value v3,
+                                 Value v4, Value v5, Value v6, Value v7)
+        : m(_mm256_setr_ps(v0, v1, v2, v3, v4, v5, v6, v7)) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_F16C)
+    ENOKI_CONVERT(half)
+        : m(_mm256_cvtph_ps(_mm_loadu_si128((const __m128i *) a.derived().data()))) { }
+#endif
+
+    ENOKI_CONVERT(float) : m(a.derived().m) { }
+
+#if defined(ENOKI_X86_AVX2)
+    ENOKI_CONVERT(int32_t) : m(_mm256_cvtepi32_ps(a.derived().m)) { }
+#endif
+
+    ENOKI_CONVERT(uint32_t) {
+        #if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+            m = _mm256_cvtepu32_ps(a.derived().m);
+        #else
+            int32_array_t<Derived> ai(a);
+            Derived result =
+                Derived(ai & 0x7fffffff) +
+                (Derived(float(1u << 31)) & mask_t<Derived>(sr<31>(ai)));
+            m = result.m;
+        #endif
+    }
+
+#if defined(ENOKI_X86_AVX512F)
+    ENOKI_CONVERT(double)
+        :m(_mm512_cvtpd_ps(a.derived().m)) { }
+#else
+    ENOKI_CONVERT(double)
+        : m(detail::concat(_mm256_cvtpd_ps(low(a).m),
+                           _mm256_cvtpd_ps(high(a).m))) { }
+#endif
+
+#if defined(ENOKI_X86_AVX512DQ)
+    ENOKI_CONVERT(int64_t) : m(_mm512_cvtepi64_ps(a.derived().m)) { }
+    ENOKI_CONVERT(uint64_t) : m(_mm512_cvtepu64_ps(a.derived().m)) { }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+    ENOKI_REINTERPRET(bool) {
+        uint64_t ival;
+        memcpy(&ival, a.derived().data(), 8);
+        __m128i value = _mm_cmpgt_epi8(
+            detail::mm_cvtsi64_si128((long long) ival), _mm_setzero_si128());
+        #if defined(ENOKI_X86_AVX2)
+            m = _mm256_castsi256_ps(_mm256_cvtepi8_epi32(value));
+        #else
+            m = _mm256_castsi256_ps(_mm256_insertf128_si256(
+                    _mm256_castsi128_si256(_mm_cvtepi8_epi32(value)),
+                    _mm_cvtepi8_epi32(_mm_srli_si128(value, 4)), 1));
+        #endif
+    }
+
+    ENOKI_REINTERPRET(float) : m(a.derived().m) { }
+
+#if defined(ENOKI_X86_AVX2)
+    ENOKI_REINTERPRET(int32_t) : m(_mm256_castsi256_ps(a.derived().m)) { }
+    ENOKI_REINTERPRET(uint32_t) : m(_mm256_castsi256_ps(a.derived().m)) { }
+#else
+    ENOKI_REINTERPRET(int32_t)
+        : m(detail::concat(_mm_castsi128_ps(low(a).m),
+                           _mm_castsi128_ps(high(a).m))) { }
+
+    ENOKI_REINTERPRET(uint32_t)
+        : m(detail::concat(_mm_castsi128_ps(low(a).m),
+                           _mm_castsi128_ps(high(a).m))) { }
+#endif
+
+#if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+    /// Handled by KMask
+#elif defined(ENOKI_X86_AVX512F)
+    ENOKI_REINTERPRET(double)
+        : m(_mm512_castps512_ps256(_mm512_maskz_mov_ps(
+              (__mmask16) a.derived().k, _mm512_set1_ps(memcpy_cast<float>(int32_t(-1)))))) { }
+    ENOKI_REINTERPRET(int64_t)
+        : m(_mm512_castps512_ps256(_mm512_maskz_mov_ps(
+              (__mmask16) a.derived().k, _mm512_set1_ps(memcpy_cast<float>(int32_t(-1)))))) { }
+    ENOKI_REINTERPRET(uint64_t)
+        : m(_mm512_castps512_ps256(_mm512_maskz_mov_ps(
+              (__mmask16) a.derived().k, _mm512_set1_ps(memcpy_cast<float>(int32_t(-1)))))) { }
+#else
+    ENOKI_REINTERPRET(double)
+        : m(_mm256_castsi256_ps(detail::mm512_cvtepi64_epi32(
+              _mm256_castpd_si256(low(a).m), _mm256_castpd_si256(high(a).m)))) { }
+#  if defined(ENOKI_X86_AVX2)
+    ENOKI_REINTERPRET(int64_t)
+        : m(_mm256_castsi256_ps(
+              detail::mm512_cvtepi64_epi32(low(a).m, high(a).m))) { }
+    ENOKI_REINTERPRET(uint64_t)
+        : m(_mm256_castsi256_ps(
+              detail::mm512_cvtepi64_epi32(low(a).m, high(a).m))) { }
+#  else
+    ENOKI_REINTERPRET(int64_t)
+        : m(_mm256_castsi256_ps(detail::mm512_cvtepi64_epi32(
+             low(low(a)).m, high(low(a)).m,
+             low(high(a)).m, high(high(a)).m))) { }
+    ENOKI_REINTERPRET(uint64_t)
+        : m(_mm256_castsi256_ps(detail::mm512_cvtepi64_epi32(
+             low(low(a)).m, high(low(a)).m,
+             low(high(a)).m, high(high(a)).m))) { }
+#  endif
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m(detail::concat(a1.m, a2.m)) { }
+
+    ENOKI_INLINE Array1 low_()  const { return _mm256_castps256_ps128(m); }
+    ENOKI_INLINE Array2 high_() const { return _mm256_extractf128_ps(m, 1); }
+
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const    { return _mm256_add_ps(m, a.m); }
+    ENOKI_INLINE Derived sub_(Ref a) const    { return _mm256_sub_ps(m, a.m); }
+    ENOKI_INLINE Derived mul_(Ref a) const    { return _mm256_mul_ps(m, a.m); }
+    ENOKI_INLINE Derived div_(Ref a) const    { return _mm256_div_ps(m, a.m); }
+
+    template <typename T> ENOKI_INLINE Derived or_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_mask_mov_ps(m, a.k, _mm256_set1_ps(memcpy_cast<Value>(int32_t(-1))));
+            else
+        #endif
+        return _mm256_or_ps(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_maskz_mov_ps(a.k, m);
+            else
+        #endif
+        return _mm256_and_ps(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_mask_xor_ps(m, a.k, m, _mm256_set1_ps(memcpy_cast<Value>(int32_t(-1))));
+            else
+        #endif
+        return _mm256_xor_ps(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_mask_mov_ps(m, a.k, _mm256_setzero_ps());
+            else
+        #endif
+        return _mm256_andnot_ps(a.m, m);
+    }
+
+    #if defined(ENOKI_X86_AVX512VL)
+        #define ENOKI_COMP(name, NAME) mask_t<Derived>::from_k(_mm256_cmp_ps_mask(m, a.m, _CMP_##NAME))
+    #else
+        #define ENOKI_COMP(name, NAME) mask_t<Derived>(_mm256_cmp_ps(m, a.m, _CMP_##NAME))
+    #endif
+
+    ENOKI_INLINE auto lt_ (Ref a) const { return ENOKI_COMP(lt,  LT_OQ);  }
+    ENOKI_INLINE auto gt_ (Ref a) const { return ENOKI_COMP(gt,  GT_OQ);  }
+    ENOKI_INLINE auto le_ (Ref a) const { return ENOKI_COMP(le,  LE_OQ);  }
+    ENOKI_INLINE auto ge_ (Ref a) const { return ENOKI_COMP(ge,  GE_OQ);  }
+    ENOKI_INLINE auto eq_ (Ref a) const {
+        using Int = int_array_t<Derived>;
+        if constexpr (IsMask_)
+            return mask_t<Derived>(eq(Int(derived()), Int(a)));
+        else
+            return ENOKI_COMP(eq, EQ_OQ);
+    }
+
+    ENOKI_INLINE auto neq_(Ref a) const {
+        using Int = int_array_t<Derived>;
+        if constexpr (IsMask_)
+            return mask_t<Derived>(neq(Int(derived()), Int(a)));
+        else
+            return ENOKI_COMP(neq, NEQ_UQ);
+    }
+
+    #undef ENOKI_COMP
+
+    ENOKI_INLINE Derived abs_()      const { return _mm256_andnot_ps(_mm256_set1_ps(-0.f), m); }
+    ENOKI_INLINE Derived min_(Ref b) const { return _mm256_min_ps(b.m, m); }
+    ENOKI_INLINE Derived max_(Ref b) const { return _mm256_max_ps(b.m, m); }
+    ENOKI_INLINE Derived ceil_()     const { return _mm256_ceil_ps(m);     }
+    ENOKI_INLINE Derived floor_()    const { return _mm256_floor_ps(m);    }
+    ENOKI_INLINE Derived sqrt_()     const { return _mm256_sqrt_ps(m);     }
+
+    ENOKI_INLINE Derived round_() const {
+        return _mm256_round_ps(m, _MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC);
+    }
+
+    ENOKI_INLINE Derived trunc_() const {
+        return _mm256_round_ps(m, _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived select_(const Mask &m, Ref t, Ref f) {
+        #if !defined(ENOKI_X86_AVX512VL)
+            return _mm256_blendv_ps(f.m, t.m, m.m);
+        #else
+            return _mm256_mask_blend_ps(m.k, f.m, t.m);
+        #endif
+    }
+
+#if defined(ENOKI_X86_FMA)
+    ENOKI_INLINE Derived fmadd_   (Ref b, Ref c) const { return _mm256_fmadd_ps   (m, b.m, c.m); }
+    ENOKI_INLINE Derived fmsub_   (Ref b, Ref c) const { return _mm256_fmsub_ps   (m, b.m, c.m); }
+    ENOKI_INLINE Derived fnmadd_  (Ref b, Ref c) const { return _mm256_fnmadd_ps  (m, b.m, c.m); }
+    ENOKI_INLINE Derived fnmsub_  (Ref b, Ref c) const { return _mm256_fnmsub_ps  (m, b.m, c.m); }
+    ENOKI_INLINE Derived fmsubadd_(Ref b, Ref c) const { return _mm256_fmsubadd_ps(m, b.m, c.m); }
+    ENOKI_INLINE Derived fmaddsub_(Ref b, Ref c) const { return _mm256_fmaddsub_ps(m, b.m, c.m); }
+#endif
+
+    template <int I0, int I1, int I2, int I3, int I4, int I5, int I6, int I7>
+    ENOKI_INLINE Derived shuffle_() const {
+        #if defined(ENOKI_X86_AVX2)
+            return _mm256_permutevar8x32_ps(m,
+                _mm256_setr_epi32(I0, I1, I2, I3, I4, I5, I6, I7));
+        #else
+            return Base::template shuffle_<I0, I1, I2, I3, I4, I5, I6, I7>();
+        #endif
+    }
+
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index_) const {
+        #if defined(ENOKI_X86_AVX2)
+            return _mm256_permutevar8x32_ps(m, index_.m);
+        #else
+            __m128i i0 = low(index_).m,
+                    i1 = high(index_).m;
+
+            // swap low and high part of table
+            __m256 m2 = _mm256_permute2f128_ps(m, m, 1);
+
+            __m256i index = _mm256_insertf128_si256(_mm256_castsi128_si256(i0), i1, 1);
+
+            __m256  r0 = _mm256_permutevar_ps(m,  index),
+                    r1 = _mm256_permutevar_ps(m2, index);
+
+            __m128i k0 = _mm_slli_epi32(i0,  29),
+                    k1 = _mm_slli_epi32(_mm_xor_si128(i1, _mm_set1_epi32(4)),  29);
+
+            __m256 k = _mm256_insertf128_ps(
+                _mm256_castps128_ps256(_mm_castsi128_ps(k0)),
+                _mm_castsi128_ps(k1), 1);
+
+            return _mm256_blendv_ps(r0, r1, k);
+        #endif
+    }
+
+#if defined(ENOKI_X86_AVX512VL)
+    ENOKI_INLINE Derived ldexp_(Ref arg) const { return _mm256_scalef_ps(m, arg.m); }
+
+    ENOKI_INLINE std::pair<Derived, Derived> frexp_() const {
+        return std::make_pair<Derived, Derived>(
+            _mm256_getmant_ps(m, _MM_MANT_NORM_p5_1, _MM_MANT_SIGN_src),
+            _mm256_getexp_ps(m));
+    }
+#endif
+
+    ENOKI_INLINE Derived rcp_() const {
+        #if defined(ENOKI_X86_AVX512ER)
+            /* rel err < 2^28, use as is (even in non-approximate mode) */
+            return _mm512_castps512_ps256(
+                _mm512_rcp28_ps(_mm512_castps256_ps512(m)));
+        #else
+            /* Use best reciprocal approximation available on the current
+               hardware and refine */
+            __m256 r;
+            #if defined(ENOKI_X86_AVX512VL)
+                r = _mm256_rcp14_ps(m); /* rel error < 2^-14 */
+            #else
+                r = _mm256_rcp_ps(m);   /* rel error < 1.5*2^-12 */
+            #endif
+
+            /* Refine using one Newton-Raphson iteration */
+            __m256 t0 = _mm256_add_ps(r, r),
+                   t1 = _mm256_mul_ps(r, m),
+                   ro = r;
+            (void) ro;
+
+            #if defined(ENOKI_X86_FMA)
+                r = _mm256_fnmadd_ps(t1, r, t0);
+            #else
+                r = _mm256_sub_ps(t0, _mm256_mul_ps(r, t1));
+            #endif
+
+            #if defined(ENOKI_X86_AVX512VL)
+                return _mm256_fixupimm_ps(r, m, _mm256_set1_epi32(0x0087A622), 0);
+            #else
+                return _mm256_blendv_ps(r, ro, t1); /* mask bit is '1' iff t1 == nan */
+            #endif
+        #endif
+    }
+
+    ENOKI_INLINE Derived rsqrt_() const {
+        #if defined(ENOKI_X86_AVX512ER)
+            /* rel err < 2^28, use as is (even in non-approximate mode) */
+            return _mm512_castps512_ps256(
+                _mm512_rsqrt28_ps(_mm512_castps256_ps512(m)));
+        #else
+            /* Use best reciprocal square root approximation available
+               on the current hardware and refine */
+            __m256 r;
+            #if defined(ENOKI_X86_AVX512VL)
+                r = _mm256_rsqrt14_ps(m); /* rel error < 2^-14 */
+            #else
+                r = _mm256_rsqrt_ps(m);   /* rel error < 1.5*2^-12 */
+            #endif
+
+            /* Refine using one Newton-Raphson iteration */
+            const __m256 c0 = _mm256_set1_ps(.5f),
+                         c1 = _mm256_set1_ps(3.f);
+
+            __m256 t0 = _mm256_mul_ps(r, c0),
+                   t1 = _mm256_mul_ps(r, m),
+                   ro = r;
+            (void) ro;
+
+            #if defined(ENOKI_X86_FMA)
+                r = _mm256_mul_ps(_mm256_fnmadd_ps(t1, r, c1), t0);
+            #else
+                r = _mm256_mul_ps(_mm256_sub_ps(c1, _mm256_mul_ps(t1, r)), t0);
+            #endif
+
+            #if defined(ENOKI_X86_AVX512VL)
+                return _mm256_fixupimm_ps(r, m, _mm256_set1_epi32(0x0383A622), 0);
+            #else
+                return _mm256_blendv_ps(r, ro, t1); /* mask bit is '1' iff t1 == nan */
+            #endif
+        #endif
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Value hsum_()  const { return hsum(low_() + high_()); }
+    ENOKI_INLINE Value hprod_() const { return hprod(low_() * high_()); }
+    ENOKI_INLINE Value hmin_()  const { return hmin(min(low_(), high_())); }
+    ENOKI_INLINE Value hmax_()  const { return hmax(max(low_(), high_())); }
+
+    ENOKI_INLINE bool all_()  const { return _mm256_movemask_ps(m) == 0xFF;}
+    ENOKI_INLINE bool any_()  const { return _mm256_movemask_ps(m) != 0x0; }
+
+    ENOKI_INLINE uint32_t bitmask_() const { return (uint32_t) _mm256_movemask_ps(m); }
+    ENOKI_INLINE size_t count_() const { return (size_t) _mm_popcnt_u32(bitmask_()); }
+
+    ENOKI_INLINE Value dot_(Ref a) const {
+        __m256 dp = _mm256_dp_ps(m, a.m, 0b11110001);
+        __m128 m0 = _mm256_castps256_ps128(dp);
+        __m128 m1 = _mm256_extractf128_ps(dp, 1);
+        __m128 m = _mm_add_ss(m0, m1);
+        return _mm_cvtss_f32(m);
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Masked versions of key operations
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <typename Mask>
+    ENOKI_INLINE void massign_(const Derived &a, const Mask &mask) { m = _mm256_mask_mov_ps(m, mask.k, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void madd_   (const Derived &a, const Mask &mask) { m = _mm256_mask_add_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void msub_   (const Derived &a, const Mask &mask) { m = _mm256_mask_sub_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mmul_   (const Derived &a, const Mask &mask) { m = _mm256_mask_mul_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mdiv_   (const Derived &a, const Mask &mask) { m = _mm256_mask_div_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mor_    (const Derived &a, const Mask &mask) { m = _mm256_mask_or_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mand_   (const Derived &a, const Mask &mask) { m = _mm256_mask_and_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mxor_   (const Derived &a, const Mask &mask) { m = _mm256_mask_xor_ps(m, mask.k, m, a.m); }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Initialization, loading/writing data
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        assert((uintptr_t) ptr % 32 == 0);
+        _mm256_store_ps((Value *) ENOKI_ASSUME_ALIGNED(ptr, 32), m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm256_mask_store_ps((Value *) ptr, mask.k, m);
+        #else
+            _mm256_maskstore_ps((Value *) ptr, _mm256_castps_si256(mask.m), m);
+        #endif
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        _mm256_storeu_ps((Value *) ptr, m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm256_mask_storeu_ps((Value *) ptr, mask.k, m);
+        #else
+            _mm256_maskstore_ps((Value *) ptr, _mm256_castps_si256(mask.m), m);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        assert((uintptr_t) ptr % 32 == 0);
+        return _mm256_load_ps((const Value *) ENOKI_ASSUME_ALIGNED(ptr, 32));
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm256_maskz_load_ps(mask.k, ptr);
+        #else
+            return _mm256_maskload_ps((const Value *) ptr, _mm256_castps_si256(mask.m));
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return _mm256_loadu_ps((const Value *) ptr);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm256_maskz_loadu_ps(mask.k, ptr);
+        #else
+            return _mm256_maskload_ps((const Value *) ptr, _mm256_castps_si256(mask.m));
+        #endif
+    }
+
+    static ENOKI_INLINE Derived zero_() { return _mm256_setzero_ps(); }
+
+#if defined(ENOKI_X86_AVX2)
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (sizeof(scalar_t<Index>) == 4)
+                return _mm256_mmask_i32gather_ps(_mm256_setzero_ps(), mask.k, index.m, (const float *) ptr, Stride);
+            else
+                return _mm512_mask_i64gather_ps(_mm256_setzero_ps(), mask.k, index.m, (const float *) ptr, Stride);
+        #else
+            if constexpr (sizeof(scalar_t<Index>) == 4)
+                return _mm256_mask_i32gather_ps(_mm256_setzero_ps(), (const float *) ptr, index.m, mask.m, Stride);
+            else
+                return Derived(
+                    _mm256_mask_i64gather_ps(_mm_setzero_ps(), (const float *) ptr, low(index).m, low(mask).m, Stride),
+                    _mm256_mask_i64gather_ps(_mm_setzero_ps(), (const float *) ptr, high(index).m, high(mask).m, Stride)
+                );
+        #endif
+    }
+#endif
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        if constexpr (sizeof(scalar_t<Index>) == 4)
+            _mm256_mask_i32scatter_ps(ptr, mask.k, index.m, m, Stride);
+        else
+            _mm512_mask_i64scatter_ps(ptr, mask.k, index.m, m, Stride);
+    }
+#endif
+
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        #if !defined(ENOKI_X86_AVX512VL)
+            unsigned int k = (unsigned int) _mm256_movemask_ps(mask.m);
+            return coeff((size_t) (tzcnt(k) & 7));
+        #else
+            return _mm256_cvtss_f32(_mm256_mask_compress_ps(_mm256_setzero_ps(), mask.k, m));
+        #endif
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(float *&ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm256_storeu_ps(ptr, _mm256_maskz_compress_ps(mask.k, m));
+            size_t kn = (size_t) _mm_popcnt_u32(mask.k);
+            ptr += kn;
+            return kn;
+        #elif defined(ENOKI_X86_AVX2) && defined(ENOKI_X86_64)
+            /** Clever BMI2-based partitioning algorithm by Christoph Diegelmann
+                see https://goo.gl/o3ysMN for context */
+
+            unsigned int k = (unsigned int) _mm256_movemask_epi8(_mm256_castps_si256(mask.m));
+            uint32_t wanted_indices = _pext_u32(0x76543210, k);
+            uint64_t expanded_indices = _pdep_u64((uint64_t) wanted_indices,
+                                                  0x0F0F0F0F0F0F0F0Full);
+            size_t kn = (size_t) (_mm_popcnt_u32(k) >> 2);
+
+            __m128i bytevec = detail::mm_cvtsi64_si128((long long) expanded_indices);
+            __m256i shufmask = _mm256_cvtepu8_epi32(bytevec);
+            __m256 perm = _mm256_permutevar8x32_ps(m, shufmask);
+
+            _mm256_storeu_ps(ptr, perm);
+            ptr += kn;
+            return kn;
+        #else
+            size_t r0 = compress(ptr, low(derived()), low(mask));
+            size_t r1 = compress(ptr, high(derived()), high(mask));
+            return r0 + r1;
+        #endif
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+/// Partial overload of StaticArrayImpl using AVX intrinsics (double precision)
+template <bool IsMask_, typename Derived_> struct alignas(32)
+    StaticArrayImpl<double, 4, IsMask_, Derived_>
+  : StaticArrayBase<double, 4, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(double, 4, __m256d)
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(Value value) : m(_mm256_set1_pd(value)) { }
+    ENOKI_INLINE StaticArrayImpl(Value v0, Value v1, Value v2, Value v3)
+        : m(_mm256_setr_pd(v0, v1, v2, v3)) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_F16C)
+    ENOKI_CONVERT(half) {
+        m = _mm256_cvtps_pd(
+            _mm_cvtph_ps(_mm_loadl_epi64((const __m128i *) a.derived().data())));
+    }
+#endif
+
+    ENOKI_CONVERT(float) : m(_mm256_cvtps_pd(a.derived().m)) { }
+    ENOKI_CONVERT(int32_t) : m(_mm256_cvtepi32_pd(a.derived().m)) { }
+
+#if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+    ENOKI_CONVERT(uint32_t) : m(_mm256_cvtepu32_pd(a.derived().m)) { }
+#endif
+
+    ENOKI_CONVERT(double) : m(a.derived().m) { }
+
+#if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+    ENOKI_CONVERT(int64_t) : m(_mm256_cvtepi64_pd(a.derived().m)) { }
+    ENOKI_CONVERT(uint64_t) : m(_mm256_cvtepu64_pd(a.derived().m)) { }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+    ENOKI_REINTERPRET(bool) {
+        int ival;
+        memcpy(&ival, a.derived().data(), 4);
+        __m128i value = _mm_cmpgt_epi8(
+            _mm_cvtsi32_si128(ival), _mm_setzero_si128());
+        #if defined(ENOKI_X86_AVX2)
+            m = _mm256_castsi256_pd(_mm256_cvtepi8_epi64(value));
+        #else
+            m = _mm256_castsi256_pd(_mm256_insertf128_si256(
+                    _mm256_castsi128_si256(_mm_cvtepi8_epi64(value)),
+                    _mm_cvtepi8_epi64(_mm_srli_si128(value, 2)), 1));
+        #endif
+    }
+
+    ENOKI_REINTERPRET(float)
+        : m(_mm256_castsi256_pd(
+              detail::mm256_cvtepi32_epi64(_mm_castps_si128(a.derived().m)))) { }
+
+    ENOKI_REINTERPRET(int32_t)
+        : m(_mm256_castsi256_pd(detail::mm256_cvtepi32_epi64(a.derived().m))) { }
+
+    ENOKI_REINTERPRET(uint32_t)
+        : m(_mm256_castsi256_pd(detail::mm256_cvtepi32_epi64(a.derived().m))) { }
+
+    ENOKI_REINTERPRET(double) : m(a.derived().m) { }
+
+#if defined(ENOKI_X86_AVX2)
+    ENOKI_REINTERPRET(int64_t) : m(_mm256_castsi256_pd(a.derived().m)) { }
+    ENOKI_REINTERPRET(uint64_t) : m(_mm256_castsi256_pd(a.derived().m)) { }
+#else
+    ENOKI_REINTERPRET(int64_t)
+        : m(detail::concat(_mm_castsi128_pd(low(a).m),
+                           _mm_castsi128_pd(high(a).m))) { }
+    ENOKI_REINTERPRET(uint64_t)
+        : m(detail::concat(_mm_castsi128_pd(low(a).m),
+                           _mm_castsi128_pd(high(a).m))) { }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m(detail::concat(a1.m, a2.m)) { }
+
+    ENOKI_INLINE Array1 low_()  const { return _mm256_castpd256_pd128(m); }
+    ENOKI_INLINE Array2 high_() const { return _mm256_extractf128_pd(m, 1); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return _mm256_add_pd(m, a.m); }
+    ENOKI_INLINE Derived sub_(Ref a) const { return _mm256_sub_pd(m, a.m); }
+    ENOKI_INLINE Derived mul_(Ref a) const { return _mm256_mul_pd(m, a.m); }
+    ENOKI_INLINE Derived div_(Ref a) const { return _mm256_div_pd(m, a.m); }
+
+    template <typename T> ENOKI_INLINE Derived or_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_mask_mov_pd(m, a.k, _mm256_set1_pd(memcpy_cast<Value>(int64_t(-1))));
+            else
+        #endif
+        return _mm256_or_pd(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_maskz_mov_pd(a.k, m);
+            else
+        #endif
+        return _mm256_and_pd(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_mask_xor_pd(m, a.k, m, _mm256_set1_pd(memcpy_cast<Value>(int64_t(-1))));
+            else
+        #endif
+        return _mm256_xor_pd(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_mask_mov_pd(m, a.k, _mm256_setzero_pd());
+            else
+        #endif
+        return _mm256_andnot_pd(a.m, m);
+    }
+
+    #if defined(ENOKI_X86_AVX512VL)
+        #define ENOKI_COMP(name, NAME) mask_t<Derived>::from_k(_mm256_cmp_pd_mask(m, a.m, _CMP_##NAME))
+    #else
+        #define ENOKI_COMP(name, NAME) mask_t<Derived>(_mm256_cmp_pd(m, a.m, _CMP_##NAME))
+    #endif
+
+    ENOKI_INLINE auto lt_ (Ref a) const { return ENOKI_COMP(lt,  LT_OQ);  }
+    ENOKI_INLINE auto gt_ (Ref a) const { return ENOKI_COMP(gt,  GT_OQ);  }
+    ENOKI_INLINE auto le_ (Ref a) const { return ENOKI_COMP(le,  LE_OQ);  }
+    ENOKI_INLINE auto ge_ (Ref a) const { return ENOKI_COMP(ge,  GE_OQ);  }
+
+    ENOKI_INLINE auto eq_ (Ref a) const {
+        using Int = int_array_t<Derived>;
+        if constexpr (IsMask_)
+            return mask_t<Derived>(eq(Int(derived()), Int(a)));
+        else
+            return ENOKI_COMP(eq, EQ_OQ);
+    }
+
+    ENOKI_INLINE auto neq_(Ref a) const {
+        using Int = int_array_t<Derived>;
+        if constexpr (IsMask_)
+            return mask_t<Derived>(neq(Int(derived()), Int(a)));
+        else
+            return ENOKI_COMP(neq, NEQ_UQ);
+    }
+
+    #undef ENOKI_COMP
+
+    ENOKI_INLINE Derived abs_()      const { return _mm256_andnot_pd(_mm256_set1_pd(-0.), m); }
+    ENOKI_INLINE Derived min_(Ref b) const { return _mm256_min_pd(b.m, m); }
+    ENOKI_INLINE Derived max_(Ref b) const { return _mm256_max_pd(b.m, m); }
+    ENOKI_INLINE Derived ceil_()     const { return _mm256_ceil_pd(m);     }
+    ENOKI_INLINE Derived floor_()    const { return _mm256_floor_pd(m);    }
+    ENOKI_INLINE Derived sqrt_()     const { return _mm256_sqrt_pd(m);     }
+
+    ENOKI_INLINE Derived round_() const {
+        return _mm256_round_pd(m, _MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC);
+    }
+
+    ENOKI_INLINE Derived trunc_() const {
+        return _mm256_round_pd(m, _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived select_(const Mask &m, Ref t, Ref f) {
+        #if !defined(ENOKI_X86_AVX512VL)
+            return _mm256_blendv_pd(f.m, t.m, m.m);
+        #else
+            return _mm256_mask_blend_pd(m.k, f.m, t.m);
+        #endif
+    }
+
+#if defined(ENOKI_X86_FMA)
+    ENOKI_INLINE Derived fmadd_   (Ref b, Ref c) const { return _mm256_fmadd_pd   (m, b.m, c.m); }
+    ENOKI_INLINE Derived fmsub_   (Ref b, Ref c) const { return _mm256_fmsub_pd   (m, b.m, c.m); }
+    ENOKI_INLINE Derived fnmadd_  (Ref b, Ref c) const { return _mm256_fnmadd_pd  (m, b.m, c.m); }
+    ENOKI_INLINE Derived fnmsub_  (Ref b, Ref c) const { return _mm256_fnmsub_pd  (m, b.m, c.m); }
+    ENOKI_INLINE Derived fmsubadd_(Ref b, Ref c) const { return _mm256_fmsubadd_pd(m, b.m, c.m); }
+    ENOKI_INLINE Derived fmaddsub_(Ref b, Ref c) const { return _mm256_fmaddsub_pd(m, b.m, c.m); }
+#endif
+
+#if defined(ENOKI_X86_AVX2)
+    template <int I0, int I1, int I2, int I3>
+    ENOKI_INLINE Derived shuffle_() const {
+        return _mm256_permute4x64_pd(m, _MM_SHUFFLE(I3, I2, I1, I0));
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        return Base::shuffle_(index);
+    }
+#endif
+
+
+#if defined(ENOKI_X86_AVX512VL)
+    ENOKI_INLINE Derived ldexp_(Ref arg) const { return _mm256_scalef_pd(m, arg.m); }
+
+    ENOKI_INLINE std::pair<Derived, Derived> frexp_() const {
+        return std::make_pair<Derived, Derived>(
+            _mm256_getmant_pd(m, _MM_MANT_NORM_p5_1, _MM_MANT_SIGN_src),
+            _mm256_getexp_pd(m));
+    }
+#endif
+
+#if defined(ENOKI_X86_AVX512VL) || defined(ENOKI_X86_AVX512ER)
+    ENOKI_INLINE Derived rcp_() const {
+        /* Use best reciprocal approximation available on the current
+           hardware and refine */
+        __m256d r;
+        #if defined(ENOKI_X86_AVX512ER)
+            /* rel err < 2^28 */
+            r = _mm512_castpd512_pd256(
+                _mm512_rcp28_pd(_mm512_castpd256_pd512(m)));
+        #elif defined(ENOKI_X86_AVX512VL)
+            r = _mm256_rcp14_pd(m); /* rel error < 2^-14 */
+        #endif
+
+        __m256d ro = r, t0, t1;
+        (void) ro;
+
+        /* Refine using 1-2 Newton-Raphson iterations */
+        ENOKI_UNROLL for (int i = 0; i < (has_avx512er ? 1 : 2); ++i) {
+            t0 = _mm256_add_pd(r, r);
+            t1 = _mm256_mul_pd(r, m);
+            r = _mm256_fnmadd_pd(t1, r, t0);
+        }
+
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm256_fixupimm_pd(r, m, _mm256_set1_epi32(0x0087A622), 0);
+        #else
+            return _mm256_blendv_pd(r, ro, t1); /* mask bit is '1' iff t1 == nan */
+        #endif
+    }
+
+    ENOKI_INLINE Derived rsqrt_() const {
+        /* Use best reciprocal square root approximation available
+           on the current hardware and refine */
+        __m256d r;
+        #if defined(ENOKI_X86_AVX512ER)
+            /* rel err < 2^28 */
+            r = _mm512_castpd512_pd256(
+                _mm512_rsqrt28_pd(_mm512_castpd256_pd512(m)));
+        #elif defined(ENOKI_X86_AVX512VL)
+            r = _mm256_rsqrt14_pd(m); /* rel error < 2^-14 */
+        #endif
+
+        const __m256d c0 = _mm256_set1_pd(0.5),
+                      c1 = _mm256_set1_pd(3.0);
+
+        __m256d ro = r, t0, t1;
+        (void) ro;
+
+        /* Refine using 1-2 Newton-Raphson iterations */
+        ENOKI_UNROLL for (int i = 0; i < (has_avx512er ? 1 : 2); ++i) {
+            t0 = _mm256_mul_pd(r, c0);
+            t1 = _mm256_mul_pd(r, m);
+            r = _mm256_mul_pd(_mm256_fnmadd_pd(t1, r, c1), t0);
+        }
+
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm256_fixupimm_pd(r, m, _mm256_set1_epi32(0x0383A622), 0);
+        #else
+            return _mm256_blendv_pd(r, ro, t1); /* mask bit is '1' iff t1 == nan */
+        #endif
+    }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Value hsum_()  const { return hsum(low_() + high_()); }
+    ENOKI_INLINE Value hprod_() const { return hprod(low_() * high_()); }
+    ENOKI_INLINE Value hmin_()  const { return hmin(min(low_(), high_())); }
+    ENOKI_INLINE Value hmax_()  const { return hmax(max(low_(), high_())); }
+
+    ENOKI_INLINE bool all_()  const { return _mm256_movemask_pd(m) == 0xF;}
+    ENOKI_INLINE bool any_()  const { return _mm256_movemask_pd(m) != 0x0; }
+
+    ENOKI_INLINE uint32_t bitmask_() const { return (uint32_t) _mm256_movemask_pd(m); }
+    ENOKI_INLINE size_t count_() const { return (size_t) _mm_popcnt_u32(bitmask_()); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Masked versions of key operations
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <typename Mask>
+    ENOKI_INLINE void massign_(const Derived &a, const Mask &mask) { m = _mm256_mask_mov_pd(m, mask.k, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void madd_   (const Derived &a, const Mask &mask) { m = _mm256_mask_add_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void msub_   (const Derived &a, const Mask &mask) { m = _mm256_mask_sub_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mmul_   (const Derived &a, const Mask &mask) { m = _mm256_mask_mul_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mdiv_   (const Derived &a, const Mask &mask) { m = _mm256_mask_div_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mor_    (const Derived &a, const Mask &mask) { m = _mm256_mask_or_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mand_   (const Derived &a, const Mask &mask) { m = _mm256_mask_and_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mxor_   (const Derived &a, const Mask &mask) { m = _mm256_mask_xor_pd(m, mask.k, m, a.m); }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Initialization, loading/writing data
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        assert((uintptr_t) ptr % 32 == 0);
+        _mm256_store_pd((Value *) ENOKI_ASSUME_ALIGNED(ptr, 32), m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm256_mask_store_pd((Value *) ptr, mask.k, m);
+        #else
+            _mm256_maskstore_pd((Value *) ptr, _mm256_castpd_si256(mask.m), m);
+        #endif
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        _mm256_storeu_pd((Value *) ptr, m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm256_mask_storeu_pd((Value *) ptr, mask.k, m);
+        #else
+            _mm256_maskstore_pd((Value *) ptr, _mm256_castpd_si256(mask.m), m);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        assert((uintptr_t) ptr % 32 == 0);
+        return _mm256_load_pd((const Value *) ENOKI_ASSUME_ALIGNED(ptr, 32));
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm256_maskz_load_pd(mask.k, ptr);
+        #else
+            return _mm256_maskload_pd((const Value *) ptr, _mm256_castpd_si256(mask.m));
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return _mm256_loadu_pd((const Value *) ptr);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm256_maskz_loadu_pd(mask.k, ptr);
+        #else
+            return _mm256_maskload_pd((const Value *) ptr, _mm256_castpd_si256(mask.m));
+        #endif
+    }
+
+    static ENOKI_INLINE Derived zero_() { return _mm256_setzero_pd(); }
+
+#if defined(ENOKI_X86_AVX2)
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        #if !defined(ENOKI_X86_AVX512VL)
+            if constexpr (sizeof(scalar_t<Index>) == 4)
+                return _mm256_mask_i32gather_pd(_mm256_setzero_pd(), (const double *) ptr, index.m, mask.m, Stride);
+            else
+                return _mm256_mask_i64gather_pd(_mm256_setzero_pd(), (const double *) ptr, index.m, mask.m, Stride);
+        #else
+            if constexpr (sizeof(scalar_t<Index>) == 4)
+                return _mm256_mmask_i32gather_pd(_mm256_setzero_pd(), mask.k, index.m, (const double *) ptr, Stride);
+            else
+                return _mm256_mmask_i64gather_pd(_mm256_setzero_pd(), mask.k, index.m, (const double *) ptr, Stride);
+        #endif
+    }
+#endif
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        if constexpr (sizeof(scalar_t<Index>) == 4)
+            _mm256_mask_i32scatter_pd(ptr, mask.k, index.m, m, Stride);
+        else
+            _mm256_mask_i64scatter_pd(ptr, mask.k, index.m, m, Stride);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        return _mm256_cvtsd_f64(_mm256_mask_compress_pd(_mm256_setzero_pd(), mask.k, m));
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(double *&ptr, const Mask &mask) const {
+        _mm256_storeu_pd(ptr, _mm256_mask_compress_pd(_mm256_setzero_pd(), mask.k, m));
+        size_t kn = (size_t) _mm_popcnt_u32(mask.k);
+        ptr += kn;
+        return kn;
+    }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+/// Partial overload of StaticArrayImpl for the n=3 case (double precision)
+template <bool IsMask_, typename Derived_> struct alignas(32)
+    StaticArrayImpl<double, 3, IsMask_, Derived_>
+  : StaticArrayImpl<double, 4, IsMask_, Derived_> {
+    using Base = StaticArrayImpl<double, 4, IsMask_, Derived_>;
+
+    ENOKI_DECLARE_3D_ARRAY(StaticArrayImpl)
+
+#if defined(ENOKI_X86_F16C)
+    template <typename Derived2>
+    ENOKI_INLINE StaticArrayImpl(const StaticArrayBase<half, 3, IsMask_, Derived2> &a) {
+        uint16_t temp[4];
+        memcpy(temp, a.derived().data(), sizeof(uint16_t) * 3);
+        temp[3] = 0;
+        m = _mm256_cvtps_pd(_mm_cvtph_ps(_mm_loadl_epi64((const __m128i *) temp)));
+    }
+#endif
+
+    template <int I0, int I1, int I2>
+    ENOKI_INLINE Derived shuffle_() const {
+        return Base::template shuffle_<I0, I1, I2, 3>();
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        return Base::shuffle_(index);
+    }
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations (adapted for the n=3 case)
+    // -----------------------------------------------------------------------
+
+    #define ENOKI_HORIZONTAL_OP(name, op)                                    \
+        ENOKI_INLINE Value name##_() const {                                 \
+            __m128d t1 = _mm256_extractf128_pd(m, 1);                        \
+            __m128d t2 = _mm256_castpd256_pd128(m);                          \
+            t1 = _mm_##op##_sd(t1, t2);                                      \
+            t2 = _mm_permute_pd(t2, 1);                                      \
+            t2 = _mm_##op##_sd(t2, t1);                                      \
+            return _mm_cvtsd_f64(t2);                                        \
+        }
+
+    ENOKI_HORIZONTAL_OP(hsum, add)
+    ENOKI_HORIZONTAL_OP(hprod, mul)
+    ENOKI_HORIZONTAL_OP(hmin, min)
+    ENOKI_HORIZONTAL_OP(hmax, max)
+
+    #undef ENOKI_HORIZONTAL_OP
+
+    ENOKI_INLINE bool all_() const { return (_mm256_movemask_pd(m) & 7) == 7; }
+    ENOKI_INLINE bool any_() const { return (_mm256_movemask_pd(m) & 7) != 0; }
+
+    ENOKI_INLINE uint32_t bitmask_() const { return (uint32_t) (_mm256_movemask_pd(m) & 7); }
+    ENOKI_INLINE size_t count_() const { return (size_t) _mm_popcnt_u32(bitmask_()); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Loading/writing data (adapted for the n=3 case)
+    // -----------------------------------------------------------------------
+
+    static ENOKI_INLINE auto mask_() {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k((__mmask8) 7);
+        #else
+            return mask_t<Derived>(_mm256_castsi256_pd(_mm256_setr_epi64x(-1, -1, -1, 0)));
+        #endif
+    }
+
+    using Base::load_;
+    using Base::load_unaligned_;
+    using Base::store_;
+    using Base::store_unaligned_;
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        memcpy(ptr, &m, sizeof(Value) * 3);
+    }
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        store_(ptr);
+    }
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        return Base::load_unaligned_(ptr);
+    }
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        Derived result;
+        memcpy(&result.m, ptr, sizeof(Value) * 3);
+        return result;
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        Base::store_(ptr, mask & mask_());
+    }
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        Base::store_unaligned_(ptr, mask & mask_());
+    }
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        return Base::load_(ptr, mask & mask_());
+    }
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        return Base::load_unaligned_(ptr, mask & mask_());
+    }
+
+#if defined(ENOKI_X86_AVX2)
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        return Base::template gather_<Stride>(ptr, index, mask & mask_());
+    }
+#endif
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        Base::template scatter_<Stride>(ptr, index, mask & mask_());
+    }
+#endif
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(double *&ptr, const Mask &mask) const {
+        return Base::compress_(ptr, mask & mask_());
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+#if defined(ENOKI_X86_AVX512VL)
+template <typename Derived_>
+ENOKI_DECLARE_KMASK(float, 8, Derived_, int)
+template <typename Derived_>
+ENOKI_DECLARE_KMASK(double, 4, Derived_, int)
+template <typename Derived_>
+ENOKI_DECLARE_KMASK(double, 3, Derived_, int)
+#endif
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_avx2.h b/sources/enoki/array_avx2.h
new file mode 100644
index 00000000..2ab6a273
--- /dev/null
+++ b/sources/enoki/array_avx2.h
@@ -0,0 +1,1257 @@
+/*
+    enoki/array_avx2.h -- Packed SIMD array (AVX2 specialization)
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyrighe (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+NAMESPACE_BEGIN(enoki)
+NAMESPACE_BEGIN(detail)
+template <typename Value>    struct is_native<Value, 8, enable_if_int32_t<Value>> : std::true_type { };
+template <typename Value>    struct is_native<Value, 4, enable_if_int64_t<Value>> : std::true_type { };
+template <typename Value>    struct is_native<Value, 3, enable_if_int64_t<Value>> : std::true_type { };
+NAMESPACE_END(detail)
+
+/// Partial overload of StaticArrayImpl using AVX intrinsics (32 bit integers)
+template <typename Value_, bool IsMask_, typename Derived_> struct alignas(32)
+    StaticArrayImpl<Value_, 8, IsMask_, Derived_, enable_if_int32_t<Value_>>
+  : StaticArrayBase<Value_, 8, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(Value_, 8, __m256i)
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(Value value) : m(_mm256_set1_epi32((int32_t) value)) { }
+    ENOKI_INLINE StaticArrayImpl(Value v0, Value v1, Value v2, Value v3,
+                                 Value v4, Value v5, Value v6, Value v7)
+        : m(_mm256_setr_epi32((int32_t) v0, (int32_t) v1, (int32_t) v2, (int32_t) v3,
+                              (int32_t) v4, (int32_t) v5, (int32_t) v6, (int32_t) v7)) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_CONVERT(float) {
+        if constexpr (std::is_signed_v<Value>) {
+            m = _mm256_cvttps_epi32(a.derived().m);
+        } else {
+            #if defined(ENOKI_X86_AVX512VL)
+                m = _mm256_cvttps_epu32(a.derived().m);
+            #else
+                constexpr uint32_t limit = 1u << 31;
+                const __m256  limit_f = _mm256_set1_ps((float) limit);
+                const __m256i limit_i = _mm256_set1_epi32((int) limit);
+
+                __m256 v = a.derived().m;
+
+                __m256i mask =
+                    _mm256_castps_si256(_mm256_cmp_ps(v, limit_f, _CMP_GE_OQ));
+
+                __m256i b2 = _mm256_add_epi32(
+                    _mm256_cvttps_epi32(_mm256_sub_ps(v, limit_f)), limit_i);
+
+                __m256i b1 = _mm256_cvttps_epi32(v);
+
+                m = _mm256_blendv_epi8(b1, b2, mask);
+            #endif
+        }
+    }
+
+    ENOKI_CONVERT(int32_t) : m(a.derived().m) { }
+    ENOKI_CONVERT(uint32_t) : m(a.derived().m) { }
+
+    ENOKI_CONVERT(double) {
+        if constexpr (std::is_signed_v<Value>) {
+            #if defined(ENOKI_X86_AVX512F)
+                m = _mm512_cvttpd_epi32(a.derived().m);
+            #else
+                m = detail::concat(_mm256_cvttpd_epi32(low(a).m),
+                                   _mm256_cvttpd_epi32(high(a).m));
+            #endif
+        } else {
+            #if defined(ENOKI_X86_AVX512F)
+                m = _mm512_cvttpd_epu32(a.derived().m);
+            #else
+                ENOKI_TRACK_SCALAR("Constructor (converting, double[8] -> [u]int32[8])");
+                for (size_t i = 0; i < Size; ++i)
+                    coeff(i) = Value(a.derived().coeff(i));
+            #endif
+        }
+    }
+
+    ENOKI_CONVERT(int64_t) {
+        #if defined(ENOKI_X86_AVX512F)
+            m = _mm512_cvtepi64_epi32(a.derived().m);
+        #else
+            m = detail::mm512_cvtepi64_epi32(low(a).m, high(a).m);
+        #endif
+    }
+
+    ENOKI_CONVERT(uint64_t) {
+        #if defined(ENOKI_X86_AVX512F)
+            m = _mm512_cvtepi64_epi32(a.derived().m);
+        #else
+            m = detail::mm512_cvtepi64_epi32(low(a).m, high(a).m);
+        #endif
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+    ENOKI_REINTERPRET(bool) {
+        uint64_t ival;
+        memcpy(&ival, a.derived().data(), 8);
+        __m128i value = _mm_cmpgt_epi8(detail::mm_cvtsi64_si128((long long) ival),
+                                       _mm_setzero_si128());
+        m = _mm256_cvtepi8_epi32(value);
+    }
+
+    ENOKI_REINTERPRET(float) : m(_mm256_castps_si256(a.derived().m)) { }
+    ENOKI_REINTERPRET(int32_t) : m(a.derived().m) { }
+    ENOKI_REINTERPRET(uint32_t) : m(a.derived().m) { }
+
+#if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+    ENOKI_REINTERPRET(double) : m(_mm256_movm_epi32(a.derived().k)) { }
+    ENOKI_REINTERPRET(int64_t) : m(_mm256_movm_epi32(a.derived().k)) { }
+    ENOKI_REINTERPRET(uint64_t) : m(_mm256_movm_epi32(a.derived().k)) { }
+#elif defined(ENOKI_X86_AVX512F)
+    ENOKI_REINTERPRET(double)
+        : m(_mm512_castsi512_si256(_mm512_maskz_mov_epi32(
+              (__mmask16) a.derived().k, _mm512_set1_epi32(int32_t(-1))))) { }
+    ENOKI_REINTERPRET(int64_t)
+        : m(_mm512_castsi512_si256(_mm512_maskz_mov_epi32(
+              (__mmask16) a.derived().k, _mm512_set1_epi32(int32_t(-1))))) { }
+    ENOKI_REINTERPRET(uint64_t)
+        : m(_mm512_castsi512_si256(_mm512_maskz_mov_epi32(
+              (__mmask16) a.derived().k, _mm512_set1_epi32(int32_t(-1))))) { }
+#else
+    ENOKI_REINTERPRET(double)
+        : m(detail::mm512_cvtepi64_epi32(_mm256_castpd_si256(low(a).m),
+                                         _mm256_castpd_si256(high(a).m))) { }
+    ENOKI_REINTERPRET(int64_t)
+        : m(detail::mm512_cvtepi64_epi32(low(a).m, high(a).m)) { }
+    ENOKI_REINTERPRET(uint64_t)
+        : m(detail::mm512_cvtepi64_epi32(low(a).m, high(a).m)) { }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m(detail::concat(a1.m, a2.m)) { }
+
+    ENOKI_INLINE Array1 low_()  const { return _mm256_castsi256_si128(m); }
+    ENOKI_INLINE Array2 high_() const { return _mm256_extractf128_si256(m, 1); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return _mm256_add_epi32(m, a.m);   }
+    ENOKI_INLINE Derived sub_(Ref a) const { return _mm256_sub_epi32(m, a.m);   }
+    ENOKI_INLINE Derived mul_(Ref a) const { return _mm256_mullo_epi32(m, a.m); }
+
+    template <typename T> ENOKI_INLINE Derived or_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_mask_mov_epi32(m, a.k, _mm256_set1_epi32(-1));
+            else
+        #endif
+        return _mm256_or_si256(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_maskz_mov_epi32(a.k, m);
+            else
+        #endif
+        return _mm256_and_si256(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_mask_xor_epi32(m, a.k, m, _mm256_set1_epi32(-1));
+            else
+        #endif
+        return _mm256_xor_si256(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_mask_mov_epi32(m, a.k, _mm256_setzero_si256());
+            else
+        #endif
+        return _mm256_andnot_si256(a.m, m);
+    }
+
+    template <size_t Imm> ENOKI_INLINE Derived sl_() const {
+        return _mm256_slli_epi32(m, (int) Imm);
+    }
+
+    template <size_t Imm> ENOKI_INLINE Derived sr_() const {
+        return std::is_signed_v<Value> ? _mm256_srai_epi32(m, (int) Imm)
+                                       : _mm256_srli_epi32(m, (int) Imm);
+    }
+
+    ENOKI_INLINE Derived sl_(size_t k) const {
+        return _mm256_sll_epi32(m, _mm_set1_epi64x((long long) k));
+    }
+
+    ENOKI_INLINE Derived sr_(size_t k) const {
+        return std::is_signed_v<Value>
+                   ? _mm256_sra_epi32(m, _mm_set1_epi64x((long long) k))
+                   : _mm256_srl_epi32(m, _mm_set1_epi64x((long long) k));
+    }
+
+    ENOKI_INLINE Derived sl_(Ref k) const {
+        return _mm256_sllv_epi32(m, k.m);
+    }
+
+    ENOKI_INLINE Derived sr_(Ref k) const {
+        return std::is_signed_v<Value> ? _mm256_srav_epi32(m, k.m)
+                                       : _mm256_srlv_epi32(m, k.m);
+    }
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Imm> ENOKI_INLINE Derived rol_() const { return _mm256_rol_epi32(m, (int) Imm); }
+    template <size_t Imm> ENOKI_INLINE Derived ror_() const { return _mm256_ror_epi32(m, (int) Imm); }
+    ENOKI_INLINE Derived rol_(Ref k) const { return _mm256_rolv_epi32(m, k.m); }
+    ENOKI_INLINE Derived ror_(Ref k) const { return _mm256_rorv_epi32(m, k.m); }
+#endif
+
+    ENOKI_INLINE auto eq_(Ref a)  const {
+        using Return = mask_t<Derived>;
+
+        #if defined(ENOKI_X86_AVX512VL)
+            return Return::from_k(_mm256_cmpeq_epi32_mask(m, a.m));
+        #else
+            return Return(_mm256_cmpeq_epi32(m, a.m));
+        #endif
+    }
+
+    ENOKI_INLINE auto neq_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k(_mm256_cmpneq_epi32_mask(m, a.m));
+        #else
+            return ~eq_(a);
+        #endif
+    }
+
+    ENOKI_INLINE auto lt_(Ref a) const {
+        using Return = mask_t<Derived>;
+
+        #if !defined(ENOKI_X86_AVX512VL)
+            if constexpr (std::is_signed_v<Value>) {
+                return Return(_mm256_cmpgt_epi32(a.m, m));
+            } else {
+                const __m256i offset = _mm256_set1_epi32((int32_t) 0x80000000ul);
+                return Return(_mm256_cmpgt_epi32(_mm256_sub_epi32(a.m, offset),
+                                                 _mm256_sub_epi32(m, offset)));
+            }
+        #else
+            return Return::from_k(std::is_signed_v<Value>
+                                  ? _mm256_cmplt_epi32_mask(m, a.m)
+                                  : _mm256_cmplt_epu32_mask(m, a.m));
+        #endif
+    }
+
+    ENOKI_INLINE auto gt_(Ref a) const {
+        using Return = mask_t<Derived>;
+
+        #if !defined(ENOKI_X86_AVX512VL)
+            if constexpr (std::is_signed_v<Value>) {
+                return Return(_mm256_cmpgt_epi32(m, a.m));
+            } else {
+                const __m256i offset = _mm256_set1_epi32((int32_t) 0x80000000ul);
+                return Return(_mm256_cmpgt_epi32(_mm256_sub_epi32(m, offset),
+                                                 _mm256_sub_epi32(a.m, offset)));
+            }
+        #else
+            return Return::from_k(std::is_signed_v<Value>
+                                  ? _mm256_cmpgt_epi32_mask(m, a.m)
+                                  : _mm256_cmpgt_epu32_mask(m, a.m));
+        #endif
+    }
+
+    ENOKI_INLINE auto le_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k(std::is_signed_v<Value>
+                                           ? _mm256_cmple_epi32_mask(m, a.m)
+                                           : _mm256_cmple_epu32_mask(m, a.m));
+        #else
+            return ~gt_(a);
+        #endif
+    }
+
+    ENOKI_INLINE auto ge_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k(std::is_signed_v<Value>
+                                           ? _mm256_cmpge_epi32_mask(m, a.m)
+                                           : _mm256_cmpge_epu32_mask(m, a.m));
+        #else
+            return ~lt_(a);
+        #endif
+    }
+
+    ENOKI_INLINE Derived min_(Ref a) const {
+        return std::is_signed_v<Value> ? _mm256_min_epi32(a.m, m)
+                                       : _mm256_min_epu32(a.m, m);
+    }
+
+    ENOKI_INLINE Derived max_(Ref a) const {
+        return std::is_signed_v<Value> ? _mm256_max_epi32(a.m, m)
+                                       : _mm256_max_epu32(a.m, m);
+    }
+
+    ENOKI_INLINE Derived abs_() const {
+        return std::is_signed_v<Value> ? _mm256_abs_epi32(m) : m;
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived select_(const Mask &m, Ref t, Ref f) {
+        #if !defined(ENOKI_X86_AVX512VL)
+            return _mm256_blendv_epi8(f.m, t.m, m.m);
+        #else
+            return _mm256_mask_blend_epi32(m.k, f.m, t.m);
+        #endif
+    }
+
+    template <int I0, int I1, int I2, int I3, int I4, int I5, int I6, int I7>
+    ENOKI_INLINE Derived shuffle_() const {
+        return _mm256_permutevar8x32_epi32(m,
+            _mm256_setr_epi32(I0, I1, I2, I3, I4, I5, I6, I7));
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        return _mm256_permutevar8x32_epi32(m, index.m);
+    }
+
+    ENOKI_INLINE Derived mulhi_(Ref a) const {
+        Derived even, odd;
+
+        if constexpr (std::is_signed_v<Value>) {
+            even.m = _mm256_srli_epi64(_mm256_mul_epi32(m, a.m), 32);
+            odd.m = _mm256_mul_epi32(_mm256_srli_epi64(m, 32), _mm256_srli_epi64(a.m, 32));
+        } else {
+            even.m = _mm256_srli_epi64(_mm256_mul_epu32(m, a.m), 32);
+            odd.m = _mm256_mul_epu32(_mm256_srli_epi64(m, 32), _mm256_srli_epi64(a.m, 32));
+        }
+
+        #if defined(ENOKI_X86_AVX512VL)
+            const mask_t<Derived> blend = mask_t<Derived>::from_k(0b01010101);
+        #else
+            const mask_t<Derived> blend(Value(-1), Value(0), Value(-1), Value(0),
+                                        Value(-1), Value(0), Value(-1), Value(0));
+        #endif
+
+        return select(blend, even, odd);
+    }
+
+#if defined(ENOKI_X86_AVX512CD) && defined(ENOKI_X86_AVX512VL)
+    ENOKI_INLINE Derived lzcnt_() const { return _mm256_lzcnt_epi32(m); }
+    ENOKI_INLINE Derived tzcnt_() const { return Value(32) - lzcnt(~derived() & (derived() - Value(1))); }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Value hsum_()  const { return hsum(low_() + high_()); }
+    ENOKI_INLINE Value hprod_() const { return hprod(low_() * high_()); }
+    ENOKI_INLINE Value hmin_()  const { return hmin(min(low_(), high_())); }
+    ENOKI_INLINE Value hmax_()  const { return hmax(max(low_(), high_())); }
+
+    ENOKI_INLINE bool all_() const { return _mm256_movemask_ps(_mm256_castsi256_ps(m)) == 0xFF; }
+    ENOKI_INLINE bool any_() const { return _mm256_movemask_ps(_mm256_castsi256_ps(m)) != 0; }
+
+    ENOKI_INLINE uint32_t bitmask_() const { return (uint32_t) _mm256_movemask_ps(_mm256_castsi256_ps(m)); }
+    ENOKI_INLINE size_t count_() const { return (size_t) _mm_popcnt_u32(bitmask_()); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Masked versions of key operations
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <typename Mask>
+    ENOKI_INLINE void massign_(const Derived &a, const Mask &mask) { m = _mm256_mask_mov_epi32(m, mask.k, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void madd_   (const Derived &a, const Mask &mask) { m = _mm256_mask_add_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void msub_   (const Derived &a, const Mask &mask) { m = _mm256_mask_sub_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mmul_   (const Derived &a, const Mask &mask) { m = _mm256_mask_mullo_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mor_    (const Derived &a, const Mask &mask) { m = _mm256_mask_or_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mand_   (const Derived &a, const Mask &mask) { m = _mm256_mask_and_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mxor_   (const Derived &a, const Mask &mask) { m = _mm256_mask_xor_epi32(m, mask.k, m, a.m); }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Initialization, loading/writing data
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        assert((uintptr_t) ptr % 32 == 0);
+        _mm256_store_si256((__m256i *) ENOKI_ASSUME_ALIGNED(ptr, 32), m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm256_mask_store_epi32((Value *) ptr, mask.k, m);
+        #else
+            _mm256_maskstore_epi32((int *) ptr, mask.m, m);
+        #endif
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        _mm256_storeu_si256((__m256i *) ptr, m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm256_mask_storeu_epi32((Value *) ptr, mask.k, m);
+        #else
+            _mm256_maskstore_epi32((int *) ptr, mask.m, m);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        assert((uintptr_t) ptr % 32 == 0);
+        return _mm256_load_si256((const __m256i *) ENOKI_ASSUME_ALIGNED(ptr, 32));
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm256_maskz_load_epi32(mask.k, ptr);
+        #else
+            return _mm256_maskload_epi32((const int *) ptr, mask.m);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return _mm256_loadu_si256((const __m256i *) ptr);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm256_maskz_loadu_epi32(mask.k, ptr);
+        #else
+            return _mm256_maskload_epi32((const int *) ptr, mask.m);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived zero_() { return _mm256_setzero_si256(); }
+
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL) && defined(ENOKI_X86_AVX512DQ)
+            if constexpr (sizeof(scalar_t<Index>) == 4)
+                return _mm256_mmask_i32gather_epi32(_mm256_setzero_si256(), mask.k, index.m, (const int *) ptr, Stride);
+            else
+                return _mm512_mask_i64gather_epi32(_mm256_setzero_si256(), mask.k, index.m, (const int *) ptr, Stride);
+        #else
+            if constexpr (sizeof(scalar_t<Index>) == 4) {
+                return _mm256_mask_i32gather_epi32(
+                    _mm256_setzero_si256(), (const int *) ptr, index.m, mask.m, Stride);
+            } else {
+                return Derived(
+                    _mm256_mask_i64gather_epi32(_mm_setzero_si128(), (const int *) ptr, low(index).m, low(mask).m, Stride),
+                    _mm256_mask_i64gather_epi32(_mm_setzero_si128(), (const int *) ptr, high(index).m, high(mask).m, Stride)
+                );
+            }
+        #endif
+    }
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        if constexpr (sizeof(scalar_t<Index>) == 4)
+            _mm256_mask_i32scatter_epi32(ptr, mask.k, index.m, m, Stride);
+        else
+            _mm512_mask_i64scatter_epi32(ptr, mask.k, index.m, m, Stride);
+    }
+#endif
+
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        #if !defined(ENOKI_X86_AVX512VL)
+            unsigned int k = (unsigned int) _mm256_movemask_ps(_mm256_castsi256_ps(mask.m));
+            return coeff((size_t) (detail::tzcnt_scalar(k) & 7));
+        #else
+            return (Value) _mm_cvtsi128_si32(_mm256_castsi256_si128(
+                _mm256_mask_compress_epi32(_mm256_setzero_si256(), mask.k, m)));
+        #endif
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(Value_ *&ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            size_t kn = (size_t) _mm_popcnt_u32(mask.k);
+            _mm256_storeu_si256((__m256i *) ptr, _mm256_maskz_compress_epi32(mask.k, m));
+            ptr += kn;
+            return kn;
+        #elif defined(ENOKI_X86_64) // requires _pdep_u64
+            /** Clever BMI2-based partitioning algorithm by Christoph Diegelmann
+                see https://goo.gl/o3ysMN for context */
+
+            unsigned int k = (unsigned int) _mm256_movemask_epi8(mask.m);
+            uint32_t wanted_indices = _pext_u32(0x76543210, k);
+            uint64_t expanded_indices = _pdep_u64((uint64_t) wanted_indices,
+                                                  0x0F0F0F0F0F0F0F0Full);
+            size_t kn = (size_t) (_mm_popcnt_u32(k) >> 2);
+
+            __m128i bytevec = detail::mm_cvtsi64_si128((long long) expanded_indices);
+            __m256i shufmask = _mm256_cvtepu8_epi32(bytevec);
+            __m256i perm = _mm256_permutevar8x32_epi32(m, shufmask);
+
+            _mm256_storeu_si256((__m256i *) ptr, perm);
+            ptr += kn;
+            return kn;
+        #else
+            return Base::compress_(ptr, mask);
+        #endif
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+/// Partial overload of StaticArrayImpl using AVX intrinsics (64 bit integers)
+template <typename Value_, bool IsMask_, typename Derived_> struct alignas(32)
+    StaticArrayImpl<Value_, 4, IsMask_, Derived_, enable_if_int64_t<Value_>>
+  : StaticArrayBase<Value_, 4, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(Value_, 4, __m256i)
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(const Value &value)
+        : m(_mm256_set1_epi64x((long long) value)) { }
+
+    ENOKI_INLINE StaticArrayImpl(Value v0, Value v1, Value v2, Value v3)
+        : m(_mm256_setr_epi64x((long long) v0, (long long) v1,
+                               (long long) v2, (long long) v3)) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+    ENOKI_CONVERT(float) {
+        m = std::is_signed_v<Value> ? _mm256_cvttps_epi64(a.derived().m)
+                                    : _mm256_cvttps_epu64(a.derived().m);
+    }
+
+    ENOKI_CONVERT(double) {
+        m = std::is_signed_v<Value> ? _mm256_cvttpd_epi64(a.derived().m)
+                                    : _mm256_cvttpd_epu64(a.derived().m);
+    }
+#endif
+    ENOKI_CONVERT(int32_t)  : m(_mm256_cvtepi32_epi64(a.derived().m)) { }
+    ENOKI_CONVERT(uint32_t) : m(_mm256_cvtepu32_epi64(a.derived().m)) { }
+
+    ENOKI_CONVERT(int64_t) : m(a.derived().m) { }
+    ENOKI_CONVERT(uint64_t) : m(a.derived().m) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+    ENOKI_REINTERPRET(bool) {
+        int ival;
+        memcpy(&ival, a.derived().data(), 4);
+        m = _mm256_cvtepi8_epi64(
+            _mm_cmpgt_epi8(_mm_cvtsi32_si128(ival), _mm_setzero_si128()));
+    }
+
+    ENOKI_REINTERPRET(float)
+        : m(_mm256_cvtepi32_epi64(_mm_castps_si128(a.derived().m))) { }
+    ENOKI_REINTERPRET(int32_t) : m(_mm256_cvtepi32_epi64(a.derived().m)) { }
+    ENOKI_REINTERPRET(uint32_t) : m(_mm256_cvtepi32_epi64(a.derived().m)) { }
+
+    ENOKI_REINTERPRET(double) : m(_mm256_castpd_si256(a.derived().m)) { }
+    ENOKI_REINTERPRET(int64_t) : m(a.derived().m) { }
+    ENOKI_REINTERPRET(uint64_t) : m(a.derived().m) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m(detail::concat(a1.m, a2.m)) { }
+
+    ENOKI_INLINE Array1 low_()  const { return _mm256_castsi256_si128(m); }
+    ENOKI_INLINE Array2 high_() const { return _mm256_extractf128_si256(m, 1); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return _mm256_add_epi64(m, a.m);   }
+    ENOKI_INLINE Derived sub_(Ref a) const { return _mm256_sub_epi64(m, a.m);   }
+
+    ENOKI_INLINE Derived mul_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+            return _mm256_mullo_epi64(m, a.m);
+        #else
+            __m256i h0    = _mm256_srli_epi64(m, 32);
+            __m256i h1    = _mm256_srli_epi64(a.m, 32);
+            __m256i low   = _mm256_mul_epu32(m, a.m);
+            __m256i mix0  = _mm256_mul_epu32(m, h1);
+            __m256i mix1  = _mm256_mul_epu32(h0, a.m);
+            __m256i mix   = _mm256_add_epi64(mix0, mix1);
+            __m256i mix_s = _mm256_slli_epi64(mix, 32);
+            return _mm256_add_epi64(mix_s, low);
+        #endif
+    }
+
+    ENOKI_INLINE Derived mulhi_(Ref b) const {
+        if constexpr (std::is_unsigned_v<Value>) {
+            const __m256i low_bits = _mm256_set1_epi64x(0xffffffffu);
+            __m256i al = m, bl = b.m;
+
+            __m256i ah = _mm256_srli_epi64(al, 32);
+            __m256i bh = _mm256_srli_epi64(bl, 32);
+
+            // 4x unsigned 32x32->64 bit multiplication
+            __m256i albl = _mm256_mul_epu32(al, bl);
+            __m256i albh = _mm256_mul_epu32(al, bh);
+            __m256i ahbl = _mm256_mul_epu32(ah, bl);
+            __m256i ahbh = _mm256_mul_epu32(ah, bh);
+
+            // Calculate a possible carry from the low bits of the multiplication.
+            __m256i carry = _mm256_add_epi64(
+                _mm256_srli_epi64(albl, 32),
+                _mm256_add_epi64(_mm256_and_si256(albh, low_bits),
+                                 _mm256_and_si256(ahbl, low_bits)));
+
+            __m256i s0 = _mm256_add_epi64(ahbh, _mm256_srli_epi64(carry, 32));
+            __m256i s1 = _mm256_add_epi64(_mm256_srli_epi64(albh, 32),
+                                          _mm256_srli_epi64(ahbl, 32));
+
+            return _mm256_add_epi64(s0, s1);
+
+        } else {
+            const Derived mask(0xffffffff);
+            const Derived a = derived();
+            Derived ah = sr<32>(a), bh = sr<32>(b),
+                    al = a & mask, bl = b & mask;
+
+            Derived albl_hi = _mm256_srli_epi64(_mm256_mul_epu32(m, b.m), 32);
+
+            Derived t = ah * bl + albl_hi;
+            Derived w1 = al * bh + (t & mask);
+
+            return ah * bh + sr<32>(t) + sr<32>(w1);
+        }
+    }
+
+    template <typename T> ENOKI_INLINE Derived or_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_mask_mov_epi64(m, a.k, _mm256_set1_epi64x(-1));
+            else
+        #endif
+        return _mm256_or_si256(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_maskz_mov_epi64(a.k, m);
+            else
+        #endif
+        return _mm256_and_si256(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_mask_xor_epi64(m, a.k, m, _mm256_set1_epi64x(-1));
+            else
+        #endif
+        return _mm256_xor_si256(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm256_mask_mov_epi64(m, a.k, _mm256_setzero_si256());
+            else
+        #endif
+        return _mm256_andnot_si256(a.m, m);
+    }
+
+    template <size_t k> ENOKI_INLINE Derived sl_() const {
+        return _mm256_slli_epi64(m, (int) k);
+    }
+
+    template <size_t k> ENOKI_INLINE Derived sr_() const {
+        if constexpr (std::is_signed_v<Value>) {
+            #if defined(ENOKI_X86_AVX512VL)
+                return _mm256_srai_epi64(m, (int) k);
+            #else
+                const __m256i offset = _mm256_set1_epi64x((long long) 0x8000000000000000ull);
+                __m256i s1 = _mm256_srli_epi64(_mm256_add_epi64(m, offset), (int) k);
+                __m256i s2 = _mm256_srli_epi64(offset, (int) k);
+                return _mm256_sub_epi64(s1, s2);
+            #endif
+        } else {
+            return _mm256_srli_epi64(m, (int) k);
+        }
+    }
+
+    ENOKI_INLINE Derived sl_(size_t k) const {
+        return _mm256_sll_epi64(m, _mm_set1_epi64x((long long) k));
+    }
+
+    ENOKI_INLINE Derived sr_(size_t k) const {
+        if constexpr (std::is_signed_v<Value>) {
+            #if defined(ENOKI_X86_AVX512VL)
+                return _mm256_sra_epi64(m, _mm_set1_epi64x((long long) k));
+            #else
+                const __m256i offset = _mm256_set1_epi64x((long long) 0x8000000000000000ull);
+                __m128i s0 = _mm_set1_epi64x((long long) k);
+                __m256i s1 = _mm256_srl_epi64(_mm256_add_epi64(m, offset), s0);
+                __m256i s2 = _mm256_srl_epi64(offset, s0);
+                return _mm256_sub_epi64(s1, s2);
+            #endif
+        } else {
+            return _mm256_srl_epi64(m, _mm_set1_epi64x((long long) k));
+        }
+    }
+
+    ENOKI_INLINE Derived sl_(Ref k) const {
+        return _mm256_sllv_epi64(m, k.m);
+    }
+
+    ENOKI_INLINE Derived sr_(Ref k) const {
+        if constexpr (std::is_signed_v<Value>) {
+            #if defined(ENOKI_X86_AVX512VL)
+                return _mm256_srav_epi64(m, k.m);
+            #else
+                const __m256i offset = _mm256_set1_epi64x((long long) 0x8000000000000000ull);
+                __m256i s1 = _mm256_srlv_epi64(_mm256_add_epi64(m, offset), k.m);
+                __m256i s2 = _mm256_srlv_epi64(offset, k.m);
+                return _mm256_sub_epi64(s1, s2);
+            #endif
+        } else {
+            return _mm256_srlv_epi64(m, k.m);
+        }
+    }
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Imm> ENOKI_INLINE Derived rol_() const { return _mm256_rol_epi64(m, (int) Imm); }
+    template <size_t Imm> ENOKI_INLINE Derived ror_() const { return _mm256_ror_epi64(m, (int) Imm); }
+    ENOKI_INLINE Derived rol_(Ref k) const { return _mm256_rolv_epi64(m, k.m); }
+    ENOKI_INLINE Derived ror_(Ref k) const { return _mm256_rorv_epi64(m, k.m); }
+#endif
+
+    ENOKI_INLINE auto eq_(Ref a)  const {
+        using Return = mask_t<Derived>;
+
+        #if defined(ENOKI_X86_AVX512VL)
+            return Return::from_k(_mm256_cmpeq_epi64_mask(m, a.m));
+        #else
+            return Return(_mm256_cmpeq_epi64(m, a.m));
+        #endif
+    }
+
+    ENOKI_INLINE auto neq_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k(_mm256_cmpneq_epi64_mask(m, a.m));
+        #else
+            return ~eq_(a);
+        #endif
+    }
+
+    ENOKI_INLINE auto lt_(Ref a) const {
+        using Return = mask_t<Derived>;
+
+        #if !defined(ENOKI_X86_AVX512VL)
+            if constexpr (std::is_signed_v<Value>) {
+                return Return(_mm256_cmpgt_epi64(a.m, m));
+            } else {
+                const __m256i offset =
+                    _mm256_set1_epi64x((long long) 0x8000000000000000ull);
+                return Return(_mm256_cmpgt_epi64(
+                    _mm256_sub_epi64(a.m, offset),
+                    _mm256_sub_epi64(m, offset)
+                ));
+            }
+        #else
+            return Return::from_k(std::is_signed_v<Value>
+                                  ? _mm256_cmplt_epi64_mask(m, a.m)
+                                  : _mm256_cmplt_epu64_mask(m, a.m));
+        #endif
+    }
+
+    ENOKI_INLINE auto gt_(Ref a) const {
+        using Return = mask_t<Derived>;
+
+        #if !defined(ENOKI_X86_AVX512VL)
+            if constexpr (std::is_signed_v<Value>) {
+                return Return(_mm256_cmpgt_epi64(m, a.m));
+            } else {
+                const __m256i offset =
+                    _mm256_set1_epi64x((long long) 0x8000000000000000ull);
+                return Return(_mm256_cmpgt_epi64(
+                    _mm256_sub_epi64(m, offset),
+                    _mm256_sub_epi64(a.m, offset)
+                ));
+            }
+        #else
+            return Return::from_k(std::is_signed_v<Value>
+                                  ? _mm256_cmpgt_epi64_mask(m, a.m)
+                                  : _mm256_cmpgt_epu64_mask(m, a.m));
+        #endif
+    }
+
+    ENOKI_INLINE auto le_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k(std::is_signed_v<Value>
+                                           ? _mm256_cmple_epi64_mask(m, a.m)
+                                           : _mm256_cmple_epu64_mask(m, a.m));
+        #else
+            return ~gt_(a);
+        #endif
+    }
+
+    ENOKI_INLINE auto ge_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k(std::is_signed_v<Value>
+                                           ? _mm256_cmpge_epi64_mask(m, a.m)
+                                           : _mm256_cmpge_epu64_mask(m, a.m));
+        #else
+            return ~lt_(a);
+        #endif
+    }
+
+    ENOKI_INLINE Derived min_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return std::is_signed_v<Value> ? _mm256_min_epi64(a.m, m)
+                                           : _mm256_min_epu64(a.m, m);
+        #else
+            return select(derived() < a, derived(), a);
+        #endif
+    }
+
+    ENOKI_INLINE Derived max_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return std::is_signed_v<Value> ? _mm256_max_epi64(a.m, m)
+                                           : _mm256_max_epu64(a.m, m);
+        #else
+            return select(derived() > a, derived(), a);
+        #endif
+    }
+
+    ENOKI_INLINE Derived abs_() const {
+        if constexpr (std::is_signed_v<Value>) {
+            #if defined(ENOKI_X86_AVX512VL)
+                return _mm256_abs_epi64(m);
+            #else
+                return select(derived() < zero<Derived>(),
+                              ~derived() + Derived(Value(1)), derived());
+            #endif
+        } else {
+            return m;
+        }
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived select_(const Mask &m, Ref t, Ref f) {
+        #if !defined(ENOKI_X86_AVX512VL)
+            return _mm256_blendv_epi8(f.m, t.m, m.m);
+        #else
+            return _mm256_mask_blend_epi64(m.k, f.m, t.m);
+        #endif
+    }
+
+    template <int I0, int I1, int I2, int I3>
+    ENOKI_INLINE Derived shuffle_() const {
+        return _mm256_permute4x64_epi64(m, _MM_SHUFFLE(I3, I2, I1, I0));
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        return Base::shuffle_(index);
+    }
+
+#if defined(ENOKI_X86_AVX512CD) && defined(ENOKI_X86_AVX512VL)
+    ENOKI_INLINE Derived lzcnt_() const { return _mm256_lzcnt_epi64(m); }
+    ENOKI_INLINE Derived tzcnt_() const { return Value(64) - lzcnt(~derived() & (derived() - Value(1))); }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Masked versions of key operations
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <typename Mask>
+    ENOKI_INLINE void massign_(const Derived &a, const Mask &mask) { m = _mm256_mask_mov_epi64(m, mask.k, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void madd_   (const Derived &a, const Mask &mask) { m = _mm256_mask_add_epi64(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void msub_   (const Derived &a, const Mask &mask) { m = _mm256_mask_sub_epi64(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mmul_   (const Derived &a, const Mask &mask) { m = _mm256_mask_mullo_epi64(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mor_    (const Derived &a, const Mask &mask) { m = _mm256_mask_or_epi64(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mand_   (const Derived &a, const Mask &mask) { m = _mm256_mask_and_epi64(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mxor_   (const Derived &a, const Mask &mask) { m = _mm256_mask_xor_epi64(m, mask.k, m, a.m); }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+    //
+    ENOKI_INLINE Value hsum_()  const { return hsum(low_() + high_()); }
+    ENOKI_INLINE Value hprod_() const { return hprod(low_() * high_()); }
+    ENOKI_INLINE Value hmin_()  const { return hmin(min(low_(), high_())); }
+    ENOKI_INLINE Value hmax_()  const { return hmax(max(low_(), high_())); }
+
+    ENOKI_INLINE bool all_() const { return _mm256_movemask_pd(_mm256_castsi256_pd(m)) == 0xF; }
+    ENOKI_INLINE bool any_() const { return _mm256_movemask_pd(_mm256_castsi256_pd(m)) != 0; }
+
+    ENOKI_INLINE uint32_t bitmask_() const { return (uint32_t) _mm256_movemask_pd(_mm256_castsi256_pd(m)); }
+    ENOKI_INLINE size_t count_() const { return (size_t) _mm_popcnt_u32(bitmask_()); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Initialization, loading/writing data
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        assert((uintptr_t) ptr % 32 == 0);
+        _mm256_store_si256((__m256i *) ENOKI_ASSUME_ALIGNED(ptr, 32), m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm256_mask_store_epi64(ptr, mask.k, m);
+        #else
+            _mm256_maskstore_epi64((long long *) ptr, mask.m, m);
+        #endif
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        _mm256_storeu_si256((__m256i *) ptr, m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm256_mask_storeu_epi64(ptr, mask.k, m);
+        #else
+            _mm256_maskstore_epi64((long long *) ptr, mask.m, m);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        assert((uintptr_t) ptr % 32 == 0);
+        return _mm256_load_si256((const __m256i *) ENOKI_ASSUME_ALIGNED(ptr, 32));
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm256_maskz_load_epi64(mask.k, ptr);
+        #else
+            return _mm256_maskload_epi64((const long long *) ptr, mask.m);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return _mm256_loadu_si256((const __m256i *) ptr);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm256_maskz_loadu_epi64(mask.k, ptr);
+        #else
+            return _mm256_maskload_epi64((const long long *) ptr, mask.m);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived zero_() { return _mm256_setzero_si256(); }
+
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (sizeof(scalar_t<Index>) == 4)
+                return _mm256_mmask_i32gather_epi64(_mm256_setzero_si256(), mask.k, index.m, (const long long *) ptr, Stride);
+            else
+                return _mm256_mmask_i64gather_epi64(_mm256_setzero_si256(), mask.k, index.m, (const long long *) ptr, Stride);
+        #else
+            if constexpr (sizeof(scalar_t<Index>) == 4)
+                return _mm256_mask_i32gather_epi64(_mm256_setzero_si256(), (const long long *) ptr, index.m, mask.m, Stride);
+            else
+                return _mm256_mask_i64gather_epi64(_mm256_setzero_si256(), (const long long *) ptr, index.m, mask.m, Stride);
+        #endif
+    }
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        if constexpr (sizeof(scalar_t<Index>) == 4)
+            _mm256_mask_i32scatter_epi64(ptr, mask.k, index.m, m, Stride);
+        else
+            _mm256_mask_i64scatter_epi64(ptr, mask.k, index.m, m, Stride);
+    }
+#endif
+
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return (Value) detail::mm_cvtsi128_si64(_mm256_castsi256_si128(
+                _mm256_mask_compress_epi64(_mm256_setzero_si256(), mask.k, m)));
+        #else
+            unsigned int k =
+                (unsigned int) _mm256_movemask_pd(_mm256_castsi256_pd(mask.m));
+            return coeff((size_t) (tzcnt(k) & 3));
+        #endif
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(Value_ *&ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            size_t kn = (size_t) _mm_popcnt_u32(mask.k);
+            _mm256_storeu_si256((__m256i *) ptr, _mm256_maskz_compress_epi64(mask.k, m));
+            ptr += kn;
+            return kn;
+        #elif defined(ENOKI_X86_64) // requires _pdep_u64
+            /** Clever BMI2-based partitioning algorithm by Christoph Diegelmann
+                see https://goo.gl/o3ysMN for context */
+
+            unsigned int k = (unsigned int) _mm256_movemask_epi8(mask.m);
+            uint32_t wanted_indices = _pext_u32(0x76543210, k);
+            uint64_t expanded_indices = _pdep_u64((uint64_t) wanted_indices,
+                                                  0x0F0F0F0F0F0F0F0Full);
+            size_t kn = (size_t) (_mm_popcnt_u32(k) >> 3);
+
+            __m128i bytevec = detail::mm_cvtsi64_si128((long long) expanded_indices);
+            __m256i shufmask = _mm256_cvtepu8_epi32(bytevec);
+
+            __m256i perm = _mm256_permutevar8x32_epi32(m, shufmask);
+
+            _mm256_storeu_si256((__m256i *) ptr, perm);
+            ptr += kn;
+            return kn;
+        #else
+            return Base::compress_(ptr, mask);
+        #endif
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+/// Partial overload of StaticArrayImpl for the n=3 case (64 bit integers)
+template <typename Value_, bool IsMask_, typename Derived_> struct alignas(32)
+    StaticArrayImpl<Value_, 3, IsMask_, Derived_, enable_if_int64_t<Value_>>
+  : StaticArrayImpl<Value_, 4, IsMask_, Derived_> {
+    using Base = StaticArrayImpl<Value_, 4, IsMask_, Derived_>;
+
+    ENOKI_DECLARE_3D_ARRAY(StaticArrayImpl)
+
+    template <int I0, int I1, int I2>
+    ENOKI_INLINE Derived shuffle_() const {
+        return Base::template shuffle_<I0, I1, I2, 3>();
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &idx) const {
+        return Base::shuffle_(idx);
+    }
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations (adapted for the n=3 case)
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Value hsum_() const {
+        Value result = coeff(0);
+        for (size_t i = 1; i < 3; ++i)
+            result += coeff(i);
+        return result;
+    }
+
+    ENOKI_INLINE Value hprod_() const {
+        Value result = coeff(0);
+        for (size_t i = 1; i < 3; ++i)
+            result *= coeff(i);
+        return result;
+    }
+
+    ENOKI_INLINE Value hmin_() const {
+        Value result = coeff(0);
+        for (size_t i = 1; i < 3; ++i)
+            result = std::min(result, coeff(i));
+        return result;
+    }
+
+    ENOKI_INLINE Value hmax_() const {
+        Value result = coeff(0);
+        for (size_t i = 1; i < 3; ++i)
+            result = std::max(result, coeff(i));
+        return result;
+    }
+
+    ENOKI_INLINE bool all_()  const { return (_mm256_movemask_pd(_mm256_castsi256_pd(m)) & 7) == 7;}
+    ENOKI_INLINE bool any_()  const { return (_mm256_movemask_pd(_mm256_castsi256_pd(m)) & 7) != 0; }
+
+    ENOKI_INLINE uint32_t bitmask_() const { return (uint32_t) _mm256_movemask_pd(_mm256_castsi256_pd(m)) & 7; }
+    ENOKI_INLINE size_t count_() const { return (size_t) _mm_popcnt_u32(bitmask_()); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Loading/writing data (adapted for the n=3 case)
+    // -----------------------------------------------------------------------
+
+    static ENOKI_INLINE auto mask_() {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k((__mmask8) 7);
+        #else
+            return mask_t<Derived>(_mm256_setr_epi64x(
+                (int64_t) -1, (int64_t) -1, (int64_t) -1, (int64_t) 0));
+        #endif
+    }
+
+    using Base::load_;
+    using Base::load_unaligned_;
+    using Base::store_;
+    using Base::store_unaligned_;
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        memcpy(ptr, &m, sizeof(Value) * 3);
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        store_(ptr);
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        return Base::load_unaligned_(ptr);
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        Derived result;
+        memcpy(&result.m, ptr, sizeof(Value) * 3);
+        return result;
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        return Base::store_unaligned_(ptr, mask & mask_());
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        return Base::store_(ptr, mask & mask_());
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        return Base::load_(ptr, mask & mask_());
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        return Base::load_unaligned_(ptr, mask & mask_());
+    }
+
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        return Base::template gather_<Stride>(ptr, index, mask & mask_());
+    }
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        Base::template scatter_<Stride>(ptr, index, mask & mask_());
+    }
+#endif
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(Value_ *&ptr, const Mask &mask) const {
+        return Base::compress_(ptr, mask & mask_());
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+#if defined(ENOKI_X86_AVX512VL)
+template <typename Value_, typename Derived_>
+ENOKI_DECLARE_KMASK(Value_, 8, Derived_, enable_if_int32_t<Value_>)
+template <typename Value_, typename Derived_>
+ENOKI_DECLARE_KMASK(Value_, 4, Derived_, enable_if_int64_t<Value_>)
+template <typename Value_, typename Derived_>
+ENOKI_DECLARE_KMASK(Value_, 3, Derived_, enable_if_int64_t<Value_>)
+#endif
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_avx512.h b/sources/enoki/array_avx512.h
new file mode 100644
index 00000000..e8e14b20
--- /dev/null
+++ b/sources/enoki/array_avx512.h
@@ -0,0 +1,1928 @@
+/*
+    enoki/array_avx512.h -- Packed SIMD array (AVX512 specialization)
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyrighe (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+NAMESPACE_BEGIN(enoki)
+NAMESPACE_BEGIN(detail)
+template <> struct is_native<float, 16> : std::true_type { } ;
+template <> struct is_native<double, 8> : std::true_type { };
+template <typename Value>    struct is_native<Value, 16, enable_if_int32_t<Value>> : std::true_type { };
+template <typename Value>    struct is_native<Value, 8, enable_if_int64_t<Value>> : std::true_type { };
+NAMESPACE_END(detail)
+
+/// Partial overload of StaticArrayImpl using AVX512 intrinsics (single precision)
+template <bool IsMask_, typename Derived_> struct alignas(64)
+    StaticArrayImpl<float, 16, IsMask_, Derived_>
+  : StaticArrayBase<float, 16, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(float, 16, __m512)
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(Value value) : m(_mm512_set1_ps(value)) { }
+
+    ENOKI_INLINE StaticArrayImpl(Value f0,  Value f1,  Value f2,  Value f3,
+                                 Value f4,  Value f5,  Value f6,  Value f7,
+                                 Value f8,  Value f9,  Value f10, Value f11,
+                                 Value f12, Value f13, Value f14, Value f15)
+        : m(_mm512_setr_ps(f0, f1, f2, f3, f4, f5, f6, f7, f8,
+                           f9, f10, f11, f12, f13, f14, f15)) { }
+
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_CONVERT(half)
+        : m(_mm512_cvtph_ps(_mm256_loadu_si256((const __m256i *) a.derived().data()))) { }
+
+    ENOKI_CONVERT(float) : m(a.derived().m) { }
+
+    ENOKI_CONVERT(int32_t) : m(_mm512_cvtepi32_ps(a.derived().m)) { }
+
+    ENOKI_CONVERT(uint32_t) : m(_mm512_cvtepu32_ps(a.derived().m)) { }
+
+    ENOKI_CONVERT(double)
+        : m(detail::concat(_mm512_cvtpd_ps(low(a).m),
+                           _mm512_cvtpd_ps(high(a).m))) { }
+
+#if defined(ENOKI_X86_AVX512DQ)
+    ENOKI_CONVERT(int64_t)
+        : m(detail::concat(_mm512_cvtepi64_ps(low(a).m),
+                           _mm512_cvtepi64_ps(high(a).m))) { }
+
+    ENOKI_CONVERT(uint64_t)
+        : m(detail::concat(_mm512_cvtepu64_ps(low(a).m),
+                           _mm512_cvtepu64_ps(high(a).m))) { }
+#elif defined(ENOKI_X86_AVX512CD)
+    /* Emulate uint64_t -> float conversion instead of falling
+       back to scalar operations. This is quite a bit faster
+       (>6x for unsigned, >5x for signed). */
+
+    ENOKI_CONVERT(uint64_t) {
+        using Int64 = int64_array_t<Derived2>;
+        using Int32 = uint32_array_t<Derived2>;
+
+        auto lz = lzcnt(a);
+        auto shift = (63 - 23) - Int64(lz);
+        auto abs_shift = abs(shift);
+        auto nzero_mask = neq(a, 0ull);
+        auto mant = select(shift > 0, a >> abs_shift, a << abs_shift);
+        auto exp = sl<23>(uint64_t(127 + 63) - lz) & nzero_mask;
+        auto comb = exp | (mant & 0x7fffffull);
+
+        m = reinterpret_array<Derived>(Int32(comb)).m;
+    }
+
+    ENOKI_CONVERT(int64_t) {
+        using Int32 = uint32_array_t<Derived2>;
+
+        auto b = abs(a), lz = lzcnt(b);
+        auto shift = (63 - 23) - lz;
+        auto abs_shift = abs(shift);
+        auto nzero_mask = neq(a, 0ll);
+        auto mant = select(shift > 0, b >> abs_shift, b << abs_shift);
+        auto sign = sr<32>(a) & 0x80000000ll;
+        auto exp = sl<23>(int64_t(127 + 63) - lz) & nzero_mask;
+        auto comb = exp | (mant & 0x7fffffll) | sign;
+
+        m = reinterpret_array<Derived>(Int32(comb)).m;
+    }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+    ENOKI_REINTERPRET(float) : m(a.derived().m) { }
+
+    ENOKI_REINTERPRET(int32_t) : m(_mm512_castsi512_ps(a.derived().m)) { }
+    ENOKI_REINTERPRET(uint32_t) : m(_mm512_castsi512_ps(a.derived().m)) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m(detail::concat(a1.m, a2.m)) { }
+
+    ENOKI_INLINE Array1 low_()  const { return _mm512_castps512_ps256(m); }
+    ENOKI_INLINE Array2 high_() const {
+        #if defined(ENOKI_X86_AVX512DQ)
+            return _mm512_extractf32x8_ps(m, 1);
+        #else
+            return _mm256_castpd_ps(_mm512_extractf64x4_pd(_mm512_castps_pd(m), 1));
+        #endif
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return _mm512_add_ps(m, a.m); }
+    ENOKI_INLINE Derived sub_(Ref a) const { return _mm512_sub_ps(m, a.m); }
+    ENOKI_INLINE Derived mul_(Ref a) const { return _mm512_mul_ps(m, a.m); }
+    ENOKI_INLINE Derived div_(Ref a) const { return _mm512_div_ps(m, a.m); }
+
+    template <typename T> ENOKI_INLINE Derived or_(const T &a) const {
+        if constexpr (is_mask_v<T>) {
+            return _mm512_mask_mov_ps(m, a.k, _mm512_set1_ps(memcpy_cast<Value>(int32_t(-1))));
+        } else {
+            #if defined(ENOKI_X86_AVX512DQ)
+                return _mm512_or_ps(m, a.m);
+            #else
+                return _mm512_castsi512_ps(
+                    _mm512_or_si512(_mm512_castps_si512(m), _mm512_castps_si512(a.m)));
+            #endif
+        }
+    }
+
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const {
+        if constexpr (is_mask_v<T>) {
+            return _mm512_maskz_mov_ps(a.k, m);
+        } else {
+            #if defined(ENOKI_X86_AVX512DQ)
+                return _mm512_and_ps(m, a.m);
+            #else
+                return _mm512_castsi512_ps(
+                    _mm512_and_si512(_mm512_castps_si512(m), _mm512_castps_si512(a.m)));
+            #endif
+        }
+    }
+
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const {
+        if constexpr (is_mask_v<T>) {
+            return _mm512_mask_mov_ps(m, a.k, _mm512_setzero_ps());
+        } else {
+            #if defined(ENOKI_X86_AVX512DQ)
+                return _mm512_andnot_ps(a.m, m);
+            #else
+                return _mm512_castsi512_ps(
+                    _mm512_andnot_si512(_mm512_castps_si512(a.m), _mm512_castps_si512(m)));
+            #endif
+        }
+    }
+
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const {
+        if constexpr (is_mask_v<T>) {
+            const __m512 c = _mm512_set1_ps(memcpy_cast<Value>(int32_t(-1)));
+            #if defined(ENOKI_X86_AVX512DQ)
+                return _mm512_mask_xor_ps(m, a.k, m, c);
+            #else
+                const __m512i v0 = _mm512_castps_si512(m);
+                return _mm512_castsi512_ps(_mm512_mask_xor_epi32(v0, a.k, v0, c));
+            #endif
+        } else {
+            #if defined(ENOKI_X86_AVX512DQ)
+                return _mm512_xor_ps(m, a.m);
+            #else
+                return _mm512_castsi512_ps(
+                    _mm512_xor_si512(_mm512_castps_si512(m), _mm512_castps_si512(a.m)));
+            #endif
+        }
+    }
+
+    ENOKI_INLINE auto lt_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_ps_mask(m, a.m, _CMP_LT_OQ));  }
+    ENOKI_INLINE auto gt_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_ps_mask(m, a.m, _CMP_GT_OQ));  }
+    ENOKI_INLINE auto le_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_ps_mask(m, a.m, _CMP_LE_OQ));  }
+    ENOKI_INLINE auto ge_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_ps_mask(m, a.m, _CMP_GE_OQ));  }
+    ENOKI_INLINE auto eq_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_ps_mask(m, a.m, _CMP_EQ_OQ));  }
+    ENOKI_INLINE auto neq_(Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_ps_mask(m, a.m, _CMP_NEQ_UQ)); }
+
+    ENOKI_INLINE Derived abs_() const { return andnot_(Derived(_mm512_set1_ps(-0.f))); }
+
+    ENOKI_INLINE Derived min_(Ref b) const { return _mm512_min_ps(b.m, m); }
+    ENOKI_INLINE Derived max_(Ref b) const { return _mm512_max_ps(b.m, m); }
+    ENOKI_INLINE Derived ceil_()     const { return _mm512_ceil_ps(m);     }
+    ENOKI_INLINE Derived floor_()    const { return _mm512_floor_ps(m);    }
+    ENOKI_INLINE Derived sqrt_()     const { return _mm512_sqrt_ps(m); }
+
+    ENOKI_INLINE Derived round_() const {
+        return _mm512_roundscale_ps(m, _MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC);
+    }
+
+    ENOKI_INLINE Derived trunc_() const {
+        return _mm512_roundscale_ps(m, _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC);
+    }
+
+    template <typename T>
+    ENOKI_INLINE auto ceil2int_() const {
+        if constexpr (sizeof(scalar_t<T>) == 4) {
+            if constexpr (std::is_signed_v<scalar_t<T>>)
+                return T(_mm512_cvt_roundps_epi32(m, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC));
+            else
+                return T(_mm512_cvt_roundps_epu32(m, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC));
+        } else {
+            #if defined(ENOKI_X86_AVX512DQ)
+                using A = typename T::Array1;
+                if constexpr (std::is_signed_v<scalar_t<T>>)
+                    return T(
+                        A(_mm512_cvt_roundps_epi64(low(derived()).m, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC)),
+                        A(_mm512_cvt_roundps_epi64(high(derived()).m, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC))
+                    );
+                else
+                    return T(
+                        A(_mm512_cvt_roundps_epu64(low(derived()).m, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC)),
+                        A(_mm512_cvt_roundps_epu64(high(derived()).m, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC))
+                    );
+            #else
+                return Base::template ceil2int_<T>();
+            #endif
+        }
+    }
+
+    template <typename T>
+    ENOKI_INLINE auto floor2int_() const {
+        if constexpr (sizeof(scalar_t<T>) == 4) {
+            if constexpr (std::is_signed_v<scalar_t<T>>)
+                return T(_mm512_cvt_roundps_epi32(m, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC));
+            else
+                return T(_mm512_cvt_roundps_epu32(m, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC));
+        } else {
+            #if defined(ENOKI_X86_AVX512DQ)
+                using A = typename T::Array1;
+
+                if constexpr (std::is_signed_v<scalar_t<T>>)
+                    return T(
+                        A(_mm512_cvt_roundps_epi64(low(derived()).m, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC)),
+                        A(_mm512_cvt_roundps_epi64(high(derived()).m, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC))
+                    );
+                else
+                    return T(
+                        A(_mm512_cvt_roundps_epu64(low(derived()).m, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC)),
+                        A(_mm512_cvt_roundps_epu64(high(derived()).m, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC))
+                    );
+            #else
+                return Base::template floor2int_<T>();
+            #endif
+        }
+    }
+
+    ENOKI_INLINE Derived fmadd_   (Ref b, Ref c) const { return _mm512_fmadd_ps   (m, b.m, c.m); }
+    ENOKI_INLINE Derived fmsub_   (Ref b, Ref c) const { return _mm512_fmsub_ps   (m, b.m, c.m); }
+    ENOKI_INLINE Derived fnmadd_  (Ref b, Ref c) const { return _mm512_fnmadd_ps  (m, b.m, c.m); }
+    ENOKI_INLINE Derived fnmsub_  (Ref b, Ref c) const { return _mm512_fnmsub_ps  (m, b.m, c.m); }
+    ENOKI_INLINE Derived fmsubadd_(Ref b, Ref c) const { return _mm512_fmsubadd_ps(m, b.m, c.m); }
+    ENOKI_INLINE Derived fmaddsub_(Ref b, Ref c) const { return _mm512_fmaddsub_ps(m, b.m, c.m); }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived select_(const Mask &m, Ref t, Ref f) {
+        return _mm512_mask_blend_ps(m.k, f.m, t.m);
+    }
+
+    template <size_t I0,  size_t I1,  size_t I2,  size_t I3,  size_t I4,
+              size_t I5,  size_t I6,  size_t I7,  size_t I8,  size_t I9,
+              size_t I10, size_t I11, size_t I12, size_t I13, size_t I14,
+              size_t I15>
+    ENOKI_INLINE Derived shuffle_() const {
+        const __m512i idx =
+            _mm512_setr_epi32(I0, I1, I2, I3, I4, I5, I6, I7, I8,
+                              I9, I10, I11, I12, I13, I14, I15);
+        return _mm512_permutexvar_ps(idx, m);
+    }
+
+    template <typename Index> ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        return _mm512_permutexvar_ps(index.m, m);
+    }
+
+    ENOKI_INLINE Derived rcp_() const {
+        #if defined(ENOKI_X86_AVX512ER)
+            /* rel err < 2^28, use as is */
+            return _mm512_rcp28_ps(m);
+        #else
+            /* Use best reciprocal approximation available on the current
+               hardware and refine */
+            __m512 r = _mm512_rcp14_ps(m); /* rel error < 2^-14 */
+
+            /* Refine using one Newton-Raphson iteration */
+            __m512 t0 = _mm512_add_ps(r, r),
+                   t1 = _mm512_mul_ps(r, m);
+
+            r = _mm512_fnmadd_ps(t1, r, t0);
+
+            return _mm512_fixupimm_ps(r, m,
+                _mm512_set1_epi32(0x0087A622), 0);
+        #endif
+    }
+
+    ENOKI_INLINE Derived rsqrt_() const {
+        #if defined(ENOKI_X86_AVX512ER)
+            /* rel err < 2^28, use as is */
+            return _mm512_rsqrt28_ps(m);
+        #else
+            __m512 r = _mm512_rsqrt14_ps(m); /* rel error < 2^-14 */
+
+            /* Refine using one Newton-Raphson iteration */
+            const __m512 c0 = _mm512_set1_ps(0.5f),
+                         c1 = _mm512_set1_ps(3.0f);
+
+            __m512 t0 = _mm512_mul_ps(r, c0),
+                   t1 = _mm512_mul_ps(r, m);
+
+            r = _mm512_mul_ps(_mm512_fnmadd_ps(t1, r, c1), t0);
+
+            return _mm512_fixupimm_ps(r, m,
+                _mm512_set1_epi32(0x0383A622), 0);
+        #endif
+    }
+
+    ENOKI_INLINE Derived ldexp_(Ref arg) const { return _mm512_scalef_ps(m, arg.m); }
+
+    ENOKI_INLINE std::pair<Derived, Derived> frexp_() const {
+        return std::make_pair<Derived, Derived>(
+            _mm512_getmant_ps(m, _MM_MANT_NORM_p5_1, _MM_MANT_SIGN_src),
+            _mm512_getexp_ps(m));
+    }
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Value hsum_()  const { return hsum(low_() + high_()); }
+    ENOKI_INLINE Value hprod_() const { return hprod(low_() * high_()); }
+    ENOKI_INLINE Value hmin_()  const { return hmin(min(low_(), high_())); }
+    ENOKI_INLINE Value hmax_()  const { return hmax(max(low_(), high_())); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        assert((uintptr_t) ptr % 64 == 0);
+        _mm512_store_ps((Value *) ENOKI_ASSUME_ALIGNED(ptr, 64), m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        assert((uintptr_t) ptr % 64 == 0);
+        _mm512_mask_store_ps((Value *) ENOKI_ASSUME_ALIGNED(ptr, 64), mask.k, m);
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        _mm512_storeu_ps((Value *) ptr, m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        _mm512_mask_storeu_ps((Value *) ptr, mask.k, m);
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        assert((uintptr_t) ptr % 64 == 0);
+        return _mm512_load_ps((const Value *) ENOKI_ASSUME_ALIGNED(ptr, 64));
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        assert((uintptr_t) ptr % 64 == 0);
+        return _mm512_maskz_load_ps(mask.k, (const Value *) ENOKI_ASSUME_ALIGNED(ptr, 64));
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return _mm512_loadu_ps((const Value *) ptr);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        return _mm512_maskz_loadu_ps(mask.k, (const Value *) ptr);
+    }
+
+    static ENOKI_INLINE Derived zero_() { return _mm512_setzero_ps(); }
+
+#if defined(ENOKI_X86_AVX512PF)
+    template <bool Write, size_t Level, size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE void prefetch_(const void *ptr, const Index &index, const Mask &mask) {
+        constexpr auto Hint = Level == 1 ? _MM_HINT_T0 : _MM_HINT_T1;
+        if constexpr (sizeof(scalar_t<Index>) == 4) {
+            if constexpr (Write)
+                _mm512_mask_prefetch_i32scatter_ps((void *) ptr, mask.k, index.m, Stride, Hint);
+            else
+                _mm512_mask_prefetch_i32gather_ps(index.m, mask.k, ptr, Stride, Hint);
+        } else {
+            if constexpr (Write) {
+                _mm512_mask_prefetch_i64scatter_ps((void *) ptr, low(mask).k, low(index).m, Stride, Hint);
+                _mm512_mask_prefetch_i64scatter_ps((void *) ptr, high(mask).k, high(index).m, Stride, Hint);
+            } else {
+                _mm512_mask_prefetch_i64gather_ps(low(index).m, low(mask).k, ptr, Stride, Hint);
+                _mm512_mask_prefetch_i64gather_ps(high(index).m, high(mask).k, ptr, Stride, Hint);
+            }
+        }
+    }
+#endif
+
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        if constexpr (sizeof(scalar_t<Index>) == 4) {
+            return _mm512_mask_i32gather_ps(_mm512_setzero_ps(), mask.k, index.m, (const float *) ptr, Stride);
+        } else {
+            return detail::concat(
+                _mm512_mask_i64gather_ps(_mm256_setzero_ps(),  low(mask).k,  low(index).m, (const float *) ptr, Stride),
+                _mm512_mask_i64gather_ps(_mm256_setzero_ps(), high(mask).k, high(index).m, (const float *) ptr, Stride));
+        }
+    }
+
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        if constexpr (sizeof(scalar_t<Index>) == 4) {
+            _mm512_mask_i32scatter_ps(ptr, mask.k, index.m, m, Stride);
+        } else {
+            _mm512_mask_i64scatter_ps(ptr, low(mask).k,   low(index).m,  low(derived()).m,  Stride);
+            _mm512_mask_i64scatter_ps(ptr, high(mask).k, high(index).m, high(derived()).m, Stride);
+        }
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        return _mm_cvtss_f32(_mm512_castps512_ps128(_mm512_maskz_compress_ps(mask.k, m)));
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(float *&ptr, const Mask &mask) const {
+        _mm512_storeu_ps(ptr, _mm512_maskz_compress_ps(mask.k, m));
+        size_t kn = (size_t) _mm_popcnt_u32(mask.k);
+        ptr += kn;
+        return kn;
+    }
+
+#if defined(ENOKI_X86_AVX512CD)
+    template <size_t Stride, typename Index, typename Mask, typename Func, typename... Args>
+    static ENOKI_INLINE void transform_(void *mem,
+                                        Index index,
+                                        const Mask &mask,
+                                        const Func &func,
+                                        const Args &... args) {
+        Derived values = _mm512_mask_i32gather_ps(
+            _mm512_undefined_ps(), mask.k, index.m, mem, (int) Stride);
+
+        index.m = _mm512_mask_mov_epi32(_mm512_set1_epi32(-1), mask.k, index.m);
+
+        __m512i conflicts = _mm512_conflict_epi32(index.m);
+        __m512i perm_idx  = _mm512_sub_epi32(_mm512_set1_epi32(31), _mm512_lzcnt_epi32(conflicts));
+        __mmask16 todo    = _mm512_mask_test_epi32_mask(mask.k, conflicts, _mm512_set1_epi32(-1));
+
+        func(values, args...);
+
+        ENOKI_NOUNROLL while (ENOKI_UNLIKELY(!_mm512_kortestz(todo, todo))) {
+            __mmask16 cur = _mm512_mask_testn_epi32_mask(
+                todo, conflicts, _mm512_broadcastmw_epi32(todo));
+            values.m = _mm512_mask_permutexvar_ps(values.m, cur, perm_idx, values.m);
+
+            __m512 backup(values.m);
+            func(values, args...);
+
+            values.m = _mm512_mask_mov_ps(backup, cur, values.m);
+            todo = _mm512_kxor(todo, cur);
+        }
+
+        _mm512_mask_i32scatter_ps(mem, mask.k, index.m, values.m, (int) Stride);
+    }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Masked versions of key operations
+    // -----------------------------------------------------------------------
+
+    template <typename Mask>
+    ENOKI_INLINE void massign_(const Derived &a, const Mask &mask) { m = _mm512_mask_mov_ps(m, mask.k, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void madd_   (const Derived &a, const Mask &mask) { m = _mm512_mask_add_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void msub_   (const Derived &a, const Mask &mask) { m = _mm512_mask_sub_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mmul_   (const Derived &a, const Mask &mask) { m = _mm512_mask_mul_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mdiv_   (const Derived &a, const Mask &mask) { m = _mm512_mask_div_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mor_    (const Derived &a, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512DQ)
+            m = _mm512_mask_or_ps(m, mask.k, m, a.m);
+        #else
+            m = _mm512_castsi512_ps(
+                _mm512_or_si512(_mm512_castps_si512(m), mask.k,
+                                _mm512_castps_si512(m), _mm512_castps_si512(a.m)));
+        #endif
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void mand_   (const Derived &a, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512DQ)
+            m = _mm512_mask_and_ps(m, mask.k, m, a.m);
+        #else
+            m = _mm512_castsi512_ps(_mm512_and_si512(_mm512_castps_si512(m), mask.k,
+                                                     _mm512_castps_si512(m),
+                                                     _mm512_castps_si512(a.m)));
+        #endif
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void mxor_   (const Derived &a, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512DQ)
+            m = _mm512_mask_xor_ps(m, mask.k, m, a.m);
+        #else
+            m = _mm512_castsi512_ps(_mm512_xor_si512(_mm512_castps_si512(m), mask.k,
+                                                     _mm512_castps_si512(m),
+                                                     _mm512_castps_si512(a.m)));
+        #endif
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+/// Partial overload of StaticArrayImpl using AVX512 intrinsics (double precision)
+template <bool IsMask_, typename Derived_> struct alignas(64)
+    StaticArrayImpl<double, 8, IsMask_, Derived_>
+  : StaticArrayBase<double, 8, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(double, 8, __m512d)
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(const Value &value) : m(_mm512_set1_pd(value)) { }
+    ENOKI_INLINE StaticArrayImpl(Value f0, Value f1, Value f2, Value f3,
+                                 Value f4, Value f5, Value f6, Value f7)
+        : m(_mm512_setr_pd(f0, f1, f2, f3, f4, f5, f6, f7)) { }
+
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_CONVERT(half)
+        : m(_mm512_cvtps_pd(
+              _mm256_cvtph_ps(_mm_loadu_si128((const __m128i *) a.derived().data())))) { }
+
+    ENOKI_CONVERT(float) : m(_mm512_cvtps_pd(a.derived().m)) { }
+
+    ENOKI_CONVERT(double) : m(a.derived().m) { }
+
+    ENOKI_CONVERT(int32_t) : m(_mm512_cvtepi32_pd(a.derived().m)) { }
+
+    ENOKI_CONVERT(uint32_t) : m(_mm512_cvtepu32_pd(a.derived().m)) { }
+
+#if defined(ENOKI_X86_AVX512DQ)
+    ENOKI_CONVERT(int64_t)
+        : m(_mm512_cvtepi64_pd(a.derived().m)) { }
+
+    ENOKI_CONVERT(uint64_t)
+        : m(_mm512_cvtepu64_pd(a.derived().m)) { }
+#elif defined(ENOKI_X86_AVX512CD)
+    /* Emulate uint64_t -> double conversion instead of falling
+       back to scalar operations. This is quite a bit faster
+       (>5.5x for unsigned, > for signed). */
+
+    ENOKI_CONVERT(uint64_t) {
+        using Int64 = int64_array_t<Derived2>;
+
+        auto lz = lzcnt(a);
+        auto shift = (63 - 52) - Int64(lz);
+        auto abs_shift = abs(shift);
+        auto nzero_mask = neq(a, 0ull);
+        auto mant = select(shift > 0, a >> abs_shift, a << abs_shift);
+        auto exp = sl<52>(uint64_t(1023 + 63) - lz) & nzero_mask;
+        auto comb = exp | (mant & 0xfffffffffffffull);
+
+        m = reinterpret_array<Derived>(comb).m;
+    }
+
+    ENOKI_CONVERT(int64_t) {
+        auto b = abs(a), lz = lzcnt(b);
+        auto shift = (63 - 52) - lz;
+        auto abs_shift = abs(shift);
+        auto nzero_mask = neq(a, 0ll);
+        auto mant = select(shift > 0, b >> abs_shift, b << abs_shift);
+        auto sign = a & 0x8000000000000000ull;
+        auto exp = sl<52>(int64_t(1023 + 63) - lz) & nzero_mask;
+        auto comb = exp | (mant & 0xfffffffffffffull) | sign;
+
+        m = reinterpret_array<Derived>(comb).m;
+    }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+    ENOKI_REINTERPRET(double) : m(a.derived().m) { }
+
+    ENOKI_REINTERPRET(int64_t) : m(_mm512_castsi512_pd(a.derived().m)) { }
+    ENOKI_REINTERPRET(uint64_t) : m(_mm512_castsi512_pd(a.derived().m)) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m(detail::concat(a1.m, a2.m)) { }
+
+    ENOKI_INLINE Array1 low_()  const { return _mm512_castpd512_pd256(m); }
+    ENOKI_INLINE Array2 high_() const { return _mm512_extractf64x4_pd(m, 1); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return _mm512_add_pd(m, a.m); }
+    ENOKI_INLINE Derived sub_(Ref a) const { return _mm512_sub_pd(m, a.m); }
+    ENOKI_INLINE Derived mul_(Ref a) const { return _mm512_mul_pd(m, a.m); }
+    ENOKI_INLINE Derived div_(Ref a) const { return _mm512_div_pd(m, a.m); }
+
+    template <typename T> ENOKI_INLINE Derived or_(const T &a) const {
+        if constexpr (is_mask_v<T>) {
+            return _mm512_mask_mov_pd(m, a.k, _mm512_set1_pd(memcpy_cast<Value>(int64_t(-1))));
+        } else {
+            #if defined(ENOKI_X86_AVX512DQ)
+                return _mm512_or_pd(m, a.m);
+            #else
+                return _mm512_castsi512_pd(
+                    _mm512_or_si512(_mm512_castpd_si512(m), _mm512_castpd_si512(a.m)));
+            #endif
+        }
+    }
+
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const {
+        if constexpr (is_mask_v<T>) {
+            return _mm512_maskz_mov_pd(a.k, m);
+        } else {
+            #if defined(ENOKI_X86_AVX512DQ)
+                return _mm512_and_pd(m, a.m);
+            #else
+                return _mm512_castsi512_pd(
+                    _mm512_and_si512(_mm512_castpd_si512(m), _mm512_castpd_si512(a.m)));
+            #endif
+        }
+    }
+
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const {
+        if constexpr (is_mask_v<T>) {
+            return _mm512_mask_mov_pd(m, a.k, _mm512_setzero_pd());
+        } else {
+            #if defined(ENOKI_X86_AVX512DQ)
+                return _mm512_andnot_pd(a.m, m);
+            #else
+                return _mm512_castsi512_pd(
+                    _mm512_andnot_si512(_mm512_castpd_si512(a.m), _mm512_castpd_si512(m)));
+            #endif
+        }
+    }
+
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const {
+        if constexpr (is_mask_v<T>) {
+            const __m512 c = _mm512_set1_pd(memcpy_cast<Value>(int64_t(-1)));
+            #if defined(ENOKI_X86_AVX512DQ)
+                return _mm512_mask_xor_pd(m, a.k, m, c);
+            #else
+                const __m512i v0 = _mm512_castpd_si512(m);
+                return _mm512_castsi512_pd(_mm512_mask_xor_epi64(v0, a.k, v0, c));
+            #endif
+        } else {
+            #if defined(ENOKI_X86_AVX512DQ)
+                return _mm512_xor_pd(m, a.m);
+            #else
+                return _mm512_castsi512_pd(
+                    _mm512_xor_si512(_mm512_castpd_si512(m), _mm512_castpd_si512(a.m)));
+            #endif
+        }
+    }
+
+    ENOKI_INLINE auto lt_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_pd_mask(m, a.m, _CMP_LT_OQ));  }
+    ENOKI_INLINE auto gt_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_pd_mask(m, a.m, _CMP_GT_OQ));  }
+    ENOKI_INLINE auto le_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_pd_mask(m, a.m, _CMP_LE_OQ));  }
+    ENOKI_INLINE auto ge_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_pd_mask(m, a.m, _CMP_GE_OQ));  }
+    ENOKI_INLINE auto eq_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_pd_mask(m, a.m, _CMP_EQ_OQ));  }
+    ENOKI_INLINE auto neq_(Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_pd_mask(m, a.m, _CMP_NEQ_UQ)); }
+
+    ENOKI_INLINE Derived abs_() const { return andnot_(Derived(_mm512_set1_pd(-0.0))); }
+
+    ENOKI_INLINE Derived min_(Ref b) const { return _mm512_min_pd(b.m, m); }
+    ENOKI_INLINE Derived max_(Ref b) const { return _mm512_max_pd(b.m, m); }
+    ENOKI_INLINE Derived ceil_()     const { return _mm512_ceil_pd(m);     }
+    ENOKI_INLINE Derived floor_()    const { return _mm512_floor_pd(m);    }
+    ENOKI_INLINE Derived sqrt_()     const { return _mm512_sqrt_pd(m); }
+
+    template <typename T>
+    ENOKI_INLINE auto ceil2int_() const {
+        if constexpr (sizeof(scalar_t<T>) == 4) {
+            if constexpr (std::is_signed_v<scalar_t<T>>)
+                return T(_mm512_cvt_roundpd_epi32(m, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC));
+            else
+                return T(_mm512_cvt_roundpd_epu32(m, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC));
+        } else {
+            #if defined(ENOKI_X86_AVX512DQ)
+                if constexpr (std::is_signed_v<scalar_t<T>>)
+                    return T(_mm512_cvt_roundpd_epi64(m, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC));
+                else
+                    return T(_mm512_cvt_roundpd_epu64(m, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC));
+            #else
+                return Base::template ceil2int_<T>();
+            #endif
+        }
+    }
+
+    template <typename T>
+    ENOKI_INLINE auto floor2int_() const {
+        if constexpr (sizeof(scalar_t<T>) == 4) {
+            if constexpr (std::is_signed_v<scalar_t<T>>)
+                return T(_mm512_cvt_roundpd_epi32(m, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC));
+            else
+                return T(_mm512_cvt_roundpd_epu32(m, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC));
+        } else {
+            #if defined(ENOKI_X86_AVX512DQ)
+                if constexpr (std::is_signed_v<scalar_t<T>>)
+                    return T(_mm512_cvt_roundpd_epi64(m, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC));
+                else
+                    return T(_mm512_cvt_roundpd_epu64(m, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC));
+            #else
+                return Base::template floor2int_<T>();
+            #endif
+        }
+    }
+
+    ENOKI_INLINE Derived round_() const {
+        return _mm512_roundscale_pd(m, _MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC);
+    }
+
+    ENOKI_INLINE Derived trunc_() const {
+        return _mm512_roundscale_pd(m, _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC);
+    }
+
+    ENOKI_INLINE Derived fmadd_   (Ref b, Ref c) const { return _mm512_fmadd_pd   (m, b.m, c.m); }
+    ENOKI_INLINE Derived fmsub_   (Ref b, Ref c) const { return _mm512_fmsub_pd   (m, b.m, c.m); }
+    ENOKI_INLINE Derived fnmadd_  (Ref b, Ref c) const { return _mm512_fnmadd_pd  (m, b.m, c.m); }
+    ENOKI_INLINE Derived fnmsub_  (Ref b, Ref c) const { return _mm512_fnmsub_pd  (m, b.m, c.m); }
+    ENOKI_INLINE Derived fmsubadd_(Ref b, Ref c) const { return _mm512_fmsubadd_pd(m, b.m, c.m); }
+    ENOKI_INLINE Derived fmaddsub_(Ref b, Ref c) const { return _mm512_fmaddsub_pd(m, b.m, c.m); }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived select_(const Mask &m, Ref t, Ref f) {
+        return _mm512_mask_blend_pd(m.k, f.m, t.m);
+    }
+
+    template <size_t I0, size_t I1, size_t I2, size_t I3, size_t I4, size_t I5,
+              size_t I6, size_t I7>
+    ENOKI_INLINE Derived shuffle_() const {
+        const __m512i idx =
+            _mm512_setr_epi64(I0, I1, I2, I3, I4, I5, I6, I7);
+        return _mm512_permutexvar_pd(idx, m);
+    }
+
+    template <typename Index> ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        return _mm512_permutexvar_pd(index.m, m);
+    }
+
+    ENOKI_INLINE Derived rcp_() const {
+        /* Use best reciprocal approximation available on the current
+           hardware and refine */
+        __m512d r;
+
+        #if defined(ENOKI_X86_AVX512ER)
+            r = _mm512_rcp28_pd(m); /* rel err < 2^28 */
+        #else
+            r = _mm512_rcp14_pd(m); /* rel error < 2^-14 */
+        #endif
+
+        /* Refine using 1-2 Newton-Raphson iterations */
+        ENOKI_UNROLL for (int i = 0; i < (has_avx512er ? 1 : 2); ++i) {
+            __m512d t0 = _mm512_add_pd(r, r);
+            __m512d t1 = _mm512_mul_pd(r, m);
+
+            r = _mm512_fnmadd_pd(t1, r, t0);
+        }
+
+        return _mm512_fixupimm_pd(r, m,
+            _mm512_set1_epi32(0x0087A622), 0);
+    }
+
+    ENOKI_INLINE Derived rsqrt_() const {
+        /* Use best reciprocal square root approximation available
+           on the current hardware and refine */
+        __m512d r;
+        #if defined(ENOKI_X86_AVX512ER)
+            r = _mm512_rsqrt28_pd(m); /* rel err < 2^28 */
+        #else
+            r = _mm512_rsqrt14_pd(m); /* rel error < 2^-14 */
+        #endif
+
+        const __m512d c0 = _mm512_set1_pd(0.5),
+                      c1 = _mm512_set1_pd(3.0);
+
+        /* Refine using 1-2 Newton-Raphson iterations */
+        ENOKI_UNROLL for (int i = 0; i < (has_avx512er ? 1 : 2); ++i) {
+            __m512d t0 = _mm512_mul_pd(r, c0);
+            __m512d t1 = _mm512_mul_pd(r, m);
+
+            r = _mm512_mul_pd(_mm512_fnmadd_pd(t1, r, c1), t0);
+        }
+
+        return _mm512_fixupimm_pd(r, m,
+            _mm512_set1_epi32(0x0383A622), 0);
+    }
+
+
+    ENOKI_INLINE Derived ldexp_(Ref arg) const { return _mm512_scalef_pd(m, arg.m); }
+
+    ENOKI_INLINE std::pair<Derived, Derived> frexp_() const {
+        return std::make_pair<Derived, Derived>(
+            _mm512_getmant_pd(m, _MM_MANT_NORM_p5_1, _MM_MANT_SIGN_src),
+            _mm512_getexp_pd(m));
+    }
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Value hsum_()  const { return hsum(low_() + high_()); }
+    ENOKI_INLINE Value hprod_() const { return hprod(low_() * high_()); }
+    ENOKI_INLINE Value hmin_()  const { return hmin(min(low_(), high_())); }
+    ENOKI_INLINE Value hmax_()  const { return hmax(max(low_(), high_())); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        assert((uintptr_t) ptr % 64 == 0);
+        _mm512_store_pd((Value *) ENOKI_ASSUME_ALIGNED(ptr, 64), m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        assert((uintptr_t) ptr % 64 == 0);
+        _mm512_mask_store_pd((Value *) ENOKI_ASSUME_ALIGNED(ptr, 64), mask.k, m);
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        _mm512_storeu_pd((Value *) ptr, m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        _mm512_mask_storeu_pd((Value *) ptr, mask.k, m);
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        assert((uintptr_t) ptr % 64 == 0);
+        return _mm512_load_pd((const Value *) ENOKI_ASSUME_ALIGNED(ptr, 64));
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        assert((uintptr_t) ptr % 64 == 0);
+        return _mm512_maskz_load_pd(mask.k, (const Value *) ENOKI_ASSUME_ALIGNED(ptr, 64));
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return _mm512_loadu_pd((const Value *) ptr);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        return _mm512_maskz_loadu_pd(mask.k, (const Value *) ptr);
+    }
+
+    static ENOKI_INLINE Derived zero_() { return _mm512_setzero_pd(); }
+
+#if defined(ENOKI_X86_AVX512PF)
+    template <bool Write, size_t Level, size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE void prefetch_(const void *ptr, const Index &index, const Mask &mask) {
+        constexpr auto Hint = Level == 1 ? _MM_HINT_T0 : _MM_HINT_T1;
+        if constexpr (sizeof(scalar_t<Index>) == 4) {
+            if (Write)
+                _mm512_mask_prefetch_i32scatter_pd((void *) ptr, mask.k, index.m, Stride, Hint);
+            else
+                _mm512_mask_prefetch_i32gather_pd(index.m, mask.k, ptr, Stride, Hint);
+        } else {
+            if (Write)
+                _mm512_mask_prefetch_i64scatter_pd((void *) ptr, mask.k, index.m, Stride, Hint);
+            else
+                _mm512_mask_prefetch_i64gather_pd(index.m, mask.k, ptr, Stride, Hint);
+        }
+    }
+#endif
+
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        if constexpr (sizeof(scalar_t<Index>) == 4)
+            return _mm512_mask_i32gather_pd(_mm512_setzero_pd(), mask.k, index.m, (const double *) ptr, Stride);
+        else
+            return _mm512_mask_i64gather_pd(_mm512_setzero_pd(), mask.k, index.m, (const double *) ptr, Stride);
+    }
+
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        if constexpr (sizeof(scalar_t<Index>) == 4)
+            _mm512_mask_i32scatter_pd(ptr, mask.k, index.m, m, Stride);
+        else
+            _mm512_mask_i64scatter_pd(ptr, mask.k, index.m, m, Stride);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        return _mm_cvtsd_f64(_mm512_castpd512_pd128(_mm512_maskz_compress_pd(mask.k, m)));
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(double *&ptr, const Mask &mask) const {
+        _mm512_storeu_pd(ptr, _mm512_maskz_compress_pd(mask.k, m));
+        size_t kn = (size_t) _mm_popcnt_u32(mask.k);
+        ptr += kn;
+        return kn;
+    }
+
+#if defined(ENOKI_X86_AVX512CD)
+    template <size_t Stride, typename Index, typename Mask, typename Func, typename... Args>
+    static ENOKI_INLINE void transform_(void *mem,
+                                        Index index,
+                                        const Mask &mask,
+                                        const Func &func,
+                                        const Args &... args) {
+        Derived values = _mm512_mask_i64gather_pd(
+            _mm512_undefined_pd(), mask.k, index.m, mem, (int) Stride);
+
+        index.m = _mm512_mask_mov_epi64(_mm512_set1_epi64(-1), mask.k, index.m);
+
+        __m512i conflicts = _mm512_conflict_epi64(index.m);
+        __m512i perm_idx  = _mm512_sub_epi64(_mm512_set1_epi64(63), _mm512_lzcnt_epi64(conflicts));
+        __mmask8 todo     = _mm512_mask_test_epi64_mask(mask.k, conflicts, _mm512_set1_epi64(-1));
+
+        func(values, args...);
+
+        ENOKI_NOUNROLL while (ENOKI_UNLIKELY(todo)) {
+            __mmask8 cur = _mm512_mask_testn_epi64_mask(
+                todo, conflicts, _mm512_broadcastmb_epi64(todo));
+            values.m = _mm512_mask_permutexvar_pd(values.m, cur, perm_idx, values.m);
+
+            __m512d backup(values.m);
+            func(values, args...);
+
+            values.m = _mm512_mask_mov_pd(backup, cur, values.m);
+            todo ^= cur;
+        }
+
+        _mm512_mask_i64scatter_pd(mem, mask.k, index.m, values.m, (int) Stride);
+    }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Masked versions of key operations
+    // -----------------------------------------------------------------------
+
+    template <typename Mask>
+    ENOKI_INLINE void massign_(const Derived &a, const Mask &mask) { m = _mm512_mask_mov_pd(m, mask.k, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void madd_   (const Derived &a, const Mask &mask) { m = _mm512_mask_add_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void msub_   (const Derived &a, const Mask &mask) { m = _mm512_mask_sub_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mmul_   (const Derived &a, const Mask &mask) { m = _mm512_mask_mul_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mdiv_   (const Derived &a, const Mask &mask) { m = _mm512_mask_div_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mor_    (const Derived &a, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512DQ)
+            m = _mm512_mask_or_pd(m, mask.k, m, a.m);
+        #else
+            m = _mm512_castsi512_pd(_mm512_or_si512(_mm512_castpd_si512(m), mask.k,
+                                                    _mm512_castpd_si512(m),
+                                                    _mm512_castpd_si512(a.m)));
+        #endif
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void mand_   (const Derived &a, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512DQ)
+            m = _mm512_mask_and_pd(m, mask.k, m, a.m);
+        #else
+            m = _mm512_castsi512_pd(_mm512_and_si512(_mm512_castpd_si512(m), mask.k,
+                                                     _mm512_castpd_si512(m),
+                                                     _mm512_castpd_si512(a.m)));
+        #endif
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void mxor_   (const Derived &a, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512DQ)
+            m = _mm512_mask_xor_pd(m, mask.k, m, a.m);
+        #else
+            m = _mm512_castsi512_pd(_mm512_xor_si512(_mm512_castpd_si512(m), mask.k,
+                                                     _mm512_castpd_si512(m),
+                                                     _mm512_castpd_si512(a.m)));
+        #endif
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+/// Partial overload of StaticArrayImpl using AVX512 intrinsics (32 bit integers)
+template <typename Value_, bool IsMask_, typename Derived_> struct alignas(64)
+    StaticArrayImpl<Value_, 16, IsMask_, Derived_, enable_if_int32_t<Value_>>
+  : StaticArrayBase<Value_, 16, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(Value_, 16, __m512i)
+
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(Value value) : m(_mm512_set1_epi32((int32_t) value)) { }
+
+    ENOKI_INLINE StaticArrayImpl(Value f0,  Value f1,  Value f2,  Value f3,
+                                 Value f4,  Value f5,  Value f6,  Value f7,
+                                 Value f8,  Value f9,  Value f10, Value f11,
+                                 Value f12, Value f13, Value f14, Value f15)
+        : m(_mm512_setr_epi32(
+              (int32_t) f0,  (int32_t) f1,  (int32_t) f2,  (int32_t) f3,
+              (int32_t) f4,  (int32_t) f5,  (int32_t) f6,  (int32_t) f7,
+              (int32_t) f8,  (int32_t) f9,  (int32_t) f10, (int32_t) f11,
+              (int32_t) f12, (int32_t) f13, (int32_t) f14, (int32_t) f15)) { }
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_CONVERT(int32_t) : m(a.derived().m) { }
+    ENOKI_CONVERT(uint32_t) : m(a.derived().m) { }
+
+    ENOKI_CONVERT(float) {
+        m = std::is_signed_v<Value> ? _mm512_cvttps_epi32(a.derived().m)
+                                    : _mm512_cvttps_epu32(a.derived().m);
+    }
+
+    ENOKI_CONVERT(double) {
+        m = std::is_signed_v<Value>
+                ? detail::concat(_mm512_cvttpd_epi32(low(a).m),
+                                 _mm512_cvttpd_epi32(high(a).m))
+                : detail::concat(_mm512_cvttpd_epu32(low(a).m),
+                                 _mm512_cvttpd_epu32(high(a).m));
+    }
+
+    ENOKI_CONVERT(int64_t)
+        : m(detail::concat(_mm512_cvtepi64_epi32(low(a).m),
+                           _mm512_cvtepi64_epi32(high(a).m))) { }
+
+    ENOKI_CONVERT(uint64_t)
+        : m(detail::concat(_mm512_cvtepi64_epi32(low(a).m),
+                           _mm512_cvtepi64_epi32(high(a).m))) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+    ENOKI_REINTERPRET(float) : m(_mm512_castps_si512(a.derived().m)) { }
+    ENOKI_REINTERPRET(int32_t) : m(a.derived().m) { }
+    ENOKI_REINTERPRET(uint32_t) : m(a.derived().m) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m(detail::concat(a1.m, a2.m)) { }
+
+    ENOKI_INLINE Array1 low_()  const { return _mm512_castsi512_si256(m); }
+    ENOKI_INLINE Array2 high_() const {
+        #if defined(ENOKI_X86_AVX512DQ)
+            return _mm512_extracti32x8_epi32(m, 1);
+        #else
+            return _mm512_extracti64x4_epi64(m, 1);
+        #endif
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return _mm512_add_epi32(m, a.m); }
+    ENOKI_INLINE Derived sub_(Ref a) const { return _mm512_sub_epi32(m, a.m); }
+    ENOKI_INLINE Derived mul_(Ref a) const { return _mm512_mullo_epi32(m, a.m); }
+
+    template <typename T>
+    ENOKI_INLINE Derived or_ (const T &a) const {
+        if constexpr (is_mask_v<T>)
+            return _mm512_mask_mov_epi32(m, a.k, _mm512_set1_epi32(int32_t(-1)));
+        else
+            return _mm512_or_epi32(m, a.m);
+    }
+
+    template <typename T>
+    ENOKI_INLINE Derived and_ (const T &a) const {
+        if constexpr (is_mask_v<T>)
+            return _mm512_maskz_mov_epi32(a.k, m);
+        else
+            return _mm512_and_epi32(m, a.m);
+    }
+
+    template <typename T>
+    ENOKI_INLINE Derived andnot_ (const T &a) const {
+        if constexpr (is_mask_v<T>)
+            return _mm512_mask_mov_epi32(m, a.k, _mm512_setzero_si512());
+        else
+            return _mm512_andnot_epi32(m, a.m);
+    }
+
+    template <typename T>
+    ENOKI_INLINE Derived xor_ (const T &a) const {
+        if constexpr (is_mask_v<T>)
+            return _mm512_mask_xor_epi32(m, a.k, m, _mm512_set1_epi32(int32_t(-1)));
+        else
+            return _mm512_xor_epi32(m, a.m);
+    }
+
+    template <size_t k> ENOKI_INLINE Derived sl_() const {
+        return _mm512_slli_epi32(m, (int) k);
+    }
+
+    template <size_t k> ENOKI_INLINE Derived sr_() const {
+        return std::is_signed_v<Value> ? _mm512_srai_epi32(m, (int) k)
+                                       : _mm512_srli_epi32(m, (int) k);
+    }
+
+    ENOKI_INLINE Derived sl_(size_t k) const {
+        return _mm512_sll_epi32(m, _mm_set1_epi64x((long long) k));
+    }
+
+    ENOKI_INLINE Derived sr_(size_t k) const {
+        return std::is_signed_v<Value>
+                   ? _mm512_sra_epi32(m, _mm_set1_epi64x((long long) k))
+                   : _mm512_srl_epi32(m, _mm_set1_epi64x((long long) k));
+    }
+
+    ENOKI_INLINE Derived sl_(Ref k) const {
+        return _mm512_sllv_epi32(m, k.m);
+    }
+
+    ENOKI_INLINE Derived sr_(Ref k) const {
+        return std::is_signed_v<Value> ? _mm512_srav_epi32(m, k.m)
+                                       : _mm512_srlv_epi32(m, k.m);
+    }
+
+    ENOKI_INLINE Derived rol_(Ref k) const { return _mm512_rolv_epi32(m, k.m); }
+    ENOKI_INLINE Derived ror_(Ref k) const { return _mm512_rorv_epi32(m, k.m); }
+
+    template <size_t Imm>
+    ENOKI_INLINE Derived rol_() const { return _mm512_rol_epi32(m, (int) Imm); }
+
+    template <size_t Imm>
+    ENOKI_INLINE Derived ror_() const { return _mm512_ror_epi32(m, (int) Imm); }
+
+    ENOKI_INLINE auto lt_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_epi32_mask(m, a.m, _MM_CMPINT_LT));  }
+    ENOKI_INLINE auto gt_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_epi32_mask(m, a.m, _MM_CMPINT_GT));  }
+    ENOKI_INLINE auto le_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_epi32_mask(m, a.m, _MM_CMPINT_LE));  }
+    ENOKI_INLINE auto ge_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_epi32_mask(m, a.m, _MM_CMPINT_GE));  }
+    ENOKI_INLINE auto eq_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_epi32_mask(m, a.m, _MM_CMPINT_EQ));  }
+    ENOKI_INLINE auto neq_(Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_epi32_mask(m, a.m, _MM_CMPINT_NE)); }
+
+    ENOKI_INLINE Derived min_(Ref a) const {
+        return std::is_signed_v<Value> ? _mm512_min_epi32(a.m, m)
+                                       : _mm512_min_epu32(a.m, m);
+    }
+
+    ENOKI_INLINE Derived max_(Ref a) const {
+        return std::is_signed_v<Value> ? _mm512_max_epi32(a.m, m)
+                                       : _mm512_max_epu32(a.m, m);
+    }
+
+    ENOKI_INLINE Derived abs_() const {
+        return std::is_signed_v<Value> ? _mm512_abs_epi32(m) : m;
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived select_(const Mask &m, Ref t, Ref f) {
+        return _mm512_mask_blend_epi32(m.k, f.m, t.m);
+    }
+
+    template <size_t I0,  size_t I1,  size_t I2,  size_t I3,  size_t I4,
+              size_t I5,  size_t I6,  size_t I7,  size_t I8,  size_t I9,
+              size_t I10, size_t I11, size_t I12, size_t I13, size_t I14,
+              size_t I15>
+    ENOKI_INLINE Derived shuffle_() const {
+        const __m512i idx =
+            _mm512_setr_epi32(I0, I1, I2, I3, I4, I5, I6, I7, I8,
+                              I9, I10, I11, I12, I13, I14, I15);
+        return _mm512_permutexvar_epi32(idx, m);
+    }
+
+    template <typename Index> ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        return _mm512_permutexvar_epi32(index.m, m);
+    }
+
+    ENOKI_INLINE Derived mulhi_(Ref a) const {
+        auto blend = mask_t<Derived>::from_k(0b0101010101010101);
+        Derived even, odd;
+
+        if constexpr (std::is_signed_v<Value>) {
+            even.m = _mm512_srli_epi64(_mm512_mul_epi32(m, a.m), 32);
+            odd.m = _mm512_mul_epi32(_mm512_srli_epi64(m, 32),
+                                     _mm512_srli_epi64(a.m, 32));
+        } else {
+            even.m = _mm512_srli_epi64(_mm512_mul_epu32(m, a.m), 32);
+            odd.m = _mm512_mul_epu32(_mm512_srli_epi64(m, 32),
+                                     _mm512_srli_epi64(a.m, 32));
+        }
+
+        return select(blend, even, odd);
+    }
+
+#if defined(ENOKI_X86_AVX512CD)
+    ENOKI_INLINE Derived lzcnt_() const { return _mm512_lzcnt_epi32(m); }
+    ENOKI_INLINE Derived tzcnt_() const { return Value(32) - lzcnt(~derived() & (derived() - Value(1))); }
+#endif
+
+#if defined(ENOKI_X86_AVX512VPOPCNTDQ)
+    ENOKI_INLINE Derived popcnt_() const { return _mm512_popcnt_epi32(m); }
+#endif
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Value hsum_()  const { return hsum(low_() + high_()); }
+    ENOKI_INLINE Value hprod_() const { return hprod(low_() * high_()); }
+    ENOKI_INLINE Value hmin_()  const { return hmin(min(low_(), high_())); }
+    ENOKI_INLINE Value hmax_()  const { return hmax(max(low_(), high_())); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+    //
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        assert((uintptr_t) ptr % 64 == 0);
+        _mm512_store_si512((__m512i *) ENOKI_ASSUME_ALIGNED(ptr, 64), m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        assert((uintptr_t) ptr % 64 == 0);
+        _mm512_mask_store_epi32((__m512i *) ENOKI_ASSUME_ALIGNED(ptr, 64), mask.k, m);
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        _mm512_storeu_si512((__m512i *) ptr, m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        _mm512_mask_storeu_epi32((__m512i *) ptr, mask.k, m);
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        assert((uintptr_t) ptr % 64 == 0);
+        return _mm512_load_si512((const __m512i *) ENOKI_ASSUME_ALIGNED(ptr, 64));
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        assert((uintptr_t) ptr % 64 == 0);
+        return _mm512_maskz_load_epi32(mask.k, (const __m512i *) ENOKI_ASSUME_ALIGNED(ptr, 64));
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return _mm512_loadu_si512((const __m512i *) ptr);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        return _mm512_maskz_loadu_epi32(mask.k, (const __m512i *) ptr);
+    }
+
+    static ENOKI_INLINE Derived zero_() { return _mm512_setzero_si512(); }
+
+#if defined(ENOKI_X86_AVX512PF)
+    template <bool Write, size_t Level, size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE void prefetch_(const void *ptr, const Index &index, const Mask &mask) {
+        constexpr auto Hint = Level == 1 ? _MM_HINT_T0 : _MM_HINT_T1;
+
+        if constexpr (sizeof(scalar_t<Index>) == 4) {
+            if (Write)
+                _mm512_mask_prefetch_i32scatter_ps((void *) ptr, mask.k, index.m, Stride, Hint);
+            else
+                _mm512_mask_prefetch_i32gather_ps(index.m, mask.k, ptr, Stride, Hint);
+        } else {
+            if (Write) {
+                _mm512_mask_prefetch_i64scatter_ps((void *) ptr, low(mask).k, low(index).m, Stride, Hint);
+                _mm512_mask_prefetch_i64scatter_ps((void *) ptr, high(mask).k, high(index).m, Stride, Hint);
+            } else {
+                _mm512_mask_prefetch_i64gather_ps(low(index).m, low(mask).k, ptr, Stride, Hint);
+                _mm512_mask_prefetch_i64gather_ps(high(index).m, high(mask).k, ptr, Stride, Hint);
+            }
+        }
+    }
+#endif
+
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        if constexpr (sizeof(scalar_t<Index>) == 4) {
+            return _mm512_mask_i32gather_epi32(_mm512_setzero_si512(), mask.k, index.m, (const float *) ptr, Stride);
+        } else {
+            return detail::concat(
+                _mm512_mask_i64gather_epi32(_mm256_setzero_si256(),  low(mask).k,  low(index).m, (const float *) ptr, Stride),
+                _mm512_mask_i64gather_epi32(_mm256_setzero_si256(), high(mask).k, high(index).m, (const float *) ptr, Stride));
+        }
+    }
+
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        if constexpr (sizeof(scalar_t<Index>) == 4) {
+            _mm512_mask_i32scatter_epi32(ptr, mask.k, index.m, m, Stride);
+        } else {
+            _mm512_mask_i64scatter_epi32(ptr, low(mask).k,   low(index).m,  low(derived()).m,  Stride);
+            _mm512_mask_i64scatter_epi32(ptr, high(mask).k, high(index).m, high(derived()).m, Stride);
+        }
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        return (Value) _mm_cvtsi128_si32(_mm512_castsi512_si128(_mm512_maskz_compress_epi32(mask.k, m)));
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(Value_ *&ptr, const Mask &mask) const {
+        _mm512_storeu_si512((__m512i *) ptr, _mm512_maskz_compress_epi32(mask.k, m));
+        size_t kn = (size_t) _mm_popcnt_u32(mask.k);
+        ptr += kn;
+        return kn;
+    }
+
+#if defined(ENOKI_X86_AVX512CD)
+    template <size_t Stride, typename Index, typename Mask, typename Func, typename... Args>
+    static ENOKI_INLINE void transform_(void *mem,
+                                        Index index,
+                                        const Mask &mask,
+                                        const Func &func,
+                                        const Args &... args) {
+        Derived values = _mm512_mask_i32gather_epi32(
+            _mm512_undefined_epi32(), mask.k, index.m, mem, (int) Stride);
+
+        index.m = _mm512_mask_mov_epi32(_mm512_set1_epi32(-1), mask.k, index.m);
+
+        __m512i conflicts = _mm512_conflict_epi32(index.m);
+        __m512i perm_idx  = _mm512_sub_epi32(_mm512_set1_epi32(31), _mm512_lzcnt_epi32(conflicts));
+        __mmask16 todo    = _mm512_mask_test_epi32_mask(mask.k, conflicts, _mm512_set1_epi32(-1));
+
+        func(values, args...);
+
+        ENOKI_NOUNROLL while (ENOKI_UNLIKELY(!_mm512_kortestz(todo, todo))) {
+            __mmask16 cur = _mm512_mask_testn_epi32_mask(
+                todo, conflicts, _mm512_broadcastmw_epi32(todo));
+            values.m = _mm512_mask_permutexvar_epi32(values.m, cur, perm_idx, values.m);
+
+            __m512i backup(values.m);
+            func(values, args...);
+
+            values.m = _mm512_mask_mov_epi32(backup, cur, values.m);
+            todo = _mm512_kxor(todo, cur);
+        }
+
+        _mm512_mask_i32scatter_epi32(mem, mask.k, index.m, values.m, (int) Stride);
+    }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Masked versions of key operations
+    // -----------------------------------------------------------------------
+
+    template <typename Mask>
+    ENOKI_INLINE void massign_(const Derived &a, const Mask &mask) { m = _mm512_mask_mov_epi32(m, mask.k, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void madd_   (const Derived &a, const Mask &mask) { m = _mm512_mask_add_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void msub_   (const Derived &a, const Mask &mask) { m = _mm512_mask_sub_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mmul_   (const Derived &a, const Mask &mask) { m = _mm512_mask_mullo_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mor_    (const Derived &a, const Mask &mask) { m = _mm512_mask_or_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mand_   (const Derived &a, const Mask &mask) { m = _mm512_mask_and_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mxor_   (const Derived &a, const Mask &mask) { m = _mm512_mask_xor_epi32(m, mask.k, m, a.m); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+/// Partial overload of StaticArrayImpl using AVX512 intrinsics (64 bit integers)
+template <typename Value_, bool IsMask_, typename Derived_> struct alignas(64)
+    StaticArrayImpl<Value_, 8, IsMask_, Derived_, enable_if_int64_t<Value_>>
+  : StaticArrayBase<Value_, 8, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(Value_, 8, __m512i)
+
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(const Value &value) : m(_mm512_set1_epi64((long long) value)) { }
+    ENOKI_INLINE StaticArrayImpl(Value f0, Value f1, Value f2, Value f3,
+                                 Value f4, Value f5, Value f6, Value f7)
+        : m(_mm512_setr_epi64((long long) f0, (long long) f1, (long long) f2,
+                              (long long) f3, (long long) f4, (long long) f5,
+                              (long long) f6, (long long) f7)) { }
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_AVX512DQ)
+    ENOKI_CONVERT(float) {
+        m = std::is_signed_v<Value> ? _mm512_cvttps_epi64(a.derived().m)
+                                    : _mm512_cvttps_epu64(a.derived().m);
+    }
+#else
+    /* Emulate float -> uint64 conversion instead of falling
+       back to scalar operations. This is quite a bit faster (~4x!) */
+
+    ENOKI_CONVERT(float) {
+        using Int32  = int_array_t<Derived2>;
+        using UInt32 = uint_array_t<Derived2>;
+        using UInt64 = uint64_array_t<Derived2>;
+
+        /* Shift out sign bit */
+        auto b = reinterpret_array<UInt32>(a);
+        b += b;
+
+        auto mant = UInt64((b & 0xffffffu) | 0x1000000u);
+        auto shift = (24 + 127) - Int32(sr<24>(b));
+        auto abs_shift = UInt64(abs(shift));
+
+        auto result = select(shift > 0, mant >> abs_shift, mant << abs_shift);
+
+        if constexpr (std::is_signed_v<Value>)
+            result[a < 0] = -result;
+
+        m = result.m;
+    }
+#endif
+
+    ENOKI_CONVERT(int32_t)
+        : m(_mm512_cvtepi32_epi64(a.derived().m)) { }
+
+    ENOKI_CONVERT(uint32_t)
+        : m(_mm512_cvtepu32_epi64(a.derived().m)) { }
+
+#if defined(ENOKI_X86_AVX512DQ)
+    ENOKI_CONVERT(double) {
+        m = std::is_signed_v<Value> ? _mm512_cvttpd_epi64(a.derived().m)
+                                    : _mm512_cvttpd_epu64(a.derived().m);
+    }
+#else
+    /* Emulate double -> uint64 conversion instead of falling
+       back to scalar operations. This is quite a bit faster (>~11x!) */
+
+    ENOKI_CONVERT(double) {
+        using Int64  = int_array_t<Derived2>;
+        using UInt64 = uint_array_t<Derived2>;
+
+        /* Shift out sign bit */
+        auto b = reinterpret_array<UInt64>(a);
+        b += b;
+
+        auto mant = (b & 0x1fffffffffffffull) | 0x20000000000000ull;
+        auto shift = (53 + 1023) - Int64(sr<53>(b));
+        auto abs_shift = UInt64(abs(shift));
+
+        auto result = select(shift > 0, mant >> abs_shift, mant << abs_shift);
+
+        if constexpr (std::is_signed_v<Value>)
+            result[a < 0] = -result;
+
+        m = result.m;
+    }
+#endif
+
+    ENOKI_CONVERT(int64_t) : m(a.derived().m) { }
+    ENOKI_CONVERT(uint64_t) : m(a.derived().m) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+    ENOKI_REINTERPRET(double) : m(_mm512_castpd_si512(a.derived().m)) { }
+    ENOKI_REINTERPRET(int64_t) : m(a.derived().m) { }
+    ENOKI_REINTERPRET(uint64_t) : m(a.derived().m) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m(detail::concat(a1.m, a2.m)) { }
+
+    ENOKI_INLINE Array1 low_()  const { return _mm512_castsi512_si256(m); }
+    ENOKI_INLINE Array2 high_() const { return _mm512_extracti64x4_epi64(m, 1); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return _mm512_add_epi64(m, a.m); }
+    ENOKI_INLINE Derived sub_(Ref a) const { return _mm512_sub_epi64(m, a.m); }
+
+    ENOKI_INLINE Derived mul_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+            return _mm512_mullo_epi64(m, a.m);
+        #else
+            __m512i h0    = _mm512_srli_epi64(m, 32);
+            __m512i h1    = _mm512_srli_epi64(a.m, 32);
+            __m512i low   = _mm512_mul_epu32(m, a.m);
+            __m512i mix0  = _mm512_mul_epu32(m, h1);
+            __m512i mix1  = _mm512_mul_epu32(h0, a.m);
+            __m512i mix   = _mm512_add_epi64(mix0, mix1);
+            __m512i mix_s = _mm512_slli_epi64(mix, 32);
+            return  _mm512_add_epi64(mix_s, low);
+        #endif
+    }
+
+    template <typename T>
+    ENOKI_INLINE Derived or_ (const T &a) const {
+        if constexpr (is_mask_v<T>)
+            return _mm512_mask_mov_epi64(m, a.k, _mm512_set1_epi64(int64_t(-1)));
+        else
+            return _mm512_or_epi64(m, a.m);
+    }
+
+    template <typename T>
+    ENOKI_INLINE Derived and_ (const T &a) const {
+        if constexpr (is_mask_v<T>)
+            return _mm512_maskz_mov_epi64(a.k, m);
+        else
+            return _mm512_and_epi64(m, a.m);
+    }
+
+    template <typename T>
+    ENOKI_INLINE Derived andnot_ (const T &a) const {
+        if constexpr (is_mask_v<T>)
+            return _mm512_mask_mov_epi64(m, a.k, _mm512_setzero_si512());
+        else
+            return _mm512_andnot_epi64(m, a.m);
+    }
+
+    template <typename T>
+    ENOKI_INLINE Derived xor_ (const T &a) const {
+        if constexpr (is_mask_v<T>)
+            return _mm512_mask_xor_epi64(m, a.k, m, _mm512_set1_epi64(int64_t(-1)));
+        else
+            return _mm512_xor_epi64(m, a.m);
+    }
+
+    template <size_t k> ENOKI_INLINE Derived sl_() const {
+        return _mm512_slli_epi64(m, (int) k);
+    }
+
+    template <size_t k> ENOKI_INLINE Derived sr_() const {
+        return std::is_signed_v<Value> ? _mm512_srai_epi64(m, (int) k)
+                                       : _mm512_srli_epi64(m, (int) k);
+    }
+
+    ENOKI_INLINE Derived sl_(size_t k) const {
+        return _mm512_sll_epi64(m, _mm_set1_epi64x((long long) k));
+    }
+
+    ENOKI_INLINE Derived sr_(size_t k) const {
+        return std::is_signed_v<Value>
+                   ? _mm512_sra_epi64(m, _mm_set1_epi64x((long long) k))
+                   : _mm512_srl_epi64(m, _mm_set1_epi64x((long long) k));
+    }
+
+    ENOKI_INLINE Derived sl_(Ref k) const {
+        return _mm512_sllv_epi64(m, k.m);
+    }
+
+    ENOKI_INLINE Derived sr_(Ref k) const {
+        return std::is_signed_v<Value> ? _mm512_srav_epi64(m, k.m)
+                                       : _mm512_srlv_epi64(m, k.m);
+    }
+
+    ENOKI_INLINE Derived rol_(Ref k) const { return _mm512_rolv_epi64(m, k.m); }
+    ENOKI_INLINE Derived ror_(Ref k) const { return _mm512_rorv_epi64(m, k.m); }
+
+    template <size_t Imm>
+    ENOKI_INLINE Derived rol_() const { return _mm512_rol_epi64(m, (int) Imm); }
+
+    template <size_t Imm>
+    ENOKI_INLINE Derived ror_() const { return _mm512_ror_epi64(m, (int) Imm); }
+
+    ENOKI_INLINE auto lt_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_epi64_mask(m, a.m, _MM_CMPINT_LT)); }
+    ENOKI_INLINE auto gt_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_epi64_mask(m, a.m, _MM_CMPINT_GT)); }
+    ENOKI_INLINE auto le_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_epi64_mask(m, a.m, _MM_CMPINT_LE)); }
+    ENOKI_INLINE auto ge_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_epi64_mask(m, a.m, _MM_CMPINT_GE)); }
+    ENOKI_INLINE auto eq_ (Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_epi64_mask(m, a.m, _MM_CMPINT_EQ)); }
+    ENOKI_INLINE auto neq_(Ref a) const { return mask_t<Derived>::from_k(_mm512_cmp_epi64_mask(m, a.m, _MM_CMPINT_NE)); }
+
+    ENOKI_INLINE Derived min_(Ref a) const {
+        return std::is_signed_v<Value> ? _mm512_min_epi64(a.m, m)
+                                       : _mm512_min_epu64(a.m, m);
+    }
+
+    ENOKI_INLINE Derived max_(Ref a) const {
+        return std::is_signed_v<Value> ? _mm512_max_epi64(a.m, m)
+                                       : _mm512_max_epu64(a.m, m);
+    }
+
+    ENOKI_INLINE Derived abs_() const {
+        return std::is_signed_v<Value> ? _mm512_abs_epi64(m) : m;
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived select_(const Mask &m, Ref t, Ref f) {
+        return _mm512_mask_blend_epi64(m.k, f.m, t.m);
+    }
+
+    template <size_t I0, size_t I1, size_t I2, size_t I3, size_t I4, size_t I5,
+              size_t I6, size_t I7>
+    ENOKI_INLINE Derived shuffle_() const {
+        const __m512i idx =
+            _mm512_setr_epi64(I0, I1, I2, I3, I4, I5, I6, I7);
+        return _mm512_permutexvar_epi64(idx, m);
+    }
+
+    template <typename Index> ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        return _mm512_permutexvar_epi64(index.m, m);
+    }
+
+    ENOKI_INLINE Derived mulhi_(Ref b) const {
+        if (std::is_unsigned_v<Value>) {
+            const __m512i low_bits = _mm512_set1_epi64(0xffffffffu);
+            __m512i al = m, bl = b.m;
+            __m512i ah = _mm512_srli_epi64(al, 32);
+            __m512i bh = _mm512_srli_epi64(bl, 32);
+
+            // 4x unsigned 32x32->64 bit multiplication
+            __m512i albl = _mm512_mul_epu32(al, bl);
+            __m512i albh = _mm512_mul_epu32(al, bh);
+            __m512i ahbl = _mm512_mul_epu32(ah, bl);
+            __m512i ahbh = _mm512_mul_epu32(ah, bh);
+
+            // Calculate a possible carry from the low bits of the multiplication.
+            __m512i carry = _mm512_add_epi64(
+                _mm512_srli_epi64(albl, 32),
+                _mm512_add_epi64(_mm512_and_epi64(albh, low_bits),
+                                 _mm512_and_epi64(ahbl, low_bits)));
+
+            __m512i s0 = _mm512_add_epi64(ahbh, _mm512_srli_epi64(carry, 32));
+            __m512i s1 = _mm512_add_epi64(_mm512_srli_epi64(albh, 32),
+                                          _mm512_srli_epi64(ahbl, 32));
+
+            return _mm512_add_epi64(s0, s1);
+        } else {
+            const Derived mask(0xffffffff);
+            const Derived a = derived();
+            Derived ah = sr<32>(a), bh = sr<32>(b),
+                    al = a & mask, bl = b & mask;
+
+            Derived albl_hi = _mm512_srli_epi64(_mm512_mul_epu32(m, b.m), 32);
+
+            Derived t = ah * bl + albl_hi;
+            Derived w1 = al * bh + (t & mask);
+
+            return ah * bh + sr<32>(t) + sr<32>(w1);
+        }
+    }
+
+#if defined(ENOKI_X86_AVX512CD)
+    ENOKI_INLINE Derived lzcnt_() const { return _mm512_lzcnt_epi64(m); }
+    ENOKI_INLINE Derived tzcnt_() const { return Value(64) - lzcnt(~derived() & (derived() - Value(1))); }
+#endif
+
+#if defined(ENOKI_X86_AVX512VPOPCNTDQ)
+    ENOKI_INLINE Derived popcnt_() const { return _mm512_popcnt_epi64(m); }
+#endif
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Value hsum_()  const { return hsum(low_() + high_()); }
+    ENOKI_INLINE Value hprod_() const { return hprod(low_() * high_()); }
+    ENOKI_INLINE Value hmin_()  const { return hmin(min(low_(), high_())); }
+    ENOKI_INLINE Value hmax_()  const { return hmax(max(low_(), high_())); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        assert((uint64_t) ptr % 64 == 0);
+        _mm512_store_si512((__m512i *) ENOKI_ASSUME_ALIGNED(ptr, 64), m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        assert((uint64_t) ptr % 64 == 0);
+        _mm512_mask_store_epi64((__m512i *) ENOKI_ASSUME_ALIGNED(ptr, 64), mask.k, m);
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        _mm512_storeu_si512((__m512i *) ptr, m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        _mm512_mask_storeu_epi64((__m512i *) ptr, mask.k, m);
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        assert((uint64_t) ptr % 64 == 0);
+        return _mm512_load_si512((const __m512i *) ENOKI_ASSUME_ALIGNED(ptr, 64));
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        assert((uint64_t) ptr % 64 == 0);
+        return _mm512_maskz_load_epi64(mask.k, (const __m512i *) ENOKI_ASSUME_ALIGNED(ptr, 64));
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return _mm512_loadu_si512((const __m512i *) ptr);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        return _mm512_maskz_loadu_epi64(mask.k, (const __m512i *) ptr);
+    }
+
+    static ENOKI_INLINE Derived zero_() { return _mm512_setzero_si512(); }
+
+#if defined(ENOKI_X86_AVX512PF)
+    template <bool Write, size_t Level, size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE void prefetch_(const void *ptr, const Index &index, const Mask &mask) {
+        constexpr auto Hint = Level == 1 ? _MM_HINT_T0 : _MM_HINT_T1;
+
+        if constexpr (sizeof(scalar_t<Index>) == 4) {
+            if constexpr (Write)
+                _mm512_mask_prefetch_i32scatter_pd((void *) ptr, mask.k, index.m, Stride, Hint);
+            else
+                _mm512_mask_prefetch_i32gather_pd(index.m, mask.k, ptr, Stride, Hint);
+        } else {
+            if constexpr (Write)
+                _mm512_mask_prefetch_i64scatter_pd((void *) ptr, mask.k, index.m, Stride, Hint);
+            else
+                _mm512_mask_prefetch_i64gather_pd(index.m, mask.k, ptr, Stride, Hint);
+        }
+    }
+#endif
+
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        if constexpr (sizeof(scalar_t<Index>) == 4)
+            return _mm512_mask_i32gather_epi64(_mm512_setzero_si512(), mask.k, index.m, (const float *) ptr, Stride);
+        else
+            return _mm512_mask_i64gather_epi64(_mm512_setzero_si512(), mask.k, index.m, (const float *) ptr, Stride);
+    }
+
+
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        if constexpr (sizeof(scalar_t<Index>) == 4)
+            _mm512_mask_i32scatter_epi64(ptr, mask.k, index.m, m, Stride);
+        else
+            _mm512_mask_i64scatter_epi64(ptr, mask.k, index.m, m, Stride);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        return (Value) _mm_cvtsi128_si64(_mm512_castsi512_si128(_mm512_maskz_compress_epi64(mask.k, m)));
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(Value_ *&ptr, const Mask &mask) const {
+        _mm512_storeu_si512((__m512i *) ptr, _mm512_maskz_compress_epi64(mask.k, m));
+        size_t kn = (size_t) _mm_popcnt_u32(mask.k);
+        ptr += kn;
+        return kn;
+    }
+
+#if defined(ENOKI_X86_AVX512CD)
+    template <size_t Stride, typename Index, typename Mask, typename Func, typename... Args>
+    static ENOKI_INLINE void transform_(void *mem,
+                                        Index index,
+                                        const Mask &mask,
+                                        const Func &func,
+                                        const Args &... args) {
+        Derived values = _mm512_mask_i64gather_epi64(
+            _mm512_undefined_epi32(), mask.k, index.m, mem, (int) Stride);
+
+        index.m = _mm512_mask_mov_epi64(_mm512_set1_epi64(-1), mask.k, index.m);
+
+        __m512i conflicts = _mm512_conflict_epi64(index.m);
+        __m512i perm_idx  = _mm512_sub_epi64(_mm512_set1_epi64(63), _mm512_lzcnt_epi64(conflicts));
+        __mmask8 todo     = _mm512_mask_test_epi64_mask(mask.k, conflicts, _mm512_set1_epi64(-1));
+
+        func(values, args...);
+
+        ENOKI_NOUNROLL while (ENOKI_UNLIKELY(todo)) {
+            __mmask8 cur = _mm512_mask_testn_epi64_mask(
+                todo, conflicts, _mm512_broadcastmb_epi64(todo));
+            values.m = _mm512_mask_permutexvar_epi64(values.m, cur, perm_idx, values.m);
+
+            __m512i backup(values.m);
+            func(values, args...);
+
+            values.m = _mm512_mask_mov_epi64(backup, cur, values.m);
+            todo ^= cur;
+        }
+
+        _mm512_mask_i64scatter_epi64(mem, mask.k, index.m, values.m, (int) Stride);
+    }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Masked versions of key operations
+    // -----------------------------------------------------------------------
+
+    template <typename Mask>
+    ENOKI_INLINE void massign_(const Derived &a, const Mask &mask) { m = _mm512_mask_mov_epi64(m, mask.k, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void madd_   (const Derived &a, const Mask &mask) { m = _mm512_mask_add_epi64(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void msub_   (const Derived &a, const Mask &mask) { m = _mm512_mask_sub_epi64(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mmul_   (const Derived &a, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+            m = _mm512_mask_mullo_epi64(m, mask.k, m, a.m);
+        #else
+            m = select(mask, a * derived(), derived()).m;
+        #endif
+    }
+    template <typename Mask>
+    ENOKI_INLINE void mor_    (const Derived &a, const Mask &mask) { m = _mm512_mask_or_epi64(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mand_   (const Derived &a, const Mask &mask) { m = _mm512_mask_and_epi64(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mxor_   (const Derived &a, const Mask &mask) { m = _mm512_mask_xor_epi64(m, mask.k, m, a.m); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+template <typename Derived_>
+ENOKI_DECLARE_KMASK(float, 16, Derived_, int)
+template <typename Derived_>
+ENOKI_DECLARE_KMASK(double, 8, Derived_, int)
+template <typename Value_, typename Derived_>
+ENOKI_DECLARE_KMASK(Value_, 16, Derived_, enable_if_int32_t<Value_>)
+template <typename Value_, typename Derived_>
+ENOKI_DECLARE_KMASK(Value_, 8, Derived_, enable_if_int64_t<Value_>)
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_base.h b/sources/enoki/array_base.h
new file mode 100644
index 00000000..d51804cb
--- /dev/null
+++ b/sources/enoki/array_base.h
@@ -0,0 +1,240 @@
+/*
+    enoki/array_base.h -- Base class of all Enoki arrays
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#include <enoki/array_router.h>
+#include <enoki/array_masked.h>
+#include <enoki/array_struct.h>
+
+NAMESPACE_BEGIN(enoki)
+
+template <typename Value_, typename Derived_> struct ArrayBase {
+    // -----------------------------------------------------------------------
+    //! @{ \name Curiously Recurring Template design pattern
+    // -----------------------------------------------------------------------
+
+    /// Alias to the derived type
+    using Derived = Derived_;
+
+    /// Cast to derived type
+    ENOKI_INLINE Derived &derived()             { return (Derived &) *this; }
+
+    /// Cast to derived type (const version)
+    ENOKI_INLINE const Derived &derived() const { return (Derived &) *this; }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Basic declarations
+    // -----------------------------------------------------------------------
+
+    /// Actual type underlying the derived array
+    using Value = Value_;
+
+    /// Scalar data type all the way at the lowest level
+    using Scalar = scalar_t<Value_>;
+
+    /// Specifies how deeply nested this array is
+    static constexpr size_t Depth = 1 + array_depth_v<Value>;
+
+    /// Is this a mask type?
+    static constexpr bool IsMask = is_mask_v<Value_>;
+
+    /// Is this a dynamically allocated array (no by default)
+    static constexpr bool IsDynamic = is_dynamic_v<Value_>;
+
+    /// Does this array compute derivatives using automatic differentation?
+    static constexpr bool IsDiff = is_diff_array_v<Value_>;
+
+    /// Does this array reside on the GPU? (via CUDA)
+    static constexpr bool IsCUDA = is_cuda_array_v<Value_>;
+
+    /// Does this array map operations onto native vector instructions?
+    static constexpr bool IsNative = false;
+
+    /// Is this an AVX512-style 'k' mask register?
+    static constexpr bool IsKMask = false;
+
+    /// Is the storage representation of this array implemented recursively?
+    static constexpr bool IsRecursive = false;
+
+    /// Always prefer broadcasting to the outer dimensions of a N-D array
+    static constexpr bool BroadcastPreferOuter = true;
+
+    /// Does this array represent a fixed size vector?
+    static constexpr bool IsVector = false;
+
+    /// Does this array represent a complex number?
+    static constexpr bool IsComplex = false;
+
+    /// Does this array represent a quaternion?
+    static constexpr bool IsQuaternion = false;
+
+    /// Does this array represent a matrix?
+    static constexpr bool IsMatrix = false;
+
+    /// Does this array represent the result of a 'masked(...)' epxpression?
+    static constexpr bool IsMaskedArray = false;
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Iterators
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE auto begin() const { return derived().data(); }
+    ENOKI_INLINE auto begin()       { return derived().data(); }
+    ENOKI_INLINE auto end()   const { return derived().data() + derived().size(); }
+    ENOKI_INLINE auto end()         { return derived().data() + derived().size(); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Element access
+    // -----------------------------------------------------------------------
+
+    /// Array indexing operator with bounds checks in debug mode
+    ENOKI_INLINE decltype(auto) operator[](size_t i) {
+        #if !defined(NDEBUG) && !defined(ENOKI_DISABLE_RANGE_CHECK)
+            if (i >= derived().size())
+                throw std::out_of_range(
+                    "ArrayBase: out of range access (tried to access index " +
+                    std::to_string(i) + " in an array of size " +
+                    std::to_string(derived().size()) + ")");
+        #endif
+        return derived().coeff(i);
+    }
+
+    /// Array indexing operator with bounds checks in debug mode, const version
+    ENOKI_INLINE decltype(auto) operator[](size_t i) const {
+        #if !defined(NDEBUG) && !defined(ENOKI_DISABLE_RANGE_CHECK)
+            if (i >= derived().size())
+                throw std::out_of_range(
+                    "ArrayBase: out of range access (tried to access index " +
+                    std::to_string(i) + " in an array of size " +
+                    std::to_string(derived().size()) + ")");
+        #endif
+        return derived().coeff(i);
+    }
+
+    template <typename Mask, enable_if_mask_t<Mask> = 0>
+    ENOKI_INLINE auto operator[](const Mask &m) {
+        return detail::MaskedArray<Derived>{ derived(), (const mask_t<Derived> &) m };
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Fallback implementations for masked operations
+    // -----------------------------------------------------------------------
+
+    #define ENOKI_MASKED_OPERATOR_FALLBACK(name, expr)                      \
+        template <typename T, typename Mask>                                \
+        ENOKI_INLINE void m##name##_(const T &e, const Mask &m) {           \
+            derived() = select(m, expr, derived());                         \
+        }
+
+    ENOKI_MASKED_OPERATOR_FALLBACK(assign, e)
+    ENOKI_MASKED_OPERATOR_FALLBACK(add, derived() + e)
+    ENOKI_MASKED_OPERATOR_FALLBACK(sub, derived() - e)
+    ENOKI_MASKED_OPERATOR_FALLBACK(mul, derived() * e)
+    ENOKI_MASKED_OPERATOR_FALLBACK(div, derived() / e)
+    ENOKI_MASKED_OPERATOR_FALLBACK(or, derived() | e)
+    ENOKI_MASKED_OPERATOR_FALLBACK(and, derived() & e)
+    ENOKI_MASKED_OPERATOR_FALLBACK(xor, derived() ^ e)
+
+    #undef ENOKI_MASKED_OPERATOR_FALLBACK
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    /// Dot product fallback implementation
+    ENOKI_INLINE auto dot_(const Derived &a) const { return hsum(derived() * a); }
+
+    /// Horizontal mean fallback implementation
+    ENOKI_INLINE auto hmean_() const {
+        return hsum(derived()) * (1.f / derived().size());
+    }
+
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_add_(void *mem, const Index &index,
+                                   const Mask &mask) const {
+        transform<Derived, Stride>(
+            mem, index, [](auto &a, auto &b, auto &) { a += b; },
+            derived(), mask);
+    }
+};
+
+namespace detail {
+    template <typename T>
+    ENOKI_INLINE bool convert_mask(T value) {
+        if constexpr (std::is_same_v<T, bool>)
+            return value;
+        else
+            return memcpy_cast<typename type_chooser<sizeof(T)>::UInt>(value) != 0;
+    }
+
+    template <typename Stream, typename Array, size_t N, typename... Indices>
+    void print(Stream &os, const Array &a, bool abbrev,
+               const std::array<size_t, N> &size, Indices... indices) {
+        ENOKI_MARK_USED(size);
+        ENOKI_MARK_USED(abbrev);
+        if constexpr (sizeof...(Indices) == N) {
+            os << a.derived().coeff(indices...);
+        } else {
+            constexpr size_t k = N - sizeof...(Indices) - 1;
+            os << "[";
+            for (size_t i = 0; i < size[k]; ++i) {
+                if constexpr (is_dynamic_array_v<Array>) {
+                    if (size[k] > 20 && i == 5 && abbrev) {
+                        if (k > 0) {
+                            os << ".. " << size[k] - 10 << " skipped ..,\n";
+                            for (size_t j = 0; j <= sizeof...(Indices); ++j)
+                                os << " ";
+                        } else {
+                            os << ".. " << size[k] - 10 << " skipped .., ";
+                        }
+                        i = size[k] - 6;
+                        continue;
+                    }
+                }
+                print(os, a, abbrev, size, i, indices...);
+                if (i + 1 < size[k]) {
+                    if constexpr (k == 0) {
+                        os << ", ";
+                    } else {
+                        os << ",\n";
+                        for (size_t j = 0; j <= sizeof...(Indices); ++j)
+                            os << " ";
+                    }
+                }
+            }
+            os << "]";
+        }
+    }
+}
+
+template <typename Value, typename Derived>
+ENOKI_NOINLINE std::ostream &operator<<(std::ostream &os, const ArrayBase<Value, Derived> &a) {
+    if (ragged(a))
+        os << "[ragged array]";
+    else
+        detail::print(os, a, true, shape(a));
+    return os;
+}
+
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_call.h b/sources/enoki/array_call.h
new file mode 100644
index 00000000..d020e370
--- /dev/null
+++ b/sources/enoki/array_call.h
@@ -0,0 +1,291 @@
+/*
+    enoki/array_call.h -- Enoki arrays of pointers, support for
+    array (virtual) method calls
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/array_generic.h>
+
+NAMESPACE_BEGIN(enoki)
+
+template <typename Class, typename Storage> struct call_support {
+    call_support(const Storage &) { }
+};
+
+template <typename Value_, size_t Size_, bool IsMask_, typename Derived_>
+struct StaticArrayImpl<Value_, Size_, IsMask_, Derived_,
+                       enable_if_t<detail::array_config<Value_, Size_>::use_pointer_impl>>
+    : StaticArrayImpl<uintptr_t, Size_, IsMask_, Derived_> {
+
+    using UnderlyingType = std::uintptr_t;
+
+    using Base = StaticArrayImpl<UnderlyingType, Size_, IsMask_, Derived_>;
+
+    ENOKI_ARRAY_DEFAULTS(StaticArrayImpl)
+    using Base::derived;
+
+    using Value = std::conditional_t<IsMask_, typename Base::Value, Value_>;
+    using Scalar = std::conditional_t<IsMask_, typename Base::Scalar, Value_>;
+
+    StaticArrayImpl() = default;
+    StaticArrayImpl(Value value) : Base(UnderlyingType(value)) { }
+    StaticArrayImpl(std::nullptr_t) : Base(UnderlyingType(0)) { }
+
+    template <typename T, enable_if_t<!std::is_pointer_v<T>> = 0>
+    StaticArrayImpl(const T &b) : Base(b) { }
+
+    template <typename T>
+    StaticArrayImpl(const T &b, detail::reinterpret_flag)
+        : Base(b, detail::reinterpret_flag()) { }
+
+    template <typename T1, typename T2, typename T = StaticArrayImpl, enable_if_t<
+              array_depth_v<T1> == array_depth_v<T> && array_size_v<T1> == Base::Size1 &&
+              array_depth_v<T2> == array_depth_v<T> && array_size_v<T2> == Base::Size2 &&
+              Base::Size2 != 0> = 0>
+    StaticArrayImpl(const T1 &a1, const T2 &a2)
+        : Base(a1, a2) { }
+
+    ENOKI_INLINE decltype(auto) coeff(size_t i) const {
+        using Coeff = decltype(Base::coeff(i));
+        if constexpr (std::is_same_v<Coeff, const typename Base::Value &>)
+            return (const Value &) Base::coeff(i);
+        else
+            return Base::coeff(i);
+    }
+
+    ENOKI_INLINE decltype(auto) coeff(size_t i) {
+        using Coeff = decltype(Base::coeff(i));
+        if constexpr (std::is_same_v<Coeff, typename Base::Value &>)
+            return (Value &) Base::coeff(i);
+        else
+            return Base::coeff(i);
+    }
+
+    template <typename T, typename Mask>
+    ENOKI_INLINE size_t compress_(T *&ptr, const Mask &mask) const {
+        return Base::compress_((UnderlyingType *&) ptr, mask);
+    }
+
+    auto operator->() const {
+        using BaseType = std::decay_t<std::remove_pointer_t<scalar_t<Derived_>>>;
+        return call_support<BaseType, Derived_>(derived());
+    }
+
+    template <typename T> Derived_& operator=(T&& t) {
+        ENOKI_MARK_USED(t);
+        if constexpr (std::is_same_v<T, std::nullptr_t>)
+            return (Derived_ &) Base::operator=(UnderlyingType(0));
+        else if constexpr (std::is_convertible_v<T, Value>)
+            return (Derived_ &) Base::operator=(UnderlyingType(t));
+        else
+            return (Derived_ &) Base::operator=(std::forward<T>(t));
+    }
+};
+
+NAMESPACE_BEGIN(detail)
+template <typename, template <typename...> typename T, typename... Args>
+struct is_callable : std::false_type {};
+template <template <typename...> typename T, typename... Args>
+struct is_callable<std::void_t<T<Args...>>, T, Args...> : std::true_type { };
+template <template <typename...> typename T, typename... Args>
+constexpr bool is_callable_v = is_callable<void, T, Args...>::value;
+
+template <typename Guide, typename Result, typename = int> struct vectorize_result {
+    using type = Result;
+};
+
+template <typename Guide, typename Result> struct vectorize_result<Guide, Result, enable_if_t<is_scalar_v<Result>>> {
+    using type = replace_scalar_t<array_t<Guide>, Result, false>;
+};
+
+template <typename T, typename Perm>
+decltype(auto) gather_helper(T&& v, const Perm &perm) {
+    ENOKI_MARK_USED(perm);
+    using DT = std::decay_t<T>;
+    if constexpr (!is_cuda_array_v<DT> && !std::is_class_v<DT>)
+        return v;
+    else
+        return gather<std::decay_t<DT>, 0, true, true>(v, perm);
+}
+
+template <typename Storage_> struct call_support_base {
+    using Storage = Storage_;
+    using InstancePtr = value_t<Storage_>;
+    using Mask = mask_t<Storage_>;
+    call_support_base(const Storage &self) : self(self) { }
+    const Storage &self;
+
+    template <typename Func, typename InputMask,
+              typename Tuple, size_t ... Indices>
+    ENOKI_INLINE auto dispatch(Func func, InputMask mask_, Tuple tuple,
+                               std::index_sequence<Indices...>) const {
+        Mask mask = Mask(mask_) & neq(self, nullptr);
+
+        using FuncResult = decltype(func(
+            std::declval<InstancePtr>(),
+            mask,
+            std::get<Indices>(tuple)...
+        ));
+
+        if constexpr (!std::is_void_v<FuncResult>) {
+            using Result = typename vectorize_result<Mask, FuncResult>::type;
+            Result result = zero<Result>(self.size());
+
+            if constexpr (!is_cuda_array_v<Storage>) {
+                while (any(mask)) {
+                    InstancePtr value      = extract(self, mask);
+                    Mask active            = mask & eq(self, value);
+                    mask                   = andnot(mask, active);
+                    masked(result, active) = func(value, active, std::get<Indices>(tuple)...);
+                }
+            } else {
+                auto partitioned = partition(self);
+
+                if (partitioned.size() == 1 && partitioned[0].first != nullptr) {
+                    result = func(partitioned[0].first, true,
+                                  std::get<Indices>(tuple)...);
+                } else {
+                    for (auto [value, permutation] : partitioned) {
+                        if (value == nullptr)
+                            continue;
+
+                        Result temp = func(value, gather_helper(mask, permutation),
+                                           gather_helper(std::get<Indices>(tuple),
+                                                         permutation)...);
+
+                        scatter<0, true, true>(result, temp, permutation);
+                    }
+                }
+            }
+
+            return result;
+        } else {
+            if constexpr (!is_cuda_array_v<Storage>) {
+                while (any(mask)) {
+                    InstancePtr value = extract(self, mask);
+                    Mask active       = mask & eq(self, value);
+                    mask              = andnot(mask, active);
+                    func(value, active, std::get<Indices>(tuple)...);
+                }
+            } else {
+                auto partitioned = partition(self);
+
+                if (partitioned.size() == 1 && partitioned[0].first != nullptr) {
+                    func(partitioned[0].first, true, std::get<Indices>(tuple)...);
+                } else {
+                    for (auto [value, permutation] : partitioned) {
+                        if (value == nullptr)
+                            continue;
+
+                        func(value, gather_helper(mask, permutation),
+                             gather_helper(std::get<Indices>(tuple),
+                                           permutation)...);
+                    }
+                }
+            }
+        }
+    }
+};
+
+#if defined(__GNUC__)
+#  pragma GCC diagnostic push
+#  pragma GCC diagnostic ignored "-Wunused-value"
+#endif
+
+template <typename... Ts>
+inline constexpr bool last_of(Ts... values) { return (false, ..., values); }
+
+#if defined(__GNUC__)
+#  pragma GCC diagnostic pop
+#endif
+
+NAMESPACE_END(detail)
+
+#define ENOKI_CALL_SUPPORT_FRIEND()                                            \
+    template <typename, typename> friend struct enoki::call_support;
+
+#define ENOKI_CALL_SUPPORT_BEGIN(Class_)                                       \
+    namespace enoki {                                                          \
+    template <typename Storage>                                                \
+    struct call_support<Class_, Storage> : detail::call_support_base<Storage> {\
+        using Base = detail::call_support_base<Storage>;                       \
+        using Base::Base;                                                      \
+        using typename Base::Mask;                                             \
+        using Class = Class_;                                                  \
+        using typename Base::InstancePtr;                                      \
+        using Base::self;                                                      \
+        auto operator-> () { return this; }
+
+#define ENOKI_CALL_SUPPORT_TEMPLATE_BEGIN(Class_)                              \
+    namespace enoki {                                                          \
+    template <typename Storage, typename... Ts>                                \
+    struct call_support<Class_<Ts...>, Storage>                                \
+        : detail::call_support_base<Storage> {                                 \
+        using Base = detail::call_support_base<Storage>;                       \
+        using Base::Base;                                                      \
+        using typename Base::Mask;                                             \
+        using Class = Class_<Ts...>;                                           \
+        using typename Base::InstancePtr;                                      \
+        using Base::self;                                                      \
+        auto operator-> () { return this; }
+
+#define ENOKI_CALL_SUPPORT_METHOD(func)                                        \
+private:                                                                       \
+    template <typename... Args>                                                \
+    using __##func##_t =                                                       \
+        decltype(std::declval<InstancePtr>()->func(std::declval<Args>()...));  \
+                                                                               \
+public:                                                                        \
+    template <typename... Args> auto func(Args&&... args) const {              \
+        auto lambda = [](InstancePtr instance, const Mask &mask,               \
+                         auto &&... a) ENOKI_INLINE_LAMBDA {                   \
+            ENOKI_MARK_USED(mask);                                             \
+            /* Does the method accept a mask argument? If so, provide. */      \
+            if constexpr (detail::is_callable_v<__##func##_t, decltype(a)...,  \
+                                                Mask>)                         \
+                return instance->func(a..., mask);                             \
+            else                                                               \
+                return instance->func(a...);                                   \
+        };                                                                     \
+        /* Was a mask provided to this function? If not, set to all ones. */   \
+        auto args_tuple = std::tie(args...);                                   \
+        if constexpr (detail::last_of(is_mask_v<Args>...)) {                   \
+            return Base::dispatch(                                             \
+                lambda, std::get<sizeof...(Args) - 1>(args_tuple), args_tuple, \
+                std::make_index_sequence<sizeof...(Args) - 1>());              \
+        } else {                                                               \
+            return Base::dispatch(                                             \
+                lambda, true, args_tuple,                                      \
+                std::make_index_sequence<sizeof...(Args)>());                  \
+        }                                                                      \
+    }
+
+#define ENOKI_CALL_SUPPORT_GETTER_TYPE(name, field, type)                      \
+    template <                                                                 \
+        typename Field = decltype(Class::field),                               \
+        typename Return = replace_scalar_t<Storage, type, false>>              \
+    Return name(Mask mask = true) const {                                      \
+        using IntType = replace_scalar_t<Storage, std::uintptr_t, false>;      \
+        auto offset =                                                          \
+           IntType(self) + (std::uintptr_t) &(((Class *) nullptr)->field);     \
+        mask &= neq(self, nullptr);                                            \
+        return gather<Return, 1>(nullptr, offset, mask);                       \
+    }
+
+#define ENOKI_CALL_SUPPORT_GETTER(name, field)                                 \
+    ENOKI_CALL_SUPPORT_GETTER_TYPE(name, field, Field)
+
+#define ENOKI_CALL_SUPPORT_END(Name)                                           \
+        };                                                                     \
+    }
+
+#define ENOKI_CALL_SUPPORT_TEMPLATE_END(Name)                                  \
+    ENOKI_CALL_SUPPORT_END(Name)
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_enum.h b/sources/enoki/array_enum.h
new file mode 100644
index 00000000..97d974ef
--- /dev/null
+++ b/sources/enoki/array_enum.h
@@ -0,0 +1,82 @@
+/*
+    enoki/array_call.h -- Enoki arrays of pointers, support for
+    array (virtual) method calls
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+NAMESPACE_BEGIN(enoki)
+
+template <typename Value_, size_t Size_, bool IsMask_, typename Derived_>
+struct StaticArrayImpl<Value_, Size_, IsMask_, Derived_,
+                       enable_if_t<detail::array_config<Value_, Size_>::use_enum_impl>>
+    : StaticArrayImpl<std::underlying_type_t<Value_>, Size_, IsMask_, Derived_> {
+
+    using UnderlyingType = std::underlying_type_t<Value_>;
+
+    using Base = StaticArrayImpl<UnderlyingType, Size_, IsMask_, Derived_>;
+
+    ENOKI_ARRAY_DEFAULTS(StaticArrayImpl)
+    using Base::derived;
+
+    using Value = std::conditional_t<IsMask_, typename Base::Value, Value_>;
+    using Scalar = std::conditional_t<IsMask_, typename Base::Scalar, Value_>;
+
+    StaticArrayImpl() = default;
+    StaticArrayImpl(Value value) : Base(UnderlyingType(value)) { }
+
+    template <typename T, enable_if_t<!std::is_enum_v<T>> = 0>
+    StaticArrayImpl(const T &b) : Base(b) { }
+
+    template <typename T, enable_if_t<!is_array_v<T>> = 0>
+    StaticArrayImpl(const T &v1, const T &v2) : Base(v1, v2) { }
+
+    template <typename T>
+    StaticArrayImpl(const T &b, detail::reinterpret_flag)
+        : Base(b, detail::reinterpret_flag()) { }
+
+    template <typename T1, typename T2, typename T = StaticArrayImpl, enable_if_t<
+              array_depth_v<T1> == array_depth_v<T> && array_size_v<T1> == Base::Size1 &&
+              array_depth_v<T2> == array_depth_v<T> && array_size_v<T2> == Base::Size2 &&
+              Base::Size2 != 0> = 0>
+    StaticArrayImpl(const T1 &a1, const T2 &a2)
+        : Base(a1, a2) { }
+
+    ENOKI_INLINE decltype(auto) coeff(size_t i) const {
+        using Coeff = decltype(Base::coeff(i));
+        if constexpr (std::is_same_v<Coeff, const typename Base::Value &>)
+            return (const Value &) Base::coeff(i);
+        else
+            return Base::coeff(i);
+    }
+
+    ENOKI_INLINE decltype(auto) coeff(size_t i) {
+        using Coeff = decltype(Base::coeff(i));
+        if constexpr (std::is_same_v<Coeff, typename Base::Value &>)
+            return (Value &) Base::coeff(i);
+        else
+            return Base::coeff(i);
+    }
+
+    template <typename T, typename Mask>
+    ENOKI_INLINE size_t compress_(T *&ptr, const Mask &mask) const {
+        return Base::compress_((UnderlyingType *&) ptr, mask);
+    }
+
+    template <typename T> Derived_& operator=(T&& t) {
+        ENOKI_MARK_USED(t);
+        if constexpr (std::is_same_v<T, std::nullptr_t>)
+            return (Derived_ &) Base::operator=(UnderlyingType(0));
+        else if constexpr (std::is_convertible_v<T, Value>)
+            return (Derived_ &) Base::operator=(UnderlyingType(t));
+        else
+            return (Derived_ &) Base::operator=(std::forward<T>(t));
+    }
+};
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_fallbacks.h b/sources/enoki/array_fallbacks.h
new file mode 100644
index 00000000..5fab694c
--- /dev/null
+++ b/sources/enoki/array_fallbacks.h
@@ -0,0 +1,546 @@
+/*
+    enoki/array_fallbacks.h -- Scalar fallback implementations of various
+    operations
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/array_intrin.h>
+
+NAMESPACE_BEGIN(enoki)
+NAMESPACE_BEGIN(detail)
+
+/// Reciprocal (scalar fallback)
+template <typename T> ENOKI_INLINE T rcp_scalar(const T &a) {
+#if defined(ENOKI_X86_AVX512ER)
+    if (std::is_same_v<T, float>) {
+        __m128 v = _mm_set_ss((float) a);
+        return T(_mm_cvtss_f32(_mm_rcp28_ss(v, v))); /* rel error < 2^-28 */
+    }
+#endif
+
+    if constexpr (std::is_same_v<T, float>) {
+#if defined(ENOKI_X86_SSE42)
+        __m128 v = _mm_set_ss((float) a), r;
+
+        #if defined(ENOKI_X86_AVX512F)
+            r = _mm_rcp14_ss(v, v); /* rel error < 2^-14 */
+        #else
+            r = _mm_rcp_ss(v);      /* rel error < 1.5*2^-12 */
+        #endif
+
+        /* Refine using one Newton-Raphson iteration */
+        __m128 ro = r;
+
+        __m128 t0 = _mm_add_ss(r, r);
+        __m128 t1 = _mm_mul_ss(r, v);
+
+        #if defined(ENOKI_X86_FMA)
+            r = _mm_fnmadd_ss(r, t1, t0);
+        #else
+            r = _mm_sub_ss(t0, _mm_mul_ss(r, t1));
+        #endif
+
+        #if defined(ENOKI_X86_AVX512F)
+            (void) ro;
+            r = _mm_fixupimm_ss(r, v, _mm_set1_epi32(0x0087A622), 0);
+        #else
+            r = _mm_blendv_ps(r, ro, t1); /* mask bit is '1' iff t1 == nan */
+        #endif
+
+        return T(_mm_cvtss_f32(r));
+#elif defined(ENOKI_ARM_NEON) && defined(ENOKI_ARM_64)
+        float v = (float) a;
+        float r = vrecpes_f32(v);
+        r *= vrecpss_f32(r, v);
+        r *= vrecpss_f32(r, v);
+        return T(r);
+#endif
+    }
+
+#if defined(ENOKI_X86_AVX512F) || defined(ENOKI_X86_AVX512ER)
+    if constexpr (std::is_same_v<T, double>) {
+        __m128d v = _mm_set_sd((double) a), r;
+
+        #if defined(ENOKI_X86_AVX512ER)
+            r = _mm_rcp28_sd(v, v);  /* rel error < 2^-28 */
+        #elif defined(ENOKI_X86_AVX512F)
+            r = _mm_rcp14_sd(v, v);  /* rel error < 2^-14 */
+        #endif
+
+        __m128d ro = r, t0, t1;
+
+        /* Refine using 1-2 Newton-Raphson iterations */
+        ENOKI_UNROLL for (int i = 0; i < (has_avx512er ? 1 : 2); ++i) {
+            t0 = _mm_add_sd(r, r);
+            t1 = _mm_mul_sd(r, v);
+
+            #if defined(ENOKI_X86_FMA)
+                r = _mm_fnmadd_sd(t1, r, t0);
+            #else
+                r = _mm_sub_sd(t0, _mm_mul_sd(r, t1));
+            #endif
+        }
+
+        r = _mm_blendv_pd(r, ro, t1); /* mask bit is '1' iff t1 == nan */
+
+        return T(_mm_cvtsd_f64(r));
+    }
+#endif
+
+    return T(1) / a;
+}
+
+/// Reciprocal square root (scalar fallback)
+template <typename T> ENOKI_INLINE T rsqrt_scalar(const T &a) {
+#if defined(ENOKI_X86_AVX512ER)
+    if (std::is_same_v<T, float>) {
+        __m128 v = _mm_set_ss((float) a);
+        return T(_mm_cvtss_f32(_mm_rsqrt28_ss(v, v))); /* rel error < 2^-28 */
+    }
+#endif
+
+    if constexpr (std::is_same_v<T, float>) {
+#if defined(ENOKI_X86_SSE42)
+        __m128 v = _mm_set_ss((float) a), r;
+        #if defined(ENOKI_X86_AVX512F)
+            r = _mm_rsqrt14_ss(v, v);  /* rel error < 2^-14 */
+        #else
+            r = _mm_rsqrt_ss(v);       /* rel error < 1.5*2^-12 */
+        #endif
+
+        /* Refine using one Newton-Raphson iteration */
+        const __m128 c0 = _mm_set_ss(0.5f),
+                     c1 = _mm_set_ss(3.0f);
+
+        __m128 t0 = _mm_mul_ss(r, c0),
+               t1 = _mm_mul_ss(r, v),
+               ro = r;
+
+        #if defined(ENOKI_X86_FMA)
+            r = _mm_mul_ss(_mm_fnmadd_ss(t1, r, c1), t0);
+        #else
+            r = _mm_mul_ss(_mm_sub_ss(c1, _mm_mul_ss(t1, r)), t0);
+        #endif
+
+        #if defined(ENOKI_X86_AVX512F)
+            (void) ro;
+            r = _mm_fixupimm_ss(r, v, _mm_set1_epi32(0x0383A622), 0);
+        #else
+            r = _mm_blendv_ps(r, ro, t1); /* mask bit is '1' iff t1 == nan */
+        #endif
+
+        return T(_mm_cvtss_f32(r));
+#elif defined(ENOKI_ARM_NEON) && defined(ENOKI_ARM_64)
+        float v = (float) a;
+        float r = vrsqrtes_f32(v);
+        r *= vrsqrtss_f32(r*r, v);
+        r *= vrsqrtss_f32(r*r, v);
+        return r;
+#endif
+    }
+
+#if defined(ENOKI_X86_AVX512F) || defined(ENOKI_X86_AVX512ER)
+    if constexpr (std::is_same_v<T, double>) {
+        __m128d v = _mm_set_sd((double) a), r;
+
+        #if defined(ENOKI_X86_AVX512ER)
+            r = _mm_rsqrt28_sd(v, v);  /* rel error < 2^-28 */
+        #elif defined(ENOKI_X86_AVX512F)
+            r = _mm_rsqrt14_sd(v, v);  /* rel error < 2^-14 */
+        #endif
+
+        const __m128d c0 = _mm_set_sd(0.5),
+                      c1 = _mm_set_sd(3.0);
+
+        __m128d ro = r, t0, t1;
+
+        /* Refine using 1-2 Newton-Raphson iterations */
+        ENOKI_UNROLL for (int i = 0; i < (has_avx512er ? 1 : 2); ++i) {
+            t0 = _mm_mul_sd(r, c0);
+            t1 = _mm_mul_sd(r, v);
+
+            #if defined(ENOKI_X86_FMA)
+                r = _mm_mul_sd(_mm_fnmadd_sd(t1, r, c1), t0);
+            #else
+                r = _mm_mul_sd(_mm_sub_sd(c1, _mm_mul_sd(t1, r)), t0);
+            #endif
+        }
+
+        r = _mm_blendv_pd(r, ro, t1); /* mask bit is '1' iff t1 == nan */
+
+        return T(_mm_cvtsd_f64(r));
+    }
+#endif
+
+    return T(1) / std::sqrt(a);
+}
+
+template <typename T> ENOKI_INLINE T popcnt_scalar(T v) {
+    static_assert(std::is_integral_v<T>, "popcnt(): requires an integer argument!");
+#if defined(ENOKI_X86_SSE42)
+    if constexpr (sizeof(T) <= 4) {
+        return (T) _mm_popcnt_u32((unsigned int) v);
+    } else {
+        #if defined(ENOKI_X86_64)
+            return (T) _mm_popcnt_u64((unsigned long long) v);
+        #else
+            unsigned long long v_ = (unsigned long long) v;
+            unsigned int lo = (unsigned int) v_;
+            unsigned int hi = (unsigned int) (v_ >> 32);
+            return (T) (_mm_popcnt_u32(lo) + _mm_popcnt_u32(hi));
+        #endif
+    }
+#elif defined(_MSC_VER)
+    if constexpr (sizeof(T) <= 4) {
+        uint32_t w = (uint32_t) v;
+        w -= (w >> 1) & 0x55555555;
+        w = (w & 0x33333333) + ((w >> 2) & 0x33333333);
+        w = (w + (w >> 4)) & 0x0F0F0F0F;
+        w = (w * 0x01010101) >> 24;
+        return (T) w;
+    } else {
+        uint64_t w = (uint64_t) v;
+        w -= (w >> 1) & 0x5555555555555555ull;
+        w = (w & 0x3333333333333333ull) + ((w >> 2) & 0x3333333333333333ull);
+        w = (w + (w >> 4)) & 0x0F0F0F0F0F0F0F0Full;
+        w = (w * 0x0101010101010101ull) >> 56;
+        return (T) w;
+    }
+#else
+    if constexpr (sizeof(T) <= 4)
+        return (T) __builtin_popcount((unsigned int) v);
+    else
+        return (T) __builtin_popcountll((unsigned long long) v);
+#endif
+}
+
+template <typename T> ENOKI_INLINE T lzcnt_scalar(T v) {
+    static_assert(std::is_integral_v<T>, "lzcnt(): requires an integer argument!");
+#if defined(ENOKI_X86_AVX2)
+    if constexpr (sizeof(T) <= 4) {
+        return (T) _lzcnt_u32((unsigned int) v);
+    } else {
+        #if defined(ENOKI_X86_64)
+            return (T) _lzcnt_u64((unsigned long long) v);
+        #else
+            unsigned long long v_ = (unsigned long long) v;
+            unsigned int lo = (unsigned int) v_;
+            unsigned int hi = (unsigned int) (v_ >> 32);
+            return (T) (hi != 0 ? _lzcnt_u32(hi) : (_lzcnt_u32(lo) + 32));
+        #endif
+    }
+#elif defined(_MSC_VER)
+    unsigned long result;
+    if constexpr (sizeof(T) <= 4) {
+        _BitScanReverse(&result, (unsigned long) v);
+        return (v != 0) ? (31 - result) : 32;
+    } else {
+        _BitScanReverse64(&result, (unsigned long long) v);
+        return (v != 0) ? (63 - result) : 64;
+    }
+#else
+    if constexpr (sizeof(T) <= 4)
+        return (T) (v != 0 ? __builtin_clz((unsigned int) v) : 32);
+    else
+        return (T) (v != 0 ? __builtin_clzll((unsigned long long) v) : 64);
+#endif
+}
+
+template <typename T> ENOKI_INLINE T tzcnt_scalar(T v) {
+    static_assert(std::is_integral_v<T>, "tzcnt(): requires an integer argument!");
+#if defined(ENOKI_X86_AVX2)
+    if (sizeof(T) <= 4)
+        return (T) _tzcnt_u32((unsigned int) v);
+    #if defined(ENOKI_X86_64)
+        return (T) _tzcnt_u64((unsigned long long) v);
+    #else
+        unsigned long long v_ = (unsigned long long) v;
+        unsigned int lo = (unsigned int) v_;
+        unsigned int hi = (unsigned int) (v_ >> 32);
+        return (T) (lo != 0 ? _tzcnt_u32(lo) : (_tzcnt_u32(hi) + 32));
+    #endif
+#elif defined(_MSC_VER)
+    unsigned long result;
+    if (sizeof(T) <= 4) {
+        _BitScanForward(&result, (unsigned long) v);
+        return (v != 0) ? result : 32;
+    } else {
+        _BitScanForward64(&result, (unsigned long long) v);
+        return (v != 0) ? result: 64;
+    }
+#else
+    if (sizeof(T) <= 4)
+        return (T) (v != 0 ? __builtin_ctz((unsigned int) v) : 32);
+    else
+        return (T) (v != 0 ? __builtin_ctzll((unsigned long long) v) : 64);
+#endif
+}
+
+template <typename T1, typename T2>
+ENOKI_INLINE T1 ldexp_scalar(const T1 &a1, const T2 &a2) {
+#if defined(ENOKI_X86_AVX512F)
+    if constexpr (std::is_same_v<T1, float>) {
+        __m128 v1 = _mm_set_ss((float) a1),
+               v2 = _mm_set_ss((float) a2);
+        return T1(_mm_cvtss_f32(_mm_scalef_ss(v1, v2)));
+    } else if constexpr (std::is_same_v<T1, double>) {
+        __m128d v1 = _mm_set_sd((double) a1),
+                v2 = _mm_set_sd((double) a2);
+        return T1(_mm_cvtsd_f64(_mm_scalef_sd(v1, v2)));
+    } else {
+        return std::ldexp(a1, int(a2));
+    }
+#else
+    return std::ldexp(a1, int(a2));
+#endif
+}
+
+/// Break floating-point number into normalized fraction and power of 2 (scalar fallback)
+template <typename T>
+ENOKI_INLINE std::pair<T, T> frexp_scalar(const T &a) {
+#if defined(ENOKI_X86_AVX512F)
+    if constexpr (std::is_same_v<T, float>) {
+        __m128 v = _mm_set_ss((float) a);
+        return std::make_pair(
+            T(_mm_cvtss_f32(_mm_getmant_ss(v, v, _MM_MANT_NORM_p5_1, _MM_MANT_SIGN_src))),
+            T(_mm_cvtss_f32(_mm_getexp_ss(v, v))));
+    } else if constexpr (std::is_same_v<T, double>) {
+        __m128d v = _mm_set_sd((double) a);
+        return std::make_pair(
+            T(_mm_cvtsd_f64(_mm_getmant_sd(v, v, _MM_MANT_NORM_p5_1, _MM_MANT_SIGN_src))),
+            T(_mm_cvtsd_f64(_mm_getexp_sd(v, v))));
+    } else {
+        int tmp;
+        T result = std::frexp(a, &tmp);
+        return std::make_pair(result, T(tmp) - T(1));
+    }
+#else
+    int tmp;
+    T result = std::frexp(a, &tmp);
+    return std::make_pair(result, T(tmp) - T(1));
+#endif
+}
+
+ENOKI_INLINE int32_t mulhi_scalar(int32_t x, int32_t y) {
+    int64_t rl = (int64_t) x * (int64_t) y;
+    return (int32_t) (rl >> 32);
+}
+
+ENOKI_INLINE uint32_t mulhi_scalar(uint32_t x, uint32_t y) {
+    uint64_t rl = (uint64_t) x * (uint64_t) y;
+    return (uint32_t) (rl >> 32);
+}
+
+ENOKI_INLINE uint64_t mulhi_scalar(uint64_t x, uint64_t y) {
+#if defined(_MSC_VER) && defined(ENOKI_X86_64)
+    return __umulh(x, y);
+#elif defined(__SIZEOF_INT128__)
+    __uint128_t rl = (__uint128_t) x * (__uint128_t) y;
+    return (uint64_t)(rl >> 64);
+#else
+    // full 128 bits are x0 * y0 + (x0 * y1 << 32) + (x1 * y0 << 32) + (x1 * y1 << 64)
+    const uint32_t mask = 0xFFFFFFFF;
+    const uint32_t x0 = (uint32_t) (x & mask), x1 = (uint32_t) (x >> 32);
+    const uint32_t y0 = (uint32_t) (y & mask), y1 = (uint32_t) (y >> 32);
+    const uint32_t x0y0_hi = mulhi_scalar(x0, y0);
+    const uint64_t x0y1 = x0 * (uint64_t) y1;
+    const uint64_t x1y0 = x1 * (uint64_t) y0;
+    const uint64_t x1y1 = x1 * (uint64_t) y1;
+    const uint64_t temp = x1y0 + x0y0_hi;
+    const uint64_t temp_lo = temp & mask, temp_hi = temp >> 32;
+
+    return x1y1 + temp_hi + ((temp_lo + x0y1) >> 32);
+#endif
+}
+
+ENOKI_INLINE int64_t mulhi_scalar(int64_t x, int64_t y) {
+#if defined(_MSC_VER) && defined(_M_X64)
+    return __mulh(x, y);
+#elif defined(__SIZEOF_INT128__)
+    __int128_t rl = (__int128_t) x * (__int128_t) y;
+    return (int64_t)(rl >> 64);
+#else
+    // full 128 bits are x0 * y0 + (x0 * y1 << 32) + (x1 * y0 << 32) + (x1 * y1 << 64)
+    const uint32_t mask = 0xFFFFFFFF;
+    const uint32_t x0 = (uint32_t) (x & mask), y0 = (uint32_t) (y & mask);
+    const int32_t x1 = (int32_t) (x >> 32), y1 = (int32_t) (y >> 32);
+    const uint32_t x0y0_hi = mulhi_scalar(x0, y0);
+    const int64_t t = x1 * (int64_t) y0 + x0y0_hi;
+    const int64_t w1 = x0 * (int64_t) y1 + (t & mask);
+
+    return x1 * (int64_t) y1 + (t >> 32) + (w1 >> 32);
+#endif
+}
+
+template <typename T> ENOKI_INLINE T abs_scalar(const T &a) {
+    if constexpr (std::is_signed_v<T>)
+        return std::abs(a);
+    else
+        return a;
+}
+
+template <typename T1, typename T2, typename T3,
+          typename E = expr_t<T1, T2, T3>> ENOKI_INLINE E fmadd_scalar(T1 a1, T2 a2, T3 a3) {
+#if defined(ENOKI_X86_FMA) || defined(ENOKI_ARM_FMA)
+    if constexpr (std::is_floating_point_v<E>)
+        return (E) std::fma((E) a1, (E) a2, (E) a3);
+#endif
+    return (E) a1 * (E) a2 + (E) a3;
+}
+
+template <typename T, typename Arg>
+T ceil2int_scalar(Arg x) {
+#if defined(ENOKI_X86_AVX512F)
+    if constexpr (std::is_same_v<Arg, float>) {
+        __m128 y = _mm_set_ss(x);
+        if constexpr (sizeof(T) == 4) {
+            if constexpr (std::is_signed_v<T>)
+                return _mm_cvt_roundss_i32(y, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC);
+            else
+                return _mm_cvt_roundss_u32(y, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC);
+        } else if constexpr (sizeof(T) == 8) {
+            if constexpr (std::is_signed_v<T>)
+                return _mm_cvt_roundss_i64(y, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC);
+            else
+                return _mm_cvt_roundss_u64(y, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC);
+        }
+    } else if constexpr (std::is_same_v<Arg, double>) {
+        __m128d y = _mm_set_sd(x);
+        if constexpr (sizeof(T) == 4) {
+            if constexpr (std::is_signed_v<T>)
+                return _mm_cvt_roundsd_i32(y, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC);
+            else
+                return _mm_cvt_roundsd_u32(y, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC);
+        } else if constexpr (sizeof(T) == 8) {
+            if constexpr (std::is_signed_v<T>)
+                return _mm_cvt_roundsd_i64(y, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC);
+            else
+                return _mm_cvt_roundsd_u64(y, _MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC);
+        }
+    }
+#endif
+    return T(std::ceil(x));
+}
+
+template <typename T, typename Arg>
+T floor2int_scalar(Arg x) {
+#if defined(ENOKI_X86_AVX512F)
+    if constexpr (std::is_same_v<Arg, float>) {
+        __m128 y = _mm_set_ss(x);
+        if constexpr (sizeof(T) == 4) {
+            if constexpr (std::is_signed_v<T>)
+                return _mm_cvt_roundss_i32(y, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC);
+            else
+                return _mm_cvt_roundss_u32(y, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC);
+        } else if constexpr (sizeof(T) == 8) {
+            if constexpr (std::is_signed_v<T>)
+                return _mm_cvt_roundss_i64(y, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC);
+            else
+                return _mm_cvt_roundss_u64(y, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC);
+        }
+    } else if constexpr (std::is_same_v<Arg, double>) {
+        __m128d y = _mm_set_sd(x);
+        if constexpr (sizeof(T) == 4) {
+            if constexpr (std::is_signed_v<T>)
+                return _mm_cvt_roundsd_i32(y, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC);
+            else
+                return _mm_cvt_roundsd_u32(y, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC);
+        } else if constexpr (sizeof(T) == 8) {
+            if constexpr (std::is_signed_v<T>)
+                return _mm_cvt_roundsd_i64(y, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC);
+            else
+                return _mm_cvt_roundsd_u64(y, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC);
+        }
+    }
+#endif
+    return T(std::floor(x));
+}
+
+template <typename T> auto or_(const T &a1, const T &a2) {
+    using Int = int_array_t<T, false>;
+
+    if constexpr (is_array_v<T> || std::is_integral_v<T>)
+        return a1 | a2;
+    else
+        return memcpy_cast<T>(memcpy_cast<Int>(a1) | memcpy_cast<Int>(a2));
+}
+
+template <typename T> auto and_(const T &a1, const T &a2) {
+    using Int = int_array_t<T, false>;
+
+    if constexpr (is_array_v<T> || std::is_integral_v<T>)
+        return a1 & a2;
+    else
+        return memcpy_cast<T>(memcpy_cast<Int>(a1) & memcpy_cast<Int>(a2));
+}
+
+template <typename T> auto andnot_(const T &a1, const T &a2) {
+    using Int = int_array_t<T, false>;
+
+    if constexpr (is_array_v<T>)
+        return andnot(a1, a2);
+    else if constexpr (std::is_same_v<T, bool>)
+        return a1 && !a2;
+    else if constexpr (std::is_integral_v<T>)
+        return a1 & ~a2;
+    else
+        return memcpy_cast<T>(memcpy_cast<Int>(a1) & ~memcpy_cast<Int>(a2));
+}
+
+template <typename T> auto xor_(const T &a1, const T &a2) {
+    using Int = int_array_t<T, false>;
+
+    if constexpr (is_array_v<T> || std::is_integral_v<T>)
+        return a1 ^ a2;
+    else
+        return memcpy_cast<T>(memcpy_cast<Int>(a1) ^ memcpy_cast<Int>(a2));
+}
+
+template <typename T, enable_if_t<!std::is_same_v<T, bool>> = 0> auto or_(const T &a, const bool &b) {
+    using Scalar = scalar_t<T>;
+    using Int    = int_array_t<Scalar>;
+    return or_(a, b ? memcpy_cast<Scalar>(Int(-1)) : memcpy_cast<Scalar>(Int(0)));
+}
+
+template <typename T, enable_if_t<!std::is_same_v<T, bool>> = 0> auto and_(const T &a, const bool &b) {
+    using Scalar = scalar_t<T>;
+    using Int    = int_array_t<Scalar>;
+    return and_(a, b ? memcpy_cast<Scalar>(Int(-1)) : memcpy_cast<Scalar>(Int(0)));
+}
+
+template <typename T, enable_if_t<!std::is_same_v<T, bool>> = 0> auto andnot_(const T &a, const bool &b) {
+    using Scalar = scalar_t<T>;
+    using Int    = int_array_t<Scalar>;
+    return andnot_(a, b ? memcpy_cast<Scalar>(Int(-1)) : memcpy_cast<Scalar>(Int(0)));
+}
+
+template <typename T, enable_if_t<!std::is_same_v<T, bool>> = 0> auto xor_(const T &a, const bool &b) {
+    using Scalar = scalar_t<T>;
+    using Int    = int_array_t<Scalar>;
+    return xor_(a, b ? memcpy_cast<Scalar>(Int(-1)) : memcpy_cast<Scalar>(Int(0)));
+}
+
+template <typename T1, typename T2, enable_if_array_any_t<T1, T2> = 0>
+auto or_(const T1 &a1, const T2 &a2) { return a1 | a2; }
+
+template <typename T1, typename T2, enable_if_array_any_t<T1, T2> = 0>
+auto and_(const T1 &a1, const T2 &a2) { return a1 & a2; }
+
+template <typename T1, typename T2, enable_if_array_any_t<T1, T2> = 0>
+auto andnot_(const T1 &a1, const T2 &a2) { return andnot(a1, a2); }
+
+template <typename T1, typename T2, enable_if_array_any_t<T1, T2> = 0>
+auto xor_(const T1 &a1, const T2 &a2) { return a1 ^ a2; }
+
+NAMESPACE_END(detail)
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_generic.h b/sources/enoki/array_generic.h
new file mode 100644
index 00000000..3aac126b
--- /dev/null
+++ b/sources/enoki/array_generic.h
@@ -0,0 +1,626 @@
+/*
+    enoki/array_generic.h -- Generic array implementation that forwards
+    all operations to the underlying data type (usually without making use of
+    hardware vectorization)
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/array_static.h>
+#include <functional>
+
+NAMESPACE_BEGIN(nanogui)
+template <typename Value, size_t Size> struct Array;
+NAMESPACE_END(nanogui)
+
+NAMESPACE_BEGIN(enoki)
+
+namespace detail {
+    template <typename StorageType, typename T>
+    using is_constructible = std::bool_constant<
+         std::is_constructible_v<StorageType, T> &&
+        !std::is_same_v<std::decay_t<T>, reinterpret_flag>>;
+
+    template <typename T>
+    using is_not_reinterpret_flag = std::bool_constant<
+        !std::is_same_v<std::decay_t<T>, reinterpret_flag>>;
+
+    template <typename Source, typename Target>
+    constexpr bool broadcast =
+        !is_static_array_v<Source> || array_size_v<Source> != Target::Size ||
+        !(array_depth_v<Source> == array_depth_v<Target> ||
+          (array_depth_v<Source> < array_depth_v<Target> &&
+           detail::array_broadcast_outer_v<Source>));
+
+    template <typename Value, size_t Size, typename = int>
+    struct is_native {
+        static constexpr bool value = false;
+    };
+
+    template <typename Value, size_t Size>
+    constexpr bool is_native_v = is_native<Value, Size>::value;
+
+    /**
+     * \brief The class StaticArrayImpl has several different implementations.
+     * This class specifies which one to use.
+     */
+    template <typename Value, size_t Size>
+    struct array_config {
+        /// Use SSE/AVX/NEON implementation
+        static constexpr bool use_native_impl =
+            is_native_v<Value, Size>;
+
+        /// Reduce to several recursive operations
+        static constexpr bool use_recursive_impl =
+            !use_native_impl &&
+            is_std_type_v<Value> &&
+            has_vectorization &&
+            Size > 3;
+
+        /// Special case for arrays of enumerations
+        static constexpr bool use_enum_impl =
+            std::is_enum_v<Value>;
+
+        /// Special case for arrays of pointers of classes
+        static constexpr bool use_pointer_impl =
+             std::is_pointer_v<Value> &&
+            !std::is_arithmetic_v<std::remove_pointer_t<Value>>;
+
+        /// Catch-all for anything that wasn't matched so far
+        static constexpr bool use_generic_impl =
+            !use_native_impl &&
+            !use_recursive_impl &&
+            !use_enum_impl &&
+            !use_pointer_impl;
+    };
+
+    template <typename T>
+    using has_bitmask = decltype(std::declval<T>().bitmask_());
+    template <typename T>
+    constexpr bool has_bitmask_v = is_detected_v<has_bitmask, T>;
+}
+
+/// Macro to initialize uninitialized floating point arrays with 1 bits (NaN/-1) in debug mode
+#if defined(NDEBUG)
+#define ENOKI_TRIVIAL_CONSTRUCTOR(Value)                                       \
+    template <typename T = Value,                                              \
+              enable_if_t<std::is_default_constructible_v<T>> = 0>             \
+    ENOKI_INLINE StaticArrayImpl() { }
+#else
+#define ENOKI_TRIVIAL_CONSTRUCTOR(Value)                                       \
+    template <typename T = Value, enable_if_t<std::is_scalar_v<T>> = 0>        \
+    ENOKI_INLINE StaticArrayImpl()                                             \
+        : StaticArrayImpl(memcpy_cast<T>(int_array_t<T>(-1))) { }              \
+    template <typename T = Value,                                              \
+              enable_if_t<!std::is_scalar_v<T> &&                              \
+                           std::is_default_constructible_v<T>> = 0>            \
+    ENOKI_INLINE StaticArrayImpl() {}
+#endif
+
+
+/// SFINAE macro for constructors that convert from another type
+#define ENOKI_CONVERT(Value)                                                   \
+    template <typename Value2, typename Derived2,                               \
+              enable_if_t<detail::is_same_v<Value2, Value>> = 0>               \
+    ENOKI_INLINE StaticArrayImpl(                                              \
+        const StaticArrayBase<Value2, Size, IsMask_, Derived2> &a)
+
+/// SFINAE macro for constructors that reinterpret another type
+#define ENOKI_REINTERPRET(Value)                                               \
+    template <typename Value2, typename Derived2, bool IsMask2,                \
+              enable_if_t<detail::is_same_v<Value2, Value>> = 0>               \
+    ENOKI_INLINE StaticArrayImpl(                                              \
+        const StaticArrayBase<Value2, Size, IsMask2, Derived2> &a,             \
+        detail::reinterpret_flag)
+
+#define ENOKI_ARRAY_DEFAULTS(Array)                                            \
+    Array(const Array &) = default;                                            \
+    Array(Array &&) = default;                                                 \
+    Array &operator=(const Array &) = default;                                 \
+    Array &operator=(Array &&) = default;
+
+/// Import the essentials when declaring an array subclass
+#define ENOKI_ARRAY_IMPORT_BASIC(Base, Array)                                  \
+    ENOKI_ARRAY_DEFAULTS(Array)                                                \
+    using typename Base::Derived;                                              \
+    using typename Base::Value;                                                \
+    using typename Base::Scalar;                                               \
+    using Base::Size;                                                          \
+    using Base::derived;                                                       \
+
+/// Import the essentials when declaring an array subclass (+constructor/assignment op)
+#define ENOKI_ARRAY_IMPORT(Base, Array)                                        \
+    ENOKI_ARRAY_IMPORT_BASIC(Base, Array)                                      \
+    using Base::Base;                                                          \
+    using Base::operator=;
+
+
+/// Internal macro for native StaticArrayImpl overloads (SSE, AVX, ..)
+#define ENOKI_NATIVE_ARRAY(Value_, Size_, Register_)                           \
+    using Base =                                                               \
+        StaticArrayBase<Value_, Size_, IsMask_, Derived_>;                     \
+    ENOKI_ARRAY_IMPORT_BASIC(Base, StaticArrayImpl)                            \
+    using typename Base::Array1;                                               \
+    using typename Base::Array2;                                               \
+    using Base::ActualSize;                                                    \
+    using Ref = const Derived &;                                               \
+    using Register = Register_;                                                \
+    static constexpr bool IsNative = true;                                     \
+    Register m;                                                                \
+    ENOKI_TRIVIAL_CONSTRUCTOR(Value_)                                          \
+    ENOKI_INLINE StaticArrayImpl(Register value) : m(value) {}                 \
+    ENOKI_INLINE StaticArrayImpl(Register value, detail::reinterpret_flag)     \
+        : m(value) { }                                                         \
+    ENOKI_INLINE StaticArrayImpl(bool b, detail::reinterpret_flag)             \
+        : StaticArrayImpl(b ? memcpy_cast<Value_>(int_array_t<Value>(-1))      \
+                            : memcpy_cast<Value_>(int_array_t<Value>(0))) { }  \
+    template <typename Value2, size_t Size2, typename Derived2,                \
+              enable_if_t<is_scalar_v<Value2>> = 0>                            \
+    ENOKI_INLINE StaticArrayImpl(                                              \
+        const StaticArrayBase<Value2, Size2, IsMask_, Derived2> &a)            \
+        : Base(a) { }                                                          \
+    ENOKI_INLINE StaticArrayImpl &operator=(const Derived &v) {                \
+        m = v.m;                                                               \
+        return *this;                                                          \
+    }                                                                          \
+    template <typename T> ENOKI_INLINE StaticArrayImpl &operator=(const T &v) {\
+        return operator=(Derived(v)); return *this;                            \
+    }                                                                          \
+    ENOKI_INLINE Value& raw_coeff_(size_t i) {                                 \
+        union Data {                                                           \
+            Register value;                                                    \
+            Value data[Size_];                                                 \
+        };                                                                     \
+        return ((Data *) &m)->data[i];                                         \
+    }                                                                          \
+    ENOKI_INLINE const Value& raw_coeff_(size_t i) const {                     \
+        union Data {                                                           \
+            Register value;                                                    \
+            Value data[Size_];                                                 \
+        };                                                                     \
+        return ((const Data *) &m)->data[i];                                   \
+    }                                                                          \
+    ENOKI_INLINE decltype(auto) coeff(size_t i) {                              \
+        if constexpr (Derived::IsMask)                                         \
+            return MaskBit<Derived &>(derived(), i);                           \
+        else                                                                   \
+            return raw_coeff_(i);                                              \
+    }                                                                          \
+    ENOKI_INLINE decltype(auto) coeff(size_t i) const {                        \
+        if constexpr (Derived::IsMask)                                         \
+            return MaskBit<const Derived &>(derived(), i);                     \
+        else                                                                   \
+            return raw_coeff_(i);                                              \
+    }                                                                          \
+    ENOKI_INLINE bool bit_(size_t i) const {                                   \
+        return detail::convert_mask(raw_coeff_(i));                            \
+    }                                                                          \
+    ENOKI_INLINE void set_bit_(size_t i, bool value) {                         \
+        raw_coeff_(i) = reinterpret_array<Value>(value);                       \
+    }
+
+/// Internal macro for native StaticArrayImpl overloads -- 3D special case
+#define ENOKI_DECLARE_3D_ARRAY(Array)                                          \
+    ENOKI_ARRAY_DEFAULTS(Array)                                                \
+    using typename Base::Value;                                                \
+    using typename Base::Derived;                                              \
+    using typename Base::Ref;                                                  \
+    using Base::m;                                                             \
+    using Base::coeff;                                                         \
+    static constexpr size_t Size = 3;                                          \
+    Array() = default;                                                         \
+    ENOKI_INLINE Array(Value v) : Base(v) { }                                  \
+    ENOKI_INLINE Array(Value f1, Value f2, Value f3)                           \
+        : Base(f1, f2, f3, (Value) 0) { }                                      \
+    ENOKI_INLINE Array(Value f1, Value f2, Value f3, Value f4)                 \
+        : Base(f1, f2, f3, f4) { }                                             \
+    ENOKI_INLINE Array(typename Base::Register r) : Base(r) { }                \
+    ENOKI_INLINE Array(typename Base::Register r, detail::reinterpret_flag)    \
+        : Base(r, detail::reinterpret_flag()) { }                              \
+    ENOKI_INLINE Array(bool b, detail::reinterpret_flag)                       \
+        : Base(b, detail::reinterpret_flag()) { }                              \
+    template <typename Value2, typename Derived2>                              \
+    ENOKI_INLINE Array(const StaticArrayBase<Value2, 4, IsMask_, Derived2> &a) \
+        : Base(a) { }                                                          \
+    template <typename Value2, bool IsMask2, typename Derived2>                \
+    ENOKI_INLINE Array(const StaticArrayBase<Value2, 4, IsMask2, Derived2> &a, \
+                       detail::reinterpret_flag)                               \
+        : Base(a, detail::reinterpret_flag()) { }                              \
+    template <typename Value2, typename Derived2>                              \
+    ENOKI_INLINE Array(const StaticArrayBase<Value2, 3, IsMask_, Derived2>&a) {\
+        ENOKI_TRACK_SCALAR("Constructor (conversion, 3D case)");               \
+        Base::operator=(Derived(Value(a.derived().coeff(0)),                   \
+                                Value(a.derived().coeff(1)),                   \
+                                Value(a.derived().coeff(2))));                 \
+    }                                                                          \
+    template <typename Value2, typename Derived2, bool IsMask2>                \
+    ENOKI_INLINE Array(const StaticArrayBase<Value2, 3, IsMask2, Derived2> &a, \
+                       detail::reinterpret_flag) {                             \
+        ENOKI_TRACK_SCALAR("Constructor (reinterpreting, 3D case)");           \
+        Base::operator=(                                                       \
+            Derived(reinterpret_array<Value>(a.derived().coeff(0)),            \
+                    reinterpret_array<Value>(a.derived().coeff(1)),            \
+                    reinterpret_array<Value>(a.derived().coeff(2))));          \
+    }                                                                          \
+    template <typename T> Array &operator=(T &&value) {                        \
+        return (Array&) Base::operator=(Derived(value));                       \
+    }
+
+
+template <typename Value_, size_t Size_, bool IsMask_, typename Derived_, typename = int>
+struct StaticArrayImpl;
+
+template <typename Value_, size_t Size_, bool IsMask_, typename Derived_>
+struct StaticArrayImpl<
+    Value_, Size_, IsMask_, Derived_,
+    enable_if_t<detail::array_config<Value_, Size_>::use_generic_impl>>
+    : StaticArrayBase<std::conditional_t<IsMask_, mask_t<Value_>, Value_>,
+                      Size_, IsMask_, Derived_> {
+
+    using Base =
+        StaticArrayBase<std::conditional_t<IsMask_, mask_t<Value_>, Value_>,
+                        Size_, IsMask_, Derived_>;
+
+    using typename Base::Derived;
+    using typename Base::Value;
+    using typename Base::Scalar;
+    using typename Base::Array1;
+    using typename Base::Array2;
+
+    using Base::Size;
+    using Base::derived;
+
+    using StorageType =
+        std::conditional_t<std::is_reference_v<Value> && Size_ != 0,
+                           std::reference_wrapper<std::remove_reference_t<Value>>,
+                           std::remove_reference_t<Value>>;
+
+    using Ref = std::remove_reference_t<Value> &;
+    using ConstRef = const std::remove_reference_t<Value> &;
+
+    StaticArrayImpl(const StaticArrayImpl &) = default;
+    StaticArrayImpl(StaticArrayImpl &&) = default;
+
+    /// Trivial constructor
+    ENOKI_TRIVIAL_CONSTRUCTOR(Value)
+
+#if defined(_MSC_VER)
+#  pragma warning(push)
+#  pragma warning(disable:4244) // warning C4244: 'argument': conversion from 'int' to 'Value_', possible loss of data
+#  pragma warning(disable:4554) // warning C4554: '>>': check operator precedence for possible error; use parentheses to clarify precedence
+#  pragma warning(disable:4702) // warning C4702: unreachable code
+#elif defined(__GNUC__)
+// Don't be so noisy about sign conversion in constructor
+#  pragma GCC diagnostic push
+#  pragma GCC diagnostic ignored "-Wsign-conversion"
+#  pragma GCC diagnostic ignored "-Wdouble-promotion"
+#  pragma GCC diagnostic ignored "-Wunused-value"
+#endif
+
+    template <typename Src>
+    using cast_t = std::conditional_t<
+        std::is_scalar_v<Value> ||
+            !std::is_same_v<std::decay_t<Value>, std::decay_t<Src>>,
+        expr_t<Value>,
+        std::conditional_t<std::is_reference_v<Src>, Src, Src &&>>;
+
+    /// Construct from component values
+    template <typename... Ts, enable_if_t<sizeof...(Ts) == Size_ && Size_ != 1 &&
+              std::conjunction_v<detail::is_constructible<StorageType, Ts>...>> = 0>
+    ENOKI_INLINE StaticArrayImpl(Ts&&... ts)
+        : m_data{{ cast_t<Ts>(ts)... }} {
+        ENOKI_CHKSCALAR("Constructor (component values)");
+    }
+
+    /// Construct from a scalar or another array
+    template <typename T, typename ST = StorageType,
+              enable_if_t<!std::is_default_constructible_v<ST>> = 0>
+    ENOKI_INLINE StaticArrayImpl(T &&value)
+        : StaticArrayImpl(std::forward<T>(value),
+                          std::make_index_sequence<Derived::Size>()) { }
+
+    template <typename T, typename ST = StorageType,
+              enable_if_t<!std::is_default_constructible_v<ST>> = 0>
+    ENOKI_INLINE StaticArrayImpl(T &&value, detail::reinterpret_flag)
+        : StaticArrayImpl(std::forward<T>(value),
+                          std::make_index_sequence<Derived::Size>()) { }
+
+    /// Construct from a scalar or another array (potential optimizations)
+    template <typename T, typename ST = StorageType,
+              enable_if_t<std::is_default_constructible_v<ST>> = 0>
+    ENOKI_INLINE StaticArrayImpl(T &&value) {
+        if constexpr (Derived::IsMask) {
+            derived() = Derived(value, detail::reinterpret_flag());
+        } else if constexpr (is_recursive_array_v<T> &&
+                             array_depth_v<T> == array_depth_v<Derived>) {
+            derived() = Derived(Array1(low(value)), Array2(high(value)));
+        } else {
+            assign_(std::forward<T>(value),
+                    std::make_index_sequence<Derived::Size>());
+        }
+    }
+
+    /// Reinterpret another array (potential optimizations)
+    template <typename T, typename ST = StorageType,
+              enable_if_t<std::is_default_constructible_v<ST>> = 0>
+    ENOKI_INLINE StaticArrayImpl(T&& value, detail::reinterpret_flag) {
+        if constexpr (is_recursive_array_v<T> &&
+                      array_depth_v<T> == array_depth_v<Derived>) {
+            derived() = Derived(reinterpret_array<Array1>(low(value)),
+                                reinterpret_array<Array2>(high(value)));
+        } else {
+            assign_(std::forward<T>(value), detail::reinterpret_flag(),
+                    std::make_index_sequence<Derived::Size>());
+        }
+    }
+
+    template <typename T> ENOKI_INLINE StaticArrayImpl &operator=(T &&value) {
+        assign_(std::forward<T>(value),
+                std::make_index_sequence<Derived::Size>());
+        return *this;
+    }
+
+    StaticArrayImpl& operator=(const StaticArrayImpl& value) {
+        assign_(value, std::make_index_sequence<Derived::Size>());
+        return *this;
+    }
+
+    StaticArrayImpl& operator=(StaticArrayImpl& value) {
+        assign_(value, std::make_index_sequence<Derived::Size>());
+        return *this;
+    }
+
+    StaticArrayImpl& operator=(StaticArrayImpl&& value) {
+        assign_(std::move(value), std::make_index_sequence<Derived::Size>());
+        return *this;
+    }
+
+    /// Construct from sub-arrays
+    template <typename T1, typename T2, typename T = StaticArrayImpl, enable_if_t<
+              array_depth_v<T1> == array_depth_v<T> && array_size_v<T1> == Base::Size1 &&
+              array_depth_v<T2> == array_depth_v<T> && array_size_v<T2> == Base::Size2 &&
+              Base::Size2 != 0> = 0>
+    StaticArrayImpl(const T1 &a1, const T2 &a2)
+        : StaticArrayImpl(a1, a2, std::make_index_sequence<Base::Size1>(),
+                                  std::make_index_sequence<Base::Size2>()) { }
+
+private:
+    template <typename T, size_t... Is, enable_if_t<!detail::broadcast<T, Derived>> = 0>
+    ENOKI_INLINE StaticArrayImpl(T&& value, std::index_sequence<Is...>)
+        : m_data{{ cast_t<decltype(value.coeff(0))>(value.coeff(Is))... }} {
+        ENOKI_CHKSCALAR("Copy constructor");
+    }
+
+    template <typename T, enable_if_t<detail::broadcast<T, Derived>> = 0, size_t... Is>
+    ENOKI_INLINE StaticArrayImpl(T&& value, std::index_sequence<Is...>)
+        : m_data{{ (Is, value)... }} {
+        ENOKI_CHKSCALAR("Copy constructor (broadcast)");
+    }
+
+    template <typename T1, typename T2, size_t... Index1, size_t... Index2>
+    ENOKI_INLINE StaticArrayImpl(const T1 &a1, const T2 &a2,
+                                 std::index_sequence<Index1...>,
+                                 std::index_sequence<Index2...>)
+        : m_data{{ a1.coeff(Index1)..., a2.coeff(Index2)... }} {
+        ENOKI_CHKSCALAR("Copy constructor (from 2 components)");
+    }
+
+    template <typename T, size_t... Is>
+    ENOKI_INLINE void assign_(T&& value, std::index_sequence<Is...>) {
+        if constexpr (std::is_same_v<array_shape_t<T>, array_shape_t<Derived>> &&
+                      std::is_same_v<Value, half>) {
+            #if defined(ENOKI_X86_F16C)
+                using Value2 = value_t<T>;
+
+                if constexpr (std::is_same_v<Value2, double>) {
+                    derived() = float32_array_t<T, false>(value);
+                    return;
+                } else if constexpr (std::is_same_v<Value2, float>) {
+                    if constexpr (Size == 4) {
+                        long long result = detail::mm_cvtsi128_si64(_mm_cvtps_ph(
+                            value.derived().m, _MM_FROUND_CUR_DIRECTION));
+                        memcpy(m_data.data(), &result, sizeof(long long));
+                        return;
+                    } else if constexpr (Size == 8) {
+                        __m128i result = _mm256_cvtps_ph(value.derived().m,
+                                                         _MM_FROUND_CUR_DIRECTION);
+                        _mm_storeu_si128((__m128i *) m_data.data(), result);
+                        return;
+                    }
+                    #if defined(ENOKI_X86_AVX512F)
+                        if constexpr (Size == 16) {
+                            __m256i result = _mm512_cvtps_ph(value.derived().m,
+                                                             _MM_FROUND_CUR_DIRECTION);
+                            _mm256_storeu_si256((__m256i *) m_data.data(), result);
+                            return;
+                        }
+                    #endif
+                }
+            #endif
+        }
+
+        constexpr bool Move = !std::is_lvalue_reference_v<T> && !is_scalar_v<Value> &&
+                               std::is_same_v<value_t<T>, value_t<Derived>>;
+        ENOKI_MARK_USED(Move);
+
+        if constexpr (std::is_same_v<std::decay_t<T>, nanogui::Array<Value, Size>>) {
+            for (size_t i = 0; i < Size; ++i)
+                coeff(i) = value[i];
+        } else if constexpr (detail::broadcast<T, Derived>) {
+            auto s = static_cast<cast_t<T>>(value);
+            bool unused[] = { (coeff(Is) = s, false)..., false };
+            (void) unused; (void) s;
+        } else {
+            if constexpr (Move) {
+                bool unused[] = { (coeff(Is) = std::move(value.derived().coeff(Is)), false)..., false };
+                (void) unused;
+            } else {
+                using Src = decltype(value.derived().coeff(0));
+                bool unused[] = { (coeff(Is) = cast_t<Src>(value.derived().coeff(Is)), false)..., false };
+                (void) unused;
+            }
+        }
+    }
+
+    template <typename T, size_t... Is>
+    ENOKI_INLINE void assign_(T&& value, detail::reinterpret_flag, std::index_sequence<Is...>) {
+        if constexpr (std::is_same_v<array_shape_t<T>, array_shape_t<Derived>> &&
+                      std::is_same_v<Value, bool> && detail::has_bitmask_v<T>) {
+            #if defined(ENOKI_X86_AVX512VL)
+                if constexpr (Size == 16) {
+                    _mm_storeu_si128((__m128i *) data(),
+                                     _mm_maskz_set1_epi8((__mmask16) value.bitmask_(), (char) 1));
+                    return;
+                } else if constexpr (Size == 8) {
+                    uint64_t result = (uint64_t) detail::mm_cvtsi128_si64(
+                        _mm_maskz_set1_epi8((__mmask8) value.bitmask_(), (char) 1));
+                    memcpy(data(), &result, sizeof(uint64_t));
+                    return;
+                } else if constexpr (Size == 4) {
+                    uint32_t result = (uint32_t) _mm_cvtsi128_si32(
+                        _mm_maskz_set1_epi8((__mmask8) value.bitmask_(), (char) 1));
+                    memcpy(data(), &result, sizeof(uint32_t));
+                    return;
+                }
+            #elif defined(ENOKI_X86_AVX2) && defined(ENOKI_X86_64)
+                uint32_t k = value.bitmask_();
+                if constexpr (Size == 16) {
+                    uint64_t low = (uint64_t) _pdep_u64(k,      0x0101010101010101ull);
+                    uint64_t hi  = (uint64_t) _pdep_u64(k >> 8, 0x0101010101010101ull);
+                    memcpy((uint8_t *) data(), &low, sizeof(uint64_t));
+                    memcpy((uint8_t *) data() + sizeof(uint64_t), &hi, sizeof(uint64_t));
+                    return;
+                } else if constexpr (Size == 8) {
+                    uint64_t result = (uint64_t) _pdep_u64(k, 0x0101010101010101ull);
+                    memcpy(data(), &result, sizeof(uint64_t));
+                    return;
+                } else if constexpr (Size == 4) {
+                    uint32_t result = (uint32_t) _pdep_u32(k, 0x01010101ull);
+                    memcpy(data(), &result, sizeof(uint32_t));
+                    return;
+                }
+            #endif
+        }
+
+        if constexpr(detail::broadcast<T, Derived>) {
+            bool unused[] = { (coeff(Is) = reinterpret_array<Value>(value), false)..., false };
+            (void) unused;
+        } else {
+            bool unused[] = { (coeff(Is) = reinterpret_array<Value>(value.coeff(Is)), false)..., false };
+            (void) unused;
+        }
+    }
+
+#if defined(_MSC_VER)
+#  pragma warning(pop)
+#elif defined(__GNUC__)
+#  pragma GCC diagnostic pop
+#endif
+
+public:
+    /// Return the size in bytes
+    size_t nbytes() const {
+        if constexpr (is_dynamic_v<Value>) {
+            size_t result = 0;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                result += coeff(i).nbytes();
+            return result;
+        } else {
+            return Base::nbytes();
+        }
+    }
+
+    /// Arithmetic NOT operation
+    ENOKI_INLINE Derived not_() const {
+        Derived result;
+        ENOKI_CHKSCALAR("not");
+        for (size_t i = 0; i < Derived::Size; ++i) {
+            if constexpr (IsMask_)
+                (Value &) result.coeff(i) = !(Value) derived().coeff(i);
+            else
+                (Value &) result.coeff(i) = ~(Value) derived().coeff(i);
+        }
+        return result;
+    }
+
+    /// Arithmetic unary negation operation
+    ENOKI_INLINE Derived neg_() const {
+        Derived result;
+        ENOKI_CHKSCALAR("neg");
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) = - (Value) derived().coeff(i);
+        return result;
+    }
+
+    /// Array indexing operator
+    ENOKI_INLINE Ref coeff(size_t i) {
+        ENOKI_CHKSCALAR("coeff");
+        return m_data[i];
+    }
+
+    /// Array indexing operator (const)
+    ENOKI_INLINE ConstRef coeff(size_t i) const {
+        ENOKI_CHKSCALAR("coeff");
+        return m_data[i];
+    }
+
+    /// Recursive array indexing operator (const)
+    template <typename... Args, enable_if_t<(sizeof...(Args) >= 1)> = 0>
+    ENOKI_INLINE decltype(auto) coeff(size_t i0, Args... other) const {
+        return coeff(i0).coeff(size_t(other)...);
+    }
+
+    /// Recursive array indexing operator
+    template <typename... Args, enable_if_t<(sizeof...(Args) >= 1)> = 0>
+    ENOKI_INLINE decltype(auto) coeff(size_t i0, Args... other) {
+        return coeff(i0).coeff(size_t(other)...);
+    }
+
+    StorageType *data() { return m_data.data(); }
+    const StorageType *data() const { return m_data.data(); }
+
+private:
+    std::array<StorageType, Size> m_data;
+};
+
+struct BitRef {
+private:
+    struct BitWrapper {
+        virtual bool get() = 0;
+        virtual void set(bool value) = 0;
+        virtual ~BitWrapper() = default;
+    };
+
+    std::unique_ptr<BitWrapper> accessor;
+public:
+    BitRef(bool &b) {
+        struct BoolWrapper : BitWrapper {
+            BoolWrapper(bool& data) : data(data) { }
+            bool get() override { return data; }
+            void set(bool value) override { data = value; }
+            bool &data;
+        };
+        accessor = std::make_unique<BoolWrapper>(b);
+    }
+
+    template <typename T>
+    BitRef(MaskBit<T> b) {
+        struct MaskBitWrapper : BitWrapper {
+            MaskBitWrapper(MaskBit<T> data) : data(data) { }
+            bool get() override { return (bool) data; }
+            void set(bool value) override { data = value; }
+            MaskBit<T> data;
+        };
+        accessor = std::make_unique<MaskBitWrapper>(b);
+    }
+
+    operator bool() const { return accessor->get(); }
+    BitRef& operator=(bool value) { accessor->set(value); return *this; }
+};
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_idiv.h b/sources/enoki/array_idiv.h
new file mode 100644
index 00000000..c33ddf22
--- /dev/null
+++ b/sources/enoki/array_idiv.h
@@ -0,0 +1,327 @@
+/*
+    enoki/array_idiv.h -- fast precomputed integer division by constants based
+    on libdivide (https://github.com/ridiculousfish/libdivide)
+
+    Copyright (C) 2010 ridiculous_fish
+
+    This software is provided 'as-is', without any express or implied
+    warranty.  In no event will the authors be held liable for any damages
+    arising from the use of this software.
+
+    Permission is granted to anyone to use this software for any purpose,
+    including commercial applications, and to alter it and redistribute it
+    freely, subject to the following restrictions:
+
+    1. The origin of this software must not be misrepresented; you must not
+       claim that you wrote the original software. If you use this software
+       in a product, an acknowledgment in the product documentation would be
+       appreciated but is not required.
+    2. Altered source versions must be plainly marked as such, and must not be
+       misrepresented as being the original software.
+    3. This notice may not be removed or altered from any source distribution.
+
+    libdivide@ridiculousfish.com
+
+*/
+
+#pragma once
+
+#include <enoki/array_generic.h>
+
+NAMESPACE_BEGIN(enoki)
+
+NAMESPACE_BEGIN(detail)
+
+// -----------------------------------------------------------------------
+//! @{ \name Precomputation for division by integer constants
+// -----------------------------------------------------------------------
+
+template <bool UseIntrinsic = false>
+std::pair<uint32_t, uint32_t> div_wide(uint32_t u1, uint32_t u0, uint32_t v) {
+#if defined(__GNUC__) && (defined(ENOKI_X86_32) || defined(ENOKI_X86_64))
+    if constexpr (UseIntrinsic) {
+        uint32_t res, rem;
+        __asm__("divl %[v]"
+                : "=a"(res), "=d"(rem)
+                : [v] "r"(v), "a"(u0), "d"(u1));
+        return { res, rem };
+    }
+#endif
+
+    uint64_t u = (((uint64_t) u1) << 32) | u0;
+
+    return { (uint32_t) (u / v),
+             (uint32_t) (u % v) };
+}
+
+template <bool UseIntrinsic = false>
+std::pair<uint64_t, uint64_t> div_wide(uint64_t u1, uint64_t u0, uint64_t d) {
+#if defined(__GNUC__) && defined(ENOKI_X86_64)
+    if constexpr (UseIntrinsic) {
+        uint64_t res, rem;
+        __asm__("divq %[v]"
+                : "=a"(res), "=d"(rem)
+                : [v]"r"(d), "a"(u0), "d"(u1));
+        return { res, rem };
+    }
+#endif
+
+#if defined(__SIZEOF_INT128__)
+    __uint128_t n = (((__uint128_t) u1) << 64) | u0;
+    return {
+        (uint64_t) (n / d),
+        (uint64_t) (n % d)
+    };
+#else
+    // Code taken from Hacker's Delight:
+    // http://www.hackersdelight.org/HDcode/divlu.c.
+    // License permits inclusion here per:
+    // http://www.hackersdelight.org/permissions.htm
+
+    const uint64_t b = (1ULL << 32); // Number base (16 bits).
+    uint64_t un1, un0,  // Norm. dividend LSD's.
+    vn1, vn0,           // Norm. divisor digits.
+    q1, q0,             // Quotient digits.
+    un64, un21, un10,   // Dividend digit pairs.
+    rhat;               // A remainder.
+    int s;              // Shift amount for norm.
+
+    if (u1 >= d) // overflow
+        return { (uint64_t) -1, (uint64_t) -1 };
+
+    // count leading zeros
+    s = (int) (63 - log2i(d)); // 0 <= s <= 63.
+    if (s > 0) {
+        d = d << s;         // Normalize divisor.
+        un64 = (u1 << s) | ((u0 >> (64 - s)) & uint64_t(-s >> 31));
+        un10 = u0 << s;     // Shift dividend left.
+    } else {
+        // Avoid undefined behavior.
+        un64 = u1 | u0;
+        un10 = u0;
+    }
+
+    vn1 = d >> 32;            // Break divisor up into
+    vn0 = d & 0xFFFFFFFF;     // two 32-bit digits.
+
+    un1 = un10 >> 32;         // Break right half of
+    un0 = un10 & 0xFFFFFFFF;  // dividend into two digits.
+
+    q1 = un64/vn1;            // Compute the first
+    rhat = un64 - q1*vn1;     // quotient digit, q1.
+
+again1:
+    if (q1 >= b || q1*vn0 > b*rhat + un1) {
+        q1 = q1 - 1;
+        rhat = rhat + vn1;
+        if (rhat < b)
+            goto again1;
+    }
+
+    un21 = un64*b + un1 - q1*d;  // Multiply and subtract.
+
+    q0 = un21/vn1;            // Compute the second
+    rhat = un21 - q0*vn1;     // quotient digit, q0.
+
+again2:
+    if (q0 >= b || q0 * vn0 > b * rhat + un0) {
+        q0 = q0 - 1;
+        rhat = rhat + vn1;
+        if (rhat < b)
+            goto again2;
+    }
+
+    return {
+        q1*b + q0,
+        (un21*b + un0 - q0*d) >> s
+    };
+#endif
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+NAMESPACE_END(detail)
+
+#if defined(_MSC_VER)
+#  pragma pack(push)
+#  pragma pack(1)
+#endif
+
+template <typename T, bool UseIntrinsic>
+struct divisor<T, UseIntrinsic, enable_if_t<std::is_unsigned_v<T>>> {
+    T multiplier;
+    uint8_t shift;
+
+    divisor() = default;
+
+    ENOKI_INLINE divisor(T d) {
+        /* Division by +/-1 is not supported by the
+           precomputation-based approach */
+        assert(d != 1);
+        shift = (uint8_t) log2i(d);
+
+        if ((d & (d - 1)) == 0) {
+            /* Power of two */
+            multiplier = 0;
+            shift--;
+        } else {
+            /* General case */
+            auto [m, rem] =
+                detail::div_wide<UseIntrinsic>(T(1) << shift, T(0), d);
+            multiplier = m * 2 + 1;
+            assert(rem > 0 && rem < d);
+
+            T rem2 = rem * 2;
+            if (rem2 >= d || rem2 < rem)
+                multiplier += 1;
+        }
+    }
+
+    template <typename T2>
+    ENOKI_INLINE auto operator()(const T2 &value) const {
+        using Expr = decltype(value + value);
+        auto q = mulhi(Expr(multiplier), value);
+        auto t = sr<1>(value - q) + q;
+        return t >> shift;
+    }
+} ENOKI_PACK;
+
+template <typename T, bool UseIntrinsic>
+struct divisor<T, UseIntrinsic, enable_if_t<std::is_signed_v<T>>> {
+    using U = std::make_unsigned_t<T>;
+
+    T multiplier;
+    uint8_t shift;
+
+    divisor() = default;
+
+    ENOKI_INLINE divisor(T d) {
+        /* Division by +/-1 is not supported by the
+           precomputation-based approach */
+        assert(d != 1 && d != -1);
+
+        U ad = d < 0 ? (U) -d : (U) d;
+        shift = (uint8_t) log2i(ad);
+
+        if ((ad & (ad - 1)) == 0) {
+            /* Power of two */
+            multiplier = 0;
+        } else {
+            /* General case */
+            auto [m, rem] =
+                detail::div_wide<UseIntrinsic>(U(1) << (shift - 1), U(0), ad);
+            multiplier = T(m * 2 + 1);
+
+            U rem2 = rem * 2;
+            if (rem2 >= ad || rem2 < rem)
+                multiplier += 1;
+        }
+        if (d < 0)
+            shift |= 0x80;
+    }
+
+    template <typename T2>
+    ENOKI_INLINE auto operator()(const T2 &value) const {
+        using Expr = decltype(value + value);
+        uint8_t shift_ = shift & 0x3f;
+        Expr sign(int8_t(shift) >> 7);
+
+        auto q = mulhi(Expr(multiplier), value) + value;
+        auto q_sign = sr<sizeof(T) * 8 - 1>(q);
+        q += q_sign & ((T(1) << shift_) - (multiplier == 0 ? 1 : 0));
+
+        return ((q >> shift_) ^ sign) - sign;
+    }
+} ENOKI_PACK;
+
+/// Stores *both* the original divisor + magic number
+template <typename T> struct divisor_ext : divisor<T> {
+    T value;
+    ENOKI_INLINE divisor_ext(T value) : divisor<T>(value), value(value) { }
+} ENOKI_PACK;
+
+#if defined(_MSC_VER)
+#  pragma pack(pop)
+#endif
+
+template <typename T, enable_if_t<std::is_integral_v<scalar_t<T>>> = 0>
+ENOKI_INLINE auto operator/(const T &a, const divisor<scalar_t<T>> &div) {
+    return div(a);
+}
+
+template <typename T, enable_if_t<std::is_integral_v<scalar_t<T>>> = 0>
+ENOKI_INLINE auto operator%(const T &a, const divisor_ext<scalar_t<T>> &div) {
+    return a - div(a) * div.value;
+}
+
+// -----------------------------------------------------------------------
+//! @{ \name Arithmetic operations for pointer arrays
+// -----------------------------------------------------------------------
+
+template <typename T1, typename T2,
+          typename S1 = scalar_t<T1>, typename S2 = scalar_t<T2>,
+          enable_if_t<std::is_pointer_v<S1> || std::is_pointer_v<S2>> = 0,
+          enable_if_array_any_t<T1, T2> = 0>
+ENOKI_INLINE auto operator-(const T1 &a1_, const T2 &a2_) {
+    using Int = std::conditional_t<sizeof(void *) == 8, int64_t, int32_t>;
+    using T1i = replace_scalar_t<T1, Int, false>;
+    using T2i = replace_scalar_t<T2, Int, false>;
+    using Ti  = expr_t<T1i, T2i>;
+    using T   = expr_t<T1, T2>;
+
+    constexpr Int InstanceSize    = sizeof(std::remove_pointer_t<scalar_t<T1>>),
+                  LogInstanceSize = detail::clog2i(InstanceSize);
+
+    constexpr bool PointerDiff = std::is_pointer_v<S1> &&
+                                 std::is_pointer_v<S2>;
+
+    using Ret = std::conditional_t<PointerDiff, Ti, T>;
+    Ti a1 = Ti((T1i) a1_),
+       a2 = Ti((T2i) a2_);
+
+    if constexpr (InstanceSize == 1) {
+        return Ret(a1.sub_(a2));
+    } else if constexpr ((1 << LogInstanceSize) == InstanceSize) {
+        if constexpr (PointerDiff)
+            return Ret(a1.sub_(a2).template sr_<LogInstanceSize>());
+        else
+            return Ret(a1.sub_(a2.template sl_<LogInstanceSize>()));
+    } else {
+        if constexpr (PointerDiff)
+            return Ret(a1.sub_(a2) / InstanceSize);
+        else
+            return Ret(a1.sub_(a2 * InstanceSize));
+    }
+}
+
+
+template <typename T1, typename T2,
+          typename S1 = scalar_t<T1>, typename S2 = scalar_t<T2>,
+          enable_if_t<std::is_pointer_v<S1> && !std::is_pointer_v<S2>> = 0,
+          enable_if_array_any_t<T1, T2> = 0>
+ENOKI_INLINE auto operator+(const T1 &a1_, const T2 &a2_) {
+    using Int = std::conditional_t<sizeof(void *) == 8, int64_t, int32_t>;
+    using T1i = replace_scalar_t<T1, Int, false>;
+    using T2i = replace_scalar_t<T2, Int, false>;
+    using Ti  = expr_t<T1i, T2i>;
+    using Ret = expr_t<T1, T2>;
+
+    constexpr Int InstanceSize    = sizeof(std::remove_pointer_t<scalar_t<T1>>),
+                  LogInstanceSize = detail::clog2i(InstanceSize);
+
+    Ti a1 = Ti((T1i) a1_),
+       a2 = Ti((T2i) a2_);
+
+    if constexpr (InstanceSize == 1)
+        return Ret(a1.add_(a2));
+    if constexpr ((1 << LogInstanceSize) == InstanceSize)
+        return Ret(a1.add_(a2.template sl_<LogInstanceSize>()));
+    else
+        return Ret(a1.add_(a2 * InstanceSize));
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_intrin.h b/sources/enoki/array_intrin.h
new file mode 100644
index 00000000..3ead66f5
--- /dev/null
+++ b/sources/enoki/array_intrin.h
@@ -0,0 +1,326 @@
+/*
+    enoki/array_kmask.h -- Hardware-specific intrinsics and compatibility
+    wrappers
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using ENOKI instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+#include <enoki/fwd.h>
+
+#if defined(ENOKI_X86_64) || defined(ENOKI_X86_32)
+#  if defined(__GNUC__) && !defined(__clang__)
+#    pragma GCC diagnostic push
+#    pragma GCC diagnostic ignored "-Wconversion"
+#    pragma GCC diagnostic ignored "-Wuninitialized"
+#    pragma GCC diagnostic ignored "-Wmaybe-uninitialized"
+#  endif
+#  include <immintrin.h>
+#  if defined(__GNUC__) && !defined(__clang__)
+#    pragma GCC diagnostic pop
+#  endif
+#endif
+
+#if defined(ENOKI_ARM_NEON)
+#  include <arm_neon.h>
+#endif
+
+#if defined(_MSC_VER)
+#  include <intrin.h>
+#endif
+
+
+NAMESPACE_BEGIN(enoki)
+
+// -----------------------------------------------------------------------
+//! @{ \name Available instruction sets
+// -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_AVX512F)
+    static constexpr bool has_avx512f = true;
+#else
+    static constexpr bool has_avx512f = false;
+#endif
+
+#if defined(ENOKI_X86_AVX512CD)
+    static constexpr bool has_avx512cd = true;
+#else
+    static constexpr bool has_avx512cd = false;
+#endif
+
+#if defined(ENOKI_X86_AVX512DQ)
+    static constexpr bool has_avx512dq = true;
+#else
+    static constexpr bool has_avx512dq = false;
+#endif
+
+#if defined(ENOKI_X86_AVX512VL)
+    static constexpr bool has_avx512vl = true;
+#else
+    static constexpr bool has_avx512vl = false;
+#endif
+
+#if defined(ENOKI_X86_AVX512BW)
+    static constexpr bool has_avx512bw = true;
+#else
+    static constexpr bool has_avx512bw = false;
+#endif
+
+#if defined(ENOKI_X86_AVX512PF)
+    static constexpr bool has_avx512pf = true;
+#else
+    static constexpr bool has_avx512pf = false;
+#endif
+
+#if defined(ENOKI_X86_AVX512ER)
+    static constexpr bool has_avx512er = true;
+#else
+    static constexpr bool has_avx512er = false;
+#endif
+
+#if defined(__AVX512VBMI__)
+    static constexpr bool has_avx512vbmi = true;
+#else
+    static constexpr bool has_avx512vbmi = false;
+#endif
+
+#if defined(ENOKI_X86_AVX512VPOPCNTDQ)
+    static constexpr bool has_avx512vpopcntdq = true;
+#else
+    static constexpr bool has_avx512vpopcntdq = false;
+#endif
+
+#if defined(ENOKI_X86_AVX2)
+    static constexpr bool has_avx2 = true;
+#else
+    static constexpr bool has_avx2 = false;
+#endif
+
+#if defined(ENOKI_X86_FMA) || defined(ENOKI_ARM_FMA)
+    static constexpr bool has_fma = true;
+#else
+    static constexpr bool has_fma = false;
+#endif
+
+#if defined(ENOKI_X86_F16C)
+    static constexpr bool has_f16c = true;
+#else
+    static constexpr bool has_f16c = false;
+#endif
+
+#if defined(ENOKI_X86_AVX)
+    static constexpr bool has_avx = true;
+#else
+    static constexpr bool has_avx = false;
+#endif
+
+#if defined(ENOKI_X86_SSE42)
+    static constexpr bool has_sse42 = true;
+#else
+    static constexpr bool has_sse42 = false;
+#endif
+
+#if defined(ENOKI_X86_32)
+    static constexpr bool has_x86_32 = true;
+#else
+    static constexpr bool has_x86_32 = false;
+#endif
+
+#if defined(ENOKI_X86_64)
+    static constexpr bool has_x86_64 = true;
+#else
+    static constexpr bool has_x86_64 = false;
+#endif
+
+#if defined(ENOKI_ARM_NEON)
+    static constexpr bool has_neon = true;
+#else
+    static constexpr bool has_neon = false;
+#endif
+
+#if defined(ENOKI_ARM_32)
+    static constexpr bool has_arm_32 = true;
+#else
+    static constexpr bool has_arm_32 = false;
+#endif
+
+#if defined(ENOKI_ARM_64)
+    static constexpr bool has_arm_64 = true;
+#else
+    static constexpr bool has_arm_64 = false;
+#endif
+
+static constexpr bool has_vectorization = has_sse42 || has_neon;
+
+//! @}
+// -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_SSE42)
+/// Flush denormalized numbers to zero
+inline void set_flush_denormals(bool value) {
+    _MM_SET_FLUSH_ZERO_MODE(value ? _MM_FLUSH_ZERO_ON : _MM_FLUSH_ZERO_OFF);
+    _MM_SET_DENORMALS_ZERO_MODE(value ? _MM_DENORMALS_ZERO_ON : _MM_DENORMALS_ZERO_OFF);
+}
+
+inline bool flush_denormals() {
+    return _MM_GET_FLUSH_ZERO_MODE() == _MM_FLUSH_ZERO_ON;
+}
+
+#else
+inline void set_flush_denormals(bool) { }
+inline bool flush_denormals() { return false; }
+#endif
+
+struct scoped_flush_denormals {
+public:
+    scoped_flush_denormals(bool value) {
+        m_old_value = flush_denormals();
+        set_flush_denormals(value);
+
+    }
+
+    ~scoped_flush_denormals() {
+        set_flush_denormals(m_old_value);
+    }
+private:
+    bool m_old_value;
+};
+
+NAMESPACE_BEGIN(detail)
+
+// -----------------------------------------------------------------------
+//! @{ \name Helper routines to merge smaller arrays into larger ones
+// -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_AVX)
+ENOKI_INLINE __m256 concat(__m128 l, __m128 h) {
+    return _mm256_insertf128_ps(_mm256_castps128_ps256(l), h, 1);
+}
+
+ENOKI_INLINE __m256d concat(__m128d l, __m128d h) {
+    return _mm256_insertf128_pd(_mm256_castpd128_pd256(l), h, 1);
+}
+
+ENOKI_INLINE __m256i concat(__m128i l, __m128i h) {
+    return _mm256_insertf128_si256(_mm256_castsi128_si256(l), h, 1);
+}
+#endif
+
+#if defined(ENOKI_X86_AVX512F)
+ENOKI_INLINE __m512 concat(__m256 l, __m256 h) {
+    #if defined(ENOKI_X86_AVX512DQ)
+        return _mm512_insertf32x8(_mm512_castps256_ps512(l), h, 1);
+    #else
+        return _mm512_castpd_ps(
+            _mm512_insertf64x4(_mm512_castps_pd(_mm512_castps256_ps512(l)),
+                               _mm256_castps_pd(h), 1));
+    #endif
+}
+
+ENOKI_INLINE __m512d concat(__m256d l, __m256d h) {
+    return _mm512_insertf64x4(_mm512_castpd256_pd512(l), h, 1);
+}
+
+ENOKI_INLINE __m512i concat(__m256i l, __m256i h) {
+    return _mm512_inserti64x4(_mm512_castsi256_si512(l), h, 1);
+}
+#endif
+
+//! @}
+// -----------------------------------------------------------------------
+
+// -----------------------------------------------------------------------
+//! @{ \name Mask conversion routines for various platforms
+// -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_AVX)
+ENOKI_INLINE __m256i mm256_cvtepi32_epi64(__m128i x) {
+#if defined(ENOKI_X86_AVX2)
+    return _mm256_cvtepi32_epi64(x);
+#else
+    /* This version is only suitable for mask conversions */
+    __m128i xl = _mm_shuffle_epi32(x, _MM_SHUFFLE(1, 1, 0, 0));
+    __m128i xh = _mm_shuffle_epi32(x, _MM_SHUFFLE(3, 3, 2, 2));
+    return detail::concat(xl, xh);
+#endif
+}
+
+ENOKI_INLINE __m128i mm256_cvtepi64_epi32(__m256i x) {
+#if defined(ENOKI_X86_AVX512VL)
+    return _mm256_cvtepi64_epi32(x);
+#else
+    __m128i x0 = _mm256_castsi256_si128(x);
+    __m128i x1 = _mm256_extractf128_si256(x, 1);
+    return _mm_castps_si128(_mm_shuffle_ps(
+        _mm_castsi128_ps(x0), _mm_castsi128_ps(x1), _MM_SHUFFLE(2, 0, 2, 0)));
+#endif
+}
+
+ENOKI_INLINE __m256i mm512_cvtepi64_epi32(__m128i x0, __m128i x1, __m128i x2, __m128i x3) {
+    __m128i y0 = _mm_castps_si128(_mm_shuffle_ps(
+        _mm_castsi128_ps(x0), _mm_castsi128_ps(x1), _MM_SHUFFLE(2, 0, 2, 0)));
+    __m128i y1 = _mm_castps_si128(_mm_shuffle_ps(
+        _mm_castsi128_ps(x2), _mm_castsi128_ps(x3), _MM_SHUFFLE(2, 0, 2, 0)));
+    return detail::concat(y0, y1);
+}
+
+ENOKI_INLINE __m256i mm512_cvtepi64_epi32(__m256i x0, __m256i x1) {
+    __m128i y0 = _mm256_castsi256_si128(x0);
+    __m128i y1 = _mm256_extractf128_si256(x0, 1);
+    __m128i y2 = _mm256_castsi256_si128(x1);
+    __m128i y3 = _mm256_extractf128_si256(x1, 1);
+    return mm512_cvtepi64_epi32(y0, y1, y2, y3);
+}
+#endif
+
+#if defined(ENOKI_X86_SSE42)
+
+ENOKI_INLINE __m128i mm256_cvtepi64_epi32(__m128i x0, __m128i x1) {
+    return _mm_castps_si128(_mm_shuffle_ps(
+        _mm_castsi128_ps(x0), _mm_castsi128_ps(x1), _MM_SHUFFLE(2, 0, 2, 0)));
+}
+
+ENOKI_INLINE __m128i mm_cvtsi64_si128(long long a)  {
+    #if defined(ENOKI_X86_64)
+        return _mm_cvtsi64_si128(a);
+    #else
+        alignas(16) long long x[2] = { a, 0ll };
+        return _mm_load_si128((__m128i *) x);
+    #endif
+}
+
+ENOKI_INLINE long long mm_cvtsi128_si64(__m128i m)  {
+    #if defined(ENOKI_X86_64)
+        return _mm_cvtsi128_si64(m);
+    #else
+        alignas(16) long long x[2];
+        _mm_store_si128((__m128i *) x, m);
+        return x[0];
+    #endif
+}
+
+template <int Imm8>
+ENOKI_INLINE long long mm_extract_epi64(__m128i m)  {
+    #if defined(ENOKI_X86_64)
+        return _mm_extract_epi64(m, Imm8);
+    #else
+        alignas(16) long long x[2];
+        _mm_store_si128((__m128i *) x, m);
+        return x[Imm8];
+    #endif
+}
+
+#endif
+
+//! @}
+// -----------------------------------------------------------------------
+
+NAMESPACE_END(detail)
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_kmask.h b/sources/enoki/array_kmask.h
new file mode 100644
index 00000000..b4601063
--- /dev/null
+++ b/sources/enoki/array_kmask.h
@@ -0,0 +1,296 @@
+/*
+    enoki/array_kmask.h -- Abstraction around AVX512 'k' mask registers
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using ENOKI instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+NAMESPACE_BEGIN(enoki)
+
+/// SFINAE macro for constructors that reinterpret another type
+#define ENOKI_REINTERPRET_KMASK(Value)                                         \
+    template <typename Value2, typename Derived2, bool IsMask2,                \
+              enable_if_t<detail::is_same_v<Value2, Value>> = 0>               \
+    ENOKI_INLINE KMaskBase(                                                    \
+        const StaticArrayBase<Value2, Size, IsMask2, Derived2> &a,             \
+        detail::reinterpret_flag)
+
+#define ENOKI_REINTERPRET_KMASK_SIZE(Value, Size)                              \
+    template <typename Value2, typename Derived2, bool IsMask2,                \
+              enable_if_t<detail::is_same_v<Value2, Value>> = 0>               \
+    ENOKI_INLINE KMaskBase(                                                    \
+        const StaticArrayBase<Value2, Size, IsMask2, Derived2> &a,             \
+        detail::reinterpret_flag)
+
+template <typename Value_, size_t Size_> struct KMask;
+
+template <typename Value_, size_t Size_, typename Derived_>
+struct KMaskBase : StaticArrayBase<Value_, Size_, true, Derived_> {
+    using Register = std::conditional_t<(Size_ > 8), __mmask16, __mmask8>;
+    using Derived = Derived_;
+    using Base = StaticArrayBase<Value_, Size_, true, Derived_>;
+    using Base::Size;
+    using Base::derived;
+    static constexpr bool IsNative = true;
+    static constexpr bool IsKMask = true;
+    static constexpr Register BitMask = Register((1 << Size_) - 1);
+
+    ENOKI_ARRAY_DEFAULTS(KMaskBase)
+
+#if defined(NDEBUG)
+    KMaskBase() = default;
+#else
+    KMaskBase() : k(BitMask) { }
+#endif
+
+    template <typename Array, enable_if_t<std::is_same_v<Register, typename Array::Derived::Register>> = 0>
+    ENOKI_INLINE KMaskBase(const Array &other, detail::reinterpret_flag) : k(other.derived().k) { }
+
+    template <typename T, enable_if_t<std::is_same_v<bool, T> || std::is_same_v<int, T>> = 0>
+    ENOKI_INLINE KMaskBase(const T &b, detail::reinterpret_flag)
+        : k(bool(b) ? BitMask : Register(0)) { }
+
+    ENOKI_REINTERPRET_KMASK(bool) {
+        __m128i value;
+        if constexpr (Size == 16)
+            value = _mm_loadu_si128((__m128i *) a.derived().data());
+        else if constexpr (Size == 8)
+            value = _mm_loadl_epi64((const __m128i *) a.derived().data());
+        else if constexpr (Size == 4 || Size == 3)
+            value = _mm_cvtsi32_si128(*((const int *) a.derived().data()));
+        else if constexpr (Size == 2)
+            value = _mm_cvtsi32_si128((int) *((const short *) a.derived().data()));
+        else
+            static_assert(detail::false_v<Value2>, "Unsupported number of elements");
+
+#if defined(ENOKI_X86_AVX512VL) && defined(ENOKI_X86_AVX512BW)
+        k = (Register) _mm_test_epi8_mask(value, _mm_set1_epi8((char) 0xFF));
+#else
+        k = (Register) _mm512_test_epi32_mask(_mm512_cvtepi8_epi32(value),
+                                              _mm512_set1_epi8((char) 0xFF));
+#endif
+    }
+
+#if !defined(ENOKI_X86_AVX512VL)
+    ENOKI_REINTERPRET_KMASK_SIZE(float, 8)    : k((Register) _mm256_movemask_ps(a.derived().m)) { }
+    ENOKI_REINTERPRET_KMASK_SIZE(int32_t, 8)  : k((Register) _mm256_movemask_ps(_mm256_castsi256_ps(a.derived().m))) { }
+    ENOKI_REINTERPRET_KMASK_SIZE(uint32_t, 8) : k((Register) _mm256_movemask_ps(_mm256_castsi256_ps(a.derived().m))) { }
+#endif
+
+    ENOKI_REINTERPRET_KMASK_SIZE(double, 16)   { k = _mm512_kunpackb(high(a).k, low(a).k); }
+    ENOKI_REINTERPRET_KMASK_SIZE(int64_t, 16)  { k = _mm512_kunpackb(high(a).k, low(a).k); }
+    ENOKI_REINTERPRET_KMASK_SIZE(uint64_t, 16) { k = _mm512_kunpackb(high(a).k, low(a).k); }
+
+    template <typename T> ENOKI_INLINE static Derived from_k(const T &k) {
+        Derived result;
+        result.k = (Register) k;
+        return result;
+    }
+
+    ENOKI_INLINE Derived eq_(const Derived &a) const {
+        if constexpr (Size_ == 16) /* Use intrinsic if possible */
+            return Derived::from_k(_mm512_kxnor(k, a.k));
+        else
+            return Derived::from_k(~(k ^ a.k));
+    }
+
+    ENOKI_INLINE Derived neq_(const Derived &a) const {
+        if constexpr (Size_ == 16) /* Use intrinsic if possible */
+            return Derived::from_k(_mm512_kxor(k, a.k));
+        else
+            return Derived::from_k(k ^ a.k);
+    }
+
+    ENOKI_INLINE Derived or_(const Derived &a) const {
+        if constexpr (Size_ == 16) /* Use intrinsic if possible */
+            return Derived::from_k(_mm512_kor(k, a.k));
+        else
+            return Derived::from_k(k | a.k);
+    }
+
+    ENOKI_INLINE Derived and_(const Derived &a) const {
+        if constexpr (Size_ == 16) /* Use intrinsic if possible */
+            return Derived::from_k(_mm512_kand(k, a.k));
+        else
+            return Derived::from_k(k & a.k);
+    }
+
+    ENOKI_INLINE Derived andnot_(const Derived &a) const {
+        if constexpr (Size_ == 16) /* Use intrinsic if possible */
+            return Derived::from_k(_mm512_kandn(a.k, k));
+        else
+            return Derived::from_k(k & ~a.k);
+    }
+
+    ENOKI_INLINE Derived xor_(const Derived &a) const {
+        if constexpr (Size_ == 16) /* Use intrinsic if possible */
+            return Derived::from_k(_mm512_kxor(k, a.k));
+        else
+            return Derived::from_k(k ^ a.k);
+    }
+
+    ENOKI_INLINE Derived not_() const {
+        if constexpr (Size_ == 16)
+            return Derived::from_k(_mm512_knot(k));
+        else
+            return Derived::from_k(~k);
+    }
+
+    static ENOKI_INLINE Derived select_(const Derived &m, const Derived &t, const Derived &f) {
+        if constexpr (Size_ == 16)
+            return Derived::from_k(_mm512_kor(_mm512_kand (m.k, t.k),
+                                              _mm512_kandn(m.k, f.k)));
+        else
+            return Derived::from_k((m.k & t.k) | (~m.k & f.k));
+    }
+
+    ENOKI_INLINE bool all_() const {
+        if constexpr (Size_ == 16)
+            return _mm512_kortestc(k, k);
+        else if constexpr (Size_ == 8)
+            return k == BitMask;
+        else
+            return (k & BitMask) == BitMask;
+    }
+
+    ENOKI_INLINE bool any_() const {
+        if constexpr (Size_ == 16)
+            return !_mm512_kortestz(k, k);
+        else if constexpr (Size_ == 8)
+            return k != 0;
+        else
+            return (k & BitMask) != 0;
+    }
+
+    ENOKI_INLINE uint32_t bitmask_() const {
+        if constexpr (Size_ == 8 || Size_ == 16)
+            return (uint32_t) k;
+        else
+            return (uint32_t) (k & BitMask);
+    }
+
+    ENOKI_INLINE size_t count_() const {
+        return (size_t) _mm_popcnt_u32(bitmask_());
+    }
+
+    ENOKI_INLINE bool bit_(size_t i) const {
+        return (k & ((Register) 1 << i)) != 0;
+    }
+
+    ENOKI_INLINE void set_bit_(size_t i, bool value) {
+        k = (Register) (k ^ ((-value ^ k) & ((Register) 1 << i)));
+    }
+
+    ENOKI_INLINE auto coeff(size_t i) const {
+        return MaskBit<const Derived &>(derived(), i);
+    }
+
+    ENOKI_INLINE auto coeff(size_t i) {
+        return MaskBit<Derived &>(derived(), i);
+    }
+
+    static Derived zero_() { return Derived::from_k(0); }
+
+    template <typename Return = KMask<Value_, Size_ / 2>>
+    ENOKI_INLINE Return low_() const {
+        if constexpr (Size == 16)
+            return Return::from_k(__mmask8(k));
+        else
+            return Return::from_k(Return::BitMask & k);
+    }
+
+    template <typename Return = KMask<Value_, Size_ / 2>>
+    ENOKI_INLINE Return high_()  const {
+        return Return::from_k(k >> (Size_ / 2));
+    }
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        store_unaligned_(ptr);
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        memcpy(ptr, &k, sizeof(Register));
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        return load_unaligned_(ptr);
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        Derived result;
+        memcpy(&result.k, ptr, sizeof(Register));
+        return result;
+    }
+
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index_, const Mask &mask) {
+        using UInt32 = Array<uint32_t, Size>;
+
+        UInt32 index_32 = UInt32(index_),
+               index, offset;
+
+        if (Size == 2) {
+            index  = sr<1>(index_32);
+            offset = Index(1) << (index_32 & (uint32_t) 0x1);
+        } else if (Size == 4) {
+            index  = sr<2>(index_32);
+            offset = Index(1) << (index_32 & (uint32_t) 0x3);
+        } else {
+            index  = sr<3>(index_32);
+            offset = Index(1) << (index_32 & (uint32_t) 0x7);
+        }
+
+#if 0
+        const uint8_t *in = (const uint8_t *) ptr;
+        Register bit = 1, accum = 0;
+        for (size_t i = 0; i < Size; ++i) {
+            if ((bool) mask.coeff(i) && (in[index.coeff(i)] & offset.coeff(i)) != 0)
+                accum |= bit;
+            bit <<= 1;
+        }
+        return Derived::from_k(accum);
+#else
+        return Derived(neq(gather<UInt32, 1>(ptr, index, mask) & offset, (uint32_t) 0));
+#endif
+    }
+
+    template <typename Array, enable_if_t<std::is_same_v<Register, typename Array::Derived::Register>> = 0>
+    ENOKI_INLINE Derived& operator=(const Array &other) {
+        k = other.derived().k;
+        return derived();
+    }
+
+    template <typename T, enable_if_t<std::is_same_v<bool, T> || std::is_same_v<int, T>> = 0>
+    ENOKI_INLINE Derived& operator=(const T &b) {
+        k = bool(b) ? BitMask : Register(0);
+        return derived();
+    }
+
+    Register k;
+};
+
+template <typename Value_, size_t Size_>
+struct KMask : KMaskBase<Value_, Size_, KMask<Value_, Size_>> {
+    using Base = KMaskBase<Value_, Size_, KMask<Value_, Size_>>;
+
+    ENOKI_ARRAY_IMPORT(Base, KMask)
+};
+
+#define ENOKI_DECLARE_KMASK(Type, Size, Derived, SFINAE)                       \
+    struct StaticArrayImpl<Type, Size, true, Derived, SFINAE>                  \
+        : KMaskBase<Type, Size, Derived> {                                     \
+        using Base = KMaskBase<Type, Size, Derived>;                           \
+        ENOKI_ARRAY_DEFAULTS(StaticArrayImpl)                                  \
+        using Base::Base;                                                      \
+        using Base::operator=;                                                 \
+    };
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_macro.h b/sources/enoki/array_macro.h
new file mode 100644
index 00000000..cdf1c3b2
--- /dev/null
+++ b/sources/enoki/array_macro.h
@@ -0,0 +1,419 @@
+/*
+    enoki/array_macro.h -- Code generation macros for custom data structures
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+// The main idea of this macro is borrowed from https://github.com/swansontec/map-macro
+// (C) William Swanson, Paul Fultz
+#define ENOKI_EVAL_0(...) __VA_ARGS__
+#define ENOKI_EVAL_1(...) ENOKI_EVAL_0(ENOKI_EVAL_0(ENOKI_EVAL_0(__VA_ARGS__)))
+#define ENOKI_EVAL_2(...) ENOKI_EVAL_1(ENOKI_EVAL_1(ENOKI_EVAL_1(__VA_ARGS__)))
+#define ENOKI_EVAL_3(...) ENOKI_EVAL_2(ENOKI_EVAL_2(ENOKI_EVAL_2(__VA_ARGS__)))
+#define ENOKI_EVAL_4(...) ENOKI_EVAL_3(ENOKI_EVAL_3(ENOKI_EVAL_3(__VA_ARGS__)))
+#define ENOKI_EVAL(...)   ENOKI_EVAL_4(ENOKI_EVAL_4(ENOKI_EVAL_4(__VA_ARGS__)))
+#define ENOKI_MAP_END(...)
+#define ENOKI_MAP_OUT
+#define ENOKI_MAP_COMMA ,
+#define ENOKI_MAP_GET_END() 0, ENOKI_MAP_END
+#define ENOKI_MAP_NEXT_0(test, next, ...) next ENOKI_MAP_OUT
+#define ENOKI_MAP_NEXT_1(test, next) ENOKI_MAP_NEXT_0(test, next, 0)
+#define ENOKI_MAP_NEXT(test, next) ENOKI_MAP_NEXT_1(ENOKI_MAP_GET_END test, next)
+#define ENOKI_EXTRACT_0(next, ...) next
+
+#if defined(_MSC_VER) // MSVC is not as eager to expand macros, hence this workaround
+#define ENOKI_MAP_EXPR_NEXT_1(test, next) \
+    ENOKI_EVAL_0(ENOKI_MAP_NEXT_0(test, ENOKI_MAP_COMMA next, 0))
+#define ENOKI_MAP_STMT_NEXT_1(test, next) \
+    ENOKI_EVAL_0(ENOKI_MAP_NEXT_0(test, next, 0))
+#else
+#define ENOKI_MAP_EXPR_NEXT_1(test, next) \
+    ENOKI_MAP_NEXT_0(test, ENOKI_MAP_COMMA next, 0)
+#define ENOKI_MAP_STMT_NEXT_1(test, next) \
+    ENOKI_MAP_NEXT_0(test, next, 0)
+#endif
+
+#define ENOKI_MAP_EXPR_NEXT(test, next) \
+    ENOKI_MAP_EXPR_NEXT_1 (ENOKI_MAP_GET_END test, next)
+#define ENOKI_MAP_STMT_NEXT(test, next) \
+    ENOKI_MAP_STMT_NEXT_1 (ENOKI_MAP_GET_END test, next)
+
+#define ENOKI_MAP_TEMPLATE_FWD_0(x, peek, ...) \
+    typename T##x ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_TEMPLATE_FWD_1)(peek, __VA_ARGS__)
+#define ENOKI_MAP_TEMPLATE_FWD_1(x, peek, ...) \
+    typename T##x ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_TEMPLATE_FWD_0)(peek, __VA_ARGS__)
+
+#define ENOKI_MAP_EXPR_DECL_FWD_0(x, peek, ...) \
+    T##x &&x ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_DECL_FWD_1)(peek, __VA_ARGS__)
+#define ENOKI_MAP_EXPR_DECL_FWD_1(x, peek, ...) \
+    T##x &&x ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_DECL_FWD_0)(peek, __VA_ARGS__)
+
+#define ENOKI_MAP_EXPR_BASE_FWD_0(x, peek, ...) \
+    std::forward<T##x>(x) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_BASE_FWD_1)(peek, __VA_ARGS__)
+#define ENOKI_MAP_EXPR_BASE_FWD_1(x, peek, ...) \
+    std::forward<T##x>(x) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_BASE_FWD_0)(peek, __VA_ARGS__)
+
+#define ENOKI_MAP_EXPR_FWD_0(x, peek, ...) \
+    x(std::forward<T##x>(x)) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_FWD_1)(peek, __VA_ARGS__)
+#define ENOKI_MAP_EXPR_FWD_1(x, peek, ...) \
+    x(std::forward<T##x>(x)) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_FWD_0)(peek, __VA_ARGS__)
+
+#define ENOKI_MAP_EXPR_COPY_0(x, peek, ...) \
+    x(x) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_COPY_1)(peek, __VA_ARGS__)
+#define ENOKI_MAP_EXPR_COPY_1(x, peek, ...) \
+    x(x) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_COPY_0)(peek, __VA_ARGS__)
+
+#define ENOKI_MAP_EXPR_COPY_V_0(v, x, peek, ...) \
+    x(v.x) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_COPY_V_1)(v, peek, __VA_ARGS__)
+#define ENOKI_MAP_EXPR_COPY_V_1(v, x, peek, ...) \
+    x(v.x) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_COPY_V_0)(v, peek, __VA_ARGS__)
+
+#define ENOKI_MAP_EXPR_MOVE_V_0(v, x, peek, ...) \
+    x(std::move(v.x)) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_MOVE_V_1)(v, peek, __VA_ARGS__)
+#define ENOKI_MAP_EXPR_MOVE_V_1(v, x, peek, ...) \
+    x(std::move(v.x)) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_MOVE_V_0)(v, peek, __VA_ARGS__)
+
+#define ENOKI_MAP_STMT_ASSIGN_0(v, x, peek, ...)                               \
+    this->x = v.x;                                                             \
+    ENOKI_MAP_STMT_NEXT(peek, ENOKI_MAP_STMT_ASSIGN_1)(v, peek, __VA_ARGS__)
+#define ENOKI_MAP_STMT_ASSIGN_1(v, x, peek, ...)                               \
+    this->x = v.x;                                                             \
+    ENOKI_MAP_STMT_NEXT(peek, ENOKI_MAP_STMT_ASSIGN_0)(v, peek, __VA_ARGS__)
+
+#define ENOKI_MAP_STMT_MOVE_0(v, x, peek, ...)                                 \
+    this->x = std::move(v.x);                                                  \
+    ENOKI_MAP_STMT_NEXT(peek, ENOKI_MAP_STMT_MOVE_1)(v, peek, __VA_ARGS__)
+#define ENOKI_MAP_STMT_MOVE_1(v, x, peek, ...)                                 \
+    this->x = std::move(v.x);                                                  \
+    ENOKI_MAP_STMT_NEXT(peek, ENOKI_MAP_STMT_MOVE_0)(v, peek, __VA_ARGS__)
+
+#define ENOKI_MAP_EXPR_F1_0(f, v, x, peek, ...) \
+    f(v.x) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_F1_1)(f, v, peek, __VA_ARGS__)
+#define ENOKI_MAP_EXPR_F1_1(f, v, x, peek, ...) \
+    f(v.x) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_F1_0)(f, v, peek, __VA_ARGS__)
+
+#define ENOKI_MAP_EXPR_F2_0(f, v, t, x, peek, ...) \
+    f(v.x, t) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_F2_1)(f, v, t, peek, __VA_ARGS__)
+#define ENOKI_MAP_EXPR_F2_1(f, v, t, x, peek, ...) \
+    f(v.x, t) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_F2_0)(f, v, t, peek, __VA_ARGS__)
+
+#define ENOKI_MAP_EXPR_F3_0(f, m, v, t, x, peek, ...) \
+    f(m.x, v.x, t) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_F3_1)(f, m, v, t, peek, __VA_ARGS__)
+#define ENOKI_MAP_EXPR_F3_1(f, m, v, t, x, peek, ...) \
+    f(m.x, v.x, t) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_F3_0)(f, m, v, t, peek, __VA_ARGS__)
+
+#define ENOKI_MAP_EXPR_T2_0(f, t, x, peek, ...) \
+    f<decltype(Value::x)>(t) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_T2_1)(f, t, peek, __VA_ARGS__)
+#define ENOKI_MAP_EXPR_T2_1(f, t, x, peek, ...) \
+    f<decltype(Value::x)>(t) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_T2_0)(f, t, peek, __VA_ARGS__)
+
+#define ENOKI_MAP_EXPR_GATHER_0(x, peek, ...) \
+    enoki::gather<decltype(Value::x)>(src.x, index, mask) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_GATHER_1)(peek, __VA_ARGS__)
+#define ENOKI_MAP_EXPR_GATHER_1(x, peek, ...) \
+    enoki::gather<decltype(Value::x)>(src.x, index, mask) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_GATHER_0)(peek, __VA_ARGS__)
+
+#define ENOKI_MAP_EXPR_SCATTER_0(x, peek, ...) \
+    enoki::scatter(dst.x, value.x, index, mask) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_SCATTER_1)(peek, __VA_ARGS__)
+#define ENOKI_MAP_EXPR_SCATTER_1(x, peek, ...) \
+    enoki::scatter(dst.x, value.x, index, mask) ENOKI_MAP_EXPR_NEXT(peek, ENOKI_MAP_EXPR_SCATTER_0)(peek, __VA_ARGS__)
+
+#define ENOKI_USING_MEMBERS_0(base, x, peek, ...)                               \
+    using base::x;                                                           \
+    ENOKI_MAP_STMT_NEXT(peek, ENOKI_USING_MEMBERS_1)(base, peek, __VA_ARGS__)
+#define ENOKI_USING_MEMBERS_1(base, x, peek, ...)                               \
+    using base::x;                                                           \
+    ENOKI_MAP_STMT_NEXT(peek, ENOKI_USING_MEMBERS_0)(base, peek, __VA_ARGS__)
+#define ENOKI_USING_MEMBERS_2(base, peek, ...) \
+    ENOKI_EVAL(ENOKI_MAP_STMT_NEXT(peek, ENOKI_USING_MEMBERS_0)(base, peek, __VA_ARGS__))
+
+#define ENOKI_USING_TYPES_0(base, x, peek, ...)                               \
+    using x = typename base::x;                                             \
+    ENOKI_MAP_STMT_NEXT(peek, ENOKI_USING_TYPES_1)(base, peek, __VA_ARGS__)
+#define ENOKI_USING_TYPES_1(base, x, peek, ...)                               \
+    using x = typename base::x;                                             \
+    ENOKI_MAP_STMT_NEXT(peek, ENOKI_USING_TYPES_0)(base, peek, __VA_ARGS__)
+#define ENOKI_USING_TYPES_2(base, peek, ...) \
+    ENOKI_EVAL(ENOKI_MAP_STMT_NEXT(peek, ENOKI_USING_TYPES_0)(base, peek, __VA_ARGS__))
+
+// ENOKI_MAP_TEMPLATE_FWD(a1, a2, ...) expands to typename Ta1, typename Ta2, ...
+#define ENOKI_MAP_TEMPLATE_FWD(...) \
+    ENOKI_EVAL(ENOKI_MAP_TEMPLATE_FWD_0(__VA_ARGS__, (), 0))
+
+// ENOKI_MAP_EXPR_DECL_FWD(a1, a2, ...) expands to Ta1 &&a1, Ta2&& a2...
+#define ENOKI_MAP_EXPR_DECL_FWD(...) \
+    ENOKI_EVAL(ENOKI_MAP_EXPR_DECL_FWD_0(__VA_ARGS__, (), 0))
+
+// ENOKI_MAP_EXPR_BASE_FWD(a1, a2, ...) expands to std::forward<Ta1>(a1), std::std::forward<Ta2>(a2), ...
+#define ENOKI_MAP_EXPR_BASE_FWD(...) \
+    ENOKI_EVAL(ENOKI_MAP_EXPR_BASE_FWD_0(__VA_ARGS__, (), 0))
+
+// ENOKI_MAP_EXPR_FWD(a1, a2, ...) expands to a1(std::forward<Ta1>(a1)), a2(std::std::forward<Ta2>(a2)), ...
+#define ENOKI_MAP_EXPR_FWD(...) \
+    ENOKI_EVAL(ENOKI_MAP_EXPR_FWD_0(__VA_ARGS__, (), 0))
+
+// ENOKI_MAP_EXPR_COPY(a1, a2, ...) expands to a1(a1), a2(a2), ...
+#define ENOKI_MAP_EXPR_COPY(...) \
+    ENOKI_EVAL(ENOKI_MAP_EXPR_COPY_0(__VA_ARGS__, (), 0))
+
+// ENOKI_MAP_EXPR_COPY_V(v, a1, a2, ...) expands to a1(v.a1), a2(v.a2), ...
+#define ENOKI_MAP_EXPR_COPY_V(v, ...) \
+    ENOKI_EVAL(ENOKI_MAP_EXPR_COPY_V_0(v, __VA_ARGS__, (), 0))
+
+// ENOKI_MAP_EXPR_MOVE_V(v, a1, a2, ...) expands to a1(std::move(v.a1)), a2(std::move(v.a2)), ...
+#define ENOKI_MAP_EXPR_MOVE_V(v, ...) \
+    ENOKI_EVAL(ENOKI_MAP_EXPR_MOVE_V_0(v, __VA_ARGS__, (), 0))
+
+// ENOKI_MAP_STMT_ASSIGN(v, a1, a2, ...) expands to this->a1 = v.a1; ..
+#define ENOKI_MAP_STMT_ASSIGN(v, ...) \
+    ENOKI_EVAL(ENOKI_MAP_STMT_ASSIGN_0(v, __VA_ARGS__, (), 0))
+
+// ENOKI_MAP_STMT_MOVE(v, a1, a2, ...) expands to this->a1 = std::move(v.a1); ..
+#define ENOKI_MAP_STMT_MOVE(v, ...) \
+    ENOKI_EVAL(ENOKI_MAP_STMT_MOVE_0(v, __VA_ARGS__, (), 0))
+
+// ENOKI_MAP_EXPR_F1(f, v, a1, a2, ...) expands to f(v.a1), f(v.a2), ...
+#define ENOKI_MAP_EXPR_F1(f, v, ...) \
+    ENOKI_EVAL(ENOKI_MAP_EXPR_F1_0(f, v, __VA_ARGS__, (), 0))
+
+// ENOKI_MAP_EXPR_F2(f, v, t, a1, a2, ...) expands to f(v.a1, t), f(v.a2, t), ...
+#define ENOKI_MAP_EXPR_F2(f, v, t, ...) \
+    ENOKI_EVAL(ENOKI_MAP_EXPR_F2_0(f, v, t, __VA_ARGS__, (), 0))
+
+// ENOKI_MAP_EXPR_T2(f, v, t, a1, a2, ...) expands to f<decltype(Value::a1)>(t), f<decltype(Value::a2>>(t), ...
+#define ENOKI_MAP_EXPR_T2(f, v, t, ...) \
+    ENOKI_EVAL(ENOKI_MAP_EXPR_T2_0(f, v, t, __VA_ARGS__, (), 0))
+
+// ENOKI_MAP_EXPR_F3(f, m, v, t, a1, a2, ...) expands to f(m.a1, v.a1, t), f(m.a2, v.a2, t), ...
+#define ENOKI_MAP_EXPR_F3(f, v, t, ...) \
+    ENOKI_EVAL(ENOKI_MAP_EXPR_F3_0(f, v, t, __VA_ARGS__, (), 0))
+
+// ENOKI_MAP_EXPR_GATHER(a1, a2, ...) expands to enoki::gather<decltype(Value::a1)>(src.a1, index, mask), ..
+#define ENOKI_MAP_EXPR_GATHER(...) \
+    ENOKI_EVAL(ENOKI_MAP_EXPR_GATHER_0(__VA_ARGS__, (), 0))
+
+// ENOKI_MAP_EXPR_SCATTER(a1, a2, ...) expands to enoki::scatter(dst.a1, src.a1, index, mask), ..
+#define ENOKI_MAP_EXPR_SCATTER(...) \
+    ENOKI_EVAL(ENOKI_MAP_EXPR_SCATTER_0(__VA_ARGS__, (), 0))
+
+// ENOKI_USING_TYPES(base, a1, a2, ...) expands to using a1 = typename base::a1; using a2 = typename base::a2; ...
+#define ENOKI_USING_TYPES(...) \
+    ENOKI_EVAL_0(ENOKI_USING_TYPES_2(__VA_ARGS__, (), 0))
+
+// ENOKI_USING_MEMBERS(base, a1, a2, ...) expands to using base::a1; using base::a2; ...
+#define ENOKI_USING_MEMBERS(...) \
+    ENOKI_EVAL_0(ENOKI_USING_MEMBERS_2(__VA_ARGS__, (), 0))
+
+
+#define ENOKI_STRUCT(Struct, ...)                                              \
+    Struct() = default;                                                        \
+    template <ENOKI_MAP_TEMPLATE_FWD(__VA_ARGS__)>                             \
+    ENOKI_INLINE Struct(ENOKI_MAP_EXPR_DECL_FWD(__VA_ARGS__))                  \
+        : ENOKI_MAP_EXPR_FWD(__VA_ARGS__) { }                                  \
+    template <typename... Args>                                                \
+    ENOKI_INLINE Struct(const Struct<Args...> &value)                          \
+        : ENOKI_MAP_EXPR_COPY_V(value, __VA_ARGS__) { }                        \
+    template <typename... Args>                                                \
+    ENOKI_INLINE Struct(Struct<Args...> &&value)                               \
+        : ENOKI_MAP_EXPR_MOVE_V(value, __VA_ARGS__) { }                        \
+    template <typename... Args>                                                \
+    ENOKI_INLINE Struct &operator=(const Struct<Args...> &value) {             \
+        ENOKI_MAP_STMT_ASSIGN(value, __VA_ARGS__)                              \
+        return *this;                                                          \
+    }                                                                          \
+    template <typename... Args>                                                \
+    ENOKI_INLINE Struct &operator=(Struct<Args...> &&value) {                  \
+        ENOKI_MAP_STMT_MOVE(value, __VA_ARGS__)                                \
+        return *this;                                                          \
+    }
+
+#define ENOKI_BASE_FIELDS(...) __VA_ARGS__
+#define ENOKI_DERIVED_FIELDS(...) __VA_ARGS__
+
+#define ENOKI_DERIVED_STRUCT(Struct, Base, BaseFields, StructFields)           \
+    Struct() = default;                                                        \
+    template <ENOKI_MAP_TEMPLATE_FWD(BaseFields),                              \
+              ENOKI_MAP_TEMPLATE_FWD(StructFields)>                            \
+    ENOKI_INLINE Struct(ENOKI_MAP_EXPR_DECL_FWD(BaseFields),                   \
+           ENOKI_MAP_EXPR_DECL_FWD(StructFields))                              \
+        : Base(ENOKI_MAP_EXPR_BASE_FWD(BaseFields)),                           \
+          ENOKI_MAP_EXPR_FWD(StructFields) { }                                 \
+    template <typename... Args>                                                \
+    ENOKI_INLINE Struct(const Struct<Args...> &value)                          \
+        : Base(value), ENOKI_MAP_EXPR_COPY_V(value, StructFields) { }          \
+    template <typename... Args>                                                \
+    ENOKI_INLINE Struct(Struct<Args...> &&value)                               \
+        : Base(std::move(value)),                                              \
+          ENOKI_MAP_EXPR_MOVE_V(value, StructFields) { }                       \
+    template <typename... Args>                                                \
+    ENOKI_INLINE Struct &operator=(const Struct<Args...> &value) {             \
+        Base::operator=(value);                                                \
+        ENOKI_MAP_STMT_ASSIGN(value, StructFields)                             \
+        return *this;                                                          \
+    }                                                                          \
+    template <typename... Args>                                                \
+    ENOKI_INLINE Struct &operator=(Struct<Args...> &&value) {                  \
+        Base::operator=(std::move(value));                                     \
+        ENOKI_MAP_STMT_MOVE(value, StructFields)                               \
+        return *this;                                                          \
+    }                                                                          \
+    template <typename Mask, enoki::enable_if_mask_t<Mask> = 0>                \
+    auto operator[](const Mask &m) { return masked(*this, m); }                \
+
+
+#define ENOKI_STRUCT_SUPPORT(Struct, ...)                                      \
+    NAMESPACE_BEGIN(enoki)                                                     \
+    template <typename... Args> struct struct_support<Struct<Args...>> {       \
+        static constexpr bool IsDynamic =                                      \
+            std::disjunction_v<enoki::is_dynamic<Args>...>;                    \
+        using Dynamic = Struct<enoki::make_dynamic_t<Args>...>;                \
+        using Value = Struct<Args...>;                                         \
+        template <typename T, typename Arg>                                    \
+        using ArgType =                                                        \
+            std::conditional_t<std::is_const_v<std::remove_reference_t<T>>,    \
+                               const Arg &, Arg &>;                            \
+        static ENOKI_INLINE size_t packets(const Value &value) {               \
+            return enoki::packets(                                             \
+                value.ENOKI_EVAL_0(ENOKI_EXTRACT_0(__VA_ARGS__)));             \
+        }                                                                      \
+        static ENOKI_INLINE size_t slices(const Value &value) {                \
+            return enoki::slices(                                              \
+                value.ENOKI_EVAL_0(ENOKI_EXTRACT_0(__VA_ARGS__)));             \
+        }                                                                      \
+        static void set_slices(Value &value, size_t size) {                    \
+            ENOKI_MAP_EXPR_F2(enoki::set_slices, value, size, __VA_ARGS__);    \
+        }                                                                      \
+        template <typename Mem, typename Mask>                                 \
+        static ENOKI_INLINE size_t compress(Mem &mem, const Value &value,      \
+                                            const Mask &mask) {                \
+            return ENOKI_MAP_EXPR_F3(enoki::compress, mem, value,              \
+                                     mask, __VA_ARGS__);                       \
+        }                                                                      \
+        template <typename Src, typename Index, typename Mask>                 \
+        static ENOKI_INLINE Value gather(Src &src, const Index &index,         \
+                                         const Mask &mask) {                   \
+            return Value(ENOKI_MAP_EXPR_GATHER(__VA_ARGS__));                  \
+        }                                                                      \
+        template <typename Dst, typename Index, typename Mask>                 \
+        static void scatter(Dst &dst, const Value &value, const Index &index,  \
+                            const Mask &mask) {                                \
+            ENOKI_MAP_EXPR_SCATTER(__VA_ARGS__);                               \
+        }                                                                      \
+        template <typename T>                                                  \
+        static ENOKI_INLINE auto slice(T &&value, size_t index) {              \
+            using Value = Struct<decltype(enoki::slice(std::declval<           \
+                ArgType<T, Args>>(), index))...>;                              \
+            return Value(ENOKI_MAP_EXPR_F2(enoki::slice, value, index,         \
+                                           __VA_ARGS__));                      \
+        }                                                                      \
+        template <typename T>                                                  \
+        static ENOKI_INLINE auto slice_ptr(T &&value, size_t index) {          \
+            using Value = Struct<decltype(enoki::slice_ptr(std::declval<       \
+                ArgType<T, Args>>(), index))...>;                              \
+            return Value(ENOKI_MAP_EXPR_F2(enoki::slice_ptr, value, index,     \
+                                           __VA_ARGS__));                      \
+        }                                                                      \
+        template <typename T>                                                  \
+        static ENOKI_INLINE auto packet(T &&value, size_t index) {             \
+            using Value = Struct<decltype(enoki::packet(std::declval<          \
+                ArgType<T, Args>>(), index))...>;                              \
+            return Value(ENOKI_MAP_EXPR_F2(enoki::packet, value, index,        \
+                                           __VA_ARGS__));                      \
+        }                                                                      \
+        template <typename T> static ENOKI_INLINE auto ref_wrap(T &&value) {   \
+            using Value = Struct<decltype(enoki::ref_wrap(std::declval<        \
+                ArgType<T, Args>>()))...>;                                     \
+            return Value(ENOKI_MAP_EXPR_F1(enoki::ref_wrap, value,             \
+                                           __VA_ARGS__));                      \
+        }                                                                      \
+        template <typename T> static ENOKI_INLINE auto detach(T &&value) {     \
+            using Value = Struct<decltype(enoki::detach(std::declval<          \
+                ArgType<T, Args>>()))...>;                                     \
+            return Value(ENOKI_MAP_EXPR_F1(enoki::detach, value,               \
+                                           __VA_ARGS__));                      \
+        }                                                                      \
+        template <typename T, typename M> static ENOKI_INLINE                  \
+        auto masked(T& value, const M & mask) {                                \
+            using Value = Struct<decltype(enoki::masked(                       \
+                        std::declval<Args &>(), mask))...>;                    \
+            return Value(ENOKI_MAP_EXPR_F2(enoki::masked,                      \
+                                           value, mask, __VA_ARGS__) );        \
+        }                                                                      \
+        static ENOKI_INLINE auto zero(size_t size) {                           \
+            return Value(ENOKI_EVAL_0(                                         \
+                ENOKI_MAP_EXPR_T2(enoki::zero, size, __VA_ARGS__)));           \
+        }                                                                      \
+        static ENOKI_INLINE auto empty(size_t size) {                          \
+            return Value(ENOKI_EVAL_0(                                         \
+                ENOKI_MAP_EXPR_T2(enoki::empty, size, __VA_ARGS__)));          \
+        }                                                                      \
+    };                                                                         \
+    NAMESPACE_END(enoki)
+
+#define ENOKI_PINNED_OPERATOR_NEW(Type)                                        \
+    void *operator new(size_t size) {                                          \
+        if constexpr (enoki::is_cuda_array_v<Type>)                            \
+            return enoki::cuda_host_malloc(size);                              \
+        else                                                                   \
+            return ::operator new(size);                                       \
+    }                                                                          \
+    void *operator new(size_t size, std::align_val_t align) {                  \
+        ENOKI_MARK_USED(align);                                                \
+        if constexpr (enoki::is_cuda_array_v<Type>)                            \
+            return enoki::cuda_host_malloc(size);                              \
+        else                                                                   \
+            return ::operator new(size, align);                                \
+    }                                                                          \
+    void *operator new[](size_t size) {                                        \
+        if constexpr (enoki::is_cuda_array_v<Type>)                            \
+            return enoki::cuda_host_malloc(size);                              \
+        else                                                                   \
+            return ::operator new[](size);                                     \
+    }                                                                          \
+                                                                               \
+    void *operator new[](size_t size, std::align_val_t align) {                \
+        ENOKI_MARK_USED(align);                                                \
+        if constexpr (enoki::is_cuda_array_v<Type>)                            \
+            return enoki::cuda_host_malloc(size);                              \
+        else                                                                   \
+            return ::operator new[](size, align);                              \
+    }                                                                          \
+                                                                               \
+    void operator delete(void *ptr) {                                          \
+        if constexpr (enoki::is_cuda_array_v<Type>)                            \
+            enoki::cuda_host_free(ptr);                                        \
+        else                                                                   \
+            return ::operator delete(ptr);                                     \
+    }                                                                          \
+                                                                               \
+    void operator delete(void *ptr, std::align_val_t align) {                  \
+        ENOKI_MARK_USED(align);                                                \
+        if constexpr (enoki::is_cuda_array_v<Type>)                            \
+            enoki::cuda_host_free(ptr);                                        \
+        else                                                                   \
+            return ::operator delete(ptr, align);                              \
+    }                                                                          \
+                                                                               \
+    void operator delete[](void *ptr) {                                        \
+        if constexpr (enoki::is_cuda_array_v<Type>)                            \
+            enoki::cuda_host_free(ptr);                                        \
+        else                                                                   \
+            return ::operator delete[](ptr);                                   \
+    }                                                                          \
+                                                                               \
+    void operator delete[](void *ptr, std::align_val_t align) {                \
+        ENOKI_MARK_USED(align);                                                \
+        if constexpr (enoki::is_cuda_array_v<Type>)                            \
+            enoki::cuda_host_free(ptr);                                        \
+        else                                                                   \
+            return ::operator delete[](ptr, align);                            \
+    }
+
diff --git a/sources/enoki/array_masked.h b/sources/enoki/array_masked.h
new file mode 100644
index 00000000..0ba3c0ba
--- /dev/null
+++ b/sources/enoki/array_masked.h
@@ -0,0 +1,92 @@
+/*
+    enoki/array_masked.h -- Helper classes for masked assignments and
+    in-place operators
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using ENOKI instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+NAMESPACE_BEGIN(enoki)
+
+// -----------------------------------------------------------------------
+//! @{ \name Masked array helper classes
+// -----------------------------------------------------------------------
+
+NAMESPACE_BEGIN(detail)
+
+template <typename T> struct MaskedValue {
+    MaskedValue(T &d, bool m) : d(d), m(m) { }
+
+    template <typename T2> ENOKI_INLINE void operator =(const T2 &value) { if (m) d = value; }
+    template <typename T2> ENOKI_INLINE void operator+=(const T2 &value) { if (m) d += value; }
+    template <typename T2> ENOKI_INLINE void operator-=(const T2 &value) { if (m) d -= value; }
+    template <typename T2> ENOKI_INLINE void operator*=(const T2 &value) { if (m) d *= value; }
+    template <typename T2> ENOKI_INLINE void operator/=(const T2 &value) { if (m) d /= value; }
+    template <typename T2> ENOKI_INLINE void operator|=(const T2 &value) { if (m) d |= value; }
+    template <typename T2> ENOKI_INLINE void operator&=(const T2 &value) { if (m) d &= value; }
+    template <typename T2> ENOKI_INLINE void operator^=(const T2 &value) { if (m) d ^= value; }
+
+    T &d;
+    bool m;
+};
+
+template <typename T> struct MaskedArray : ArrayBase<value_t<T>, MaskedArray<T>> {
+    using Mask     = mask_t<T>;
+    using Scalar   = MaskedValue<scalar_t<T>>;
+    using MaskType = MaskedArray<Mask>;
+    using Value    = std::conditional_t<is_scalar_v<value_t<T>>,
+                                     MaskedValue<value_t<T>>,
+                                     MaskedArray<value_t<T>>>;
+    using UnderlyingValue = value_t<T>;
+    static constexpr size_t Size = array_size_v<T>;
+    static constexpr bool IsMaskedArray = true;
+
+    MaskedArray(T &d, const Mask &m) : d(d), m(m) { }
+
+    template <typename T2> ENOKI_INLINE void operator =(const T2 &value) { d.massign_(value, m); }
+    template <typename T2> ENOKI_INLINE void operator+=(const T2 &value) { d.madd_(value, m); }
+    template <typename T2> ENOKI_INLINE void operator-=(const T2 &value) { d.msub_(value, m); }
+    template <typename T2> ENOKI_INLINE void operator*=(const T2 &value) { d.mmul_(value, m); }
+    template <typename T2> ENOKI_INLINE void operator/=(const T2 &value) { d.mdiv_(value, m); }
+    template <typename T2> ENOKI_INLINE void operator|=(const T2 &value) { d.mor_(value, m); }
+    template <typename T2> ENOKI_INLINE void operator&=(const T2 &value) { d.mand_(value, m); }
+    template <typename T2> ENOKI_INLINE void operator^=(const T2 &value) { d.mxor_(value, m); }
+
+    /// Type alias for a similar-shaped array over a different type
+    template <typename T2> using ReplaceValue = MaskedArray<typename T::template ReplaceValue<T2>>;
+
+    T &d;
+    Mask m;
+};
+
+NAMESPACE_END(detail)
+
+template <typename Value_, size_t Size_>
+struct Array<detail::MaskedArray<Value_>, Size_>
+    : detail::MaskedArray<Array<Value_, Size_>> {
+    using Base = detail::MaskedArray<Array<Value_, Size_>>;
+    using Base::Base;
+    using Base::operator=;
+    Array(const Base &b) : Base(b) { }
+};
+
+template <typename T, typename Mask>
+ENOKI_INLINE auto masked(T &value, const Mask &mask) {
+    if constexpr (std::is_same_v<Mask, bool>)
+        return detail::MaskedValue<T>{ value, mask };
+    else
+        return struct_support_t<T>::masked(value, mask);
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_math.h b/sources/enoki/array_math.h
new file mode 100644
index 00000000..6da38ba1
--- /dev/null
+++ b/sources/enoki/array_math.h
@@ -0,0 +1,1505 @@
+/*
+    enoki/array_math.h -- Mathematical support library
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using ENOKI instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#include <enoki/array_generic.h>
+
+#pragma once
+
+NAMESPACE_BEGIN(enoki)
+
+// -----------------------------------------------------------------------
+//! @{ \name Polynomial evaluation with short dependency chains and
+//           fused multply-adds based on Estrin's scheme
+// -----------------------------------------------------------------------
+
+template <typename T1, typename T2, typename T = expr_t<T1>, typename S = scalar_t<T1>>
+ENOKI_INLINE T poly2(const T1 &x, const T2 &c0, const T2 &c1, const T2 &c2) {
+    T x2 = x * x;
+    return fmadd(x2, S(c2), fmadd(x, S(c1), S(c0)));
+}
+
+template <typename T1, typename T2, typename T = expr_t<T1>,
+          typename S = scalar_t<T1>>
+ENOKI_INLINE T poly3(const T1 &x, const T2 &c0, const T2 &c1, const T2 &c2,
+                     const T2 &c3) {
+    T x2 = x * x;
+    return fmadd(x2, fmadd(x, S(c3), S(c2)), fmadd(x, S(c1), S(c0)));
+}
+
+template <typename T1, typename T2, typename T = expr_t<T1>,
+          typename S = scalar_t<T1>>
+ENOKI_INLINE T poly4(const T1 &x, const T2 &c0, const T2 &c1, const T2 &c2,
+                     const T2 &c3, const T2 &c4) {
+    T x2 = x * x, x4 = x2 * x2;
+    return fmadd(x2, fmadd(x, S(c3), S(c2)), fmadd(x, S(c1), S(c0)) + S(c4) * x4);
+}
+
+template <typename T1, typename T2, typename T = expr_t<T1>,
+          typename S = scalar_t<T1>>
+ENOKI_INLINE T poly5(const T1 &x, const T2 &c0, const T2 &c1, const T2 &c2,
+                     const T2 &c3, const T2 &c4, const T2 &c5) {
+    T x2 = x * x, x4 = x2 * x2;
+    return fmadd(x2, fmadd(x, S(c3), S(c2)),
+                     fmadd(x4, fmadd(x, S(c5), S(c4)), fmadd(x, S(c1), S(c0))));
+}
+
+template <typename T1, typename T2, typename T = expr_t<T1>,
+          typename S = scalar_t<T1>>
+ENOKI_INLINE T poly6(const T1 &x, const T2 &c0, const T2 &c1, const T2 &c2,
+                     const T2 &c3, const T2 &c4, const T2 &c5, const T2 &c6) {
+    T x2 = x * x, x4 = x2 * x2;
+    return fmadd(x4, fmadd(x2, S(c6), fmadd(x, S(c5), S(c4))),
+                     fmadd(x2, fmadd(x, S(c3), S(c2)), fmadd(x, S(c1), S(c0))));
+}
+
+template <typename T1, typename T2, typename T = expr_t<T1>,
+          typename S = scalar_t<T1>>
+ENOKI_INLINE T poly7(const T1 &x, const T2 &c0, const T2 &c1, const T2 &c2,
+                     const T2 &c3, const T2 &c4, const T2 &c5, const T2 &c6,
+                     const T2 &c7) {
+    T x2 = x * x, x4 = x2 * x2;
+    return fmadd(x4, fmadd(x2, fmadd(x, S(c7), S(c6)), fmadd(x, S(c5), S(c4))),
+                     fmadd(x2, fmadd(x, S(c3), S(c2)), fmadd(x, S(c1), S(c0))));
+}
+
+template <typename T1, typename T2, typename T = expr_t<T1>,
+          typename S = scalar_t<T1>>
+ENOKI_INLINE T poly8(const T1 &x, const T2 &c0, const T2 &c1, const T2 &c2,
+                     const T2 &c3, const T2 &c4, const T2 &c5, const T2 &c6,
+                     const T2 &c7, const T2 &c8) {
+    T x2 = x * x, x4 = x2 * x2, x8 = x4 * x4;
+    return fmadd(x4, fmadd(x2, fmadd(x, S(c7), S(c6)), fmadd(x, S(c5), S(c4))),
+                     fmadd(x2, fmadd(x, S(c3), S(c2)), fmadd(x, S(c1), S(c0)) + S(c8) * x8));
+}
+
+template <typename T1, typename T2, typename T = expr_t<T1>,
+          typename S = scalar_t<T1>>
+ENOKI_INLINE T poly9(const T1 &x, const T2 &c0, const T2 &c1, const T2 &c2,
+                     const T2 &c3, const T2 &c4, const T2 &c5, const T2 &c6,
+                     const T2 &c7, const T2 &c8, const T2 &c9) {
+    T x2 = x * x, x4 = x2 * x2, x8 = x4 * x4;
+    return fmadd(x8, fmadd(x, S(c9), S(c8)),
+                     fmadd(x4, fmadd(x2, fmadd(x, S(c7), S(c6)), fmadd(x, S(c5), S(c4))),
+                               fmadd(x2, fmadd(x, S(c3), S(c2)), fmadd(x, S(c1), S(c0)))));
+}
+
+template <typename T1, typename T2, typename T = expr_t<T1>,
+          typename S = scalar_t<T1>>
+ENOKI_INLINE T poly10(const T1 &x, const T2 &c0, const T2 &c1, const T2 &c2,
+                      const T2 &c3, const T2 &c4, const T2 &c5, const T2 &c6,
+                      const T2 &c7, const T2 &c8, const T2 &c9, const T2 &c10) {
+    T x2 = x * x, x4 = x2 * x2, x8 = x4 * x4;
+    return fmadd(x8, fmadd(x2, S(c10), fmadd(x, S(c9), S(c8))),
+                     fmadd(x4, fmadd(x2, fmadd(x, S(c7), S(c6)), fmadd(x, S(c5), S(c4))),
+                               fmadd(x2, fmadd(x, S(c3), S(c2)), fmadd(x, S(c1), S(c0)))));
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+#define ENOKI_UNARY_OPERATION(name, expr)                                      \
+    namespace detail {                                                         \
+        template <typename T>                                                  \
+        using has_##name = decltype(std::declval<T>().name##_());              \
+        template <typename T>                                                  \
+        constexpr bool has_##name##_v = is_detected_v<has_##name, T>;          \
+        template <typename Value, typename Scalar = scalar_t<Value>,           \
+                  typename Mask = mask_t<Value>,                               \
+                  bool Single = std::is_same_v<float, Scalar>>                 \
+        Value name##_impl(const Value &);                                      \
+    }                                                                          \
+    template <typename T> auto name(const T &x) {                              \
+        using E = expr_t<T>;                                                   \
+        using Value = value_t<E>;                                              \
+        if constexpr (detail::has_##name##_v<E>) {                             \
+            return ((const E &) x).name##_();                                  \
+        } else if constexpr (is_recursive_array_v<E>) {                        \
+            return E(name(low(x)), name(high(x)));                             \
+        } else if constexpr (is_dynamic_array_v<E> &&                          \
+                            !is_diff_array_v<E> &&                             \
+                            !is_cuda_array_v<E>) {                             \
+            E r = empty<E>(x.size());                                          \
+            auto pr = r.packet_ptr();                                          \
+            auto px = x.packet_ptr();                                          \
+            for (size_t i = 0, n = r.packets(); i < n; ++i, ++pr, ++px)        \
+                *pr = name(*px);                                               \
+            return r;                                                          \
+        } else if constexpr (array_depth_v<E> > 1) {                           \
+            E r;                                                               \
+            ENOKI_CHKSCALAR(#name);                                            \
+            for (size_t i = 0; i < x.size(); ++i)                              \
+                r.coeff(i) = name(x.coeff(i));                                 \
+            return r;                                                          \
+        } else if constexpr (is_array_v<E>) {                                  \
+            return detail::name##_impl((const E &) x);                         \
+        } else {                                                               \
+            return expr;                                                       \
+        }                                                                      \
+    }                                                                          \
+    template <typename Value, typename Scalar, typename Mask, bool Single>     \
+    ENOKI_INLINE Value enoki::detail::name##_impl(const Value &x)
+
+#define ENOKI_UNARY_OPERATION_PAIR(name, expr)                                 \
+    namespace detail {                                                         \
+        template <typename T>                                                  \
+        using has_##name = decltype(std::declval<T>().name##_());              \
+        template <typename T>                                                  \
+        constexpr bool has_##name##_v = is_detected_v<has_##name, T>;          \
+        template <typename Value, typename Scalar = scalar_t<Value>,           \
+                  typename Mask = mask_t<Value>,                               \
+                  bool Single = std::is_same_v<float, Scalar>>                 \
+        std::pair<Value, Value> name##_impl(const Value &);                    \
+    }                                                                          \
+    template <typename T> auto name(const T &x) {                              \
+        using E = expr_t<T>;                                                   \
+        using Value = value_t<E>;                                              \
+        if constexpr (detail::has_##name##_v<E>) {                             \
+            return ((const E &) x).name##_();                                  \
+        } else if constexpr (is_recursive_array_v<E>) {                        \
+            auto l = name(low(x));                                             \
+            auto h = name(high(x));                                            \
+            return std::pair<E, E>(E(l.first, h.first),                        \
+                                   E(l.second, h.second));                     \
+        } else if constexpr (is_dynamic_array_v<E> &&                          \
+                            !is_cuda_array_v<E> &&                             \
+                            !is_diff_array_v<E>) {                             \
+            std::pair<E, E> r(empty<E>(x.size()), empty<E>(x.size()));         \
+            auto pr0 = r.first.packet_ptr(),                                   \
+                 pr1 = r.second.packet_ptr();                                  \
+            auto px = x.packet_ptr();                                          \
+            for (size_t i = 0, n = x.packets();                                \
+                 i < n; ++i, ++pr0, ++pr1, ++px)                               \
+                std::tie(*pr0, *pr1) = name(*px);                              \
+            return r;                                                          \
+        } else if constexpr (array_depth_v<E> > 1) {                           \
+            std::pair<E, E> r;                                                 \
+            ENOKI_CHKSCALAR(#name);                                            \
+            for (size_t i = 0; i < x.size(); ++i)                              \
+                std::tie(r.first.coeff(i),                                     \
+                         r.second.coeff(i)) = name(x.coeff(i));                \
+            return r;                                                          \
+        } else if constexpr (is_array_v<E>) {                                  \
+            return detail::name##_impl((const E &) x);                         \
+        } else {                                                               \
+            return expr;                                                       \
+        }                                                                      \
+                                                                               \
+    }                                                                          \
+    template <typename Value, typename Scalar, typename Mask, bool Single>     \
+    ENOKI_INLINE std::pair<Value, Value> enoki::detail::name##_impl(const Value &x)
+
+
+#define ENOKI_BINARY_OPERATION(name, expr)                                     \
+    namespace detail {                                                         \
+        template <typename T>                                                  \
+        using has_##name = decltype(std::declval<T>()                          \
+                                        .name##_(std::declval<T>()));          \
+        template <typename T>                                                  \
+        constexpr bool has_##name##_v = is_detected_v<has_##name, T>;          \
+        template <typename Value, typename Scalar = scalar_t<Value>,           \
+                  typename Mask = mask_t<Value>,                               \
+                  bool Single = std::is_same_v<float, Scalar>>                 \
+        Value name##_impl(const Value &, const Value &);                       \
+    }                                                                          \
+    template <typename T1, typename T2> auto name(const T1 &x, const T2 &y) {  \
+        using E = expr_t<T1, T2>;                                              \
+        using Value = value_t<E>;                                              \
+        if constexpr (detail::has_##name##_v<E>) {                             \
+            return ((const E &) x).name##_((const E &) y);                     \
+        } else if constexpr (is_recursive_array_v<E>) {                        \
+            return E(name(low(x), low(y)), name(high(x), high(y)));            \
+        } else if constexpr (!std::is_same_v<T1, E> ||                         \
+                             !std::is_same_v<T2, E>) {                         \
+            return name((const E& ) x, (const E &) y);                         \
+        } else if constexpr (is_dynamic_array_v<E> &&                          \
+                            !is_cuda_array_v<E> &&                             \
+                            !is_diff_array_v<E>) {                             \
+            E r;                                                               \
+            r.resize_like(x, y);                                               \
+            size_t xs = x.size() == 1 ? 0 : 1,                                 \
+                   ys = y.size() == 1 ? 0 : 1;                                 \
+            auto pr = r.packet_ptr();                                          \
+            auto px = x.packet_ptr();                                          \
+            auto py = y.packet_ptr();                                          \
+            for (size_t i = 0, n = r.packets(); i < n;                         \
+                 ++i, pr += 1, px += xs, py += ys)                             \
+                *pr = name(*px, *py);                                          \
+            return r;                                                          \
+        } else if constexpr (array_depth_v<E> > 1) {                           \
+            assert(x.size() == y.size());                                      \
+            E r;                                                               \
+            ENOKI_CHKSCALAR(#name);                                            \
+            for (size_t i = 0; i < x.size(); ++i)                              \
+                r.coeff(i) = name(x.coeff(i), y.coeff(i));                     \
+            return r;                                                          \
+        } else if constexpr (is_array_v<E>) {                                  \
+            return detail::name##_impl((const E &) x, (const E &) y);          \
+        } else {                                                               \
+            return expr;                                                       \
+        }                                                                      \
+                                                                               \
+    }                                                                          \
+    template <typename Value, typename Scalar, typename Mask, bool Single>     \
+    ENOKI_INLINE Value enoki::detail::name##_impl(const Value &x, const Value &y)
+
+
+// -----------------------------------------------------------------------
+//! @{ \name Trigonometric functions and their inverses
+// -----------------------------------------------------------------------
+
+namespace detail {
+    template <bool Sin, bool Cos, typename Value>
+    ENOKI_INLINE void sincos_approx(const Value &x, Value &s_out, Value &c_out) {
+        using Scalar = scalar_t<Value>;
+        constexpr bool Single = std::is_same_v<Scalar, float>;
+        using IntArray = int_array_t<Value>;
+        using Int = scalar_t<IntArray>;
+        using Mask = mask_t<Value>;
+        ENOKI_MARK_USED(s_out);
+        ENOKI_MARK_USED(c_out);
+
+        /* Joint sine & cosine function approximation based on CEPHES.
+           Excellent accuracy in the domain |x| < 8192
+
+           Redistributed under a BSD license with permission of the author, see
+           https://github.com/deepmind/torch-cephes/blob/master/LICENSE.txt
+
+         - sin (in [-8192, 8192]):
+           * avg abs. err = 6.61896e-09
+           * avg rel. err = 1.37888e-08
+              -> in ULPs  = 0.166492
+           * max abs. err = 5.96046e-08
+             (at x=-8191.31)
+           * max rel. err = 1.76826e-06
+             -> in ULPs   = 19
+             (at x=-6374.29)
+
+         - cos (in [-8192, 8192]):
+           * avg abs. err = 6.59965e-09
+           * avg rel. err = 1.37432e-08
+              -> in ULPs  = 0.166141
+           * max abs. err = 5.96046e-08
+             (at x=-8191.05)
+           * max rel. err = 3.13993e-06
+             -> in ULPs   = 47
+             (at x=-6199.93)
+        */
+
+        Value xa = abs(x);
+
+        /* Scale by 4/Pi and get the integer part */
+        IntArray j(xa * Scalar(1.2732395447351626862));
+
+        /* Map zeros to origin; if (j & 1) j += 1 */
+        j = (j + Int(1)) & Int(~1u);
+
+        /* Cast back to a floating point value */
+        Value y(j);
+
+        /* Determine sign of result */
+        Value sign_sin, sign_cos;
+        constexpr size_t Shift = sizeof(Scalar) * 8 - 3;
+
+        if constexpr (Sin)
+            sign_sin = reinterpret_array<Value>(sl<Shift>(j)) ^ x;
+
+        if constexpr (Cos)
+            sign_cos = reinterpret_array<Value>(sl<Shift>(~(j - Int(2))));
+
+        /* Extended precision modular arithmetic */
+        if constexpr (Single) {
+            y = xa - y * Scalar(0.78515625)
+                   - y * Scalar(2.4187564849853515625e-4)
+                   - y * Scalar(3.77489497744594108e-8);
+        } else {
+            y = xa - y * Scalar(7.85398125648498535156e-1)
+                   - y * Scalar(3.77489470793079817668e-8)
+                   - y * Scalar(2.69515142907905952645e-15);
+        }
+
+        Value z = y * y, s, c;
+        z |= eq(xa, std::numeric_limits<Scalar>::infinity());
+
+        if constexpr (Single) {
+            s = poly2(z, -1.6666654611e-1,
+                          8.3321608736e-3,
+                         -1.9515295891e-4) * z;
+
+            c = poly2(z,  4.166664568298827e-2,
+                         -1.388731625493765e-3,
+                          2.443315711809948e-5) * z;
+        } else {
+            s = poly5(z, -1.66666666666666307295e-1,
+                          8.33333333332211858878e-3,
+                         -1.98412698295895385996e-4,
+                          2.75573136213857245213e-6,
+                         -2.50507477628578072866e-8,
+                          1.58962301576546568060e-10) * z;
+
+            c = poly5(z,  4.16666666666665929218e-2,
+                         -1.38888888888730564116e-3,
+                          2.48015872888517045348e-5,
+                         -2.75573141792967388112e-7,
+                          2.08757008419747316778e-9,
+                         -1.13585365213876817300e-11) * z;
+        }
+
+        s = fmadd(s, y, y);
+        c = fmadd(c, z, fmadd(z, Scalar(-0.5), Scalar(1)));
+
+        Mask polymask(eq(j & Int(2), zero<IntArray>()));
+
+        if constexpr (Sin)
+            s_out = mulsign(select(polymask, s, c), sign_sin);
+
+        if constexpr (Cos)
+            c_out = mulsign(select(polymask, c, s), sign_cos);
+    }
+
+    template <bool Tan, typename Value>
+    ENOKI_INLINE auto tancot_approx(const Value &x) {
+        using Scalar = scalar_t<Value>;
+        constexpr bool Single = std::is_same_v<Scalar, float>;
+        using IntArray = int_array_t<Value>;
+        using Int = scalar_t<IntArray>;
+
+        /*
+         - tan (in [-8192, 8192]):
+           * avg abs. err = 4.63693e-06
+           * avg rel. err = 3.60191e-08
+              -> in ULPs  = 0.435442
+           * max abs. err = 0.8125
+             (at x=-6199.93)
+           * max rel. err = 3.12284e-06
+             -> in ULPs   = 30
+             (at x=-7406.3)
+        */
+
+        Value xa = abs(x);
+
+        /* Scale by 4/Pi and get the integer part */
+        IntArray j(xa * Scalar(1.2732395447351626862));
+
+        /* Map zeros to origin; if (j & 1) j += 1 */
+        j = (j + Int(1)) & Int(~1u);
+
+        /* Cast back to a floating point value */
+        Value y(j);
+
+        /* Extended precision modular arithmetic */
+        if constexpr (Single) {
+            y = xa - y * Scalar(0.78515625)
+                   - y * Scalar(2.4187564849853515625e-4)
+                   - y * Scalar(3.77489497744594108e-8);
+        } else {
+            y = xa - y * Scalar(7.85398125648498535156e-1)
+                   - y * Scalar(3.77489470793079817668e-8)
+                   - y * Scalar(2.69515142907905952645e-15);
+        }
+
+        Value z = y * y;
+        z |= eq(xa, std::numeric_limits<Scalar>::infinity());
+
+        Value r;
+        if constexpr (Single) {
+            r = poly5(z, 3.33331568548e-1,
+                         1.33387994085e-1,
+                         5.34112807005e-2,
+                         2.44301354525e-2,
+                         3.11992232697e-3,
+                         9.38540185543e-3);
+        } else {
+            r = poly2(z, -1.79565251976484877988e7,
+                          1.15351664838587416140e6,
+                         -1.30936939181383777646e4) /
+                poly4(z, -5.38695755929454629881e7,
+                          2.50083801823357915839e7,
+                         -1.32089234440210967447e6,
+                          1.36812963470692954678e4,
+                          1.00000000000000000000e0);
+        }
+
+        r = fmadd(r, z * y, y);
+
+        auto recip_mask = Tan ? neq(j & Int(2), Int(0)) :
+                                 eq(j & Int(2), Int(0));
+        r[xa < Scalar(1e-4)] = y;
+        r[recip_mask] = rcp(r);
+
+        Value sign = reinterpret_array<Value>(sl<sizeof(Scalar) * 8 - 2>(j)) ^ x;
+
+        return mulsign(r, sign);
+    }
+}
+
+ENOKI_UNARY_OPERATION(sin, std::sin(x)) {
+    Value r;
+    detail::sincos_approx<true, false>(x, r, r);
+    return r;
+}
+
+ENOKI_UNARY_OPERATION(cos, std::cos(x)) {
+    Value r;
+    detail::sincos_approx<false, true>(x, r, r);
+    return r;
+}
+
+ENOKI_UNARY_OPERATION_PAIR(sincos, std::make_pair(std::sin(x), std::cos(x))) {
+    Value s, c;
+    detail::sincos_approx<true, true>(x, s, c);
+    return std::make_pair(s, c);
+}
+
+template <typename T> auto csc(const T &a) { return rcp(sin(a)); }
+template <typename T> auto sec(const T &a) { return rcp(cos(a)); }
+
+ENOKI_UNARY_OPERATION(tan, std::tan(x)) {
+    return detail::tancot_approx<true>(x);
+}
+
+ENOKI_UNARY_OPERATION(cot, 1 / std::tan(x)) {
+    return detail::tancot_approx<false>(x);
+}
+
+ENOKI_UNARY_OPERATION(asin, std::asin(x)) {
+    /*
+       Arc sine function approximation based on CEPHES.
+
+     - asin (in [-1, 1]):
+       * avg abs. err = 2.25422e-08
+       * avg rel. err = 2.85777e-08
+          -> in ULPs  = 0.331032
+       * max abs. err = 1.19209e-07
+         (at x=-0.999998)
+       * max rel. err = 2.27663e-07
+         -> in ULPs   = 2
+         (at x=-0.841416)
+    */
+
+    Value xa          = abs(x),
+          x2          = sqr(x),
+          r;
+
+    if constexpr (Single) {
+        Mask mask_big = xa > Scalar(0.5);
+
+        Value x1 = Scalar(0.5) * (Scalar(1) - xa);
+        Value x3 = select(mask_big, x1, x2);
+        Value x4 = select(mask_big, sqrt(x1), xa);
+
+        Value z1 = poly4(x3, 1.6666752422e-1f,
+                            7.4953002686e-2f,
+                            4.5470025998e-2f,
+                            2.4181311049e-2f,
+                            4.2163199048e-2f);
+
+        z1 = fmadd(z1, x3*x4, x4);
+
+        r = select(mask_big, Scalar(M_PI_2) - (z1 + z1), z1);
+    } else {
+        constexpr bool IsCuda = is_cuda_array_v<Value>;
+        Mask mask_big = xa > Scalar(0.625);
+
+        if (IsCuda || any_nested(mask_big)) {
+            const Scalar pio4 = Scalar(0.78539816339744830962);
+            const Scalar more_bits = Scalar(6.123233995736765886130e-17);
+
+            /* arcsin(1-x) = pi/2 - sqrt(2x)(1+R(x))  */
+            Value zz = Scalar(1) - xa;
+            Value p = poly4(zz, 2.853665548261061424989e1,
+                               -2.556901049652824852289e1,
+                                6.968710824104713396794e0,
+                               -5.634242780008963776856e-1,
+                                2.967721961301243206100e-3) /
+                      poly4(zz, 3.424398657913078477438e2,
+                               -3.838770957603691357202e2,
+                                1.470656354026814941758e2,
+                               -2.194779531642920639778e1,
+                                1.000000000000000000000e0) * zz;
+            zz = sqrt(zz + zz);
+            Value z = pio4 - zz;
+            r[mask_big] = z - fmsub(zz, p, more_bits) + pio4;
+        }
+
+        if (IsCuda || !all_nested(mask_big)) {
+            Value z = poly5(x2, -8.198089802484824371615e0,
+                                 1.956261983317594739197e1,
+                                -1.626247967210700244449e1,
+                                 5.444622390564711410273e0,
+                                -6.019598008014123785661e-1,
+                                 4.253011369004428248960e-3) /
+                      poly5(x2, -4.918853881490881290097e1,
+                                 1.395105614657485689735e2,
+                                -1.471791292232726029859e2,
+                                 7.049610280856842141659e1,
+                                -1.474091372988853791896e1,
+                                 1.000000000000000000000e0) * x2;
+            z = fmadd(xa, z, xa);
+            z = select(xa < Scalar(1e-8), xa, z);
+            r[~mask_big] = z;
+        }
+    }
+    return copysign(r, x);
+}
+
+ENOKI_UNARY_OPERATION(acos, std::acos(x)) {
+    /*
+       Arc cosine function approximation based on CEPHES.
+
+     - acos (in [-1, 1]):
+       * avg abs. err = 4.72002e-08
+       * avg rel. err = 2.85612e-08
+          -> in ULPs  = 0.33034
+       * max abs. err = 2.38419e-07
+         (at x=-0.99999)
+       * max rel. err = 1.19209e-07
+         -> in ULPs   = 1
+         (at x=-0.99999)
+    */
+
+    if constexpr (Single) {
+        Value xa = abs(x), x2 = sqr(x);
+
+        Mask mask_big = xa > Scalar(0.5);
+
+        Value x1 = Scalar(0.5) * (Scalar(1) - xa);
+        Value x3 = select(mask_big, x1, x2);
+        Value x4 = select(mask_big, sqrt(x1), xa);
+
+        Value z1 = poly4(x3, 1.666675242e-1f,
+                             7.4953002686e-2f,
+                             4.5470025998e-2f,
+                             2.4181311049e-2f,
+                             4.2163199048e-2f);
+
+        z1 = fmadd(z1, x3 * x4, x4);
+        Value z2 = z1 + z1;
+        z2 = select(x < Scalar(0), Scalar(M_PI) - z2, z2);
+
+        Value z3 = Scalar(M_PI_2) - copysign(z1, x);
+        return select(mask_big, z2, z3);
+    } else {
+        const Scalar pio4 = Scalar(0.78539816339744830962);
+        const Scalar more_bits = Scalar(6.123233995736765886130e-17);
+        const Scalar h = Scalar(0.5);
+
+        Mask mask = x > h;
+
+        Value y = asin(select(mask, sqrt(fnmadd(h, x, h)), x));
+        return select(mask, y + y, pio4 - y + more_bits + pio4);
+    }
+}
+
+ENOKI_BINARY_OPERATION(atan2, std::atan2(x, y)) {
+    /*
+       MiniMax fit by Wenzel Jakob, May 2016
+
+     - atan2() tested via atan() (in [-1, 1]):
+       * avg abs. err = 1.81543e-07
+       * avg rel. err = 4.15224e-07
+          -> in ULPs  = 4.9197
+       * max abs. err = 5.96046e-07
+         (at x=-0.976062)
+       * max rel. err = 7.73931e-07
+         -> in ULPs   = 12
+         (at x=-0.015445)
+    */
+    Value x_ = y,
+          y_ = x,
+          abs_x      = abs(x_),
+          abs_y      = abs(y_),
+          min_val    = min(abs_y, abs_x),
+          max_val    = max(abs_x, abs_y),
+          scale      = Scalar(1) / max_val,
+          scaled_min = min_val * scale,
+          z          = scaled_min * scaled_min;
+
+    // How to find these:
+    // f[x_] = MiniMaxApproximation[ArcTan[Sqrt[x]]/Sqrt[x],
+    //         {x, {1/10000, 1}, 6, 0}, WorkingPrecision->20][[2, 1]]
+
+    Value t;
+    if constexpr (Single) {
+        t = poly6(z, 0.99999934166683966009,
+                    -0.33326497518773606976,
+                    +0.19881342388439013552,
+                    -0.13486708938456973185,
+                    +0.083863120428809689910,
+                    -0.037006525670417265220,
+                     0.0078613793713198150252);
+    } else {
+        t = poly6(z, 9.9999999999999999419e-1,
+                     2.50554429737833465113e0,
+                     2.28289058385464073556e0,
+                     9.20960512187107069075e-1,
+                     1.59189681028889623410e-1,
+                     9.35911604785115940726e-3,
+                     8.07005540507283419124e-5) /
+            poly6(z, 1.00000000000000000000e0,
+                     2.83887763071166519407e0,
+                     3.02918312742541450749e0,
+                     1.50576983803701596773e0,
+                     3.49719171130492192607e-1,
+                     3.29968942624402204199e-2,
+                     8.26619391703564168942e-4);
+    }
+
+    t = t * scaled_min;
+
+    t = select(abs_y > abs_x, Scalar(M_PI_2) - t, t);
+    t = select(x_ < zero<Value>(), Scalar(M_PI) - t, t);
+    Value r = select(y_ < zero<Value>(), -t, t);
+    r &= neq(max_val, Scalar(0));
+    return r;
+}
+
+ENOKI_UNARY_OPERATION(atan, std::atan(x)) {
+    return atan2(x, Scalar(1));
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+// -----------------------------------------------------------------------
+//! @{ \name Exponential function, logarithm, power
+// -----------------------------------------------------------------------
+
+ENOKI_BINARY_OPERATION(ldexp, detail::ldexp_scalar(x, y)) {
+    return x * reinterpret_array<Value>(
+        sl<Single ? 23 : 52>(int_array_t<Value>(y) + (Single ? 0x7f : 0x3ff)));
+}
+
+ENOKI_UNARY_OPERATION_PAIR(frexp, detail::frexp_scalar(x)) {
+    using IntArray = int_array_t<Value>;
+    using Int = scalar_t<IntArray>;
+    using IntMask = mask_t<IntArray>;
+
+    const IntArray
+        exponent_mask(Int(Single ? 0x7f800000ull : 0x7ff0000000000000ull)),
+        mantissa_sign_mask(Int(Single ? ~0x7f800000ull : ~0x7ff0000000000000ull)),
+        bias(Int(Single ? 0x7f : 0x3ff));
+
+    IntArray xi = reinterpret_array<IntArray>(x);
+    IntArray exponent_bits = xi & exponent_mask;
+
+    /* Detect zero/inf/NaN */
+    IntMask is_normal =
+        IntMask(neq(x, zero<Value>())) &
+        neq(exponent_bits, exponent_mask);
+
+    IntArray exponent_i = (sr<Single ? 23 : 52>(exponent_bits)) - bias;
+
+    IntArray mantissa = (xi & mantissa_sign_mask) |
+                         IntArray(memcpy_cast<Int>(Scalar(.5f)));
+
+    return std::make_pair(
+        reinterpret_array<Value>(select(is_normal, mantissa, xi)),
+        Value(exponent_i & is_normal)
+    );
+}
+
+ENOKI_UNARY_OPERATION(exp, std::exp(x)) {
+    /* Exponential function approximation based on CEPHES
+
+       Redistributed under a BSD license with permission of the author, see
+       https://github.com/deepmind/torch-cephes/blob/master/LICENSE.txt
+
+     - exp (in [-20, 30]):
+       * avg abs. err = 7155.01
+       * avg rel. err = 2.35929e-08
+          -> in ULPs  = 0.273524
+       * max abs. err = 1.04858e+06
+         (at x=29.8057)
+       * max rel. err = 1.192e-07
+         -> in ULPs   = 1
+         (at x=-19.9999)
+    */
+
+    const Scalar inf = std::numeric_limits<Scalar>::infinity();
+    const Scalar max_range = Scalar(Single ? +88.3762588501 : +7.0943613930310391424428e2);
+    const Scalar min_range = Scalar(Single ? -88.3762588501 : -7.0943613930310391424428e2);
+
+    Mask mask_overflow  = x > max_range,
+         mask_underflow = x < min_range;
+
+    /* Valueess e^x = e^g 2^n
+         = e^g e^(n loge(2))
+         = e^(g + n loge(2))
+    */
+    Value n = floor(fmadd(Scalar(1.4426950408889634073599), x, Scalar(0.5)));
+    Value xr = x;
+    if constexpr (Single) {
+        xr = fnmadd(n, Scalar(0.693359375), xr);
+        xr = fnmadd(n, Scalar(-2.12194440e-4), xr);
+    } else {
+        xr = fnmadd(n, Scalar(6.93145751953125e-1), xr);
+        xr = fnmadd(n, Scalar(1.42860682030941723212e-6), xr);
+    }
+
+    Value z = sqr(xr);
+
+    if constexpr (Single) {
+        z = poly5(xr, 5.0000001201e-1, 1.6666665459e-1,
+                      4.1665795894e-2, 8.3334519073e-3,
+                      1.3981999507e-3, 1.9875691500e-4);
+        z = fmadd(z, xr * xr, xr + Scalar(1));
+    } else {
+        /* Rational approximation for exponential
+           of the fractional part:
+              e^x = 1 + 2x P(x^2) / (Q(x^2) - P(x^2))
+         */
+        Value p = poly2(z, 9.99999999999999999910e-1,
+                           3.02994407707441961300e-2,
+                           1.26177193074810590878e-4) * xr;
+
+        Value q = poly3(z, 2.00000000000000000009e0,
+                           2.27265548208155028766e-1,
+                           2.52448340349684104192e-3,
+                           3.00198505138664455042e-6);
+
+        Value pq = p / (q-p);
+        z = pq + pq + Scalar(1);
+    }
+
+    return select(mask_overflow, inf,
+                  select(mask_underflow, zero<Value>(), ldexp(z, n)));
+}
+
+ENOKI_UNARY_OPERATION(log, std::log(x)) {
+    /* Logarithm function approximation based on CEPHES
+
+       Redistributed under a BSD license with permission of the author, see
+       https://github.com/deepmind/torch-cephes/blob/master/LICENSE.txt
+
+     - log (in [1e-20, 1000]):
+       * avg abs. err = 8.8672e-09
+       * avg rel. err = 1.57541e-09
+          -> in ULPs  = 0.020038
+       * max abs. err = 4.76837e-07
+         (at x=54.7661)
+       * max rel. err = 1.19194e-07
+         -> in ULPs   = 1
+         (at x=0.021)
+    */
+
+    using UInt = scalar_t<int_array_t<Value>>;
+
+    /* Catch negative and NaN values */
+    Mask valid_mask = x >= Scalar(0);
+    Value input = x, xm;
+
+    /* The frexp in array_base.h does not handle denormalized numbers,
+       cut them off. The AVX512 backend does support them, however. */
+    if constexpr (!has_avx512f) {
+        Scalar limit = memcpy_cast<Scalar>(
+            UInt(Single ? 0x00800000u : 0x0010000000000000ull));
+        xm = max(x, limit);
+    } else {
+        xm = x;
+    }
+
+    Value e;
+    std::tie(xm, e) = frexp(x);
+
+    const Scalar sqrt_half = Scalar(0.70710678118654752440);
+    Mask mask_e_big = abs(e) > Scalar(2);
+    Mask mask_ge_inv_sqrt2 = xm >= sqrt_half;
+    ENOKI_MARK_USED(mask_e_big);
+
+    e[mask_ge_inv_sqrt2] += Scalar(1);
+
+    Value r;
+    if constexpr (Single) {
+        xm += (xm & ~mask_ge_inv_sqrt2) - Scalar(1);
+
+        Value z = xm * xm;
+        Value y = poly8(xm, 3.3333331174e-1, -2.4999993993e-1,
+                            2.0000714765e-1, -1.6668057665e-1,
+                            1.4249322787e-1, -1.2420140846e-1,
+                            1.1676998740e-1, -1.1514610310e-1,
+                            7.0376836292e-2);
+
+        y *= xm * z;
+
+        y = fmadd(e, Scalar(-2.12194440e-4), y);
+        z = fmadd(z, Scalar(-0.5), xm + y);
+        r = fmadd(e, Scalar(0.693359375), z);
+    } else {
+        constexpr bool IsCuda = is_cuda_array_v<Value>;
+        const Scalar half = Scalar(0.5);
+        Value r_big, r_small;
+
+        if (IsCuda || any_nested(mask_e_big)) {
+            /* logarithm using log(x) = z + z**3 P(z)/Q(z), where z = 2(x-1)/x+1) */
+            Value z = xm - half;
+
+            z[mask_ge_inv_sqrt2] -= half;
+
+            Value y = half * select(mask_ge_inv_sqrt2, xm, z) + half;
+            Value x2 = z / y;
+
+            z = x2 * x2;
+            z = x2 * (z * poly2(z, -6.41409952958715622951e1,
+                                    1.63866645699558079767e1,
+                                   -7.89580278884799154124e-1) /
+                          poly3(z, -7.69691943550460008604e2,
+                                    3.12093766372244180303e2,
+                                   -3.56722798256324312549e1,
+                                    1.00000000000000000000e0));
+
+            r_big = fnmadd(e, Scalar(2.121944400546905827679e-4), z) + x2;
+        }
+
+        if (IsCuda || !all_nested(mask_e_big)) {
+            /* logarithm using log(1+x) = x - .5x**2 + x**3 P(x)/Q(x) */
+            Value x2 = select(mask_ge_inv_sqrt2, xm, xm + xm) - Scalar(1);
+
+            Value z = x2*x2;
+            Value y = x2 * (z * poly5(x2, 7.70838733755885391666e0,
+                                          1.79368678507819816313e1,
+                                          1.44989225341610930846e1,
+                                          4.70579119878881725854e0,
+                                          4.97494994976747001425e-1,
+                                          1.01875663804580931796e-4) /
+                                poly5(x2, 2.31251620126765340583e1,
+                                          7.11544750618563894466e1,
+                                          8.29875266912776603211e1,
+                                          4.52279145837532221105e1,
+                                          1.12873587189167450590e1,
+                                          1.00000000000000000000e0));
+
+            y = fnmadd(e, Scalar(2.121944400546905827679e-4), y);
+
+            r_small = x2 + fnmadd(half, z, y);
+        }
+
+        r = select(mask_e_big, r_big, r_small);
+        r = fmadd(e, Scalar(0.693359375), r);
+    }
+
+    /* Handle a few special cases */
+    const Scalar n_inf(-std::numeric_limits<Scalar>::infinity());
+    const Scalar p_inf(std::numeric_limits<Scalar>::infinity());
+
+    r[eq(input, p_inf)] = p_inf;
+    r[eq(input, Scalar(0))] = n_inf;
+
+    return r | ~valid_mask;
+}
+
+ENOKI_UNARY_OPERATION(cbrt, std::cbrt(x)) {
+    /* Cubic root approximation based on CEPHES
+
+       Redistributed under a BSD license with permission of the author, see
+       https://github.com/deepmind/torch-cephes/blob/master/LICENSE.txt
+
+     - cbrt (in [-10, 10]):
+       * avg abs. err = 2.91027e-17
+       * avg rel. err = 1.79292e-17
+          -> in ULPs  = 0.118351
+       * max abs. err = 4.44089e-16
+         (at x=-9.99994)
+       * max rel. err = 2.22044e-16
+         -> in ULPs   = 1
+         (at x=-9.99994)
+    */
+
+    const Scalar CBRT2 = Scalar(1.25992104989487316477),
+                 CBRT4 = Scalar(1.58740105196819947475),
+                 THIRD = Scalar(1.0 / 3.0);
+
+    Value xa = abs(x);
+
+    auto [xm, xe] = frexp(xa);
+    xe += Scalar(1);
+
+    Value xea = abs(xe),
+          xea1 = floor(xea * THIRD),
+          rem = fnmadd(xea1, Scalar(3), xea);
+
+    /* Approximate cube root of number between .5 and 1,
+       peak relative error = 9.2e-6 */
+    xm = poly4(xm, 0.40238979564544752126924,
+                   1.1399983354717293273738,
+                  -0.95438224771509446525043,
+                   0.54664601366395524503440,
+                  -0.13466110473359520655053);
+
+    Value f1 = select(xe >= Scalar(0), Value(CBRT2), Value(Scalar(1) / CBRT2)),
+          f2 = select(xe >= Scalar(0), Value(CBRT4), Value(Scalar(1) / CBRT4)),
+          f  = select(eq(rem, 1.f), f1, f2);
+
+    xm[neq(rem, 0.f)] *= f;
+
+    Value r = ldexp(xm, mulsign(xea1, xe));
+    r = mulsign(r, x);
+
+    // Newton iteration
+    r -= (r - (x / sqr(r))) * THIRD;
+
+    if constexpr (!Single)
+        r -= (r - (x / sqr(r))) * THIRD;
+
+    return select(isfinite(x), r, x);
+}
+
+ENOKI_BINARY_OPERATION(pow, std::pow(x, y)) {
+    return exp(log(x) * y);
+}
+
+template <typename T, typename E = expr_t<T>>
+ENOKI_INLINE E pow(const T &x_, const int &y) {
+    int n = std::abs(y);
+    E result(1.f), x(x_);
+
+    while (n > 0) {
+        if (n & 1)
+            result *= x;
+        x *= x;
+        n /= 2;
+    }
+
+    return (y >= 0) ? result : rcp(result);
+}
+
+template <typename T, typename E = expr_t<T, float>,
+          enable_if_t<is_array_v<T>> = 0>
+ENOKI_INLINE E pow(const T &x, const float &y) {
+    if (enoki::round(y) == y)
+        return enoki::pow(E(x), (int) y);
+    else
+        return enoki::pow(E(x), E(y));
+}
+
+template <typename T, typename E = expr_t<T, double>,
+          enable_if_t<is_array_v<T>> = 0>
+ENOKI_INLINE E pow(const T &x, const double &y) {
+    if (enoki::round(y) == y)
+        return enoki::pow(E(x), (int) y);
+    else
+        return enoki::pow(E(x), E(y));
+}
+
+// -----------------------------------------------------------------------
+//! @{ \name Hyperbolic and inverse hyperbolic functions
+// -----------------------------------------------------------------------
+
+ENOKI_UNARY_OPERATION(sinh, std::sinh(x)) {
+    /*
+     - sinh (in [-10, 10]):
+       * avg abs. err = 2.92524e-05
+       * avg rel. err = 2.80831e-08
+          -> in ULPs  = 0.336485
+       * max abs. err = 0.00195312
+         (at x=-9.99894)
+       * max rel. err = 2.36862e-07
+         -> in ULPs   = 3
+         (at x=-9.69866)
+    */
+
+    constexpr bool IsCuda = is_cuda_array_v<Value>;
+
+    Value xa = abs(x),
+          r_small, r_big;
+
+    Mask mask_big = xa > Scalar(1);
+
+    if (IsCuda || any_nested(mask_big)) {
+        Value exp0 = exp(x),
+              exp1 = rcp(exp0);
+
+        r_big = (exp0 - exp1) * Scalar(0.5);
+    }
+
+    if (IsCuda || !all_nested(mask_big)) {
+        Value x2 = x * x;
+
+        if constexpr (Single) {
+            r_small = fmadd(poly2(x2, 1.66667160211e-1,
+                                      8.33028376239e-3,
+                                      2.03721912945e-4),
+                            x2 * x, x);
+        } else {
+            r_small = fmadd(poly3(x2, -3.51754964808151394800e5,
+                                      -1.15614435765005216044e4,
+                                      -1.63725857525983828727e2,
+                                      -7.89474443963537015605e-1) /
+                            poly3(x2, -2.11052978884890840399e6,
+                                       3.61578279834431989373e4,
+                                      -2.77711081420602794433e2,
+                                       1.00000000000000000000e0),
+                            x2 * x, x);
+        }
+    }
+
+    return select(mask_big, r_big, r_small);
+}
+
+ENOKI_UNARY_OPERATION(cosh, std::cosh(x)) {
+    /*
+     - cosh (in [-10, 10]):
+       * avg abs. err = 4.17738e-05
+       * avg rel. err = 3.15608e-08
+          -> in ULPs  = 0.376252
+       * max abs. err = 0.00195312
+         (at x=-9.99894)
+       * max rel. err = 2.38001e-07
+         -> in ULPs   = 3
+         (at x=-9.70164)
+    */
+
+    Value exp0 = exp(x),
+          exp1 = rcp(exp0);
+
+    return (exp0 + exp1) * Scalar(.5f);
+}
+
+ENOKI_UNARY_OPERATION_PAIR(sincosh, std::make_pair(std::sinh(x), std::cosh(x))) {
+    /*
+     - sinh (in [-10, 10]):
+       * avg abs. err = 2.92524e-05
+       * avg rel. err = 2.80831e-08
+          -> in ULPs  = 0.336485
+       * max abs. err = 0.00195312
+         (at x=-9.99894)
+       * max rel. err = 2.36862e-07
+         -> in ULPs   = 3
+         (at x=-9.69866)
+
+     - cosh (in [-10, 10]):
+       * avg abs. err = 4.17738e-05
+       * avg rel. err = 3.15608e-08
+          -> in ULPs  = 0.376252
+       * max abs. err = 0.00195312
+         (at x=-9.99894)
+       * max rel. err = 2.38001e-07
+         -> in ULPs   = 3
+         (at x=-9.70164)
+    */
+
+    constexpr bool IsCuda = is_cuda_array_v<Value>;
+
+    const Scalar half = Scalar(0.5);
+
+    Value xa    = abs(x),
+          exp0  = exp(x),
+          exp1  = rcp(exp0),
+          r_big = (exp0 - exp1) * half,
+          r_small;
+
+    Mask mask_big = xa > Scalar(1);
+
+    if (IsCuda || !all_nested(mask_big)) {
+        Value x2 = x * x;
+
+        if constexpr (Single) {
+            r_small = fmadd(poly2(x2, 1.66667160211e-1,
+                                      8.33028376239e-3,
+                                      2.03721912945e-4),
+                            x2 * x, x);
+        } else {
+            r_small = fmadd(poly3(x2, -3.51754964808151394800e5,
+                                      -1.15614435765005216044e4,
+                                      -1.63725857525983828727e2,
+                                      -7.89474443963537015605e-1) /
+                            poly3(x2, -2.11052978884890840399e6,
+                                       3.61578279834431989373e4,
+                                      -2.77711081420602794433e2,
+                                       1.00000000000000000000e0),
+                            x2 * x, x);
+        }
+    }
+
+    return std::make_pair(
+        select(mask_big, r_big, r_small),
+        half * (exp0 + exp1)
+    );
+}
+
+ENOKI_UNARY_OPERATION(tanh, std::tanh(x)) {
+    /*
+       Hyperbolic tangent function approximation based on CEPHES.
+
+     - tanh (in [-10, 10]):
+       * avg abs. err = 4.44655e-08
+       * avg rel. err = 4.58074e-08
+          -> in ULPs  = 0.698044
+       * max abs. err = 3.57628e-07
+         (at x=-2.12867)
+       * max rel. err = 4.1006e-07
+         -> in ULPs   = 6
+         (at x=-2.12867)
+    */
+
+    constexpr bool IsCuda = is_cuda_array_v<Value>;
+
+    Value r_big, r_small;
+
+    Mask mask_big = abs(x) >= Scalar(0.625);
+
+    if (IsCuda || !all_nested(mask_big)) {
+        Value x2 = x*x;
+
+        if constexpr (Single) {
+            r_small = poly4(x2, -3.33332819422e-1,
+                                 1.33314422036e-1,
+                                -5.37397155531e-2,
+                                 2.06390887954e-2,
+                                -5.70498872745e-3);
+        } else {
+            r_small = poly2(x2, -1.61468768441708447952e3,
+                                -9.92877231001918586564e1,
+                                -9.64399179425052238628e-1) /
+                      poly3(x2,  4.84406305325125486048e3,
+                                 2.23548839060100448583e3,
+                                 1.12811678491632931402e2,
+                                 1.00000000000000000000e0);
+        }
+
+        r_small = fmadd(r_small, x2 * x, x);
+    }
+
+    if (IsCuda || any_nested(mask_big)) {
+        Value e  = exp(x + x),
+              e2 = rcp(e + Scalar(1));
+        r_big = Scalar(1) - (e2 + e2);
+    }
+
+    return select(mask_big, r_big, r_small);
+}
+
+template <typename T> auto csch(const T &a) { return rcp(sinh(a)); }
+template <typename T> auto sech(const T &a) { return rcp(cosh(a)); }
+template <typename T> auto coth(const T &a) { return rcp(tanh(a)); }
+
+ENOKI_UNARY_OPERATION(asinh, std::asinh(x)) {
+    /*
+       Hyperbolic arc sine function approximation based on CEPHES.
+
+     - asinh (in [-10, 10]):
+       * avg abs. err = 2.75626e-08
+       * avg rel. err = 1.51762e-08
+          -> in ULPs  = 0.178341
+       * max abs. err = 2.38419e-07
+         (at x=-10)
+       * max rel. err = 1.71857e-07
+         -> in ULPs   = 2
+         (at x=-1.17457)
+    */
+
+    constexpr bool IsCuda = is_cuda_array_v<Value>;
+
+    Value x2 = x*x,
+          xa = abs(x),
+          r_big, r_small;
+
+    Mask mask_big  = xa >= Scalar(Single ? 0.51 : 0.533),
+         mask_huge = xa >= Scalar(Single ? 1e10 : 1e20);
+
+    if (IsCuda || !all_nested(mask_big)) {
+        if constexpr (Single) {
+            r_small = poly3(x2, -1.6666288134e-1,
+                                 7.4847586088e-2,
+                                -4.2699340972e-2,
+                                 2.0122003309e-2);
+        } else {
+            r_small = poly4(x2, -5.56682227230859640450e0,
+                                -9.09030533308377316566e0,
+                                -4.37390226194356683570e0,
+                                -5.91750212056387121207e-1,
+                                -4.33231683752342103572e-3) /
+                      poly4(x2, 3.34009336338516356383e1,
+                                6.95722521337257608734e1,
+                                4.86042483805291788324e1,
+                                1.28757002067426453537e1,
+                                1.00000000000000000000e0);
+        }
+        r_small = fmadd(r_small, x2 * x, x);
+    }
+
+    if (IsCuda || any_nested(mask_big)) {
+        r_big = log(xa + (sqrt(x2 + Scalar(1)) & ~mask_huge));
+        r_big[mask_huge] += Scalar(M_LN2);
+        r_big = copysign(r_big, x);
+    }
+
+    return select(mask_big, r_big, r_small);
+}
+
+ENOKI_UNARY_OPERATION(acosh, std::acosh(x)) {
+    /*
+       Hyperbolic arc cosine function approximation based on CEPHES.
+
+     - acosh (in [-10, 10]):
+       * avg abs. err = 2.8897e-08
+       * avg rel. err = 1.49658e-08
+          -> in ULPs  = 0.175817
+       * max abs. err = 2.38419e-07
+         (at x=3.76221)
+       * max rel. err = 2.35024e-07
+         -> in ULPs   = 3
+         (at x=1.02974)
+    */
+
+    constexpr bool IsCuda = is_cuda_array_v<Value>;
+
+    Value x1 = x - Scalar(1),
+         r_big, r_small;
+
+    Mask mask_big  = x1 >= Scalar(0.49),
+         mask_huge = x1 >= Scalar(1e10);
+
+    if (IsCuda || !all_nested(mask_big)) {
+        if constexpr (Single) {
+            r_small = poly4(x1,  1.4142135263e+0,
+                                -1.1784741703e-1,
+                                 2.6454905019e-2,
+                                -7.5272886713e-3,
+                                 1.7596881071e-3);
+        } else {
+            r_small = poly4(x1, 1.10855947270161294369E5,
+                                1.08102874834699867335E5,
+                                3.43989375926195455866E4,
+                                3.94726656571334401102E3,
+                                1.18801130533544501356E2) /
+                      poly5(x1, 7.83869920495893927727E4,
+                                8.29725251988426222434E4,
+                                2.97683430363289370382E4,
+                                4.15352677227719831579E3,
+                                1.86145380837903397292E2,
+                                1.00000000000000000000E0);
+        }
+
+        r_small *= sqrt(x1);
+        r_small |= x1 < zero<Value>();
+    }
+
+    if (IsCuda || any_nested(mask_big)) {
+        r_big = log(x + (sqrt(fmsub(x, x, Scalar(1))) & ~mask_huge));
+        r_big[mask_huge] += Scalar(M_LN2);
+    }
+
+    return select(mask_big, r_big, r_small);
+}
+
+ENOKI_UNARY_OPERATION(atanh, std::atanh(x)) {
+    /*
+       Hyperbolic arc tangent function approximation based on CEPHES.
+
+
+     - acosh (in [-10, 10]):
+       * avg abs. err = 9.87529e-09
+       * avg rel. err = 1.52741e-08
+          -> in ULPs  = 0.183879
+       * max abs. err = 2.38419e-07
+         (at x=-0.998962)
+       * max rel. err = 1.19209e-07
+         -> in ULPs   = 1
+         (at x=-0.998962)
+    */
+
+    constexpr bool IsCuda = is_cuda_array_v<Value>;
+
+    Value xa = abs(x),
+          r_big, r_small;
+
+    Mask mask_big  = xa >= Scalar(0.5);
+
+    if (IsCuda || !all_nested(mask_big)) {
+        Value x2 = x*x;
+        if constexpr (Single) {
+            r_small = poly4(x2, 3.33337300303e-1,
+                                1.99782164500e-1,
+                                1.46691431730e-1,
+                                8.24370301058e-2,
+                                1.81740078349e-1);
+        } else {
+            r_small = poly4(x2, -3.09092539379866942570e1,
+                                 6.54566728676544377376e1,
+                                -4.61252884198732692637e1,
+                                 1.20426861384072379242e1,
+                                -8.54074331929669305196e-1) /
+                      poly5(x2, -9.27277618139601130017e1,
+                                 2.52006675691344555838e2,
+                                -2.49839401325893582852e2,
+                                 1.08938092147140262656e2,
+                                -1.95638849376911654834e1,
+                                 1.00000000000000000000e0);
+        }
+        r_small = fmadd(r_small, x2*x, x);
+    }
+
+    if (IsCuda || any_nested(mask_big)) {
+        r_big = log((Scalar(1) + xa) / (Scalar(1) - xa)) * Scalar(0.5);
+        r_big = copysign(r_big, x);
+    }
+
+    return select(mask_big, r_big, r_small);
+}
+
+/// Linearly interpolate between 'a' and 'b', using 't'
+template <typename Value1, typename Value2, typename Value3>
+auto lerp(const Value1 &a, const Value2 &b, const Value3 &t) {
+    return fmadd(b, t, fnmadd(a, t, a));
+}
+
+/// Clamp the value 'value' to the range [min, max]
+template <typename Value1, typename Value2, typename Value3>
+auto clamp(const Value1 &value, const Value2 &min, const Value3 &max) {
+    return enoki::max(enoki::min(value, max), min);
+}
+
+/// Compute the hypotenuse of 'a' and 'b', while avoiding under/overflow
+template <typename T1, typename T2>
+ENOKI_INLINE auto hypot(const T1 &a, const T2 &b) {
+    auto abs_a  = abs(a);
+    auto abs_b  = abs(b);
+    auto maxval = max(abs_a, abs_b),
+         minval = min(abs_a, abs_b),
+         ratio  = minval / maxval;
+
+    using Scalar = scalar_t<decltype(ratio)>;
+    const Scalar inf = std::numeric_limits<Scalar>::infinity();
+
+    return select(
+        (abs_a < inf) && (abs_b < inf) && (ratio < inf),
+        maxval * sqrt(Scalar(1) + sqr(ratio)),
+        abs_a + abs_b
+    );
+}
+
+ENOKI_BINARY_OPERATION(fmod, std::fmod(x, y)) {
+    return fnmadd(trunc(x / y), y, x);
+}
+
+// -----------------------------------------------------------------------
+//! @{ \name "Safe" functions that avoid domain errors due to rounding
+// -----------------------------------------------------------------------
+
+template <typename T> ENOKI_INLINE auto safe_sqrt(const T &a) {
+    return sqrt(max(a, zero<T>()));
+}
+
+template <typename T> ENOKI_INLINE auto safe_rsqrt(const T &a) {
+    return rsqrt(max(a, zero<T>()));
+}
+
+template <typename T> ENOKI_INLINE auto safe_asin(const T &a) {
+    return asin(min(T(1), max(T(-1), a)));
+}
+
+template <typename T> ENOKI_INLINE auto safe_acos(const T &a) {
+    return acos(min(T(1), max(T(-1), a)));
+}
+
+/**
+ * \brief Numerically well-behaved routine for computing the angle
+ * between two unit direction vectors
+ *
+ * This should be used wherever one is tempted to compute the
+ * arc cosine of a dot product.
+ *
+ * By Don Hatch at http://www.plunk.org/~hatch/rightway.php
+ */
+template <typename T, typename Expr = expr_t<value_t<T>>>
+Expr unit_angle(const T &a, const T &b) {
+    Expr dot_uv = dot(a, b),
+         temp = 2.f * asin(.5f * norm(b - mulsign(a, dot_uv)));
+    return select(dot_uv >= 0, temp, scalar_t<Expr>(M_PI) - temp);
+}
+
+/**
+ * \brief Numerically well-behaved routine for computing the angle
+ * between the unit direction vector 'v' and the z-axis
+ *
+ * This should be used wherever one is tempted to compute
+ * std::acos(v.z())
+ *
+ * By Don Hatch at http://www.plunk.org/~hatch/rightway.php
+ */
+template <typename T, typename Expr = expr_t<value_t<T>>>
+Expr unit_angle_z(const T &v) {
+    static_assert(T::Size == 3, "unit_angle_z(): input is not a 3D vector");
+    Expr temp = 2.f * asin(.5f * sqrt(sqr(v.x()) + sqr(v.y()) +
+                                      sqr(v.z() - copysign(Expr(1.f), v.z()))));
+    return select(v.z() >= 0, temp, scalar_t<Expr>(M_PI) - temp);
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+// -----------------------------------------------------------------------
+//! @{ \name Floating point manipulation routines
+// -----------------------------------------------------------------------
+
+template <typename Value, typename Expr = expr_t<Value>>
+ENOKI_INLINE Expr prev_float(const Value &value) {
+    using Int = int_array_t<Expr>;
+    using IntScalar = scalar_t<Int>;
+
+    const Int exponent_mask = sizeof(IntScalar) == 4
+                                  ? IntScalar(0x7f800000)
+                                  : IntScalar(0x7ff0000000000000ll);
+
+    const Int pos_denorm = sizeof(IntScalar) == 4
+                              ? IntScalar(0x80000001)
+                              : IntScalar(0x8000000000000001ll);
+
+    Int i = reinterpret_array<Int>(value);
+
+    auto is_nan_inf = eq(i & exponent_mask, exponent_mask);
+    auto is_pos_0   = eq(i, 0);
+    auto is_gt_0    = i >= 0;
+    auto is_special = is_nan_inf | is_pos_0;
+
+    Int j1 = i + select(is_gt_0, Int(-1), Int(1));
+    Int j2 = select(is_pos_0, pos_denorm, i);
+
+    return reinterpret_array<Expr>(select(is_special, j2, j1));
+}
+
+template <typename Value, typename Expr = expr_t<Value>>
+ENOKI_INLINE Expr next_float(const Value &value) {
+    using Int = int_array_t<Expr>;
+    using IntScalar = scalar_t<Int>;
+
+    const Int exponent_mask = sizeof(IntScalar) == 4
+                                  ? IntScalar(0x7f800000)
+                                  : IntScalar(0x7ff0000000000000ll);
+
+    const Int sign_mask = sizeof(IntScalar) == 4
+                              ? IntScalar(0x80000000)
+                              : IntScalar(0x8000000000000000ll);
+
+    Int i = reinterpret_array<Int>(value);
+
+    auto is_nan_inf = eq(i & exponent_mask, exponent_mask);
+    auto is_neg_0   = eq(i, sign_mask);
+    auto is_gt_0    = i >= 0;
+    auto is_special = is_nan_inf | is_neg_0;
+
+    Int j1 = i + select(is_gt_0, Int(1), Int(-1));
+    Int j2 = select(is_neg_0, Int(1), i);
+
+    return reinterpret_array<Expr>(select(is_special, j2, j1));
+}
+
+template <typename Arg> auto isdenormal(const Arg &a) {
+    return abs(a) < std::numeric_limits<scalar_t<Arg>>::min() &&
+           neq(a, zero<Arg>());
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_neon.h b/sources/enoki/array_neon.h
new file mode 100644
index 00000000..cd0bdc76
--- /dev/null
+++ b/sources/enoki/array_neon.h
@@ -0,0 +1,1305 @@
+/*
+    enoki/array_neon.h -- Packed SIMD array (ARM NEON specialization)
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyrighe (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include "array_generic.h"
+
+NAMESPACE_BEGIN(enoki)
+NAMESPACE_BEGIN(detail)
+
+template <> struct is_native<float, 4> : std::true_type { };
+template <> struct is_native<float, 3> : std::true_type { };
+template <typename Value> struct is_native<Value, 4, enable_if_int32_t<Value>> : std::true_type { };
+template <typename Value> struct is_native<Value, 3, enable_if_int32_t<Value>> : std::true_type { };
+
+#if defined(ENOKI_ARM_64)
+    template <> struct is_native<double, 2> : std::true_type { };
+    template <typename Value>    struct is_native<Value, 2, enable_if_int64_t<Value>> : std::true_type { };
+#endif
+
+static constexpr uint64_t arm_shuffle_helper_(int i) {
+    if (i == 0)
+        return 0x03020100;
+    else if (i == 1)
+        return 0x07060504;
+    else if (i == 2)
+        return 0x0B0A0908;
+    else
+        return 0x0F0E0D0C;
+}
+
+NAMESPACE_END(detail)
+
+ENOKI_INLINE uint64x2_t vmvnq_u64(uint64x2_t a) {
+    return vreinterpretq_u64_u32(vmvnq_u32(vreinterpretq_u32_u64(a)));
+}
+
+ENOKI_INLINE int64x2_t vmvnq_s64(int64x2_t a) {
+    return vreinterpretq_s64_s32(vmvnq_s32(vreinterpretq_s32_s64(a)));
+}
+
+/// Partial overload of StaticArrayImpl using ARM NEON intrinsics (single precision)
+template <bool IsMask_, typename Derived_> struct ENOKI_MAY_ALIAS alignas(16)
+    StaticArrayImpl<float, 4, IsMask_, Derived_>
+  : StaticArrayBase<float, 4, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(float, 4, float32x4_t)
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(Value value) : m(vdupq_n_f32(value)) { }
+    ENOKI_INLINE StaticArrayImpl(Value v0, Value v1, Value v2, Value v3)
+        : m{v0, v1, v2, v3} { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_CONVERT(float) : m(a.derived().m) { }
+    ENOKI_CONVERT(int32_t) : m(vcvtq_f32_s32(vreinterpretq_s32_u32(a.derived().m))) { }
+    ENOKI_CONVERT(uint32_t) : m(vcvtq_f32_u32(a.derived().m)) { }
+    ENOKI_CONVERT(half) : m(vcvt_f32_f16(vld1_f16((const __fp16 *) a.data()))) { }
+#if defined(ENOKI_ARM_64)
+    ENOKI_CONVERT(double) : m(vcvtx_high_f32_f64(vcvtx_f32_f64(low(a).m), high(a).m)) { }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+#define ENOKI_REINTERPRET_BOOL(type, target)                   \
+    ENOKI_REINTERPRET(type) {                                  \
+        m = vreinterpretq_##target##_u32(uint32x4_t {          \
+            reinterpret_array<uint32_t>(a.derived().coeff(0)), \
+            reinterpret_array<uint32_t>(a.derived().coeff(1)), \
+            reinterpret_array<uint32_t>(a.derived().coeff(2)), \
+            reinterpret_array<uint32_t>(a.derived().coeff(3))  \
+        });                                                    \
+    }
+
+    ENOKI_REINTERPRET(float) : m(a.derived().m) { }
+    ENOKI_REINTERPRET(int32_t) : m(vreinterpretq_f32_u32(a.derived().m)) { }
+    ENOKI_REINTERPRET(uint32_t) : m(vreinterpretq_f32_u32(a.derived().m)) { }
+#if defined(ENOKI_ARM_64)
+    ENOKI_REINTERPRET(int64_t) : m(vreinterpretq_f32_u32(vcombine_u32(vmovn_u64(low(a).m), vmovn_u64(high(a).m)))) { }
+    ENOKI_REINTERPRET(uint64_t) : m(vreinterpretq_f32_u32(vcombine_u32(vmovn_u64(low(a).m), vmovn_u64(high(a).m)))) { }
+    ENOKI_REINTERPRET(double) : m(vreinterpretq_f32_u32(vcombine_u32(
+        vmovn_u64(vreinterpretq_u64_f64(low(a).m)),
+        vmovn_u64(vreinterpretq_u64_f64(high(a).m))))) { }
+#else
+    ENOKI_REINTERPRET_BOOL(int64_t, f32)
+    ENOKI_REINTERPRET_BOOL(uint64_t, f32)
+    ENOKI_REINTERPRET_BOOL(double, f32)
+#endif
+
+    ENOKI_REINTERPRET_BOOL(bool, f32)
+
+#undef ENOKI_REINTERPRET_BOOL
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m{a1.coeff(0), a1.coeff(1), a2.coeff(0), a2.coeff(1)} { }
+
+    ENOKI_INLINE Array1 low_()  const { return Array1(coeff(0), coeff(1)); }
+    ENOKI_INLINE Array2 high_() const { return Array2(coeff(2), coeff(3)); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return vaddq_f32(m, a.m); }
+    ENOKI_INLINE Derived sub_(Ref a) const { return vsubq_f32(m, a.m); }
+    ENOKI_INLINE Derived mul_(Ref a) const { return vmulq_f32(m, a.m); }
+    ENOKI_INLINE Derived div_(Ref a) const {
+        #if defined(ENOKI_ARM_64)
+            return vdivq_f32(m, a.m);
+        #else
+            return Base::div_(a);
+        #endif
+    }
+
+#if defined(ENOKI_ARM_FMA)
+    ENOKI_INLINE Derived fmadd_(Ref b, Ref c) const { return vfmaq_f32(c.m, m, b.m); }
+    ENOKI_INLINE Derived fnmadd_(Ref b, Ref c) const { return vfmsq_f32(c.m, m, b.m); }
+    ENOKI_INLINE Derived fmsub_(Ref b, Ref c) const { return vfmaq_f32(vnegq_f32(c.m), m, b.m); }
+    ENOKI_INLINE Derived fnmsub_(Ref b, Ref c) const { return vfmsq_f32(vnegq_f32(c.m), m, b.m); }
+#else
+    ENOKI_INLINE Derived fmadd_(Ref b, Ref c) const { return vmlaq_f32(c.m, m, b.m); }
+    ENOKI_INLINE Derived fnmadd_(Ref b, Ref c) const { return vmlsq_f32(c.m, m, b.m); }
+    ENOKI_INLINE Derived fmsub_(Ref b, Ref c) const { return vmlaq_f32(vnegq_f32(c.m), m, b.m); }
+    ENOKI_INLINE Derived fnmsub_(Ref b, Ref c) const { return vmlsq_f32(vnegq_f32(c.m), m, b.m); }
+#endif
+
+    template <typename T> ENOKI_INLINE Derived or_ (const T &a) const { return vreinterpretq_f32_s32(vorrq_s32(vreinterpretq_s32_f32(m), vreinterpretq_s32_f32(a.m))); }
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const { return vreinterpretq_f32_s32(vandq_s32(vreinterpretq_s32_f32(m), vreinterpretq_s32_f32(a.m))); }
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const { return vreinterpretq_f32_s32(vbicq_s32(vreinterpretq_s32_f32(m), vreinterpretq_s32_f32(a.m))); }
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const { return vreinterpretq_f32_s32(veorq_s32(vreinterpretq_s32_f32(m), vreinterpretq_s32_f32(a.m))); }
+
+    ENOKI_INLINE auto lt_ (Ref a) const { return mask_t<Derived>(vreinterpretq_f32_u32(vcltq_f32(m, a.m))); }
+    ENOKI_INLINE auto gt_ (Ref a) const { return mask_t<Derived>(vreinterpretq_f32_u32(vcgtq_f32(m, a.m))); }
+    ENOKI_INLINE auto le_ (Ref a) const { return mask_t<Derived>(vreinterpretq_f32_u32(vcleq_f32(m, a.m))); }
+    ENOKI_INLINE auto ge_ (Ref a) const { return mask_t<Derived>(vreinterpretq_f32_u32(vcgeq_f32(m, a.m))); }
+
+    ENOKI_INLINE auto eq_ (Ref a) const {
+        if constexpr (!IsMask_)
+            return mask_t<Derived>(vreinterpretq_f32_u32(vceqq_f32(m, a.m)));
+        else
+            return mask_t<Derived>(vceqq_u32(vreinterpretq_f32_u32(m), vreinterpretq_f32_u32(a.m)));
+    }
+
+    ENOKI_INLINE auto neq_ (Ref a) const {
+        if constexpr (!IsMask_)
+            return mask_t<Derived>(vreinterpretq_f32_u32(vmvnq_u32(vceqq_f32(m, a.m))));
+        else
+            return mask_t<Derived>(vmvnq_u32(vceqq_u32(vreinterpretq_f32_u32(m), vreinterpretq_f32_u32(a.m))));
+    }
+
+    ENOKI_INLINE Derived abs_()      const { return vabsq_f32(m); }
+    ENOKI_INLINE Derived neg_()      const { return vnegq_f32(m); }
+    ENOKI_INLINE Derived not_()      const { return vreinterpretq_f32_s32(vmvnq_s32(vreinterpretq_s32_f32(m))); }
+
+    ENOKI_INLINE Derived min_(Ref b) const { return vminq_f32(b.m, m); }
+    ENOKI_INLINE Derived max_(Ref b) const { return vmaxq_f32(b.m, m); }
+
+#if defined(ENOKI_ARM_64)
+    ENOKI_INLINE Derived round_()    const { return vrndnq_f32(m);     }
+    ENOKI_INLINE Derived floor_()    const { return vrndmq_f32(m);     }
+    ENOKI_INLINE Derived ceil_()     const { return vrndpq_f32(m);     }
+#endif
+
+    ENOKI_INLINE Derived sqrt_() const {
+        #if defined(ENOKI_ARM_64)
+            return vsqrtq_f32(m);
+        #else
+            const float32x4_t inf = vdupq_n_f32(std::numeric_limits<float>::infinity());
+            float32x4_t r = vrsqrteq_f32(m);
+            uint32x4_t inf_or_zero = vorrq_u32(vceqq_f32(r, inf), vceqq_f32(m, inf));
+            r = vmulq_f32(r, vrsqrtsq_f32(vmulq_f32(r, r), m));
+            r = vmulq_f32(r, vrsqrtsq_f32(vmulq_f32(r, r), m));
+            r = vmulq_f32(r, m);
+            return vbslq_f32(inf_or_zero, m, r);
+        #endif
+    }
+
+    ENOKI_INLINE Derived rcp_() const {
+        float32x4_t r = vrecpeq_f32(m);
+        r = vmulq_f32(r, vrecpsq_f32(r, m));
+        r = vmulq_f32(r, vrecpsq_f32(r, m));
+        return r;
+    }
+
+    ENOKI_INLINE Derived rsqrt_() const {
+        float32x4_t r = vrsqrteq_f32(m);
+        r = vmulq_f32(r, vrsqrtsq_f32(vmulq_f32(r, r), m));
+        r = vmulq_f32(r, vrsqrtsq_f32(vmulq_f32(r, r), m));
+        return r;
+    }
+
+    template <typename Mask_>
+    static ENOKI_INLINE Derived select_(const Mask_ &m, Ref t, Ref f) {
+        return vbslq_f32(vreinterpretq_u32_f32(m.m), t.m, f.m);
+    }
+
+    template <int I0, int I1, int I2, int I3>
+    ENOKI_INLINE Derived shuffle_() const {
+        /// Based on https://stackoverflow.com/a/32537433/1130282
+        switch (I3 + I2*10 + I1*100 + I0*1000) {
+            case 0123: return m;
+            case 0000: return vdupq_lane_f32(vget_low_f32(m), 0);
+            case 1111: return vdupq_lane_f32(vget_low_f32(m), 1);
+            case 2222: return vdupq_lane_f32(vget_high_f32(m), 0);
+            case 3333: return vdupq_lane_f32(vget_high_f32(m), 1);
+            case 1032: return vrev64q_f32(m);
+            case 0101: { float32x2_t vt = vget_low_f32(m); return vcombine_f32(vt, vt); }
+            case 2323: { float32x2_t vt = vget_high_f32(m); return vcombine_f32(vt, vt); }
+            case 1010: { float32x2_t vt = vrev64_f32(vget_low_f32(m)); return vcombine_f32(vt, vt); }
+            case 3232: { float32x2_t vt = vrev64_f32(vget_high_f32(m)); return vcombine_f32(vt, vt); }
+            case 0132: return vcombine_f32(vget_low_f32(m), vrev64_f32(vget_high_f32(m)));
+            case 1023: return vcombine_f32(vrev64_f32(vget_low_f32(m)), vget_high_f32(m));
+            case 2310: return vcombine_f32(vget_high_f32(m), vrev64_f32(vget_low_f32(m)));
+            case 3201: return vcombine_f32(vrev64_f32(vget_high_f32(m)), vget_low_f32(m));
+            case 3210: return vcombine_f32(vrev64_f32(vget_high_f32(m)), vrev64_f32(vget_low_f32(m)));
+#if defined(ENOKI_ARM_64)
+            case 0022: return vtrn1q_f32(m, m);
+            case 1133: return vtrn2q_f32(m, m);
+            case 0011: return vzip1q_f32(m, m);
+            case 2233: return vzip2q_f32(m, m);
+            case 0202: return vuzp1q_f32(m, m);
+            case 1313: return vuzp2q_f32(m, m);
+#endif
+            case 1230: return vextq_f32(m, m, 1);
+            case 2301: return vextq_f32(m, m, 2);
+            case 3012: return vextq_f32(m, m, 3);
+
+            default: {
+                constexpr uint64_t prec0 = detail::arm_shuffle_helper_(I0) |
+                                          (detail::arm_shuffle_helper_(I1) << 32);
+                constexpr uint64_t prec1 = detail::arm_shuffle_helper_(I2) |
+                                          (detail::arm_shuffle_helper_(I3) << 32);
+
+                uint8x8x2_t tbl;
+                tbl.val[0] = vreinterpret_u8_f32(vget_low_f32(m));
+                tbl.val[1] = vreinterpret_u8_f32(vget_high_f32(m));
+
+                uint8x8_t idx1 = vreinterpret_u8_u32(vcreate_u32(prec0));
+                uint8x8_t idx2 = vreinterpret_u8_u32(vcreate_u32(prec1));
+
+                float32x2_t l = vreinterpret_f32_u8(vtbl2_u8(tbl, idx1));
+                float32x2_t h = vreinterpret_f32_u8(vtbl2_u8(tbl, idx2));
+
+                return vcombine_f32(l, h);
+            }
+        }
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        return Base::shuffle_(index);
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_ARM_64)
+    ENOKI_INLINE Value hmax_() const { return vmaxvq_f32(m); }
+    ENOKI_INLINE Value hmin_() const { return vminvq_f32(m); }
+    ENOKI_INLINE Value hsum_() const { return vaddvq_f32(m); }
+
+    bool all_() const {
+        if constexpr (Derived::Size == 4)
+            return vmaxvq_s32(vreinterpretq_s32_f32(m)) < 0;
+        else
+            return Base::all_();
+    }
+
+    bool any_() const {
+        if constexpr (Derived::Size == 4)
+            return vminvq_s32(vreinterpretq_s32_f32(m)) < 0;
+        else
+            return Base::any_();
+    }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Initialization, loading/writing data
+    // -----------------------------------------------------------------------
+
+    using Base::load_;
+    using Base::store_;
+    using Base::load_unaligned_;
+    using Base::store_unaligned_;
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        assert((uintptr_t) ptr % 16 == 0);
+        vst1q_f32((Value *) ENOKI_ASSUME_ALIGNED(ptr, 16), m);
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        vst1q_f32((Value *) ptr, m);
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        assert((uintptr_t) ptr % 16 == 0);
+        return vld1q_f32((const Value *) ENOKI_ASSUME_ALIGNED(ptr, 16));
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return vld1q_f32((const Value *) ptr);
+    }
+
+    static ENOKI_INLINE Derived zero_() { return vdupq_n_f32(0.f); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+};
+
+#if defined(ENOKI_ARM_64)
+/// Partial overload of StaticArrayImpl using ARM NEON intrinsics (double precision)
+template <bool IsMask_, typename Derived_> struct ENOKI_MAY_ALIAS alignas(16)
+    StaticArrayImpl<double, 2, IsMask_, Derived_>
+  : StaticArrayBase<double, 2, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(double, 2, float64x2_t)
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(Value value) : m(vdupq_n_f64(value)) { }
+    ENOKI_INLINE StaticArrayImpl(Value v0, Value v1) : m{v0, v1} { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_CONVERT(double) : m(a.derived().m) { }
+    ENOKI_CONVERT(int64_t) : m(vcvtq_f64_s64(vreinterpretq_s64_u64(a.derived().m))) { }
+    ENOKI_CONVERT(uint64_t) : m(vcvtq_f64_u64(a.derived().m)) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+    ENOKI_REINTERPRET(double) : m(a.derived().m) { }
+    ENOKI_REINTERPRET(int64_t) : m(vreinterpretq_f64_u64(a.derived().m)) { }
+    ENOKI_REINTERPRET(uint64_t) : m(vreinterpretq_f64_u64(a.derived().m)) { }
+    ENOKI_REINTERPRET(bool) {
+        m = vreinterpretq_f64_u64(uint64x2_t {
+            reinterpret_array<uint64_t>(a.derived().coeff(0)),
+            reinterpret_array<uint64_t>(a.derived().coeff(1))
+        });
+    }
+    ENOKI_REINTERPRET(float) {
+        auto v0 = memcpy_cast<uint32_t>(a.derived().coeff(0)),
+             v1 = memcpy_cast<uint32_t>(a.derived().coeff(1));
+        m = vreinterpretq_f64_u32(uint32x4_t { v0, v0, v1, v1 });
+    }
+
+    ENOKI_REINTERPRET(int32_t) {
+        auto v0 = memcpy_cast<uint32_t>(a.derived().coeff(0)),
+             v1 = memcpy_cast<uint32_t>(a.derived().coeff(1));
+        m = vreinterpretq_f64_u32(uint32x4_t { v0, v0, v1, v1 });
+    }
+
+    ENOKI_REINTERPRET(uint32_t) {
+        auto v0 = memcpy_cast<uint32_t>(a.derived().coeff(0)),
+             v1 = memcpy_cast<uint32_t>(a.derived().coeff(1));
+        m = vreinterpretq_f64_u32(uint32x4_t { v0, v0, v1, v1 });
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m{a1.coeff(0), a2.coeff(0)} { }
+
+    ENOKI_INLINE Array1 low_()  const { return Array1(coeff(0)); }
+    ENOKI_INLINE Array2 high_() const { return Array2(coeff(1)); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return vaddq_f64(m, a.m); }
+    ENOKI_INLINE Derived sub_(Ref a) const { return vsubq_f64(m, a.m); }
+    ENOKI_INLINE Derived mul_(Ref a) const { return vmulq_f64(m, a.m); }
+    ENOKI_INLINE Derived div_(Ref a) const { return vdivq_f64(m, a.m); }
+
+#if defined(ENOKI_ARM_FMA)
+    ENOKI_INLINE Derived fmadd_(Ref b, Ref c) const { return vfmaq_f64(c.m, m, b.m); }
+    ENOKI_INLINE Derived fnmadd_(Ref b, Ref c) const { return vfmsq_f64(c.m, m, b.m); }
+    ENOKI_INLINE Derived fmsub_(Ref b, Ref c) const { return vfmaq_f64(vnegq_f64(c.m), m, b.m); }
+    ENOKI_INLINE Derived fnmsub_(Ref b, Ref c) const { return vfmsq_f64(vnegq_f64(c.m), m, b.m); }
+#else
+    ENOKI_INLINE Derived fmadd_(Ref b, Ref c) const { return vmlaq_f64(c.m, m, b.m); }
+    ENOKI_INLINE Derived fnmadd_(Ref b, Ref c) const { return vmlsq_f64(c.m, m, b.m); }
+    ENOKI_INLINE Derived fmsub_(Ref b, Ref c) const { return vmlaq_f64(vnegq_f64(c.m), m, b.m); }
+    ENOKI_INLINE Derived fnmsub_(Ref b, Ref c) const { return vmlsq_f64(vnegq_f64(c.m), m, b.m); }
+#endif
+
+    template <typename T> ENOKI_INLINE Derived or_ (const T &a) const { return vreinterpretq_f64_s64(vorrq_s64(vreinterpretq_s64_f64(m), vreinterpretq_s64_f64(a.m))); }
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const { return vreinterpretq_f64_s64(vandq_s64(vreinterpretq_s64_f64(m), vreinterpretq_s64_f64(a.m))); }
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const { return vreinterpretq_f64_s64(vbicq_s64(vreinterpretq_s64_f64(m), vreinterpretq_s64_f64(a.m))); }
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const { return vreinterpretq_f64_s64(veorq_s64(vreinterpretq_s64_f64(m), vreinterpretq_s64_f64(a.m))); }
+
+    ENOKI_INLINE auto lt_ (Ref a) const { return mask_t<Derived>(vreinterpretq_f64_u64(vcltq_f64(m, a.m))); }
+    ENOKI_INLINE auto gt_ (Ref a) const { return mask_t<Derived>(vreinterpretq_f64_u64(vcgtq_f64(m, a.m))); }
+    ENOKI_INLINE auto le_ (Ref a) const { return mask_t<Derived>(vreinterpretq_f64_u64(vcleq_f64(m, a.m))); }
+    ENOKI_INLINE auto ge_ (Ref a) const { return mask_t<Derived>(vreinterpretq_f64_u64(vcgeq_f64(m, a.m))); }
+
+    ENOKI_INLINE auto eq_ (Ref a) const {
+        if constexpr (!IsMask_)
+            return mask_t<Derived>(vreinterpretq_f64_u64(vceqq_f64(m, a.m)));
+        else
+            return mask_t<Derived>(vceqq_u64(vreinterpretq_f64_u64(m), vreinterpretq_f64_u64(a.m)));
+    }
+
+    ENOKI_INLINE auto neq_ (Ref a) const {
+        if constexpr (!IsMask_)
+            return mask_t<Derived>(vreinterpretq_f64_u64(vmvnq_u64(vceqq_f64(m, a.m))));
+        else
+            return mask_t<Derived>(vmvnq_u64(vceqq_u64(vreinterpretq_f64_u64(m), vreinterpretq_f64_u64(a.m))));
+    }
+
+    ENOKI_INLINE Derived abs_()      const { return vabsq_f64(m); }
+    ENOKI_INLINE Derived neg_()      const { return vnegq_f64(m); }
+    ENOKI_INLINE Derived not_()      const { return vreinterpretq_f64_s64(vmvnq_s64(vreinterpretq_s64_f64(m))); }
+
+    ENOKI_INLINE Derived min_(Ref b) const { return vminq_f64(b.m, m); }
+    ENOKI_INLINE Derived max_(Ref b) const { return vmaxq_f64(b.m, m); }
+
+#if defined(ENOKI_ARM_64)
+    ENOKI_INLINE Derived sqrt_()     const { return vsqrtq_f64(m);     }
+    ENOKI_INLINE Derived round_()    const { return vrndnq_f64(m);     }
+    ENOKI_INLINE Derived floor_()    const { return vrndmq_f64(m);     }
+    ENOKI_INLINE Derived ceil_()     const { return vrndpq_f64(m);     }
+#endif
+
+    ENOKI_INLINE Derived rcp_() const {
+        float64x2_t r = vrecpeq_f64(m);
+        r = vmulq_f64(r, vrecpsq_f64(r, m));
+        r = vmulq_f64(r, vrecpsq_f64(r, m));
+        r = vmulq_f64(r, vrecpsq_f64(r, m));
+        return r;
+    }
+
+    ENOKI_INLINE Derived rsqrt_() const {
+        float64x2_t r = vrsqrteq_f64(m);
+        r = vmulq_f64(r, vrsqrtsq_f64(vmulq_f64(r, r), m));
+        r = vmulq_f64(r, vrsqrtsq_f64(vmulq_f64(r, r), m));
+        r = vmulq_f64(r, vrsqrtsq_f64(vmulq_f64(r, r), m));
+        return r;
+    }
+
+    template <typename Mask_>
+    static ENOKI_INLINE Derived select_(const Mask_ &m, Ref t, Ref f) {
+        return vbslq_f64(vreinterpretq_u64_f64(m.m), t.m, f.m);
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Value hmax_() const { return vmaxvq_f64(m); }
+    ENOKI_INLINE Value hmin_() const { return vminvq_f64(m); }
+    ENOKI_INLINE Value hsum_() const { return vaddvq_f64(m); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Initialization, loading/writing data
+    // -----------------------------------------------------------------------
+
+    using Base::load_;
+    using Base::store_;
+    using Base::load_unaligned_;
+    using Base::store_unaligned_;
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        assert((uintptr_t) ptr % 16 == 0);
+        vst1q_f64((Value *) ENOKI_ASSUME_ALIGNED(ptr, 16), m);
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        vst1q_f64((Value *) ptr, m);
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        assert((uintptr_t) ptr % 16 == 0);
+        return vld1q_f64((const Value *) ENOKI_ASSUME_ALIGNED(ptr, 16));
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return vld1q_f64((const Value *) ptr);
+    }
+
+    static ENOKI_INLINE Derived zero_() { return vdupq_n_f64(0.0); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+};
+#endif
+
+/// Partial overload of StaticArrayImpl using ARM NEON intrinsics (32-bit integers)
+template <typename Value_, bool IsMask_, typename Derived_> struct ENOKI_MAY_ALIAS alignas(16)
+    StaticArrayImpl<Value_, 4, IsMask_, Derived_, enable_if_int32_t<Value_>>
+  : StaticArrayBase<Value_, 4, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(Value_, 4, uint32x4_t)
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(Value value) : m(vdupq_n_u32((uint32_t) value)) { }
+    ENOKI_INLINE StaticArrayImpl(Value v0, Value v1, Value v2, Value v3)
+        : m{(uint32_t) v0, (uint32_t) v1, (uint32_t) v2, (uint32_t) v3} { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_CONVERT(int32_t) : m(a.derived().m) { }
+    ENOKI_CONVERT(uint32_t) : m(a.derived().m) { }
+    ENOKI_CONVERT(float) : m(std::is_signed_v<Value> ?
+          vreinterpretq_u32_s32(vcvtq_s32_f32(a.derived().m))
+        : vcvtq_u32_f32(a.derived().m)) { }
+#if defined(ENOKI_ARM_64)
+    ENOKI_CONVERT(int64_t) : m(vmovn_high_u64(vmovn_u64(low(a).m), high(a).m)) { }
+    ENOKI_CONVERT(uint64_t) : m(vmovn_high_u64(vmovn_u64(low(a).m), high(a).m)) { }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+#define ENOKI_REINTERPRET_BOOL(type, target)                   \
+    ENOKI_REINTERPRET(type) {                                  \
+        m = uint32x4_t {                                       \
+            reinterpret_array<uint32_t>(a.derived().coeff(0)), \
+            reinterpret_array<uint32_t>(a.derived().coeff(1)), \
+            reinterpret_array<uint32_t>(a.derived().coeff(2)), \
+            reinterpret_array<uint32_t>(a.derived().coeff(3))  \
+        };                                                     \
+    }
+
+    ENOKI_REINTERPRET(int32_t) : m(a.derived().m) { }
+    ENOKI_REINTERPRET(uint32_t) : m(a.derived().m) { }
+#if defined(ENOKI_ARM_64)
+    ENOKI_REINTERPRET(int64_t) : m(vcombine_u32(vmovn_u64(low(a).m), vmovn_u64(high(a).m))) { }
+    ENOKI_REINTERPRET(uint64_t) : m(vcombine_u32(vmovn_u64(low(a).m), vmovn_u64(high(a).m))) { }
+    ENOKI_REINTERPRET(double) : m(vcombine_u32(
+        vmovn_u64(vreinterpretq_u64_f64(low(a).m)),
+        vmovn_u64(vreinterpretq_u64_f64(high(a).m)))) { }
+#else
+    ENOKI_REINTERPRET_BOOL(int64_t, u32)
+    ENOKI_REINTERPRET_BOOL(uint64_t, u32)
+    ENOKI_REINTERPRET_BOOL(double, u32)
+#endif
+    ENOKI_REINTERPRET(float) : m(vreinterpretq_u32_f32(a.derived().m)) { }
+    ENOKI_REINTERPRET_BOOL(bool, u32)
+
+#undef ENOKI_REINTERPRET_BOOL
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m{(uint32_t) a1.coeff(0), (uint32_t) a1.coeff(1), (uint32_t) a2.coeff(0), (uint32_t) a2.coeff(1)} { }
+
+    ENOKI_INLINE Array1 low_()  const { return Array1(coeff(0), coeff(1)); }
+    ENOKI_INLINE Array2 high_() const { return Array2(coeff(2), coeff(3)); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return vaddq_u32(m, a.m); }
+    ENOKI_INLINE Derived sub_(Ref a) const { return vsubq_u32(m, a.m); }
+    ENOKI_INLINE Derived mul_(Ref a) const { return vmulq_u32(m, a.m); }
+
+    template <typename T> ENOKI_INLINE Derived or_ (const T &a) const { return vorrq_u32(m, a.m); }
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const { return vandq_u32(m, a.m); }
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const { return vbicq_u32(m, a.m); }
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const { return veorq_u32(m, a.m); }
+
+    ENOKI_INLINE auto lt_(Ref a) const {
+        if constexpr (std::is_signed_v<Value>)
+            return mask_t<Derived>(vcltq_s32(vreinterpretq_s32_u32(m), vreinterpretq_s32_u32(a.m)));
+        else
+            return mask_t<Derived>(vcltq_u32(m, a.m));
+    }
+
+    ENOKI_INLINE auto gt_(Ref a) const {
+        if constexpr (std::is_signed_v<Value>)
+            return mask_t<Derived>(vcgtq_s32(vreinterpretq_s32_u32(m), vreinterpretq_s32_u32(a.m)));
+        else
+            return mask_t<Derived>(vcgtq_u32(m, a.m));
+    }
+
+    ENOKI_INLINE auto le_(Ref a) const {
+        if constexpr (std::is_signed_v<Value>)
+            return mask_t<Derived>(vcleq_s32(vreinterpretq_s32_u32(m), vreinterpretq_s32_u32(a.m)));
+        else
+            return mask_t<Derived>(vcleq_u32(m, a.m));
+    }
+
+    ENOKI_INLINE auto ge_(Ref a) const {
+        if constexpr (std::is_signed_v<Value>)
+            return mask_t<Derived>(vcgeq_s32(vreinterpretq_s32_u32(m), vreinterpretq_s32_u32(a.m)));
+        else
+            return mask_t<Derived>(vcgeq_u32(m, a.m));
+    }
+
+    ENOKI_INLINE auto eq_ (Ref a) const { return mask_t<Derived>(vceqq_u32(m, a.m)); }
+    ENOKI_INLINE auto neq_(Ref a) const { return mask_t<Derived>(vmvnq_u32(vceqq_u32(m, a.m))); }
+
+    ENOKI_INLINE Derived abs_() const {
+        if (!std::is_signed<Value>())
+            return m;
+        return vreinterpretq_u32_s32(vabsq_s32(vreinterpretq_s32_u32(m)));
+    }
+
+    ENOKI_INLINE Derived neg_() const {
+        return vreinterpretq_u32_s32(vnegq_s32(vreinterpretq_s32_u32(m)));
+    }
+
+    ENOKI_INLINE Derived not_()      const { return vmvnq_u32(m); }
+
+    ENOKI_INLINE Derived max_(Ref b) const {
+        if constexpr (std::is_signed_v<Value>)
+            return vreinterpretq_u32_s32(vmaxq_s32(vreinterpretq_s32_u32(b.m), vreinterpretq_s32_u32(m)));
+        else
+            return vmaxq_u32(b.m, m);
+    }
+
+    ENOKI_INLINE Derived min_(Ref b) const {
+        if constexpr (std::is_signed_v<Value>)
+            return vreinterpretq_u32_s32(vminq_s32(vreinterpretq_s32_u32(b.m), vreinterpretq_s32_u32(m)));
+        else
+            return vminq_u32(b.m, m);
+    }
+
+    template <typename Mask_>
+    static ENOKI_INLINE Derived select_(const Mask_ &m, Ref t, Ref f) {
+        return vbslq_u32(m.m, t.m, f.m);
+    }
+
+    template <size_t Imm> ENOKI_INLINE Derived sr_() const {
+        if constexpr (Imm == 0) {
+            return derived();
+        } else {
+            if constexpr (std::is_signed_v<Value>)
+                return vreinterpretq_u32_s32(
+                    vshrq_n_s32(vreinterpretq_s32_u32(m), (int) Imm));
+            else
+                return vshrq_n_u32(m, (int) Imm);
+        }
+    }
+
+    template <size_t Imm> ENOKI_INLINE Derived sl_() const {
+        if constexpr (Imm == 0)
+            return derived();
+        else
+            return vshlq_n_u32(m, (int) Imm);
+    }
+
+    ENOKI_INLINE Derived sr_(size_t k) const {
+        if constexpr (std::is_signed_v<Value>)
+            return vreinterpretq_u32_s32(
+                vshlq_s32(vreinterpretq_s32_u32(m), vdupq_n_s32(-(int) k)));
+        else
+            return vshlq_u32(m, vdupq_n_s32(-(int) k));
+    }
+
+    ENOKI_INLINE Derived sl_(size_t k) const {
+        return vshlq_u32(m, vdupq_n_s32((int) k));
+    }
+
+    ENOKI_INLINE Derived sr_(Ref a) const {
+        if constexpr (std::is_signed_v<Value>)
+            return vreinterpretq_u32_s32(
+                vshlq_s32(vreinterpretq_s32_u32(m),
+                          vnegq_s32(vreinterpretq_s32_u32(a.m))));
+        else
+            return vshlq_u32(m, vnegq_s32(vreinterpretq_s32_u32(a.m)));
+    }
+
+    ENOKI_INLINE Derived sl_(Ref a) const {
+        return vshlq_u32(m, vreinterpretq_s32_u32(a.m));
+    }
+
+#if defined(ENOKI_ARM_64)
+    ENOKI_INLINE Derived mulhi_(Ref a) const {
+    uint32x4_t ll, hh;
+        if constexpr (std::is_signed_v<Value>) {
+            int64x2_t l = vmull_s32(vreinterpret_s32_u32(vget_low_u32(m)),
+                                    vreinterpret_s32_u32(vget_low_u32(a.m)));
+
+            int64x2_t h = vmull_high_s32(vreinterpretq_s32_u32(m),
+                                         vreinterpretq_s32_u32(a.m));
+
+            ll = vreinterpretq_u32_s64(l);
+            hh = vreinterpretq_u32_s64(h);
+        } else {
+            uint64x2_t l = vmull_u32(vget_low_u32(m),
+                                     vget_low_u32(a.m));
+
+            uint64x2_t h = vmull_high_u32(m, a.m);
+
+            ll = vreinterpretq_u32_u64(l);
+            hh = vreinterpretq_u32_u64(h);
+        }
+        return vuzp2q_u32(ll, hh);
+    }
+#endif
+
+    ENOKI_INLINE Derived lzcnt_() const { return vclzq_u32(m); }
+    ENOKI_INLINE Derived tzcnt_() const { return Value(32) - lzcnt(~derived() & (derived() - Value(1))); }
+    ENOKI_INLINE Derived popcnt_() const { return vpaddlq_u16(vpaddlq_u8(vcntq_u8(vreinterpretq_u8_u32(m)))); }
+
+    template <int I0, int I1, int I2, int I3>
+    ENOKI_INLINE Derived shuffle_() const {
+        /// Based on https://stackoverflow.com/a/32537433/1130282
+        switch (I3 + I2*10 + I1*100 + I0*1000) {
+            case 0123: return m;
+            case 0000: return vdupq_lane_u32(vget_low_u32(m), 0);
+            case 1111: return vdupq_lane_u32(vget_low_u32(m), 1);
+            case 2222: return vdupq_lane_u32(vget_high_u32(m), 0);
+            case 3333: return vdupq_lane_u32(vget_high_u32(m), 1);
+            case 1032: return vrev64q_u32(m);
+            case 0101: { uint32x2_t vt = vget_low_u32(m); return vcombine_u32(vt, vt); }
+            case 2323: { uint32x2_t vt = vget_high_u32(m); return vcombine_u32(vt, vt); }
+            case 1010: { uint32x2_t vt = vrev64_u32(vget_low_u32(m)); return vcombine_u32(vt, vt); }
+            case 3232: { uint32x2_t vt = vrev64_u32(vget_high_u32(m)); return vcombine_u32(vt, vt); }
+            case 0132: return vcombine_u32(vget_low_u32(m), vrev64_u32(vget_high_u32(m)));
+            case 1023: return vcombine_u32(vrev64_u32(vget_low_u32(m)), vget_high_u32(m));
+            case 2310: return vcombine_u32(vget_high_u32(m), vrev64_u32(vget_low_u32(m)));
+            case 3201: return vcombine_u32(vrev64_u32(vget_high_u32(m)), vget_low_u32(m));
+            case 3210: return vcombine_u32(vrev64_u32(vget_high_u32(m)), vrev64_u32(vget_low_u32(m)));
+#if defined(ENOKI_ARM_64)
+            case 0022: return vtrn1q_u32(m, m);
+            case 1133: return vtrn2q_u32(m, m);
+            case 0011: return vzip1q_u32(m, m);
+            case 2233: return vzip2q_u32(m, m);
+            case 0202: return vuzp1q_u32(m, m);
+            case 1313: return vuzp2q_u32(m, m);
+#endif
+            case 1230: return vextq_u32(m, m, 1);
+            case 2301: return vextq_u32(m, m, 2);
+            case 3012: return vextq_u32(m, m, 3);
+
+            default: {
+                constexpr uint64_t prec0 = detail::arm_shuffle_helper_(I0) |
+                                          (detail::arm_shuffle_helper_(I1) << 32);
+                constexpr uint64_t prec1 = detail::arm_shuffle_helper_(I2) |
+                                          (detail::arm_shuffle_helper_(I3) << 32);
+
+                uint8x8x2_t tbl;
+                tbl.val[0] = vreinterpret_u8_u32(vget_low_u32(m));
+                tbl.val[1] = vreinterpret_u8_u32(vget_high_u32(m));
+
+                uint8x8_t idx1 = vreinterpret_u8_u32(vcreate_u32(prec0));
+                uint8x8_t idx2 = vreinterpret_u8_u32(vcreate_u32(prec1));
+
+                uint32x2_t l = vreinterpret_u32_u8(vtbl2_u8(tbl, idx1));
+                uint32x2_t h = vreinterpret_u32_u8(vtbl2_u8(tbl, idx2));
+
+                return vcombine_u32(l, h);
+            }
+        }
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        return Base::shuffle_(index);
+    }
+
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_ARM_64)
+    ENOKI_INLINE Value hmax_() const {
+        if constexpr (std::is_signed_v<Value>)
+            return Value(vmaxvq_s32(vreinterpretq_s32_u32(m)));
+        else
+            return Value(vmaxvq_u32(m));
+    }
+
+    ENOKI_INLINE Value hmin_() const {
+        if constexpr (std::is_signed_v<Value>)
+            return Value(vminvq_s32(vreinterpretq_s32_u32(m)));
+        else
+            return Value(vminvq_u32(m));
+    }
+
+    ENOKI_INLINE Value hsum_() const { return Value(vaddvq_u32(m)); }
+
+    bool all_() const {
+        if constexpr (Derived::Size == 4)
+            return vmaxvq_s32(vreinterpretq_s32_u32(m)) < 0;
+        else
+            return Base::all_();
+    }
+
+    bool any_() const {
+        if constexpr (Derived::Size == 4)
+            return vminvq_s32(vreinterpretq_s32_u32(m)) < 0;
+        else
+            return Base::any_();
+    }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Initialization, loading/writing data
+    // -----------------------------------------------------------------------
+
+    using Base::load_;
+    using Base::store_;
+    using Base::load_unaligned_;
+    using Base::store_unaligned_;
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        assert((uintptr_t) ptr % 16 == 0);
+        vst1q_u32((uint32_t *) ENOKI_ASSUME_ALIGNED(ptr, 16), m);
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        vst1q_u32((uint32_t *) ptr, m);
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        return vld1q_u32((const uint32_t *) ENOKI_ASSUME_ALIGNED(ptr, 16));
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return vld1q_u32((const uint32_t *) ptr);
+    }
+
+    static ENOKI_INLINE Derived zero_() { return vdupq_n_u32(0); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+};
+
+#if defined(ENOKI_ARM_64)
+/// Partial overload of StaticArrayImpl using ARM NEON intrinsics (64-bit integers)
+template <typename Value_, bool IsMask_, typename Derived_> struct ENOKI_MAY_ALIAS alignas(16)
+    StaticArrayImpl<Value_, 2, IsMask_, Derived_, enable_if_int64_t<Value_>>
+  : StaticArrayBase<Value_, 2, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(Value_, 2, uint64x2_t)
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(Value value) : m(vdupq_n_u64((uint64_t) value)) { }
+    ENOKI_INLINE StaticArrayImpl(Value v0, Value v1) : m{(uint64_t) v0, (uint64_t) v1} { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_CONVERT(int64_t) : m(a.derived().m) { }
+    ENOKI_CONVERT(uint64_t) : m(a.derived().m) { }
+    ENOKI_CONVERT(double) : m(std::is_signed_v<Value> ?
+          vreinterpretq_u64_s64(vcvtq_s64_f64(a.derived().m))
+        : vcvtq_u64_f64(a.derived().m)) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+    ENOKI_REINTERPRET(int64_t) : m(a.derived().m) { }
+    ENOKI_REINTERPRET(uint64_t) : m(a.derived().m) { }
+    ENOKI_REINTERPRET(double) : m(vreinterpretq_u64_f64(a.derived().m)) { }
+    ENOKI_REINTERPRET(bool) {
+        m = uint64x2_t {
+            reinterpret_array<uint64_t>(a.derived().coeff(0)),
+            reinterpret_array<uint64_t>(a.derived().coeff(1))
+        };
+    }
+    ENOKI_REINTERPRET(float) {
+        auto v0 = memcpy_cast<uint32_t>(a.derived().coeff(0)),
+             v1 = memcpy_cast<uint32_t>(a.derived().coeff(1));
+        m = vreinterpretq_u64_u32(uint32x4_t { v0, v0, v1, v1 });
+    }
+
+    ENOKI_REINTERPRET(int32_t) {
+        auto v0 = memcpy_cast<uint32_t>(a.derived().coeff(0)),
+             v1 = memcpy_cast<uint32_t>(a.derived().coeff(1));
+        m = vreinterpretq_u64_u32(uint32x4_t { v0, v0, v1, v1 });
+    }
+
+    ENOKI_REINTERPRET(uint32_t) {
+        auto v0 = memcpy_cast<uint32_t>(a.derived().coeff(0)),
+             v1 = memcpy_cast<uint32_t>(a.derived().coeff(1));
+        m = vreinterpretq_u64_u32(uint32x4_t { v0, v0, v1, v1 });
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m{(uint64_t) a1.coeff(0), (uint64_t) a2.coeff(0)} { }
+
+    ENOKI_INLINE Array1 low_()  const { return Array1(coeff(0)); }
+    ENOKI_INLINE Array2 high_() const { return Array2(coeff(1)); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return vaddq_u64(m, a.m); }
+    ENOKI_INLINE Derived sub_(Ref a) const { return vsubq_u64(m, a.m); }
+    ENOKI_INLINE Derived mul_(Ref a_) const {
+#if 1
+        // Native ARM instructions + cross-domain penalities still
+        // seem to be faster than the NEON approach below
+        return Derived(
+            coeff(0) * a_.coeff(0),
+            coeff(1) * a_.coeff(1)
+        );
+#else
+        // inp: [ah0, al0, ah1, al1], [bh0, bl0, bh1, bl1]
+        uint32x4_t a = vreinterpretq_u32_u64(m),
+                   b = vreinterpretq_u32_u64(a_.m);
+
+        // uzp: [al0, al1, bl0, bl1], [bh0, bh1, ah0, ah1]
+        uint32x4_t l = vuzp1q_u32(a, b);
+        uint32x4_t h = vuzp2q_u32(b, a);
+
+        uint64x2_t accum = vmull_u32(vget_low_u32(l), vget_low_u32(h));
+        accum = vmlal_high_u32(accum, h, l);
+        accum = vshlq_n_u64(accum, 32);
+        accum = vmlal_u32(accum, vget_low_u32(l), vget_high_u32(l));
+
+        return accum;
+#endif
+    }
+
+    template <typename T> ENOKI_INLINE Derived or_ (const T &a) const { return vorrq_u64(m, a.m); }
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const { return vandq_u64(m, a.m); }
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const { return vbicq_u64(m, a.m); }
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const { return veorq_u64(m, a.m); }
+
+    ENOKI_INLINE auto lt_(Ref a) const {
+        if constexpr (std::is_signed_v<Value>)
+            return mask_t<Derived>(vcltq_s64(vreinterpretq_s64_u64(m), vreinterpretq_s64_u64(a.m)));
+        else
+            return mask_t<Derived>(vcltq_u64(m, a.m));
+    }
+
+    ENOKI_INLINE auto gt_(Ref a) const {
+        if constexpr (std::is_signed_v<Value>)
+            return mask_t<Derived>(vcgtq_s64(vreinterpretq_s64_u64(m), vreinterpretq_s64_u64(a.m)));
+        else
+            return mask_t<Derived>(vcgtq_u64(m, a.m));
+    }
+
+    ENOKI_INLINE auto le_(Ref a) const {
+        if constexpr (std::is_signed_v<Value>)
+            return mask_t<Derived>(vcleq_s64(vreinterpretq_s64_u64(m), vreinterpretq_s64_u64(a.m)));
+        else
+            return mask_t<Derived>(vcleq_u64(m, a.m));
+    }
+
+    ENOKI_INLINE auto ge_(Ref a) const {
+        if constexpr (std::is_signed_v<Value>)
+            return mask_t<Derived>(vcgeq_s64(vreinterpretq_s64_u64(m), vreinterpretq_s64_u64(a.m)));
+        else
+            return mask_t<Derived>(vcgeq_u64(m, a.m));
+    }
+
+    ENOKI_INLINE auto eq_ (Ref a) const { return mask_t<Derived>(vceqq_u64(m, a.m)); }
+    ENOKI_INLINE auto neq_(Ref a) const { return mask_t<Derived>(vmvnq_u64(vceqq_u64(m, a.m))); }
+
+    ENOKI_INLINE Derived abs_() const {
+        if (!std::is_signed<Value>())
+            return m;
+        return vreinterpretq_u64_s64(vabsq_s64(vreinterpretq_s64_u64(m)));
+    }
+
+    ENOKI_INLINE Derived neg_() const {
+        return vreinterpretq_u64_s64(vnegq_s64(vreinterpretq_s64_u64(m)));
+    }
+
+    ENOKI_INLINE Derived not_()      const { return vmvnq_u64(m); }
+
+    ENOKI_INLINE Derived min_(Ref b) const { return Derived(min(coeff(0), b.coeff(0)), min(coeff(1), b.coeff(1))); }
+    ENOKI_INLINE Derived max_(Ref b) const { return Derived(max(coeff(0), b.coeff(0)), max(coeff(1), b.coeff(1))); }
+
+    template <typename Mask_>
+    static ENOKI_INLINE Derived select_(const Mask_ &m, Ref t, Ref f) {
+        return vbslq_u64(m.m, t.m, f.m);
+    }
+
+    template <size_t Imm> ENOKI_INLINE Derived sr_() const {
+        if constexpr (Imm == 0) {
+            return derived();
+        } else {
+            if constexpr (std::is_signed_v<Value>)
+                return vreinterpretq_u64_s64(
+                    vshrq_n_s64(vreinterpretq_s64_u64(m), (int) Imm));
+            else
+                return vshrq_n_u64(m, (int) Imm);
+        }
+    }
+
+    template <size_t Imm> ENOKI_INLINE Derived sl_() const {
+        if constexpr (Imm == 0)
+            return derived();
+        else
+            return vshlq_n_u64(m, (int) Imm);
+    }
+
+    ENOKI_INLINE Derived sr_(size_t k) const {
+        if constexpr (std::is_signed_v<Value>)
+            return vreinterpretq_u64_s64(
+                vshlq_s64(vreinterpretq_s64_u64(m), vdupq_n_s64(-(int) k)));
+        else
+            return vshlq_u64(m, vdupq_n_s64(-(int) k));
+    }
+
+    ENOKI_INLINE Derived sl_(size_t k) const {
+        return vshlq_u64(m, vdupq_n_s64((int) k));
+    }
+
+    ENOKI_INLINE Derived sr_(Ref a) const {
+        if constexpr (std::is_signed_v<Value>)
+            return vreinterpretq_u64_s64(
+                vshlq_s64(vreinterpretq_s64_u64(m),
+                          vnegq_s64(vreinterpretq_s64_u64(a.m))));
+        else
+            return vshlq_u64(m, vnegq_s64(vreinterpretq_s64_u64(a.m)));
+    }
+
+    ENOKI_INLINE Derived sl_(Ref a) const {
+        return vshlq_u64(m, vreinterpretq_s64_u64(a.m));
+    }
+
+    ENOKI_INLINE Derived popcnt_() const {
+        return vpaddlq_u32(
+            vpaddlq_u16(vpaddlq_u8(vcntq_u8(vreinterpretq_u8_u64(m)))));
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Value hsum_() const { return Value(vaddvq_u64(m)); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Initialization, loading/writing data
+    // -----------------------------------------------------------------------
+
+    using Base::load_;
+    using Base::store_;
+    using Base::load_unaligned_;
+    using Base::store_unaligned_;
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        vst1q_u64((uint64_t *) ENOKI_ASSUME_ALIGNED(ptr, 16), m);
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        vst1q_u64((uint64_t *) ptr, m);
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        return vld1q_u64((const uint64_t *) ENOKI_ASSUME_ALIGNED(ptr, 16));
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return vld1q_u64((const uint64_t *) ptr);
+    }
+
+    static ENOKI_INLINE Derived zero_() { return vdupq_n_u64(0); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+};
+#endif
+
+/// Partial overload of StaticArrayImpl for the n=3 case (single precision)
+template <bool IsMask_, typename Derived_> struct ENOKI_MAY_ALIAS alignas(16)
+    StaticArrayImpl<float, 3, IsMask_, Derived_>
+  : StaticArrayImpl<float, 4, IsMask_, Derived_> {
+    using Base = StaticArrayImpl<float, 4, IsMask_, Derived_>;
+
+    ENOKI_DECLARE_3D_ARRAY(StaticArrayImpl)
+
+    template <typename Derived2>
+    ENOKI_INLINE StaticArrayImpl(
+        const StaticArrayBase<half, 3, IsMask_, Derived2> &a) {
+        float16x4_t value;
+        memcpy(&value, a.data(), sizeof(uint16_t)*3);
+        m = vcvt_f32_f16(value);
+    }
+
+    template <int I0, int I1, int I2>
+    ENOKI_INLINE Derived shuffle_() const {
+        return Derived(coeff(I0), coeff(I1), coeff(I2));
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        return Base::shuffle_(index);
+    }
+
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations (adapted for the n=3 case)
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Value hmax_() const { return max(max(coeff(0), coeff(1)), coeff(2)); }
+    ENOKI_INLINE Value hmin_() const { return min(min(coeff(0), coeff(1)), coeff(2)); }
+    ENOKI_INLINE Value hsum_() const { return coeff(0) + coeff(1) + coeff(2); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Loading/writing data (adapted for the n=3 case)
+    // -----------------------------------------------------------------------
+
+    using Base::load_;
+    using Base::store_;
+    using Base::load_unaligned_;
+    using Base::store_unaligned_;
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        memcpy(ptr, &m, sizeof(Value) * 3);
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        store_(ptr);
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        Derived result;
+        memcpy(&result.m, ptr, sizeof(Value) * 3);
+        return result;
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        return Base::load_unaligned_(ptr);
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+};
+
+/// Partial overload of StaticArrayImpl for the n=3 case (32 bit integers)
+template <typename Value_, bool IsMask_, typename Derived_> struct ENOKI_MAY_ALIAS alignas(16)
+    StaticArrayImpl<Value_, 3, IsMask_, Derived_, enable_if_int32_t<Value_>>
+  : StaticArrayImpl<Value_, 4, IsMask_, Derived_> {
+    using Base = StaticArrayImpl<Value_, 4, IsMask_, Derived_>;
+
+    ENOKI_DECLARE_3D_ARRAY(StaticArrayImpl)
+
+    template <int I0, int I1, int I2>
+    ENOKI_INLINE Derived shuffle_() const {
+        return Derived(coeff(I0), coeff(I1), coeff(I2));
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        return Base::shuffle_(index);
+    }
+
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations (adapted for the n=3 case)
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Value hmax_() const { return max(max(coeff(0), coeff(1)), coeff(2)); }
+    ENOKI_INLINE Value hmin_() const { return min(min(coeff(0), coeff(1)), coeff(2)); }
+    ENOKI_INLINE Value hsum_() const { return coeff(0) + coeff(1) + coeff(2); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Loading/writing data (adapted for the n=3 case)
+    // -----------------------------------------------------------------------
+
+    using Base::load_;
+    using Base::store_;
+    using Base::load_unaligned_;
+    using Base::store_unaligned_;
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        memcpy(ptr, &m, sizeof(Value) * 3);
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        store_(ptr);
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        Derived result;
+        memcpy(&result.m, ptr, sizeof(Value) * 3);
+        return result;
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        return Base::load_unaligned_(ptr);
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+};
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_recursive.h b/sources/enoki/array_recursive.h
new file mode 100644
index 00000000..8175522d
--- /dev/null
+++ b/sources/enoki/array_recursive.h
@@ -0,0 +1,556 @@
+/*
+    enoki/array_recursive.h -- Template specialization that recursively
+    instantiates Array instances with smaller sizes when the requested packet
+    float array size is not directly supported by the processor's SIMD
+    instructions
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using ENOKI instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/array_generic.h>
+
+NAMESPACE_BEGIN(enoki)
+
+template <typename Value_, size_t Size_, bool IsMask_, typename Derived_>
+struct StaticArrayImpl<Value_, Size_, IsMask_, Derived_,
+                       enable_if_t<detail::array_config<Value_, Size_>::use_recursive_impl>>
+    : StaticArrayBase<Value_, Size_, IsMask_, Derived_> {
+
+    using Base = StaticArrayBase<Value_, Size_, IsMask_, Derived_>;
+
+    ENOKI_ARRAY_IMPORT_BASIC(Base, StaticArrayImpl)
+
+    using typename Base::Array1;
+    using typename Base::Array2;
+    using Base::Size1;
+    using Base::Size2;
+    using Ref = const Derived &;
+    static constexpr bool IsRecursive = true;
+
+    StaticArrayImpl() = default;
+
+    /// Initialize all entries with a constant
+    ENOKI_INLINE StaticArrayImpl(const Value &value) : a1(value), a2(value) { }
+
+    /// Initialize from a list of component values
+    template <typename... Ts, enable_if_t<sizeof...(Ts) == Size &&
+        std::conjunction_v<detail::is_constructible<Value, Ts>...>> = 0>
+    ENOKI_INLINE StaticArrayImpl(Ts... args) {
+        alignas(alignof(Array1)) Value storage[Size] = { (Value) args... };
+        a1 = load<Array1>(storage);
+        a2 = load<Array2>(storage + Size1);
+    }
+
+    /// Construct from the two sub-components
+    template <typename T1, typename T2,
+              enable_if_t<T1::Size == Size1 && T2::Size == Size2> = 0>
+    ENOKI_INLINE StaticArrayImpl(const T1 &a1, const T2 &a2)
+        : a1(a1), a2(a2) { }
+
+    /// Cast another array
+    template <size_t Size2, typename Value2,
+              typename Derived2, enable_if_t<Derived2::Size == Size_> = 0>
+    ENOKI_INLINE StaticArrayImpl(
+        const StaticArrayBase<Value2, Size2, IsMask_, Derived2> &a)
+        : a1(low(a)), a2(high(a)) { }
+
+    /// Reinterpret another array
+    template <typename Value2, size_t Size2,
+              bool IsMask2, typename Derived2, enable_if_t<Derived2::Size == Size_> = 0>
+    ENOKI_INLINE StaticArrayImpl(
+        const StaticArrayBase<Value2, Size2, IsMask2, Derived2> &a,
+        detail::reinterpret_flag)
+        : a1(low (a), detail::reinterpret_flag()),
+          a2(high(a), detail::reinterpret_flag()) { }
+
+    /// Reinterpret another array (masks)
+    template <bool M = IsMask_, enable_if_t<M> = 0>
+    ENOKI_INLINE StaticArrayImpl(bool b, detail::reinterpret_flag)
+        : a1(b, detail::reinterpret_flag()),
+          a2(b, detail::reinterpret_flag()) { }
+
+    template <bool M = IsMask_, enable_if_t<!M> = 0>
+    ENOKI_INLINE StaticArrayImpl &operator=(Value_ v) {
+        *this = StaticArrayImpl(v);
+        return *this;
+    }
+
+    template <bool M = IsMask_, enable_if_t<M> = 0>
+    ENOKI_INLINE StaticArrayImpl &operator=(bool v) {
+        *this = StaticArrayImpl(v, detail::reinterpret_flag());
+        return *this;
+    }
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return Derived(a1 + a.a1, a2 + a.a2); }
+    ENOKI_INLINE Derived sub_(Ref a) const { return Derived(a1 - a.a1, a2 - a.a2); }
+    ENOKI_INLINE Derived mul_(Ref a) const { return Derived(a1 * a.a1, a2 * a.a2); }
+    ENOKI_INLINE Derived div_(Ref a) const { return Derived(a1 / a.a1, a2 / a.a2); }
+    ENOKI_INLINE Derived mod_(Ref a) const { return Derived(a1 % a.a1, a2 % a.a2); }
+
+    ENOKI_INLINE Derived mulhi_(Ref a) const {
+        return Derived(mulhi(a1, a.a1), mulhi(a2, a.a2));
+    }
+
+    ENOKI_INLINE Derived fmod_(Ref a) const {
+        return Derived(fmod(a1, a.a1), fmod(a2, a.a2));
+    }
+
+    ENOKI_INLINE auto lt_ (Ref a) const { return mask_t<Derived>(a1 <  a.a1, a2 <  a.a2); }
+    ENOKI_INLINE auto gt_ (Ref a) const { return mask_t<Derived>(a1 >  a.a1, a2 >  a.a2); }
+    ENOKI_INLINE auto le_ (Ref a) const { return mask_t<Derived>(a1 <= a.a1, a2 <= a.a2); }
+    ENOKI_INLINE auto ge_ (Ref a) const { return mask_t<Derived>(a1 >= a.a1, a2 >= a.a2); }
+    ENOKI_INLINE auto eq_ (Ref a) const { return mask_t<Derived>(eq(a1, a.a1), eq(a2, a.a2)); }
+    ENOKI_INLINE auto neq_(Ref a) const { return mask_t<Derived>(neq(a1, a.a1), neq(a2, a.a2)); }
+
+    ENOKI_INLINE Derived min_(Ref a) const { return Derived(min(a1, a.a1), min(a2, a.a2)); }
+    ENOKI_INLINE Derived max_(Ref a) const { return Derived(max(a1, a.a1), max(a2, a.a2)); }
+    ENOKI_INLINE Derived abs_() const { return Derived(abs(a1), abs(a2)); }
+    ENOKI_INLINE Derived ceil_() const { return Derived(ceil(a1), ceil(a2)); }
+    ENOKI_INLINE Derived floor_() const { return Derived(floor(a1), floor(a2)); }
+    ENOKI_INLINE Derived sqrt_() const { return Derived(sqrt(a1), sqrt(a2)); }
+    ENOKI_INLINE Derived round_() const { return Derived(round(a1), round(a2)); }
+    ENOKI_INLINE Derived trunc_() const { return Derived(trunc(a1), trunc(a2)); }
+    ENOKI_INLINE Derived rcp_() const { return Derived(rcp(a1), rcp(a2)); }
+    ENOKI_INLINE Derived rsqrt_() const { return Derived(rsqrt(a1), rsqrt(a2)); }
+    ENOKI_INLINE Derived not_() const { return Derived(~a1, ~a2); }
+    ENOKI_INLINE Derived neg_() const { return Derived(-a1, -a2); }
+
+    ENOKI_INLINE Derived fmadd_(Ref b, Ref c) const {
+        return Derived(fmadd(a1, b.a1, c.a1), fmadd(a2, b.a2, c.a2));
+    }
+
+    ENOKI_INLINE Derived fnmadd_(Ref b, Ref c) const {
+        return Derived(fnmadd(a1, b.a1, c.a1), fnmadd(a2, b.a2, c.a2));
+    }
+
+    ENOKI_INLINE Derived fmsub_(Ref b, Ref c) const {
+        return Derived(fmsub(a1, b.a1, c.a1), fmsub(a2, b.a2, c.a2));
+    }
+
+    ENOKI_INLINE Derived fnmsub_(Ref b, Ref c) const {
+        return Derived(fnmsub(a1, b.a1, c.a1), fnmsub(a2, b.a2, c.a2));
+    }
+
+    ENOKI_INLINE Derived fmaddsub_(Ref b, Ref c) const {
+        return Derived(fmaddsub(a1, b.a1, c.a1), fmaddsub(a2, b.a2, c.a2));
+    }
+
+    ENOKI_INLINE Derived fmsubadd_(Ref b, Ref c) const {
+        return Derived(fmsubadd(a1, b.a1, c.a1), fmsubadd(a2, b.a2, c.a2));
+    }
+
+    template <typename T> ENOKI_INLINE Derived or_(const T &a) const {
+        return Derived(a1 | low(a), a2 | high(a));
+    }
+
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const {
+        return Derived(andnot(a1, low(a)), andnot(a2, high(a)));
+    }
+
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const {
+        return Derived(a1 & low(a), a2 & high(a));
+    }
+
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const {
+        return Derived(a1 ^ low(a), a2 ^ high(a));
+    }
+
+    template <size_t Imm> ENOKI_INLINE Derived sl_() const {
+        return Derived(sl<Imm>(a1), sl<Imm>(a2));
+    }
+
+    ENOKI_INLINE Derived sl_(size_t k) const {
+        return Derived(a1 << k, a2 << k);
+    }
+
+    ENOKI_INLINE Derived sl_(Ref a) const {
+        return Derived(a1 << a.a1, a2 << a.a2);
+    }
+
+    template <size_t Imm> ENOKI_INLINE Derived sr_() const {
+        return Derived(sr<Imm>(a1), sr<Imm>(a2));
+    }
+
+    ENOKI_INLINE Derived sr_(size_t k) const {
+        return Derived(a1 >> k, a2 >> k);
+    }
+
+    ENOKI_INLINE Derived sr_(Ref a) const {
+        return Derived(a1 >> a.a1, a2 >> a.a2);
+    }
+
+    template <size_t Imm> ENOKI_INLINE Derived rol_() const {
+        return Derived(rol<Imm>(a1), rol<Imm>(a2));
+    }
+
+    template <size_t Imm> ENOKI_INLINE Derived ror_() const {
+        return Derived(ror<Imm>(a1), ror<Imm>(a2));
+    }
+
+    ENOKI_INLINE Derived rol_(Ref arg) const {
+        return Derived(rol(a1, arg.a1), rol(a2, arg.a2));
+    }
+
+    ENOKI_INLINE Derived ror_(Ref arg) const {
+        return Derived(ror(a1, arg.a1), ror(a2, arg.a2));
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived select_(const Mask &m, Ref t, Ref f) {
+        return Derived(select(m.a1, t.a1, f.a1),
+                       select(m.a2, t.a2, f.a2));
+    }
+
+    template <size_t Imm> ENOKI_INLINE Derived ror_array_() const {
+        if constexpr (Size1 == Size2) {
+            static_assert(
+                Imm <= Size1 && Imm <= Size2,
+                "ror_array(): Refusing to rotate a recursively defined array by an "
+                "amount that is larger than the recursive array sizes.");
+            const mask_t<Array1> mask = arange<Array1>() >= Scalar(Imm);
+
+            Array1 a1_r = ror_array<Imm>(a1);
+            Array2 a2_r = ror_array<Imm>(a2);
+
+            return Derived(
+                select(mask, a1_r, a2_r),
+                select(mask, a2_r, a1_r)
+            );
+        } else {
+            return Base::template ror_array_<Imm>();
+        }
+    }
+
+    template <size_t Imm> ENOKI_INLINE Derived rol_array_() const {
+        if constexpr (Size1 == Size2) {
+            static_assert(
+                Imm <= Size1 && Imm <= Size2,
+                "rol_array(): Refusing to rotate a recursively defined array "
+                "by an amount that is larger than the recursive array sizes.");
+            const mask_t<Array1> mask = arange<Array1>() < Scalar(Size1 - Imm);
+
+            Array1 a1_r = rol_array<Imm>(a1);
+            Array2 a2_r = rol_array<Imm>(a2);
+
+            return Derived(
+                select(mask, a1_r, a2_r),
+                select(mask, a2_r, a1_r)
+            );
+        } else {
+            return Base::template rol_array_<Imm>();
+        }
+    }
+
+    Derived ldexp_(Ref a) const {
+        return Derived(ldexp(a1, a.a1), ldexp(a2, a.a2));
+    }
+
+    std::pair<Derived, Derived> frexp_() const {
+        auto r1 = frexp(a1);
+        auto r2 = frexp(a2);
+        return std::make_pair<Derived, Derived>(
+            Derived(r1.first, r2.first),
+            Derived(r1.second, r2.second)
+        );
+    }
+
+
+    template <typename T>
+    ENOKI_INLINE auto ceil2int_() const {
+        return T(ceil2int<typename T::Array1>(a1),
+                 ceil2int<typename T::Array2>(a2));
+    }
+
+    template <typename T>
+    ENOKI_INLINE auto floor2int_() const {
+        return T(floor2int<typename T::Array1>(a1),
+                 floor2int<typename T::Array2>(a2));
+    }
+
+    Derived lzcnt_() const  { return Derived(lzcnt(a1),  lzcnt(a2));  }
+    Derived tzcnt_() const  { return Derived(tzcnt(a1),  tzcnt(a2));  }
+    Derived popcnt_() const { return Derived(popcnt(a1), popcnt(a2)); }
+
+    template<size_t... Is, size_t ... Is2>
+    static constexpr auto split_(std::index_sequence<Is...>,
+                                 std::index_sequence<Is2...>) {
+        constexpr std::array<size_t, sizeof...(Is)> out { Is ... };
+        return std::make_pair(std::index_sequence<out[Is2]...>(),
+                              std::index_sequence<out[Is2 + Size1]...>());
+    }
+
+    template <size_t... Indices> ENOKI_INLINE Derived shuffle_() const {
+        if constexpr (Size1 != Size2) {
+            return Base::template shuffle_<Indices...>();
+        } else {
+            constexpr auto indices = split_(std::index_sequence<Indices...>(),
+                                            std::make_index_sequence<Size1>());
+            return shuffle_impl_(indices.first, indices.second);
+        }
+    }
+
+    template <size_t... Indices1, typename T= size_t, size_t... Indices2>
+    ENOKI_INLINE Derived shuffle_impl_(std::index_sequence<Indices1...>,
+                                       std::index_sequence<Indices2...>) const {
+        using Int = int_array_t<Array1>;
+        Array1 a1l = a1.template shuffle_<(size_t) std::min(Size1 - 1, Indices1)...>(),
+               a1h = a2.template shuffle_<(size_t) std::max((ssize_t) 0, (ssize_t) Indices1 - (ssize_t) Size1)...>(),
+               a1f = select(Int(Indices1...) < Int(Size1), a1l, a1h);
+
+        Array2 a2l = a1.template shuffle_<std::min(Size1 - 1, Indices2)...>(),
+               a2h = a2.template shuffle_<(size_t) std::max((ssize_t) 0, (ssize_t) Indices2 - (ssize_t) Size1)...>(),
+               a2f = select(Int(Indices2...) < Int(Size1), a2l, a2h);
+
+        return Derived(a1f, a2f);
+    }
+
+    template <typename Index> ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        if constexpr (Size1 != Size2) {
+            return Base::shuffle_(index);
+        } else {
+            auto il = low(index), ih = high(index);
+
+            decltype(il) size = scalar_t<Index>(Size1);
+
+            Array1 a1l = a1.shuffle_(il),
+                   a1h = a2.shuffle_(il - size),
+                   a1f = select(il < size, a1l, a1h);
+
+            Array2 a2l = a1.shuffle_(ih),
+                   a2h = a2.shuffle_(ih - size),
+                   a2f = select(ih < size, a2l, a2h);
+
+            return Derived(a1f, a2f);
+        }
+    }
+
+    #define ENOKI_MASKED_OPERATOR(name)                                        \
+        template <typename Mask>                                               \
+        ENOKI_INLINE void m##name##_(Ref value, const Mask &mask) {            \
+            a1.m##name##_(low(value), low(mask));                              \
+            a2.m##name##_(high(value), high(mask));                            \
+        }
+
+    ENOKI_MASKED_OPERATOR(assign)
+    ENOKI_MASKED_OPERATOR(add)
+    ENOKI_MASKED_OPERATOR(sub)
+    ENOKI_MASKED_OPERATOR(mul)
+    ENOKI_MASKED_OPERATOR(div)
+    ENOKI_MASKED_OPERATOR(and)
+    ENOKI_MASKED_OPERATOR(or)
+    ENOKI_MASKED_OPERATOR(xor)
+
+    #undef ENOKI_MASKED_OPERATOR
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Value hsum_() const {
+        if constexpr (Size1 == Size2)
+            return hsum(a1 + a2);
+        else
+            return hsum(a1) + hsum(a2);
+    }
+
+    ENOKI_INLINE Value hprod_() const {
+        if constexpr (Size1 == Size2)
+            return hprod(a1 * a2);
+        else
+            return hprod(a1) * hprod(a2);
+    }
+
+    ENOKI_INLINE Value hmin_() const {
+        if constexpr (Size1 == Size2)
+            return hmin(min(a1, a2));
+        else
+            return min(hmin(a1), hmin(a2));
+    }
+
+    ENOKI_INLINE Value hmax_() const {
+        if constexpr (Size1 == Size2)
+            return hmax(max(a1, a2));
+        else
+            return max(hmax(a1), hmax(a2));
+    }
+
+    ENOKI_INLINE Value dot_(Ref a) const {
+        if constexpr (Size1 == Size2)
+            return hsum(fmadd(a1, a.a1, a2 * a.a2));
+        else
+            return dot(a1, a.a1) + dot(a2, a.a2);
+    }
+
+    ENOKI_INLINE bool all_() const {
+        if constexpr (Size1 == Size2)
+            return all(a1 & a2);
+        else
+            return all(a1) && all(a2);
+    }
+
+    ENOKI_INLINE bool any_() const {
+        if constexpr (Size1 == Size2)
+            return any(a1 | a2);
+        else
+            return any(a1) || any(a2);
+    }
+
+    ENOKI_INLINE size_t count_() const { return count(a1) + count(a2); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Initialization, loading/writing data
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE void store_(void *mem) const {
+        store((uint8_t *) mem, a1);
+        store((uint8_t *) mem + sizeof(Array1), a2);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *mem, const Mask &mask) const {
+        store((uint8_t *) mem, a1, low(mask));
+        store((uint8_t *) mem + sizeof(Array1), a2, high(mask));
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *mem) const {
+        store_unaligned((uint8_t *) mem, a1);
+        store_unaligned((uint8_t *) mem + sizeof(Array1), a2);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *mem, const Mask &mask) const {
+        store_unaligned((uint8_t *) mem, a1, low(mask));
+        store_unaligned((uint8_t *) mem + sizeof(Array1), a2, high(mask));
+    }
+
+    static ENOKI_INLINE Derived load_(const void *mem) {
+        return Derived(
+            load<Array1>((uint8_t *) mem),
+            load<Array2>((uint8_t *) mem + sizeof(Array1))
+        );
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *mem, const Mask &mask) {
+        return Derived(
+            load<Array1>((uint8_t *) mem, low(mask)),
+            load<Array2>((uint8_t *) mem + sizeof(Array1), high(mask))
+        );
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *a) {
+        return Derived(
+            load_unaligned<Array1>((uint8_t *) a),
+            load_unaligned<Array2>((uint8_t *) a + sizeof(Array1))
+        );
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *a, const Mask &mask) {
+        return Derived(
+            load_unaligned<Array1>((uint8_t *) a, low(mask)),
+            load_unaligned<Array2>((uint8_t *) a + sizeof(Array1), high(mask))
+        );
+    }
+
+    static ENOKI_INLINE Derived zero_() {
+        return Derived(zero<Array1>(), zero<Array2>());
+    }
+
+    template <bool Write, size_t Level, size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE void prefetch_(const void *ptr, const Index &index, const Mask &mask) {
+        prefetch<Array1, Write, Level, Stride>(ptr, low(index), low(mask));
+        prefetch<Array2, Write, Level, Stride>(ptr, high(index), high(mask));
+    }
+
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        return Derived(
+            gather<Array1, Stride>(ptr, low(index), low(mask)),
+            gather<Array2, Stride>(ptr, high(index), high(mask))
+        );
+    }
+
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        scatter<Stride>(ptr, a1, low(index), low(mask));
+        scatter<Stride>(ptr, a2, high(index), high(mask));
+    }
+
+    template <size_t Stride, typename Index, typename Func, typename... Args, typename Mask>
+    static ENOKI_INLINE void transform_(void *ptr, const Index &index, const Mask &,
+                                        const Func &func, const Args &... args) {
+        transform<Array1, Stride>(ptr, low(index),  func, low(args)...);
+        transform<Array2, Stride>(ptr, high(index), func, high(args)...);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        if constexpr (Size1 == Size2) {
+            return extract(select(low(mask), a1, a2), low(mask) | high(mask));
+        } else {
+            if (ENOKI_LIKELY(any(low(mask))))
+                return extract(a1, low(mask));
+            else
+                return extract(a2, high(mask));
+        }
+    }
+
+    template <typename T, typename Mask>
+    ENOKI_INLINE size_t compress_(T *&ptr, const Mask &mask) const {
+        size_t r0 = compress(ptr, a1, low(mask));
+        size_t r1 = compress(ptr, a2, high(mask));
+        return r0 + r1;
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Component access
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE const Array1& low_()  const { return a1; }
+    ENOKI_INLINE const Array2& high_() const { return a2; }
+
+    ENOKI_INLINE decltype(auto) coeff(size_t i) const {
+        if constexpr (Size1 == Size2)
+            return ((i < Size1) ? a1 : a2).coeff(i % Size1);
+        else
+            return (i < Size1) ? a1.coeff(i) : a2.coeff(i - Size1);
+    }
+
+    ENOKI_INLINE decltype(auto) coeff(size_t i) {
+        if constexpr (Size1 == Size2)
+            return ((i < Size1) ? a1 : a2).coeff(i % Size1);
+        else
+            return (i < Size1) ? a1.coeff(i) : a2.coeff(i - Size1);
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    Array1 a1;
+    Array2 a2;
+};
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_round.h b/sources/enoki/array_round.h
new file mode 100644
index 00000000..add4bc57
--- /dev/null
+++ b/sources/enoki/array_round.h
@@ -0,0 +1,156 @@
+/*
+    enoki/array_round.h -- Fallback for nonstandard rounding modes
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using ENOKI instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/array_generic.h>
+
+NAMESPACE_BEGIN(enoki)
+
+#if defined(ENOKI_X86_64) || defined(ENOKI_X86_32)
+/// RAII wrapper that saves and restores the FP Control/Status Register
+template <RoundingMode Mode> struct set_rounding_mode {
+    set_rounding_mode() : value(_mm_getcsr()) {
+        unsigned int csr = value & ~(unsigned int) _MM_ROUND_MASK;
+        switch (Mode) {
+            case RoundingMode::Nearest: csr |= _MM_ROUND_NEAREST; break;
+            case RoundingMode::Down: csr |= _MM_ROUND_DOWN; break;
+            case RoundingMode::Up: csr |= _MM_ROUND_UP; break;
+            case RoundingMode::Zero: csr |= _MM_ROUND_TOWARD_ZERO; break;
+        }
+        _mm_setcsr(csr);
+    }
+
+    ~set_rounding_mode() {
+        _mm_setcsr(value);
+    }
+
+    unsigned int value;
+};
+#else
+template <RoundingMode Mode> struct set_rounding_mode {
+    // Don't know how to change rounding modes on this platform :(
+};
+#endif
+
+template <typename Value_, size_t Size_, bool Approx_, RoundingMode Mode_, bool IsMask_, typename Derived_>
+struct StaticArrayImpl<Value_, Size_, Approx_, Mode_, IsMask_, Derived_,
+                       enable_if_t<detail::array_config<Value_, Size_, Mode_>::use_rounding_fallback_impl>>
+    : StaticArrayImpl<Value_, Size_, Approx_, RoundingMode::Default, IsMask_, Derived_> {
+
+    using Base = StaticArrayImpl<Value_, Size_, Approx_, RoundingMode::Default, IsMask_, Derived_>;
+    using Derived = Derived_;
+
+    using Base::derived;
+
+    /// Rounding mode of arithmetic operations
+    static constexpr RoundingMode Mode = Mode_;
+
+    template <typename Arg, enable_if_t<std::is_same_v<value_t<Arg>, Value_>> = 0>
+    ENOKI_INLINE StaticArrayImpl(Arg&& arg) : Base(std::forward<Arg>(arg)) { }
+
+    template <typename... Args>
+    ENOKI_INLINE StaticArrayImpl(Args&&... args) : Base(std::forward<Args>(args)...) { }
+
+    template <typename Arg, enable_if_t<!std::is_same_v<value_t<Arg>, Value_>> = 0>
+    ENOKI_NOINLINE StaticArrayImpl(Arg&& arg) {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        using Base2 = std::conditional_t<IsMask_,
+            Array<Value_, Size_, Approx_, RoundingMode::Default>,
+            Packet<Value_, Size_, Approx_, RoundingMode::Default>>;
+        Base::operator=(Base2(std::forward<Arg>(arg)));
+    }
+
+    template <typename Arg, enable_if_t<std::is_same_v<value_t<Arg>, Value_>> = 0>
+    ENOKI_NOINLINE Derived& operator=(Arg&& arg) {
+        Base::operator=(std::forward<Arg>(arg));
+        return derived();
+    }
+
+    template <typename Arg, enable_if_t<!std::is_same_v<value_t<Arg>, Value_>> = 0>
+    ENOKI_NOINLINE Derived& operator=(Arg&& arg) {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        using Base2 = std::conditional_t<IsMask_,
+            Array<Value_, Size_, Approx_, RoundingMode::Default>,
+            Packet<Value_, Size_, Approx_, RoundingMode::Default>>;
+        Base::operator=(Base2(std::forward<Arg>(arg)));
+        return derived();
+    }
+
+    ENOKI_NOINLINE Derived add_(const Derived &a) const {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        return Base::add_(a);
+    }
+
+    ENOKI_NOINLINE Derived sub_(const Derived &a) const {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        return Base::sub_(a);
+    }
+
+    ENOKI_NOINLINE Derived mul_(const Derived &a) const {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        return Base::mul_(a);
+    }
+
+    ENOKI_NOINLINE Derived div_(const Derived &a) const {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        return Base::div_(a);
+    }
+
+    ENOKI_NOINLINE Derived sqrt_() const {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        return Base::sqrt_();
+    }
+
+    ENOKI_NOINLINE Derived fmadd_(const Derived &b, const Derived &c) const {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        return Base::fmadd_(b, c);
+    }
+
+    ENOKI_NOINLINE Derived fmsub_(const Derived &b, const Derived &c) const {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        return Base::fmsub_(b, c);
+    }
+
+    ENOKI_NOINLINE Derived fnmadd_(const Derived &b, const Derived &c) const {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        return Base::fnmadd_(b, c);
+    }
+
+    ENOKI_NOINLINE Derived fnmsub_(const Derived &b, const Derived &c) const {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        return Base::fnmsub_(b, c);
+    }
+
+    ENOKI_NOINLINE Derived fmsubadd_(const Derived &b, const Derived &c) const {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        return Base::fmsubadd_(b, c);
+    }
+
+    ENOKI_NOINLINE Derived fmaddsub_(const Derived &b, const Derived &c) const {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        return Base::fmaddsub_(b, c);
+    }
+
+    ENOKI_NOINLINE Value_ hsum() const {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        return Base::hsum_();
+    }
+
+    ENOKI_NOINLINE Value_ hprod() const {
+        set_rounding_mode<Mode_> mode; (void) mode;
+        return Base::hprod_();
+    }
+};
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_router.h b/sources/enoki/array_router.h
new file mode 100644
index 00000000..9e405888
--- /dev/null
+++ b/sources/enoki/array_router.h
@@ -0,0 +1,1400 @@
+/*
+    enoki/array_router.h -- Helper functions which route function calls
+    in the enoki namespace to the intended recipients
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include "array_traits.h"
+#include "array_fallbacks.h"
+
+NAMESPACE_BEGIN(enoki)
+
+/// Define an unary operation
+#define ENOKI_ROUTE_UNARY(name, func)                                          \
+    template <typename T, enable_if_array_t<T> = 0>                            \
+    ENOKI_INLINE auto name(const T &a) {                                       \
+        return eval(a).func##_();                                              \
+    }
+
+/// Define an unary operation with an immediate argument (e.g. sr<5>(...))
+#define ENOKI_ROUTE_UNARY_IMM(name, func)                                      \
+    template <size_t Imm, typename T, enable_if_array_t<T> = 0>                \
+    ENOKI_INLINE auto name(const T &a) {                                       \
+        return eval(a).template func##_<Imm>(); /* Forward to array */         \
+    }
+
+/// Define an unary operation with a fallback expression for scalar arguments
+#define ENOKI_ROUTE_UNARY_SCALAR(name, func, expr)                             \
+    template <typename T> ENOKI_INLINE auto name(const T &a) {                 \
+        if constexpr (!is_array_v<T>)                                          \
+            return expr; /* Scalar fallback implementation */                  \
+        else                                                                   \
+            return eval(a).func##_(); /* Forward to array */                   \
+    }
+
+/// Define an unary operation with an immediate argument and a scalar fallback
+#define ENOKI_ROUTE_UNARY_SCALAR_IMM(name, func, expr)                         \
+    template <size_t Imm, typename T> ENOKI_INLINE auto name(const T &a) {     \
+        if constexpr (!is_array_v<T>)                                          \
+            return expr; /* Scalar fallback implementation */                  \
+        else                                                                   \
+            return eval(a).template func##_<Imm>(); /* Forward to array */     \
+    }
+
+/// Define a binary operation
+#define ENOKI_ROUTE_BINARY(name, func)                                         \
+    template <typename T1, typename T2, enable_if_array_any_t<T1, T2> = 0>     \
+    ENOKI_INLINE auto name(const T1 &a1, const T2 &a2) {                       \
+        using E = expr_t<T1, T2>;                                              \
+        if constexpr (std::is_same_v<T1, E> && std::is_same_v<T2, E>)          \
+            return a1.derived().func##_(a2.derived());                         \
+        else                                                                   \
+            return name(static_cast<const E &>(a1),                            \
+                        static_cast<const E &>(a2));                           \
+    }
+
+/// Define a binary operation for bit operations
+#define ENOKI_ROUTE_BINARY_BITOP(name, func)                                   \
+    template <typename T1, typename T2, enable_if_array_any_t<T1, T2> = 0>     \
+    ENOKI_INLINE auto name(const T1 &a1, const T2 &a2) {                       \
+        using E = expr_t<T1, T2>;                                              \
+        if constexpr (std::is_same_v<T1, E> && std::is_same_v<T2, E>)          \
+            return a1.derived().func##_(a2.derived());                         \
+        else if constexpr (is_mask_v<T2> && !is_array_v<T2>)                   \
+            return a1.derived().func##_((const mask_t<T1> &) a2);              \
+        else if constexpr (is_array_v<T2>) {                                   \
+            if constexpr (std::decay_t<T2>::IsMask)                            \
+                return a1.derived().func##_((const mask_t<T1> &) a2.derived());\
+            else                                                               \
+                return name(static_cast<const E &>(a1),                        \
+                            static_cast<const E &>(a2));                       \
+        } else {                                                               \
+            return name(static_cast<const E &>(a1),                            \
+                        static_cast<const E &>(a2));                           \
+        }                                                                      \
+    }
+
+/// Define a binary operation (but only restrict to cases where 'cond' is true)
+#define ENOKI_ROUTE_BINARY_COND(name, func, cond)                              \
+    template <typename T1, typename T2,                                        \
+              enable_if_t<cond> = 0,                                           \
+              enable_if_array_any_t<T1, T2> = 0>                               \
+    ENOKI_INLINE auto name(const T1 &a1, const T2 &a2) {                       \
+        using E = expr_t<T1, T2>;                                              \
+        if constexpr (std::is_same_v<T1, E> && std::is_same_v<T2, E>)          \
+            return a1.derived().func##_(a2.derived());                         \
+        else                                                                   \
+            return name(static_cast<const E &>(a1),                            \
+                        static_cast<const E &>(a2));                           \
+    }
+
+#define ENOKI_ROUTE_BINARY_SHIFT(name, func)                                   \
+    template <typename T1, typename T2,                                        \
+              enable_if_t<std::is_arithmetic_v<scalar_t<T1>>> = 0,             \
+              enable_if_array_any_t<T1, T2> = 0>                               \
+    ENOKI_INLINE auto name(const T1 &a1, const T2 &a2) {                       \
+        using E = expr_t<T1, T2>;                                              \
+        if constexpr (std::is_integral_v<T2>)                                  \
+            return eval(a1).func##_((size_t) a2);                              \
+        else if constexpr (std::is_same_v<T1, E> && std::is_same_v<T2, E>)     \
+            return a1.derived().func##_(a2.derived());                         \
+        else                                                                   \
+            return name(static_cast<const E &>(a1),                            \
+                        static_cast<const E &>(a2));                           \
+    }
+
+/// Define a binary operation with a fallback expression for scalar arguments
+#define ENOKI_ROUTE_BINARY_SCALAR(name, func, expr)                            \
+    template <typename T1, typename T2>                                        \
+    ENOKI_INLINE auto name(const T1 &a1, const T2 &a2) {                       \
+        using E = expr_t<T1, T2>;                                              \
+        if constexpr (is_array_any_v<T1, T2>) {                                \
+            if constexpr (std::is_same_v<T1, E> && std::is_same_v<T2, E>)      \
+                return a1.derived().func##_(a2.derived());                     \
+            else                                                               \
+                return name(static_cast<const E &>(a1),                        \
+                            static_cast<const E &>(a2));                       \
+        } else {                                                               \
+            return expr;                                                       \
+        }                                                                      \
+    }
+
+/// Define a ternary operation
+#define ENOKI_ROUTE_TERNARY_SCALAR(name, func, expr)                           \
+    template <typename T1, typename T2, typename T3>                           \
+    ENOKI_INLINE auto name(const T1 &a1, const T2 &a2, const T3 &a3) {         \
+        using E = expr_t<T1, T2, T3>;                                          \
+        if constexpr (is_array_any_v<T1, T2, T3>) {                            \
+            if constexpr (std::is_same_v<T1, E> &&                             \
+                          std::is_same_v<T2, E> &&                             \
+                          std::is_same_v<T3, E>)                               \
+                return a1.derived().func##_(a2.derived(), a3.derived());       \
+            else                                                               \
+                return name(static_cast<const E &>(a1),                        \
+                            static_cast<const E &>(a2),                        \
+                            static_cast<const E &>(a3));                       \
+        } else {                                                               \
+            return expr;                                                       \
+        }                                                                      \
+    }
+
+/// Macro for compound assignment operators (operator+=, etc.)
+#define ENOKI_ROUTE_COMPOUND_OPERATOR(op)                                      \
+    template <typename T1, enable_if_t<is_array_v<T1> &&                       \
+                                      !std::is_const_v<T1>> = 0, typename T2>  \
+    ENOKI_INLINE T1 &operator op##=(T1 &a1, const T2 &a2) {                    \
+        a1 = a1 op a2;                                                         \
+        return a1;                                                             \
+    }
+
+template <typename T, enable_if_array_t<T> = 0>
+ENOKI_INLINE decltype(auto) eval(const T& x) {
+    if constexpr (std::is_same_v<std::decay_t<T>, expr_t<T>>)
+        return x.derived();
+    else
+        return expr_t<T>(x);
+}
+
+ENOKI_ROUTE_UNARY(operator-, neg)
+ENOKI_ROUTE_UNARY(operator~, not)
+ENOKI_ROUTE_UNARY(operator!, not)
+
+ENOKI_ROUTE_BINARY_COND(operator+, add, !std::is_pointer_v<scalar_t<T1>> && !std::is_pointer_v<scalar_t<T2>>)
+ENOKI_ROUTE_BINARY_COND(operator-, sub, !std::is_pointer_v<scalar_t<T1>> && !std::is_pointer_v<scalar_t<T2>>)
+ENOKI_ROUTE_BINARY(operator*, mul)
+
+ENOKI_ROUTE_BINARY_SHIFT(operator<<, sl)
+ENOKI_ROUTE_BINARY_SHIFT(operator>>, sr)
+
+ENOKI_ROUTE_UNARY_SCALAR_IMM(sl, sl, a << Imm)
+ENOKI_ROUTE_UNARY_SCALAR_IMM(sr, sr, a >> Imm)
+
+ENOKI_ROUTE_BINARY_BITOP(operator&,  and)
+ENOKI_ROUTE_BINARY_BITOP(operator&&, and)
+ENOKI_ROUTE_BINARY_BITOP(operator|,  or)
+ENOKI_ROUTE_BINARY_BITOP(operator||, or)
+ENOKI_ROUTE_BINARY_BITOP(operator^,  xor)
+ENOKI_ROUTE_BINARY_SCALAR(andnot, andnot, a1 & !a2)
+
+ENOKI_ROUTE_BINARY(operator<,  lt)
+ENOKI_ROUTE_BINARY(operator<=, le)
+ENOKI_ROUTE_BINARY(operator>,  gt)
+ENOKI_ROUTE_BINARY(operator>=, ge)
+
+ENOKI_ROUTE_BINARY_SCALAR(eq,  eq,  a1 == a2)
+ENOKI_ROUTE_BINARY_SCALAR(neq, neq, a1 != a2)
+
+ENOKI_ROUTE_COMPOUND_OPERATOR(+)
+ENOKI_ROUTE_COMPOUND_OPERATOR(-)
+ENOKI_ROUTE_COMPOUND_OPERATOR(*)
+ENOKI_ROUTE_COMPOUND_OPERATOR(/)
+ENOKI_ROUTE_COMPOUND_OPERATOR(^)
+ENOKI_ROUTE_COMPOUND_OPERATOR(|)
+ENOKI_ROUTE_COMPOUND_OPERATOR(&)
+ENOKI_ROUTE_COMPOUND_OPERATOR(<<)
+ENOKI_ROUTE_COMPOUND_OPERATOR(>>)
+
+ENOKI_ROUTE_BINARY_SCALAR(max,   max,  (std::decay_t<E>) std::max((E) a1, (E) a2))
+ENOKI_ROUTE_BINARY_SCALAR(min,   min,  (std::decay_t<E>) std::min((E) a1, (E) a2))
+
+ENOKI_ROUTE_BINARY_SCALAR(dot,   dot,   (E) a1 * (E) a2)
+
+ENOKI_ROUTE_BINARY_SCALAR(mulhi, mulhi, detail::mulhi_scalar(a1, a2))
+
+ENOKI_ROUTE_UNARY_SCALAR(abs, abs, detail::abs_scalar(a))
+
+ENOKI_ROUTE_TERNARY_SCALAR(fmadd,  fmadd,  detail::fmadd_scalar((E)  a1, (E) a2, (E)  a3))
+ENOKI_ROUTE_TERNARY_SCALAR(fmsub,  fmsub,  detail::fmadd_scalar((E)  a1, (E) a2, (E) -a3))
+ENOKI_ROUTE_TERNARY_SCALAR(fnmadd, fnmadd, detail::fmadd_scalar((E) -a1, (E) a2, (E)  a3))
+ENOKI_ROUTE_TERNARY_SCALAR(fnmsub, fnmsub, detail::fmadd_scalar((E) -a1, (E) a2, (E) -a3))
+ENOKI_ROUTE_TERNARY_SCALAR(fmaddsub, fmaddsub, fmsub(a1, a2, a3))
+ENOKI_ROUTE_TERNARY_SCALAR(fmsubadd, fmsubadd, fmadd(a1, a2, a3))
+
+ENOKI_ROUTE_UNARY_SCALAR(rcp, rcp, 1 / a)
+ENOKI_ROUTE_UNARY_SCALAR(rsqrt, rsqrt, detail::rsqrt_scalar(a))
+
+ENOKI_ROUTE_UNARY_SCALAR(popcnt, popcnt, detail::popcnt_scalar(a))
+ENOKI_ROUTE_UNARY_SCALAR(lzcnt, lzcnt, detail::lzcnt_scalar(a))
+ENOKI_ROUTE_UNARY_SCALAR(tzcnt, tzcnt, detail::tzcnt_scalar(a))
+
+ENOKI_ROUTE_UNARY_SCALAR(all,   all,   (bool) a)
+ENOKI_ROUTE_UNARY_SCALAR(any,   any,   (bool) a)
+ENOKI_ROUTE_UNARY_SCALAR(count, count, (size_t) ((bool) a ? 1 : 0))
+ENOKI_ROUTE_UNARY_SCALAR(reverse, reverse, a)
+ENOKI_ROUTE_UNARY_SCALAR(psum,  psum,  a)
+ENOKI_ROUTE_UNARY_SCALAR(hsum,  hsum,  a)
+ENOKI_ROUTE_UNARY_SCALAR(hprod, hprod, a)
+ENOKI_ROUTE_UNARY_SCALAR(hmin,  hmin,  a)
+ENOKI_ROUTE_UNARY_SCALAR(hmax,  hmax,  a)
+ENOKI_ROUTE_UNARY_SCALAR(hmean, hmean,  a)
+
+ENOKI_ROUTE_UNARY_SCALAR(all_inner,   all_inner,   (bool) a)
+ENOKI_ROUTE_UNARY_SCALAR(any_inner,   any_inner,   (bool) a)
+ENOKI_ROUTE_UNARY_SCALAR(count_inner, count_inner, (size_t) ((bool) a ? 1 : 0))
+ENOKI_ROUTE_UNARY_SCALAR(psum_inner,  psum_inner,  a)
+ENOKI_ROUTE_UNARY_SCALAR(hsum_inner,  hsum_inner,  a)
+ENOKI_ROUTE_UNARY_SCALAR(hprod_inner, hprod_inner, a)
+ENOKI_ROUTE_UNARY_SCALAR(hmin_inner,  hmin_inner,  a)
+ENOKI_ROUTE_UNARY_SCALAR(hmax_inner,  hmax_inner,  a)
+ENOKI_ROUTE_UNARY_SCALAR(hmean_inner, hmean_inner,  a)
+
+ENOKI_ROUTE_UNARY_SCALAR(sqrt,  sqrt,  std::sqrt(a))
+ENOKI_ROUTE_UNARY_SCALAR(floor, floor, std::floor(a))
+ENOKI_ROUTE_UNARY_SCALAR(ceil,  ceil,  std::ceil(a))
+ENOKI_ROUTE_UNARY_SCALAR(round, round, std::rint(a))
+ENOKI_ROUTE_UNARY_SCALAR(trunc, trunc, std::trunc(a))
+
+ENOKI_ROUTE_UNARY_IMM(rol_array, rol_array)
+ENOKI_ROUTE_UNARY_IMM(ror_array, ror_array)
+
+template <typename T> auto none(const T &value) {
+    return !any(value);
+}
+
+template <typename T> auto none_inner(const T &value) {
+    return !any_inner(value);
+}
+
+/// Floating point division
+template <typename T1, typename T2, enable_if_array_any_t<T1, T2> = 0,
+          enable_if_t<std::is_floating_point_v<scalar_t<expr_t<T1, T2>>>> = 0>
+ENOKI_INLINE auto operator/(const T1 &a1, const T2 &a2) {
+    using E = expr_t<T1, T2>;
+    using T = expr_t<scalar_t<T1>, T2>;
+
+    if constexpr (std::is_same_v<T1, E> && std::is_same_v<T2, E>)
+        return a1.derived().div_(a2.derived());
+    else if constexpr (array_depth_v<T1> > array_depth_v<T2>)
+        return static_cast<const E &>(a1) * // reciprocal approximation
+               rcp((const T &) a2);
+    else
+        return operator/(static_cast<const E &>(a1),
+                         static_cast<const E &>(a2));
+}
+
+template <typename T1, typename T2, enable_if_array_any_t<T1, T2> = 0,
+          enable_if_t<!std::is_floating_point_v<scalar_t<expr_t<T1, T2>>> &&
+                       is_array_v<T2>> = 0>
+ENOKI_INLINE auto operator/(const T1 &a1, const T2 &a2) {
+    using E = expr_t<T1, T2>;
+
+    if constexpr (std::is_same_v<T1, E> && std::is_same_v<T2, E>)
+        return a1.derived().div_(a2.derived());
+    else
+        return operator/(static_cast<const E &>(a1),
+                         static_cast<const E &>(a2));
+}
+
+template <typename T1, typename T2, enable_if_array_any_t<T1, T2> = 0,
+          enable_if_t<!std::is_floating_point_v<scalar_t<expr_t<T1, T2>>> &&
+                       is_array_v<T2>> = 0>
+ENOKI_INLINE auto operator%(const T1 &a1, const T2 &a2) {
+    using E = expr_t<T1, T2>;
+
+    if constexpr (std::is_same_v<T1, E> && std::is_same_v<T2, E>)
+        return a1.derived().mod_(a2.derived());
+    else
+        return operator%(static_cast<const E &>(a1),
+                         static_cast<const E &>(a2));
+}
+
+/// Shuffle the entries of an array
+template <size_t... Is, typename T>
+ENOKI_INLINE auto shuffle(const T &a) {
+    if constexpr (is_array_v<T>) {
+        return eval(a).template shuffle_<Is...>();
+    } else {
+        static_assert(sizeof...(Is) == 1 && (... && (Is == 0)), "Shuffle argument out of bounds!");
+        return a;
+    }
+}
+
+template <typename Array, typename Index,
+          enable_if_t<is_array_v<Array> && is_array_v<Index> && std::is_integral_v<scalar_t<Index>>> = 0>
+ENOKI_INLINE Array shuffle(const Array &a, const Index &idx) {
+    if constexpr (Index::Depth > Array::Depth) {
+        Array result;
+        for (size_t i = 0; i < Array::Size; ++i)
+            result.coeff(i) = shuffle(a.derived().coeff(i), idx);
+        return result;
+    } else {
+        return a.derived().shuffle_((int_array_t<Array> &) idx);
+    }
+}
+
+//// Compute the square of the given value
+template <typename T> ENOKI_INLINE auto sqr(const T &value) {
+    return value * value;
+}
+
+//// Convert radians to degrees
+template <typename T> ENOKI_INLINE auto rad_to_deg(const T &a) {
+    return a * scalar_t<T>(180 / M_PI);
+}
+
+/// Convert degrees to radians
+template <typename T> ENOKI_INLINE auto deg_to_rad(const T &a) {
+    return a * scalar_t<T>(M_PI / 180);
+}
+
+template <typename T> ENOKI_INLINE auto sign_mask() {
+    using Scalar = scalar_t<T>;
+    using UInt = uint_array_t<Scalar>;
+    return memcpy_cast<Scalar>(UInt(1) << (sizeof(UInt) * 8 - 1));
+}
+
+template <typename T, typename Expr = expr_t<T>>
+ENOKI_INLINE Expr sign(const T &a) {
+    using Scalar = scalar_t<T>;
+
+    if constexpr (array_depth_v<Expr> >= 2) {
+        Expr result;
+        for (size_t i = 0; i < Expr::Size; ++i)
+            result.coeff(i) = sign(a.coeff(i));
+        return result;
+    } else if constexpr (!std::is_signed_v<Scalar>) {
+        return Expr(Scalar(1));
+    } else if constexpr (!std::is_floating_point_v<Scalar> || is_diff_array_v<Expr>) {
+        return select(a < Scalar(0), Expr(Scalar(-1)), Expr(Scalar(1)));
+    } else if constexpr (is_scalar_v<Expr>) {
+        return std::copysign(Scalar(1), a);
+    } else {
+        return (sign_mask<T>() & a) | Expr(Scalar(1));
+    }
+}
+
+template <typename T1, typename T2, typename Expr = expr_t<T1, T2>>
+ENOKI_INLINE Expr copysign(const T1 &a1, const T2 &a2) {
+    using Scalar1 = scalar_t<T1>;
+    using Scalar2 = scalar_t<T2>;
+
+    static_assert(std::is_same_v<Scalar1, Scalar2> || !std::is_signed_v<Scalar1>,
+                  "copysign(): Incompatible input arguments!");
+
+    if constexpr (!std::is_same_v<T1, Expr> || !std::is_same_v<T2, Expr>) {
+        return copysign((const Expr &) a1, (const Expr &) a2);
+    } else if constexpr (array_depth_v<Expr> >= 2) {
+        Expr result;
+        for (size_t i = 0; i < Expr::Size; ++i)
+            result.coeff(i) = copysign(a1.coeff(i), a2.coeff(i));
+        return result;
+    } else if constexpr (!std::is_floating_point_v<Scalar1>) {
+        return select((a1 ^ a2) < Scalar1(0), a1, -a1);
+    } else if constexpr (is_scalar_v<Expr>) {
+        return std::copysign(a1, a2);
+    } else if constexpr (is_diff_array_v<Expr>) {
+        return abs(a1) * sign(a2);
+    } else {
+        return abs(a1) | (sign_mask<Expr>() & a2);
+    }
+}
+
+template <typename T1, typename T2, typename Expr = expr_t<T1, T2>>
+ENOKI_INLINE Expr copysign_neg(const T1 &a1, const T2 &a2) {
+    using Scalar1 = scalar_t<T1>;
+    using Scalar2 = scalar_t<T2>;
+
+    static_assert(std::is_same_v<Scalar1, Scalar2> || !std::is_signed_v<Scalar1>,
+                  "copysign_neg(): Incompatible input arguments!");
+
+    if constexpr (!std::is_same_v<T1, Expr> || !std::is_same_v<T2, Expr>) {
+        return copysign_neg((const Expr &) a1, (const Expr &) a2);
+    } else if constexpr (array_depth_v<Expr> >= 2) {
+        Expr result;
+        for (size_t i = 0; i < Expr::Size; ++i)
+            result.coeff(i) = copysign_neg(a1.coeff(i), a2.coeff(i));
+        return result;
+    } else if constexpr (!std::is_floating_point_v<Scalar1>) {
+        return select((a1 ^ a2) < Scalar1(0), -a1, a1);
+    } else if constexpr (is_scalar_v<Expr>) {
+        return std::copysign(a1, -a2);
+    } else if constexpr (is_diff_array_v<Expr>) {
+        return abs(a1) * -sign(a2);
+    } else {
+        return abs(a1) | andnot(sign_mask<Expr>(), a2);
+    }
+}
+
+template <typename T1, typename T2, typename Expr = expr_t<T1, T2>>
+ENOKI_INLINE Expr mulsign(const T1 &a1, const T2 &a2) {
+    using Scalar1 = scalar_t<T1>;
+    using Scalar2 = scalar_t<T2>;
+
+    static_assert(std::is_same_v<Scalar1, Scalar2> || !std::is_signed_v<Scalar1>,
+                  "mulsign(): Incompatible input arguments!");
+
+    if constexpr (!std::is_same_v<T1, Expr> || !std::is_same_v<T2, Expr>) {
+        return mulsign((const Expr &) a1, (const Expr &) a2);
+    } else if constexpr (array_depth_v<Expr> >= 2) {
+        Expr result;
+        for (size_t i = 0; i < Expr::Size; ++i)
+            result.coeff(i) = mulsign(a1.coeff(i), a2.coeff(i));
+        return result;
+    } else if constexpr (!std::is_floating_point_v<Scalar1>) {
+        return select(a2 < Scalar1(0), -a1, a1);
+    } else if constexpr (is_scalar_v<Expr>) {
+        return a1 * std::copysign(Scalar1(1), a2);
+    } else if constexpr (is_diff_array_v<Expr>) {
+        return a1 * sign(a2);
+    } else {
+        return a1 ^ (sign_mask<Expr>() & a2);
+    }
+}
+
+template <typename T1, typename T2, typename Expr = expr_t<T1, T2>>
+ENOKI_INLINE Expr mulsign_neg(const T1 &a1, const T2 &a2) {
+    using Scalar1 = scalar_t<T1>;
+    using Scalar2 = scalar_t<T2>;
+
+    static_assert(std::is_same_v<Scalar1, Scalar2> || !std::is_signed_v<Scalar1>,
+                  "mulsign_neg(): Incompatible input arguments!");
+
+    if constexpr (!std::is_same_v<T1, Expr> || !std::is_same_v<T2, Expr>) {
+        return mulsign_neg((const Expr &) a1, (const Expr &) a2);
+    } else if constexpr (array_depth_v<Expr> >= 2) {
+        Expr result;
+        for (size_t i = 0; i < Expr::Size; ++i)
+            result.coeff(i) = mulsign_neg(a1.coeff(i), a2.coeff(i));
+        return result;
+    } else if constexpr (!std::is_floating_point_v<Scalar1>) {
+        return select(a2 < Scalar1(0), a1, -a1);
+    } else if constexpr (is_scalar_v<Expr>) {
+        return a1 * std::copysign(Scalar1(1), -a2);
+    } else if constexpr (is_diff_array_v<Expr>) {
+        return a1 * -sign(a2);
+    } else {
+        return a1 ^ andnot(sign_mask<Expr>(), a2);
+    }
+}
+
+template <typename M, typename T, typename F>
+ENOKI_INLINE auto select(const M &m, const T &t, const F &f) {
+    using E = expr_t<T, F>;
+
+    if constexpr (!is_array_v<E>)
+        return (bool) m ? (E) t : (E) f;
+    else if constexpr (std::is_same_v<M, mask_t<E>> &&
+                       std::is_same_v<T, E> &&
+                       std::is_same_v<F, E>)
+        return E::select_(m.derived(), t.derived(), f.derived());
+    else
+        return select((const mask_t<E> &) m, (const E &) t, (const E &) f);
+}
+
+template <typename T1, typename T2, enable_if_array_any_t<T1, T2> = 0>
+ENOKI_INLINE bool operator==(const T1 &a1, const T2 &a2) {
+    return all_nested(eq(a1, a2));
+}
+
+template <typename T1, typename T2, enable_if_array_any_t<T1, T2> = 0>
+ENOKI_INLINE bool operator!=(const T1 &a1, const T2 &a2) {
+    return any_nested(neq(a1, a2));
+}
+
+namespace detail {
+    template <typename T>
+    using has_ror = decltype(std::declval<T>().template ror_<0>());
+    template <typename T>
+    constexpr bool has_ror_v = is_detected_v<has_ror, T>;
+}
+
+/// Bit-level rotate left (with immediate offset value)
+template <size_t Imm, typename T>
+ENOKI_INLINE auto rol(const T &a) {
+    constexpr size_t Mask = 8 * sizeof(scalar_t<T>) - 1u;
+    using UInt = uint_array_t<T>;
+
+    if constexpr (detail::has_ror_v<T>)
+        return a.template rol_<Imm>();
+    else
+        return sl<Imm & Mask>(a) | T(sr<((~Imm + 1u) & Mask)>(UInt(a)));
+}
+
+/// Bit-level rotate right (with immediate offset value)
+template <typename T1, typename T2>
+ENOKI_INLINE auto rol(const T1 &a1, const T2 &a2) {
+    if constexpr (detail::has_ror_v<T1>) {
+        return a1.rol_(a2);
+    } else {
+        using U1 = uint_array_t<T1>;
+        using U2 = uint_array_t<T2>;
+        using Expr = expr_t<T1, T2>;
+        constexpr scalar_t<U2> Mask = 8 * sizeof(scalar_t<Expr>) - 1u;
+
+        U1 u1 = (U1) a1; U2 u2 = (U2) a2;
+        return Expr((u1 << u2) | (u1 >> ((~u2 + 1u) & Mask)));
+    }
+}
+
+/// Bit-level rotate right (with scalar or array offset value)
+template <size_t Imm, typename T>
+ENOKI_INLINE T ror(const T &a) {
+    constexpr size_t Mask = 8 * sizeof(scalar_t<T>) - 1u;
+    using UInt = uint_array_t<T>;
+
+    if constexpr (detail::has_ror_v<T>)
+        return a.template ror_<Imm>();
+    else
+        return T(sr<Imm & Mask>(UInt(a))) | sl<((~Imm + 1u) & Mask)>(a);
+}
+
+/// Bit-level rotate right (with scalar or array offset value)
+template <typename T1, typename T2>
+ENOKI_INLINE auto ror(const T1 &a1, const T2 &a2) {
+    if constexpr (detail::has_ror_v<T1>) {
+        return a1.ror_(a2);
+    } else {
+        using U1 = uint_array_t<T1>;
+        using U2 = uint_array_t<T2>;
+        using Expr = expr_t<T1, T2>;
+        constexpr scalar_t<U2> Mask = 8 * sizeof(scalar_t<Expr>) - 1u;
+
+        U1 u1 = (U1) a1; U2 u2 = (U2) a2;
+        return Expr((u1 >> u2) | (u1 << ((~u2 + 1u) & Mask)));
+    }
+}
+
+/// Fast implementation for computing the base 2 log of an integer.
+template <typename T> ENOKI_INLINE auto log2i(T value) {
+    return scalar_t<T>(sizeof(scalar_t<T>) * 8 - 1) - lzcnt(value);
+}
+
+template <typename T> struct MaskBit {
+    MaskBit(T &mask, size_t index) : mask(mask), index(index) { }
+    operator bool() const { return mask.bit_(index); }
+    MaskBit &operator=(bool b) { mask.set_bit_(index, b); return *this; }
+private:
+    T mask;
+    size_t index;
+};
+
+template <typename Target, typename Source>
+ENOKI_INLINE Target reinterpret_array(const Source &src) {
+    if constexpr (std::is_same_v<Source, Target>) {
+        return src;
+    } else if constexpr (std::is_constructible_v<Target, const Source &, detail::reinterpret_flag>) {
+        return Target(src, detail::reinterpret_flag());
+    } else if constexpr (is_scalar_v<Source> && is_scalar_v<Target>) {
+        if constexpr (sizeof(Source) == sizeof(Target)) {
+            return memcpy_cast<Target>(src);
+        } else {
+            using SrcInt = int_array_t<Source>;
+            using TrgInt = int_array_t<Target>;
+            if constexpr (std::is_same_v<Target, bool>)
+                return memcpy_cast<SrcInt>(src) != 0 ? true : false;
+            else
+                return memcpy_cast<Target>(memcpy_cast<SrcInt>(src) != 0 ? TrgInt(-1) : TrgInt(0));
+        }
+    } else {
+        static_assert(detail::false_v<Source, Target>, "reinterpret_array(): don't know what to do!");
+    }
+}
+
+template <typename Target, typename T>
+ENOKI_INLINE Target reinterpret_array(const MaskBit<T> &src) {
+    return reinterpret_array<Target>((bool) src);
+}
+
+/// Element-wise test for NaN values
+template <typename T>
+ENOKI_INLINE auto isnan(const T &a) { return !eq(a, a); }
+
+/// Element-wise test for +/- infinity
+template <typename T>
+ENOKI_INLINE auto isinf(const T &a) {
+    return eq(abs(a), std::numeric_limits<scalar_t<T>>::infinity());
+}
+
+/// Element-wise test for finiteness
+template <typename T>
+ENOKI_INLINE auto isfinite(const T &a) {
+    return abs(a) < std::numeric_limits<scalar_t<T>>::infinity();
+}
+
+/// Extract the low elements from an array of even size
+template <typename Array, enable_if_t<(Array::Size > 1 && Array::Size != -1)> = 0>
+auto low(const Array &a) { return a.derived().low_(); }
+
+/// Extract the high elements from an array of even size
+template <typename Array, enable_if_t<(Array::Size > 1 && Array::Size != -1)> = 0>
+auto high(const Array &a) { return a.derived().high_(); }
+
+template <typename T, typename Arg>
+T floor2int(const Arg &a) {
+    if constexpr (is_array_v<Arg>)
+        return a.template floor2int_<T>();
+    else
+        return detail::floor2int_scalar<T>(a);
+}
+
+template <typename T, typename Arg>
+T ceil2int(const Arg &a) {
+    if constexpr (is_array_v<Arg>)
+        return a.template ceil2int_<T>();
+    else
+        return detail::ceil2int_scalar<T>(a);
+}
+
+// -----------------------------------------------------------------------
+//! @{ \name Miscellaneous routines for vector spaces
+// -----------------------------------------------------------------------
+
+template <typename T1, typename T2>
+ENOKI_INLINE auto abs_dot(const T1 &a1, const T2 &a2) {
+    return abs(dot(a1, a2));
+}
+
+template <typename T> ENOKI_INLINE auto norm(const T &v) {
+    return sqrt(dot(v, v));
+}
+
+template <typename T> ENOKI_INLINE auto squared_norm(const T &v) {
+    return dot(v, v);
+}
+
+template <typename T> ENOKI_INLINE auto normalize(const T &v) {
+    return v * rsqrt(squared_norm(v));
+}
+
+template <typename T, enable_if_t<is_dynamic_array_v<T>> = 0>
+ENOKI_INLINE auto partition(const T &v) {
+    return v.partition_();
+}
+
+template <typename T1, typename T2,
+          enable_if_t<array_size_v<T1> == 3 &&
+                      array_size_v<T2> == 3> = 0>
+ENOKI_INLINE auto cross(const T1 &v1, const T2 &v2) {
+#if defined(ENOKI_ARM_32) || defined(ENOKI_ARM_64)
+    return fnmadd(
+        shuffle<2, 0, 1>(v1), shuffle<1, 2, 0>(v2),
+        shuffle<1, 2, 0>(v1) * shuffle<2, 0, 1>(v2)
+    );
+#else
+    return fmsub(shuffle<1, 2, 0>(v1),  shuffle<2, 0, 1>(v2),
+                 shuffle<2, 0, 1>(v1) * shuffle<1, 2, 0>(v2));
+#endif
+}
+
+template <typename T> decltype(auto) detach(T &value) {
+    if constexpr (is_array_v<T>) {
+        if constexpr (!is_diff_array_v<T>)
+            return value;
+        else if constexpr (array_depth_v<T> == 1)
+            return value.value_();
+        else
+            return struct_support_t<T>::detach(value);
+    } else {
+        return struct_support_t<T>::detach(value);
+    }
+}
+
+template <typename T> decltype(auto) gradient(T &&value) {
+    if constexpr (is_array_v<T>) {
+        if constexpr (!is_diff_array_v<T>)
+            return value;
+        else if constexpr (array_depth_v<T> == 1)
+            return value.gradient_();
+        else
+            return struct_support_t<T>::gradient(value);
+    } else {
+        return struct_support_t<T>::gradient(value);
+    }
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+// -----------------------------------------------------------------------
+//! @{ \name Initialization, loading/writing data
+// -----------------------------------------------------------------------
+
+template <typename T> ENOKI_INLINE T zero(size_t size = 1);
+template <typename T> ENOKI_INLINE T empty(size_t size = 1);
+
+/// Construct an index sequence, i.e. 0, 1, 2, ..
+template <typename Array, enable_if_dynamic_array_t<Array> = 0>
+ENOKI_INLINE Array arange(size_t end = 1) {
+    return Array::arange_(0, (ssize_t) end, 1);
+}
+
+template <typename Array, enable_if_static_array_t<Array> = 0>
+ENOKI_INLINE Array arange(size_t end = Array::Size) {
+    assert(end == Array::Size);
+    (void) end;
+    return Array::arange_(0, (ssize_t) Array::Size, 1);
+}
+
+template <typename Arg, enable_if_not_array_t<Arg> = 0>
+ENOKI_INLINE Arg arange(size_t end = 1) {
+    assert(end == 1);
+    (void) end;
+    return Arg(0);
+}
+
+template <typename T>
+ENOKI_INLINE T arange(ssize_t start, ssize_t end, ssize_t step = 1) {
+    if constexpr (is_static_array_v<T>) {
+        assert(end - start == (ssize_t) T::Size * step);
+        return T::arange_(start, end, step);
+    } else if constexpr (is_dynamic_array_v<T>) {
+        return T::arange_(start, end, step);
+    } else {
+        assert(end - start == step);
+        (void) end;
+        (void) step;
+        return T(start);
+    }
+}
+
+/// Construct an array that linearly interpolates from min..max
+template <typename Array, enable_if_dynamic_array_t<Array> = 0>
+ENOKI_INLINE Array linspace(scalar_t<Array> min, scalar_t<Array> max, size_t size = 1) {
+    return Array::linspace_(min, max, size);
+}
+
+template <typename Array, enable_if_static_array_t<Array> = 0>
+ENOKI_INLINE Array linspace(scalar_t<Array> min, scalar_t<Array> max, size_t size = Array::Size) {
+    assert(size == Array::Size);
+    (void) size;
+    return Array::linspace_(min, max);
+}
+
+/// Construct an array that linearly interpolates from min..max (scalar fallback)
+template <typename Arg, enable_if_not_array_t<Arg> = 0>
+ENOKI_INLINE Arg linspace(scalar_t<Arg> min, scalar_t<Arg>, size_t size = 1) {
+    assert(size == 1);
+    (void) size;
+    return min;
+}
+
+template <typename Outer, typename Inner,
+          typename Return = replace_scalar_t<Outer, Inner>>
+ENOKI_INLINE Return full(const Inner &inner, size_t size = 1) {
+    ENOKI_MARK_USED(size);
+    if constexpr (std::is_scalar_v<Return>)
+        return inner;
+    else
+        return Return::full_(inner, size);
+}
+
+/// Load an array from aligned memory
+template <typename T> ENOKI_INLINE T load(const void *mem) {
+    if constexpr (is_array_v<T>) {
+        return T::load_(mem);
+    } else {
+        assert((uintptr_t) mem % alignof(T) == 0);
+        return *static_cast<const T *>(mem);
+    }
+}
+
+/// Load an array from aligned memory (masked)
+template <typename T> ENOKI_INLINE T load(const void *mem, const mask_t<T> &mask) {
+    if constexpr (is_array_v<T>) {
+        return T::load_(mem, mask);
+    } else {
+        if (mask) {
+            assert((uintptr_t) mem % alignof(T) == 0);
+            return *static_cast<const T *>(mem);
+        } else {
+            return T(0);
+        }
+    }
+}
+
+/// Load an array from unaligned memory
+template <typename T> ENOKI_INLINE T load_unaligned(const void *mem) {
+    if constexpr (is_array_v<T>)
+        return T::load_unaligned_(mem);
+    else
+        return *static_cast<const T *>(mem);
+}
+
+/// Load an array from unaligned memory (masked)
+template <typename T> ENOKI_INLINE T load_unaligned(const void *mem, const mask_t<T> &mask) {
+    if constexpr (is_array_v<T>)
+        return T::load_unaligned_(mem, mask);
+    else
+        return mask ? *static_cast<const T *>(mem) : T(0);
+}
+
+/// Store an array to aligned memory
+template <typename T> ENOKI_INLINE void store(void *mem, const T &value) {
+    if constexpr (is_array_v<T>) {
+        value.store_(mem);
+    } else {
+        assert((uintptr_t) mem % alignof(T) == 0);
+        *static_cast<T *>(mem) = value;
+    }
+}
+
+/// Store an array to aligned memory (masked)
+template <typename T> ENOKI_INLINE void store(void *mem, const T &value, const mask_t<T> &mask) {
+    if constexpr (is_array_v<T>) {
+        value.store_(mem, mask);
+    } else {
+        if (mask) {
+            assert((uintptr_t) mem % alignof(T) == 0);
+            *static_cast<T *>(mem) = value;
+        }
+    }
+}
+
+/// Store an array to unaligned memory
+template <typename T> ENOKI_INLINE void store_unaligned(void *mem, const T &value) {
+    if constexpr (is_array_v<T>)
+        value.store_unaligned_(mem);
+    else
+        *static_cast<T *>(mem) = value;
+}
+
+/// Store an array to unaligned memory (masked)
+template <typename T> ENOKI_INLINE void store_unaligned(void *mem, const T &value, const mask_t<T> &mask) {
+    if constexpr (is_array_v<T>)
+        value.store_unaligned_(mem, mask);
+    else if (mask)
+        *static_cast<T *>(mem) = value;
+}
+
+template <typename T1, typename T2,
+          enable_if_array_any_t<T1, T2> = 0> auto concat(const T1 &a1, const T2 &a2) {
+    static_assert(std::is_same_v<scalar_t<T1>, scalar_t<T2>>,
+                  "concat(): Scalar types must be identical");
+
+    constexpr size_t Depth1 = array_depth_v<T1>,
+                     Depth2 = array_depth_v<T2>,
+                     Depth = std::max(Depth1, Depth2),
+                     Size1 = array_size_v<T1>,
+                     Size2 = array_size_v<T2>,
+                     Size  = Size1 + Size2;
+
+    using Value = expr_t<value_t<T1>, value_t<T2>>;
+    using Result = Array<Value, Size>;
+    if constexpr (Result::Size1 == Size1 && Result::Size2 == Size2 &&
+                  Depth1 == 1 && Depth2 == 1) {
+        return Result(a1, a2);
+    } else if constexpr (Depth1 == 1 && Depth2 == 0 && T1::ActualSize == Size) {
+        Result result(a1);
+        #if defined(ENOKI_X86_SSE42)
+            if constexpr (std::is_same_v<value_t<T1>, float>)
+                result.m = _mm_insert_ps(result.m, _mm_set_ss(a2), 0b00110000);
+            else
+        #endif
+        result.coeff(Size1) = a2;
+        return result;
+    } else {
+        Result result;
+        if constexpr (Depth1 == Depth) {
+            for (size_t i = 0; i < Size1; ++i)
+                result.coeff(i) = a1.derived().coeff(i);
+        } else {
+            result.coeff(0) = a1;
+        }
+        if constexpr (Depth2 == Depth) {
+            for (size_t i = 0; i < Size2; ++i)
+                result.coeff(i + Size1) = a2.derived().coeff(i);
+        } else {
+            result.coeff(Size1) = a2;
+        }
+        return result;
+    }
+}
+
+namespace detail {
+    template <typename Return, size_t Offset, typename T, size_t... Index>
+    static ENOKI_INLINE Return extract(const T &a, std::index_sequence<Index...>) {
+        return Return(a.coeff(Index + Offset)...);
+    }
+}
+
+template <size_t Size, typename T,
+          typename Return = Array<value_t<T>, Size>>
+ENOKI_INLINE Return head(const T &a) {
+    if constexpr (T::ActualSize == Return::ActualSize) {
+        return a;
+    } else if constexpr (T::Size1 == Size) {
+        return low(a);
+    } else {
+        static_assert(Size <= array_size_v<T>, "Array size mismatch");
+        return detail::extract<Return, 0>(a, std::make_index_sequence<Size>());
+    }
+}
+
+template <size_t Size, typename T,
+          typename Return = Array<value_t<T>, Size>>
+ENOKI_INLINE Return tail(const T &a) {
+    if constexpr (T::Size == Return::Size) {
+        return a;
+    } else if constexpr (T::Size2 == Size) {
+        return high(a);
+    } else {
+        static_assert(Size <= array_size_v<T>, "Array size mismatch");
+        return detail::extract<Return, T::Size - Size>(a, std::make_index_sequence<Size>());
+    }
+}
+
+/// Masked extraction operation
+template <typename Array, typename Mask>
+ENOKI_INLINE auto extract(const Array &value, const Mask &mask) {
+    if constexpr (is_array_v<Array>)
+        return (value_t<Array>) value.extract_(mask);
+    else
+        return value;
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+// -----------------------------------------------------------------------
+//! @{ \name CUDA-specific forward declarations
+// -----------------------------------------------------------------------
+
+/* Documentation in 'cuda.h' */
+extern ENOKI_IMPORT void cuda_trace_printf(const char *, uint32_t, uint32_t*);
+extern ENOKI_IMPORT void cuda_var_mark_dirty(uint32_t);
+extern ENOKI_IMPORT void cuda_eval(bool log_assembly = false);
+extern ENOKI_IMPORT void cuda_sync();
+extern ENOKI_IMPORT void cuda_set_scatter_gather_operand(uint32_t index, bool gather = false);
+extern ENOKI_IMPORT void cuda_set_log_level(uint32_t);
+extern ENOKI_IMPORT uint32_t cuda_log_level();
+
+/// Fancy templated 'printf', which extracts the indices of Enoki arrays
+template <typename... Args> void cuda_printf(const char *fmt, const Args&... args) {
+    uint32_t indices[] = { args.index()..., 0 };
+    cuda_trace_printf(fmt, (uint32_t) sizeof...(Args), indices);
+}
+
+template <typename T, enable_if_t<!is_diff_array_v<T> && !is_cuda_array_v<T>> = 0>
+ENOKI_INLINE void set_label(T&, const char *) { }
+
+
+//! @}
+// -----------------------------------------------------------------------
+
+// -----------------------------------------------------------------------
+//! @{ \name Scatter/gather/prefetch operations
+// -----------------------------------------------------------------------
+
+NAMESPACE_BEGIN(detail)
+
+template <typename Array, bool Packed, size_t Mult1 = 0, size_t Mult2 = 1, typename Guide = Array,
+          typename Func, typename Index1, typename Index2, typename Mask>
+ENOKI_INLINE decltype(auto) do_recursive(const Func &func, const Index1 &offset1, const Index2 &offset2, const Mask &mask) {
+    if constexpr (array_depth_v<Index1> + array_depth_v<Index2> != array_depth_v<Array>) {
+        using NewIndex      = enoki::Array<scalar_t<Index1>, Guide::Size>;
+        using CombinedIndex = replace_scalar_t<Index2, NewIndex>;
+
+        constexpr size_t Size = (Packed || (array_depth_v<Index1> + array_depth_v<Index2> + 1 != array_depth_v<Array>)) ?
+            Guide::Size : enoki::Array<scalar_t<Guide>, Guide::Size>::ActualSize;  /* Deal with n=3 special case */
+
+        CombinedIndex combined_offset =
+            CombinedIndex(offset2 * scalar_t<Index1>(Size)) +
+            full<Index2>(arange<NewIndex>());
+
+        return do_recursive<Array, Packed, Mult1, Mult2 * Size, value_t<Guide>>(
+            func, offset1, combined_offset, mask);
+    } else {
+        using CombinedIndex = replace_scalar_t<Index2, Index1>;
+
+        CombinedIndex combined_offset =
+            CombinedIndex(offset2) +
+            enoki::full<Index2>(offset1) * scalar_t<Index1>(Mult1 == 0 ? Mult2 : Mult1);
+
+        return func(combined_offset, full<Index2>(mask));
+    }
+}
+
+template <typename T> constexpr size_t fix_stride(size_t Stride) {
+    if (has_avx2) {
+       if (Stride % 8 == 0)      return 8;
+       else if (Stride % 4 == 0) return 4;
+       else                      return 1;
+    }
+    return Stride;
+}
+
+NAMESPACE_END(detail)
+
+/// Masked prefetch operation
+template <typename Array, bool Write = false, size_t Level = 2, size_t Stride_ = 0, bool Packed = true,
+          typename Index, typename Mask = mask_t<replace_scalar_t<Index, scalar_t<Array>>>>
+ENOKI_INLINE void prefetch(const void *mem, const Index &index, const identity_t<Mask> &mask = true) {
+    static_assert(is_std_int_v<scalar_t<Index>>, "prefetch(): expected a signed 32/64-bit integer as 'index' argument!");
+    constexpr size_t ScalarSize = sizeof(scalar_t<Array>);
+
+    if constexpr (!is_array_v<Array> && !is_array_v<Index>) {
+        /* Scalar case */
+        #if defined(ENOKI_X86_SSE42)
+            if (mask) {
+                constexpr size_t Stride = (Stride_ != 0) ? Stride_ : ScalarSize;
+                const uint8_t *ptr = (const uint8_t *) mem + index * Index(Stride);
+                constexpr auto Hint = Level == 1 ? _MM_HINT_T0 : _MM_HINT_T1;
+                _mm_prefetch((char *) ptr, Hint);
+            }
+        #else
+            (void) mem; (void) index; (void) mask;
+        #endif
+    } else if constexpr (std::is_same_v<array_shape_t<Array>, array_shape_t<Index>>) {
+        /* Forward to the array-specific implementation */
+        constexpr size_t Stride = (Stride_ != 0) ? Stride_ : ScalarSize,
+                         Stride2 = detail::fix_stride<Array>(Stride);
+        Index index2 = Stride != Stride2 ? index * scalar_t<Index>(Stride / Stride2) : index;
+        Array::template prefetch_<Write, Level, Stride2>(mem, index2, mask);
+    } else if constexpr (array_depth_v<Array> > array_depth_v<Index>) {
+        /* Dimension mismatch, reduce to a sequence of gather operations */
+        static_assert((Stride_ / ScalarSize) * ScalarSize == Stride_,
+                      "Stride must be divisible by sizeof(Scalar)");
+        return detail::do_recursive<Array, Packed, Stride_ / ScalarSize>(
+            [mem](const auto &index2, const auto &mask2) ENOKI_INLINE_LAMBDA {
+                constexpr size_t ScalarSize2 = sizeof(scalar_t<Array>); // needed for MSVC
+                prefetch<Array, Write, Level, ScalarSize2>(mem, index2, mask2);
+            },
+            index, scalar_t<Index>(0), mask);
+    } else {
+        static_assert(detail::false_v<Array>, "prefetch(): don't know what to do with the input arguments!");
+    }
+}
+
+/// Masked gather operation
+template <typename Array, size_t Stride_ = 0, bool Packed = true, bool Masked = true,
+          typename Index, typename Mask = mask_t<replace_scalar_t<Index, scalar_t<Array>>>>
+ENOKI_INLINE Array gather(const void *mem, const Index &index, const identity_t<Mask> &mask) {
+    static_assert(is_std_int_v<scalar_t<Index>>, "gather(): expected a signed 32/64-bit integer as 'index' argument!");
+    constexpr size_t ScalarSize = sizeof(scalar_t<Array>);
+
+    if constexpr (!is_array_v<Array> && !is_array_v<Index>) {
+        /* Scalar case */
+        constexpr size_t Stride = (Stride_ != 0) ? Stride_ : ScalarSize;
+        const Array *ptr = (const Array *) ((const uint8_t *) mem + index * Index(Stride));
+        return mask ? *ptr : Array(0);
+    } else if constexpr (std::is_same_v<array_shape_t<Array>, array_shape_t<Index>>) {
+        /* Forward to the array-specific implementation */
+        constexpr size_t Stride  = (Stride_ != 0) ? Stride_ : ScalarSize,
+                         Stride2 = detail::fix_stride<Array>(Stride);
+        Index index2 = Stride != Stride2 ? index * scalar_t<Index>(Stride / Stride2) : index;
+        return Array::template gather_<Stride2>(mem, index2, mask);
+    } else if constexpr (array_depth_v<Array> == 1 && array_depth_v<Index> == 0) {
+        /* Turn into a load */
+        ENOKI_MARK_USED(mask);
+        constexpr size_t Stride = (Stride_ != 0) ? Stride_ :
+            (Packed ? (sizeof(value_t<Array>) * array_size_v<Array>) : (sizeof(Array)));
+        if constexpr (Masked)
+            return load_unaligned<Array>((uint8_t *) mem + Stride * (size_t) index, mask);
+        else
+            return load_unaligned<Array>((uint8_t *) mem + Stride * (size_t) index);
+    } else if constexpr (array_depth_v<Array> > array_depth_v<Index>) {
+        /* Dimension mismatch, reduce to a sequence of gather operations */
+        static_assert((Stride_ / ScalarSize) * ScalarSize == Stride_,
+                      "Stride must be divisible by sizeof(Scalar)");
+        return detail::do_recursive<Array, Packed, Stride_ / ScalarSize>(
+            [mem](const auto &index2, const auto &mask2) ENOKI_INLINE_LAMBDA {
+                constexpr size_t ScalarSize2 = sizeof(scalar_t<Array>); // needed for MSVC
+                return gather<Array, ScalarSize2>(mem, index2, mask2);
+            },
+            index, scalar_t<Index>(0), mask);
+    } else {
+        static_assert(detail::false_v<Array>, "gather(): don't know what to do with the input arguments!");
+    }
+}
+
+/// Masked scatter operation
+template <size_t Stride_ = 0, bool Packed = true, bool Masked = true, typename Array, typename Index,
+          typename Mask = mask_t<replace_scalar_t<Index, scalar_t<Array>>>>
+ENOKI_INLINE void scatter(void *mem, const Array &value, const Index &index, const identity_t<Mask> &mask) {
+    static_assert(is_std_int_v<scalar_t<Index>>, "scatter(): expected a signed 32/64-bit integer as 'index' argument!");
+    constexpr size_t ScalarSize = sizeof(scalar_t<Array>);
+
+    if constexpr (!is_array_v<Array> && !is_array_v<Index>) {
+        /* Scalar case */
+        constexpr size_t Stride = (Stride_ != 0) ? Stride_ : ScalarSize;
+        Array *ptr = (Array *) ((uint8_t *) mem + index * Index(Stride));
+        if (mask)
+            *ptr = value;
+    } else if constexpr (std::is_same_v<array_shape_t<Array>, array_shape_t<Index>>) {
+        /* Forward to the array-specific implementation */
+        constexpr size_t Stride = (Stride_ != 0) ? Stride_ : ScalarSize,
+                         Stride2 = detail::fix_stride<Array>(Stride);
+        Index index2 = Stride != Stride2 ? index * scalar_t<Index>(Stride / Stride2) : index;
+        value.template scatter_<Stride2>(mem, index2, mask);
+    } else if constexpr (array_depth_v<Array> == 1 && array_depth_v<Index> == 0) {
+        /* Turn into a store */
+        ENOKI_MARK_USED(mask);
+        constexpr size_t Stride = (Stride_ != 0) ? Stride_ :
+            (Packed ? (sizeof(value_t<Array>) * array_size_v<Array>) : (sizeof(Array)));
+        if constexpr (Masked)
+            return store_unaligned((uint8_t *) mem + Stride * (size_t) index, value, mask);
+        else
+            return store_unaligned((uint8_t *) mem + Stride * (size_t) index, value);
+    } else if constexpr (array_depth_v<Array> > array_depth_v<Index>) {
+        /* Dimension mismatch, reduce to a sequence of gather operations */
+        static_assert((Stride_ / ScalarSize) * ScalarSize == Stride_,
+                      "Stride must be divisible by sizeof(Scalar)");
+        detail::do_recursive<Array, Packed, Stride_ / ScalarSize>(
+            [mem, &value](const auto &index2, const auto &mask2) ENOKI_INLINE_LAMBDA {
+                constexpr size_t ScalarSize2 = sizeof(scalar_t<Array>); // needed for MSVC
+                scatter<ScalarSize2, Masked>(mem, value, index2, mask2);
+            },
+            index, scalar_t<Index>(0), mask);
+    } else {
+        static_assert(detail::false_v<Array>, "scatter(): don't know what to do with the input arguments!");
+    }
+}
+
+template <typename Array, size_t Stride = 0, bool Packed = true, typename Index>
+ENOKI_INLINE Array gather(const void *mem, const Index &index) {
+    return gather<Array, Stride, Packed, false>(mem, index, true);
+}
+
+template <size_t Stride_ = 0, bool Packed = true, typename Array, typename Index>
+ENOKI_INLINE void scatter(void *mem, const Array &value, const Index &index) {
+    scatter<Stride_, Packed, false>(mem, value, index, true);
+}
+
+#if defined(__GNUC__)
+#  pragma GCC diagnostic push
+#  pragma GCC diagnostic ignored "-Wunused-value"
+#endif
+
+/// Conflict-free modification operation
+template <typename Arg, size_t Stride = sizeof(scalar_t<Arg>),
+          typename Func, typename Index, typename... Args>
+void transform(void *mem, const Index &index, Func &&func, Args&&... args) {
+    static_assert(is_std_int_v<scalar_t<Index>>,
+                  "transform(): index argument must be a 32/64-bit integer array!");
+    if constexpr (is_array_v<Arg>) {
+        using Int = int_array_t<Arg>;
+        if constexpr ((false, ..., is_mask_v<Args>))
+            Arg::template transform_<Stride>(mem, (const Int &) index, (..., args), func, args...);
+        else
+            Arg::template transform_<Stride>(mem, (const Int &) index, mask_t<Arg>(true),
+                                             func, args..., mask_t<Arg>(true));
+    } else {
+        Arg& ref = *(Arg *) ((uint8_t *) mem + index * Index(Stride));
+        if constexpr ((false, ..., is_mask_v<Args>)) {
+            if ((..., args))
+                func(ref, args...);
+        } else {
+            func(ref, args..., true);
+        }
+    }
+}
+
+#if defined(__GNUC__)
+#  pragma GCC diagnostic pop
+#endif
+
+/// Conflict-free scatter-add update
+template <size_t Stride_ = 0, typename Arg, typename Index>
+ENOKI_INLINE void scatter_add(void *mem, const Arg &value, const Index &index, mask_t<Arg> mask = true) {
+    static_assert(is_std_int_v<scalar_t<Index>>,
+                  "scatter_add(): index argument must be a 32/64-bit integer array!");
+    constexpr size_t Stride = Stride_ == 0 ? sizeof(scalar_t<Arg>) : Stride_;
+
+    if constexpr (is_array_v<Arg>) {
+        value.template scatter_add_<Stride>(mem, index, mask);
+    } else {
+        Arg& ref = *(Arg *) ((uint8_t *) mem + index * Index(Stride));
+        if (mask)
+            ref += value;
+    }
+}
+
+/// Prefetch operations with an array source
+template <typename Array, bool Write = false, size_t Level = 2, size_t Stride = 0,
+          bool Packed = true, typename Source, typename... Args,
+          enable_if_t<array_depth_v<Source> == 1> = 0>
+ENOKI_INLINE void prefetch(const Source &source, const Args &... args) {
+    prefetch<Array, Write, Level, Stride, Packed>(source.data(), args...);
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+// -----------------------------------------------------------------------
+//! @{ \name Nested horizontal reduction operators
+// -----------------------------------------------------------------------
+
+template <typename T> auto hsum_nested(const T &a) {
+    if constexpr (array_depth_v<T> == 1)
+        return hsum(a);
+    else if constexpr (is_array_v<T>)
+        return hsum_nested(hsum(a));
+    else
+        return a;
+}
+
+template <typename T> auto hprod_nested(const T &a) {
+    if constexpr (array_depth_v<T> == 1)
+        return hprod(a);
+    else if constexpr (is_array_v<T>)
+        return hprod_nested(hprod(a));
+    else
+        return a;
+}
+
+template <typename T> auto hmin_nested(const T &a) {
+    if constexpr (array_depth_v<T> == 1)
+        return hmin(a);
+    else if constexpr (is_array_v<T>)
+        return hmin_nested(hmin(a));
+    else
+        return a;
+}
+
+template <typename T> auto hmax_nested(const T &a) {
+    if constexpr (array_depth_v<T> == 1)
+        return hmax(a);
+    else if constexpr (is_array_v<T>)
+        return hmax_nested(hmax(a));
+    else
+        return a;
+}
+
+template <typename T> auto hmean_nested(const T &a) {
+    if constexpr (array_depth_v<T> == 1)
+        return hmean(a);
+    else if constexpr (is_array_v<T>)
+        return hmean_nested(hmean(a));
+    else
+        return a;
+}
+
+template <typename T> auto count_nested(const T &a) {
+    if constexpr (is_array_v<T>)
+        return hsum_nested(count(a));
+    else
+        return count(a);
+}
+
+template <typename T> auto any_nested(const T &a) {
+    if constexpr (is_array_v<T>)
+        return any_nested(any(a));
+    else
+        return any(a);
+}
+
+template <typename T> auto all_nested(const T &a) {
+    if constexpr (is_array_v<T>)
+        return all_nested(all(a));
+    else
+        return all(a);
+}
+
+template <typename T> auto none_nested(const T &a) {
+    return !any_nested(a);
+}
+
+/// Convert an array with 1 entry into a scalar or throw an error
+template <typename T> scalar_t<T> scalar_cast(const T &v) {
+    static_assert(array_depth_v<T> <= 1);
+    if constexpr (is_array_v<T>) {
+        if (v.size() != 1)
+            throw std::runtime_error("scalar_cast(): array should be of size 1!");
+        return v.coeff(0);
+    } else {
+        return v;
+    }
+}
+
+template <typename T1, typename T2>
+bool allclose(const T1 &a, const T2 &b, float rtol = 1e-5f, float atol = 1e-8f,
+              bool equal_nan = false) {
+    auto cond = abs(a - b) <= abs(b) * rtol + atol;
+
+    if constexpr (std::is_floating_point_v<scalar_t<T1>> &&
+                  std::is_floating_point_v<scalar_t<T2>>) {
+        if (equal_nan)
+            cond |= isnan(a) & isnan(b);
+    }
+
+    return all_nested(cond);
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+// -----------------------------------------------------------------------
+//! @{ \name Reduction operators that return a default argument when
+//           invoked using CUDA arrays
+// -----------------------------------------------------------------------
+
+template <bool Default, typename T> auto any_or(const T &value) {
+    if constexpr (is_cuda_array_v<T>) {
+        ENOKI_MARK_USED(value);
+        return Default;
+    } else {
+        return any(value);
+    }
+}
+
+template <bool Default, typename T> auto any_nested_or(const T &value) {
+    if constexpr (is_cuda_array_v<T>) {
+        ENOKI_MARK_USED(value);
+        return Default;
+    } else {
+        return any_nested(value);
+    }
+}
+
+template <bool Default, typename T> auto none_or(const T &value) {
+    if constexpr (is_cuda_array_v<T>) {
+        ENOKI_MARK_USED(value);
+        return Default;
+    } else {
+        return none(value);
+    }
+}
+
+template <bool Default, typename T> auto none_nested_or(const T &value) {
+    if constexpr (is_cuda_array_v<T>) {
+        ENOKI_MARK_USED(value);
+        return Default;
+    } else {
+        return none_nested(value);
+    }
+}
+
+template <bool Default, typename T> auto all_or(const T &value) {
+    if constexpr (is_cuda_array_v<T>) {
+        ENOKI_MARK_USED(value);
+        return Default;
+    } else {
+        return all(value);
+    }
+}
+
+template <bool Default, typename T> auto all_nested_or(const T &value) {
+    if constexpr (is_cuda_array_v<T>) {
+        ENOKI_MARK_USED(value);
+        return Default;
+    } else {
+        return all_nested(value);
+    }
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+#undef ENOKI_ROUTE_UNARY
+#undef ENOKI_ROUTE_UNARY_IMM
+#undef ENOKI_ROUTE_UNARY_SCALAR
+#undef ENOKI_ROUTE_UNARY_SCALAR_IMM
+#undef ENOKI_ROUTE_BINARY
+#undef ENOKI_ROUTE_BINARY_BITOP
+#undef ENOKI_ROUTE_BINARY_COND
+#undef ENOKI_ROUTE_BINARY_SHIFT
+#undef ENOKI_ROUTE_BINARY_SCALAR
+#undef ENOKI_ROUTE_TERNARY
+#undef ENOKI_ROUTE_COMPOUND_OPERATOR
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_sse42.h b/sources/enoki/array_sse42.h
new file mode 100644
index 00000000..030fdf2a
--- /dev/null
+++ b/sources/enoki/array_sse42.h
@@ -0,0 +1,2410 @@
+/*
+    enoki/array_sse42.h -- Packed SIMD array (SSE4.2 specialization)
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyrighe (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+NAMESPACE_BEGIN(enoki)
+NAMESPACE_BEGIN(detail)
+
+/// Compressed look-up table for the store_compress() operation [256 bytes]
+alignas(16) const uint8_t compress_lut_128[16*16] = {
+    0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80,
+    0x80, 0x80, 0x80, 0x80, 0x00, 0x01, 0x02, 0x03, 0x80, 0x80, 0x80, 0x80,
+    0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x04, 0x05, 0x06, 0x07,
+    0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80,
+    0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x80, 0x80, 0x80, 0x80,
+    0x80, 0x80, 0x80, 0x80, 0x08, 0x09, 0x0a, 0x0b, 0x80, 0x80, 0x80, 0x80,
+    0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x00, 0x01, 0x02, 0x03,
+    0x08, 0x09, 0x0a, 0x0b, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80,
+    0x04, 0x05, 0x06, 0x07, 0x08, 0x09, 0x0a, 0x0b, 0x80, 0x80, 0x80, 0x80,
+    0x80, 0x80, 0x80, 0x80, 0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07,
+    0x08, 0x09, 0x0a, 0x0b, 0x80, 0x80, 0x80, 0x80, 0x0c, 0x0d, 0x0e, 0x0f,
+    0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80,
+    0x00, 0x01, 0x02, 0x03, 0x0c, 0x0d, 0x0e, 0x0f, 0x80, 0x80, 0x80, 0x80,
+    0x80, 0x80, 0x80, 0x80, 0x04, 0x05, 0x06, 0x07, 0x0c, 0x0d, 0x0e, 0x0f,
+    0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x00, 0x01, 0x02, 0x03,
+    0x04, 0x05, 0x06, 0x07, 0x0c, 0x0d, 0x0e, 0x0f, 0x80, 0x80, 0x80, 0x80,
+    0x08, 0x09, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e, 0x0f, 0x80, 0x80, 0x80, 0x80,
+    0x80, 0x80, 0x80, 0x80, 0x00, 0x01, 0x02, 0x03, 0x08, 0x09, 0x0a, 0x0b,
+    0x0c, 0x0d, 0x0e, 0x0f, 0x80, 0x80, 0x80, 0x80, 0x04, 0x05, 0x06, 0x07,
+    0x08, 0x09, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e, 0x0f, 0x80, 0x80, 0x80, 0x80,
+    0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07, 0x08, 0x09, 0x0a, 0x0b,
+    0x0c, 0x0d, 0x0e, 0x0f
+};
+
+template <> struct is_native<float, 4> : std::true_type { } ;
+template <> struct is_native<float, 3> : std::true_type { };
+template <> struct is_native<double, 2> : std::true_type { };
+template <typename Value>    struct is_native<Value, 4, enable_if_int32_t<Value>> : std::true_type { };
+template <typename Value>    struct is_native<Value, 3, enable_if_int32_t<Value>> : std::true_type { };
+template <typename Value>    struct is_native<Value, 2, enable_if_int64_t<Value>> : std::true_type { };
+
+NAMESPACE_END(detail)
+
+/// Partial overload of StaticArrayImpl using SSE4.2 intrinsics (single precision)
+template <bool IsMask_, typename Derived_> struct alignas(16)
+    StaticArrayImpl<float, 4,  IsMask_, Derived_>
+  : StaticArrayBase<float, 4, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(float, 4, __m128)
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(Value value) : m(_mm_set1_ps(value)) { }
+    ENOKI_INLINE StaticArrayImpl(Value v0, Value v1, Value v2, Value v3)
+        : m(_mm_setr_ps(v0, v1, v2, v3)) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_F16C)
+    ENOKI_CONVERT(half) {
+        m = _mm_cvtph_ps(_mm_loadl_epi64((const __m128i *) a.derived().data()));
+    }
+#endif
+
+    ENOKI_CONVERT(float) : m(a.derived().m) { }
+    ENOKI_CONVERT(int32_t) : m(_mm_cvtepi32_ps(a.derived().m)) { }
+
+    ENOKI_CONVERT(uint32_t) {
+        #if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+            m = _mm_cvtepu32_ps(a.derived().m);
+        #else
+            int32_array_t<Derived> ai(a);
+            Derived result =
+                Derived(ai & 0x7fffffff) +
+                (Derived(float(1u << 31)) & mask_t<Derived>(sr<31>(ai)));
+            m = result.m;
+        #endif
+    }
+
+#if defined(ENOKI_X86_AVX)
+    ENOKI_CONVERT(double) : m(_mm256_cvtpd_ps(a.derived().m)) { }
+#else
+    ENOKI_CONVERT(double)
+        : m(_mm_shuffle_ps(_mm_cvtpd_ps(low(a).m), _mm_cvtpd_ps(high(a).m),
+                           _MM_SHUFFLE(1, 0, 1, 0))) { }
+#endif
+
+#if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+    ENOKI_CONVERT(int64_t) : m(_mm256_cvtepi64_ps(a.derived().m)) { }
+    ENOKI_CONVERT(uint64_t) : m(_mm256_cvtepu64_ps(a.derived().m)) { }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+    ENOKI_REINTERPRET(bool) {
+        int ival;
+        memcpy(&ival, a.derived().data(), 4);
+        m = _mm_castsi128_ps(_mm_cvtepi8_epi32(
+            _mm_cmpgt_epi8(_mm_cvtsi32_si128(ival), _mm_setzero_si128())));
+    }
+
+    ENOKI_REINTERPRET(float) : m(a.derived().m) { }
+    ENOKI_REINTERPRET(int32_t) : m(_mm_castsi128_ps(a.derived().m)) { }
+    ENOKI_REINTERPRET(uint32_t) : m(_mm_castsi128_ps(a.derived().m)) { }
+
+#if defined(ENOKI_X86_AVX)
+    ENOKI_REINTERPRET(double)
+        : m(_mm_castsi128_ps(
+              detail::mm256_cvtepi64_epi32(_mm256_castpd_si256(a.derived().m)))) { }
+#else
+    ENOKI_REINTERPRET(double)
+        : m(_mm_castsi128_ps(detail::mm256_cvtepi64_epi32(
+              _mm_castpd_si128(low(a).m), _mm_castpd_si128(high(a).m)))) { }
+#endif
+
+#if defined(ENOKI_X86_AVX2)
+    ENOKI_REINTERPRET(uint64_t)
+        : m(_mm_castsi128_ps(
+              detail::mm256_cvtepi64_epi32(a.derived().m))) { }
+    ENOKI_REINTERPRET(int64_t)
+        : m(_mm_castsi128_ps(
+              detail::mm256_cvtepi64_epi32(a.derived().m))) { }
+#else
+    ENOKI_REINTERPRET(uint64_t)
+        : m(_mm_castsi128_ps(
+              detail::mm256_cvtepi64_epi32(low(a).m, high(a).m))) { }
+    ENOKI_REINTERPRET(int64_t)
+        : m(_mm_castsi128_ps(
+              detail::mm256_cvtepi64_epi32(low(a).m, high(a).m))) { }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m(_mm_setr_ps(a1.coeff(0), a1.coeff(1), a2.coeff(0), a2.coeff(1))) { }
+
+    ENOKI_INLINE Array1 low_()  const { return Array1(coeff(0), coeff(1)); }
+    ENOKI_INLINE Array2 high_() const { return Array2(coeff(2), coeff(3)); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const    { return _mm_add_ps(m, a.m); }
+    ENOKI_INLINE Derived sub_(Ref a) const    { return _mm_sub_ps(m, a.m); }
+    ENOKI_INLINE Derived mul_(Ref a) const    { return _mm_mul_ps(m, a.m); }
+    ENOKI_INLINE Derived div_(Ref a) const    { return _mm_div_ps(m, a.m); }
+
+    template <typename T> ENOKI_INLINE Derived or_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_mask_mov_ps(m, a.k, _mm_set1_ps(memcpy_cast<Value>(int32_t(-1))));
+            else
+        #endif
+        return _mm_or_ps(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_maskz_mov_ps(a.k, m);
+            else
+        #endif
+        return _mm_and_ps(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_mask_xor_ps(m, a.k, m, _mm_set1_ps(memcpy_cast<Value>(int32_t(-1))));
+            else
+        #endif
+        return _mm_xor_ps(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_mask_mov_ps(m, a.k, _mm_setzero_ps());
+            else
+        #endif
+        return _mm_andnot_ps(a.m, m);
+    }
+
+    #if defined(ENOKI_X86_AVX512VL)
+        #define ENOKI_COMP(name, NAME) mask_t<Derived>::from_k(_mm_cmp_ps_mask(m, a.m, _CMP_##NAME))
+    #elif defined(ENOKI_X86_AVX)
+        #define ENOKI_COMP(name, NAME) mask_t<Derived>(_mm_cmp_ps(m, a.m, _CMP_##NAME))
+    #else
+        #define ENOKI_COMP(name, NAME) mask_t<Derived>(_mm_cmp##name##_ps(m, a.m))
+    #endif
+
+    ENOKI_INLINE auto lt_ (Ref a) const { return ENOKI_COMP(lt,  LT_OQ);  }
+    ENOKI_INLINE auto gt_ (Ref a) const { return ENOKI_COMP(gt,  GT_OQ);  }
+    ENOKI_INLINE auto le_ (Ref a) const { return ENOKI_COMP(le,  LE_OQ);  }
+    ENOKI_INLINE auto ge_ (Ref a) const { return ENOKI_COMP(ge,  GE_OQ);  }
+    ENOKI_INLINE auto eq_ (Ref a) const {
+        using Int = int_array_t<Derived>;
+        if constexpr (IsMask_)
+            return mask_t<Derived>(eq(Int(derived()), Int(a)));
+        else
+            return ENOKI_COMP(eq, EQ_OQ);
+    }
+
+    ENOKI_INLINE auto neq_(Ref a) const {
+        using Int = int_array_t<Derived>;
+        if constexpr (IsMask_)
+            return mask_t<Derived>(neq(Int(derived()), Int(a)));
+        else
+            return ENOKI_COMP(neq, NEQ_UQ);
+    }
+
+    #undef ENOKI_COMP
+
+    ENOKI_INLINE Derived abs_()      const { return _mm_andnot_ps(_mm_set1_ps(-0.f), m); }
+    ENOKI_INLINE Derived min_(Ref b) const { return _mm_min_ps(b.m, m); }
+    ENOKI_INLINE Derived max_(Ref b) const { return _mm_max_ps(b.m, m); }
+    ENOKI_INLINE Derived ceil_()     const { return _mm_ceil_ps(m);     }
+    ENOKI_INLINE Derived floor_()    const { return _mm_floor_ps(m);    }
+    ENOKI_INLINE Derived sqrt_()     const { return _mm_sqrt_ps(m);     }
+
+    ENOKI_INLINE Derived round_() const {
+        return _mm_round_ps(m, _MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC);
+    }
+
+    ENOKI_INLINE Derived trunc_() const {
+        return _mm_round_ps(m, _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived select_(const Mask &m, Ref t, Ref f) {
+        #if !defined(ENOKI_X86_AVX512VL)
+            return _mm_blendv_ps(f.m, t.m, m.m);
+        #else
+            return _mm_mask_blend_ps(m.k, f.m, t.m);
+        #endif
+    }
+
+#if defined(ENOKI_X86_FMA)
+    ENOKI_INLINE Derived fmadd_   (Ref b, Ref c) const { return _mm_fmadd_ps   (m, b.m, c.m); }
+    ENOKI_INLINE Derived fmsub_   (Ref b, Ref c) const { return _mm_fmsub_ps   (m, b.m, c.m); }
+    ENOKI_INLINE Derived fnmadd_  (Ref b, Ref c) const { return _mm_fnmadd_ps  (m, b.m, c.m); }
+    ENOKI_INLINE Derived fnmsub_  (Ref b, Ref c) const { return _mm_fnmsub_ps  (m, b.m, c.m); }
+    ENOKI_INLINE Derived fmsubadd_(Ref b, Ref c) const { return _mm_fmsubadd_ps(m, b.m, c.m); }
+    ENOKI_INLINE Derived fmaddsub_(Ref b, Ref c) const { return _mm_fmaddsub_ps(m, b.m, c.m); }
+#endif
+
+    template <int I0, int I1, int I2, int I3>
+    ENOKI_INLINE Derived shuffle_() const {
+        #if defined(ENOKI_X86_AVX)
+            return _mm_permute_ps(m, _MM_SHUFFLE(I3, I2, I1, I0));
+        #else
+            return _mm_shuffle_ps(m, m, _MM_SHUFFLE(I3, I2, I1, I0));
+        #endif
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        #if defined(ENOKI_X86_AVX)
+            return _mm_permutevar_ps(m, index.m);
+        #else
+            return Base::shuffle_(index);
+        #endif
+    }
+
+#if defined(ENOKI_X86_AVX512VL)
+    ENOKI_INLINE Derived ldexp_(Ref arg) const { return _mm_scalef_ps(m, arg.m); }
+
+    ENOKI_INLINE std::pair<Derived, Derived> frexp_() const {
+        return std::make_pair<Derived, Derived>(
+            _mm_getmant_ps(m, _MM_MANT_NORM_p5_1, _MM_MANT_SIGN_src),
+            _mm_getexp_ps(m));
+    }
+#endif
+
+    ENOKI_INLINE Derived rcp_() const {
+        #if defined(ENOKI_X86_AVX512ER)
+            /* rel err < 2^28, use as is (even in non-approximate mode) */
+            return _mm512_castps512_ps128(
+                _mm512_rcp28_ps(_mm512_castps128_ps512(m)));
+        #else
+            /* Use best reciprocal approximation available on the current
+               hardware and refine */
+            __m128 r;
+            #if defined(ENOKI_X86_AVX512VL)
+                r = _mm_rcp14_ps(m); /* rel error < 2^-14 */
+            #else
+                r = _mm_rcp_ps(m);   /* rel error < 1.5*2^-12 */
+            #endif
+
+            /* Refine using one Newton-Raphson iteration */
+            __m128 t0 = _mm_add_ps(r, r),
+                   t1 = _mm_mul_ps(r, m),
+                   ro = r;
+            (void) ro;
+
+            #if defined(ENOKI_X86_FMA)
+                r = _mm_fnmadd_ps(t1, r, t0);
+            #else
+                r = _mm_sub_ps(t0, _mm_mul_ps(r, t1));
+            #endif
+
+            #if defined(ENOKI_X86_AVX512VL)
+                return _mm_fixupimm_ps(r, m, _mm_set1_epi32(0x0087A622), 0);
+            #else
+                return _mm_blendv_ps(r, ro, t1); /* mask bit is '1' iff t1 == nan */
+            #endif
+        #endif
+    }
+
+    ENOKI_INLINE Derived rsqrt_() const {
+        #if defined(ENOKI_X86_AVX512ER)
+            /* rel err < 2^28, use as is (even in non-approximate mode) */
+            return _mm512_castps512_ps128(
+                _mm512_rsqrt28_ps(_mm512_castps128_ps512(m)));
+        #else
+            /* Use best reciprocal square root approximation available
+               on the current hardware and refine */
+            __m128 r;
+            #if defined(ENOKI_X86_AVX512VL)
+                r = _mm_rsqrt14_ps(m); /* rel error < 2^-14 */
+            #else
+                r = _mm_rsqrt_ps(m);   /* rel error < 1.5*2^-12 */
+            #endif
+
+            /* Refine using one Newton-Raphson iteration */
+            const __m128 c0 = _mm_set1_ps(.5f),
+                         c1 = _mm_set1_ps(3.f);
+
+            __m128 t0 = _mm_mul_ps(r, c0),
+                   t1 = _mm_mul_ps(r, m),
+                   ro = r;
+            (void) ro;
+
+            #if defined(ENOKI_X86_FMA)
+                r = _mm_mul_ps(_mm_fnmadd_ps(t1, r, c1), t0);
+            #else
+                r = _mm_mul_ps(_mm_sub_ps(c1, _mm_mul_ps(t1, r)), t0);
+            #endif
+
+            #if defined(ENOKI_X86_AVX512VL)
+                return _mm_fixupimm_ps(r, m, _mm_set1_epi32(0x0383A622), 0);
+            #else
+                return _mm_blendv_ps(r, ro, t1); /* mask bit is '1' iff t1 == nan */
+            #endif
+        #endif
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    #define ENOKI_HORIZONTAL_OP(name, op)                                    \
+        ENOKI_INLINE Value name##_() const {                                 \
+            __m128 t1 = _mm_movehdup_ps(m);                                  \
+            __m128 t2 = _mm_##op##_ps(m, t1);                                \
+            t1 = _mm_movehl_ps(t1, t2);                                      \
+            t2 = _mm_##op##_ss(t2, t1);                                      \
+            return _mm_cvtss_f32(t2);                                        \
+        }
+
+    ENOKI_HORIZONTAL_OP(hsum, add)
+    ENOKI_HORIZONTAL_OP(hprod, mul)
+    ENOKI_HORIZONTAL_OP(hmin, min)
+    ENOKI_HORIZONTAL_OP(hmax, max)
+
+    #undef ENOKI_HORIZONTAL_OP
+
+    ENOKI_INLINE bool all_()  const { return _mm_movemask_ps(m) == 0xF;}
+    ENOKI_INLINE bool any_()  const { return _mm_movemask_ps(m) != 0x0; }
+
+    ENOKI_INLINE uint32_t bitmask_() const { return (uint32_t) _mm_movemask_ps(m); }
+    ENOKI_INLINE size_t count_() const { return (size_t) _mm_popcnt_u32(bitmask_()); }
+
+    ENOKI_INLINE Value dot_(Ref a) const {
+        return _mm_cvtss_f32(_mm_dp_ps(m, a.m, 0b11110001));
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Masked versions of key operations
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <typename Mask>
+    ENOKI_INLINE void massign_(const Derived &a, const Mask &mask) { m = _mm_mask_mov_ps(m, mask.k, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void madd_   (const Derived &a, const Mask &mask) { m = _mm_mask_add_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void msub_   (const Derived &a, const Mask &mask) { m = _mm_mask_sub_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mmul_   (const Derived &a, const Mask &mask) { m = _mm_mask_mul_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mdiv_   (const Derived &a, const Mask &mask) { m = _mm_mask_div_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mor_    (const Derived &a, const Mask &mask) { m = _mm_mask_or_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mand_   (const Derived &a, const Mask &mask) { m = _mm_mask_and_ps(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mxor_   (const Derived &a, const Mask &mask) { m = _mm_mask_xor_ps(m, mask.k, m, a.m); }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Initialization, loading/writing data
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE void store_(void *ptr) const {
+      assert((uintptr_t) ptr % 16 == 0);
+        _mm_store_ps((Value *) ENOKI_ASSUME_ALIGNED(ptr, 16), m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm_mask_store_ps((Value *) ptr, mask.k, m);
+        #elif defined(ENOKI_X86_AVX)
+            _mm_maskstore_ps((Value *) ptr, _mm_castps_si128(mask.m), m);
+        #else
+            Base::store_(ptr, mask);
+        #endif
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        _mm_storeu_ps((Value *) ptr, m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm_mask_storeu_ps((Value *) ptr, mask.k, m);
+        #elif defined(ENOKI_X86_AVX)
+            _mm_maskstore_ps((Value *) ptr, _mm_castps_si128(mask.m), m);
+        #else
+            Base::store_unaligned_(ptr, mask);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+      assert((uintptr_t) ptr % 16 == 0);
+        return _mm_load_ps((const Value *) ENOKI_ASSUME_ALIGNED(ptr, 16));
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm_maskz_load_ps(mask.k, ptr);
+        #elif defined(ENOKI_X86_AVX)
+            return _mm_maskload_ps((const Value *) ptr, _mm_castps_si128(mask.m));
+        #else
+            return Base::load_(ptr, mask);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return _mm_loadu_ps((const Value *) ptr);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm_maskz_loadu_ps(mask.k, ptr);
+        #elif defined(ENOKI_X86_AVX)
+            return _mm_maskload_ps((const Value *) ptr, _mm_castps_si128(mask.m));
+        #else
+            return Base::load_unaligned_(ptr, mask);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived zero_() { return _mm_setzero_ps(); }
+
+#if defined(ENOKI_X86_AVX2)
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (sizeof(scalar_t<Index>) == 4)
+                return _mm_mmask_i32gather_ps(_mm_setzero_ps(), mask.k, index.m, (const float *) ptr, Stride);
+            else
+                return _mm256_mmask_i64gather_ps(_mm_setzero_ps(), mask.k, index.m, (const float *) ptr, Stride);
+        #else
+            if constexpr (sizeof(scalar_t<Index>) == 4)
+                return _mm_mask_i32gather_ps(_mm_setzero_ps(), (const float *) ptr, index.m, mask.m, Stride);
+            else
+                return _mm256_mask_i64gather_ps(_mm_setzero_ps(), (const float *) ptr, index.m, mask.m, Stride);
+        #endif
+    }
+#endif
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        if constexpr (sizeof(scalar_t<Index>) == 4)
+            _mm_mask_i32scatter_ps(ptr, mask.k, index.m, m, Stride);
+        else
+            _mm256_mask_i64scatter_ps(ptr, mask.k, index.m, m, Stride);
+    }
+#endif
+
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        #if !defined(ENOKI_X86_AVX512VL)
+            unsigned int k = (unsigned int) _mm_movemask_ps(mask.m);
+            return coeff((size_t) (detail::tzcnt_scalar(k) & 3));
+        #else
+            return _mm_cvtss_f32(_mm_mask_compress_ps(_mm_setzero_ps(), mask.k, m));
+        #endif
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(float *&ptr, const Mask &mask) const {
+        #if !defined(ENOKI_X86_AVX512VL)
+            unsigned int k = (unsigned int) _mm_movemask_ps(mask.m);
+
+            /** Fancy LUT-based partitioning algorithm, see
+                https://deplinenoise.files.wordpress.com/2015/03/gdc2015_afredriksson_simd.pdf */
+
+            __m128i shuf = _mm_load_si128(((const __m128i *) detail::compress_lut_128) + k),
+                    perm = _mm_shuffle_epi8(_mm_castps_si128(m), shuf);
+
+            _mm_storeu_si128((__m128i *) ptr, perm);
+        #else
+             unsigned int k = (unsigned int) mask.k;
+            _mm_storeu_ps(ptr, _mm_mask_compress_ps(_mm_setzero_ps(), mask.k, m));
+        #endif
+
+        size_t kn = (size_t) _mm_popcnt_u32(k);
+        ptr += kn;
+        return kn;
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+/// Partial overload of StaticArrayImpl using SSE4.2 intrinsics (double precision)
+template <bool IsMask_, typename Derived_> struct alignas(16)
+    StaticArrayImpl<double, 2, IsMask_, Derived_>
+  : StaticArrayBase<double, 2, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(double, 2, __m128d)
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(Value value) : m(_mm_set1_pd(value)) { }
+    ENOKI_INLINE StaticArrayImpl(Value v0, Value v1)
+        : m(_mm_setr_pd(v0, v1)) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+    /* No vectorized conversions from float/[u]int32_t (too small) */
+
+    ENOKI_CONVERT(double) : m(a.derived().m) { }
+
+#if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+    ENOKI_CONVERT(int64_t) : m(_mm_cvtepi64_pd(a.derived().m)) { }
+    ENOKI_CONVERT(uint64_t) : m(_mm_cvtepu64_pd(a.derived().m)) { }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+    ENOKI_REINTERPRET(bool) {
+        int16_t ival;
+        memcpy(&ival, a.derived().data(), 2);
+        m = _mm_castsi128_pd(_mm_cvtepi8_epi64(_mm_cmpgt_epi8(
+            _mm_cvtsi32_si128((int) ival), _mm_setzero_si128())));
+    }
+
+    ENOKI_REINTERPRET(float) {
+        ENOKI_TRACK_SCALAR("Constructor (reinterpreting, float32[2] -> double[2])");
+        auto v0 = a.derived().coeff(0), v1 = a.derived().coeff(1);
+        m = _mm_castps_pd(_mm_setr_ps(v0, v0, v1, v1));
+    }
+
+    ENOKI_REINTERPRET(int32_t) {
+        ENOKI_TRACK_SCALAR("Constructor (reinterpreting, int32[2] -> double[2])");
+        auto v0 = a.derived().coeff(0), v1 = a.derived().coeff(1);
+        m = _mm_castsi128_pd(_mm_setr_epi32(v0, v0, v1, v1));
+    }
+
+    ENOKI_REINTERPRET(uint32_t) {
+        ENOKI_TRACK_SCALAR("Constructor (reinterpreting, uint32[2] -> double[2])");
+        auto v0 = a.derived().coeff(0), v1 = a.derived().coeff(1);
+        m = _mm_castsi128_pd(_mm_setr_epi32((int32_t) v0, (int32_t) v0,
+                                            (int32_t) v1, (int32_t) v1));
+    }
+
+    ENOKI_REINTERPRET(double) : m(a.derived().m) { }
+    ENOKI_REINTERPRET(int64_t) : m(_mm_castsi128_pd(a.derived().m)) { }
+    ENOKI_REINTERPRET(uint64_t) : m(_mm_castsi128_pd(a.derived().m)) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m(_mm_setr_pd(a1.coeff(0), a2.coeff(0))) { }
+
+    ENOKI_INLINE Array1 low_()  const { return Array1(coeff(0)); }
+    ENOKI_INLINE Array2 high_() const { return Array2(coeff(1)); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return _mm_add_pd(m, a.m); }
+    ENOKI_INLINE Derived sub_(Ref a) const { return _mm_sub_pd(m, a.m); }
+    ENOKI_INLINE Derived mul_(Ref a) const { return _mm_mul_pd(m, a.m); }
+    ENOKI_INLINE Derived div_(Ref a) const { return _mm_div_pd(m, a.m); }
+
+    template <typename T> ENOKI_INLINE Derived or_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_mask_mov_pd(m, a.k, _mm_set1_pd(memcpy_cast<Value>(int64_t(-1))));
+            else
+        #endif
+        return _mm_or_pd(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_maskz_mov_pd(a.k, m);
+            else
+        #endif
+        return _mm_and_pd(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_mask_xor_pd(m, a.k, m, _mm_set1_pd(memcpy_cast<Value>(int64_t(-1))));
+            else
+        #endif
+        return _mm_xor_pd(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_mask_mov_pd(m, a.k, _mm_setzero_pd());
+            else
+        #endif
+        return _mm_andnot_pd(a.m, m);
+    }
+
+    #if defined(ENOKI_X86_AVX512VL)
+        #define ENOKI_COMP(name, NAME) mask_t<Derived>::from_k(_mm_cmp_pd_mask(m, a.m, _CMP_##NAME))
+    #elif defined(ENOKI_X86_AVX)
+        #define ENOKI_COMP(name, NAME) mask_t<Derived>(_mm_cmp_pd(m, a.m, _CMP_##NAME))
+    #else
+        #define ENOKI_COMP(name, NAME) mask_t<Derived>(_mm_cmp##name##_pd(m, a.m))
+    #endif
+
+    ENOKI_INLINE auto lt_ (Ref a) const { return ENOKI_COMP(lt,  LT_OQ);  }
+    ENOKI_INLINE auto gt_ (Ref a) const { return ENOKI_COMP(gt,  GT_OQ);  }
+    ENOKI_INLINE auto le_ (Ref a) const { return ENOKI_COMP(le,  LE_OQ);  }
+    ENOKI_INLINE auto ge_ (Ref a) const { return ENOKI_COMP(ge,  GE_OQ);  }
+
+    ENOKI_INLINE auto eq_ (Ref a) const {
+        using Int = int_array_t<Derived>;
+        if constexpr (IsMask_)
+            return mask_t<Derived>(eq(Int(derived()), Int(a)));
+        else
+            return ENOKI_COMP(eq, EQ_OQ);
+    }
+
+    ENOKI_INLINE auto neq_(Ref a) const {
+        using Int = int_array_t<Derived>;
+        if constexpr (IsMask_)
+            return mask_t<Derived>(neq(Int(derived()), Int(a)));
+        else
+            return ENOKI_COMP(neq, NEQ_UQ);
+    }
+
+    #undef ENOKI_COMP
+
+    ENOKI_INLINE Derived abs_()      const { return _mm_andnot_pd(_mm_set1_pd(-0.), m); }
+    ENOKI_INLINE Derived min_(Ref b) const { return _mm_min_pd(b.m, m); }
+    ENOKI_INLINE Derived max_(Ref b) const { return _mm_max_pd(b.m, m); }
+    ENOKI_INLINE Derived ceil_()     const { return _mm_ceil_pd(m);     }
+    ENOKI_INLINE Derived floor_()    const { return _mm_floor_pd(m);    }
+    ENOKI_INLINE Derived sqrt_()     const { return _mm_sqrt_pd(m);     }
+
+    ENOKI_INLINE Derived round_() const {
+        return _mm_round_pd(m, _MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC);
+    }
+
+    ENOKI_INLINE Derived trunc_() const {
+        return _mm_round_pd(m, _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived select_(const Mask &m, Ref t, Ref f) {
+        #if !defined(ENOKI_X86_AVX512VL)
+            return _mm_blendv_pd(f.m, t.m, m.m);
+        #else
+            return _mm_mask_blend_pd(m.k, f.m, t.m);
+        #endif
+    }
+
+#if defined(ENOKI_X86_FMA)
+    ENOKI_INLINE Derived fmadd_   (Ref b, Ref c) const { return _mm_fmadd_pd   (m, b.m, c.m); }
+    ENOKI_INLINE Derived fmsub_   (Ref b, Ref c) const { return _mm_fmsub_pd   (m, b.m, c.m); }
+    ENOKI_INLINE Derived fnmadd_  (Ref b, Ref c) const { return _mm_fnmadd_pd  (m, b.m, c.m); }
+    ENOKI_INLINE Derived fnmsub_  (Ref b, Ref c) const { return _mm_fnmsub_pd  (m, b.m, c.m); }
+    ENOKI_INLINE Derived fmsubadd_(Ref b, Ref c) const { return _mm_fmsubadd_pd(m, b.m, c.m); }
+    ENOKI_INLINE Derived fmaddsub_(Ref b, Ref c) const { return _mm_fmaddsub_pd(m, b.m, c.m); }
+#endif
+
+    #if defined(ENOKI_X86_AVX)
+        #define ENOKI_SHUFFLE_PD(m, flags) _mm_permute_pd(m, flags)
+    #else
+        #define ENOKI_SHUFFLE_PD(m, flags) _mm_shuffle_pd(m, m, flags)
+    #endif
+
+    template <int I0, int I1>
+    ENOKI_INLINE Derived shuffle_() const {
+        return ENOKI_SHUFFLE_PD(m, (I1 << 1) | I0);
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        #if defined(ENOKI_X86_AVX)
+            return _mm_permutevar_pd(m, _mm_slli_epi64(index.m, 1));
+        #else
+            return Base::shuffle_(index);
+        #endif
+    }
+
+#if defined(ENOKI_X86_AVX512VL)
+    ENOKI_INLINE Derived ldexp_(Ref arg) const { return _mm_scalef_pd(m, arg.m); }
+
+    ENOKI_INLINE std::pair<Derived, Derived> frexp_() const {
+        return std::make_pair<Derived, Derived>(
+            _mm_getmant_pd(m, _MM_MANT_NORM_p5_1, _MM_MANT_SIGN_src),
+            _mm_getexp_pd(m));
+    }
+#endif
+
+#if defined(ENOKI_X86_AVX512VL) || defined(ENOKI_X86_AVX512ER)
+    ENOKI_INLINE Derived rcp_() const {
+        /* Use best reciprocal approximation available on the current
+           hardware and refine */
+        __m128d r;
+        #if defined(ENOKI_X86_AVX512ER)
+            /* rel err < 2^28 */
+            r = _mm512_castpd512_pd128(
+                _mm512_rcp28_pd(_mm512_castpd128_pd512(m)));
+        #elif defined(ENOKI_X86_AVX512VL)
+            r = _mm_rcp14_pd(m); /* rel error < 2^-14 */
+        #endif
+
+        __m128d ro = r, t0, t1;
+        (void) ro;
+
+        /* Refine using 1-2 Newton-Raphson iterations */
+        ENOKI_UNROLL for (int i = 0; i < (has_avx512er ? 1 : 2); ++i) {
+            t0 = _mm_add_pd(r, r);
+            t1 = _mm_mul_pd(r, m);
+            r = _mm_fnmadd_pd(t1, r, t0);
+        }
+
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm_fixupimm_pd(r, m, _mm_set1_epi32(0x0087A622), 0);
+        #else
+            return _mm_blendv_pd(r, ro, t1); /* mask bit is '1' iff t1 == nan */
+        #endif
+    }
+
+    ENOKI_INLINE Derived rsqrt_() const {
+        /* Use best reciprocal square root approximation available
+           on the current hardware and refine */
+        __m128d r;
+        #if defined(ENOKI_X86_AVX512ER)
+            /* rel err < 2^28 */
+            r = _mm512_castpd512_pd128(
+                _mm512_rsqrt28_pd(_mm512_castpd128_pd512(m)));
+        #elif defined(ENOKI_X86_AVX512VL)
+            r = _mm_rsqrt14_pd(m); /* rel error < 2^-14 */
+        #endif
+
+        const __m128d c0 = _mm_set1_pd(0.5),
+                      c1 = _mm_set1_pd(3.0);
+
+        __m128d ro = r, t0, t1;
+        (void) ro;
+
+        /* Refine using 1-2 Newton-Raphson iterations */
+        ENOKI_UNROLL for (int i = 0; i < (has_avx512er ? 1 : 2); ++i) {
+            t0 = _mm_mul_pd(r, c0);
+            t1 = _mm_mul_pd(r, m);
+            r = _mm_mul_pd(_mm_fnmadd_pd(t1, r, c1), t0);
+        }
+
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm_fixupimm_pd(r, m, _mm_set1_epi32(0x0383A622), 0);
+        #else
+            return _mm_blendv_pd(r, ro, t1); /* mask bit is '1' iff t1 == nan */
+        #endif
+    }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    #define ENOKI_HORIZONTAL_OP(name, op) \
+        ENOKI_INLINE Value name##_() const { \
+            __m128d t0 = ENOKI_SHUFFLE_PD(m, 1); \
+            __m128d t1 = _mm_##op##_sd(t0, m); \
+            return  _mm_cvtsd_f64(t1); \
+        }
+
+    ENOKI_HORIZONTAL_OP(hsum, add)
+    ENOKI_HORIZONTAL_OP(hprod, mul)
+    ENOKI_HORIZONTAL_OP(hmin, min)
+    ENOKI_HORIZONTAL_OP(hmax, max)
+
+    #undef ENOKI_HORIZONTAL_OP
+    #undef ENOKI_SHUFFLE_PD
+
+    ENOKI_INLINE bool all_()  const { return _mm_movemask_pd(m) == 0x3;}
+    ENOKI_INLINE bool any_()  const { return _mm_movemask_pd(m) != 0x0; }
+
+    ENOKI_INLINE uint32_t bitmask_() const { return (uint32_t) _mm_movemask_pd(m); }
+    ENOKI_INLINE size_t count_() const { return (size_t) _mm_popcnt_u32(bitmask_()); }
+
+    ENOKI_INLINE Value dot_(Ref a) const {
+        return _mm_cvtsd_f64(_mm_dp_pd(m, a.m, 0b00110001));
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Masked versions of key operations
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <typename Mask>
+    ENOKI_INLINE void massign_(const Derived &a, const Mask &mask) { m = _mm_mask_mov_pd(m, mask.k, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void madd_   (const Derived &a, const Mask &mask) { m = _mm_mask_add_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void msub_   (const Derived &a, const Mask &mask) { m = _mm_mask_sub_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mmul_   (const Derived &a, const Mask &mask) { m = _mm_mask_mul_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mdiv_   (const Derived &a, const Mask &mask) { m = _mm_mask_div_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mor_    (const Derived &a, const Mask &mask) { m = _mm_mask_or_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mand_   (const Derived &a, const Mask &mask) { m = _mm_mask_and_pd(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mxor_   (const Derived &a, const Mask &mask) { m = _mm_mask_xor_pd(m, mask.k, m, a.m); }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Initialization, loading/writing data
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        assert((uintptr_t) ptr % 16 == 0);
+        _mm_store_pd((Value *) ENOKI_ASSUME_ALIGNED(ptr, 16), m);
+    }
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm_mask_store_pd((Value *) ptr, mask.k, m);
+        #elif defined(ENOKI_X86_AVX)
+            _mm_maskstore_pd((Value *) ptr, _mm_castpd_si128(mask.m), m);
+        #else
+            Base::store_(ptr, mask);
+        #endif
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        _mm_storeu_pd((Value *) ptr, m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm_mask_storeu_pd((Value *) ptr, mask.k, m);
+        #elif defined(ENOKI_X86_AVX)
+            _mm_maskstore_pd((Value *) ptr, _mm_castpd_si128(mask.m), m);
+        #else
+            Base::store_unaligned_(ptr, mask);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        assert((uintptr_t) ptr % 16 == 0);
+        return _mm_load_pd((const Value *) ENOKI_ASSUME_ALIGNED(ptr, 16));
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm_maskz_load_pd(mask.k, ptr);
+        #elif defined(ENOKI_X86_AVX)
+            return _mm_maskload_pd((const Value *) ptr, _mm_castpd_si128(mask.m));
+        #else
+            return Base::load_(ptr, mask);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return _mm_loadu_pd((const Value *) ptr);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm_maskz_loadu_pd(mask.k, ptr);
+        #elif defined(ENOKI_X86_AVX)
+            return _mm_maskload_pd((const Value *) ptr, _mm_castpd_si128(mask.m));
+        #else
+            return Base::load_unaligned_(ptr, mask);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived zero_() { return _mm_setzero_pd(); }
+
+#if defined(ENOKI_X86_AVX2)
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        if constexpr (sizeof(scalar_t<Index>) == 4) {
+            return Base::template gather_<Stride>(ptr, index, mask);
+        } else {
+            #if defined(ENOKI_X86_AVX512VL)
+                return _mm_mmask_i64gather_pd(_mm_setzero_pd(), mask.k, index.m, (const double *) ptr, Stride);
+            #else
+                return _mm_mask_i64gather_pd(_mm_setzero_pd(), (const double *) ptr, index.m, mask.m, Stride);
+            #endif
+        }
+    }
+#endif
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        if constexpr (sizeof(scalar_t<Index>) == 4)
+            Base::template scatter_<Stride>(ptr, index, mask);
+        else
+            _mm_mask_i64scatter_pd(ptr, mask.k, index.m, m, Stride);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        return _mm_cvtsd_f64(_mm_mask_compress_pd(_mm_setzero_pd(), mask.k, m));
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(double *&ptr, const Mask &mask) const {
+        _mm_storeu_pd(ptr, _mm_mask_compress_pd(_mm_setzero_pd(), mask.k, m));
+        size_t kn = (size_t) _mm_popcnt_u32(mask.k);
+        ptr += kn;
+        return kn;
+    }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+/// Partial overload of StaticArrayImpl using SSE4.2 intrinsics (32 bit integers)
+template <typename Value_, bool IsMask_, typename Derived_> struct alignas(16)
+    StaticArrayImpl<Value_, 4, IsMask_, Derived_, enable_if_int32_t<Value_>>
+  : StaticArrayBase<Value_, 4, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(Value_, 4, __m128i)
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(Value value) : m(_mm_set1_epi32((int32_t) value)) { }
+    ENOKI_INLINE StaticArrayImpl(Value v0, Value v1, Value v2, Value v3)
+        : m(_mm_setr_epi32((int32_t) v0, (int32_t) v1, (int32_t) v2, (int32_t) v3)) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_CONVERT(float) {
+        if constexpr (std::is_signed_v<Value>) {
+            m = _mm_cvttps_epi32(a.derived().m);
+        } else {
+#if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+            m = _mm_cvttps_epu32(a.derived().m);
+#else
+            constexpr uint32_t limit = 1u << 31;
+            const __m128  limit_f = _mm_set1_ps((float) limit);
+            const __m128i limit_i = _mm_set1_epi32((int) limit);
+
+            __m128 v = a.derived().m;
+
+            __m128i mask =
+                _mm_castps_si128(_mm_cmpge_ps(v, limit_f));
+
+            __m128i b2 = _mm_add_epi32(
+                _mm_cvttps_epi32(_mm_sub_ps(v, limit_f)), limit_i);
+
+            __m128i b1 = _mm_cvttps_epi32(v);
+
+            m = _mm_blendv_epi8(b1, b2, mask);
+#endif
+        }
+    }
+
+    ENOKI_CONVERT(int32_t) : m(a.derived().m) { }
+    ENOKI_CONVERT(uint32_t) : m(a.derived().m) { }
+
+#if defined(ENOKI_X86_AVX)
+    ENOKI_CONVERT(double) {
+        if constexpr (std::is_signed_v<Value>) {
+            m = _mm256_cvttpd_epi32(a.derived().m);
+        } else {
+#if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+            m = _mm256_cvttpd_epu32(a.derived().m);
+#else
+            ENOKI_TRACK_SCALAR("Constructor (converting, double[4] -> uint32[4])");
+            for (size_t i = 0; i < Size; ++i)
+                coeff(i) = Value(a.derived().coeff(i));
+#endif
+        }
+    }
+#endif
+
+#if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+    ENOKI_CONVERT(int64_t) { m = _mm256_cvtepi64_epi32(a.derived().m); }
+    ENOKI_CONVERT(uint64_t) { m = _mm256_cvtepi64_epi32(a.derived().m); }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+    ENOKI_REINTERPRET(bool) {
+        int ival;
+        memcpy(&ival, a.derived().data(), 4);
+        m = _mm_cvtepi8_epi32(
+            _mm_cmpgt_epi8(_mm_cvtsi32_si128(ival), _mm_setzero_si128()));
+    }
+
+    ENOKI_REINTERPRET(float) : m(_mm_castps_si128(a.derived().m)) { }
+    ENOKI_REINTERPRET(int32_t) : m(a.derived().m) { }
+    ENOKI_REINTERPRET(uint32_t) : m(a.derived().m) { }
+
+#if defined(ENOKI_X86_AVX)
+    ENOKI_REINTERPRET(double)
+        : m(detail::mm256_cvtepi64_epi32(_mm256_castpd_si256(a.derived().m))) { }
+#else
+    ENOKI_REINTERPRET(double)
+        : m(detail::mm256_cvtepi64_epi32(_mm_castpd_si128(low(a).m),
+                                         _mm_castpd_si128(high(a).m))) { }
+#endif
+
+#if defined(ENOKI_X86_AVX2)
+    ENOKI_REINTERPRET(uint64_t)
+        : m(detail::mm256_cvtepi64_epi32(a.derived().m)) { }
+    ENOKI_REINTERPRET(int64_t)
+        : m(detail::mm256_cvtepi64_epi32(a.derived().m)) {}
+#else
+    ENOKI_REINTERPRET(uint64_t)
+        : m(detail::mm256_cvtepi64_epi32(low(a).m, high(a).m)) { }
+    ENOKI_REINTERPRET(int64_t)
+        : m(detail::mm256_cvtepi64_epi32(low(a).m, high(a).m)) { }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2)
+        : m(_mm_setr_epi32((int32_t) a1.coeff(0), (int32_t) a1.coeff(1),
+                           (int32_t) a2.coeff(0), (int32_t) a2.coeff(1))) { }
+
+    ENOKI_INLINE Array1 low_()  const { return Array1(coeff(0), coeff(1)); }
+    ENOKI_INLINE Array2 high_() const { return Array2(coeff(2), coeff(3)); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return _mm_add_epi32(m, a.m);   }
+    ENOKI_INLINE Derived sub_(Ref a) const { return _mm_sub_epi32(m, a.m);   }
+    ENOKI_INLINE Derived mul_(Ref a) const { return _mm_mullo_epi32(m, a.m); }
+
+    template <typename T> ENOKI_INLINE Derived or_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_mask_mov_epi32(m, a.k, _mm_set1_epi32(-1));
+            else
+        #endif
+        return _mm_or_si128(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_maskz_mov_epi32(a.k, m);
+            else
+        #endif
+        return _mm_and_si128(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_mask_xor_epi32(m, a.k, m, _mm_set1_epi32(-1));
+            else
+        #endif
+        return _mm_xor_si128(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_mask_mov_epi32(m, a.k, _mm_setzero_si128());
+            else
+        #endif
+        return _mm_andnot_si128(a.m, m);
+    }
+
+    template <size_t Imm> ENOKI_INLINE Derived sl_() const {
+        return _mm_slli_epi32(m, (int) Imm);
+    }
+
+    template <size_t Imm> ENOKI_INLINE Derived sr_() const {
+        return std::is_signed_v<Value> ? _mm_srai_epi32(m, (int) Imm)
+                                       : _mm_srli_epi32(m, (int) Imm);
+    }
+
+    ENOKI_INLINE Derived sl_(size_t k) const {
+        return _mm_sll_epi32(m, _mm_set1_epi64x((long long) k));
+    }
+
+    ENOKI_INLINE Derived sr_(size_t k) const {
+        return std::is_signed_v<Value>
+                   ? _mm_sra_epi32(m, _mm_set1_epi64x((long long) k))
+                   : _mm_srl_epi32(m, _mm_set1_epi64x((long long) k));
+    }
+
+    ENOKI_INLINE Derived sl_(Ref k) const {
+        #if defined(ENOKI_X86_AVX2)
+            return _mm_sllv_epi32(m, k.m);
+        #else
+            Derived out;
+            ENOKI_TRACK_SCALAR("sl");
+            for (size_t i = 0; i < Size; ++i)
+                out.coeff(i) = coeff(i) << (size_t) k.coeff(i);
+            return out;
+        #endif
+    }
+
+    ENOKI_INLINE Derived sr_(Ref k) const {
+        #if defined(ENOKI_X86_AVX2)
+            return std::is_signed_v<Value> ? _mm_srav_epi32(m, k.m)
+                                           : _mm_srlv_epi32(m, k.m);
+        #else
+            Derived out;
+            ENOKI_TRACK_SCALAR("sr");
+            for (size_t i = 0; i < Size; ++i)
+                out.coeff(i) = coeff(i) >> (size_t) k.coeff(i);
+            return out;
+        #endif
+    }
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Imm> ENOKI_INLINE Derived rol_() const { return _mm_rol_epi32(m, (int) Imm); }
+    template <size_t Imm> ENOKI_INLINE Derived ror_() const { return _mm_ror_epi32(m, (int) Imm); }
+    ENOKI_INLINE Derived rol_(Ref k) const { return _mm_rolv_epi32(m, k.m); }
+    ENOKI_INLINE Derived ror_(Ref k) const { return _mm_rorv_epi32(m, k.m); }
+#endif
+
+    ENOKI_INLINE auto eq_(Ref a)  const {
+        using Return = mask_t<Derived>;
+
+        #if defined(ENOKI_X86_AVX512VL)
+            return Return::from_k(_mm_cmpeq_epi32_mask(m, a.m));
+        #else
+            return Return(_mm_cmpeq_epi32(m, a.m));
+        #endif
+    }
+
+    ENOKI_INLINE auto neq_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k(_mm_cmpneq_epi32_mask(m, a.m));
+        #else
+            return ~eq_(a);
+        #endif
+    }
+
+    ENOKI_INLINE auto lt_(Ref a) const {
+        using Return = mask_t<Derived>;
+
+        #if !defined(ENOKI_X86_AVX512VL)
+            if constexpr (std::is_signed_v<Value>) {
+                return Return(_mm_cmpgt_epi32(a.m, m));
+            } else {
+                const __m128i offset = _mm_set1_epi32((int32_t) 0x80000000ul);
+                return Return(_mm_cmpgt_epi32(_mm_sub_epi32(a.m, offset),
+                                              _mm_sub_epi32(m, offset)));
+            }
+        #else
+            return Return::from_k(std::is_signed_v<Value>
+                                      ? _mm_cmplt_epi32_mask(m, a.m)
+                                      : _mm_cmplt_epu32_mask(m, a.m));
+        #endif
+    }
+
+    ENOKI_INLINE auto gt_(Ref a) const {
+        using Return = mask_t<Derived>;
+
+        #if !defined(ENOKI_X86_AVX512VL)
+            if constexpr (std::is_signed_v<Value>) {
+                return Return(_mm_cmpgt_epi32(m, a.m));
+            } else {
+                const __m128i offset = _mm_set1_epi32((int32_t) 0x80000000ul);
+                return Return(_mm_cmpgt_epi32(_mm_sub_epi32(m, offset),
+                                              _mm_sub_epi32(a.m, offset)));
+            }
+        #else
+            return Return::from_k(std::is_signed_v<Value>
+                                  ? _mm_cmpgt_epi32_mask(m, a.m)
+                                  : _mm_cmpgt_epu32_mask(m, a.m));
+        #endif
+    }
+
+    ENOKI_INLINE auto le_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k(std::is_signed_v<Value>
+                                           ? _mm_cmple_epi32_mask(m, a.m)
+                                           : _mm_cmple_epu32_mask(m, a.m));
+        #else
+            return ~gt_(a);
+        #endif
+    }
+
+    ENOKI_INLINE auto ge_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k(std::is_signed_v<Value>
+                                           ? _mm_cmpge_epi32_mask(m, a.m)
+                                           : _mm_cmpge_epu32_mask(m, a.m));
+        #else
+            return ~lt_(a);
+        #endif
+    }
+
+    ENOKI_INLINE Derived min_(Ref a) const {
+        return std::is_signed_v<Value> ? _mm_min_epi32(a.m, m)
+                                       : _mm_min_epu32(a.m, m);
+    }
+
+    ENOKI_INLINE Derived max_(Ref a) const {
+        return std::is_signed_v<Value> ? _mm_max_epi32(a.m, m)
+                                       : _mm_max_epu32(a.m, m);
+    }
+
+    ENOKI_INLINE Derived abs_() const {
+        return std::is_signed_v<Value> ? _mm_abs_epi32(m) : m;
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived select_(const Mask &m, Ref t, Ref f) {
+        #if !defined(ENOKI_X86_AVX512VL)
+            return _mm_blendv_epi8(f.m, t.m, m.m);
+        #else
+            return _mm_mask_blend_epi32(m.k, f.m, t.m);
+        #endif
+    }
+
+    template <int I0, int I1, int I2, int I3>
+    ENOKI_INLINE Derived shuffle_() const {
+        return _mm_shuffle_epi32(m, _MM_SHUFFLE(I3, I2, I1, I0));
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        #if defined(ENOKI_X86_AVX)
+            return _mm_castps_si128(_mm_permutevar_ps(_mm_castsi128_ps(m), index.m));
+        #else
+            return Base::shuffle_(index);
+        #endif
+    }
+
+    ENOKI_INLINE Derived mulhi_(Ref a) const {
+        Derived even, odd;
+        if constexpr (std::is_signed_v<Value>) {
+            even.m = _mm_srli_epi64(_mm_mul_epi32(m, a.m), 32);
+            odd.m = _mm_mul_epi32(_mm_srli_epi64(m, 32), _mm_srli_epi64(a.m, 32));
+        } else {
+            even.m = _mm_srli_epi64(_mm_mul_epu32(m, a.m), 32);
+            odd.m = _mm_mul_epu32(_mm_srli_epi64(m, 32), _mm_srli_epi64(a.m, 32));
+        }
+
+        #if defined(ENOKI_X86_AVX512VL)
+            const mask_t<Derived> blend = mask_t<Derived>::from_k(0b0101);
+        #else
+            const mask_t<Derived> blend(Value(-1), Value(0), Value(-1), Value(0));
+        #endif
+
+        return select(blend, even, odd);
+    }
+
+#if defined(ENOKI_X86_AVX512CD) && defined(ENOKI_X86_AVX512VL)
+    ENOKI_INLINE Derived lzcnt_() const { return _mm_lzcnt_epi32(m); }
+    ENOKI_INLINE Derived tzcnt_() const { return Value(32) - lzcnt(~derived() & (derived() - Value(1))); }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    #define ENOKI_HORIZONTAL_OP(name, op)                                     \
+        ENOKI_INLINE Value name##_() const {                                  \
+            __m128i t1 = _mm_shuffle_epi32(m, 0x4e);                          \
+            __m128i t2 = _mm_##op##_epi32(m, t1);                             \
+            t1 = _mm_shufflelo_epi16(t2, 0x4e);                               \
+            t2 = _mm_##op##_epi32(t2, t1);                                    \
+            return (Value) _mm_cvtsi128_si32(t2);                             \
+        }
+
+    #define ENOKI_HORIZONTAL_OP_SIGNED(name, op)                              \
+        ENOKI_INLINE Value name##_() const {                                  \
+            __m128i t1 = _mm_shuffle_epi32(m, 0x4e);                          \
+            __m128i t2 = std::is_signed_v<Value> ? _mm_##op##_epi32(m, t1) :  \
+                                                   _mm_##op##_epu32(m, t1);   \
+            t1 = _mm_shufflelo_epi16(t2, 0x4e);                               \
+            t2 = std::is_signed_v<Value> ? _mm_##op##_epi32(t2, t1) :         \
+                                           _mm_##op##_epu32(t2, t1);          \
+            return (Value) _mm_cvtsi128_si32(t2);                             \
+        }
+
+    ENOKI_HORIZONTAL_OP(hsum, add)
+    ENOKI_HORIZONTAL_OP(hprod, mullo)
+    ENOKI_HORIZONTAL_OP_SIGNED(hmin, min)
+    ENOKI_HORIZONTAL_OP_SIGNED(hmax, max)
+
+    #undef ENOKI_HORIZONTAL_OP
+    #undef ENOKI_HORIZONTAL_OP_SIGNED
+
+    ENOKI_INLINE bool all_()  const { return _mm_movemask_ps(_mm_castsi128_ps(m)) == 0xF;}
+    ENOKI_INLINE bool any_()  const { return _mm_movemask_ps(_mm_castsi128_ps(m)) != 0x0; }
+
+    ENOKI_INLINE uint32_t bitmask_() const { return (uint32_t) _mm_movemask_ps(_mm_castsi128_ps(m)); }
+    ENOKI_INLINE size_t count_() const { return (size_t) _mm_popcnt_u32(bitmask_()); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Masked versions of key operations
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <typename Mask>
+    ENOKI_INLINE void massign_(const Derived &a, const Mask &mask) { m = _mm_mask_mov_epi32(m, mask.k, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void madd_   (const Derived &a, const Mask &mask) { m = _mm_mask_add_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void msub_   (const Derived &a, const Mask &mask) { m = _mm_mask_sub_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mmul_   (const Derived &a, const Mask &mask) { m = _mm_mask_mullo_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mor_    (const Derived &a, const Mask &mask) { m = _mm_mask_or_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mand_   (const Derived &a, const Mask &mask) { m = _mm_mask_and_epi32(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mxor_   (const Derived &a, const Mask &mask) { m = _mm_mask_xor_epi32(m, mask.k, m, a.m); }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Initialization, loading/writing data
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        assert((uintptr_t) ptr % 16 == 0);
+        _mm_store_si128((__m128i *) ENOKI_ASSUME_ALIGNED(ptr, 16), m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm_mask_store_epi32(ptr, mask.k, m);
+        #elif defined(ENOKI_X86_AVX2)
+            _mm_maskstore_epi32((int *) ptr, mask.m, m);
+        #else
+            Base::store_(ptr, mask);
+        #endif
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        _mm_storeu_si128((__m128i *) ptr, m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm_mask_storeu_epi32(ptr, mask.k, m);
+        #elif defined(ENOKI_X86_AVX2)
+            _mm_maskstore_epi32((int *) ptr, mask.m, m);
+        #else
+            Base::store_unaligned_(ptr, mask);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        assert((uintptr_t) ptr % 16 == 0);
+        return _mm_load_si128((const __m128i *) ENOKI_ASSUME_ALIGNED(ptr, 16));
+    }
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm_maskz_load_epi32(mask.k, ptr);
+        #elif defined(ENOKI_X86_AVX2)
+            return _mm_maskload_epi32((const int *) ptr, mask.m);
+        #else
+            return Base::load_(ptr, mask);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return _mm_loadu_si128((const __m128i *) ptr);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm_maskz_loadu_epi32(mask.k, ptr);
+        #elif defined(ENOKI_X86_AVX2)
+            return _mm_maskload_epi32((const int *) ptr, mask.m);
+        #else
+            return Base::load_unaligned_(ptr, mask);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived zero_() { return _mm_setzero_si128(); }
+
+#if defined(ENOKI_X86_AVX2)
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (sizeof(scalar_t<Index>) == 4)
+                return _mm_mmask_i32gather_epi32(_mm_setzero_si128(), mask.k, index.m, (const int *) ptr, Stride);
+            else
+                return _mm256_mmask_i64gather_epi32(_mm_setzero_si128(), mask.k, index.m, (const int *) ptr, Stride);
+        #else
+            if constexpr (sizeof(scalar_t<Index>) == 4)
+                return _mm_mask_i32gather_epi32(_mm_setzero_si128(), (const int *) ptr, index.m, mask.m, Stride);
+            else
+                return _mm256_mask_i64gather_epi32(_mm_setzero_si128(), (const int *) ptr, index.m, mask.m, Stride);
+        #endif
+    }
+#endif
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        if constexpr (sizeof(scalar_t<Index>) == 4)
+            _mm_mask_i32scatter_epi32(ptr, mask.k, index.m, m, Stride);
+        else
+            _mm256_mask_i64scatter_epi32(ptr, mask.k, index.m, m, Stride);
+    }
+#endif
+
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        #if !defined(ENOKI_X86_AVX512VL)
+            unsigned int k = (unsigned int) _mm_movemask_ps(_mm_castsi128_ps(mask.m));
+            return coeff((size_t) (detail::tzcnt_scalar(k) & 3));
+        #else
+            return (Value) _mm_cvtsi128_si32(_mm_mask_compress_epi32(_mm_setzero_si128(), mask.k, m));
+        #endif
+    }
+
+    template <typename T, typename Mask>
+    ENOKI_INLINE size_t compress_(T *&ptr, const Mask &mask) const {
+        #if !defined(ENOKI_X86_AVX512VL)
+            unsigned int k = (unsigned int) _mm_movemask_ps(_mm_castsi128_ps(mask.m));
+
+            /** Fancy LUT-based partitioning algorithm, see
+                https://deplinenoise.files.wordpress.com/2015/03/gdc2015_afredriksson_simd.pdf */
+
+            __m128i shuf = _mm_load_si128(((const __m128i *) detail::compress_lut_128) + k),
+                    perm = _mm_shuffle_epi8(m, shuf);
+
+            _mm_storeu_si128((__m128i *) ptr, perm);
+        #else
+            _mm_storeu_si128((__m128i *) ptr,
+                _mm_mask_compress_epi32(_mm_setzero_si128(), mask.k, m));
+            unsigned int k = (unsigned int) mask.k;
+        #endif
+
+        size_t kn = (size_t) _mm_popcnt_u32(k);
+        ptr += kn;
+        return kn;
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+/// Partial overload of StaticArrayImpl using SSE4.2 intrinsics (64 bit integers)
+template <typename Value_, bool IsMask_, typename Derived_> struct alignas(16)
+    StaticArrayImpl<Value_, 2, IsMask_, Derived_, enable_if_int64_t<Value_>>
+  : StaticArrayBase<Value_, 2, IsMask_, Derived_> {
+    ENOKI_NATIVE_ARRAY(Value_, 2, __m128i)
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Value constructors
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE StaticArrayImpl(Value value) : m(_mm_set1_epi64x((int64_t) value)) { }
+    ENOKI_INLINE StaticArrayImpl(Value v0, Value v1) {
+        alignas(16) Value data[2];
+        data[0] = (Value) v0;
+        data[1] = (Value) v1;
+        m = _mm_load_si128((__m128i *) data);
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Type converting constructors
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+    ENOKI_CONVERT(double) {
+        if constexpr (std::is_signed_v<Value>)
+            m = _mm_cvttpd_epi64(a.derived().m);
+        else
+            m = _mm_cvttpd_epu64(a.derived().m);
+    }
+#endif
+
+    ENOKI_CONVERT(int64_t) : m(a.derived().m) { }
+    ENOKI_CONVERT(uint64_t) : m(a.derived().m) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reinterpreting constructors, mask converters
+    // -----------------------------------------------------------------------
+
+    ENOKI_REINTERPRET(bool) {
+        int16_t ival;
+        memcpy(&ival, a.derived().data(), 2);
+        m = _mm_cvtepi8_epi64(
+            _mm_cmpgt_epi8(_mm_cvtsi32_si128((int) ival), _mm_setzero_si128()));
+    }
+
+    ENOKI_REINTERPRET(float) {
+        ENOKI_TRACK_SCALAR("Constructor (reinterpreting, float32[2] -> int64[2])");
+        auto v0 = a.derived().coeff(0), v1 = a.derived().coeff(1);
+        m = _mm_castps_si128(_mm_setr_ps(v0, v0, v1, v1));
+    }
+
+    ENOKI_REINTERPRET(int32_t) {
+        ENOKI_TRACK_SCALAR("Constructor (reinterpreting, int32[2] -> int64[2])");
+        auto v0 = a.derived().coeff(0), v1 = a.derived().coeff(1);
+        m = _mm_setr_epi32(v0, v0, v1, v1);
+    }
+
+    ENOKI_REINTERPRET(uint32_t) {
+        ENOKI_TRACK_SCALAR("Constructor (reinterpreting, uint32[2] -> int64[2])");
+        auto v0 = a.derived().coeff(0), v1 = a.derived().coeff(1);
+        m = _mm_setr_epi32((int32_t) v0, (int32_t) v0, (int32_t) v1,
+                           (int32_t) v1);
+    }
+
+    ENOKI_REINTERPRET(double) : m(_mm_castpd_si128(a.derived().m)) { }
+    ENOKI_REINTERPRET(int64_t) : m(a.derived().m) { }
+    ENOKI_REINTERPRET(uint64_t) : m(a.derived().m) { }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Converting from/to half size vectors
+    // -----------------------------------------------------------------------
+
+    StaticArrayImpl(const Array1 &a1, const Array2 &a2) {
+        alignas(16) Value data[2];
+        data[0] = (Value) a1.coeff(0);
+        data[1] = (Value) a2.coeff(0);
+        m = _mm_load_si128((__m128i *) data);
+    }
+
+    ENOKI_INLINE Array1 low_()  const { return Array1(coeff(0)); }
+    ENOKI_INLINE Array2 high_() const { return Array2(coeff(1)); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE Derived add_(Ref a) const { return _mm_add_epi64(m, a.m);   }
+    ENOKI_INLINE Derived sub_(Ref a) const { return _mm_sub_epi64(m, a.m);   }
+    ENOKI_INLINE Derived mul_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512DQ) && defined(ENOKI_X86_AVX512VL)
+            return _mm_mullo_epi64(m, a.m);
+        #else
+            Derived result;
+            ENOKI_TRACK_SCALAR("mul");
+            for (size_t i = 0; i < Size; ++i)
+                result.coeff(i) = coeff(i) * a.coeff(i);
+            return result;
+        #endif
+    }
+    template <typename T> ENOKI_INLINE Derived or_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_mask_mov_epi64(m, a.k, _mm_set1_epi64x(-1));
+            else
+        #endif
+        return _mm_or_si128(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived and_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_maskz_mov_epi64(a.k, m);
+            else
+        #endif
+        return _mm_and_si128(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived xor_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_mask_xor_epi64(m, a.k, m, _mm_set1_epi64x(-1));
+            else
+        #endif
+        return _mm_xor_si128(m, a.m);
+    }
+
+    template <typename T> ENOKI_INLINE Derived andnot_(const T &a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            if constexpr (is_mask_v<T>)
+                return _mm_mask_mov_epi64(m, a.k, _mm_setzero_si128());
+            else
+        #endif
+        return _mm_andnot_si128(a.m, m);
+    }
+
+    template <size_t k> ENOKI_INLINE Derived sl_() const {
+        return _mm_slli_epi64(m, (int) k);
+    }
+
+    template <size_t k> ENOKI_INLINE Derived sr_() const {
+        if constexpr (std::is_signed_v<Value>) {
+            #if defined(ENOKI_X86_AVX512VL)
+                return _mm_srai_epi64(m, (int) k);
+            #else
+                Derived out;
+                ENOKI_TRACK_SCALAR("sr");
+                for (size_t i = 0; i < Size; ++i)
+                    out.coeff(i) = coeff(i) >> k;
+                return out;
+            #endif
+        } else {
+            return _mm_srli_epi64(m, (int) k);
+        }
+    }
+
+    ENOKI_INLINE Derived sl_(size_t k) const {
+        return _mm_sll_epi64(m, _mm_set1_epi64x((long long) k));
+    }
+
+    ENOKI_INLINE Derived sr_(size_t k) const {
+        if constexpr (std::is_signed_v<Value>) {
+            #if defined(ENOKI_X86_AVX512VL)
+                return _mm_sra_epi64(m, _mm_set1_epi64x((long long) k));
+            #else
+                Derived out;
+                ENOKI_TRACK_SCALAR("sr");
+                for (size_t i = 0; i < Size; ++i)
+                    out.coeff(i) = coeff(i) >> k;
+                return out;
+            #endif
+        } else {
+            return _mm_srl_epi64(m, _mm_set1_epi64x((long long) k));
+        }
+    }
+
+    ENOKI_INLINE Derived sl_(Ref k) const {
+        #if defined(ENOKI_X86_AVX2)
+            return _mm_sllv_epi64(m, k.m);
+        #else
+            Derived out;
+            ENOKI_TRACK_SCALAR("sl");
+            for (size_t i = 0; i < Size; ++i)
+                out.coeff(i) = coeff(i) << (unsigned int) k.coeff(i);
+            return out;
+        #endif
+    }
+
+    ENOKI_INLINE Derived sr_(Ref k) const {
+        if constexpr (std::is_signed_v<Value>) {
+            #if defined(ENOKI_X86_AVX512VL)
+                return _mm_srav_epi64(m, k.m);
+            #endif
+        } else {
+            #if defined(ENOKI_X86_AVX2)
+                return _mm_srlv_epi64(m, k.m);
+            #endif
+        }
+        Derived out;
+        ENOKI_TRACK_SCALAR("sr");
+        for (size_t i = 0; i < Size; ++i)
+            out.coeff(i) = coeff(i) >> (unsigned int) k.coeff(i);
+        return out;
+    }
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Imm> ENOKI_INLINE Derived rol_() const { return _mm_rol_epi64(m, (int) Imm); }
+    template <size_t Imm> ENOKI_INLINE Derived ror_() const { return _mm_ror_epi64(m, (int) Imm); }
+    ENOKI_INLINE Derived rol_(Ref k) const { return _mm_rolv_epi64(m, k.m); }
+    ENOKI_INLINE Derived ror_(Ref k) const { return _mm_rorv_epi64(m, k.m); }
+#endif
+
+    ENOKI_INLINE auto eq_(Ref a)  const {
+        using Return = mask_t<Derived>;
+
+        #if defined(ENOKI_X86_AVX512VL)
+            return Return::from_k(_mm_cmpeq_epi64_mask(m, a.m));
+        #else
+            return Return(_mm_cmpeq_epi64(m, a.m));
+        #endif
+    }
+
+    ENOKI_INLINE auto neq_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k(_mm_cmpneq_epi64_mask(m, a.m));
+        #else
+            return ~eq_(a);
+        #endif
+    }
+
+    ENOKI_INLINE auto lt_(Ref a) const {
+        using Return = mask_t<Derived>;
+
+        #if !defined(ENOKI_X86_AVX512VL)
+            if constexpr (std::is_signed_v<Value>) {
+                return Return(_mm_cmpgt_epi64(a.m, m));
+            } else {
+                const __m128i offset =
+                    _mm_set1_epi64x((long long) 0x8000000000000000ull);
+                return Return(_mm_cmpgt_epi64(
+                    _mm_sub_epi64(a.m, offset),
+                    _mm_sub_epi64(m, offset)
+                ));
+            }
+        #else
+            return Return::from_k(std::is_signed_v<Value>
+                                  ? _mm_cmplt_epi64_mask(m, a.m)
+                                  : _mm_cmplt_epu64_mask(m, a.m));
+        #endif
+    }
+
+    ENOKI_INLINE auto gt_(Ref a) const {
+        using Return = mask_t<Derived>;
+
+        #if !defined(ENOKI_X86_AVX512VL)
+            if constexpr (std::is_signed_v<Value>) {
+                return Return(_mm_cmpgt_epi64(m, a.m));
+            } else {
+                const __m128i offset =
+                    _mm_set1_epi64x((long long) 0x8000000000000000ull);
+                return Return(_mm_cmpgt_epi64(
+                    _mm_sub_epi64(m, offset),
+                    _mm_sub_epi64(a.m, offset)
+                ));
+            }
+        #else
+            return Return::from_k(std::is_signed_v<Value>
+                                  ? _mm_cmpgt_epi64_mask(m, a.m)
+                                  : _mm_cmpgt_epu64_mask(m, a.m));
+        #endif
+    }
+
+    ENOKI_INLINE auto le_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k(std::is_signed_v<Value>
+                                           ? _mm_cmple_epi64_mask(m, a.m)
+                                           : _mm_cmple_epu64_mask(m, a.m));
+        #else
+            return ~gt_(a);
+        #endif
+    }
+
+    ENOKI_INLINE auto ge_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k(std::is_signed_v<Value>
+                                           ? _mm_cmpge_epi64_mask(m, a.m)
+                                           : _mm_cmpge_epu64_mask(m, a.m));
+        #else
+            return ~lt_(a);
+        #endif
+    }
+
+    ENOKI_INLINE Derived min_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return std::is_signed_v<Value> ? _mm_min_epi64(a.m, m)
+                                           : _mm_min_epu64(a.m, m);
+        #else
+            return select(derived() < a, derived(), a);
+        #endif
+    }
+
+    ENOKI_INLINE Derived max_(Ref a) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            return std::is_signed_v<Value> ? _mm_max_epi64(a.m, m)
+                                           : _mm_max_epu64(a.m, m);
+        #else
+            return select(derived() > a, derived(), a);
+        #endif
+    }
+
+    ENOKI_INLINE Derived abs_() const {
+        if constexpr (std::is_signed_v<Value>) {
+            #if defined(ENOKI_X86_AVX512VL)
+                return _mm_abs_epi64(m);
+            #else
+                return select(derived() < zero<Derived>(),
+                              ~derived() + Derived(Value(1)), derived());
+            #endif
+        } else {
+            return m;
+        }
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived select_(const Mask &m, Ref t, Ref f) {
+        #if !defined(ENOKI_X86_AVX512VL)
+            return _mm_blendv_epi8(f.m, t.m, m.m);
+        #else
+            return _mm_mask_blend_epi64(m.k, f.m, t.m);
+        #endif
+    }
+
+    ENOKI_INLINE Derived mulhi_(Ref a) const {
+        ENOKI_TRACK_SCALAR("mulhi");
+        return Derived(
+            mulhi(coeff(0), a.coeff(0)),
+            mulhi(coeff(1), a.coeff(1))
+        );
+    }
+
+    template <int I0, int I1>
+    ENOKI_INLINE Derived shuffle_() const {
+        return _mm_shuffle_epi32(
+            m, _MM_SHUFFLE(I1 * 2 + 1, I1 * 2, I0 * 2 + 1, I0 * 2));
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        #if defined(ENOKI_X86_AVX)
+            return _mm_castpd_si128(_mm_permutevar_pd(_mm_castsi128_pd(m), _mm_slli_epi64(index.m, 1)));
+        #else
+            return Base::shuffle_(index);
+        #endif
+    }
+
+#if defined(ENOKI_X86_AVX512CD) && defined(ENOKI_X86_AVX512VL)
+    ENOKI_INLINE Derived lzcnt_() const { return _mm_lzcnt_epi64(m); }
+    ENOKI_INLINE Derived tzcnt_() const { return Value(64) - lzcnt(~derived() & (derived() - Value(1))); }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Masked versions of key operations
+    // -----------------------------------------------------------------------
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <typename Mask>
+    ENOKI_INLINE void massign_(const Derived &a, const Mask &mask) { m = _mm_mask_mov_epi64(m, mask.k, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void madd_   (const Derived &a, const Mask &mask) { m = _mm_mask_add_epi64(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void msub_   (const Derived &a, const Mask &mask) { m = _mm_mask_sub_epi64(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mmul_   (const Derived &a, const Mask &mask) { m = _mm_mask_mullo_epi64(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mor_    (const Derived &a, const Mask &mask) { m = _mm_mask_or_epi64(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mand_   (const Derived &a, const Mask &mask) { m = _mm_mask_and_epi64(m, mask.k, m, a.m); }
+    template <typename Mask>
+    ENOKI_INLINE void mxor_   (const Derived &a, const Mask &mask) { m = _mm_mask_xor_epi64(m, mask.k, m, a.m); }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    #define ENOKI_HORIZONTAL_OP(name, op)                                     \
+        ENOKI_INLINE Value name##_() const {                                  \
+            Value t1 = Value(detail::mm_extract_epi64<1>(m));                 \
+            Value t2 = Value(detail::mm_cvtsi128_si64(m));                    \
+            return op;                                                        \
+        }
+
+    ENOKI_HORIZONTAL_OP(hsum,  t1 + t2)
+    ENOKI_HORIZONTAL_OP(hprod, t1 * t2)
+    ENOKI_HORIZONTAL_OP(hmin,  min(t1, t2))
+    ENOKI_HORIZONTAL_OP(hmax,  max(t1, t2))
+
+    #undef ENOKI_HORIZONTAL_OP
+
+    ENOKI_INLINE bool all_()  const { return _mm_movemask_pd(_mm_castsi128_pd(m)) == 0x3;}
+    ENOKI_INLINE bool any_()  const { return _mm_movemask_pd(_mm_castsi128_pd(m)) != 0x0; }
+
+    ENOKI_INLINE uint32_t bitmask_() const { return (uint32_t) _mm_movemask_pd(_mm_castsi128_pd(m)); }
+    ENOKI_INLINE size_t count_() const { return (size_t) _mm_popcnt_u32(bitmask_()); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Initialization, loading/writing data
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        assert((uintptr_t) ptr % 16 == 0);
+        _mm_store_si128((__m128i *) ENOKI_ASSUME_ALIGNED(ptr, 16), m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm_mask_store_epi64(ptr, mask.k, m);
+        #elif defined(ENOKI_X86_AVX2)
+            _mm_maskstore_epi64((long long *) ptr, mask.m, m);
+        #else
+            Base::store_(ptr, mask);
+        #endif
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        _mm_storeu_si128((__m128i *) ptr, m);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        #if defined(ENOKI_X86_AVX512VL)
+            _mm_mask_storeu_epi64(ptr, mask.k, m);
+        #elif defined(ENOKI_X86_AVX2)
+            _mm_maskstore_epi64((long long *) ptr, mask.m, m);
+        #else
+            Base::store_unaligned_(ptr, mask);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        assert((uintptr_t) ptr % 16 == 0);
+        return _mm_load_si128((const __m128i *) ENOKI_ASSUME_ALIGNED(ptr, 16));
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm_maskz_load_epi64(mask.k, ptr);
+        #elif defined(ENOKI_X86_AVX2)
+            return _mm_maskload_epi64((const long long *) ptr, mask.m);
+        #else
+            return Base::load_(ptr, mask);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        return _mm_loadu_si128((const __m128i *) ptr);
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        #if defined(ENOKI_X86_AVX512VL)
+            return _mm_maskz_loadu_epi64(mask.k, ptr);
+        #elif defined(ENOKI_X86_AVX2)
+            return _mm_maskload_epi64((const long long *) ptr, mask.m);
+        #else
+            return Base::load_unaligned_(ptr, mask);
+        #endif
+    }
+
+    static ENOKI_INLINE Derived zero_() { return _mm_setzero_si128(); }
+
+#if defined(ENOKI_X86_AVX2)
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        if constexpr (sizeof(scalar_t<Index>) == 4) {
+            return Base::template gather_<Stride>(ptr, index, mask);
+        } else {
+            #if defined(ENOKI_X86_AVX512VL)
+                return _mm_mmask_i64gather_epi64(_mm_setzero_si128(), mask.k, index.m, (const long long *) ptr, Stride);
+            #else
+                return _mm_mask_i64gather_epi64(_mm_setzero_si128(), (const long long *) ptr, index.m, mask.m, Stride);
+            #endif
+        }
+    }
+#endif
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        if constexpr (sizeof(scalar_t<Index>) == 4)
+            Base::template scatter_<Stride>(ptr, index, mask);
+        else
+            _mm_mask_i64scatter_epi64(ptr, mask.k, index.m, m, Stride);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        return (Value) detail::mm_cvtsi128_si64(_mm_mask_compress_epi64(_mm_setzero_si128(), mask.k, m));
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(Value_ *&ptr, const Mask &mask) const {
+        _mm_storeu_si128((__m128i *) ptr, _mm_mask_compress_epi64(_mm_setzero_si128(), mask.k, m));
+        size_t kn = (size_t) _mm_popcnt_u32(mask.k);
+        ptr += kn;
+        return kn;
+    }
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+/// Partial overload of StaticArrayImpl for the n=3 case (single precision)
+template <bool IsMask_, typename Derived_> struct alignas(16)
+    StaticArrayImpl<float, 3, IsMask_, Derived_>
+  : StaticArrayImpl<float, 4, IsMask_, Derived_> {
+    using Base = StaticArrayImpl<float, 4, IsMask_, Derived_>;
+
+    ENOKI_DECLARE_3D_ARRAY(StaticArrayImpl)
+
+#if defined(ENOKI_X86_F16C)
+    template <typename Derived2>
+    ENOKI_INLINE StaticArrayImpl(
+        const StaticArrayBase<half, 3, IsMask_, Derived2> &a) {
+        uint16_t temp[4];
+        memcpy(temp, a.derived().data(), sizeof(uint16_t) * 3);
+        temp[3] = 0;
+        m = _mm_cvtph_ps(_mm_loadl_epi64((const __m128i *) temp));
+    }
+#endif
+
+    template <int I0, int I1, int I2>
+    ENOKI_INLINE Derived shuffle_() const {
+        return Base::template shuffle_<I0, I1, I2, 3>();
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        return Base::shuffle_(index);
+    }
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations (adapted for the n=3 case)
+    // -----------------------------------------------------------------------
+
+    #define ENOKI_HORIZONTAL_OP(name, op)                                     \
+        ENOKI_INLINE Value name##_() const {                                  \
+            __m128 t1 = _mm_movehl_ps(m, m);                                  \
+            __m128 t2 = _mm_##op##_ss(m, t1);                                 \
+            t1 = _mm_movehdup_ps(m);                                          \
+            t1 = _mm_##op##_ss(t1, t2);                                       \
+            return _mm_cvtss_f32(t1);                                         \
+        }
+
+    ENOKI_HORIZONTAL_OP(hsum, add)
+    ENOKI_HORIZONTAL_OP(hprod, mul)
+    ENOKI_HORIZONTAL_OP(hmin, min)
+    ENOKI_HORIZONTAL_OP(hmax, max)
+
+    #undef ENOKI_HORIZONTAL_OP
+
+    ENOKI_INLINE Value dot_(Ref a) const {
+        return _mm_cvtss_f32(_mm_dp_ps(m, a.m, 0b01110001));
+    }
+
+    ENOKI_INLINE bool all_()  const { return (_mm_movemask_ps(m) & 7) == 7; }
+    ENOKI_INLINE bool any_()  const { return (_mm_movemask_ps(m) & 7) != 0; }
+
+    ENOKI_INLINE uint32_t bitmask_() const { return (uint32_t) _mm_movemask_ps(m) & 7; }
+    ENOKI_INLINE size_t count_() const { return (size_t) _mm_popcnt_u32(bitmask_()); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Loading/writing data (adapted for the n=3 case)
+    // -----------------------------------------------------------------------
+
+    static ENOKI_INLINE auto mask_() {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k((__mmask8) 7);
+        #else
+            return mask_t<Derived>(_mm_castsi128_ps(_mm_setr_epi32(-1, -1, -1, 0)));
+        #endif
+    }
+
+    using Base::load_;
+    using Base::load_unaligned_;
+    using Base::store_;
+    using Base::store_unaligned_;
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        memcpy(ptr, &m, sizeof(Value) * 3);
+    }
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        store_(ptr);
+    }
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        return Base::load_unaligned_(ptr);
+    }
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        Derived result;
+        memcpy(&result.m, ptr, sizeof(Value) * 3);
+        return result;
+    }
+
+#if defined(ENOKI_X86_AVX)
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        Base::store_(ptr, mask & mask_());
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        Base::store_unaligned_(ptr, mask & mask_());
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        return Base::load_(ptr, mask & mask_());
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        return Base::load_unaligned_(ptr, mask & mask_());
+    }
+#endif
+
+#if defined(ENOKI_X86_AVX2)
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        return Base::template gather_<Stride>(ptr, index, mask & mask_());
+    }
+#endif
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        Base::template scatter_<Stride>(ptr, index, mask & mask_());
+    }
+#endif
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(float *&ptr, const Mask &mask) const {
+        return Base::compress_(ptr, mask & mask_());
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+/// Partial overload of StaticArrayImpl for the n=3 case (32 bit integers)
+template <typename Value_, bool IsMask_, typename Derived_> struct alignas(16)
+    StaticArrayImpl<Value_, 3, IsMask_, Derived_, enable_if_int32_t<Value_>>
+  : StaticArrayImpl<Value_, 4, IsMask_, Derived_> {
+    using Base = StaticArrayImpl<Value_, 4, IsMask_, Derived_>;
+
+    ENOKI_DECLARE_3D_ARRAY(StaticArrayImpl)
+
+    template <int I0, int I1, int I2>
+    ENOKI_INLINE Derived shuffle_() const {
+        return Base::template shuffle_<I0, I1, I2, 3>();
+    }
+
+    template <typename Index>
+    ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        return Base::shuffle_(index);
+    }
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations (adapted for the n=3 case)
+    // -----------------------------------------------------------------------
+
+    #define ENOKI_HORIZONTAL_OP(name, op)                                     \
+        ENOKI_INLINE Value name##_() const {                                  \
+            __m128i t1 = _mm_unpackhi_epi32(m, m);                            \
+            __m128i t2 = _mm_##op##_epi32(m, t1);                             \
+            t1 = _mm_shuffle_epi32(m, 1);                                     \
+            t1 = _mm_##op##_epi32(t1, t2);                                    \
+            return (Value) _mm_cvtsi128_si32(t1);                             \
+        }
+
+    #define ENOKI_HORIZONTAL_OP_SIGNED(name, op)                              \
+        ENOKI_INLINE Value name##_() const {                                  \
+            __m128i t2, t1 = _mm_unpackhi_epi32(m, m);                        \
+            if constexpr (std::is_signed<Value>::value)                       \
+                t2 = _mm_##op##_epi32(m, t1);                                 \
+            else                                                              \
+                t2 = _mm_##op##_epu32(m, t1);                                 \
+            t1 = _mm_shuffle_epi32(m, 1);                                     \
+            if constexpr (std::is_signed<Value>::value)                       \
+                t1 = _mm_##op##_epi32(t1, t2);                                \
+            else                                                              \
+                t1 = _mm_##op##_epu32(t1, t2);                                \
+            return (Value) _mm_cvtsi128_si32(t1);                             \
+        }
+
+    ENOKI_HORIZONTAL_OP(hsum, add)
+    ENOKI_HORIZONTAL_OP(hprod, mullo)
+    ENOKI_HORIZONTAL_OP_SIGNED(hmin, min)
+    ENOKI_HORIZONTAL_OP_SIGNED(hmax, max)
+
+    #undef ENOKI_HORIZONTAL_OP
+    #undef ENOKI_HORIZONTAL_OP_SIGNED
+
+    ENOKI_INLINE bool all_()  const { return (_mm_movemask_ps(_mm_castsi128_ps(m)) & 7) == 7;}
+    ENOKI_INLINE bool any_()  const { return (_mm_movemask_ps(_mm_castsi128_ps(m)) & 7) != 0; }
+
+    ENOKI_INLINE uint32_t bitmask_() const { return (uint32_t) _mm_movemask_ps(_mm_castsi128_ps(m)) & 7; }
+    ENOKI_INLINE size_t count_() const { return (size_t) _mm_popcnt_u32(bitmask_()); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Loading/writing data (adapted for the n=3 case)
+    // -----------------------------------------------------------------------
+
+    static ENOKI_INLINE auto mask_() {
+        #if defined(ENOKI_X86_AVX512VL)
+            return mask_t<Derived>::from_k((__mmask8) 7);
+        #else
+            return mask_t<Derived>(_mm_setr_epi32(-1, -1, -1, 0));
+        #endif
+    }
+
+    using Base::load_;
+    using Base::load_unaligned_;
+    using Base::store_;
+    using Base::store_unaligned_;
+
+    ENOKI_INLINE void store_(void *ptr) const {
+        memcpy(ptr, &m, sizeof(Value) * 3);
+    }
+
+    ENOKI_INLINE void store_unaligned_(void *ptr) const {
+        store_(ptr);
+    }
+
+    static ENOKI_INLINE Derived load_(const void *ptr) {
+        return Base::load_unaligned_(ptr);
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr) {
+        Derived result;
+        memcpy(&result.m, ptr, sizeof(Value) * 3);
+        return result;
+    }
+
+#if defined(ENOKI_X86_AVX2)
+    template <typename Mask>
+    ENOKI_INLINE void store_unaligned_(void *ptr, const Mask &mask) const {
+        return Base::store_unaligned_(ptr, mask & mask_());
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE void store_(void *ptr, const Mask &mask) const {
+        return Base::store_(ptr, mask & mask_());
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *ptr, const Mask &mask) {
+        return Base::load_(ptr, mask & mask_());
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *ptr, const Mask &mask) {
+        return Base::load_unaligned_(ptr, mask & mask_());
+    }
+#endif
+
+#if defined(ENOKI_X86_AVX2)
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *ptr, const Index &index, const Mask &mask) {
+        return Base::template gather_<Stride>(ptr, index, mask & mask_());
+    }
+#endif
+
+#if defined(ENOKI_X86_AVX512VL)
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr, const Index &index, const Mask &mask) const {
+        Base::template scatter_<Stride>(ptr, index, mask & mask_());
+    }
+#endif
+
+    template <typename T, typename Mask>
+    ENOKI_INLINE size_t compress_(T *&ptr, const Mask &mask) const {
+        return Base::compress_(ptr, mask & mask_());
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+} ENOKI_MAY_ALIAS;
+
+#if defined(ENOKI_X86_AVX512VL)
+template <typename Derived_>
+ENOKI_DECLARE_KMASK(float, 4, Derived_, int)
+template <typename Derived_>
+ENOKI_DECLARE_KMASK(float, 3, Derived_, int)
+template <typename Derived_>
+ENOKI_DECLARE_KMASK(double, 2, Derived_, int)
+template <typename Value_, typename Derived_>
+ENOKI_DECLARE_KMASK(Value_, 4, Derived_, enable_if_int32_t<Value_>)
+template <typename Value_, typename Derived_>
+ENOKI_DECLARE_KMASK(Value_, 3, Derived_, enable_if_int32_t<Value_>)
+template <typename Value_, typename Derived_>
+ENOKI_DECLARE_KMASK(Value_, 2, Derived_, enable_if_int64_t<Value_>)
+#endif
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_static.h b/sources/enoki/array_static.h
new file mode 100644
index 00000000..dfb33352
--- /dev/null
+++ b/sources/enoki/array_static.h
@@ -0,0 +1,1231 @@
+#pragma once
+
+#include "array_base.h"
+
+NAMESPACE_BEGIN(enoki)
+
+namespace detail {
+    /// Compute binary OR of 'i' with right-shifted versions
+    static constexpr size_t fill(size_t i) {
+        return i != 0 ? i | fill(i >> 1) : 0;
+    }
+
+    /// Find the largest power of two smaller than 'i'
+    static constexpr size_t lpow2(size_t i) {
+        return i != 0 ? (fill(i-1) >> 1) + 1 : 0;
+    }
+
+    /// Compile-time integer logarithm
+    static constexpr size_t clog2i(size_t value) {
+        return (value > 1) ? 1 + clog2i(value >> 1) : 0;
+    }
+}
+
+template <typename Value_, size_t Size_, bool IsMask_, typename Derived_>
+struct StaticArrayBase : ArrayBase<Value_, Derived_> {
+    using Base = ArrayBase<Value_, Derived_>;
+    using typename Base::Derived;
+    using typename Base::Value;
+    using typename Base::Scalar;
+    using Base::derived;
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Basic declarations
+    // -----------------------------------------------------------------------
+
+    /// Number of array entries
+    static constexpr size_t Size = Size_;
+
+    /// Size of the low array part returned by low()
+    static constexpr size_t Size1 = detail::lpow2(Size_);
+
+    /// Size of the high array part returned by high()
+    static constexpr size_t Size2 = Size_ - Size1;
+
+    /// Size and ActualSize can be different, e.g. when representing 3D vectors using 4-wide registers
+    static constexpr size_t ActualSize = Size;
+
+    /// Is this a mask type?
+    static constexpr bool IsMask = Base::IsMask || IsMask_;
+
+    /// Does this array represent a fixed size vector?
+    static constexpr bool IsVector = true;
+
+    /// Type of the low array part returned by low()
+    using Array1 = std::conditional_t<!IsMask_, Array<Value_, Size1>,
+                                                Mask <Value_, Size1>>;
+
+    /// Type of the high array part returned by high()
+    using Array2 = std::conditional_t<!IsMask_, Array<Value_, Size2>,
+                                                Mask <Value_, Size2>>;
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    constexpr size_t size() const { return Derived::Size; }
+
+    void resize(size_t size) {
+        if (size != Derived::Size)
+            throw std::length_error("Incompatible size for static array");
+    }
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Constructors
+    // -----------------------------------------------------------------------
+
+    StaticArrayBase() = default;
+    StaticArrayBase(const StaticArrayBase &) = default;
+    StaticArrayBase(StaticArrayBase &&) = default;
+    StaticArrayBase &operator=(const StaticArrayBase &) = default;
+    StaticArrayBase &operator=(StaticArrayBase &&) = default;
+
+    /// Type cast fallback
+    template <typename Value2, size_t Size2,
+              typename Derived2, typename T = Derived,
+              enable_if_t<Derived2::Size == T::Size> = 0>
+    ENOKI_INLINE StaticArrayBase(
+        const StaticArrayBase<Value2, Size2, IsMask_, Derived2> &a) {
+        ENOKI_CHKSCALAR("Copy constructor (type cast)");
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) derived().coeff(i) = (const Value &) a.derived().coeff(i);
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Fallback implementations of vertical operations
+    // -----------------------------------------------------------------------
+
+    /// Addition
+    Derived add_(const Derived &a) const {
+        ENOKI_CHKSCALAR("add");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) = (const Value &) derived().coeff(i) +
+                                        (const Value &) a.coeff(i);
+        return result;
+    }
+
+    /// Subtraction
+    Derived sub_(const Derived &a) const {
+        ENOKI_CHKSCALAR("sub");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) = (const Value &) derived().coeff(i) -
+                                        (const Value &) a.coeff(i);
+        return result;
+    }
+
+    /// Multiplication (low part)
+    Derived mul_(const Derived &a) const {
+        ENOKI_CHKSCALAR("mul");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) = (const Value &) derived().coeff(i) *
+                                        (const Value &) a.coeff(i);
+        return result;
+    }
+
+    /// Multiplication (high part)
+    Derived mulhi_(const Derived &a) const {
+        ENOKI_CHKSCALAR("mulhi");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) = mulhi((const Value &) derived().coeff(i),
+                                              (const Value &) a.coeff(i));
+        return result;
+    }
+
+    /// Division
+    Derived div_(const Derived &a) const {
+        ENOKI_CHKSCALAR("div");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) = (const Value &) derived().coeff(i) /
+                                        (const Value &) a.coeff(i);
+        return result;
+    }
+
+    /// Modulo
+    Derived mod_(const Derived &a) const {
+        ENOKI_CHKSCALAR("mod");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) = (const Value &) derived().coeff(i) %
+                                        (const Value &) a.coeff(i);
+        return result;
+    }
+
+    /// Arithmetic NOT operation fallback
+    ENOKI_INLINE Derived not_() const {
+        if constexpr (!is_mask_v<Derived>) {
+            const Scalar mask = memcpy_cast<Scalar>(int_array_t<Scalar>(-1));
+            return derived() ^ mask;
+        } else {
+            return derived() ^ Derived(true);
+        }
+    }
+
+    /// Arithmetic unary negation operation fallback
+    ENOKI_INLINE Derived neg_() const {
+        if constexpr (std::is_floating_point_v<Scalar>)
+            return derived() ^ Scalar(-0.f);
+        else
+            return ~derived() + Scalar(1);
+    }
+
+    /// Arithmetic OR operation
+    template <typename Array>
+    ENOKI_INLINE Derived or_(const Array &d) const {
+        Derived result;
+        ENOKI_CHKSCALAR("or");
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                detail::or_((const Value &) derived().coeff(i), d.coeff(i));
+        return result;
+    }
+
+    /// Arithmetic AND operation
+    template <typename Array>
+    ENOKI_INLINE Derived and_(const Array &d) const {
+        ENOKI_CHKSCALAR("and");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                detail::and_((const Value &) derived().coeff(i), d.coeff(i));
+        return result;
+    }
+
+    /// Arithmetic ANDNOT operation
+    template <typename Array>
+    ENOKI_INLINE Derived andnot_(const Array &d) const {
+        ENOKI_CHKSCALAR("andnot");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                detail::andnot_((const Value &) derived().coeff(i), d.coeff(i));
+        return result;
+    }
+
+    /// Arithmetic XOR operation
+    template <typename Array>
+    ENOKI_INLINE Derived xor_(const Array &d) const {
+        ENOKI_CHKSCALAR("xor");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                detail::xor_((const Value &) derived().coeff(i), d.coeff(i));
+        return result;
+    }
+
+    /// Left shift operator (uniform)
+    ENOKI_INLINE Derived sl_(size_t value) const {
+        ENOKI_CHKSCALAR("sl");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                (const Value &) derived().coeff(i) << value;
+        return result;
+    }
+
+    /// Left shift operator (array)
+    ENOKI_INLINE Derived sl_(const Derived &d) const {
+        ENOKI_CHKSCALAR("sl");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) = (const Value &) derived().coeff(i) <<
+                                        (const Value &) d.coeff(i);
+        return result;
+    }
+
+    /// Left shift operator (immediate)
+    template <size_t Imm> ENOKI_INLINE Derived sl_() const {
+        ENOKI_CHKSCALAR("sl");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                sl<Imm>((const Value &) derived().coeff(i));
+        return result;
+    }
+
+    /// Right shift operator (Uniform)
+    ENOKI_INLINE Derived sr_(size_t value) const {
+        ENOKI_CHKSCALAR("sr");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                (const Value &) derived().coeff(i) >> value;
+        return result;
+    }
+
+    /// Right shift operator (Array)
+    ENOKI_INLINE Derived sr_(const Derived &d) const {
+        ENOKI_CHKSCALAR("sr");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) = (const Value &) derived().coeff(i) >>
+                                        (const Value &) d.coeff(i);
+        return result;
+    }
+
+    /// Right shift operator (immediate)
+    template <size_t Imm> ENOKI_INLINE Derived sr_() const {
+        ENOKI_CHKSCALAR("sr");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                sr<Imm>((const Value &) derived().coeff(i));
+        return result;
+    }
+
+    /// Equality comparison operation
+    ENOKI_INLINE auto eq_(const Derived &d) const {
+        ENOKI_CHKSCALAR("eq");
+        mask_t<Derived> result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            result.coeff(i) = eq((const Value &) derived().coeff(i),
+                                 (const Value &) d.coeff(i));
+        return result;
+    }
+
+    /// Inequality comparison operation
+    ENOKI_INLINE auto neq_(const Derived &d) const {
+        ENOKI_CHKSCALAR("neq");
+        mask_t<Derived> result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            result.coeff(i) = neq((const Value &) derived().coeff(i),
+                                  (const Value &) d.coeff(i));
+        return result;
+    }
+
+    /// Less than comparison operation
+    ENOKI_INLINE auto lt_(const Derived &d) const {
+        ENOKI_CHKSCALAR("lt");
+        mask_t<Derived> result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            result.coeff(i) = (const Value &) derived().coeff(i) <
+                              (const Value &) d.coeff(i);
+        return result;
+    }
+
+    /// Less than or equal comparison operation
+    ENOKI_INLINE auto le_(const Derived &d) const {
+        ENOKI_CHKSCALAR("le");
+        mask_t<Derived> result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            result.coeff(i) = (const Value &) derived().coeff(i) <=
+                              (const Value &) d.coeff(i);
+        return result;
+    }
+
+    /// Greater than comparison operation
+    ENOKI_INLINE auto gt_(const Derived &d) const {
+        ENOKI_CHKSCALAR("gt");
+        mask_t<Derived> result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            result.coeff(i) = (const Value &) derived().coeff(i) >
+                              (const Value &) d.coeff(i);
+        return result;
+    }
+
+    /// Greater than or equal comparison operation
+    ENOKI_INLINE auto ge_(const Derived &d) const {
+        ENOKI_CHKSCALAR("ge");
+        mask_t<Derived> result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            result.coeff(i) = (const Value &) derived().coeff(i) >=
+                              (const Value &) d.coeff(i);
+        return result;
+    }
+
+    /// Absolute value
+    ENOKI_INLINE Derived abs_() const {
+        ENOKI_CHKSCALAR("abs");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                enoki::abs((const Value &) derived().coeff(i));
+        return result;
+    }
+
+    /// Square root
+    ENOKI_INLINE Derived sqrt_() const {
+        ENOKI_CHKSCALAR("sqrt");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                enoki::sqrt((const Value &) derived().coeff(i));
+        return result;
+    }
+
+    /// Reciprocal fallback implementation
+    ENOKI_INLINE Derived rcp_() const {
+        return (Scalar) 1 / derived();
+    }
+
+    /// Reciprocal square root fallback implementation
+    ENOKI_INLINE Derived rsqrt_() const {
+        return (Scalar) 1 / sqrt(derived());
+    }
+
+    /// Round to smallest integral value not less than argument
+    ENOKI_INLINE Derived ceil_() const {
+        ENOKI_CHKSCALAR("ceil");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                enoki::ceil((const Value &) derived().coeff(i));
+        return result;
+    }
+
+    /// Round to largest integral value not greater than argument
+    ENOKI_INLINE Derived floor_() const {
+        ENOKI_CHKSCALAR("floor");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                enoki::floor((const Value &) derived().coeff(i));
+        return result;
+    }
+
+    /// Round to integral value
+    ENOKI_INLINE Derived round_() const {
+        ENOKI_CHKSCALAR("round");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                enoki::round((const Value &) derived().coeff(i));
+        return result;
+    }
+
+    /// Round to zero
+    ENOKI_INLINE Derived trunc_() const {
+        ENOKI_CHKSCALAR("trunc");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                enoki::trunc((const Value &) derived().coeff(i));
+        return result;
+    }
+
+    /// Element-wise maximum
+    ENOKI_INLINE Derived max_(const Derived &d) const {
+        ENOKI_CHKSCALAR("max");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) = enoki::max((const Value &) derived().coeff(i),
+                                                   (const Value &) d.coeff(i));
+        return result;
+    }
+
+    /// Element-wise minimum
+    ENOKI_INLINE Derived min_(const Derived &d) const {
+        ENOKI_CHKSCALAR("min");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) = enoki::min((const Value &) derived().coeff(i),
+                                                   (const Value &) d.coeff(i));
+        return result;
+    }
+
+    /// Fused multiply-add
+    ENOKI_INLINE Derived fmadd_(const Derived &d1, const Derived &d2) const {
+        if constexpr (array_depth_v<Value> > 0) {
+            Derived result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                (Value &) result.coeff(i) = fmadd((const Value &) derived().coeff(i),
+                                                  (const Value &) d1.coeff(i),
+                                                  (const Value &) d2.coeff(i));
+            return result;
+        } else {
+            return derived() * d1 + d2;
+        }
+    }
+
+    /// Fused negative multiply-add
+    ENOKI_INLINE Derived fnmadd_(const Derived &d1, const Derived &d2) const {
+        if constexpr (array_depth_v<Value> > 0) {
+            Derived result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                (Value &) result.coeff(i) = fnmadd((const Value &) derived().coeff(i),
+                                                   (const Value &) d1.coeff(i),
+                                                   (const Value &) d2.coeff(i));
+            return result;
+        } else {
+            return -derived() * d1 + d2;
+        }
+    }
+
+    /// Fused multiply-subtract
+    ENOKI_INLINE Derived fmsub_(const Derived &d1, const Derived &d2) const {
+        if constexpr (array_depth_v<Value> > 0) {
+            Derived result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                (Value &) result.coeff(i) = fmsub((const Value &) derived().coeff(i),
+                                                  (const Value &) d1.coeff(i),
+                                                  (const Value &) d2.coeff(i));
+            return result;
+        } else {
+            return derived() * d1 - d2;
+        }
+    }
+
+    /// Fused negative multiply-subtract
+    ENOKI_INLINE Derived fnmsub_(const Derived &d1, const Derived &d2) const {
+        if constexpr (array_depth_v<Value> > 0) {
+            ENOKI_CHKSCALAR("fnmsub");
+            Derived result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                (Value &) result.coeff(i) = fnmsub((const Value &) derived().coeff(i),
+                                                   (const Value &) d1.coeff(i),
+                                                   (const Value &) d2.coeff(i));
+            return result;
+        } else {
+            return -derived() * d1 - d2;
+        }
+    }
+
+    /// Fused multiply-add/subtract fallback implementation
+    ENOKI_INLINE Derived fmaddsub_(const Derived &b, const Derived &c) const {
+        ENOKI_CHKSCALAR("fmaddsub");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i) {
+            if (i % 2 == 0)
+                (Value &) result.coeff(i) = fmsub((const Value &) derived().coeff(i),
+                                                  (const Value &) b.coeff(i),
+                                                  (const Value &) c.coeff(i));
+            else
+                (Value &) result.coeff(i) = fmadd((const Value &) derived().coeff(i),
+                                                  (const Value &) b.coeff(i),
+                                                  (const Value &) c.coeff(i));
+        }
+        return result;
+    }
+
+    /// Fused multiply-subtract/add fallback implementation
+    ENOKI_INLINE Derived fmsubadd_(const Derived &b, const Derived &c) const {
+        ENOKI_CHKSCALAR("fmsubadd");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i) {
+            if (i % 2 == 0)
+                (Value &) result.coeff(i) = fmadd((const Value &) derived().coeff(i),
+                                                  (const Value &) b.coeff(i),
+                                                  (const Value &) c.coeff(i));
+            else
+                (Value &) result.coeff(i) = fmsub((const Value &) derived().coeff(i),
+                                                  (const Value &) b.coeff(i),
+                                                  (const Value &) c.coeff(i));
+        }
+        return result;
+    }
+
+    /// Masked prefetch fallback
+    template <bool Write, size_t Level, size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE void prefetch_(const void *mem, const Index &index, const Mask &mask) {
+        ENOKI_CHKSCALAR("prefetch");
+        for (size_t i = 0; i < Derived::Size; ++i)
+            prefetch<Value, Write, Level, Stride>(mem, index.coeff(i), mask.coeff(i));
+    }
+
+    /// Masked gather fallback
+    template <size_t Stride, typename Index, typename Mask>
+    static ENOKI_INLINE Derived gather_(const void *mem, const Index &index, const Mask &mask) {
+        ENOKI_CHKSCALAR("gather");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i) {
+            if constexpr (!is_mask_v<Derived>) {
+                (Value &) result.coeff(i) =
+                    (const Value &) gather<Value, Stride>(mem, index.coeff(i), mask.coeff(i));
+            } else {
+                result.coeff(i) = gather<Value, Stride>(mem, index.coeff(i), mask.coeff(i));
+            }
+        }
+        return result;
+    }
+
+    /// Masked scatter fallback
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *mem, const Index &index, const Mask &mask) const {
+        ENOKI_CHKSCALAR("scatter");
+        for (size_t i = 0; i < Derived::Size; ++i)
+            scatter<Stride>(mem, (const Value &) derived().coeff(i), index.coeff(i), mask.coeff(i));
+    }
+
+    /// Masked scatter_add-add fallback
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_add_(void *mem, const Index &index, const Mask &mask) const {
+        transform<Derived, Stride>(mem, index,
+            [](auto &&a, auto &&b, auto &&) { a += b; },
+            derived(),
+            mask
+        );
+    }
+
+    /// Ternary operator -- select between to values based on mask
+    template <typename Mask>
+    static ENOKI_INLINE auto select_(const Mask &m, const Derived &t, const Derived &f) {
+        ENOKI_CHKSCALAR("select");
+        Derived result;
+        for (size_t i = 0; i < Size; ++i)
+            (Value &) result.coeff(i) = select(m.coeff(i), (const Value &) t.coeff(i),
+                                                           (const Value &) f.coeff(i));
+        return result;
+    }
+
+    /// Shuffle operation fallback implementation
+    template <size_t... Indices> ENOKI_INLINE Derived shuffle_() const {
+        static_assert(sizeof...(Indices) == Size ||
+                      sizeof...(Indices) == Derived::Size, "shuffle(): Invalid size!");
+        ENOKI_CHKSCALAR("shuffle");
+        Derived out;
+        size_t idx = 0;
+        bool result[] = { (out.coeff(idx++) = derived().coeff(Indices % Derived::Size), false)... };
+        (void) idx; (void) result;
+        return out;
+    }
+
+    template <typename Index> ENOKI_INLINE Derived shuffle_(const Index &index) const {
+        ENOKI_CHKSCALAR("shuffle");
+        Derived out;
+        for (size_t i = 0; i < Derived::Size; ++i) {
+            size_t idx = (size_t) index.coeff(i);
+            out.coeff(i) = derived().coeff(idx % Derived::Size);
+        }
+        return out;
+    }
+
+    /// Rotate the entries of the array right
+    template <size_t Imm> ENOKI_INLINE Derived ror_array_() const {
+        return ror_array_<Imm>(std::make_index_sequence<Derived::Size>());
+    }
+
+    /// Rotate the entries of the array left
+    template <size_t Imm>
+    ENOKI_INLINE Derived rol_array_() const {
+        return rol_array_<Imm>(std::make_index_sequence<Derived::Size>());
+    }
+
+    template <typename T> T floor2int_() const {
+        if constexpr (array_depth_v<Value> > 0) {
+            T result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                result.coeff(i) =
+                    floor2int<value_t<T>>((const Value &) derived().coeff(i));
+            return result;
+        } else {
+            return T(floor(derived()));
+        }
+    }
+
+    template <typename T> T ceil2int_() const {
+        if constexpr (array_depth_v<Value> > 0) {
+            T result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                result.coeff(i) =
+                    ceil2int<value_t<T>>((const Value &) derived().coeff(i));
+            return result;
+        } else {
+            return T(enoki::ceil(derived()));
+        }
+    }
+
+private:
+    template <size_t Imm, size_t... Is>
+    ENOKI_INLINE Derived ror_array_(std::index_sequence<Is...>) const {
+        return shuffle<(Is + Derived::Size - Imm) % Derived::Size...>(derived());
+    }
+
+    template <size_t Imm, size_t... Is>
+    ENOKI_INLINE Derived rol_array_(std::index_sequence<Is...>) const {
+        return shuffle<(Is + Imm) % Derived::Size...>(derived());
+    }
+
+    template <typename T, size_t Offset, size_t... Is>
+    ENOKI_INLINE T sub_array_(std::index_sequence<Is...>) const {
+        return T((typename Derived::Value) derived().coeff(Offset + Is)...);
+    }
+
+public:
+    /// Return the low array part (always a power of two)
+    ENOKI_INLINE auto low_() const {
+        return sub_array_<typename Derived::Array1, 0>(
+            std::make_index_sequence<Derived::Size1>());
+    }
+
+    /// Return the high array part
+    template <typename T = Derived, enable_if_t<T::Size2 != 0> = 0>
+    ENOKI_INLINE auto high_() const {
+        return sub_array_<typename Derived::Array2, Derived::Size1>(
+            std::make_index_sequence<Derived::Size2>());
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Bit counting fallback implementations
+    // -----------------------------------------------------------------------
+
+    Derived popcnt_() const {
+        using UInt = uint_array_t<Derived>;
+        UInt w = reinterpret_array<UInt>(derived());
+        using U = scalar_t<UInt>;
+
+        if constexpr (sizeof(Scalar) <= 4) {
+            w -= sr<1>(w) & U(0x55555555u);
+            w = (w & U(0x33333333u)) + ((sr<2>(w)) & U(0x33333333u));
+            w = (w + sr<4>(w)) & U(0x0F0F0F0Fu);
+            w = sr<24>(w * U(0x01010101u));
+        } else {
+            w -= sr<1>(w) & U(0x5555555555555555ull);
+            w = (w & U(0x3333333333333333ull)) + (sr<2>(w) & U(0x3333333333333333ull));
+            w = (w + sr<4>(w)) & U(0x0F0F0F0F0F0F0F0Full);
+            w = sr<56>(w * U(0x0101010101010101ull));
+        }
+        return Derived(w);
+    }
+
+    Derived lzcnt_() const {
+        using UInt = uint_array_t<Derived>;
+        UInt w = reinterpret_array<UInt>(derived());
+        w |= sr<1>(w);
+        w |= sr<2>(w);
+        w |= sr<4>(w);
+        w |= sr<8>(w);
+        w |= sr<16>(w);
+        if constexpr (sizeof(Scalar) > 4)
+            w |= sr<32>(w);
+        return popcnt(~w);
+    }
+
+    Derived tzcnt_() const {
+        using UInt = uint_array_t<Derived>;
+        UInt w = reinterpret_array<UInt>(derived());
+        w |= sl<1>(w);
+        w |= sl<2>(w);
+        w |= sl<4>(w);
+        w |= sl<8>(w);
+        w |= sl<16>(w);
+        if constexpr (sizeof(Scalar) > 4)
+            w |= sl<32>(w);
+        return popcnt(~w);
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Fallback implementations of horizontal operations
+    // -----------------------------------------------------------------------
+
+    /// Reverse fallback
+    ENOKI_INLINE Derived reverse_() const {
+        ENOKI_CHKSCALAR("reverse");
+        Derived result;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            result.coeff(i) = (const Value &) derived().coeff(Derived::Size - 1 - i);
+        return result;
+    }
+
+    /// Prefix sum fallback
+    ENOKI_INLINE Derived psum_() const {
+        ENOKI_CHKSCALAR("psum");
+        Derived result;
+        result.coeff(0) = (const Value &) derived().coeff(0);
+        for (size_t i = 1; i < Derived::Size; ++i)
+            result.coeff(i) = (const Value &) result.coeff(i - 1) +
+                              (const Value &) derived().coeff(i);
+        return result;
+    }
+
+    /// Prefix sum over innermost dimension
+    ENOKI_INLINE auto psum_inner_() const {
+        if constexpr (is_array_v<Value>) {
+            using Value = decltype(psum_inner(derived().coeff(0)));
+            using Result = typename Derived::template ReplaceValue<Value>;
+            Result result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                result.coeff(i) = psum_inner(derived().coeff(i));
+            return result;
+        } else {
+            return psum(derived());
+        }
+    }
+
+    /// Horizontal sum fallback
+    ENOKI_INLINE Value hsum_() const {
+        ENOKI_CHKSCALAR("hsum");
+        Value result = (const Value &) derived().coeff(0);
+        for (size_t i = 1; i < Derived::Size; ++i)
+            result += (const Value &) derived().coeff(i);
+        return result;
+    }
+
+    /// Horizontal sum over innermost dimension
+    ENOKI_INLINE auto hsum_inner_() const {
+        if constexpr (is_array_v<Value>) {
+            using Value = decltype(hsum_inner(derived().coeff(0)));
+            using Result = typename Derived::template ReplaceValue<Value>;
+            Result result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                result.coeff(i) = hsum_inner(derived().coeff(i));
+            return result;
+        } else {
+            return hsum(derived());
+        }
+    }
+
+    /// Horizontal product fallback
+    ENOKI_INLINE Value hprod_() const {
+        ENOKI_CHKSCALAR("hprod");
+        Value result = (const Value &) derived().coeff(0);
+        for (size_t i = 1; i < Derived::Size; ++i)
+            result *= (const Value &) derived().coeff(i);
+        return result;
+    }
+
+    /// Horizontal product over innermost dimension
+    ENOKI_INLINE auto hprod_inner_() const {
+        if constexpr (is_array_v<Value>) {
+            using Value = decltype(hprod_inner(derived().coeff(0)));
+            using Result = typename Derived::template ReplaceValue<Value>;
+            Result result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                result.coeff(i) = hprod_inner(derived().coeff(i));
+            return result;
+        } else {
+            return hprod(derived());
+        }
+    }
+
+    /// Horizontal maximum fallback
+    ENOKI_INLINE Value hmax_() const {
+        Value result = (const Value &) derived().coeff(0);
+        ENOKI_CHKSCALAR("hmax");
+        for (size_t i = 1; i < Derived::Size; ++i)
+            result = max(result, (const Value &) derived().coeff(i));
+        return result;
+    }
+
+    /// Horizontal maximum over innermost dimension
+    ENOKI_INLINE auto hmax_inner_() const {
+        if constexpr (is_array_v<Value>) {
+            using Value = decltype(hmax_inner(derived().coeff(0)));
+            using Result = typename Derived::template ReplaceValue<Value>;
+            Result result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                result.coeff(i) = hmax_inner(derived().coeff(i));
+            return result;
+        } else {
+            return hmax(derived());
+        }
+    }
+
+    /// Horizontal minimum fallback
+    ENOKI_INLINE Value hmin_() const {
+        Value result = (const Value &) derived().coeff(0);
+        ENOKI_CHKSCALAR("hmin");
+        for (size_t i = 1; i < Derived::Size; ++i)
+            result = min(result, (const Value &) derived().coeff(i));
+        return result;
+    }
+
+    /// Horizontal minimum over innermost dimension
+    ENOKI_INLINE auto hmin_inner_() const {
+        if constexpr (is_array_v<Value>) {
+            using Value = decltype(hmin_inner(derived().coeff(0)));
+            using Result = typename Derived::template ReplaceValue<Value>;
+            Result result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                result.coeff(i) = hmin_inner(derived().coeff(i));
+            return result;
+        } else {
+            return hmin(derived());
+        }
+    }
+
+    /// Horizontal mean over innermost dimension
+    ENOKI_INLINE auto hmean_inner_() const {
+        if constexpr (is_array_v<Value>) {
+            using Value = decltype(hmean_inner(derived().coeff(0)));
+            using Result = typename Derived::template ReplaceValue<Value>;
+            Result result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                result.coeff(i) = hmean_inner(derived().coeff(i));
+            return result;
+        } else {
+            return hmean(derived());
+        }
+    }
+
+    /// all() fallback implementation
+    ENOKI_INLINE auto all_() const {
+        ENOKI_CHKSCALAR("all");
+        if constexpr (Derived::IsMask && std::is_scalar_v<Value_>) {
+            bool result = derived().coeff(0);
+            for (size_t i = 1; i < Derived::Size; ++i)
+                result = result && derived().coeff(i);
+            return result;
+        } else {
+            auto result = derived().coeff(0);
+            for (size_t i = 1; i < Derived::Size; ++i)
+                result &= derived().coeff(i);
+            return result;
+        }
+    }
+
+    /// all() over innermost dimension
+    ENOKI_INLINE auto all_inner_() const {
+        if constexpr (is_array_v<Value>) {
+            using Value = decltype(all_inner(derived().coeff(0)));
+            using Result = typename Derived::template ReplaceValue<Value>;
+            Result result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                result.coeff(i) = all_inner(derived().coeff(i));
+            return result;
+        } else {
+            return all(derived());
+        }
+    }
+
+    /// any() fallback implementation
+    ENOKI_INLINE auto any_() const {
+        ENOKI_CHKSCALAR("any");
+        if constexpr (Derived::IsMask && std::is_scalar_v<Value_>) {
+            bool result = derived().coeff(0);
+            for (size_t i = 1; i < Derived::Size; ++i)
+                result = result || derived().coeff(i);
+            return result;
+        } else {
+            auto result = derived().coeff(0);
+            for (size_t i = 1; i < Derived::Size; ++i)
+                result |= derived().coeff(i);
+            return result;
+        }
+    }
+
+    /// any() over innermost dimension
+    ENOKI_INLINE auto any_inner_() const {
+        if constexpr (is_array_v<Value>) {
+            using Value = decltype(any_inner(derived().coeff(0)));
+            using Result = typename Derived::template ReplaceValue<Value>;
+            Result result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                result.coeff(i) = any_inner(derived().coeff(i));
+            return result;
+        } else {
+            return any(derived());
+        }
+    }
+
+    /// count() fallback implementation
+    ENOKI_INLINE auto count_() const {
+        ENOKI_CHKSCALAR("count");
+        using Int = value_t<size_array_t<array_t<Derived>>>;
+        const Int one(1);
+        Int result(0);
+        for (size_t i = 0; i < Derived::Size; ++i)
+            masked(result, derived().coeff(i)) += one;
+        return result;
+    }
+
+    /// count() over innermost dimension
+    ENOKI_INLINE auto count_inner_() const {
+        if constexpr (is_array_v<Value>) {
+            using Value = decltype(count_inner(derived().coeff(0)));
+            using Result = typename Derived::template ReplaceValue<Value>;
+            Result result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                result.coeff(i) = count_inner(derived().coeff(i));
+            return result;
+        } else {
+            return count(derived());
+        }
+    }
+
+    /// Dot product fallback implementation
+    ENOKI_INLINE Value dot_(const Derived &a) const {
+        ENOKI_CHKSCALAR("dot");
+        if constexpr (is_array_v<Value>) {
+            Value result = (const Value &) derived().coeff(0) *
+                           (const Value &) a.coeff(0);
+            for (size_t i = 1; i < Size; ++i)
+                result = fmadd((const Value &) derived().coeff(i),
+                               (const Value &) a.coeff(i), result);
+            return result;
+        } else {
+            return hsum(derived() * a);
+        }
+    }
+
+    /// Extract fallback implementation
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        ENOKI_CHKSCALAR("extract");
+        for (size_t i = 0; i < Derived::Size; ++i)
+            if (mask.coeff(i))
+                return (const Value &) derived().coeff(i);
+        return zero<Value>();
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE size_t compress_(Scalar *&mem, const Mask &mask) const {
+        ENOKI_CHKSCALAR("compress");
+        size_t result = 0;
+        for (size_t i = 0; i < Derived::Size; ++i)
+            result += compress(mem, (const Value &) derived().coeff(i), mask.coeff(i));
+        return result;
+    }
+
+    /// Combined gather-modify-scatter operation without conflicts (fallback implementation)
+    template <size_t Stride, typename Index, typename Func, typename Mask,
+              typename... Args>
+    static ENOKI_INLINE void transform_(void *mem, const Index &index,
+                                        const Mask &, const Func &func,
+                                        const Args &... args) {
+        ENOKI_CHKSCALAR("transform");
+        for (size_t i = 0; i < Derived::Size; ++i)
+            transform<Value, Stride>(
+                mem, index.coeff(i), func, args.coeff(i)...);
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Miscellaneous
+    // -----------------------------------------------------------------------
+
+    /// Return the size in bytes
+    ENOKI_INLINE size_t nbytes() const {
+        if constexpr (is_dynamic_v<Derived>) {
+            size_t result = 0;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                result += derived().coeff(i).nbytes();
+            return result;
+        } else {
+            return sizeof(Derived);
+        }
+    }
+
+    static ENOKI_INLINE Derived load_(const void *mem) {
+        Derived result;
+        if constexpr (is_scalar_v<Value>) {
+            memcpy(result.data(), mem, sizeof(const Value &) * Derived::Size);
+        } else {
+            ENOKI_CHKSCALAR("load");
+            for (size_t i = 0; i < Derived::Size; ++i)
+                (Value &) result.coeff(i) = load<Value>(static_cast<const Value *>(mem) + i);
+        }
+        return result;
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_(const void *mem, const Mask &mask) {
+        Derived result;
+        ENOKI_CHKSCALAR("load");
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) =
+                load<Value>(static_cast<const Value *>(mem) + i, mask.coeff(i));
+        return result;
+    }
+
+    static ENOKI_INLINE Derived load_unaligned_(const void *mem) {
+        Derived result;
+        if constexpr (is_scalar_v<Value>) {
+            memcpy(result.data(), mem, sizeof(const Value &) * Derived::Size);
+        } else {
+            ENOKI_CHKSCALAR("load_unaligned");
+            for (size_t i = 0; i < Derived::Size; ++i)
+                (Value &) result.coeff(i) =
+                    load_unaligned<Value>(static_cast<const Value *>(mem) + i);
+        }
+        return result;
+    }
+
+    template <typename Mask>
+    static ENOKI_INLINE Derived load_unaligned_(const void *mem, const Mask &mask) {
+        Derived result;
+        ENOKI_CHKSCALAR("load_unaligned");
+        for (size_t i = 0; i < Derived::Size; ++i)
+            (Value &) result.coeff(i) = load_unaligned<Value>(
+                static_cast<const Value *>(mem) + i, mask.coeff(i));
+        return result;
+    }
+
+    void store_(void *mem) const {
+        if constexpr (is_scalar_v<Value>) {
+            memcpy(mem, derived().data(), sizeof(const Value &) * derived().size());
+        } else {
+            ENOKI_CHKSCALAR("store");
+            for (size_t i = 0; i < derived().size(); ++i)
+                store<Value>(static_cast<Value *>(mem) + i, derived().coeff(i));
+        }
+    }
+
+    template <typename Mask>
+    void store_(void *mem, const Mask &mask) const {
+        ENOKI_CHKSCALAR("store");
+        for (size_t i = 0; i < derived().size(); ++i)
+            store<Value>(static_cast<Value *>(mem) + i, derived().coeff(i),
+                         mask.coeff(i));
+    }
+
+    void store_unaligned_(void *mem) const {
+        if constexpr (is_scalar_v<Value>) {
+            memcpy(mem, derived().data(), sizeof(const Value &) * derived().size());
+        } else {
+            ENOKI_CHKSCALAR("store_unaligned");
+            for (size_t i = 0; i < derived().size(); ++i)
+                store_unaligned<Value>(static_cast<Value *>(mem) + i,
+                                       derived().coeff(i));
+        }
+    }
+
+    template <typename Mask>
+    void store_unaligned_(void *mem, const Mask &mask) const {
+        ENOKI_CHKSCALAR("store_unaligned");
+        for (size_t i = 0; i < derived().size(); ++i)
+            store_unaligned<Value>(static_cast<Value *>(mem) + i,
+                                   derived().coeff(i), mask.coeff(i));
+    }
+
+    static ENOKI_INLINE Derived zero_() { return Derived(zero<Value>()); }
+
+    template <typename T> static Derived full_(const T &value, size_t size) {
+        ENOKI_MARK_USED(size);
+
+        if constexpr (array_depth_v<T> > array_depth_v<Value> ||
+                      (array_depth_v<T> == array_depth_v<Value> &&
+                       (is_dynamic_array_v<Value> || is_scalar_v<Value>))) {
+            return Derived(value);
+        } else {
+            Derived result;
+            for (size_t i = 0; i < Derived::Size; ++i)
+                result.coeff(i) = Value::full_(value, size);
+            return result;
+        }
+    }
+
+    /// Construct an evenly spaced integer sequence
+    static ENOKI_INLINE Derived arange_(ssize_t start, ssize_t stop, ssize_t step) {
+        (void) stop;
+        return linspace_(std::make_index_sequence<Derived::Size>(),
+                         start, step);
+    }
+
+    /// Construct an array that linearly interpolates from min..max
+    static ENOKI_INLINE Derived linspace_(Scalar min, Scalar max) {
+        if constexpr (Derived::Size == 0) {
+            return Derived();
+        } else if constexpr (Derived::Size == 1) {
+            return Derived(min);
+        } else {
+            return linspace_(std::make_index_sequence<Derived::Size>(), min,
+                (max - min) / (Scalar) (Derived::Size - 1));
+        }
+    }
+
+    /// Return an unitialized array
+    static ENOKI_INLINE Derived empty_() { Derived result; return result; }
+
+private:
+    template <typename T, size_t... Is>
+    static ENOKI_INLINE auto linspace_(std::index_sequence<Is...>, T offset, T step) {
+        ENOKI_MARK_USED(step);
+        if constexpr (sizeof...(Is) == 1)
+            return Derived((Scalar) offset);
+        else
+            return Derived(((Scalar) ((T) Is * step + offset))...);
+    }
+
+public:
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Component access
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE decltype(auto) x() const {
+        static_assert(Derived::ActualSize >= 1, "StaticArrayBase::x(): requires Size >= 1");
+        return derived().coeff(0);
+    }
+
+    ENOKI_INLINE decltype(auto) x() {
+        static_assert(Derived::ActualSize >= 1, "StaticArrayBase::x(): requires Size >= 1");
+        return derived().coeff(0);
+    }
+
+    ENOKI_INLINE decltype(auto) y() const {
+        static_assert(Derived::ActualSize >= 2, "StaticArrayBase::y(): requires Size >= 2");
+        return derived().coeff(1);
+    }
+
+    ENOKI_INLINE decltype(auto) y() {
+        static_assert(Derived::ActualSize >= 2, "StaticArrayBase::y(): requires Size >= 2");
+        return derived().coeff(1);
+    }
+
+    ENOKI_INLINE decltype(auto) z() const {
+        static_assert(Derived::ActualSize >= 3, "StaticArrayBase::z(): requires Size >= 3");
+        return derived().coeff(2);
+    }
+
+    ENOKI_INLINE decltype(auto) z() {
+        static_assert(Derived::ActualSize >= 3, "StaticArrayBase::z(): requires Size >= 3");
+        return derived().coeff(2);
+    }
+
+    ENOKI_INLINE decltype(auto) w() const {
+        static_assert(Derived::ActualSize >= 4, "StaticArrayBase::w(): requires Size >= 4");
+        return derived().coeff(3);
+    }
+
+    ENOKI_INLINE decltype(auto) w() {
+        static_assert(Derived::ActualSize >= 4, "StaticArrayBase::w(): requires Size >= 4");
+        return derived().coeff(3);
+    }
+
+    ENOKI_INLINE decltype(auto) data() { return &derived().coeff(0); }
+    ENOKI_INLINE decltype(auto) data() const { return &derived().coeff(0); }
+
+    ENOKI_INLINE Derived& managed() {
+        if constexpr (is_cuda_array_v<Value_>) {
+            for (size_t i = 0; i < Derived::Size; ++i)
+                derived().coeff(i).managed();
+        }
+        return derived();
+    }
+
+    ENOKI_INLINE const Derived& managed() const {
+        if constexpr (is_cuda_array_v<Value_>) {
+            for (size_t i = 0; i < Derived::Size; ++i)
+                derived().coeff(i).managed();
+        }
+        return derived();
+    }
+
+    ENOKI_INLINE Derived& eval() {
+        if constexpr (is_cuda_array_v<Value_>) {
+            for (size_t i = 0; i < Derived::Size; ++i)
+                derived().coeff(i).eval();
+        }
+        return derived();
+    }
+
+    ENOKI_INLINE const Derived& eval() const {
+        if constexpr (is_cuda_array_v<Value_>) {
+            for (size_t i = 0; i < Derived::Size; ++i)
+                derived().coeff(i).eval();
+        }
+        return derived();
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+};
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_struct.h b/sources/enoki/array_struct.h
new file mode 100644
index 00000000..1b4048d9
--- /dev/null
+++ b/sources/enoki/array_struct.h
@@ -0,0 +1,544 @@
+#pragma once
+
+NAMESPACE_BEGIN(enoki)
+
+template <typename T> using is_dynamic = std::bool_constant<struct_support_t<T>::IsDynamic>;
+template <typename T> constexpr bool is_dynamic_v = is_dynamic<T>::value;
+
+/// Gather operations with an array or other data structure as source
+template <typename Array, size_t Stride = 0, bool Packed = true,
+          bool IsPermute = false, typename Source, typename Index,
+          typename Mask = mask_t<Index>, enable_if_t<is_dynamic_v<Source>> = 0>
+ENOKI_INLINE Array gather(const Source &source, const Index &index,
+                          const identity_t<Mask> &mask = true) {
+    if constexpr (array_depth_v<Source> == 1) {
+
+        if constexpr (is_dynamic_v<Array> && is_dynamic_v<Source> &&
+                      array_depth_v<Source> >= array_depth_v<Mask>) {
+            if (source.size() <= 1)
+                return source & mask;
+        }
+
+        if constexpr (is_diff_array_v<Source>) {
+            Source::set_scatter_gather_operand_(source, IsPermute);
+            if constexpr (is_cuda_array_v<Source>)
+                cuda_set_scatter_gather_operand(source.value_().index_(), true);
+        } else if constexpr (is_cuda_array_v<Source>) {
+            cuda_set_scatter_gather_operand(source.index_(), true);
+        }
+
+        Array result = gather<Array, Stride, Packed>(source.data(), index, mask);
+
+        if constexpr (is_diff_array_v<Source>) {
+            Source::clear_scatter_gather_operand_();
+            if constexpr (is_cuda_array_v<Source>)
+                cuda_set_scatter_gather_operand(0);
+        } else if constexpr (is_cuda_array_v<Source>) {
+            cuda_set_scatter_gather_operand(0);
+        }
+
+       return result;
+    } else {
+        return struct_support_t<Array>::gather(source, index, mask);
+    }
+}
+
+template <typename Array, size_t = 0, bool = true, bool = false,
+          typename Source, typename Index, typename Mask = mask_t<Index>,
+          enable_if_t<!is_dynamic_v<Source> && !std::is_pointer_v<std::decay_t<Source>> &&
+                      !std::is_same_v<std::decay_t<Source>, std::nullptr_t>> = 0>
+ENOKI_INLINE Array gather(Source &&source, const Index &index,
+                          const identity_t<Mask> &mask= true) {
+    ENOKI_MARK_USED(index);
+    ENOKI_MARK_USED(mask);
+    return (Array) source;
+}
+
+/// Scatter operations with an array or other data structure as target
+template <size_t Stride = 0, bool Packed = true, bool IsPermute = false,
+          typename Target, typename Index, typename Value,
+          typename Mask = mask_t<Index>, enable_if_t<is_dynamic_v<Target>> = 0>
+ENOKI_INLINE void scatter(Target &target,
+                          const Value &value,
+                          const Index &index,
+                          const identity_t<Mask> &mask = true) {
+    if constexpr (array_depth_v<Target> == 1) {
+        if constexpr (is_diff_array_v<Target>) {
+            Target::set_scatter_gather_operand_(target, IsPermute);
+            if constexpr (is_cuda_array_v<Target>)
+                cuda_set_scatter_gather_operand(target.value_().index_());
+        } else if constexpr (is_cuda_array_v<Target>) {
+            cuda_set_scatter_gather_operand(target.index_());
+        }
+
+        scatter<Stride, Packed>(target.data(), value, index, mask);
+
+        if constexpr (is_diff_array_v<Target>) {
+            Target::clear_scatter_gather_operand_();
+            if constexpr (is_cuda_array_v<Target>) {
+                cuda_var_mark_dirty(target.value_().index_());
+                cuda_set_scatter_gather_operand(0);
+            }
+        } else if constexpr (is_cuda_array_v<Target>) {
+            cuda_var_mark_dirty(target.index_());
+            cuda_set_scatter_gather_operand(0);
+        }
+    } else {
+        struct_support_t<Target>::scatter(target, value, index, mask);
+    }
+}
+
+/// Scatter-add operations with an array or other data structure as target
+template <size_t Stride = 0, bool Packed = true, bool IsPermute = false,
+          typename Target, typename Index, typename Value,
+          typename Mask = mask_t<Index>, enable_if_t<is_dynamic_v<Target>> = 0>
+ENOKI_INLINE void scatter_add(Target &target,
+                              const Value &value,
+                              const Index &index,
+                              const identity_t<Mask> &mask = true) {
+    if constexpr (array_depth_v<Target> == 1) {
+        if constexpr (is_diff_array_v<Target>) {
+            Target::set_scatter_gather_operand_(target, IsPermute);
+            if constexpr (is_cuda_array_v<Target>)
+                cuda_set_scatter_gather_operand(target.value_().index_());
+        } else if constexpr (is_cuda_array_v<Target>) {
+            cuda_set_scatter_gather_operand(target.index_());
+        }
+
+        scatter_add<Stride>(target.data(), value, index, mask);
+
+        if constexpr (is_diff_array_v<Target>) {
+            Target::clear_scatter_gather_operand_();
+            if constexpr (is_cuda_array_v<Target>) {
+                cuda_var_mark_dirty(target.value_().index_());
+                cuda_set_scatter_gather_operand(0);
+            }
+        } else if constexpr (is_cuda_array_v<Target>) {
+            cuda_var_mark_dirty(target.index_());
+            cuda_set_scatter_gather_operand(0);
+        }
+    } else {
+        struct_support_t<Target>::scatter_add(target, value, index, mask);
+    }
+}
+
+// -----------------------------------------------------------------------
+//! @{ \name Adapter and routing functions for dynamic data structures
+// -----------------------------------------------------------------------
+
+template <typename T, typename>
+struct struct_support {
+    static constexpr bool IsDynamic = false;
+    using Dynamic = T;
+
+    static ENOKI_INLINE size_t slices(const T &) { return 1; }
+    static ENOKI_INLINE size_t packets(const T &) { return 1; }
+    static ENOKI_INLINE void set_slices(const T &, size_t) { }
+
+    template <typename T2> static ENOKI_INLINE decltype(auto) slice(T2&& value, size_t) { return value; }
+    template <typename T2> static ENOKI_INLINE decltype(auto) slice_ptr(T2&& value, size_t) { return &value; }
+    template <typename T2> static ENOKI_INLINE decltype(auto) packet(T2&& value, size_t) { return value; }
+    template <typename T2> static ENOKI_INLINE decltype(auto) ref_wrap(T2&& value) { return value; }
+    template <typename T2> static ENOKI_INLINE decltype(auto) detach(T2&& value) { return value; }
+
+    template <typename Mem>
+    static ENOKI_INLINE size_t compress(Mem &mem, const T &value, bool mask) {
+        size_t count = mask ? 1 : 0;
+        *mem = value;
+        mem += count;
+        return count;
+    }
+
+    static ENOKI_INLINE T zero(size_t) { return T(0); }
+    static ENOKI_INLINE T empty(size_t) { T x; return x; }
+
+    static ENOKI_INLINE detail::MaskedValue<T> masked(T &value, bool mask) {
+        return detail::MaskedValue<T>{ value, mask };
+    }
+};
+
+template <>
+struct struct_support<void, int> { using Dynamic = void; };
+
+template <typename T> ENOKI_INLINE T zero(size_t size) {
+    return struct_support_t<T>::zero(size);
+}
+
+template <typename T> ENOKI_INLINE T empty(size_t size) {
+    return struct_support_t<T>::empty(size);
+}
+
+template <typename T> ENOKI_INLINE size_t packets(const T &value) {
+    return struct_support_t<T>::packets(value);
+}
+
+template <typename T> ENOKI_INLINE size_t slices(const T &value) {
+    return struct_support_t<T>::slices(value);
+}
+
+template <typename T> ENOKI_NOINLINE void set_slices(T &value, size_t size) {
+    ENOKI_MARK_USED(value); ENOKI_MARK_USED(size);
+    if constexpr (is_dynamic_v<T>)
+        struct_support_t<T>::set_slices(value, size);
+}
+
+template <typename T> ENOKI_INLINE decltype(auto) packet(T &&value, size_t i) {
+    ENOKI_MARK_USED(i);
+    if constexpr (is_dynamic_v<T>)
+        return struct_support_t<T>::packet(value, i);
+    else
+        return value;
+}
+
+template <typename T> ENOKI_INLINE decltype(auto) slice(T &value, size_t i) {
+    return struct_support_t<T>::slice(value, i);
+}
+
+template <typename T> ENOKI_INLINE decltype(auto) slice_ptr(T &value, size_t i) {
+    return struct_support_t<T>::slice_ptr(value, i);
+}
+
+template <typename T> ENOKI_INLINE decltype(auto) ref_wrap(T &value) {
+    if constexpr (is_dynamic_v<T>)
+        return struct_support_t<T>::ref_wrap(value);
+    else
+        return value;
+}
+
+template <typename Mem, typename Value, typename Mask>
+ENOKI_INLINE size_t compress(Mem &mem, const Value &value, const Mask& mask) {
+    return struct_support_t<Value>::compress(mem, value, mask);
+}
+
+template <typename Value, typename Mask>
+ENOKI_INLINE Value compress(const Value &value, const Mask& mask) {
+    return struct_support_t<Value>::compress(value, mask);
+}
+
+template <typename T> using enable_if_dynamic_t = enable_if_t<is_dynamic_v<T>>;
+template <typename T> using enable_if_static_t = enable_if_t<!is_dynamic_v<T>>;
+
+template <typename T>
+using make_dynamic_t = typename struct_support_t<T>::Dynamic;
+
+template <typename T>
+struct struct_support<T, enable_if_static_array_t<T>> {
+    static constexpr bool IsDynamic = is_dynamic_v<value_t<T>>;
+    static constexpr size_t Size = T::Size;
+
+    using Dynamic = std::conditional_t<
+        array_depth_v<T> == 1,
+        std::conditional_t<
+            is_mask_v<T>,
+            DynamicMask<std::decay_t<T>>,
+            DynamicArray<std::decay_t<T>>
+        >,
+        typename T::template ReplaceValue<make_dynamic_t<value_t<T>>>>;
+
+    static ENOKI_INLINE size_t slices(const T &value) {
+        if constexpr (Size == 0)
+            return 0;
+        else
+            return enoki::slices(value.x());
+    }
+
+    static ENOKI_INLINE size_t packets(const T& value) {
+        if constexpr (Size == 0)
+            return 0;
+        else
+            return enoki::packets(value.x());
+    }
+
+    static ENOKI_INLINE void set_slices(T &value, size_t size) {
+        for (size_t i = 0; i < Size; ++i)
+            enoki::set_slices(value.coeff(i), size);
+    }
+
+    static ENOKI_INLINE T zero(size_t size) {
+        ENOKI_MARK_USED(size);
+        if constexpr (array_depth_v<T> == 1) {
+            return T::zero_();
+        } else {
+            T result;
+            for (size_t i = 0; i < Size; ++i)
+                result.coeff(i) = enoki::zero<value_t<T>>(size);
+            return result;
+        }
+    }
+
+    static ENOKI_INLINE T empty(size_t size) {
+        ENOKI_MARK_USED(size);
+        if constexpr (array_depth_v<T> == 1) {
+            return T::empty_();
+        } else {
+            T result;
+            for (size_t i = 0; i < Size; ++i)
+                result.coeff(i) = enoki::empty<value_t<T>>(size);
+            return result;
+        }
+    }
+
+    static ENOKI_INLINE auto masked(T &value, const mask_t<T> &mask) {
+        return detail::MaskedArray<T>{ value, mask };
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE decltype(auto) packet(T2 &value, size_t i) {
+        ENOKI_MARK_USED(i);
+        if constexpr (!is_dynamic_v<T>)
+            return value;
+        else
+            return packet(value, i, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE decltype(auto) detach(T2 &value) {
+        if constexpr (!is_diff_array_v<T>)
+            return value;
+        else
+            return detach(value, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE decltype(auto) gradient(T2 &value) {
+        if constexpr (!is_diff_array_v<T>)
+            return value;
+        else
+            return gradient(value, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE decltype(auto) slice(T2 &value, size_t i) {
+        if constexpr (array_depth_v<T> == 1)
+            return value.coeff(i);
+        else
+            return slice(value, i, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE decltype(auto) slice_ptr(T2 &value, size_t i) {
+        if constexpr (array_depth_v<T> == 1)
+            return value.data() + i;
+        else
+            return slice_ptr(value, i, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE decltype(auto) ref_wrap(T2 &value) {
+        if constexpr (!is_dynamic_v<T>)
+            return value;
+        else
+            return ref_wrap(value, std::make_index_sequence<Size>());
+    }
+
+    template <typename Mem>
+    static ENOKI_INLINE size_t compress(Mem &mem, const expr_t<T>& value, const mask_t<expr_t<T>> &mask) {
+        if constexpr (is_array_v<Mem>) {
+            size_t result = 0;
+            for (size_t i = 0; i < Size; ++i)
+                result = enoki::compress(mem.coeff(i), value.coeff(i), mask.coeff(i));
+            return result;
+        } else {
+            return value.compress_(mem, mask);
+        }
+    }
+
+    static ENOKI_INLINE T compress(const T &value, const mask_t<T> &mask) {
+        T result;
+        for (size_t i = 0; i < Size; ++i)
+            result.coeff(i) = enoki::compress(value.coeff(i), mask.coeff(i));
+        return result;
+    }
+
+    template <typename Src, typename Index, typename Mask>
+    static ENOKI_INLINE T gather(const Src &src, const Index &index, const Mask &mask) {
+        return gather(src, index, mask, std::make_index_sequence<Size>());
+    }
+
+    template <typename Dst, typename Index, typename Mask>
+    static ENOKI_INLINE void scatter(Dst &dst, const T &value, const Index &index, const Mask &mask) {
+        scatter(dst, value, index, mask, std::make_index_sequence<Size>());
+    }
+
+    template <typename Dst, typename Index, typename Mask>
+    static ENOKI_INLINE void scatter_add(Dst &dst, const T &value, const Index &index, const Mask &mask) {
+        scatter_add(dst, value, index, mask, std::make_index_sequence<Size>());
+    }
+
+private:
+    template <typename T2, size_t... Is>
+    static ENOKI_INLINE decltype(auto) packet(T2 &value, size_t i, std::index_sequence<Is...>) {
+        using Value = decltype(enoki::packet(value.coeff(0), i));
+        using Return = typename T::template ReplaceValue<Value>;
+        return Return(enoki::packet(value.coeff(Is), i)...);
+    }
+
+    template <typename T2, size_t... Is>
+    static ENOKI_INLINE decltype(auto) slice(T2 &value, size_t i, std::index_sequence<Is...>) {
+        using Value = decltype(enoki::slice(value.coeff(0), i));
+        using Return = typename T::template ReplaceValue<Value>;
+        return Return(enoki::slice(value.coeff(Is), i)...);
+    }
+
+    template <typename T2, size_t... Is>
+    static ENOKI_INLINE decltype(auto) slice_ptr(T2 &value, size_t i, std::index_sequence<Is...>) {
+        using Value = decltype(enoki::slice_ptr(value.coeff(0), i));
+        using Return = typename T::template ReplaceValue<Value>;
+        return Return(enoki::slice_ptr(value.coeff(Is), i)...);
+    }
+
+    template <typename T2, size_t... Is>
+    static ENOKI_INLINE decltype(auto) ref_wrap(T2 &value, std::index_sequence<Is...>) {
+        using Value = decltype(enoki::ref_wrap(value.coeff(0)));
+        using Return = typename T::template ReplaceValue<Value>;
+        return Return(enoki::ref_wrap(value.coeff(Is))...);
+    }
+
+    template <typename Src, typename Index, typename Mask, size_t... Is>
+    static ENOKI_INLINE T gather(const Src &src, const Index &index, const Mask &mask,
+                                 std::index_sequence<Is...>) {
+        return T(enoki::gather<value_t<T>>(src.coeff(Is), index, mask)...);
+    }
+
+    template <typename T2, size_t... Is>
+    static ENOKI_INLINE decltype(auto) detach(T2 &a, std::index_sequence<Is...>) {
+        using Value = decltype(enoki::detach(a.coeff(0)));
+        using Return = typename T::template ReplaceValue<Value>;
+        return Return(enoki::detach(a.coeff(Is))...);
+    }
+
+    template <typename T2, size_t... Is>
+    static ENOKI_INLINE decltype(auto) gradient(T2 &a, std::index_sequence<Is...>) {
+        using Value = decltype(enoki::gradient(a.coeff(0)));
+        using Return = typename T::template ReplaceValue<Value>;
+        return Return(enoki::gradient(a.coeff(Is))...);
+    }
+
+    template <typename Dst, typename Index, typename Mask, size_t... Is>
+    static ENOKI_INLINE void scatter(Dst &src, const T &value, const Index &index,
+                                     const Mask &mask, std::index_sequence<Is...>) {
+        bool unused[] = { (enoki::scatter(src.coeff(Is), value.coeff(Is), index, mask), false) ... , false };
+        ENOKI_MARK_USED(unused);
+    }
+
+    template <typename Dst, typename Index, typename Mask, size_t... Is>
+    static ENOKI_INLINE void scatter_add(Dst &src, const T &value, const Index &index,
+                                     const Mask &mask, std::index_sequence<Is...>) {
+        bool unused[] = { (enoki::scatter_add(src.coeff(Is), value.coeff(Is), index, mask), false) ... , false };
+        ENOKI_MARK_USED(unused);
+    }
+};
+
+template <typename T>
+struct struct_support<T, enable_if_dynamic_array_t<T>> {
+    static constexpr bool IsDynamic = true;
+    using Dynamic = T;
+
+    static ENOKI_INLINE T zero(size_t size) { return T::zero_(size); }
+    static ENOKI_INLINE T empty(size_t size) { return T::empty_(size); }
+
+    static ENOKI_INLINE auto masked(T &value, const mask_t<T> &mask) {
+        return detail::MaskedArray<T>{ value, mask };
+    }
+
+    static ENOKI_INLINE size_t packets(const T &value) { return value.packets(); }
+    static ENOKI_INLINE size_t slices(const T &value) { return value.size(); }
+    static ENOKI_INLINE void set_slices(T &value, size_t size) { value.resize(size); }
+    static ENOKI_INLINE decltype(auto) packet(const T &value, size_t i) { return value.packet(i); }
+    static ENOKI_INLINE decltype(auto) packet(T &value, size_t i) { return value.packet(i); }
+    static ENOKI_INLINE decltype(auto) slice(const T &value, size_t i) { return value.coeff(i); }
+    static ENOKI_INLINE decltype(auto) slice(T &value, size_t i) { return value.coeff(i); }
+    static ENOKI_INLINE decltype(auto) slice_ptr(const T &value, size_t i) { return value.data() + i; }
+    static ENOKI_INLINE decltype(auto) slice_ptr(T &value, size_t i) { return value.data() + i; }
+    static ENOKI_INLINE decltype(auto) detach(const T &value) { return value; }
+    static ENOKI_INLINE decltype(auto) detach(T &value) { return value; }
+    static ENOKI_INLINE auto ref_wrap(T &value) { return value.ref_wrap_(); }
+    static ENOKI_INLINE auto ref_wrap(const T &value) { return value.ref_wrap_(); }
+
+    template <typename Mem>
+    static ENOKI_INLINE size_t compress(Mem &mem, const T& value, const mask_t<T> &mask) {
+        return value.compress_(mem, mask);
+    }
+    static ENOKI_INLINE T compress(const T &value, const mask_t<T> &mask) {
+        return value.compress_(mask);
+    }
+};
+
+namespace detail {
+    /// Recursive helper function used by enoki::shape
+    template <typename T>
+    void extract_shape_recursive(size_t *out, size_t i, const T &array) {
+        ENOKI_MARK_USED(out); ENOKI_MARK_USED(i); ENOKI_MARK_USED(array);
+        using Value = value_t<T>;
+
+        if constexpr (is_array_v<T>) {
+            *out = array.derived().size();
+            if constexpr (is_array_v<Value>) {
+                if (*out > 0)
+                    extract_shape_recursive(out + 1, i + 1, array.derived().coeff(0));
+            }
+        }
+    }
+
+    template <typename T>
+    bool is_ragged_recursive(const T &a, const size_t *shape) {
+        ENOKI_MARK_USED(shape);
+        if constexpr (is_array_v<T>) {
+            size_t size = a.derived().size();
+            if (*shape != size)
+                return true;
+
+            bool match = true;
+            using Value = value_t<T>;
+            if constexpr (is_static_array_v<T> && is_dynamic_v<Value>) {
+                for (size_t i = 0; i < size; ++i)
+                    match &= !is_ragged_recursive(a.derived().coeff(i), shape + 1);
+            }
+
+            return !match;
+        } else {
+            return false;
+        }
+    }
+
+    template <typename T>
+    ENOKI_INLINE void set_shape_recursive(T &&a, const size_t *shape) {
+        ENOKI_MARK_USED(shape);
+        if constexpr (is_array_v<T>) {
+            size_t size = a.derived().size();
+            a.resize(*shape);
+
+            if (is_dynamic_array_v<T>) {
+                /* done. */
+            } else if (is_dynamic_v<value_t<T>>) {
+                for (size_t i = 0; i < size; ++i)
+                    set_shape_recursive(a.derived().coeff(i), shape + 1);
+            } else {
+                if (size > 0)
+                    set_shape_recursive(a.derived().coeff(0), shape + 1);
+            }
+        }
+    }
+}
+
+/// Extract the shape of a nested array as an std::array
+template <typename T, typename Result = std::array<size_t, array_depth_v<T>>>
+Result shape(const T &array) {
+    Result result{0};
+    detail::extract_shape_recursive(result.data(), 0, array);
+    return result;
+}
+
+template <typename T>
+void set_shape(T &a, const std::array<size_t, array_depth_v<T>> &value) {
+    detail::set_shape_recursive(a, value.data());
+}
+
+template <typename T> bool ragged(const T &a) {
+    return detail::is_ragged_recursive(a, shape(a).data());
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_traits.h b/sources/enoki/array_traits.h
new file mode 100644
index 00000000..405f3040
--- /dev/null
+++ b/sources/enoki/array_traits.h
@@ -0,0 +1,615 @@
+/*
+    enoki/array_traits.h -- Type traits for Enoki arrays
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include "fwd.h"
+#include <cstdint>
+#include <cmath>
+#include <cassert>
+#include <array>
+#include <limits>
+#include <iostream>
+#include <string>
+#include <stdexcept>
+#include <tuple>
+#include <memory>
+
+NAMESPACE_BEGIN(enoki)
+
+// -----------------------------------------------------------------------
+//! @{ \name General type traits (not specific to Enoki arrays)
+// -----------------------------------------------------------------------
+
+/// Convenience wrapper around std::enable_if
+template <bool B> using enable_if_t = std::enable_if_t<B, int>;
+
+constexpr size_t Dynamic = (size_t) -1;
+
+namespace detail {
+    /// Identity function for types
+    template <typename T, typename...> struct identity {
+        using type = T;
+    };
+
+    template <template <typename...> typename B, typename T>
+    struct is_base_of_impl {
+    private:
+        template <typename... Ts>
+        static constexpr std::true_type test(const B<Ts...> *);
+        static constexpr std::false_type test(...);
+
+    public:
+        using type = decltype(test(std::declval<T *>()));
+    };
+
+    template <typename, template <typename...> typename Op, typename... Ts>
+    struct detector : std::false_type { };
+
+    template <template <typename...> typename Op, typename... Ts>
+    struct detector<std::void_t<Op<Ts...>>, Op, Ts...>
+        : std::true_type { };
+
+    template <typename... > constexpr bool false_v = false;
+}
+
+template <typename... Ts> using identity_t = typename detail::identity<Ts...>::type;
+
+template <template<typename ...> class Op, class... Args>
+constexpr bool is_detected_v = detail::detector<void, Op, Args...>::value;
+
+/// Check if 'T' is a subtype of a given template 'B'
+template <template <typename...> typename B, typename T>
+using is_base_of = typename detail::is_base_of_impl<B, T>::type;
+
+template <template <typename...> typename B, typename T>
+constexpr bool is_base_of_v = is_base_of<B, T>::value;
+
+/// Check if T is an integer of a given size (supports both 'int' and 'long' family)
+template <typename T> using is_int8 = std::bool_constant<std::is_integral_v<T> && sizeof(T) == 1>;
+template <typename T> constexpr bool is_int8_v = is_int8<T>::value;
+
+template <typename T> using is_int16 = std::bool_constant<std::is_integral_v<T> && sizeof(T) == 2>;
+template <typename T> constexpr bool is_int16_v = is_int16<T>::value;
+
+template <typename T> using is_int32 = std::bool_constant<std::is_integral_v<T> && sizeof(T) == 4>;
+template <typename T> constexpr bool is_int32_v = is_int32<T>::value;
+
+template <typename T> using is_int64 = std::bool_constant<std::is_integral_v<T> && sizeof(T) == 8>;
+template <typename T> constexpr bool is_int64_v = is_int64<T>::value;
+
+template <typename T> constexpr bool is_float_v = std::is_same_v<T, float>;
+template <typename T> constexpr bool is_double_v = std::is_same_v<T, double>;
+
+template <typename T> using is_std_float = std::bool_constant<is_float_v<T> || is_double_v<T>>;
+template <typename T> constexpr bool is_std_float_v = is_std_float<T>::value;
+
+template <typename T> using is_std_int = std::bool_constant<is_int32_v<T> || is_int64_v<T>>;
+template <typename T> constexpr bool is_std_int_v = is_std_int<T>::value;
+
+template <typename T> using is_std_type = std::bool_constant<is_std_int_v<T> || is_std_float_v<T>>;
+template <typename T> constexpr bool is_std_type_v = is_std_type<T>::value;
+
+template <typename T> using enable_if_int32_t = enable_if_t<is_int32_v<T>>;
+template <typename T> using enable_if_int64_t = enable_if_t<is_int64_v<T>>;
+template <typename T> using enable_if_std_int_v = enable_if_t<is_std_int_v<T>>;
+template <typename T> using enable_if_std_float_v = enable_if_t<is_std_float_v<T>>;
+template <typename T> using enable_if_std_type_v = enable_if_t<is_std_type_v<T>>;
+
+template <typename T> constexpr bool is_scalar_v = std::is_scalar_v<std::decay_t<T>>;
+
+namespace detail {
+    /// Value equivalence between arithmetic type to work around subtle issues between 'long' vs 'long long' on OSX
+    template <typename T0, typename T1>
+    struct is_same {
+        static constexpr bool value =
+            sizeof(T0) == sizeof(T1) &&
+            std::is_floating_point_v<T0> == std::is_floating_point_v<T1> &&
+            std::is_signed_v<T0> == std::is_signed_v<T1> &&
+            std::is_arithmetic_v<T0> == std::is_arithmetic_v<T1>;
+    };
+
+    template <typename T0, typename T1>
+    static constexpr bool is_same_v = is_same<T0, T1>::value;
+
+    template <typename T> using has_size = std::enable_if_t<std::decay_t<T>::Size != Dynamic>;
+    template <typename T> constexpr bool has_size_v = is_detected_v<has_size, T>;
+
+    template <typename T> using is_masked_array = std::enable_if_t<T::IsMaskedArray>;
+    template <typename T> constexpr bool is_masked_array_v = is_detected_v<is_masked_array, T>;
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+// -----------------------------------------------------------------------
+//! @{ \name Type traits for Enoki arrays
+// -----------------------------------------------------------------------
+
+/// Is 'T' an Enoki array? (any variant)
+template <typename T> using is_array = is_base_of<ArrayBase, std::decay_t<T>>;
+template <typename T> constexpr bool is_array_v = is_array<T>::value;
+template <typename T> using enable_if_array_t = enable_if_t<is_array_v<T>>;
+template <typename T> using enable_if_not_array_t = enable_if_t<!is_array_v<T>>;
+
+template <typename... Ts> using is_array_any = std::disjunction<is_array<Ts>...>;
+template <typename... Ts> constexpr bool is_array_any_v = is_array_any<Ts...>::value;
+template <typename... Ts> using enable_if_array_any_t = enable_if_t<is_array_any_v<Ts...>>;
+
+template <typename T> using is_static_array = std::bool_constant<is_array_v<T> && detail::has_size_v<T>>;
+template <typename T> constexpr bool is_static_array_v = is_static_array<T>::value;
+template <typename T> using enable_if_static_array_t = enable_if_t<is_static_array_v<T>>;
+
+template <typename T> using is_dynamic_array = std::bool_constant<is_array_v<T> && !detail::has_size_v<T>>;
+template <typename T> constexpr bool is_dynamic_array_v = is_dynamic_array<T>::value;
+template <typename T> using enable_if_dynamic_array_t = enable_if_t<is_dynamic_array_v<T>>;
+
+namespace detail {
+    template <typename T, typename = int> struct value {
+        using type = std::decay_t<T>;
+    };
+
+    template <typename T, typename = int> struct packet_ {
+        using type = std::decay_t<T>;
+    };
+
+    template <typename T> struct value<T, enable_if_array_t<T>> {
+        using type = typename std::decay_t<T>::Derived::Value;
+    };
+
+    template <typename T>
+    struct packet_<
+        T, enable_if_t<is_array_v<T> && !detail::is_masked_array_v<T>>> {
+        using type = typename std::decay_t<T>::Derived::Value;
+    };
+
+    template <typename T>
+    struct packet_<
+        T, enable_if_t<is_array_v<T> && detail::is_masked_array_v<T>>> {
+        using type = typename std::decay_t<T>::Derived::UnderlyingValue;
+    };
+}
+
+/// Type trait to access the value type of an array
+template <typename T> using value_t = typename detail::value<T>::type;
+
+/// Is 'T' an Enoki mask or a boolean?
+template <typename T, typename = int> struct is_mask {
+    static constexpr bool value = std::is_same_v<std::decay_t<T>, bool>;
+};
+
+template <typename T> struct is_mask<MaskBit<T>> {
+    static constexpr bool value = true;
+};
+
+template <typename T> struct is_mask<T, enable_if_array_t<T>> {
+    static constexpr bool value = std::decay_t<T>::Derived::IsMask;
+};
+
+template <typename T> constexpr bool is_mask_v = is_mask<T>::value;
+template <typename T> using enable_if_mask_t = enable_if_t<is_mask_v<T>>;
+template <typename T> using enable_if_not_mask_t = enable_if_t<!is_mask_v<T>>;
+
+/// Is 'T' implemented using a recursive implementation?
+template <typename T, typename = int> struct is_recursive_array {
+    static constexpr bool value = false;
+};
+
+template <typename T> struct is_recursive_array<T, enable_if_array_t<T>> {
+    static constexpr bool value = std::decay_t<T>::Derived::IsRecursive;
+};
+
+template <typename T> constexpr bool is_recursive_array_v = is_recursive_array<T>::value;
+template <typename T> using enable_if_recursive_t = enable_if_t<is_recursive_array_v<T>>;
+
+/// Does this array compute derivatives using automatic differentiation?
+template <typename T, typename = int> struct is_diff_array {
+    static constexpr bool value = false;
+};
+
+template <typename T> struct is_diff_array<T, enable_if_array_t<T>> {
+    static constexpr bool value = std::decay_t<T>::Derived::IsDiff;
+};
+
+template <typename T> constexpr bool is_diff_array_v = is_diff_array<T>::value;
+template <typename T> using enable_if_diff_array_t = enable_if_t<is_diff_array_v<T>>;
+
+/// Does this array reside on the GPU (via CUDA)?
+template <typename T, typename = int> struct is_cuda_array {
+    static constexpr bool value = false;
+};
+
+template <typename T> struct is_cuda_array<T, enable_if_array_t<T>> {
+    static constexpr bool value = std::decay_t<T>::Derived::IsCUDA;
+};
+
+template <typename T> constexpr bool is_cuda_array_v = is_cuda_array<T>::value;
+template <typename T> using enable_if_cuda_t = enable_if_t<is_cuda_array_v<T>>;
+
+/// Determine the depth of a nested Enoki array (scalars evaluate to zero)
+template <typename T, typename = int> struct array_depth {
+    static constexpr size_t value = 0;
+};
+
+template <typename T> struct array_depth<T, enable_if_array_t<T>> {
+    static constexpr size_t value = std::decay_t<T>::Derived::Depth;
+};
+
+template <typename T> constexpr size_t array_depth_v = array_depth<T>::value;
+
+/// Determine the size of a nested Enoki array (scalars evaluate to one)
+template <typename T, typename = int> struct array_size {
+    static constexpr size_t value = 1;
+};
+
+template <typename T> struct array_size<T, enable_if_static_array_t<T>> {
+    static constexpr size_t value = std::decay_t<T>::Derived::Size;
+};
+
+template <typename T> struct array_size<T, enable_if_dynamic_array_t<T>> {
+    static constexpr size_t value = Dynamic;
+};
+
+template <typename T> constexpr size_t array_size_v = array_size<T>::value;
+
+namespace detail {
+    template <typename T, size_t>
+    struct prepend_index { };
+
+    template <size_t... Index, size_t Value>
+    struct prepend_index<std::index_sequence<Index...>, Value> {
+        using type = std::index_sequence<Value, Index...>;
+    };
+
+    template <typename T, size_t Value>
+    using prepend_index_t = typename prepend_index<T, Value>::type;
+}
+
+/// Determine the shape of an array
+template <typename T, typename = int> struct array_shape {
+    using type = std::index_sequence<>;
+};
+
+template <typename T>
+using array_shape_t = typename array_shape<T>::type;
+
+template <typename T> struct array_shape<T, enable_if_array_t<T>> {
+    using type = detail::prepend_index_t<array_shape_t<value_t<T>>, array_size_v<T>>;
+};
+
+namespace detail {
+    template <typename T, typename = int> struct scalar {
+        using type = std::decay_t<T>;
+    };
+
+    template <typename T> struct scalar<T, enable_if_array_t<T>> {
+        using type = typename std::decay_t<T>::Derived::Scalar;
+    };
+
+    template <typename T> using packet_t = typename detail::packet_<T>::type;
+}
+
+/// Type trait to access the base scalar type underlying a potentially nested array
+template <typename T> using scalar_t = typename detail::scalar<T>::type;
+
+struct BitRef;
+
+namespace detail {
+    /// Copy modifier flags (const/pointer/lvalue/rvalue reference from 'S' to 'T')
+    template <typename S, typename T> struct copy_flags {
+    private:
+        using R = std::remove_reference_t<S>;
+        using T1 = std::conditional_t<std::is_const_v<R>, std::add_const_t<T>, T>;
+        using T2 = std::conditional_t<std::is_pointer_v<S>,
+                                      std::add_pointer_t<T1>, T1>;
+        using T3 = std::conditional_t<std::is_lvalue_reference_v<S>,
+                                      std::add_lvalue_reference_t<T2>, T2>;
+        using T4 = std::conditional_t<std::is_rvalue_reference_v<S>,
+                                      std::add_rvalue_reference_t<T3>, T3>;
+
+    public:
+        using type = T4;
+    };
+
+    template <typename S, typename T>
+    using copy_flags_t = typename detail::copy_flags<S, T>::type;
+
+    template <typename T, bool CopyFlags, typename = int> struct mask {
+        using type = bool;
+    };
+
+    template <typename T, bool CopyFlags> struct mask<T&, CopyFlags, enable_if_t<is_scalar_v<T>>> {
+        using type = BitRef;
+    };
+
+    template <typename T, bool CopyFlags> struct mask<T, CopyFlags, enable_if_array_t<T>> {
+    private:
+        using Mask = copy_flags_t<T, typename std::decay_t<T>::Derived::MaskType>;
+    public:
+        using type = std::conditional_t<CopyFlags, detail::copy_flags_t<T, Mask>, Mask>;
+    };
+
+    template <typename T, bool CopyFlags, typename = int> struct array { };
+
+    template <typename T, bool CopyFlags> struct array<T, CopyFlags, enable_if_array_t<T>> {
+    private:
+        using Array = copy_flags_t<T, typename std::decay_t<T>::Derived::ArrayType>;
+    public:
+        using type = std::conditional_t<CopyFlags, detail::copy_flags_t<T, Array>, Array>;
+    };
+}
+
+/// Type trait to access the mask type underlying an array
+template <typename T, bool CopyFlags = true> using mask_t = typename detail::mask<T, CopyFlags>::type;
+
+/// Type trait to access the array type underlying a mask
+template <typename T, bool CopyFlags = true> using array_t = typename detail::array<T, CopyFlags>::type;
+
+/// Extract the most deeply nested Enoki array type from a list of arguments
+template <typename... Args> struct deepest_array;
+template <> struct deepest_array<> { using type = void; };
+
+template <typename Arg, typename... Args> struct deepest_array<Arg, Args...> {
+private:
+    using T0 = Arg;
+    using T1 = typename deepest_array<Args...>::type;
+
+    // Give precedence to dynamic arrays
+    static constexpr size_t D0 = array_depth_v<T0>;
+    static constexpr size_t D1 = array_depth_v<T1>;
+
+public:
+    using type = std::conditional_t<(D1 > D0 || D0 == 0), T1, T0>;
+};
+
+template <typename... Args> using deepest_array_t = typename deepest_array<Args...>::type;
+
+namespace detail {
+    template <typename... Ts> struct expr;
+}
+
+/// Type trait to compute the type of an arithmetic expression involving Ts...
+template <typename... Ts> using expr_t = typename detail::expr<Ts...>::type;
+
+namespace detail {
+    /// Type trait to compute the result of a unary expression
+    template <typename Array, typename T> struct expr_1;
+
+    template <typename T> struct expr_1<T, T> {
+    private:
+        using Td        = std::decay_t<T>;
+        using Entry     = value_t<T>;
+        using EntryExpr = expr_t<Entry>;
+
+    public:
+        using type = std::conditional_t<
+            std::is_same_v<Entry, EntryExpr>,
+            Td, typename Td::Derived::template ReplaceValue<EntryExpr>
+        >;
+    };
+
+    template <typename T>
+    struct expr_1<void, T> { using type = std::decay_t<T>; };
+
+    /// Type trait to compute the result of a n-ary expression involving types (T, Ts...)
+    template <typename Array, typename T, typename... Ts>
+    struct expr_n {
+    private:
+        using Value = expr_t<detail::packet_t<T>, detail::packet_t<Ts>...>;
+    public:
+        using type  = typename std::decay_t<Array>::Derived::template ReplaceValue<Value>;
+    };
+
+    template <typename T, typename... Ts>
+    struct expr_n<void, T, Ts...> {
+        using type = decltype(std::declval<T>() + std::declval<expr_t<Ts...>>());
+    };
+
+    template <typename T1, typename T2> struct expr_n<void, T1*, T2*> { using type = std::common_type_t<T1*, T2*>; };
+    template <typename T> struct expr_n<void, T*, std::nullptr_t> { using type = T*; };
+    template <typename T> struct expr_n<void, T*, unsigned long long> { using type = T*; };
+    template <typename T> struct expr_n<void, T*, unsigned long> { using type = T*; };
+    template <typename T> struct expr_n<void, std::nullptr_t, T*> { using type = T*; };
+    template <typename T, typename T2> struct expr_n<void, T, enoki::divisor_ext<T2>> { using type = T2; };
+    template <typename T, typename T2> struct expr_n<void, T, enoki::divisor<T2>> { using type = T2; };
+    template <> struct expr_n<void, bool, bool> { using type = bool; };
+
+    /// Type trait to compute the result of arbitrary expressions
+    template <typename... Ts> struct expr    : detail::expr_n<deepest_array_t<Ts...>, Ts...> { };
+    template <typename T>     struct expr<T> : detail::expr_1<deepest_array_t<T>,     T>     { };
+}
+
+namespace detail {
+    template <typename T, typename = int> struct array_broadcast_outer {
+        static constexpr bool value = true;
+    };
+
+    template <typename T> struct array_broadcast_outer<T, enable_if_array_t<T>> {
+        static constexpr bool value = std::decay_t<T>::Derived::BroadcastPreferOuter;
+    };
+
+    template <typename T> constexpr bool array_broadcast_outer_v = array_broadcast_outer<T>::value;
+
+    /// Convenience class to choose an arithmetic type based on its size and flavor
+    template <size_t Size> struct type_chooser { };
+
+    template <> struct type_chooser<1> {
+        using Int = int8_t;
+        using UInt = uint8_t;
+    };
+
+    template <> struct type_chooser<2> {
+        using Int = int16_t;
+        using UInt = uint16_t;
+        using Float = half;
+    };
+
+    template <> struct type_chooser<4> {
+        using Int = int32_t;
+        using UInt = uint32_t;
+        using Float = float;
+    };
+
+    template <> struct type_chooser<8> {
+        using Int = int64_t;
+        using UInt = uint64_t;
+        using Float = double;
+    };
+}
+
+/// Replace the base scalar type of a (potentially nested) array
+template <typename T, typename Value, bool CopyFlags = true, typename = int>
+struct replace_scalar { };
+
+template <typename T, typename Value, bool CopyFlags = true>
+using replace_scalar_t = typename replace_scalar<T, Value, CopyFlags>::type;
+
+template <typename T, typename Value, bool CopyFlags> struct replace_scalar<T, Value, CopyFlags, enable_if_not_array_t<T>> {
+    using type = std::conditional_t<CopyFlags, detail::copy_flags_t<T, Value>, Value>;
+};
+
+template <typename T, typename Value, bool CopyFlags> struct replace_scalar<T, Value, CopyFlags, enable_if_array_t<T>> {
+private:
+    using Entry = replace_scalar_t<detail::packet_t<T>, Value, CopyFlags>;
+    using Array = typename std::decay_t<T>::Derived::template ReplaceValue<Entry>;
+public:
+    using type = std::conditional_t<CopyFlags, detail::copy_flags_t<T, Array>, Array>;
+};
+
+/// Integer-based version of a given array class
+template <typename T, bool CopyFlags = true>
+using int_array_t = replace_scalar_t<T, typename detail::type_chooser<sizeof(scalar_t<T>)>::Int, CopyFlags>;
+
+/// Unsigned integer-based version of a given array class
+template <typename T, bool CopyFlags = true>
+using uint_array_t = replace_scalar_t<T, typename detail::type_chooser<sizeof(scalar_t<T>)>::UInt, CopyFlags>;
+
+/// Floating point-based version of a given array class
+template <typename T, bool CopyFlags = true>
+using float_array_t = replace_scalar_t<T, typename detail::type_chooser<sizeof(scalar_t<T>)>::Float, CopyFlags>;
+
+
+template <typename T, bool CopyFlags = true> using int32_array_t   = replace_scalar_t<T, int32_t, CopyFlags>;
+template <typename T, bool CopyFlags = true> using uint32_array_t  = replace_scalar_t<T, uint32_t, CopyFlags>;
+template <typename T, bool CopyFlags = true> using int64_array_t   = replace_scalar_t<T, int64_t, CopyFlags>;
+template <typename T, bool CopyFlags = true> using uint64_array_t  = replace_scalar_t<T, uint64_t, CopyFlags>;
+template <typename T, bool CopyFlags = true> using float16_array_t = replace_scalar_t<T, half, CopyFlags>;
+template <typename T, bool CopyFlags = true> using float32_array_t = replace_scalar_t<T, float, CopyFlags>;
+template <typename T, bool CopyFlags = true> using float64_array_t = replace_scalar_t<T, double, CopyFlags>;
+template <typename T, bool CopyFlags = true> using bool_array_t    = replace_scalar_t<T, bool, CopyFlags>;
+template <typename T, bool CopyFlags = true> using size_array_t    = replace_scalar_t<T, size_t, CopyFlags>;
+template <typename T, bool CopyFlags = true> using ssize_array_t   = replace_scalar_t<T, ssize_t, CopyFlags>;
+
+//! @}
+// -----------------------------------------------------------------------
+
+template <typename T> using struct_support_t = struct_support<std::decay_t<T>>;
+
+// -----------------------------------------------------------------------
+//! @{ \name Type enumeration
+// -----------------------------------------------------------------------
+
+enum class EnokiType { Invalid = 0, Int8, UInt8, Int16, UInt16,
+                       Int32, UInt32, Int64, UInt64, Float16,
+                       Float32, Float64, Bool, Pointer };
+
+template <typename T, typename = int> struct enoki_type {
+    static constexpr EnokiType value = EnokiType::Invalid;
+};
+
+template <typename T> struct enoki_type<T, enable_if_t<is_int8_v<T>>> {
+    static constexpr EnokiType value =
+        std::is_signed_v<T> ? EnokiType::Int8 : EnokiType::UInt8;
+};
+
+template <typename T> struct enoki_type<T, enable_if_t<is_int16_v<T>>> {
+    static constexpr EnokiType value =
+        std::is_signed_v<T> ? EnokiType::Int16 : EnokiType::UInt16;
+};
+
+template <typename T> struct enoki_type<T, enable_if_t<is_int32_v<T>>> {
+    static constexpr EnokiType value =
+        std::is_signed_v<T> ? EnokiType::Int32 : EnokiType::UInt32;
+};
+
+template <typename T> struct enoki_type<T, enable_if_t<is_int64_v<T>>> {
+    static constexpr EnokiType value =
+        std::is_signed_v<T> ? EnokiType::Int64 : EnokiType::UInt64;
+};
+
+template <typename T> struct enoki_type<T, enable_if_t<std::is_enum_v<T>>> {
+    static constexpr EnokiType value = enoki_type<std::underlying_type_t<T>>::value;
+};
+
+template <> struct enoki_type<half> {
+    static constexpr EnokiType value = EnokiType::Float16;
+};
+
+template <> struct enoki_type<float> {
+    static constexpr EnokiType value = EnokiType::Float32;
+};
+
+template <> struct enoki_type<double> {
+    static constexpr EnokiType value = EnokiType::Float64;
+};
+
+template <> struct enoki_type<bool> {
+    static constexpr EnokiType value = EnokiType::Bool;
+};
+
+template <typename T> struct enoki_type<T *> {
+    static constexpr EnokiType value = EnokiType::Pointer;
+};
+
+template <typename T> constexpr EnokiType enoki_type_v = enoki_type<T>::value;
+
+//! @}
+// -----------------------------------------------------------------------
+
+// -----------------------------------------------------------------------
+//! @{ \name Type trait to inspect the return/argument types of functions
+// -----------------------------------------------------------------------
+
+template <typename T, typename SFINAE = void> struct function_traits { };
+
+// Vanilla function
+template <typename R, typename... A> struct function_traits<R(*)(A...)> {
+    using Args = std::tuple<A...>;
+    using Return = R;
+};
+
+// Method
+template <typename C, typename R, typename... A> struct function_traits<R(C::*)(A...)> {
+    using Class = C;
+    using Args = std::tuple<A...>;
+    using Return = R;
+};
+
+// Method (const)
+template <typename C, typename R, typename... A> struct function_traits<R(C::*)(A...) const> {
+    using Class = C;
+    using Args = std::tuple<A...>;
+    using Return = R;
+};
+
+// Lambda function -- strip lambda closure and delegate back to ``function_traits``
+template <typename F>
+struct function_traits<
+    F, std::enable_if_t<std::is_member_function_pointer_v<decltype(
+           &std::remove_reference_t<F>::operator())>>>
+    : function_traits<decltype(&std::remove_reference_t<F>::operator())> { };
+
+//! @}
+// -----------------------------------------------------------------------
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/array_utils.h b/sources/enoki/array_utils.h
new file mode 100644
index 00000000..c5ee5d5a
--- /dev/null
+++ b/sources/enoki/array_utils.h
@@ -0,0 +1,200 @@
+/*
+    enoki/array_router.h -- Helper functions which route function calls
+    in the enoki namespace to the intended recipients
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/array_generic.h>
+#include <enoki/array_idiv.h>
+
+NAMESPACE_BEGIN(enoki)
+
+/// Analagous to meshgrid() in NumPy or MATLAB; for dynamic arrays
+template <typename T, enable_if_dynamic_array_t<T> = 0>
+Array<T, 2> meshgrid(const T &x, const T &y) {
+    if constexpr (is_cuda_array_v<T> || is_diff_array_v<T>) {
+        x.eval(); y.eval();
+
+        if (x.size() == 1) {
+            T x2(x);
+            set_slices(x2, slices(y));
+            return Array<T, 2>(
+                std::move(x2),
+                y
+            );
+        }
+
+        uint32_t n = (uint32_t) x.size() * (uint32_t) y.size();
+        divisor<uint32_t> div((uint32_t) x.size());
+
+        using UInt32 = uint32_array_t<T>;
+        UInt32 index = arange<UInt32>(n),
+               yi    = div(index),
+               xi    = index - yi * (uint32_t) x.size();
+
+        return Array<T, 2>(
+            gather<T>(x, xi),
+            gather<T>(y, yi)
+        );
+    } else {
+        T X, Y;
+        set_slices(X, x.size() * y.size());
+        set_slices(Y, x.size() * y.size());
+
+        size_t pos = 0;
+
+        if (x.size() % T::PacketSize == 0) {
+            /* Fast path */
+
+            for (size_t i = 0; i < y.size(); ++i) {
+                for (size_t j = 0; j < packets(x); ++j) {
+                    packet(X, pos) = packet(x, j);
+                    packet(Y, pos) = y.coeff(i);
+                    pos++;
+                }
+            }
+        } else {
+            for (size_t i = 0; i < y.size(); ++i) {
+                for (size_t j = 0; j < x.size(); ++j) {
+                    X.coeff(pos) = x.coeff(j);
+                    Y.coeff(pos) = y.coeff(i);
+                    pos++;
+                }
+            }
+        }
+
+        return Array<T, 2>(std::move(X), std::move(Y));
+    }
+}
+
+/// Vectorized N-dimensional 'range' iterable with automatic mask computation
+template <typename Value> struct range {
+    static constexpr size_t Dimension = array_depth_v<Value> == 2 ?
+        array_size_v<Value> : 1;
+    static constexpr size_t PacketSize = array_depth_v<Value> == 2 ?
+        array_size_v<value_t<Value>> : array_size_v<Value>;
+
+    using Scalar = scalar_t<Value>;
+    using Packet = Array<Scalar, PacketSize>;
+    using Size   = Array<Scalar, Dimension>;
+
+    struct iterator {
+        iterator(size_t index) : index(index) { }
+        iterator(size_t index, Size size)
+            : index(index), index_p(arange<Packet>()), size(size) {
+            for (size_t i = 0; i < Dimension - 1; ++i)
+                div[i] = size[i];
+        }
+
+        bool operator==(const iterator &it) const { return it.index == index; }
+        bool operator!=(const iterator &it) const { return it.index != index; }
+
+        iterator &operator++() {
+            index += 1;
+            index_p += Scalar(Packet::Size);
+            return *this;
+        }
+
+        std::pair<Value, mask_t<Packet>> operator*() const {
+            if constexpr (array_depth_v<Value> == 1) {
+                return { index_p, index_p < size[0] };
+            } else {
+                Value value;
+                value[0] = index_p;
+                ENOKI_UNROLL for (size_t i = 0; i < Dimension - 1; ++i)
+                    value[i + 1] = div[i](value[i]);
+                Packet offset = zero<Packet>();
+                ENOKI_UNROLL for (size_t i = Dimension - 2; ; --i) {
+                    offset = size[i] * (value[i + 1] + offset);
+                    value[i] -= offset;
+                    if (i == 0)
+                        break;
+                }
+
+                return { value, value[Dimension - 1] < size[Dimension - 1] };
+            }
+        }
+
+    private:
+        size_t index;
+        Packet index_p;
+        Size size;
+        divisor<Scalar> div[Dimension > 1 ? (Dimension - 1) : 1];
+    };
+
+    template <typename... Args>
+    range(Args&&... args) : size(args...) { }
+
+    iterator begin() {
+        return iterator(0, size);
+    }
+
+    iterator end() {
+        return iterator((hprod(size) + Packet::Size - 1) / Packet::Size);
+    }
+
+private:
+    Size size;
+};
+
+template <typename Predicate,
+          typename Args  = typename function_traits<Predicate>::Args,
+          typename Index = std::decay_t<std::tuple_element_t<0, Args>>>
+Index binary_search(scalar_t<Index> start_,
+                    scalar_t<Index> end_,
+                    const Predicate &pred) {
+    Index start(start_), end(end_);
+
+    scalar_t<Index> iterations = (start_ < end_) ?
+        (log2i(end_ - start_) + 1) : 0;
+
+    for (size_t i = 0; i < iterations; ++i) {
+        Index middle = sr<1>(start + end);
+
+        mask_t<Index> cond = pred(middle);
+
+        masked(start,  cond) = min(middle + 1, end);
+        masked(end,   !cond) = middle;
+    }
+
+    return start;
+}
+
+// -----------------------------------------------------------------------
+//! @{ \name Stack memory allocation
+// -----------------------------------------------------------------------
+
+/**
+ * \brief Wrapper around alloca(), which returns aligned (and, optionally,
+ * zero-initialized) memory
+ */
+#define ENOKI_ALIGNED_ALLOCA(Array, Count, Clear)                             \
+    enoki::detail::alloca_helper<Array, Clear>((uint8_t *) alloca(            \
+        sizeof(Array) * (Count) + enoki::max_packet_size - 4),                \
+        sizeof(Array) * (Count))
+
+namespace detail {
+    template <typename Array, bool Clear>
+    ENOKI_INLINE Array *alloca_helper(uint8_t *ptr, size_t size) {
+        (uintptr_t &) ptr +=
+            ((max_packet_size - (uintptr_t) ptr) % max_packet_size);
+        if constexpr (Clear)
+            memset(ptr, 0, size);
+        return (Array *) ptr;
+    }
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/autodiff.h b/sources/enoki/autodiff.h
new file mode 100644
index 00000000..1b10f279
--- /dev/null
+++ b/sources/enoki/autodiff.h
@@ -0,0 +1,1569 @@
+/*
+    enoki/autodiff.h -- Reverse mode automatic differentiation
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyrighe (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/array.h>
+#include <vector>
+
+#define ENOKI_AUTODIFF_H 1
+
+NAMESPACE_BEGIN(enoki)
+
+template <typename Type> struct Tape {
+private:
+    template <typename T> friend struct DiffArray;
+
+    struct Detail;
+    struct Node;
+    struct Edge;
+    struct Special;
+    struct SimplificationLock;
+
+    using Index = uint32_t;
+    using Mask = mask_t<Type>;
+    using Int64 = int64_array_t<Type>;
+
+    Tape();
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Append unary/binary/ternary operations to the tape
+    // -----------------------------------------------------------------------
+
+    Index append(const char *label, size_t size, Index i1, const Type &w1);
+
+    Index append(const char *label, size_t size, Index i1, Index i2,
+                 const Type &w1, const Type &w2);
+
+    Index append(const char *label, size_t size, Index i1, Index i2, Index i3,
+                 const Type &w1, const Type &w2, const Type &w3);
+
+    Index append_psum(Index i);
+    Index append_reverse(Index i);
+
+    Index append_gather(const Int64 &offset, const Mask &mask);
+
+    void append_scatter(Index index, const Int64 &offset, const Mask &mask,
+                        bool scatter_add);
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Append nodes and edges to the tape
+    // -----------------------------------------------------------------------
+
+    Index append_node(size_t size, const char *label);
+    Index append_leaf(size_t size);
+    void append_edge(Index src, Index dst, const Type &weight);
+    void append_edge_prod(Index src, Index dst, const Type &weight1,
+                          const Type &weight2);
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Reference counting
+    // -----------------------------------------------------------------------
+
+    void dec_ref_ext(Index index);
+    void inc_ref_ext(Index index);
+    void dec_ref_int(Index index, Index from);
+    void inc_ref_int(Index index, Index from);
+    void free_node(Index index);
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Other operations
+    // -----------------------------------------------------------------------
+
+    void set_scatter_gather_operand(Index *index, size_t size, bool permute);
+    void push_prefix(const char *);
+    void pop_prefix();
+    void backward(bool free_graph);
+    void forward(bool free_graph);
+    void backward(Index index, bool free_graph);
+    void forward(Index index, bool free_graph);
+    void set_gradient(Index index, const Type &value,
+                      bool backward = true);
+    void set_label(Index index, const char *name);
+    const Type &gradient(Index index);
+    std::string graphviz(const std::vector<Index> &indices);
+    /// Current log level (0 == none, 1 == minimal, 2 == moderate, 3 == high, 4 == everything)
+    void set_log_level(uint32_t);
+    uint32_t log_level() const;
+    void set_graph_simplification(bool);
+    void simplify_graph();
+    std::string whos() const;
+    static void cuda_callback(void*);
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    static Tape* get() ENOKI_PURE;
+
+public:
+    ~Tape();
+
+private:
+
+    static std::unique_ptr<Tape> s_tape;
+    Detail *d;
+};
+
+template <typename Type>
+struct DiffArray : ArrayBase<value_t<Type>, DiffArray<Type>> {
+public:
+    using Base = enoki::ArrayBase<value_t<Type>, DiffArray<Type>>;
+    using typename Base::Scalar;
+    using Tape = enoki::Tape<Type>;
+    using Index = uint32_t;
+
+    using UnderlyingType = Type;
+    using ArrayType = DiffArray;
+    using MaskType = DiffArray<mask_t<Type>>;
+
+    static constexpr size_t Size = is_scalar_v<Type> ? 1 : array_size_v<Type>;
+    static constexpr size_t Depth = is_scalar_v<Type> ? 1 : array_depth_v<Type>;
+    static constexpr bool IsMask = is_mask_v<Type>;
+    static constexpr bool IsCUDA = is_cuda_array_v<Type>;
+    static constexpr bool IsDiff = true;
+    static constexpr bool Enabled =
+        std::is_floating_point_v<scalar_t<Type>> && !is_mask_v<Type>;
+
+    template <typename T>
+    using ReplaceValue = DiffArray<replace_scalar_t<Type, T, false>>;
+
+    static_assert(array_depth_v<Type> <= 1,
+                  "DiffArray requires a scalar or (non-nested) static or "
+                  "dynamic Enoki array as template parameter.");
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Constructors / destructors
+    // -----------------------------------------------------------------------
+
+    DiffArray() = default;
+
+    ~DiffArray() {
+        if constexpr (Enabled)
+            tape()->dec_ref_ext(m_index);
+    }
+
+    DiffArray(const DiffArray &a) : m_value(a.m_value), m_index(a.m_index) {
+        if constexpr (Enabled)
+            tape()->inc_ref_ext(m_index);
+    }
+
+    DiffArray(DiffArray &&a) : m_value(std::move(a.m_value)) {
+        if constexpr (Enabled) {
+            m_index = a.m_index;
+            a.m_index = 0;
+        }
+    }
+
+    template <typename T>
+    DiffArray(const DiffArray<T> &v, detail::reinterpret_flag) :
+        m_value(v.value_(), detail::reinterpret_flag()) { /* no derivatives */ }
+
+    template <typename Type2, enable_if_t<!std::is_same_v<Type, Type2>> = 0>
+    DiffArray(const DiffArray<Type2> &a) : m_value(a.value_()) { }
+
+    template <typename Type2, enable_if_t<!std::is_same_v<Type, Type2>> = 0>
+    DiffArray(DiffArray<Type2> &&a) : m_value(std::move(a.value_())) { }
+
+    DiffArray(Type &&value) : m_value(std::move(value)) { }
+
+    template <typename... Args,
+             enable_if_t<sizeof...(Args) != 0 && std::conjunction_v<
+                  std::negation<is_diff_array<Args>>...>> = 0>
+    DiffArray(Args&&... args) : m_value(std::forward<Args>(args)...) { }
+
+    DiffArray &operator=(const DiffArray &a) {
+        m_value = a.m_value;
+        if constexpr (Enabled) {
+            auto t = tape();
+            t->inc_ref_ext(a.m_index);
+            t->dec_ref_ext(m_index);
+            m_index = a.m_index;
+        }
+        return *this;
+    }
+
+    DiffArray &operator=(DiffArray &&a) {
+        m_value = std::move(a.m_value);
+        if constexpr (Enabled)
+            std::swap(m_index, a.m_index);
+        return *this;
+    }
+
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical operations
+    // -----------------------------------------------------------------------
+
+    DiffArray add_(const DiffArray &a) const {
+        if constexpr (is_mask_v<Type> || std::is_pointer_v<Scalar>) {
+            fail_unsupported("add_");
+        } else {
+            Index index_new = 0;
+            Type result = m_value + a.m_value;
+            if constexpr (Enabled)
+                index_new = tape()->append("add", slices(result), m_index,
+                                           a.m_index, 1.f, 1.f);
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray sub_(const DiffArray &a) const {
+        if constexpr (is_mask_v<Type> || std::is_pointer_v<Scalar>) {
+            fail_unsupported("sub_");
+        } else {
+            Index index_new = 0;
+            Type result = m_value - a.m_value;
+            if constexpr (Enabled)
+                index_new = tape()->append("sub", slices(result), m_index,
+                                           a.m_index, 1.f, -1.f);
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray mul_(const DiffArray &a) const {
+        if constexpr (is_mask_v<Type> || std::is_pointer_v<Scalar>) {
+            fail_unsupported("mul_");
+        } else {
+            Index index_new = 0;
+            Type result = m_value * a.m_value;
+            if constexpr (Enabled)
+                index_new = tape()->append("mul", slices(result), m_index,
+                                           a.m_index, a.m_value, m_value);
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray div_(const DiffArray &a) const {
+        if constexpr (is_mask_v<Type> || std::is_pointer_v<Scalar>) {
+            fail_unsupported("div_");
+        } else {
+            Index index_new = 0;
+            Type result = m_value / a.m_value;
+            if constexpr (Enabled) {
+                Type rcp_a = rcp(a.m_value);
+                index_new = tape()->append("div", slices(result),
+                                           m_index, a.m_index, rcp_a,
+                                           -m_value * sqr(rcp_a));
+            }
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray fmadd_(const DiffArray &a, const DiffArray &b) const {
+        if constexpr (is_mask_v<Type>) {
+            fail_unsupported("fmadd_");
+        } else {
+            Index index_new = 0;
+            Type result = fmadd(m_value, a.m_value, b.m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("fmadd", slices(result),
+                                           m_index, a.m_index, b.m_index,
+                                           a.m_value, m_value, 1);
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray fmsub_(const DiffArray &a, const DiffArray &b) const {
+        if constexpr (is_mask_v<Type>) {
+            fail_unsupported("fmsub_");
+        } else {
+            Type result = fmsub(m_value, a.m_value, b.m_value);
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append("fmsub", slices(result),
+                                           m_index, a.m_index, b.m_index,
+                                           a.m_value, m_value, -1);
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray fnmadd_(const DiffArray &a, const DiffArray &b) const {
+        if constexpr (is_mask_v<Type>) {
+            fail_unsupported("fnmadd_");
+        } else {
+            Type result = fnmadd(m_value, a.m_value, b.m_value);
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append("fnmadd", slices(result),
+                                           m_index, a.m_index, b.m_index,
+                                           -a.m_value, -m_value, 1);
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray fnmsub_(const DiffArray &a, const DiffArray &b) const {
+        if constexpr (is_mask_v<Type>) {
+            fail_unsupported("fnmsub_");
+        } else {
+            Index index_new = 0;
+            Type result = fnmsub(m_value, a.m_value, b.m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("fnmsub", slices(result),
+                                           m_index, a.m_index, b.m_index,
+                                           -a.m_value, -m_value, -1);
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray neg_() const {
+        if constexpr (is_mask_v<Type> || std::is_pointer_v<Scalar>) {
+            fail_unsupported("neg_");
+        } else {
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append("neg", slices(m_value), m_index, -1.f);
+            return DiffArray::create(index_new, -m_value);
+        }
+    }
+
+    DiffArray abs_() const {
+        if constexpr (is_mask_v<Type> || std::is_pointer_v<Scalar>) {
+            fail_unsupported("abs_");
+        } else {
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append("abs", slices(m_value), m_index,
+                                           sign(m_value));
+            return DiffArray::create(index_new, abs(m_value));
+        }
+    }
+
+    DiffArray sqrt_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("sqrt_");
+        } else {
+            Index index_new = 0;
+            Type result = sqrt(m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("sqrt", slices(result), m_index,
+                                           .5f / result);
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray cbrt_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("cbrt_");
+        } else {
+            Index index_new = 0;
+            Type result = cbrt(m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("cbrt", slices(result), m_index,
+                                           1.f / (3 * sqr(result)));
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray rcp_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("rcp_");
+        } else {
+            Index index_new = 0;
+            Type result = rcp(m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("rcp", slices(result), m_index,
+                                           -sqr(result));
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray rsqrt_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("rsqrt_");
+        } else {
+            Index index_new = 0;
+            Type result = rsqrt(m_value);
+            if constexpr (Enabled) {
+                Type rsqrt_2 = sqr(result), rsqrt_3 = result * rsqrt_2;
+                index_new = tape()->append("rsqrt", slices(result), m_index,
+                                           -.5f * rsqrt_3);
+            }
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray min_(const DiffArray &a) const {
+        if constexpr (is_mask_v<Type>) {
+            fail_unsupported("min_");
+        } else {
+            Index index_new = 0;
+            Type result = min(m_value, a.m_value);
+            if constexpr (Enabled) {
+                mask_t<Type> m = m_value < a.m_value;
+                index_new = tape()->append("min", slices(result),
+                                           m_index, a.m_index,
+                                           select(m, Type(1), Type(0)),
+                                           select(m, Type(0), Type(1)));
+            }
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray max_(const DiffArray &a) const {
+        if constexpr (is_mask_v<Type>) {
+            fail_unsupported("max_");
+        } else {
+            Index index_new = 0;
+            Type result = max(m_value, a.m_value);
+            if constexpr (Enabled) {
+                mask_t<Type> m = m_value > a.m_value;
+                index_new = tape()->append("max", slices(result),
+                                           m_index, a.m_index,
+                                           select(m, Type(1), Type(0)),
+                                           select(m, Type(0), Type(1)));
+            }
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    static DiffArray select_(const DiffArray<mask_t<Type>> &m,
+                             const DiffArray &t,
+                             const DiffArray &f) {
+        Index index_new = 0;
+        Type result = select(m.value_(), t.m_value, f.m_value);
+        if constexpr (Enabled) {
+            index_new =
+                tape()->append("select", slices(result), t.m_index, f.m_index,
+                               select(m.value_(), Type(1), Type(0)),
+                               select(m.value_(), Type(0), Type(1)));
+        }
+        return DiffArray::create(index_new, std::move(result));
+    }
+
+    DiffArray floor_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>)
+            fail_unsupported("floor_");
+        else
+            return DiffArray::create(0, floor(m_value));
+    }
+
+    DiffArray ceil_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>)
+            fail_unsupported("ceil_");
+        else
+            return DiffArray::create(0, ceil(m_value));
+    }
+
+    DiffArray trunc_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>)
+            fail_unsupported("trunc_");
+        else
+            return DiffArray::create(0, trunc(m_value));
+    }
+
+    DiffArray round_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>)
+            fail_unsupported("round_");
+        else
+            return DiffArray::create(0, round(m_value));
+    }
+
+    template <typename T> T ceil2int_() const {
+        return T(ceil2int<typename T::UnderlyingType>(m_value));
+    }
+
+    template <typename T> T floor2int_() const {
+        return T(floor2int<typename T::UnderlyingType>(m_value));
+    }
+
+    DiffArray sin_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("sin_");
+        } else {
+            Index index_new = 0;
+            auto [s, c] = sincos(m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("sin", slices(m_value), m_index, c);
+            return DiffArray::create(index_new, std::move(s));
+        }
+    }
+
+    DiffArray cos_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("cos_");
+        } else {
+            Index index_new = 0;
+            auto [s, c] = sincos(m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("cos", slices(m_value), m_index, -s);
+            return DiffArray::create(index_new, std::move(c));
+        }
+    }
+
+    std::pair<DiffArray, DiffArray> sincos_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("sincos_");
+        } else {
+            Index index_new_s = 0, index_new_c = 0;
+            auto [s, c] = sincos(m_value);
+            if constexpr (Enabled) {
+                index_new_s = tape()->append("sin", slices(m_value), m_index,  c);
+                index_new_c = tape()->append("cos", slices(m_value), m_index, -s);
+            }
+            return {
+                DiffArray::create(index_new_s, std::move(s)),
+                DiffArray::create(index_new_c, std::move(c))
+            };
+        }
+    }
+
+    DiffArray tan_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("tan_");
+        } else {
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append("tan", slices(m_value), m_index,
+                                           sqr(sec(m_value)));
+            return DiffArray::create(index_new, tan(m_value));
+        }
+    }
+
+    DiffArray csc_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("csc_");
+        } else {
+            Index index_new = 0;
+            Type csc_value = csc(m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("csc", slices(m_value), m_index,
+                                           -csc_value * cot(m_value));
+            return DiffArray::create(index_new, std::move(csc_value));
+        }
+    }
+
+    DiffArray sec_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("sec_");
+        } else {
+            Index index_new = 0;
+            Type sec_value = sec(m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("sec", slices(m_value), m_index,
+                                           sec_value * tan(m_value));
+            return DiffArray::create(index_new, std::move(sec_value));
+        }
+    }
+
+    DiffArray cot_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("cot_");
+        } else {
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append("cot", slices(m_value), m_index,
+                                           -sqr(csc(m_value)));
+            return DiffArray::create(index_new, cot(m_value));
+        }
+    }
+
+    DiffArray asin_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("asin_");
+        } else {
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append("asin", slices(m_value), m_index,
+                                           rsqrt(1 - sqr(m_value)));
+            return DiffArray::create(index_new, asin(m_value));
+        }
+    }
+
+    DiffArray acos_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("acos_");
+        } else {
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append("acos", slices(m_value), m_index,
+                                           -rsqrt(1 - sqr(m_value)));
+            return DiffArray::create(index_new, acos(m_value));
+        }
+    }
+
+    DiffArray atan_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("atan_");
+        } else {
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append("atan", slices(m_value), m_index,
+                                           rcp(1 + sqr(m_value)));
+            return DiffArray::create(index_new, atan(m_value));
+        }
+    }
+
+    DiffArray atan2_(const DiffArray &x) const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("atan2_");
+        } else {
+            Index index_new = 0;
+
+            if constexpr (Enabled) {
+                Type il2 = rcp(sqr(m_value) + sqr(x.m_value));
+                index_new = tape()->append("atan2", slices(il2),
+                                           m_index, x.m_index,
+                                           il2 * x.m_value, -il2 * m_value);
+            }
+
+            return DiffArray::create(index_new, atan2(m_value, x.m_value));
+        }
+    }
+
+    DiffArray sinh_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("sinh_");
+        } else {
+            Index index_new = 0;
+            auto [s, c] = sincosh(m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("sinh", slices(m_value), m_index, c);
+            return DiffArray::create(index_new, std::move(s));
+        }
+    }
+
+    DiffArray cosh_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("cosh_");
+        } else {
+            Index index_new = 0;
+            auto [s, c] = sincosh(m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("cosh", slices(m_value), m_index, s);
+            return DiffArray::create(index_new, std::move(c));
+        }
+    }
+
+    DiffArray csch_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("csch_");
+        } else {
+            Index index_new = 0;
+            Type result = csch(m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("csch", slices(m_value), m_index,
+                                           -result * coth(m_value));
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray sech_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("sech_");
+        } else {
+            Index index_new = 0;
+            Type result = sech(m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("sech", slices(m_value), m_index,
+                                           -result * tanh(m_value));
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray tanh_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("tanh_");
+        } else {
+            Index index_new = 0;
+            Type result = tanh(m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("index", slices(m_value), m_index,
+                                           sqr(sech(m_value)));
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray asinh_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("asinh_");
+        } else {
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append("asinh", slices(m_value), m_index,
+                                           rsqrt((Scalar) 1 + sqr(m_value)));
+            return DiffArray::create(index_new, asinh(m_value));
+        }
+    }
+
+    DiffArray acosh_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("acosh_");
+        } else {
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append("acosh", slices(m_value), m_index,
+                                           rsqrt(sqr(m_value) - (Scalar) 1));
+            return DiffArray::create(index_new, acosh(m_value));
+        }
+    }
+
+    DiffArray atanh_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("atanh_");
+        } else {
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append("atanh", slices(m_value), m_index,
+                                           rcp((Scalar) 1 - sqr(m_value)));
+            return DiffArray::create(index_new, atanh(m_value));
+        }
+    }
+
+    DiffArray exp_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("exp_");
+        } else {
+            Index index_new = 0;
+            Type result = exp(m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append("exp", slices(m_value),
+                                           m_index, result);
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray log_() const {
+        if constexpr (is_mask_v<Type> || !std::is_floating_point_v<Scalar>) {
+            fail_unsupported("log_");
+        } else {
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append("log", slices(m_value), m_index,
+                                           rcp(m_value));
+            return DiffArray::create(index_new, log(m_value));
+        }
+    }
+
+    DiffArray or_(const DiffArray &m) const {
+        if constexpr (!is_mask_v<Type> && !std::is_integral_v<Scalar>)
+            fail_unsupported("or_");
+        else
+            return DiffArray::create(0, m_value | m.value_());
+    }
+
+    template <typename Mask> DiffArray or_(const Mask &m) const {
+        Index index_new = 0;
+        if constexpr (Enabled && is_mask_v<Mask>)
+            index_new = tape()->append("or", slices(m_value), m_index, 1);
+        return DiffArray::create(index_new, m_value | m.value_());
+    }
+
+    DiffArray and_(const DiffArray &m) const {
+        if constexpr (!is_mask_v<Type> && !std::is_integral_v<Scalar>)
+            fail_unsupported("and_");
+        else
+            return DiffArray::create(0, m_value & m.value_());
+    }
+
+    template <typename Mask>
+    DiffArray and_(const Mask &m) const {
+        Index index_new = 0;
+        if constexpr (Enabled && is_mask_v<Mask>)
+            index_new = tape()->append("and", slices(m_value), m_index,
+                                       select(m.value_(), Type(1), Type(0)));
+        return DiffArray::create(index_new, m_value & m.value_());
+    }
+
+    DiffArray xor_(const DiffArray &m) const {
+        if constexpr (!is_mask_v<Type> && !std::is_integral_v<Scalar>)
+            fail_unsupported("xor_");
+        else
+            return DiffArray::create(0, m_value ^ m.value_());
+    }
+
+    template <typename Mask>
+    DiffArray xor_(const Mask &m) const {
+        if (Enabled && m_index != 0)
+            fail_unsupported("xor_ -- gradients are not implemented.");
+        return DiffArray(m_value ^ m.value_());
+    }
+
+    DiffArray andnot_(const DiffArray &m) const {
+        if constexpr (!is_mask_v<Type> && !std::is_integral_v<Scalar>)
+            fail_unsupported("andnot_");
+        else
+            return DiffArray::create(0, andnot(m_value, m.value_()));
+    }
+
+    template <typename Mask>
+    DiffArray andnot_(const Mask &m) const {
+        if (Enabled && m_index != 0)
+            fail_unsupported("andnot_ -- gradients are not implemented.");
+        return DiffArray(andnot(m_value, m.value_()));
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Operations that don't require derivatives
+    // -----------------------------------------------------------------------
+
+    DiffArray mod_(const DiffArray &a) const {
+        if constexpr (!std::is_integral_v<Scalar>)
+            fail_unsupported("mod_");
+        else
+            return m_value % a.m_value;
+    }
+
+    DiffArray mulhi_(const DiffArray &a) const {
+        if constexpr (!std::is_integral_v<Scalar>)
+            fail_unsupported("mulhi_");
+        else
+            return mulhi(m_value, a.m_value);
+    }
+
+    DiffArray not_() const {
+        if constexpr ((!is_mask_v<Type> && !std::is_integral_v<Scalar>) ||
+                      std::is_pointer_v<Scalar>)
+            fail_unsupported("not_");
+        else
+            return DiffArray::create(0, ~m_value);
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE value_t<Type> extract_(const Mask &mask) const {
+        if constexpr (is_mask_v<Type> || Enabled)
+            fail_unsupported("extract_");
+        else
+            return extract(m_value, mask.value_());
+    }
+
+    DiffArray lzcnt_() const {
+        if constexpr ((!is_mask_v<Type> && !std::is_integral_v<Scalar>) ||
+                      std::is_pointer_v<Scalar>)
+            fail_unsupported("lzcnt_");
+        else
+            return DiffArray::create(0, lzcnt(m_value));
+    }
+
+    DiffArray tzcnt_() const {
+        if constexpr ((!is_mask_v<Type> && !std::is_integral_v<Scalar>) ||
+                      std::is_pointer_v<Scalar>)
+            fail_unsupported("tzcnt_");
+        else
+            return DiffArray::create(0, tzcnt(m_value));
+    }
+
+    DiffArray popcnt_() const {
+        if constexpr ((!is_mask_v<Type> && !std::is_integral_v<Scalar>) ||
+                      std::is_pointer_v<Scalar>)
+            fail_unsupported("popcnt_");
+        else
+            return DiffArray::create(0, popcnt(m_value));
+    }
+
+    template <size_t Imm> DiffArray sl_() const {
+        if constexpr (is_mask_v<Type> || !std::is_integral_v<Scalar>)
+            fail_unsupported("sl_");
+        else
+            return DiffArray::create(0, sl<Imm>(m_value));
+    }
+
+    template <size_t Imm> DiffArray sr_() const {
+        if constexpr (is_mask_v<Type> || !std::is_integral_v<Scalar>)
+            fail_unsupported("sr_");
+        else
+            return DiffArray::create(0, sr<Imm>(m_value));
+    }
+
+    DiffArray sl_(const DiffArray &a) const {
+        if constexpr (is_mask_v<Type> || !std::is_integral_v<Scalar>)
+            fail_unsupported("sl_");
+        else
+            return DiffArray::create(0, m_value << a.m_value);
+    }
+
+    DiffArray sr_(const DiffArray &a) const {
+        if constexpr (is_mask_v<Type> || !std::is_integral_v<Scalar>)
+            fail_unsupported("sr_");
+        else
+            return DiffArray::create(0, m_value >> a.m_value);
+    }
+
+    DiffArray sl_(size_t size) const {
+        if constexpr (is_mask_v<Type> || !std::is_integral_v<Scalar>)
+            fail_unsupported("sl_");
+        else
+            return DiffArray::create(0, m_value << size);
+    }
+
+    DiffArray sr_(size_t size) const {
+        if constexpr (is_mask_v<Type> || !std::is_integral_v<Scalar>)
+            fail_unsupported("sr_");
+        else
+            return DiffArray::create(0, m_value >> size);
+    }
+
+    template <size_t Imm> DiffArray rol_() const {
+        if constexpr (is_mask_v<Type> || !std::is_integral_v<Scalar>)
+            fail_unsupported("rol_");
+        else
+            return DiffArray::create(0, rol<Imm>(m_value));
+    }
+
+    template <size_t Imm> DiffArray ror_() const {
+        if constexpr (is_mask_v<Type> || !std::is_integral_v<Scalar>)
+            fail_unsupported("ror_");
+        else
+            return DiffArray::create(0, ror<Imm>(m_value));
+    }
+
+    DiffArray rol_(const DiffArray &a) const {
+        if constexpr (is_mask_v<Type> || !std::is_integral_v<Scalar>)
+            fail_unsupported("rol_");
+        else
+            return DiffArray::create(0, rol(m_value, a.m_value));
+    }
+
+    DiffArray ror_(const DiffArray &a) const {
+        if constexpr (is_mask_v<Type> || !std::is_integral_v<Scalar>)
+            fail_unsupported("ror_");
+        else
+            return DiffArray::create(0, ror(m_value, a.m_value));
+    }
+
+    auto eq_ (const DiffArray &d) const { return MaskType(eq(m_value, d.m_value)); }
+    auto neq_(const DiffArray &d) const { return MaskType(neq(m_value, d.m_value)); }
+    auto lt_ (const DiffArray &d) const { return MaskType(m_value < d.m_value); }
+    auto le_ (const DiffArray &d) const { return MaskType(m_value <= d.m_value); }
+    auto gt_ (const DiffArray &d) const { return MaskType(m_value > d.m_value); }
+    auto ge_ (const DiffArray &d) const { return MaskType(m_value >= d.m_value); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Scatter/gather operations
+    // -----------------------------------------------------------------------
+
+    template <size_t Stride, typename Offset, typename Mask>
+    static DiffArray gather_(const void *ptr, const Offset &offset,
+                             const Mask &mask) {
+        static_assert(!Enabled || Stride == sizeof(Scalar),
+                      "Differentiable gather: unsupported stride!");
+
+
+        Type result = gather<Type, Stride>(ptr, offset.value_(), mask.value_());
+
+        Index index_new = 0;
+        if constexpr (Enabled)
+            index_new = tape()->append_gather(offset.value_(), mask.value_());
+
+        return DiffArray::create(index_new, std::move(result));
+    }
+
+    template <size_t Stride, typename Offset, typename Mask>
+    void scatter_(void *ptr, const Offset &offset, const Mask &mask) const {
+        static_assert(!Enabled || Stride == sizeof(Scalar),
+                      "Differentiable scatter: unsupported stride!");
+
+        scatter<Stride>(ptr, m_value, offset.value_(), mask.value_());
+
+        if constexpr (Enabled)
+            tape()->append_scatter(m_index, offset.value_(), mask.value_(), false);
+    }
+
+    template <size_t Stride, typename Offset, typename Mask>
+    void scatter_add_(void *ptr, const Offset &offset, const Mask &mask) const {
+        static_assert(!Enabled || Stride == sizeof(Scalar),
+                      "Differentiable scatter_add: unsupported stride!");
+
+        scatter_add<Stride>(ptr, m_value, offset.value_(), mask.value_());
+
+        if constexpr (Enabled)
+            tape()->append_scatter(m_index, offset.value_(), mask.value_(), true);
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal operations
+    // -----------------------------------------------------------------------
+
+    auto all_() const {
+        if constexpr (!is_mask_v<Type>)
+            fail_unsupported("all_");
+        else
+            return all(m_value);
+    }
+
+    auto any_() const {
+        if constexpr (!is_mask_v<Type>)
+            fail_unsupported("any_");
+        else
+            return any(m_value);
+    }
+
+    auto count_() const {
+        if constexpr (!is_mask_v<Type>)
+            fail_unsupported("count_");
+        else
+            return count(m_value);
+    }
+
+    DiffArray reverse_() const {
+        if constexpr (is_mask_v<Type> || std::is_pointer_v<Scalar>) {
+            fail_unsupported("reverse_");
+        } else {
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append_reverse(m_index);
+
+            return DiffArray::create(index_new, reverse(m_value));
+        }
+    }
+
+    DiffArray psum_() const {
+        if constexpr (is_mask_v<Type> || std::is_pointer_v<Scalar>) {
+            fail_unsupported("psum_");
+        } else {
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append_psum(m_index);
+
+            return DiffArray::create(index_new, psum(m_value));
+        }
+    }
+
+    DiffArray hsum_() const {
+        if constexpr (is_mask_v<Type> || std::is_pointer_v<Scalar>) {
+            fail_unsupported("hsum_");
+        } else {
+            Index index_new = 0;
+            if constexpr (Enabled)
+                index_new = tape()->append("hsum", 1, m_index, 1.f);
+
+            return DiffArray::create(index_new, hsum(m_value));
+        }
+    }
+
+    DiffArray hprod_() const {
+        if constexpr (is_mask_v<Type> || std::is_pointer_v<Scalar>) {
+            fail_unsupported("hprod_");
+        } else {
+            Index index_new = 0;
+            Type result = hprod(m_value);
+            if constexpr (Enabled)
+                index_new = tape()->append(
+                    "hprod", 1, m_index,
+                    select(eq(m_value, (Scalar) 0), (Scalar) 0, result / m_value));
+            return DiffArray::create(index_new, std::move(result));
+        }
+    }
+
+    DiffArray hmax_() const {
+        if constexpr (is_mask_v<Type> || std::is_pointer_v<Scalar>) {
+            fail_unsupported("hmax_");
+        } else {
+            if (Enabled && m_index != 0)
+                fail_unsupported("hmax_: gradients not yet implemented!");
+            return DiffArray::create(0, hmax(m_value));
+        }
+    }
+
+    DiffArray hmin_() const {
+        if constexpr (is_mask_v<Type> || std::is_pointer_v<Scalar>) {
+            fail_unsupported("hmin_");
+        } else {
+            if (Enabled && m_index != 0)
+                fail_unsupported("hmin_: gradients not yet implemented!");
+            return DiffArray::create(0, hmin(m_value));
+        }
+    }
+
+    template <typename T = Scalar, enable_if_t<std::is_pointer_v<T>> = 0>
+    auto partition_() const {
+        std::vector<std::pair<T, uint32_array_t<DiffArray, false>>> result;
+
+        auto p = partition(m_value);
+        result.reserve(p.size());
+
+        for (auto &kv : p)
+            result.emplace_back(kv.first, std::move(kv.second));
+
+        return result;
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Access to internals
+    // -----------------------------------------------------------------------
+
+    void set_index_(Index index) {
+        if constexpr (Enabled) {
+            auto t = tape();
+            t->inc_ref_ext(index);
+            t->dec_ref_ext(m_index);
+        }
+        m_index = index;
+    }
+    Index index_() const { return m_index; }
+    Type &value_() { return m_value; }
+    const Type &value_() const { return m_value; }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Coefficient access
+    // -----------------------------------------------------------------------
+
+    ENOKI_INLINE size_t size() const {
+        if constexpr (is_scalar_v<Type>)
+            return 1;
+        else
+            return slices(m_value);
+    }
+
+    ENOKI_INLINE bool empty() const {
+        if constexpr (is_scalar_v<Type>)
+            return false;
+        else
+            return slices(m_value) == 0;
+    }
+
+    ENOKI_NOINLINE void resize(size_t size) {
+        ENOKI_MARK_USED(size);
+        if constexpr (!is_scalar_v<Type>)
+            m_value.resize(size);
+    }
+
+    ENOKI_INLINE Scalar *data() {
+        if constexpr (is_scalar_v<Type>)
+            return &m_value;
+        else
+            return m_value.data();
+    }
+
+    ENOKI_INLINE const Scalar *data() const {
+        if constexpr (is_scalar_v<Type>)
+            return &m_value;
+        else
+            return m_value.data();
+    }
+
+    template <typename... Args>
+    ENOKI_INLINE decltype(auto) coeff(Args... args) {
+        static_assert(sizeof...(Args) == Depth, "coeff(): Invalid number of arguments!");
+        if constexpr (is_scalar_v<Type>)
+            return m_value;
+        else
+            return m_value.coeff((size_t) args...);
+    }
+
+    template <typename... Args>
+    ENOKI_INLINE decltype(auto) coeff(Args... args) const {
+        static_assert(sizeof...(Args) == Depth, "coeff(): Invalid number of arguments!");
+        if constexpr (is_scalar_v<Type>)
+            return m_value;
+        else
+            return m_value.coeff((size_t) args...);
+    }
+
+    const Type &gradient_() const {
+        if constexpr (!Enabled)
+            fail_unsupported("gradient_");
+        else
+            return tape()->gradient(m_index);
+    }
+
+    static const Type &gradient_static_(Index index) {
+        if constexpr (!Enabled)
+            fail_unsupported("gradient_static_");
+        else
+            return tape()->gradient(index);
+    }
+
+    void set_gradient_(const Type &value, bool backward = true) {
+        if constexpr (!Enabled)
+            fail_unsupported("set_gradient_");
+        else
+            return tape()->set_gradient(m_index, value, backward);
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Standard initializers
+    // -----------------------------------------------------------------------
+
+    template <typename... Args>
+    static DiffArray empty_(Args... args) { return enoki::empty<Type>(args...); }
+    template <typename... Args>
+    static DiffArray zero_(Args... args) { return zero<Type>(args...); }
+    template <typename... Args>
+    static DiffArray arange_(Args... args) { return arange<Type>(args...); }
+    template <typename... Args>
+    static DiffArray linspace_(Args... args) { return linspace<Type>(args...); }
+    template <typename... Args>
+    static DiffArray full_(Args... args) { return full<Type>(args...); }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    void set_requires_gradient_(bool value) {
+        if constexpr (!Enabled) {
+            fail_unsupported("set_requires_gradient_");
+        } else {
+            if (value && m_index == 0) {
+                m_index = tape()->append_leaf(slices(m_value));
+            } else if (!value && m_index != 0) {
+                tape()->dec_ref_ext(m_index);
+                m_index = 0;
+            }
+        }
+    }
+
+    bool requires_gradient_() const {
+        return Enabled && m_index != 0;
+    }
+
+    void set_label_(const char *label) const {
+        ENOKI_MARK_USED(label);
+        if constexpr (Enabled)
+            tape()->set_label(m_index, label);
+        set_label(m_value, label);
+    }
+
+    void backward_(bool free_graph) const {
+        if constexpr (!Enabled) {
+            fail_unsupported("backward_");
+        } else {
+            tape()->backward(m_index, free_graph);
+        }
+    }
+
+    void forward_(bool free_graph) const {
+        if constexpr (!Enabled) {
+            fail_unsupported("forward_");
+        } else {
+            tape()->forward(m_index, free_graph);
+        }
+    }
+
+    static void backward_static_(bool free_graph) {
+        tape()->backward(free_graph);
+    }
+
+    static void forward_static_(bool free_graph) {
+        tape()->forward(free_graph);
+    }
+
+    static std::string graphviz_(const std::vector<Index> &indices) {
+        if constexpr (!Enabled)
+            fail_unsupported("graphviz_");
+        else
+            return tape()->graphviz(indices);
+    }
+
+    static void push_prefix_(const char *label) {
+        if constexpr (Enabled)
+            tape()->push_prefix(label);
+    }
+
+    static void pop_prefix_() {
+        if constexpr (Enabled)
+            tape()->pop_prefix();
+    }
+
+    static void inc_ref_ext_(Index index) {
+        if constexpr (Enabled)
+            tape()->inc_ref_ext(index);
+    }
+
+    static void dec_ref_ext_(Index index) {
+        if constexpr (Enabled)
+            tape()->dec_ref_ext(index);
+    }
+
+    static void set_scatter_gather_operand_(const DiffArray &v, bool permute) {
+        ENOKI_MARK_USED(v);
+        ENOKI_MARK_USED(permute);
+        if constexpr (Enabled)
+            tape()->set_scatter_gather_operand(const_cast<Index *>(&v.m_index),
+                                               v.size(), permute);
+    }
+
+    static void clear_scatter_gather_operand_() {
+        if constexpr (Enabled)
+            tape()->set_scatter_gather_operand(nullptr, 0, false);
+    }
+
+    static void set_log_level_(uint32_t level) {
+        if constexpr (Enabled)
+            tape()->set_log_level(level);
+    }
+
+    static uint32_t log_level_() {
+        if constexpr (Enabled)
+            return tape()->log_level();
+        else
+            return 0;
+    }
+
+
+    static void set_graph_simplification_(uint32_t level) {
+        if constexpr (Enabled)
+            tape()->set_graph_simplification(level);
+    }
+
+    static void simplify_graph_() {
+        if constexpr (Enabled)
+            tape()->simplify_graph();
+    }
+
+    static std::string whos_() {
+        if constexpr (!Enabled)
+            fail_unsupported("whos");
+        else
+            return tape()->whos();
+    }
+
+    static DiffArray map(void *ptr, size_t size, bool dealloc = false) {
+        if constexpr (!is_dynamic_array_v<Type>)
+            fail_unsupported("map");
+        else
+            return DiffArray::create(0, Type::map(ptr, size, dealloc));
+    }
+
+    static DiffArray copy(const void *ptr, size_t size) {
+        if constexpr (!is_dynamic_array_v<Type>)
+            fail_unsupported("copy");
+        else
+            return DiffArray::create(0, Type::copy(ptr, size));
+    }
+
+    DiffArray &managed() {
+        if constexpr (is_cuda_array_v<Type>)
+            m_value.managed();
+        return *this;
+    }
+
+    const DiffArray &managed() const {
+        if constexpr (is_cuda_array_v<Type>)
+            m_value.managed();
+        return *this;
+    }
+
+
+    DiffArray &eval() {
+        if constexpr (is_cuda_array_v<Type>)
+            m_value.eval();
+        return *this;
+    }
+
+    const DiffArray &eval() const {
+        if constexpr (is_cuda_array_v<Type>)
+            m_value.eval();
+        return *this;
+    }
+
+    auto operator->() const {
+        using BaseType = std::decay_t<std::remove_pointer_t<Scalar>>;
+        return call_support<BaseType, DiffArray>(*this);
+    }
+
+private:
+    ENOKI_INLINE static Tape* tape() { return Tape::get(); }
+
+    using Arg = std::conditional_t<std::is_scalar_v<Type>, Type, Type&&>;
+
+    ENOKI_INLINE static DiffArray create(Index index, Arg value) {
+        DiffArray result(std::move(value));
+        result.m_index = index;
+        return result;
+    }
+
+    [[noreturn]]
+    ENOKI_NOINLINE static void fail_unsupported(const char *msg) {
+        fprintf(stderr, "DiffArray: unsupported operation for type %s", msg);
+        exit(EXIT_FAILURE);
+    }
+
+    Type m_value;
+    Index m_index = 0;
+};
+
+template <typename T, enable_if_t<is_diff_array_v<T>> = 0>
+ENOKI_INLINE void set_label(const T& a, const char *label) {
+    if constexpr (array_depth_v<T> >= 2) {
+        for (size_t i = 0; i < T::Size; ++i)
+            set_label(a.coeff(i), (std::string(label) + "." + std::to_string(i)).c_str());
+    } else {
+        a.set_label_(label);
+    }
+}
+
+template <typename T> ENOKI_INLINE bool requires_gradient(T& a) {
+    if constexpr (is_diff_array_v<T>) {
+        if constexpr (array_depth_v<T> >= 2) {
+            for (size_t i = 0; i < a.size(); ++i) {
+                if (requires_gradient(a.coeff(i)))
+                    return true;
+            }
+            return false;
+        } else {
+            return a.requires_gradient_();
+        }
+    }
+    return false;
+}
+
+template <typename T> ENOKI_INLINE void set_requires_gradient(T& a, bool value = true) {
+    if constexpr (is_diff_array_v<T>) {
+        if constexpr (array_depth_v<T> >= 2) {
+            for (size_t i = 0; i < a.size(); ++i)
+                set_requires_gradient(a.coeff(i), value);
+        } else {
+            a.set_requires_gradient_(value);
+        }
+    }
+}
+
+template <typename T> auto gradient_index(const T &a) {
+    if constexpr (array_depth_v<T> >= 2) {
+        using Result = std::array<decltype(gradient_index(a.coeff(0))), T::Size>;
+        Result result;
+        for (size_t i = 0; i < T::Size; ++i)
+            result[i] = gradient_index(a.coeff(i));
+        return result;
+    } else if constexpr (is_diff_array_v<T>) {
+        return a.index_();
+    } else {
+        static_assert(detail::false_v<T>, "The given array does not support derivatives.");
+    }
+}
+
+template <typename T1, typename T2> void set_gradient(T1 &a, const T2 &b, bool backward = true) {
+    if constexpr (array_depth_v<T1> >= 2) {
+        for (size_t i = 0; i < array_size_v<T1>; ++i)
+            set_gradient(a[i], b[i], backward);
+    } else if constexpr (is_diff_array_v<T1>) {
+        a.set_gradient_(b, backward);
+    } else {
+        static_assert(detail::false_v<T1, T2>, "The given array does not support derivatives.");
+    }
+}
+
+template <typename T1> void reattach(T1 &a, const T1 &b) {
+    if constexpr (array_depth_v<T1> >= 2) {
+        for (size_t i = 0; i < array_size_v<T1>; ++i)
+            reattach(a[i], b[i]);
+    } else if constexpr (is_diff_array_v<T1>) {
+        a.set_index_(b.index_());
+    } else {
+        static_assert(detail::false_v<T1>, "The given array does not support derivatives.");
+    }
+}
+
+template <typename T> void forward(const T& a, bool free_graph = true) {
+    a.forward_(free_graph);
+}
+
+template <typename T> void backward(const T& a, bool free_graph = true) {
+    a.backward_(free_graph);
+}
+
+template <typename T> void backward(bool free_graph = true) {
+    T::backward_static_(free_graph);
+}
+
+template <typename T> void forward(bool free_graph = true) {
+    T::forward_static_(free_graph);
+}
+
+namespace detail {
+    template <typename T>
+    void collect_indices(const T &value, std::vector<uint32_t> &indices) {
+        if constexpr (is_diff_array_v<T>) {
+            if constexpr (array_depth_v<T> == 1) {
+                if (value.index_() != 0)
+                    indices.push_back(value.index_());
+            } else {
+                for (size_t i = 0; i < T::Size; ++i)
+                    collect_indices(value.coeff(i), indices);
+            }
+        }
+    }
+};
+
+namespace detail {
+    template <typename T, typename = int> struct diff_type {
+        using type = T;
+    };
+    template <typename T> using diff_type_t = typename diff_type<T>::type;
+    template <typename T> struct diff_type<T, enable_if_t<is_diff_array_v<value_t<T>>>> {
+        using type = diff_type_t<value_t<T>>;
+    };
+}
+
+template <typename T> std::string graphviz(const T &value) {
+    std::vector<uint32_t> indices;
+    detail::collect_indices(value, indices);
+    return detail::diff_type_t<T>::graphviz_(indices);
+}
+
+#if defined(ENOKI_AUTODIFF_BUILD)
+#  define ENOKI_AUTODIFF_EXTERN extern
+#  define ENOKI_AUTODIFF_EXPORT ENOKI_EXPORT
+#else
+#  define ENOKI_AUTODIFF_EXPORT ENOKI_IMPORT
+#  if defined(_MSC_VER)
+#    define ENOKI_AUTODIFF_EXTERN
+#else
+#    define ENOKI_AUTODIFF_EXTERN extern
+#  endif
+#endif
+
+#if !defined(ENOKI_BUILD)
+    ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT Tape<float>;
+    ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT DiffArray<float>;
+
+    ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT Tape<double>;
+    ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT DiffArray<double>;
+
+#  if defined(ENOKI_DYNAMIC_H)
+        ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT Tape<DynamicArray<Packet<float>>>;
+        ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT DiffArray<DynamicArray<Packet<float>>>;
+
+        ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT Tape<DynamicArray<Packet<double>>>;
+        ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT DiffArray<DynamicArray<Packet<double>>>;
+#  endif
+
+#  if defined(ENOKI_CUDA_H)
+        ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT Tape<CUDAArray<float>>;
+        ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT DiffArray<CUDAArray<float>>;
+
+        ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT Tape<CUDAArray<double>>;
+        ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT DiffArray<CUDAArray<double>>;
+#  endif
+#endif
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/color.h b/sources/enoki/color.h
new file mode 100644
index 00000000..43634375
--- /dev/null
+++ b/sources/enoki/color.h
@@ -0,0 +1,95 @@
+/*
+    enoki/color.h -- Color space transformations (only sRGB so far)
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/array.h>
+
+NAMESPACE_BEGIN(enoki)
+
+template <typename T> expr_t<T> linear_to_srgb(const T &x) {
+    using Value  = expr_t<T>;
+    using Mask   = mask_t<Value>;
+    using Scalar = scalar_t<Value>;
+    constexpr bool Single = std::is_same_v<Scalar, float>;
+
+    Value r = Scalar(12.92);
+    Mask large_mask = x > Scalar(0.0031308);
+
+    if (ENOKI_LIKELY(any(large_mask))) {
+        Value y = sqrt(x), p, q;
+
+        if constexpr (Single) {
+            p = poly5(y, -0.0016829072605308378, 0.03453868659826638,
+                      0.7642611304733891, 2.0041169284241644,
+                      0.7551545191665577, -0.016202083165206348);
+            q = poly5(y, 4.178892964897981e-7, -0.00004375359692957097,
+                      0.03467195408529984, 0.6085338522168684,
+                      1.8970238036421054, 1.);
+        } else {
+            p = poly10(y, -3.7113872202050023e-6, -0.00021805827098915798,
+                       0.002531335520959116, 0.2263810267005674,
+                       3.0477578489880823, 15.374469584296442,
+                       32.44669922192121, 27.901125077137042, 8.450947414259522,
+                       0.5838023820686707, -0.0031151377052754843);
+            q = poly10(y, 2.2380622409188757e-11, -8.387527630781522e-9,
+                       0.00007045228641004039, 0.007244514696840552,
+                       0.21749170309546628, 2.575446652731678,
+                       13.297981743005433, 30.50364355650628, 29.70548706952188,
+                       10.723011300050162, 1.);
+        }
+
+        masked(r, large_mask) = p / q;
+    }
+
+    return r * x;
+}
+
+template <typename T> expr_t<T> srgb_to_linear(const T &x) {
+    using Value  = expr_t<T>;
+    using Mask   = mask_t<Value>;
+    using Scalar = scalar_t<Value>;
+    constexpr bool Single = std::is_same_v<Scalar, float>;
+
+    Value r = Scalar(1.0 / 12.92);
+    Mask large_mask = x > Scalar(0.04045);
+
+    if (ENOKI_LIKELY(any(large_mask))) {
+        Value p, q;
+
+        if constexpr (Single) {
+            p = poly4(x, -0.0163933279112946, -0.7386328024653209,
+                      -11.199318357635072, -47.46726633009393,
+                      -36.04572663838034);
+            q = poly4(x, -0.004261480793199332, -19.140923959601675,
+                      -59.096406619244426, -18.225745396846637, 1.);
+        } else {
+            p = poly9(x, -0.008042950896814532, -0.5489744177844188,
+                      -14.786385491859248, -200.19589605282445,
+                      -1446.951694673217, -5548.704065887224,
+                      -10782.158977031822, -9735.250875334352,
+                      -3483.4445569178347, -342.62884098034357);
+            q = poly9(x, -2.2132610916769585e-8, -9.646075249097724,
+                      -237.47722999429413, -2013.8039726540235,
+                      -7349.477378676199, -11916.470977597566,
+                      -8059.219012060384, -1884.7738197074218,
+                      -84.8098437770271, 1.);
+        }
+
+        masked(r, large_mask) = p / q;
+    }
+
+    return r * x;
+}
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/complex.h b/sources/enoki/complex.h
new file mode 100644
index 00000000..3265c298
--- /dev/null
+++ b/sources/enoki/complex.h
@@ -0,0 +1,289 @@
+/*
+    enoki/complex.h -- Complex number data structure
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/array.h>
+
+NAMESPACE_BEGIN(enoki)
+
+/// SFINAE helper for complex numbers
+template <typename T> using is_complex_helper = enable_if_t<std::decay_t<T>::IsComplex>;
+template <typename T> constexpr bool is_complex_v = is_detected_v<is_complex_helper, T>;
+template <typename T> using enable_if_complex_t = enable_if_t<is_complex_v<T>>;
+template <typename T> using enable_if_not_complex_t = enable_if_t<!is_complex_v<T>>;
+
+template <typename Value_>
+struct Complex : StaticArrayImpl<Value_, 2, false, Complex<Value_>> {
+    using Base = StaticArrayImpl<Value_, 2, false, Complex<Value_>>;
+    ENOKI_ARRAY_IMPORT_BASIC(Base, Complex);
+    using Base::operator=;
+
+    static constexpr bool IsComplex = true;
+    static constexpr bool IsVector = false;
+
+    using ArrayType = Complex;
+    using MaskType = Mask<Value_, 2>;
+
+    template <typename T> using ReplaceValue = Complex<T>;
+
+    Complex() = default;
+
+    template <typename T, enable_if_complex_t<T> = 0>
+    ENOKI_INLINE Complex(T&& z) : Base(z) { }
+
+    template <typename T, enable_if_t<(array_depth_v<T> < Base::Depth && (is_scalar_v<T> || is_array_v<T>))> = 0,
+                          enable_if_not_complex_t<T> = 0>
+    ENOKI_INLINE Complex(T &&v) : Base(v, zero<Value_>()) { }
+
+    template <typename T, enable_if_t<(array_depth_v<T> == Base::Depth || !(is_scalar_v<T> || is_array_v<T>))> = 0,
+                          enable_if_not_complex_t<T> = 0>
+    ENOKI_INLINE Complex(T &&v) : Base(std::forward<T>(v)) { }
+
+    ENOKI_INLINE Complex(const Value_ &v1, const Value_ &v2) : Base(v1, v2) { }
+
+    template <typename T> ENOKI_INLINE static Complex full_(const T &value, size_t size) {
+        return Array<Value, 2>::full_(value, size);
+    }
+};
+
+template <typename T, enable_if_complex_t<T> = 0>
+ENOKI_INLINE T identity(size_t size = 1) {
+    using Value = value_t<T>;
+    return T(full<Value>(1.f, size), zero<Value>(size));
+}
+
+template <typename T> ENOKI_INLINE expr_t<T> real(const Complex<T> &z) { return z.x(); }
+template <typename T> ENOKI_INLINE expr_t<T> imag(const Complex<T> &z) { return z.y(); }
+
+template <typename T> ENOKI_INLINE expr_t<T> squared_norm(const Complex<T> &z) {
+    return squared_norm(Array<expr_t<T>, 2>(z));
+}
+
+template <typename T> ENOKI_INLINE expr_t<T> norm(const Complex<T> &z) {
+    return norm(Array<expr_t<T>, 2>(z));
+}
+
+template <typename T> ENOKI_INLINE Complex<expr_t<T>> normalize(const Complex<T> &q) {
+    return enoki::normalize(Array<expr_t<T>, 2>(q));
+}
+
+template <typename T> ENOKI_INLINE Complex<expr_t<T>> rcp(const Complex<T> &z) {
+    auto scale = rcp(squared_norm(z));
+    return Complex<expr_t<T>>(
+         real(z) * scale,
+        -imag(z) * scale
+    );
+}
+
+template <typename T0, typename T1,
+          typename Value = expr_t<T0, T1>, typename Result = Complex<Value>>
+ENOKI_INLINE Result operator*(const Complex<T0> &z0, const Complex<T1> &z1) {
+    using Base   = Array<Value, 2>;
+
+    Base z1_perm = shuffle<1, 0>(z1),
+         z0_im   = shuffle<1, 1>(z0),
+         z0_re   = shuffle<0, 0>(z0);
+
+    return fmaddsub(z0_re, z1, z0_im * z1_perm);
+}
+
+template <typename T0, typename T1,
+          typename Value = expr_t<T0, T1>,
+          typename Result = Complex<Value>>
+ENOKI_INLINE Result operator*(const Complex<T0> &z0, const T1 &v1) {
+    return Array<expr_t<T0>, 2>(z0) * v1;
+}
+
+template <typename T0, typename T1,
+          typename Value = expr_t<T0, T1>, typename Result = Complex<Value>>
+ENOKI_INLINE Result operator*(const T0 &v0, const Complex<T1> &z1) {
+    return v0 * Array<expr_t<T1>, 2>(z1);
+}
+
+template <typename T0, typename T1,
+          typename Value = expr_t<T0, T1>, typename Result = Complex<Value>>
+ENOKI_INLINE Result operator/(const Complex<T0> &z0, const Complex<T1> &z1) {
+    return z0 * rcp(z1);
+}
+
+template <typename T0, typename T1,
+          typename Value = expr_t<T0, T1>, typename Result = Complex<Value>>
+ENOKI_INLINE Result operator/(const Complex<T0> &z0, const T1 &v1) {
+    return Array<expr_t<T0>, 2>(z0) / v1;
+}
+
+template <typename T> ENOKI_INLINE Complex<expr_t<T>> conj(const Complex<T> &z) {
+    const Complex<expr_t<T>> mask(0.f, -0.f);
+    return z ^ mask;
+}
+
+template <typename T>
+ENOKI_INLINE expr_t<T> abs(const Complex<T> &z) {
+    return norm(z);
+}
+
+template <typename T> ENOKI_INLINE Complex<expr_t<T>> exp(const Complex<T> &z) {
+    auto exp_r = exp(real(z));
+    auto [s, c] = sincos(imag(z));
+    return { exp_r * c, exp_r * s };
+}
+
+template <typename T> ENOKI_INLINE Complex<expr_t<T>> log(const Complex<T> &z) {
+    return { .5f * log(squared_norm(z)), arg(z) };
+}
+
+template <typename T> ENOKI_INLINE expr_t<T> arg(const Complex<T> &z) {
+    return atan2(imag(z), real(z));
+}
+
+template <typename T1, typename T2, typename Expr = expr_t<T1, T2>> std::pair<Expr, Expr>
+sincos_arg_diff(const Complex<T1> &z1, const Complex<T2> &z2) {
+    Expr normalization = rsqrt(squared_norm(z1) * squared_norm(z2));
+    Complex<Expr> value = z1 * conj(z2) * normalization;
+    return { imag(value), real(value) };
+}
+
+template <typename T0, typename T1>
+ENOKI_INLINE auto pow(const Complex<T0> &z0, const Complex<T1> &z1) {
+    return exp(log(z0) * z1);
+}
+
+template <typename T> ENOKI_INLINE Complex<expr_t<T>> sqrt(const Complex<T> &z) {
+    auto [s, c] = sincos(arg(z) * .5f);
+    auto r = sqrt(abs(z));
+    return Complex<expr_t<T>>(c * r, s * r);
+}
+
+template <typename T>
+ENOKI_INLINE Complex<expr_t<T>> sqrtz(const T &x) {
+    auto r = sqrt(abs(x)), z = zero<T>();
+    auto is_real = x >= 0;
+    return { select(is_real, r, z), select(is_real, z, r) };
+}
+
+template <typename T> ENOKI_INLINE Complex<expr_t<T>> sin(const Complex<T> &z) {
+    auto [s, c]   = sincos(real(z));
+    auto [sh, ch] = sincosh(imag(z));
+    return Complex<expr_t<T>>(s * ch, c * sh);
+}
+
+template <typename T> ENOKI_INLINE Complex<expr_t<T>> cos(const Complex<T> &z) {
+    auto [s, c]   = sincos(real(z));
+    auto [sh, ch] = sincosh(imag(z));
+    return Complex<expr_t<T>>(c * ch, -s * sh);
+}
+
+template <typename T, typename R = Complex<expr_t<T>>>
+ENOKI_INLINE std::pair<R, R> sincos(const Complex<T> &z) {
+    auto [s, c]   = sincos(real(z));
+    auto [sh, ch] = sincosh(imag(z));
+    return std::make_pair<R, R>(
+        R(s * ch, c * sh),
+        R(c * ch, -s * sh)
+    );
+}
+
+template <typename T>
+ENOKI_INLINE Complex<expr_t<T>> tan(const Complex<T> &z) {
+    auto [s, c] = sincos(z);
+    return s / c;
+}
+
+template <typename T, typename R = Complex<expr_t<T>>>
+ENOKI_INLINE R asin(const Complex<T> &z) {
+    auto tmp = log(R(-imag(z), real(z)) + sqrt(1.f - z*z));
+    return R(imag(tmp), -real(tmp));
+}
+
+template <typename T, typename R = Complex<expr_t<T>>>
+ENOKI_INLINE R acos(const Complex<T> &z) {
+    auto tmp = sqrt(1.f - z*z);
+    tmp = log(z + R(-imag(tmp), real(tmp)));
+    return R(imag(tmp), -real(tmp));
+}
+
+template <typename T, typename R = Complex<expr_t<T>>>
+ENOKI_INLINE R atan(const Complex<T> &z) {
+    const R I(0.f, 1.f);
+    auto tmp = log((I-z) / (I+z));
+    return R(imag(tmp) * .5f, -real(tmp) * .5f);
+}
+
+template <typename T>
+ENOKI_INLINE Complex<expr_t<T>> sinh(const Complex<T> &z) {
+    auto [s, c]  = sincos(imag(z));
+    auto [sh, ch] = sincosh(real(z));
+    return { sh * c, ch * s };
+}
+
+template <typename T>
+ENOKI_INLINE Complex<expr_t<T>> cosh(const Complex<T> &z) {
+    auto [s, c]   = sincos(imag(z));
+    auto [sh, ch] = sincosh(real(z));
+    return { ch * c, sh * s };
+}
+
+template <typename T, typename R = Complex<expr_t<T>>>
+ENOKI_INLINE std::pair<R, R> sincosh(const Complex<T> &z) {
+    auto [s, c] = sincos(imag(z));
+    auto [sh, ch]  = sincosh(real(z));
+    return std::make_pair<R, R>(
+        R(sh * c, ch * s),
+        R(ch * c, sh * s)
+    );
+}
+
+template <typename T>
+ENOKI_INLINE Complex<expr_t<T>> tanh(const Complex<T> &z) {
+    auto [sh, ch] = sincosh(z);
+    return sh / ch;
+}
+
+template <typename T>
+ENOKI_INLINE Complex<expr_t<T>> asinh(const Complex<T> &z) {
+    return log(z + sqrt(z*z + 1.f));
+}
+
+template <typename T>
+ENOKI_INLINE Complex<expr_t<T>> acosh(const Complex<T> &z) {
+    return log(z + sqrt(z*z - 1.f));
+}
+
+template <typename T, typename R = Complex<expr_t<T>>>
+ENOKI_INLINE R atanh(const Complex<T> &z) {
+    return log((R(1.f) + z) / (R(1.f) - z)) * R(.5f);
+}
+
+template <typename T, enable_if_not_array_t<T> = 0>
+ENOKI_NOINLINE std::ostream &operator<<(std::ostream &os, const Complex<T> &z) {
+    os << z.x();
+    os << (z.y() < 0 ? " - " : " + ") << abs(z.y()) << "i";
+    return os;
+}
+
+template <typename T, enable_if_array_t<T> = 0, enable_if_not_array_t<value_t<T>> = 0>
+ENOKI_NOINLINE std::ostream &operator<<(std::ostream &os, const Complex<T> &z) {
+    os << "[";
+    size_t size = z.x().size();
+    for (size_t i = 0; i < size; ++i) {
+        os << z.x().coeff(i);
+        os << (z.y().coeff(i) < 0 ? " - " : " + ") << abs(z.y().coeff(i)) << "i";
+        if (i + 1 < size)
+            os << ",\n ";
+    }
+    os << "]";
+    return os;
+}
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/cuda.h b/sources/enoki/cuda.h
new file mode 100644
index 00000000..421e252b
--- /dev/null
+++ b/sources/enoki/cuda.h
@@ -0,0 +1,1026 @@
+/*
+    enoki/cuda.h -- CUDA-backed Enoki dynamic array with JIT compilation
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyrighe (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#define ENOKI_CUDA_H 1
+
+#include <enoki/array.h>
+
+NAMESPACE_BEGIN(enoki)
+
+// -----------------------------------------------------------------------
+//! @{ \name Imports from libenoki-cuda.so
+// -----------------------------------------------------------------------
+
+/// Initialize the tracing JIT
+extern ENOKI_IMPORT void cuda_init();
+
+/// Delete the trace, requires a subsequent call by cuda_init()
+extern ENOKI_IMPORT void cuda_shutdown();
+
+/// Compile and evaluate the trace up to the current instruction
+extern ENOKI_IMPORT void cuda_eval(bool log_assembly /* = false */);
+
+/// Invokes 'cuda_eval' if the given variable has not been evaluated yet
+extern ENOKI_IMPORT void cuda_eval_var(uint32_t index, bool log_assembly = false);
+
+/// Increase the reference count of a variable
+extern ENOKI_IMPORT void cuda_inc_ref_ext(uint32_t);
+
+/// Decrease the reference count of a variable
+extern ENOKI_IMPORT void cuda_dec_ref_ext(uint32_t);
+
+/// Return the size of a variable
+extern ENOKI_IMPORT size_t cuda_var_size(uint32_t);
+
+/// Return the pointer address of a variable (in device memory)
+extern ENOKI_IMPORT void* cuda_var_ptr(uint32_t);
+
+/// Retroactively adjust the recorded size of a variable
+extern ENOKI_IMPORT uint32_t cuda_var_set_size(uint32_t index, size_t size, bool copy = false);
+
+/// Mark a variable as dirty (e.g. due to scatter)
+extern ENOKI_IMPORT void cuda_var_mark_dirty(uint32_t);
+
+/// Attach a label to a variable (written to PTX assembly)
+extern ENOKI_IMPORT void cuda_var_set_label(uint32_t, const char *);
+
+/// Needed to mark certain instructions with side effects (e.g. scatter)
+extern ENOKI_IMPORT void cuda_var_mark_side_effect(uint32_t);
+
+/// Set the current scatter/source operand array
+extern ENOKI_IMPORT void cuda_set_scatter_gather_operand(uint32_t index, bool gather);
+
+/// Append an operation to the trace (0 arguments)
+extern ENOKI_IMPORT uint32_t cuda_trace_append(EnokiType type,
+                                               const char *op);
+
+/// Append an operation to the trace (1 argument)
+extern ENOKI_IMPORT uint32_t cuda_trace_append(EnokiType type,
+                                               const char *op,
+                                               uint32_t arg1);
+
+/// Append an operation to the trace (2 arguments)
+extern ENOKI_IMPORT uint32_t cuda_trace_append(EnokiType type,
+                                               const char *op,
+                                               uint32_t arg1,
+                                               uint32_t arg2);
+
+/// Append an operation to the trace (3 arguments)
+extern ENOKI_IMPORT uint32_t cuda_trace_append(EnokiType type,
+                                               const char *op,
+                                               uint32_t arg1,
+                                               uint32_t arg2,
+                                               uint32_t arg3);
+
+/// Insert a "printf" instruction for the given instruction
+extern ENOKI_IMPORT void cuda_trace_printf(const char *fmt, uint32_t narg,
+                                           uint32_t *arg);
+
+/// Computes the prefix sum of a given memory region
+template <typename T> extern ENOKI_IMPORT T* cuda_psum(size_t, const T *);
+
+/// Computes the horizontal sum of a given memory region
+template <typename T> extern ENOKI_IMPORT T* cuda_hsum(size_t, const T *);
+
+/// Computes the horizontal product of a given memory region
+template <typename T> extern ENOKI_IMPORT T* cuda_hprod(size_t, const T *);
+
+/// Computes the horizontal maximum of a given memory region
+template <typename T> extern ENOKI_IMPORT T* cuda_hmax(size_t, const T *);
+
+/// Computes the horizontal minimum of a given memory region
+template <typename T> extern ENOKI_IMPORT T* cuda_hmin(size_t, const T *);
+
+/// Compute the number of entries set to 'true'
+extern ENOKI_IMPORT size_t cuda_count(size_t, const bool *);
+
+template <typename T>
+extern ENOKI_IMPORT void cuda_compress(size_t, const T *, const bool *mask,
+                                       T **, size_t *);
+
+/// Computes a horizontal reduction of a mask array via AND
+extern ENOKI_IMPORT bool cuda_all(size_t, const bool *);
+
+/// Computes a horizontal reduction of a mask array via OR
+extern ENOKI_IMPORT bool cuda_any(size_t, const bool *);
+
+/// Sort 'ptrs' and return unique instances and their count, as well as a permutation
+extern ENOKI_IMPORT void cuda_partition(size_t size, const void **ptrs,
+                                        void ***unique_out,
+                                        uint32_t **counts_out,
+                                        uint32_t ***perm_out);
+
+/// Copy some host memory region to the device and wrap it in a variable
+extern ENOKI_IMPORT uint32_t cuda_var_copy_to_device(EnokiType type,
+                                                     size_t size, const void *value);
+
+/// Create a variable that stores a pointer to some (device) memory region
+extern ENOKI_IMPORT uint32_t cuda_var_register_ptr(const void *ptr);
+
+/// Register a memory region (in device memory) as a variable
+extern ENOKI_IMPORT uint32_t cuda_var_register(EnokiType type, size_t size,
+                                               void *ptr, bool dealloc);
+
+/// Fetch a scalar value from a CUDA array (in device memory)
+extern ENOKI_IMPORT void cuda_fetch_element(void *, uint32_t, size_t, size_t);
+
+/// Copy a memory region to the device
+extern ENOKI_IMPORT void cuda_memcpy_to_device(void *dst, const void *src, size_t size);
+extern ENOKI_IMPORT void cuda_memcpy_to_device_async(void *dst, const void *src, size_t size);
+
+/// Copy a memory region from  the device
+extern ENOKI_IMPORT void cuda_memcpy_from_device(void *dst, const void *src, size_t size);
+extern ENOKI_IMPORT void cuda_memcpy_from_device_async(void *dst, const void *src, size_t size);
+
+/// Return the free and total amount of memory (Wrapper around cudaMemGetInfo)
+extern ENOKI_IMPORT void cuda_mem_get_info(size_t *free, size_t *total);
+
+/// Allocate device-local memory (wrapper around cudaMalloc)
+extern ENOKI_IMPORT void* cuda_malloc(size_t);
+
+/// Allocate unified memory (wrapper around cudaMallocManaged)
+extern ENOKI_IMPORT void* cuda_managed_malloc(size_t size);
+
+/// Allocate host-pinned memory (wrapper around cudaMallocHost)
+extern ENOKI_IMPORT void* cuda_host_malloc(size_t);
+
+/// Allocate unified memory (wrapper around analogues of cudaMemsetAsync)
+extern ENOKI_IMPORT void cuda_fill(uint8_t *ptr, uint8_t value, size_t size);
+extern ENOKI_IMPORT void cuda_fill(uint16_t *ptr, uint16_t value, size_t size);
+extern ENOKI_IMPORT void cuda_fill(uint32_t *ptr, uint32_t value, size_t size);
+extern ENOKI_IMPORT void cuda_fill(uint64_t *ptr, uint64_t value, size_t size);
+
+/// Reverse an array
+extern ENOKI_IMPORT void cuda_reverse(uint8_t *out, const uint8_t *in, size_t size);
+extern ENOKI_IMPORT void cuda_reverse(uint16_t *out, const uint16_t *in, size_t size);
+extern ENOKI_IMPORT void cuda_reverse(uint32_t *out, const uint32_t *in, size_t size);
+extern ENOKI_IMPORT void cuda_reverse(uint64_t *out, const uint64_t *in, size_t size);
+
+/// Release device-local or unified memory
+extern ENOKI_IMPORT void cuda_free(void *);
+
+/// Release host-local memory
+extern ENOKI_IMPORT void cuda_host_free(void *);
+
+/// Release any unused held memory back to the device
+extern ENOKI_IMPORT void cuda_malloc_trim();
+
+/// Wait for all work queued on the device to finish
+extern ENOKI_IMPORT void cuda_sync();
+
+/// Print detailed information about currently allocated arrays
+extern ENOKI_IMPORT char *cuda_whos();
+
+/// Convert a variable into managed memory (if applicable)
+extern ENOKI_IMPORT void cuda_make_managed(uint32_t);
+
+/// Register a callback that will be invoked before cuda_eval()
+extern void cuda_register_callback(void (*callback)(void *), void *payload);
+
+/// Unregister a callback installed via 'cuda_register_callback()'
+extern void cuda_unregister_callback(void (*callback)(void *), void *payload);
+
+/**
+ * \brief Current log level (0: none, 1: kernel launches,
+ * 2: +ptxas statistics, 3: +ptx source, 4: +jit trace, 5: +ref counting)
+ */
+extern ENOKI_IMPORT void cuda_set_log_level(uint32_t);
+extern ENOKI_IMPORT uint32_t cuda_log_level();
+
+//! @}
+// -----------------------------------------------------------------------
+
+template <typename Value>
+struct CUDAArray : ArrayBase<value_t<Value>, CUDAArray<Value>> {
+    template <typename T> friend struct CUDAArray;
+    using Index = uint32_t;
+
+    static constexpr EnokiType Type = enoki_type_v<Value>;
+    static constexpr bool IsCUDA = true;
+    template <typename T> using ReplaceValue = CUDAArray<T>;
+    using MaskType = CUDAArray<bool>;
+    using ArrayType = CUDAArray;
+
+    CUDAArray() = default;
+
+    ~CUDAArray() {
+        cuda_dec_ref_ext(m_index);
+        if constexpr (std::is_pointer_v<Value> || std::is_same_v<Value, uintptr_t>)
+            delete m_cached_partition;
+    }
+
+    CUDAArray(const CUDAArray &a) : m_index(a.m_index) {
+        cuda_inc_ref_ext(m_index);
+    }
+
+    CUDAArray(CUDAArray &&a) : m_index(a.m_index) {
+        a.m_index = 0;
+        if constexpr (std::is_pointer_v<Value> || std::is_same_v<Value, uintptr_t>) {
+            m_cached_partition = a.m_cached_partition;
+            a.m_cached_partition = nullptr;
+        }
+    }
+
+    template <typename T> CUDAArray(const CUDAArray<T> &v) {
+        const char *op;
+
+        if (std::is_floating_point_v<T> && std::is_integral_v<Value>)
+            op = "cvt.rzi.$t1.$t2 $r1, $r2";
+        else if (std::is_integral_v<T> && std::is_floating_point_v<Value>)
+            op = "cvt.rn.$t1.$t2 $r1, $r2";
+        else
+            op = "cvt.$t1.$t2 $r1, $r2";
+
+        m_index = cuda_trace_append(Type, op, v.index_());
+    }
+
+    template <typename T>
+    CUDAArray(const CUDAArray<T> &v, detail::reinterpret_flag) {
+        static_assert(sizeof(T) == sizeof(Value));
+        if (std::is_integral_v<T> != std::is_integral_v<Value>) {
+            m_index = cuda_trace_append(Type, "mov.$b1 $r1, $r2", v.index_());
+        } else {
+            m_index = v.index_();
+            cuda_inc_ref_ext(m_index);
+        }
+    }
+
+    template <typename T, enable_if_t<std::is_scalar_v<T>> = 0>
+    CUDAArray(const T &value, detail::reinterpret_flag)
+        : CUDAArray(memcpy_cast<Value>(value)) { }
+
+    template <typename T, enable_if_t<std::is_scalar_v<T>> = 0>
+    CUDAArray(T value) : CUDAArray((Value) value) { }
+
+    CUDAArray(Value value) {
+        const char *fmt = nullptr;
+
+        switch (Type) {
+            case EnokiType::Float16:
+                fmt = "mov.$t1 $r1, %04x";
+                break;
+
+            case EnokiType::Float32:
+                fmt = "mov.$t1 $r1, 0f%08x";
+                break;
+
+            case EnokiType::Float64:
+                fmt = "mov.$t1 $r1, 0d%016llx";
+                break;
+
+            case EnokiType::Bool:
+                fmt = "mov.$t1 $r1, %i";
+                break;
+
+            case EnokiType::Int8:
+            case EnokiType::UInt8:
+                fmt = "mov.$t1 $r1, 0x%02x";
+                break;
+
+            case EnokiType::Int16:
+            case EnokiType::UInt16:
+                fmt = "mov.$t1 $r1, 0x%04x";
+                break;
+
+            case EnokiType::Int32:
+            case EnokiType::UInt32:
+                fmt = "mov.$t1 $r1, 0x%08x";
+                break;
+
+            case EnokiType::Pointer:
+            case EnokiType::Int64:
+            case EnokiType::UInt64:
+                fmt = "mov.$t1 $r1, 0x%016llx";
+                break;
+
+            default:
+                fmt = "<<invalid format during cast>>";
+                break;
+        }
+
+        char tmp[32];
+        snprintf(tmp, 32, fmt, memcpy_cast<uint_array_t<Value>>(value));
+
+        m_index = cuda_trace_append(Type, tmp);
+    }
+
+    template <typename... Args, enable_if_t<(sizeof...(Args) > 1)> = 0>
+    CUDAArray(Args&&... args) {
+        Value data[] = { (Value) args... };
+        m_index = cuda_var_copy_to_device(Type, sizeof...(Args), data);
+    }
+
+    CUDAArray &operator=(const CUDAArray &a) {
+        cuda_inc_ref_ext(a.m_index);
+        cuda_dec_ref_ext(m_index);
+        m_index = a.m_index;
+        if constexpr (std::is_pointer_v<Value> || std::is_same_v<Value, uintptr_t>)
+            m_cached_partition = nullptr;
+        return *this;
+    }
+
+    CUDAArray &operator=(CUDAArray &&a) {
+        std::swap(m_index, a.m_index);
+        if constexpr (std::is_pointer_v<Value> || std::is_same_v<Value, uintptr_t>)
+            std::swap(m_cached_partition, a.m_cached_partition);
+        return *this;
+    }
+
+    CUDAArray add_(const CUDAArray &v) const {
+        const char *op = std::is_floating_point_v<Value>
+            ? "add.rn.ftz.$t1 $r1, $r2, $r3"
+            : "add.$t1 $r1, $r2, $r3";
+
+        return CUDAArray::from_index_(
+            cuda_trace_append(Type, op, index_(), v.index_()));
+    }
+
+    CUDAArray sub_(const CUDAArray &v) const {
+        const char *op = std::is_floating_point_v<Value>
+            ? "sub.rn.ftz.$t1 $r1, $r2, $r3"
+            : "sub.$t1 $r1, $r2, $r3";
+
+        return CUDAArray::from_index_(
+            cuda_trace_append(Type, op, index_(), v.index_()));
+    }
+
+    CUDAArray mul_(const CUDAArray &v) const {
+        const char *op = std::is_floating_point_v<Value>
+            ? "mul.rn.ftz.$t1 $r1, $r2, $r3"
+            : "mul.lo.$t1 $r1, $r2, $r3";
+
+        return CUDAArray::from_index_(
+            cuda_trace_append(Type, op, index_(), v.index_()));
+    }
+
+    CUDAArray mulhi_(const CUDAArray &v) const {
+        return CUDAArray::from_index_(cuda_trace_append(
+            Type, "mul.hi.$t1 $r1, $r2, $r3", index_(), v.index_()));
+    }
+
+    CUDAArray div_(const CUDAArray &v) const {
+        const char *op = std::is_floating_point_v<Value>
+            ? "div.rn.ftz.$t1 $r1, $r2, $r3"
+            : "div.$t1 $r1, $r2, $r3";
+
+        return CUDAArray::from_index_(
+            cuda_trace_append(Type, op, index_(), v.index_()));
+    }
+
+    CUDAArray mod_(const CUDAArray &v) const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "rem.$t1 $r1, $r2, $r3", index_(), v.index_()));
+    }
+
+    CUDAArray fmadd_(const CUDAArray &a, const CUDAArray &b) const {
+        const char *op = std::is_floating_point_v<Value>
+            ? "fma.rn.ftz.$t1 $r1, $r2, $r3, $r4"
+            : "mad.lo.$t1 $r1, $r2, $r3, $r4";
+
+        return CUDAArray::from_index_(
+            cuda_trace_append(Type, op, index_(), a.index_(), b.index_()));
+    }
+
+    CUDAArray fmsub_(const CUDAArray &a, const CUDAArray &b) const {
+        return fmadd_(a, -b);
+    }
+
+    CUDAArray fnmadd_(const CUDAArray &a, const CUDAArray &b) const {
+        return fmadd_(-a, b);
+    }
+
+    CUDAArray fnmsub_(const CUDAArray &a, const CUDAArray &b) const {
+        return -fmadd_(a, b);
+    }
+
+    CUDAArray max_(const CUDAArray &v) const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "max.ftz.$t1 $r1, $r2, $r3", index_(), v.index_()));
+    }
+
+    CUDAArray min_(const CUDAArray &v) const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "min.ftz.$t1 $r1, $r2, $r3", index_(), v.index_()));
+    }
+
+    CUDAArray abs_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "abs.ftz.$t1 $r1, $r2", index_()));
+    }
+
+    CUDAArray neg_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "neg.ftz.$t1 $r1, $r2", index_()));
+    }
+
+    CUDAArray sqrt_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "sqrt.rn.ftz.$t1 $r1, $r2", index_()));
+    }
+
+    CUDAArray exp_() const {
+        CUDAArray scaled = Value(1.4426950408889634074) * *this;
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "ex2.approx.ftz.$t1 $r1, $r2", scaled.index_()));
+    }
+
+    CUDAArray log_() const {
+        return CUDAArray::from_index_(cuda_trace_append(
+            Type, "lg2.approx.ftz.$t1 $r1, $r2",
+            index_())) * Value(0.69314718055994530942);
+    }
+
+    CUDAArray sin_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "sin.approx.ftz.$t1 $r1, $r2", index_()));
+    }
+
+    CUDAArray cos_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "cos.approx.ftz.$t1 $r1, $r2", index_()));
+    }
+
+    std::pair<CUDAArray, CUDAArray> sincos_() const {
+        return { sin_(), cos_() };
+    }
+
+    CUDAArray rcp_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "rcp.approx.ftz.$t1 $r1, $r2", index_()));
+    }
+
+    CUDAArray rsqrt_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "rsqrt.approx.ftz.$t1 $r1, $r2", index_()));
+    }
+
+    CUDAArray floor_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "cvt.rmi.$t1.$t1 $r1, $r2", index_()));
+    }
+
+    CUDAArray ceil_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "cvt.rpi.$t1.$t1 $r1, $r2", index_()));
+    }
+
+    CUDAArray round_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "cvt.rni.$t1.$t1 $r1, $r2", index_()));
+    }
+
+    CUDAArray trunc_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "cvt.rzi.$t1.$t1 $r1, $r2", index_()));
+    }
+
+    template <typename T> T floor2int_() const {
+        return T::from_index_(cuda_trace_append(T::Type,
+            "cvt.rmi.$t1.$t2 $r1, $r2", index_()));
+    }
+
+    template <typename T> T ceil2int_() const {
+        return T::from_index_(cuda_trace_append(T::Type,
+            "cvt.rpi.$t1.$t2 $r1, $r2", index_()));
+    }
+
+    CUDAArray sl_(const CUDAArray &v) const {
+        if constexpr (sizeof(Value) == 4)
+            return CUDAArray::from_index_(cuda_trace_append(Type,
+                "shl.$b1 $r1, $r2, $r3", index_(), v.index_()));
+        else
+            return CUDAArray::from_index_(cuda_trace_append(Type,
+                "shl.$b1 $r1, $r2, $r3", index_(), CUDAArray<int32_t>(v).index_()));
+    }
+
+    CUDAArray sr_(const CUDAArray &v) const {
+        const char *op = std::is_signed_v<Value> ? "shr.$t1 $r1, $r2, $r3"
+                                                 : "shr.$b1 $r1, $r2, $r3";
+        if constexpr (sizeof(Value) == 4)
+            return CUDAArray::from_index_(cuda_trace_append(Type,
+                op, index_(), v.index_()));
+        else
+            return CUDAArray::from_index_(cuda_trace_append(Type,
+                op, index_(), CUDAArray<int32_t>(v).index_()));
+    }
+
+    CUDAArray sl_(size_t value) const { return sl_(CUDAArray((Value) value)); }
+    CUDAArray sr_(size_t value) const { return sr_(CUDAArray((Value) value)); }
+
+    template <size_t Imm> CUDAArray sl_() const { return sl_(Imm); }
+    template <size_t Imm> CUDAArray sr_() const { return sr_(Imm); }
+
+    CUDAArray not_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "not.$b1 $r1, $r2", index_()));
+    }
+
+    CUDAArray popcnt_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "popc.$b1 $r1, $r2", index_()));
+    }
+
+    CUDAArray lzcnt_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "clz.$b1 $r1, $r2", index_()));
+    }
+
+    CUDAArray tzcnt_() const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "brev.$b1 $r1, $r2;\n    clz.$b1 $r1, $r1", index_()));
+    }
+
+    template <typename T>
+    CUDAArray or_(const CUDAArray<T> &v) const {
+        Value all_ones = memcpy_cast<Value>(int_array_t<Value>(-1));
+        ENOKI_MARK_USED(all_ones);
+
+        if constexpr (std::is_same_v<T, Value>)
+            return CUDAArray::from_index_(cuda_trace_append(Type,
+                "or.$b1 $r1, $r2, $r3", index_(), v.index_()));
+        else
+            return CUDAArray::from_index_(cuda_trace_append(Type,
+                "selp.$t1 $r1, $r2, $r3, $r4", CUDAArray(all_ones).index_(),
+                index_(), v.index_()));
+    }
+
+    template <typename T>
+    CUDAArray and_(const CUDAArray<T> &v) const {
+        Value all_zeros = memcpy_cast<Value>(int_array_t<Value>(0));
+        ENOKI_MARK_USED(all_zeros);
+
+        if constexpr (std::is_same_v<T, Value>)
+            return CUDAArray::from_index_(cuda_trace_append(Type,
+                "and.$b1 $r1, $r2, $r3", index_(), v.index_()));
+        else
+            return CUDAArray::from_index_(cuda_trace_append(Type,
+                "selp.$t1 $r1, $r2, $r3, $r4", index_(),
+                CUDAArray(all_zeros).index_(), v.index_()));
+    }
+
+    template <typename T> CUDAArray andnot_(const CUDAArray<T> &v) const {
+        return and_(!v);
+    }
+
+    CUDAArray xor_(const CUDAArray &v) const {
+        return CUDAArray::from_index_(cuda_trace_append(Type,
+            "xor.$b1 $r1, $r2, $r3", index_(), v.index_()));
+    }
+
+    MaskType gt_(const CUDAArray &v) const {
+        const char *op = std::is_signed_v<Value>
+                             ? "setp.gt.$t2 $r1, $r2, $r3"
+                             : "setp.hi.$t2 $r1, $r2, $r3";
+        return MaskType::from_index_(cuda_trace_append(
+            EnokiType::Bool, op, index_(), v.index_()));
+    }
+
+    MaskType ge_(const CUDAArray &v) const {
+        const char *op = std::is_signed_v<Value>
+                             ? "setp.ge.$t2 $r1, $r2, $r3"
+                             : "setp.hs.$t2 $r1, $r2, $r3";
+        return MaskType::from_index_(cuda_trace_append(
+            EnokiType::Bool, op, index_(), v.index_()));
+    }
+
+    MaskType lt_(const CUDAArray &v) const {
+        const char *op = std::is_signed_v<Value>
+                             ? "setp.lt.$t2 $r1, $r2, $r3"
+                             : "setp.lo.$t2 $r1, $r2, $r3";
+        return MaskType::from_index_(cuda_trace_append(
+            EnokiType::Bool, op, index_(), v.index_()));
+    }
+
+    MaskType le_(const CUDAArray &v) const {
+        const char *op = std::is_signed_v<Value>
+                             ? "setp.le.$t2 $r1, $r2, $r3"
+                             : "setp.ls.$t2 $r1, $r2, $r3";
+        return MaskType::from_index_(cuda_trace_append(
+            EnokiType::Bool, op, index_(), v.index_()));
+    }
+
+    MaskType eq_(const CUDAArray &v) const {
+        const char *op = !std::is_same_v<Value, bool>
+            ? "setp.eq.$t2 $r1, $r2, $r3" :
+              "xor.$t2 $r1, $r2, $r3;\n    not.$t2 $r1, $r1";
+
+        return MaskType::from_index_(cuda_trace_append(
+            EnokiType::Bool, op, index_(), v.index_()));
+    }
+
+    MaskType neq_(const CUDAArray &v) const {
+        const char *op = !std::is_same_v<Value, bool>
+            ? "setp.ne.$t2 $r1, $r2, $r3" :
+              "xor.$t2 $r1, $r2, $r3";
+
+        return MaskType::from_index_(cuda_trace_append(
+            EnokiType::Bool, op, index_(), v.index_()));
+    }
+
+    static CUDAArray select_(const MaskType &m, const CUDAArray &t, const CUDAArray &f) {
+        if constexpr (!std::is_same_v<Value, bool>) {
+            return CUDAArray::from_index_(cuda_trace_append(Type,
+                "selp.$t1 $r1, $r2, $r3, $r4", t.index_(), f.index_(), m.index_()));
+        } else {
+            return (m & t) | (~m & f);
+        }
+    }
+
+    static CUDAArray arange_(ssize_t start, ssize_t stop, ssize_t step) {
+        size_t size = size_t((stop - start + step - (step > 0 ? 1 : -1)) / step);
+
+        using UInt32 = CUDAArray<uint32_t>;
+        UInt32 index = UInt32::from_index_(
+            cuda_trace_append(EnokiType::UInt32, "mov.u32 $r1, $r2", 2));
+        cuda_var_set_size(index.index_(), size);
+
+        if (start == 0 && step == 1)
+            return index;
+        else
+            return fmadd(index, CUDAArray((Value) step), CUDAArray((Value) start));
+    }
+
+    static CUDAArray linspace_(Value min, Value max, size_t size) {
+        using UInt32 = CUDAArray<uint32_t>;
+        UInt32 index = UInt32::from_index_(
+            cuda_trace_append(EnokiType::UInt32, "mov.u32 $r1, $r2", 2));
+        cuda_var_set_size(index.index_(), size);
+
+        Value step = (max - min) / Value(size - 1);
+        return fmadd(index, CUDAArray(step), CUDAArray(min));
+    }
+
+    static CUDAArray empty_(size_t size) {
+        return CUDAArray::from_index_(cuda_var_register(
+            Type, size, cuda_malloc(size * sizeof(Value)), true));
+    }
+
+    static CUDAArray zero_(size_t size) {
+        if (size == 1) {
+            return CUDAArray(Value(0));
+        } else {
+            void *ptr = cuda_malloc(size * sizeof(Value));
+            cuda_fill((uint8_t *) ptr, 0, size * sizeof(Value));
+            uint32_t index = cuda_var_register(Type, size, ptr, true);
+            return CUDAArray::from_index_(index);
+        }
+    }
+
+    static CUDAArray full_(const Value &value, size_t size) {
+        if (size == 1) {
+            return CUDAArray(value);
+        } else {
+            using UInt = uint_array_t<Value>;
+            void *ptr = cuda_malloc(size * sizeof(Value));
+            cuda_fill((UInt *) ptr, memcpy_cast<UInt>(value), size);
+            uint32_t index = cuda_var_register(Type, size, ptr, true);
+            return CUDAArray::from_index_(index);
+        }
+    }
+
+    CUDAArray hsum_() const {
+        size_t n = size();
+        if (n == 1) {
+            return *this;
+        } else {
+            eval();
+            Value *result = cuda_hsum(n, (const Value *) cuda_var_ptr(m_index));
+            return CUDAArray::from_index_(cuda_var_register(Type, 1, result, true));
+        }
+    }
+
+    CUDAArray reverse_() const {
+        using UInt = uint_array_t<Value>;
+
+        size_t n = size();
+        if (n <= 1)
+            return *this;
+
+        eval();
+        UInt *result = (UInt *) cuda_malloc(n * sizeof(Value));
+        cuda_reverse(result, (const UInt *) cuda_var_ptr(m_index), n);
+        return CUDAArray::from_index_(cuda_var_register(Type, n, result, true));
+    }
+
+    CUDAArray psum_() const {
+        size_t n = size();
+        if (n <= 1) {
+            return *this;
+        } else {
+            eval();
+            Value *result = cuda_psum(n, (const Value *) cuda_var_ptr(m_index));
+            return CUDAArray::from_index_(cuda_var_register(Type, n, result, true));
+        }
+    }
+
+    CUDAArray hprod_() const {
+        size_t n = size();
+        if (n == 1) {
+            return *this;
+        } else {
+            eval();
+            Value *result = cuda_hprod(n, (const Value *) cuda_var_ptr(m_index));
+            return CUDAArray::from_index_(cuda_var_register(Type, 1, result, true));
+        }
+    }
+
+    CUDAArray hmax_() const {
+        size_t n = size();
+        if (n == 1) {
+            return *this;
+        } else {
+            eval();
+            Value *result = cuda_hmax(n, (const Value *) cuda_var_ptr(m_index));
+            return CUDAArray::from_index_(cuda_var_register(Type, 1, result, true));
+        }
+    }
+
+    CUDAArray hmin_() const {
+        size_t n = size();
+        if (n == 1) {
+            return *this;
+        } else {
+            eval();
+            Value *result = cuda_hmin(n, (const Value *) cuda_var_ptr(m_index));
+            return CUDAArray::from_index_(cuda_var_register(Type, 1, result, true));
+        }
+    }
+
+    bool all_() const {
+        size_t n = size();
+        if (n == 1) {
+            return coeff(0);
+        } else {
+            eval();
+            return cuda_all(n, (const Value *) cuda_var_ptr(m_index));
+        }
+    }
+
+    bool any_() const {
+        size_t n = size();
+        if (n == 1) {
+            return coeff(0);
+        } else {
+            eval();
+            return cuda_any(n, (const Value *) cuda_var_ptr(m_index));
+        }
+    }
+
+    CUDAArray &eval() {
+        cuda_eval_var(m_index);
+        return *this;
+    }
+
+    const CUDAArray &eval() const {
+        cuda_eval_var(m_index);
+        return *this;
+    }
+
+    size_t count_() const {
+        eval();
+        return cuda_count(cuda_var_size(m_index), (const Value *) cuda_var_ptr(m_index));
+    }
+
+    static CUDAArray map(void *ptr, size_t size, bool dealloc = false) {
+        return CUDAArray::from_index_(cuda_var_register(Type, size, ptr, dealloc));
+    }
+
+    static CUDAArray copy(const void *ptr, size_t size) {
+        return CUDAArray::from_index_(cuda_var_copy_to_device(Type, size, ptr));
+    }
+
+    CUDAArray &managed() {
+        cuda_make_managed(m_index);
+        return *this;
+    }
+
+    const CUDAArray &managed() const {
+        cuda_make_managed(m_index);
+        return *this;
+    }
+
+    template <typename T = Value, enable_if_t<std::is_pointer_v<T> || std::is_same_v<T, uintptr_t>> = 0>
+    std::vector<std::pair<Value, CUDAArray<uint32_t>>> partition_() const {
+        if (!m_cached_partition) {
+            eval();
+
+            void **unique = nullptr;
+            uint32_t *counts = nullptr;
+            uint32_t **perm = nullptr;
+
+            cuda_partition(size(), (const void **) data(),
+                           &unique, &counts, &perm);
+            uint32_t num_unique = counts[0];
+
+            m_cached_partition = new std::vector<std::pair<Value, CUDAArray<uint32_t>>>(num_unique);
+            m_cached_partition->reserve(num_unique);
+
+            for (uint32_t i = 0; i < num_unique; ++i) {
+                m_cached_partition->emplace_back(
+                    (Value) unique[i],
+                    CUDAArray<uint32_t>::from_index_(cuda_var_register(
+                        EnokiType::UInt32, counts[i + 1], perm[i], true)));
+            }
+
+            cuda_host_free(unique);
+            cuda_host_free(counts);
+            free(perm);
+        }
+
+        return *m_cached_partition;
+    }
+
+    template <size_t Stride, typename Index, typename Mask>
+    static CUDAArray gather_(const void *ptr_, const Index &index,
+                             const Mask &mask) {
+        using UInt64 = CUDAArray<uint64_t>;
+
+        UInt64 ptr    = UInt64::from_index_(cuda_var_register_ptr(ptr_)),
+               addr   = fmadd(UInt64(index), (uint64_t) Stride, ptr);
+
+        if constexpr (!std::is_same_v<Value, bool>) {
+            return CUDAArray::from_index_(cuda_trace_append(
+                Type,
+                "@$r3 ld.global.$t1 $r1, [$r2];\n    @!$r3 mov.$b1 $r1, 0",
+                addr.index_(), mask.index_()));
+        } else {
+            return neq(CUDAArray<uint32_t>::from_index_(cuda_trace_append(
+                EnokiType::UInt32,
+                "@$r3 ld.global.u8 $r1, [$r2];\n    @!$r3 mov.$b1 $r1, 0",
+                addr.index_(), mask.index_())), 0u);
+        }
+    }
+
+    template <size_t Stride, typename Index, typename Mask>
+    ENOKI_INLINE void scatter_(void *ptr_, const Index &index, const Mask &mask) const {
+        using UInt64 = CUDAArray<uint64_t>;
+
+        UInt64 ptr    = UInt64::from_index_(cuda_var_register_ptr(ptr_)),
+               addr   = fmadd(UInt64(index), (uint64_t) Stride, ptr);
+
+        CUDAArray::Index var;
+
+        if constexpr (!std::is_same_v<Value, bool>) {
+            var = cuda_trace_append(EnokiType::UInt64,
+                "@$r4 st.global.$t3 [$r2], $r3",
+                addr.index_(), m_index, mask.index_()
+            );
+        } else {
+            using UInt32 = CUDAArray<uint32_t>;
+            UInt32 value = select(*this, UInt32(1), UInt32(0));
+            var = cuda_trace_append(EnokiType::UInt64,
+                "@$r4 st.global.u8 [$r2], $r3",
+                addr.index_(), value.index_(), mask.index_()
+            );
+        }
+
+        cuda_var_mark_side_effect(var);
+    }
+
+    template <size_t Stride, typename Index, typename Mask>
+    void scatter_add_(void *ptr_, const Index &index, const Mask &mask) const {
+        using UInt64  = CUDAArray<uint64_t>;
+
+        UInt64 ptr    = UInt64::from_index_(cuda_var_register_ptr(ptr_)),
+               addr   = fmadd(UInt64(index), (uint64_t) Stride, ptr);
+
+        CUDAArray::Index var = cuda_trace_append(Type,
+            "@$r4 atom.global.add.$t1 $r1, [$r2], $r3",
+            addr.index_(), m_index, mask.index_()
+        );
+
+        cuda_var_mark_side_effect(var);
+    }
+
+    template <typename Mask> CUDAArray compress_(const Mask &mask) const {
+        if (mask.size() == 0)
+            return CUDAArray();
+        else if (size() == 1 && mask.size() != 0)
+            return *this;
+        else if (mask.size() != size())
+            throw std::runtime_error("CUDAArray::compress_(): size mismatch!");
+        eval();
+        mask.eval();
+
+        Value *ptr;
+        size_t new_size;
+        cuda_compress(size(), (const Value *) data(),
+                      (const bool *) mask.data(), &ptr, &new_size);
+
+        return map(ptr, new_size, true);
+    }
+
+    auto operator->() const {
+        using BaseType = std::decay_t<std::remove_pointer_t<Value>>;
+        return call_support<BaseType, CUDAArray>(*this);
+    }
+
+    Index index_() const { return m_index; }
+    size_t size() const { return cuda_var_size(m_index); }
+    bool empty() const { return size() == 0; }
+    const Value *data() const { return (const Value *) cuda_var_ptr(m_index); }
+    Value *data() { return (Value *) cuda_var_ptr(m_index); }
+    void resize(size_t size) {
+        m_index = cuda_var_set_size(m_index, size, true);
+    }
+
+    Value coeff(size_t i) const {
+        Value result = (Value) 0;
+        cuda_fetch_element(&result, m_index, i, sizeof(Value));
+        return result;
+    }
+
+    static CUDAArray from_index_(Index index) {
+        CUDAArray a;
+        a.m_index = index;
+        return a;
+    }
+
+protected:
+    Index m_index = 0;
+    mutable std::vector<std::pair<Value, CUDAArray<uint32_t>>> *m_cached_partition = nullptr;
+};
+
+template <typename T, enable_if_t<!is_diff_array_v<T> && is_cuda_array_v<T>> = 0>
+ENOKI_INLINE void set_label(const T& a, const char *label) {
+    if constexpr (array_depth_v<T> >= 2) {
+        for (size_t i = 0; i < T::Size; ++i)
+            set_label(a.coeff(i), (std::string(label) + "." + std::to_string(i)).c_str());
+    } else {
+        cuda_var_set_label(a.index_(), label);
+    }
+}
+
+template <typename T> class cuda_managed_allocator {
+public:
+    using value_type = T;
+    using reference = T &;
+    using const_reference = const T &;
+
+    cuda_managed_allocator() = default;
+
+    template <typename T2>
+    cuda_managed_allocator(const cuda_managed_allocator<T2> &) { }
+
+    value_type *allocate(size_t n) {
+        return (value_type *) cuda_managed_malloc(n * sizeof(T));
+    }
+
+    void deallocate(value_type *ptr, size_t) {
+        cuda_free(ptr);
+    }
+
+    bool operator==(const cuda_managed_allocator &) { return true; }
+    bool operator!=(const cuda_managed_allocator &) { return false; }
+};
+
+template <typename T> class cuda_host_allocator {
+public:
+    using value_type = T;
+    using reference = T &;
+    using const_reference = const T &;
+
+    cuda_host_allocator() = default;
+
+    template <typename T2>
+    cuda_host_allocator(const cuda_host_allocator<T2> &) { }
+
+    value_type *allocate(size_t n) {
+        return (value_type *) cuda_host_malloc(n * sizeof(T));
+    }
+
+    void deallocate(value_type *ptr, size_t) {
+        cuda_host_free(ptr);
+    }
+
+    bool operator==(const cuda_host_allocator &) { return true; }
+    bool operator!=(const cuda_host_allocator &) { return false; }
+};
+
+#if defined(_MSC_VER)
+#  define ENOKI_CUDA_EXTERN
+#else
+#  define ENOKI_CUDA_EXTERN extern
+#endif
+
+#if defined(ENOKI_AUTODIFF_H) && !defined(ENOKI_BUILD)
+    ENOKI_CUDA_EXTERN template struct ENOKI_IMPORT Tape<CUDAArray<float>>;
+    ENOKI_CUDA_EXTERN template struct ENOKI_IMPORT DiffArray<CUDAArray<float>>;
+
+    ENOKI_CUDA_EXTERN template struct ENOKI_IMPORT Tape<CUDAArray<double>>;
+    ENOKI_CUDA_EXTERN template struct ENOKI_IMPORT DiffArray<CUDAArray<double>>;
+#endif
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/dynamic.h b/sources/enoki/dynamic.h
new file mode 100644
index 00000000..7303f434
--- /dev/null
+++ b/sources/enoki/dynamic.h
@@ -0,0 +1,1145 @@
+/*
+    enoki/dynamic.h -- Dynamic heap-allocated array
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/array.h>
+
+#if defined(__GNUC__) && !defined(__clang__)
+#  pragma GCC diagnostic push
+#  pragma GCC diagnostic ignored "-Wclass-memaccess"
+#endif
+
+#define ENOKI_DYNAMIC_H 1
+
+NAMESPACE_BEGIN(enoki)
+
+template <typename Packet_>
+struct DynamicArrayReference : ArrayBase<value_t<Packet_>, DynamicArrayReference<Packet_>> {
+    using Base = ArrayBase<value_t<Packet_>, DynamicArrayReference<Packet_>>;
+    using Packet = Packet_;
+    using ArrayType = DynamicArrayReference<array_t<Packet>>;
+    using MaskType = DynamicArrayReference<mask_t<Packet>>;
+
+    static constexpr size_t       PacketSize  = Packet::Size;
+    static constexpr bool         IsMask      = Packet::IsMask;
+
+    DynamicArrayReference(Packet *packets = nullptr) : m_packets(packets) { }
+
+    ENOKI_INLINE Packet &packet(size_t i) {
+        return ((Packet *) ENOKI_ASSUME_ALIGNED(m_packets, alignof(Packet)))[i];
+    }
+
+    ENOKI_INLINE const Packet &packet(size_t i) const {
+        return ((const Packet *) ENOKI_ASSUME_ALIGNED(m_packets, alignof(Packet)))[i];
+    }
+
+    template <typename T>
+    using ReplaceValue = DynamicArrayReference<replace_scalar_t<Packet, T>>;
+
+private:
+    Packet *m_packets;
+};
+
+template <typename Packet_, typename Derived_>
+struct DynamicArrayImpl : ArrayBase<value_t<Packet_>, Derived_> {
+    // -----------------------------------------------------------------------
+    //! @{ \name Aliases and constants
+    // -----------------------------------------------------------------------
+
+    using Size                                = uint32_t;
+    using Base                                = ArrayBase<value_t<Packet_>, Derived_>;
+    using Packet                              = Packet_;
+    using IndexPacket                         = uint_array_t<array_t<Packet_>, false>;
+    using IndexScalar                         = scalar_t<IndexPacket>;
+    using PacketHolder                        = std::unique_ptr<Packet[]>;
+
+    static constexpr size_t       PacketSize  = Packet::Size;
+    static constexpr bool         IsMask      = Packet::IsMask;
+
+    using typename Base::Derived;
+    using typename Base::Value;
+    using typename Base::Scalar;
+    using Base::derived;
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Constructors
+    // -----------------------------------------------------------------------
+
+    DynamicArrayImpl() = default;
+
+    ENOKI_INLINE ~DynamicArrayImpl() {
+        reset();
+    }
+
+    /// Initialize from a list of component values
+    template <typename... Ts, enable_if_t<sizeof...(Ts) >= 2 &&
+        std::conjunction_v<detail::is_constructible<Value, Ts>...>> = 0>
+    ENOKI_INLINE DynamicArrayImpl(Ts... args) {
+        Value storage[] = { (Value) args... };
+        resize(sizeof...(Ts));
+        memcpy(m_packets.get(), storage, sizeof(Value) * sizeof...(Ts));
+    }
+
+    DynamicArrayImpl(const DynamicArrayImpl &value) {
+        operator=(value);
+    }
+
+    ENOKI_INLINE DynamicArrayImpl(DynamicArrayImpl &&value) {
+        operator=(std::move(value));
+    }
+
+    template <typename Packet2, typename Derived2>
+    DynamicArrayImpl(const DynamicArrayImpl<Packet2, Derived2> &value) {
+        operator=(value);
+    }
+
+    template <typename Value2, typename Derived2>
+    DynamicArrayImpl(const ArrayBase<Value2, Derived2> &value) {
+        operator=(value);
+    }
+
+    template <typename Packet2, typename Derived2>
+    DynamicArrayImpl(const DynamicArrayImpl<Packet2, Derived2> &other,
+                     detail::reinterpret_flag) {
+        static_assert(Packet2::Size == Packet::Size, "Packet sizes must match!");
+        resize(other.size());
+        for (size_t i = 0; i < other.packets(); ++i)
+            packet(i) = reinterpret_array<Packet>(other.packet(i));
+    }
+
+#if defined(__GNUC__)
+// Don't be so noisy about sign conversion in constructor
+#  pragma GCC diagnostic push
+#  pragma GCC diagnostic ignored "-Wsign-conversion"
+#endif
+
+    template <typename T = Packet_, enable_if_mask_t<T> = 0>
+    DynamicArrayImpl(bool value, detail::reinterpret_flag) {
+        resize(1);
+        packet(0) = Packet(value);
+    }
+
+    template <typename T, enable_if_t<is_scalar_v<T>> = 0>
+    DynamicArrayImpl(const T &value) {
+        using S = std::conditional_t<IsMask, bool, Scalar>;
+        resize(1);
+        packet(0) = Packet((S) value);
+    }
+
+#if defined(__GNUC__)
+#  pragma GCC diagnostic pop
+#endif
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Assignment operators
+    // -----------------------------------------------------------------------
+
+    template <typename T, enable_if_t<is_scalar_v<T>> = 0>
+    ENOKI_NOINLINE DynamicArrayImpl &operator=(const T &value) {
+        resize(1);
+        packet(0) = Packet(value);
+        return derived();
+    }
+
+    ENOKI_NOINLINE DynamicArrayImpl &operator=(const DynamicArrayImpl &other) {
+        resize(other.size());
+        memcpy(m_packets.get(), other.m_packets.get(),
+               packets() * sizeof(Packet));
+        return derived();
+    }
+
+    template <typename Packet2, typename Derived2>
+    ENOKI_NOINLINE DynamicArrayImpl &operator=(const DynamicArrayImpl<Packet2, Derived2> &other) {
+        static_assert(Packet2::Size == Packet::Size, "Packet sizes must match!");
+        resize(other.size());
+        for (size_t i = 0; i < other.packets(); ++i)
+            packet(i) = Packet(other.packet(i));
+        return derived();
+    }
+
+    template <typename Value2, typename Derived2>
+    ENOKI_NOINLINE DynamicArrayImpl &operator=(const ArrayBase<Value2, Derived2> &other) {
+        resize(other.derived().size());
+        for (size_t i = 0; i < other.derived().size(); ++i)
+            coeff(i) = other.derived().coeff(i);
+        return derived();
+    }
+
+    ENOKI_INLINE DynamicArrayImpl &operator=(DynamicArrayImpl &&other) {
+        m_packets.swap(other.m_packets);
+        std::swap(m_packets_allocated, other.m_packets_allocated);
+        std::swap(m_size, other.m_size);
+        return derived();
+    }
+
+    void reset() {
+        if (is_mapped()) {
+            m_packets.release();
+        } else if (m_packets.get()) {
+            ENOKI_TRACK_DEALLOC(m_packets.get(), packets_allocated() * sizeof(Packet));
+            m_packets.reset();
+        }
+
+        m_size = m_packets_allocated = 0;
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Functions to access the array contents
+    // -----------------------------------------------------------------------
+
+    bool is_mapped() const { return (m_packets_allocated & 0x80000000u) != 0; }
+    size_t size() const { return (size_t) m_size; }
+    size_t packets() const { return ((size_t) m_size + PacketSize - 1) / PacketSize; }
+    size_t packets_allocated() const { return (size_t) (m_packets_allocated & 0x7fffffffu); }
+    size_t capacity() const { return packets_allocated() * Packet::Size; }
+
+    bool empty() const { return m_size == 0; }
+
+    size_t nbytes() const {
+        return packets_allocated() * sizeof(Packet) + sizeof(Derived);
+    }
+
+    ENOKI_INLINE const Value *data() const {
+        return (const Value *) ENOKI_ASSUME_ALIGNED(m_packets.get(), alignof(Packet));
+    }
+
+    ENOKI_INLINE Value *data() {
+        return (Value *) ENOKI_ASSUME_ALIGNED(m_packets.get(), alignof(Packet));
+    }
+
+    ENOKI_INLINE const Packet *packet_ptr() const {
+        return (const Packet *) ENOKI_ASSUME_ALIGNED(m_packets.get(), alignof(Packet));
+    }
+
+    ENOKI_INLINE Packet *packet_ptr() {
+        return (Packet *) ENOKI_ASSUME_ALIGNED(m_packets.get(), alignof(Packet));
+    }
+
+    ENOKI_INLINE decltype(auto) coeff(size_t i) {
+        return m_packets[i / PacketSize].coeff(i % PacketSize);
+    }
+
+    ENOKI_INLINE decltype(auto) coeff(size_t i) const {
+        return m_packets[i / PacketSize].coeff(i % PacketSize);
+    }
+
+    ENOKI_INLINE Packet &packet(size_t i) {
+        #if !defined(NDEBUG) && !defined(ENOKI_DISABLE_RANGE_CHECK)
+            if (i >= packets())
+                throw std::out_of_range(
+                    "DynamicArray: out of range access (tried to access packet " +
+                    std::to_string(i) + " in an array of size " +
+                    std::to_string(packets()) + ")");
+        #endif
+        return ((Packet *) ENOKI_ASSUME_ALIGNED(m_packets.get(), alignof(Packet)))[i];
+    }
+
+    ENOKI_INLINE const Packet &packet(size_t i) const {
+        #if !defined(NDEBUG) && !defined(ENOKI_DISABLE_RANGE_CHECK)
+            if (i >= packets())
+                throw std::out_of_range(
+                    "DynamicArray: out of range access (tried to access packet " +
+                    std::to_string(i) + " in an array of size " +
+                    std::to_string(packets()) + ")");
+        #endif
+        return ((const Packet *) ENOKI_ASSUME_ALIGNED(m_packets.get(), alignof(Packet)))[i];
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Vertical array operations
+    // -----------------------------------------------------------------------
+
+    #define ENOKI_FWD_UNARY_OPERATION(name, Return, op)                      \
+        auto name##_() const {                                               \
+            Return result;                                                   \
+            result.resize(size());                                           \
+            auto p1 = packet_ptr();                                          \
+            auto pr = result.packet_ptr();                                   \
+            for (size_t i = 0, n = result.packets();                         \
+                 i < n; ++i, ++p1, ++pr) {                                   \
+                Packet a = *p1;                                              \
+                *pr = op;                                                    \
+            }                                                                \
+            return result;                                                   \
+        }
+
+    #define ENOKI_FWD_UNARY_OPERATION_IMM(name, Return, op)                  \
+        template <size_t Imm> auto name##_() const {                         \
+            Return result;                                                   \
+            result.resize(size());                                           \
+            auto p1 = packet_ptr();                                          \
+            auto pr = result.packet_ptr();                                   \
+            for (size_t i = 0, n = result.packets();                         \
+                 i < n; ++i, ++p1, ++pr) {                                   \
+                Packet a = *p1;                                              \
+                *pr = op;                                                    \
+            }                                                                \
+            return result;                                                   \
+        }
+
+    #define ENOKI_FWD_BINARY_OPERATION(name, Return, op)                     \
+        template <typename T>                                                \
+        auto name##_(const T &d) const {                                     \
+            Return result;                                                   \
+            result.resize_like(*this, d);                                    \
+            auto p1 = packet_ptr();                                          \
+            auto p2 = d.packet_ptr();                                        \
+            auto pr = result.packet_ptr();                                   \
+            size_t s1 = size() == 1 ? 0 : 1,                                 \
+                   s2 = d.size() == 1 ? 0 : 1;                               \
+            for (size_t i = 0, n = result.packets(); i < n;                  \
+                 ++i, ++pr, p1 += s1, p2 += s2) {                            \
+                auto a1 = *p1;                                               \
+                auto a2 = *p2;                                               \
+                *pr = op;                                                    \
+            }                                                                \
+            return result;                                                   \
+        }
+
+    #define ENOKI_FWD_BINARY_OPERATION_SIZE(name, Return, op)                \
+        auto name##_(size_t a2) const {                                      \
+            Return result;                                                   \
+            result.resize_like(*this);                                       \
+            auto p1 = packet_ptr();                                          \
+            auto pr = result.packet_ptr();                                   \
+            for (size_t i = 0, n = result.packets(); i < n;                  \
+                 ++i, ++pr, p1++) {                                          \
+                auto a1 = *p1;                                               \
+                *pr = op;                                                    \
+            }                                                                \
+            return result;                                                   \
+        }
+
+    #define ENOKI_FWD_TERNARY_OPERATION(name, Return, op)                    \
+        template <typename T1, typename T2>                                  \
+        auto name##_(const T1 &d1, const T2 &d2) const {                     \
+            Return result;                                                   \
+            result.resize_like(*this, d1, d2);                               \
+            auto p1 = packet_ptr();                                          \
+            auto p2 = d1.packet_ptr();                                       \
+            auto p3 = d2.packet_ptr();                                       \
+            auto pr = result.packet_ptr();                                   \
+            size_t s1 = size() == 1 ? 0 : 1,                                 \
+                   s2 = d1.size() == 1 ? 0 : 1,                              \
+                   s3 = d2.size() == 1 ? 0 : 1;                              \
+            for (size_t i = 0, n = result.packets(); i < n;                  \
+                 ++i, ++pr, p1 += s1, p2 += s2, p3 += s3) {                  \
+                auto a1 = *p1;                                               \
+                auto a2 = *p2;                                               \
+                auto a3 = *p3;                                               \
+                *pr = op;                                                    \
+            }                                                                \
+            return result;                                                   \
+        }
+
+    #define ENOKI_FWD_MASKED_OPERATION(name, expr)                           \
+        template <typename Mask>                                             \
+        void m##name##_(const Derived &e, const Mask &m) {                   \
+            resize_like(*this, e, m);                                        \
+            auto pr = packet_ptr();                                          \
+            auto p1 = e.packet_ptr();                                        \
+            auto p2 = m.packet_ptr();                                        \
+            size_t s1 = e.size() == 1 ? 0 : 1,                               \
+                   s2 = m.size() == 1 ? 0 : 1;                               \
+            for (size_t i = 0, n = packets(); i < n;                         \
+                 ++i, ++pr, p1 += s1, p2 += s2)                              \
+                (*pr).m##name##_(*p1, *p2);                                  \
+        }
+
+    ENOKI_FWD_BINARY_OPERATION(add, Derived, a1 + a2)
+    ENOKI_FWD_BINARY_OPERATION(sub, Derived, a1 - a2)
+    ENOKI_FWD_BINARY_OPERATION(mul, Derived, a1 * a2)
+    ENOKI_FWD_BINARY_OPERATION(div, Derived, a1 / a2)
+    ENOKI_FWD_BINARY_OPERATION(mod, Derived, a1 % a2)
+    ENOKI_FWD_BINARY_OPERATION(sl,  Derived, a1 << a2)
+    ENOKI_FWD_BINARY_OPERATION(sr,  Derived, a1 >> a2)
+    ENOKI_FWD_BINARY_OPERATION(rol, Derived, rol(a1, a2))
+    ENOKI_FWD_BINARY_OPERATION(ror, Derived, ror(a1, a2))
+    ENOKI_FWD_BINARY_OPERATION(mulhi, Derived, mulhi(a1, a2))
+
+    ENOKI_FWD_BINARY_OPERATION_SIZE(sl, Derived, a1 << a2)
+    ENOKI_FWD_BINARY_OPERATION_SIZE(sr, Derived, a1 >> a2)
+
+    ENOKI_FWD_UNARY_OPERATION_IMM(sl,  Derived, sl<Imm>(a))
+    ENOKI_FWD_UNARY_OPERATION_IMM(sr,  Derived, sr<Imm>(a))
+    ENOKI_FWD_UNARY_OPERATION_IMM(rol, Derived, rol<Imm>(a))
+    ENOKI_FWD_UNARY_OPERATION_IMM(ror, Derived, ror<Imm>(a))
+
+    ENOKI_FWD_UNARY_OPERATION(lzcnt, Derived, lzcnt(a))
+    ENOKI_FWD_UNARY_OPERATION(tzcnt, Derived, tzcnt(a))
+    ENOKI_FWD_UNARY_OPERATION(popcnt, Derived, popcnt(a))
+
+    ENOKI_FWD_BINARY_OPERATION(or,     Derived, a1 | a2)
+    ENOKI_FWD_BINARY_OPERATION(and,    Derived, a1 & a2)
+    ENOKI_FWD_BINARY_OPERATION(andnot, Derived, andnot(a1, a2))
+    ENOKI_FWD_BINARY_OPERATION(xor,    Derived, a1 ^ a2)
+
+    ENOKI_FWD_UNARY_OPERATION(not, Derived, ~a);
+    ENOKI_FWD_UNARY_OPERATION(neg, Derived, -a);
+
+    ENOKI_FWD_BINARY_OPERATION(eq,  mask_t<Derived>, eq (a1, a2))
+    ENOKI_FWD_BINARY_OPERATION(neq, mask_t<Derived>, neq(a1, a2))
+    ENOKI_FWD_BINARY_OPERATION(gt,  mask_t<Derived>, a1 > a2)
+    ENOKI_FWD_BINARY_OPERATION(ge,  mask_t<Derived>, a1 >= a2)
+    ENOKI_FWD_BINARY_OPERATION(lt,  mask_t<Derived>, a1 < a2)
+    ENOKI_FWD_BINARY_OPERATION(le,  mask_t<Derived>, a1 <= a2)
+
+    ENOKI_FWD_TERNARY_OPERATION(fmadd,    Derived, fmadd(a1, a2, a3))
+    ENOKI_FWD_TERNARY_OPERATION(fmsub,    Derived, fmsub(a1, a2, a3))
+    ENOKI_FWD_TERNARY_OPERATION(fnmadd,   Derived, fnmadd(a1, a2, a3))
+    ENOKI_FWD_TERNARY_OPERATION(fnmsub,   Derived, fnmsub(a1, a2, a3))
+    ENOKI_FWD_TERNARY_OPERATION(fmsubadd, Derived, fmsubadd(a1, a2, a3))
+    ENOKI_FWD_TERNARY_OPERATION(fmaddsub, Derived, fmaddsub(a1, a2, a3))
+
+    ENOKI_FWD_BINARY_OPERATION(min, Derived, min(a1, a2))
+    ENOKI_FWD_BINARY_OPERATION(max, Derived, max(a1, a2))
+
+    ENOKI_FWD_UNARY_OPERATION(abs,   Derived, abs(a));
+    ENOKI_FWD_UNARY_OPERATION(ceil,  Derived, ceil(a));
+    ENOKI_FWD_UNARY_OPERATION(floor, Derived, floor(a));
+    ENOKI_FWD_UNARY_OPERATION(sqrt,  Derived, sqrt(a));
+    ENOKI_FWD_UNARY_OPERATION(round, Derived, round(a));
+    ENOKI_FWD_UNARY_OPERATION(trunc, Derived, trunc(a));
+
+    ENOKI_FWD_UNARY_OPERATION(rsqrt, Derived, rsqrt(a));
+    ENOKI_FWD_UNARY_OPERATION(rcp,   Derived, rcp(a));
+
+    ENOKI_FWD_MASKED_OPERATION(assign, b)
+    ENOKI_FWD_MASKED_OPERATION(add, a + b)
+    ENOKI_FWD_MASKED_OPERATION(sub, a - b)
+    ENOKI_FWD_MASKED_OPERATION(mul, a * b)
+    ENOKI_FWD_MASKED_OPERATION(div, a / b)
+    ENOKI_FWD_MASKED_OPERATION(or, a | b)
+    ENOKI_FWD_MASKED_OPERATION(and, a & b)
+    ENOKI_FWD_MASKED_OPERATION(xor, a ^ b)
+
+    #undef ENOKI_FWD_UNARY_OPERATION
+    #undef ENOKI_FWD_UNARY_OPERATION_IMM
+    #undef ENOKI_FWD_BINARY_OPERATION
+    #undef ENOKI_FWD_TERNARY_OPERATION
+    #undef ENOKI_FWD_MASKED_OPERATION
+
+    template <typename Mask>
+    static Derived select_(const Mask &mask, const Derived &t, const Derived &f) {
+        if (ENOKI_UNLIKELY(f.empty())) {
+            if (all(mask))
+                return t;
+            else
+                throw std::runtime_error(
+                    "DynamicArray::select(): array for false branch is empty, "
+                    "and some entries were referenced.");
+        }
+
+        if (ENOKI_UNLIKELY(t.empty())) {
+            if (none(mask))
+                return f;
+            else
+                throw std::runtime_error(
+                    "DynamicArray::select(): array for true branch is empty, "
+                    "and some entries were referenced.");
+        }
+
+        Derived result;
+        result.resize_like(mask, t, f);
+        size_t i1 = 0, i1i = mask.size() == 1 ? 0 : 1,
+               i2 = 0, i2i = t.size() == 1 ? 0 : 1,
+               i3 = 0, i3i = f.size() == 1 ? 0 : 1;
+
+        for (size_t i = 0; i < result.packets();
+             ++i, i1 += i1i, i2 += i2i, i3 += i3i) {
+            result.packet(i) = select(mask.packet(i1), t.packet(i2), f.packet(i3));
+        }
+        return result;
+    }
+
+    template <size_t Stride, typename Index, typename Mask>
+    static Derived gather_(const void *mem, const Index &index, const Mask &mask) {
+        Derived result;
+        result.resize_like(index, mask);
+        size_t i1 = 0, i1i = index.size() == 1 ? 0 : 1,
+               i2 = 0, i2i = mask.size() == 1 ? 0 : 1,
+               i = 0;
+        if (!result.empty()) {
+            for (; i < result.packets() - (PacketSize > 1 ? 1 : 0); ++i, i1 += i1i, i2 += i2i)
+                result.packet(i) = gather<Packet, Stride>(mem, index.packet(i1), mask.packet(i2));
+            if constexpr (PacketSize > 1) {
+                auto mask2 = arange<IndexPacket>() <= IndexScalar((result.size() - 1) % PacketSize);
+                result.packet(i) = gather<Packet, Stride>(mem, index.packet(i1), mask.packet(i2) & mask2);
+                if (result.size() == 1)
+                    result.packet(0) = result.coeff(0);
+            }
+        }
+        return result;
+    }
+
+    template <size_t Stride, typename Index, typename Mask>
+    void scatter_(void *mem, const Index &index, const Mask &mask) const {
+        size_t i1 = 0, i1i = this->size() == 1 ? 0 : 1,
+               i2 = 0, i2i = index.size() == 1 ? 0 : 1,
+               i3 = 0, i3i = mask.size() == 1 ? 0 : 1,
+               size = check_size(*this, index, mask),
+               n_packets = (size + PacketSize - 1) / PacketSize,
+               i = 0;
+
+        if (n_packets > 0) {
+            for (; i < n_packets - (PacketSize > 1 ? 1 : 0); ++i, i1 += i1i, i2 += i2i, i3 += i3i)
+                scatter<Stride>(mem, packet(i1), index.packet(i2), mask.packet(i3));
+            if constexpr (PacketSize > 1) {
+                auto mask2 = arange<IndexPacket>() <= IndexScalar((size - 1) % PacketSize);
+                scatter<Stride>(mem, packet(i1), index.packet(i2), mask.packet(i3) & mask2);
+            }
+        }
+    }
+
+    template <size_t Stride, typename Index, typename Mask>
+    void scatter_add_(void *mem, const Index &index, const Mask &mask) const {
+        size_t i1 = 0, i1i = this->size() == 1 ? 0 : 1,
+               i2 = 0, i2i = index.size() == 1 ? 0 : 1,
+               i3 = 0, i3i = mask.size() == 1 ? 0 : 1,
+               size = check_size(*this, index, mask),
+               n_packets = (size + PacketSize - 1) / PacketSize,
+               i = 0;
+
+        if (n_packets > 0) {
+            for (; i < n_packets - (PacketSize > 1 ? 1 : 0); ++i, i1 += i1i, i2 += i2i, i3 += i3i)
+                scatter_add<Stride>(mem, packet(i1), index.packet(i2), mask.packet(i3));
+            if constexpr (PacketSize > 1) {
+                auto mask2 = arange<IndexPacket>() <= IndexScalar((size - 1) % PacketSize);
+                scatter_add<Stride>(mem, packet(i1), index.packet(i2), mask.packet(i3) & mask2);
+            }
+        }
+    }
+
+    template <size_t Stride, typename Index, typename Func, typename... Args, typename Mask>
+    static ENOKI_INLINE void transform_(void *ptr, const Index &index, const Mask &mask,
+                                        const Func &func, const Args &... args) {
+        size_t size = check_size(index, mask, args...),
+               n_packets = (size + PacketSize - 1) / PacketSize;
+
+        if (n_packets > 0) {
+            size_t i = 0;
+            for (; i < n_packets - (PacketSize > 1 ? 1 : 0); ++i)
+                transform<Packet, Stride>(
+                    ptr,
+                    enoki::packet(index, enoki::slices(index) <= 1 ? 0 : i),
+                    func,
+                    enoki::packet(args, enoki::slices(args) <= 1 ? 0 : i)...);
+
+            if constexpr (PacketSize > 1) {
+                auto mask2 = arange<IndexPacket>() <= IndexScalar((size - 1) % PacketSize);
+                transform<Packet, Stride>(
+                    ptr,
+                    enoki::packet(index, enoki::slices(index) <= 1 ? 0 : i),
+                    func,
+                    enoki::packet(args, enoki::slices(args) <= 1 ? 0 : i) & mask2...);
+            }
+        }
+    }
+
+    template <typename Mask> Derived compress_(const Mask &mask) const {
+        assert(mask.size() == size());
+        size_t count = 0;
+        Derived result;
+        set_slices(result, size());
+        Value *ptr = result.data();
+
+        for (size_t i = 0; i < packets(); ++i)
+            count += compress(ptr, packet(i), mask.packet(i));
+        set_slices(result, count);
+        return result;
+    }
+
+    template <typename T> T ceil2int_() const {
+        T result;
+        result.resize(size());
+        auto p1 = packet_ptr();
+        auto pr = result.packet_ptr();
+        for (size_t i = 0, n = result.packets();
+             i < n; ++i, ++p1, ++pr)
+            *pr = ceil2int<typename T::Packet>(*p1);
+        return result;
+    }
+
+    template <typename T> T floor2int_() const {
+        T result;
+        result.resize(size());
+        auto p1 = packet_ptr();
+        auto pr = result.packet_ptr();
+        for (size_t i = 0, n = result.packets();
+             i < n; ++i, ++p1, ++pr)
+            *pr = floor2int<typename T::Packet>(*p1);
+        return result;
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Horizontal array operations
+    // -----------------------------------------------------------------------
+
+    Derived reverse_() const {
+        using CoeffValue = std::conditional_t<IsMask, bool, Value>;
+
+        size_t n = size();
+
+        Derived result;
+        set_slices(result, n);
+
+        for (size_t i = 0; i < n; ++i)
+            result.coeff(i) = (CoeffValue) coeff(n - 1 - i);
+
+        return result;
+    }
+
+    Derived psum_() const {
+        Derived result;
+        set_slices(result, size());
+
+        if (!empty()) {
+            // Difficult to vectorize this..
+            result.coeff(0) = coeff(0);
+            for (size_t i = 1; i < size(); ++i)
+                result.coeff(i) = result.coeff(i - 1) + coeff(i);
+        }
+
+        return result;
+    }
+
+    Value hsum_() const {
+        if (size() == 0) {
+            return Value(Scalar(0));
+        } else if (size() == 1) {
+            return coeff(0);
+        } else {
+            Packet result = zero<Packet>();
+            for (size_t i = 0, count = packets() - (PacketSize > 1 ? 1 : 0); i < count; ++i)
+                result += packet(i);
+
+            if constexpr (PacketSize > 1) {
+                result[arange<IndexPacket>() <= IndexScalar((size() - 1) % PacketSize)] +=
+                    packet(packets() - 1);
+            }
+            return hsum(result);
+        }
+    }
+
+    Value hprod_() const {
+        if (size() == 0) {
+            return Value(Scalar(1));
+        } else if (size() == 1) {
+            return coeff(0);
+        } else {
+            Packet result = Scalar(1);
+            for (size_t i = 0, count = packets() - (PacketSize > 1 ? 1 : 0); i < count; ++i)
+                result *= packet(i);
+
+            if constexpr (PacketSize > 1) {
+                result[arange<IndexPacket>() <= IndexScalar((size() - 1) % PacketSize)] *=
+                    packet(packets() - 1);
+            }
+            return hprod(result);
+        }
+    }
+
+    Value hmin_() const {
+        if (size() == 0) {
+            return Value(std::numeric_limits<Scalar>::max());
+        } else if (size() == 1) {
+            return coeff(0);
+        } else {
+            Packet result = coeff(0);
+            for (size_t i = 0, count = packets() - (PacketSize > 1 ? 1 : 0); i < count; ++i)
+                result = min(result, packet(i));
+
+            if constexpr (PacketSize > 1) {
+                result[arange<IndexPacket>() <= IndexScalar((size() - 1) % PacketSize)] =
+                    min(result, packet(packets() - 1));
+            }
+            return hmin(result);
+        }
+    }
+
+    Value hmax_() const {
+        if (size() == 0) {
+            return Value(std::numeric_limits<Scalar>::min());
+        } else if (size() == 1) {
+            return coeff(0);
+        } else {
+            Packet result = coeff(0);
+            for (size_t i = 0, count = packets() - (PacketSize > 1 ? 1 : 0); i < count; ++i)
+                result = max(result, packet(i));
+
+            if constexpr (PacketSize > 1) {
+                result[arange<IndexPacket>() <= IndexScalar((size() - 1) % PacketSize)] =
+                    max(result, packet(packets() - 1));
+            }
+            return hmax(result);
+        }
+    }
+
+    bool any_() const {
+        if (size() == 0) {
+            return false;
+        } else if (size() == 1) {
+            return coeff(0);
+        } else {
+            Packet result(false);
+            for (size_t i = 0, count = packets() - (PacketSize > 1 ? 1 : 0); i < count; ++i)
+                result |= packet(i);
+
+            if constexpr (PacketSize > 1) {
+                result[arange<IndexPacket>() <= IndexScalar((size() - 1) % PacketSize)] |=
+                    packet(packets() - 1);
+            }
+            return any(result);
+        }
+    }
+
+    bool all_() const {
+        if (size() == 0) {
+            return true;
+        } else if (size() == 1) {
+            return coeff(0);
+        } else {
+            Packet result(true);
+            for (size_t i = 0, count = packets() - (PacketSize > 1 ? 1 : 0); i < count; ++i)
+                result &= packet(i);
+
+            if constexpr (PacketSize > 1) {
+                result[arange<IndexPacket>() <= IndexScalar((size() - 1) % PacketSize)] &=
+                    packet(packets() - 1);
+            }
+            return all(result);
+        }
+    }
+
+    size_t count_() const {
+        size_t result = 0;
+        if (!empty()) {
+            for (size_t i = 0, count = packets() - (PacketSize > 1 ? 1 : 0); i < count; ++i)
+                result += enoki::count(packet(i));
+
+            if constexpr (PacketSize > 1) {
+                auto mask = arange<IndexPacket>() <= IndexScalar((size() - 1) % PacketSize);
+                result += enoki::count(packet(packets() - 1) & mask);
+            }
+        }
+        return result;
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    // -----------------------------------------------------------------------
+    //! @{ \name Initialization helper functions
+    // -----------------------------------------------------------------------
+
+    /**
+     * \brief Resize the buffer to the desired size
+     *
+     * When the capacity is insufficient, the implementation destroys the
+     * current contents and allocates a new (uninitialized) buffer
+     *
+     * When compiled in debug mode, newly allocated floating point arrays will
+     * be initialized with NaNs.
+     */
+    ENOKI_NOINLINE void resize(size_t size) {
+        if (size == (size_t) m_size)
+            return;
+
+        if (is_mapped())
+            throw std::runtime_error("Can't resize a mapped dynamic array!");
+
+        using CoeffValue = std::conditional_t<IsMask, bool, Value>;
+
+        CoeffValue scalar = (m_size == 1) ? coeff(0) : zero<CoeffValue>();
+        size_t n_packets = (size + PacketSize - 1) / PacketSize;
+
+        if (n_packets > packets_allocated()) {
+            if (!empty()) {
+                ENOKI_TRACK_DEALLOC(m_packets.get(), packets_allocated() * sizeof(Packet));
+            }
+            m_packets = PacketHolder(new Packet[n_packets]);
+            m_packets_allocated = (Size) n_packets;
+            ENOKI_TRACK_ALLOC(m_packets.get(),
+                              n_packets * sizeof(Packet));
+        }
+
+        if (m_size == 1) {
+            /* Resizing a scalar array -- broadcast. */
+            Packet p(scalar);
+            for (size_t i = 0; i < n_packets; ++i)
+                m_packets[i] = p;
+        } else if (m_size == 0) {
+            /* Potentially initialize array contents with NaNs */
+            #if !defined(NDEBUG)
+                for (size_t i = 0; i < n_packets; ++i)
+                    new (&m_packets[i]) Packet();
+            #endif
+        }
+
+        m_size = (Size) size;
+        clean_trailing_();
+    }
+
+    // Clear the unused portion of a potential trailing partial packet
+    void clean_trailing_() {
+        IndexScalar remainder = (IndexScalar) (m_size % PacketSize);
+        if (remainder > 0 && m_size != 1) {
+            void *addr = m_packets.get() + packets_allocated() - 1;
+            auto mask = arange<IndexPacket>() < IndexScalar(remainder);
+            store(addr, load<Packet>(addr) & mask);
+        }
+    }
+
+    static Derived map(void *ptr, size_t size, bool dealloc = false) {
+        assert((uintptr_t) ptr % alignof(Packet) == 0);
+
+        Derived r;
+        r.m_packets = PacketHolder((Packet *) ptr);
+        r.m_size = (Size) size;
+        r.m_packets_allocated =
+            (Size) ((size + PacketSize - 1) / PacketSize);
+
+        if (!dealloc)
+            r.m_packets_allocated |= 0x80000000u;
+
+        return r;
+    }
+
+    static Derived copy(const void *ptr, size_t size) {
+        Derived r;
+        r.m_size = (Size) size;
+        r.m_packets_allocated =
+            (Size) ((size + PacketSize - 1) / PacketSize);
+        r.m_packets = PacketHolder(new Packet[r.m_packets_allocated]);
+        memcpy(r.m_packets.get(), ptr, size * sizeof(Value));
+        return r;
+    }
+
+    Derived &managed() { return derived(); }
+    Derived &eval() { return derived(); }
+    Derived &managed() const { return derived(); }
+    Derived &eval() const { return derived(); }
+
+    template <typename... Args> void resize_like(const Args&... args) {
+        resize(check_size(args...));
+    }
+
+private:
+
+#if defined(__GNUC__)
+// GCC 8.2: quench nonsensical warning in parameter pack expansion
+#  pragma GCC diagnostic push
+#  pragma GCC diagnostic ignored "-Wparentheses" //  warning: suggest parentheses around ‘&&’ within ‘||’ [-Wparentheses]
+#endif
+
+    template <typename... Args> static size_t check_size(const Args&... args) {
+        size_t max_size = std::max({ slices(args)... });
+        if ((... || (slices(args) != max_size && slices(args) != 1))) {
+            #if defined(NDEBUG)
+                throw std::runtime_error(
+                    "Incompatible sizes in dynamic array operation");
+            #else
+                std::string msg = "[";
+                bool result[] = { ((msg += (std::to_string(slices(args)) + ", ")), false)... };
+                (void) result;
+                if (msg.size() > 2)
+                    msg = msg.substr(0, msg.size() - 2);
+                msg += "]";
+                throw std::runtime_error(
+                    "Incompatible sizes in dynamic array operation: " + msg);
+            #endif
+        }
+        return max_size;
+    }
+
+#if defined(__GNUC__)
+#  pragma GCC diagnostic pop
+#endif
+
+public:
+    static Derived empty_(size_t size) {
+        Derived result;
+        result.resize(size);
+        return result;
+    }
+
+    static Derived zero_(size_t size) {
+        Derived result;
+        result.resize(size);
+        Packet value_p = zero<Packet>();
+        for (size_t i = 0; i < result.packets(); ++i)
+            result.packet(i) = value_p;
+        return result;
+    }
+
+    static Derived full_(const Value &value, size_t size) {
+        Derived result;
+        result.resize(size);
+        Packet value_p(value);
+        for (size_t i = 0; i < result.packets(); ++i)
+            result.packet(i) = value_p;
+        return result;
+    }
+
+    /// Construct an evenly spaced integer sequence
+    static Derived arange_(ssize_t start, ssize_t stop, ssize_t step) {
+        Derived result;
+        result.resize(size_t((stop - start + step - (step > 0 ? 1 : -1)) / step));
+        Packet value_p = arange<Packet>(start, start + (ssize_t) Packet::Size * step, step),
+               shift   = Value((ssize_t) PacketSize * step);
+        for (size_t i = 0; i < result.packets(); ++i) {
+            result.packet(i) = value_p;
+            value_p += shift;
+        }
+        return result;
+    }
+
+    static Derived linspace_(Value min, Value max, size_t size) {
+        Derived result;
+        result.resize(size);
+
+        Value step = (max - min) / Value(size - 1);
+
+        Packet value_p = linspace<Packet>(min, min + step * (PacketSize - 1)),
+               shift   = Value(step * PacketSize);
+
+        for (size_t i = 0; i < result.packets(); ++i) {
+            result.packet(i) = value_p;
+            value_p += shift;
+        }
+
+        return result;
+    }
+
+    //! @}
+    // -----------------------------------------------------------------------
+
+    auto operator->() const {
+        using BaseType = std::decay_t<std::remove_pointer_t<scalar_t<Derived_>>>;
+        return call_support<BaseType, Derived_>(derived());
+    }
+
+    template <typename Mask>
+    ENOKI_INLINE Value extract_(const Mask &mask) const {
+        check_size(derived(), mask);
+        for (size_t i = 0; i < mask.size(); ++i)
+            if (mask.coeff(i))
+                return coeff(i);
+        return zero<Value>();
+    }
+
+    DynamicArrayReference<Packet> ref_wrap_() const {
+        return m_packets.get();
+    }
+private:
+    PacketHolder m_packets;
+    Size m_size = 0;
+    Size m_packets_allocated = 0;
+};
+
+template <typename Packet_>
+struct DynamicArray : DynamicArrayImpl<Packet_, DynamicArray<Packet_>> {
+    using Base = DynamicArrayImpl<Packet_, DynamicArray<Packet_>>;
+    using Base::Base;
+    using Base::operator=;
+
+    using ArrayType = DynamicArray;
+    using MaskType  = DynamicMask<mask_t<Packet_>>;
+
+    template <typename T> using ReplaceValue =
+        DynamicArray<typename Packet_::template ReplaceValue<T>>;
+
+    DynamicArray(const DynamicArray &) = default;
+    DynamicArray(DynamicArray &&) = default;
+    DynamicArray &operator=(const DynamicArray &) = default;
+    DynamicArray &operator=(DynamicArray &&) = default;
+};
+
+template <typename Packet_>
+struct DynamicMask : DynamicArrayImpl<Packet_, DynamicMask<Packet_>> {
+    using Base = DynamicArrayImpl<Packet_, DynamicMask<Packet_>>;
+
+    using ArrayType = DynamicArray<array_t<Packet_>>;
+    using MaskType  = DynamicMask;
+
+    template <typename T> using ReplaceValue =
+        DynamicMask<typename Packet_::template ReplaceValue<T>>;
+
+    DynamicMask() = default;
+
+    template <typename T> DynamicMask(T &&value)
+        : Base(std::forward<T>(value), detail::reinterpret_flag()) { }
+
+    template <typename T> DynamicMask(T &&value, detail::reinterpret_flag)
+        : Base(std::forward<T>(value), detail::reinterpret_flag()) { }
+};
+
+namespace detail {
+    template <typename T> struct mutable_ref { using type = std::add_lvalue_reference_t<T>; };
+    template <typename T> struct mutable_ref<const T &> { using type = T &; };
+    template <typename T> using mutable_ref_t = typename mutable_ref<T>::type;
+
+    /// Vectorized inner loop (void return value)
+    template <typename Func, typename... Args, size_t... Index>
+    ENOKI_INLINE void vectorize_inner_1(std::index_sequence<Index...>, Func &&f,
+                                        size_t packet_count, Args &&... args) {
+        ENOKI_NOUNROLL ENOKI_IVDEP for (size_t i = 0; i < packet_count; ++i)
+            f(packet(args, i)...);
+    }
+
+    /// Vectorized inner loop (non-void return value)
+    template <typename Func, typename Out, typename... Args, size_t... Index>
+    ENOKI_INLINE void vectorize_inner_2(std::index_sequence<Index...>, Func &&f,
+                                        size_t packet_count, Out &&out, Args &&... args) {
+        ENOKI_NOUNROLL ENOKI_IVDEP for (size_t i = 0; i < packet_count; ++i)
+            packet(out, i) = f(packet(args, i)...);
+    }
+}
+
+template <bool Resize = false, typename Func, typename... Args>
+auto vectorize(Func &&f, Args &&... args)
+    -> make_dynamic_t<decltype(f(packet(args, 0)...))> /* LLVM bug #39326 */ {
+#if defined(NDEBUG)
+    constexpr bool Check = false;
+#else
+    constexpr bool Check = true;
+#endif
+
+    /** Determine the number of slices and packets of the input arrays,
+        and broadcast scalar input arrays if requested */
+    size_t packet_count = 0, slice_count = 0;
+
+    bool unused1[] = { ((packet_count = !is_dynamic_v<Args> ? packet_count
+        : (Resize ? std::max(packet_count, packets(args)) : packets(args))), false)... };
+
+    bool unused2[] = { ((slice_count = !is_dynamic_v<Args> ? slice_count
+        : (Resize ? std::max(slice_count, slices(args)) : slices(args))), false)... };
+
+    (void) unused1; (void) unused2;
+
+    if constexpr (Check || Resize) {
+        size_t status[] = { (
+            (!is_dynamic_v<Args> || array_size_v<Args> == 0) ||
+            ((slice_count != 1 && slices(args) == 1 && Resize)
+                 ? (set_slices((detail::mutable_ref_t<decltype(args)>) args, slice_count), true)
+                 : (slices(args) == slice_count)))... };
+
+        bool status_combined = true;
+        for (bool s : status)
+            status_combined &= s;
+
+        if (!status_combined)
+            throw std::runtime_error("vectorize(): vector arguments have incompatible lengths");
+    }
+
+    using Result = make_dynamic_t<decltype(f(packet(args, 0)...))>;
+    if constexpr (std::is_void_v<Result>) {
+        detail::vectorize_inner_1(std::make_index_sequence<sizeof...(Args)>(),
+                                  f, packet_count, ref_wrap(args)...);
+    } else {
+        Result result;
+        set_slices(result, slice_count);
+
+        detail::vectorize_inner_2(std::make_index_sequence<sizeof...(Args)>(),
+                                  f, packet_count, ref_wrap(result),
+                                  ref_wrap(args)...);
+        return result;
+    }
+}
+
+template <typename Func, typename... Args>
+auto vectorize_safe(Func &&f, Args &&... args)
+    -> decltype(vectorize<true>(f, args...)) /* LLVM bug #39326 */ {
+    return vectorize<true>(f, args...);
+}
+
+namespace detail {
+    template <typename T>
+    using reference_dynamic_t = std::conditional_t<
+        is_dynamic_v<T>,
+        std::add_lvalue_reference_t<T>,
+        T
+    >;
+
+    /// Strip the class from a method type
+    template <typename T> struct remove_class { };
+    template <typename C, typename R, typename... A> struct remove_class<R (C::*)(A...)> { typedef R type(A...); };
+    template <typename C, typename R, typename... A> struct remove_class<R (C::*)(A...) const> { typedef R type(A...); };
+}
+
+template <typename Func, typename Return, typename... Args>
+auto vectorize_wrapper_detail(Func &&f_, Return (*)(Args...)) {
+    return [f = std::forward<Func>(f_)](detail::reference_dynamic_t<enoki::make_dynamic_t<Args>>... args) {
+        return vectorize_safe(f, args...);
+    };
+}
+
+/// Vectorize a vanilla function pointer
+template <typename Return, typename... Args>
+auto vectorize_wrapper(Return (*f)(Args...)) {
+    return vectorize_wrapper_detail(f, f);
+}
+
+/// Vectorize a lambda function method (possibly with internal state)
+template <typename Func,
+          typename FuncType = typename detail::remove_class<
+              decltype(&std::remove_reference<Func>::type::operator())>::type>
+auto vectorize_wrapper(Func &&f) {
+    return vectorize_wrapper_detail(std::forward<Func>(f), (FuncType *) nullptr);
+}
+
+/// Vectorize a class method (non-const)
+template <typename Return, typename Class, typename... Arg>
+auto vectorize_wrapper(Return (Class::*f)(Arg...)) {
+    return vectorize_wrapper_detail(
+        [f](Class *c, Arg... args) -> Return { return (c->*f)(args...); },
+        (Return(*)(Class *, Arg...)) nullptr);
+}
+
+/// Vectorize a class method (const)
+template <typename Return, typename Class, typename... Arg>
+auto vectorize_wrapper(Return (Class::*f)(Arg...) const) {
+    return vectorize_wrapper_detail(
+        [f](const Class *c, Arg... args) -> Return { return (c->*f)(args...); },
+        (Return(*)(const Class *, Arg...)) nullptr);
+}
+
+#if defined(ENOKI_AUTODIFF_H) && !defined(ENOKI_BUILD)
+    ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT Tape<DynamicArray<Packet<float>>>;
+    ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT DiffArray<DynamicArray<Packet<float>>>;
+
+    ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT Tape<DynamicArray<Packet<double>>>;
+    ENOKI_AUTODIFF_EXTERN template struct ENOKI_AUTODIFF_EXPORT DiffArray<DynamicArray<Packet<double>>>;
+#endif
+
+NAMESPACE_END(enoki)
+
+#if defined(__GNUC__) && !defined(__clang__)
+#  pragma GCC diagnostic pop
+#endif
diff --git a/sources/enoki/fwd.h b/sources/enoki/fwd.h
new file mode 100644
index 00000000..5d087501
--- /dev/null
+++ b/sources/enoki/fwd.h
@@ -0,0 +1,330 @@
+/*
+    enoki/fwd.h -- Preprocessor definitions and forward declarations
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#if defined(_MSC_VER)
+#  if !defined(_USE_MATH_DEFINES)
+#    define _USE_MATH_DEFINES
+#  endif
+#endif
+
+#include <cstddef>
+#include <cstring>
+#include <type_traits>
+
+#if defined(_MSC_VER)
+#  define ENOKI_NOINLINE               __declspec(noinline)
+#  define ENOKI_INLINE                 __forceinline
+#  define ENOKI_INLINE_LAMBDA
+#  define ENOKI_PURE
+#  define ENOKI_MALLOC                 __declspec(restrict)
+#  define ENOKI_MAY_ALIAS
+#  define ENOKI_ASSUME_ALIGNED(x, s)   x
+#  define ENOKI_UNROLL
+#  define ENOKI_NOUNROLL
+#  define ENOKI_IVDEP                  __pragma(loop(ivdep))
+#  define ENOKI_PACK
+#  define ENOKI_LIKELY(x)              x
+#  define ENOKI_UNLIKELY(x)            x
+#  define ENOKI_REGCALL
+#  define ENOKI_IMPORT                 __declspec(dllimport)
+#  define ENOKI_EXPORT                 __declspec(dllexport)
+#else
+#  define ENOKI_NOINLINE               __attribute__ ((noinline))
+#  define ENOKI_INLINE                 __attribute__ ((always_inline)) inline
+#  define ENOKI_INLINE_LAMBDA          __attribute__ ((always_inline))
+#  define ENOKI_PURE                   __attribute__ ((const,nothrow))
+#  define ENOKI_MALLOC                 __attribute__ ((malloc))
+#  define ENOKI_ASSUME_ALIGNED(x, s)   __builtin_assume_aligned(x, s)
+#  define ENOKI_LIKELY(x)              __builtin_expect(!!(x), 1)
+#  define ENOKI_UNLIKELY(x)            __builtin_expect(!!(x), 0)
+#  define ENOKI_PACK                   __attribute__ ((packed))
+#  if defined(__clang__)
+#    define ENOKI_UNROLL               _Pragma("unroll")
+#    define ENOKI_NOUNROLL             _Pragma("nounroll")
+#    define ENOKI_IVDEP
+#    define ENOKI_MAY_ALIAS            __attribute__ ((may_alias))
+#    define ENOKI_REGCALL              __attribute__ ((regcall))
+#  elif defined(__INTEL_COMPILER)
+#    define ENOKI_MAY_ALIAS
+#    define ENOKI_UNROLL               _Pragma("unroll")
+#    define ENOKI_NOUNROLL             _Pragma("nounroll")
+#    define ENOKI_IVDEP                _Pragma("ivdep")
+#    define ENOKI_REGCALL              __attribute__ ((regcall))
+#  else
+#    define ENOKI_MAY_ALIAS            __attribute__ ((may_alias))
+#    define ENOKI_UNROLL
+#    define ENOKI_NOUNROLL
+#    if defined(__GNUC__) && (__GNUC__ > 4 || (__GNUC__ == 4 && __GNUC_MINOR__ >= 9))
+#      define ENOKI_IVDEP              _Pragma("GCC ivdep")
+#    else
+#      define ENOKI_IVDEP
+#    endif
+#    define ENOKI_REGCALL
+#  endif
+#  define ENOKI_IMPORT
+#  define ENOKI_EXPORT                 __attribute__ ((visibility("default")))
+#endif
+
+#define ENOKI_MARK_USED(x) (void) x
+
+#if !defined(NAMESPACE_BEGIN)
+#  define NAMESPACE_BEGIN(name) namespace name {
+#endif
+
+#if !defined(NAMESPACE_END)
+#  define NAMESPACE_END(name) }
+#endif
+
+#define ENOKI_VERSION_MAJOR 0
+#define ENOKI_VERSION_MINOR 1
+#define ENOKI_VERSION_PATCH 0
+
+#define ENOKI_STRINGIFY(x) #x
+#define ENOKI_TOSTRING(x)  ENOKI_STRINGIFY(x)
+#define ENOKI_VERSION                                                          \
+    (ENOKI_TOSTRING(ENOKI_VERSION_MAJOR) "."                                   \
+     ENOKI_TOSTRING(ENOKI_VERSION_MINOR) "."                                   \
+     ENOKI_TOSTRING(ENOKI_VERSION_PATCH))
+
+#if defined(__clang__) && defined(__apple_build_version__)
+#  if __clang_major__ < 10
+#    error Enoki requires a very recent version of AppleClang (XCode >= 10.0)
+#  endif
+#elif defined(__clang__)
+#  if __clang_major__ < 7 && !defined(EMSCRIPTEN)
+#    error Enoki requires a very recent version of Clang/LLVM (>= 7.0)
+#  endif
+#elif defined(__GNUC__)
+#  if (__GNUC__ < 8) || (__GNUC__ == 8 && __GNUC_MINOR__ < 2)
+#    error Enoki requires a very recent version of GCC (>= 8.2)
+#  endif
+#endif
+
+#if defined(__x86_64__) || defined(_M_X64)
+#  define ENOKI_X86_64 1
+#endif
+
+#if (defined(__i386__) || defined(_M_IX86)) && !defined(ENOKI_X86_64)
+#  define ENOKI_X86_32 1
+#endif
+
+#if defined(__aarch64__)
+#  define ENOKI_ARM_64 1
+#elif defined(__arm__)
+#  define ENOKI_ARM_32 1
+#endif
+
+#if (defined(_MSC_VER) && defined(ENOKI_X86_32)) && !defined(ENOKI_DISABLE_VECTORIZATION)
+// Enoki does not support vectorization on 32-bit Windows due to various
+// platform limitations (unaligned stack, calling conventions don't allow
+// passing vector registers, etc.).
+# define ENOKI_DISABLE_VECTORIZATION 1
+#endif
+
+# if !defined(ENOKI_DISABLE_VECTORIZATION)
+#  if defined(__AVX512F__)
+#    define ENOKI_X86_AVX512F 1
+#  endif
+#  if defined(__AVX512CD__)
+#    define ENOKI_X86_AVX512CD 1
+#  endif
+#  if defined(__AVX512DQ__)
+#    define ENOKI_X86_AVX512DQ 1
+#  endif
+#  if defined(__AVX512VL__)
+#    define ENOKI_X86_AVX512VL 1
+#  endif
+#  if defined(__AVX512BW__)
+#    define ENOKI_X86_AVX512BW 1
+#  endif
+#  if defined(__AVX512PF__)
+#    define ENOKI_X86_AVX512PF 1
+#  endif
+#  if defined(__AVX512ER__)
+#    define ENOKI_X86_AVX512ER 1
+#  endif
+#  if defined(__AVX512VBMI__)
+#    define ENOKI_X86_AVX512VBMI 1
+#  endif
+#  if defined(__AVX512VPOPCNTDQ__)
+#    define ENOKI_X86_AVX512VPOPCNTDQ 1
+#  endif
+#  if defined(__AVX2__)
+#    define ENOKI_X86_AVX2 1
+#  endif
+#  if defined(__FMA__)
+#    define ENOKI_X86_FMA 1
+#  endif
+#  if defined(__F16C__)
+#    define ENOKI_X86_F16C 1
+#  endif
+#  if defined(__AVX__)
+#    define ENOKI_X86_AVX 1
+#  endif
+#  if defined(__SSE4_2__)
+#    define ENOKI_X86_SSE42 1
+#  endif
+#  if defined(__ARM_NEON)
+#    define ENOKI_ARM_NEON
+#  endif
+#  if defined(__ARM_FEATURE_FMA)
+#    define ENOKI_ARM_FMA
+#  endif
+#endif
+
+/* Fix missing/inconsistent preprocessor flags */
+#if defined(ENOKI_X86_AVX512F) && !defined(ENOKI_X86_AVX2)
+#  define ENOKI_X86_AVX2
+#endif
+
+#if defined(ENOKI_X86_AVX2) && !defined(ENOKI_X86_F16C)
+#  define ENOKI_X86_F16C
+#endif
+
+#if defined(ENOKI_X86_AVX2) && !defined(ENOKI_X86_FMA)
+#  define ENOKI_X86_FMA
+#endif
+
+#if defined(ENOKI_X86_AVX2) && !defined(ENOKI_X86_AVX)
+#  define ENOKI_X86_AVX
+#endif
+
+#if defined(ENOKI_X86_AVX) && !defined(ENOKI_X86_SSE42)
+#  define ENOKI_X86_SSE42
+#endif
+
+/* The following macro is used by the test suite to detect
+   unimplemented methods in vectorized backends */
+
+#if !defined(ENOKI_TRACK_SCALAR)
+#  define ENOKI_TRACK_SCALAR(reason)
+#endif
+
+#if defined(ENOKI_ALLOC_VERBOSE)
+#  define ENOKI_TRACK_ALLOC(ptr, size)                                         \
+      printf("Enoki: %p: alloc(%llu)\n", (ptr), (unsigned long long) (size));
+#  define ENOKI_TRACK_DEALLOC(ptr, size)                                       \
+      printf("Enoki: %p: dealloc(%llu)\n", (ptr), (unsigned long long) (size));
+#endif
+
+#if !defined(ENOKI_TRACK_ALLOC)
+#  define ENOKI_TRACK_ALLOC(ptr, size)
+#endif
+
+#if !defined(ENOKI_TRACK_DEALLOC)
+#  define ENOKI_TRACK_DEALLOC(ptr, size)
+#endif
+
+#define ENOKI_CHKSCALAR(reason)                                                \
+    if (std::is_arithmetic_v<std::decay_t<Value>>) {                           \
+        ENOKI_TRACK_SCALAR(reason)                                             \
+    }
+
+#if !defined(ENOKI_APPROX_DEFAULT)
+#  define ENOKI_APPROX_DEFAULT 1
+#endif
+
+NAMESPACE_BEGIN(enoki)
+
+using ssize_t = std::make_signed_t<size_t>;
+
+/// Maximum hardware-supported packet size in bytes
+#if defined(ENOKI_X86_AVX512F)
+    static constexpr size_t max_packet_size = 64;
+#elif defined(ENOKI_X86_AVX)
+    static constexpr size_t max_packet_size = 32;
+#elif defined(ENOKI_X86_SSE42) || defined(ENOKI_ARM_NEON)
+    static constexpr size_t max_packet_size = 16;
+#else
+    static constexpr size_t max_packet_size = 4;
+#endif
+
+constexpr size_t array_default_size = max_packet_size / 4;
+
+/// Base class of all arrays
+template <typename Value_, typename Derived_> struct ArrayBase;
+
+/// Base class of all statically sized arrays
+template <typename Value_, size_t Size_, bool IsMask_, typename Derived_>
+struct StaticArrayBase;
+
+/// Generic array class, which broadcasts from the outer to inner dimensions
+template <typename Value_, size_t Size_ = array_default_size>
+struct Array;
+
+/// Generic array class, which broadcasts from the inner to outer dimensions
+template <typename Value_, size_t Size_ = array_default_size>
+struct Packet;
+
+/// Generic mask class, which broadcasts from the outer to inner dimensions
+template <typename Value_, size_t Size_ = array_default_size>
+struct Mask;
+
+/// Generic mask class, which broadcasts from the inner to outer dimensions
+template <typename Value_, size_t Size_ = array_default_size>
+struct PacketMask;
+
+/// Dynamically sized array
+template <typename Packet_> struct DynamicArray;
+template <typename Packet_> struct DynamicMask;
+
+/// Reverse-mode autodiff array
+template <typename Value> struct DiffArray;
+
+template <typename Value_, size_t Size_>
+struct Matrix;
+
+template <typename Value_>
+struct Complex;
+
+template <typename Value_>
+struct Quaternion;
+
+/// Helper class for custom data structures
+template <typename T, typename = int>
+struct struct_support;
+
+template <typename Value>
+struct CUDAArray;
+
+template <typename T> class cuda_host_allocator;
+template <typename T> class cuda_managed_allocator;
+
+extern ENOKI_IMPORT void* cuda_host_malloc(size_t);
+extern ENOKI_IMPORT void cuda_host_free(void *);
+
+/// Half-precision floating point value
+struct half;
+
+template <typename T> struct MaskBit;
+
+namespace detail {
+    struct reinterpret_flag { };
+}
+
+template <typename T, bool UseIntrinsic = false, typename = int>
+struct divisor;
+template <typename T>
+struct divisor_ext;
+
+/// Reinterpret the binary represesentation of a data type
+template<typename T, typename U> ENOKI_INLINE T memcpy_cast(const U &val) {
+    static_assert(sizeof(T) == sizeof(U), "memcpy_cast: sizes did not match!");
+    T result;
+    std::memcpy(&result, &val, sizeof(T));
+    return result;
+}
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/half.h b/sources/enoki/half.h
new file mode 100644
index 00000000..fd2fbb66
--- /dev/null
+++ b/sources/enoki/half.h
@@ -0,0 +1,193 @@
+/*
+    enoki/half.h -- minimal half precision number type
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/array_traits.h>
+
+NAMESPACE_BEGIN(enoki)
+struct half;
+NAMESPACE_END(enoki)
+
+NAMESPACE_BEGIN(std)
+template<> struct is_floating_point<enoki::half> : true_type { };
+template<> struct is_arithmetic<enoki::half> : true_type { };
+template<> struct is_signed<enoki::half> : true_type { };
+NAMESPACE_END(std)
+
+NAMESPACE_BEGIN(enoki)
+struct half {
+    uint16_t value;
+
+    half()
+    #if !defined(NDEBUG)
+        : value(0x7FFF) /* Initialize with NaN */
+    #endif
+    { }
+
+    #define ENOKI_IF_SCALAR template <typename Value, enable_if_t<std::is_arithmetic_v<Value>> = 0>
+
+    ENOKI_IF_SCALAR half(Value val) : value(float32_to_float16(float(val))) { }
+
+    half operator+(half h) const { return half(float(*this) + float(h)); }
+    half operator-(half h) const { return half(float(*this) - float(h)); }
+    half operator*(half h) const { return half(float(*this) * float(h)); }
+    half operator/(half h) const { return half(float(*this) / float(h)); }
+
+    half operator-() const { return half(-float(*this)); }
+
+    ENOKI_IF_SCALAR friend half operator+(Value val, half h) { return half(val) + h; }
+    ENOKI_IF_SCALAR friend half operator-(Value val, half h) { return half(val) - h; }
+    ENOKI_IF_SCALAR friend half operator*(Value val, half h) { return half(val) * h; }
+    ENOKI_IF_SCALAR friend half operator/(Value val, half h) { return half(val) / h; }
+
+    half& operator+=(half h) { return operator=(*this + h); }
+    half& operator-=(half h) { return operator=(*this - h); }
+    half& operator*=(half h) { return operator=(*this * h); }
+    half& operator/=(half h) { return operator=(*this / h); }
+
+    bool operator==(half h) const { return float(*this) == float(h); }
+    bool operator!=(half h) const { return float(*this) != float(h); }
+    bool operator<(half h) const  { return float(*this) < float(h); }
+    bool operator>(half h) const  { return float(*this) > float(h); }
+    bool operator<=(half h) const { return float(*this) <= float(h); }
+    bool operator>=(half h) const { return float(*this) >= float(h); }
+
+    ENOKI_IF_SCALAR operator Value() const { return Value(float16_to_float32(value)); }
+
+    static half from_binary(uint16_t value) { half h; h.value = value; return h; }
+
+    friend std::ostream &operator<<(std::ostream &os, const half &h) {
+        os << float(h);
+        return os;
+    }
+
+    #undef ENOKI_IF_SCALAR
+private:
+    /*
+       Value float32<->float16 conversion code by Paul A. Tessier (@Phernost)
+       Used with permission by the author, who released this code into the public domain
+     */
+    union Bits {
+        float f;
+        int32_t si;
+        uint32_t ui;
+    };
+
+    static constexpr int const shift = 13;
+    static constexpr int const shiftSign = 16;
+
+    static constexpr int32_t const infN = 0x7F800000;  // flt32 infinity
+    static constexpr int32_t const maxN = 0x477FE000;  // max flt16 normal as a flt32
+    static constexpr int32_t const minN = 0x38800000;  // min flt16 normal as a flt32
+    static constexpr int32_t const signN = (int32_t) 0x80000000; // flt32 sign bit
+
+    static constexpr int32_t const infC = infN >> shift;
+    static constexpr int32_t const nanN = (infC + 1) << shift; // minimum flt16 nan as a flt32
+    static constexpr int32_t const maxC = maxN >> shift;
+    static constexpr int32_t const minC = minN >> shift;
+    static constexpr int32_t const signC = signN >> shiftSign; // flt16 sign bit
+
+    static constexpr int32_t const mulN = 0x52000000; // (1 << 23) / minN
+    static constexpr int32_t const mulC = 0x33800000; // minN / (1 << (23 - shift))
+
+    static constexpr int32_t const subC = 0x003FF; // max flt32 subnormal down shifted
+    static constexpr int32_t const norC = 0x00400; // min flt32 normal down shifted
+
+    static constexpr int32_t const maxD = infC - maxC - 1;
+    static constexpr int32_t const minD = minC - subC - 1;
+
+public:
+    static uint16_t float32_to_float16(float value) {
+        #if defined(ENOKI_X86_F16C)
+            return (uint16_t) _mm_cvtsi128_si32(
+                _mm_cvtps_ph(_mm_set_ss(value), _MM_FROUND_CUR_DIRECTION));
+        #elif defined(ENOKI_ARM_NEON)
+            return memcpy_cast<uint16_t>((__fp16) value);
+        #else
+            Bits v, s;
+            v.f = value;
+            uint32_t sign = (uint32_t) (v.si & signN);
+            v.si ^= sign;
+            sign >>= shiftSign; // logical shift
+            s.si = mulN;
+            s.si = (int32_t) (s.f * v.f); // correct subnormals
+            v.si ^= (s.si ^ v.si) & -(minN > v.si);
+            v.si ^= (infN ^ v.si) & -((infN > v.si) & (v.si > maxN));
+            v.si ^= (nanN ^ v.si) & -((nanN > v.si) & (v.si > infN));
+            v.ui >>= shift; // logical shift
+            v.si ^= ((v.si - maxD) ^ v.si) & -(v.si > maxC);
+            v.si ^= ((v.si - minD) ^ v.si) & -(v.si > subC);
+            return (uint16_t) (v.ui | sign);
+        #endif
+    }
+
+    static float float16_to_float32(uint16_t value) {
+        #if defined(ENOKI_X86_F16C)
+            return _mm_cvtss_f32(_mm_cvtph_ps(_mm_cvtsi32_si128((int32_t) value)));
+        #elif defined(ENOKI_ARM_NEON)
+            return (float) memcpy_cast<__fp16>(value);
+        #else
+            Bits v;
+            v.ui = value;
+            int32_t sign = v.si & signC;
+            v.si ^= sign;
+            sign <<= shiftSign;
+            v.si ^= ((v.si + minD) ^ v.si) & -(v.si > subC);
+            v.si ^= ((v.si + maxD) ^ v.si) & -(v.si > maxC);
+            Bits s;
+            s.si = mulC;
+            s.f *= float(v.si);
+            int32_t mask = -(norC > v.si);
+            v.si <<= shift;
+            v.si ^= (s.si ^ v.si) & mask;
+            v.si |= sign;
+            return v.f;
+        #endif
+    }
+};
+
+NAMESPACE_END(enoki)
+
+NAMESPACE_BEGIN(std)
+
+template<> struct numeric_limits<enoki::half> {
+    static constexpr bool is_signed = true;
+    static constexpr bool is_exact = false;
+    static constexpr bool is_modulo = false;
+    static constexpr bool is_iec559 = true;
+    static constexpr bool has_infinity = true;
+    static constexpr bool has_quiet_NaN = true;
+    static constexpr int digits = 11;
+    static constexpr int digits10 = 3;
+    static constexpr int max_digits10 = 5;
+    static constexpr int radix = 2;
+    static constexpr int min_exponent = -13;
+    static constexpr int min_exponent10 = -4;
+    static constexpr int max_exponent = 16;
+    static constexpr int max_exponent10 = 4;
+    static constexpr float_denorm_style has_denorm = denorm_present;
+    static constexpr float_round_style round_style = round_indeterminate;
+    static enoki::half min() noexcept { return enoki::half::from_binary(0x0400); }
+    static enoki::half lowest() noexcept { return enoki::half::from_binary(0xFBFF); }
+    static enoki::half max() noexcept { return enoki::half::from_binary(0x7BFF); }
+    static enoki::half epsilon() noexcept { return enoki::half::from_binary(0x1400); }
+    static enoki::half round_error() noexcept { return enoki::half::from_binary(0x3C00); }
+    static enoki::half infinity() noexcept { return enoki::half::from_binary(0x7C00); }
+    static enoki::half quiet_NaN() noexcept { return enoki::half::from_binary(0x7FFF); }
+    static enoki::half signaling_NaN() noexcept { return enoki::half::from_binary(0x7DFF); }
+    static enoki::half denorm_min() noexcept { return enoki::half::from_binary(0x0001); }
+};
+
+NAMESPACE_END(std)
+
diff --git a/sources/enoki/matrix.h b/sources/enoki/matrix.h
new file mode 100644
index 00000000..9ae68fdb
--- /dev/null
+++ b/sources/enoki/matrix.h
@@ -0,0 +1,658 @@
+/*
+    enoki/quaternion.h -- Matrix data structure
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/array.h>
+
+NAMESPACE_BEGIN(enoki)
+
+/// Value trait to access the column type of a matrix
+template <typename T> using column_t = typename std::decay_t<T>::Column;
+
+/// Value trait to access the entry type of a matrix
+template <typename T> using entry_t = value_t<column_t<T>>;
+
+/// SFINAE helper for matrixs
+template <typename T> using is_matrix_helper = enable_if_t<std::decay_t<T>::IsMatrix>;
+template <typename T> constexpr bool is_matrix_v = is_detected_v<is_matrix_helper, T>;
+template <typename T> using enable_if_matrix_t = enable_if_t<is_matrix_v<T>>;
+template <typename T> using enable_if_not_matrix_t = enable_if_t<!is_matrix_v<T>>;
+
+template <typename Value_, size_t Size_>
+struct Matrix : StaticArrayImpl<Array<Value_, Size_>, Size_, false, Matrix<Value_, Size_>> {
+
+    using Entry = Value_;
+    using Column = Array<Entry, Size_>;
+
+    using Base = StaticArrayImpl<Column, Size_, false, Matrix<Value_, Size_>>;
+    using Base::coeff;
+
+    ENOKI_ARRAY_IMPORT_BASIC(Base, Matrix);
+    using Base::operator=;
+
+    static constexpr bool IsMatrix = true;
+    static constexpr bool IsVector = false;
+
+    using ArrayType = Matrix;
+    using MaskType = Mask<mask_t<Column>, Size_>;
+
+    template <typename T> using ReplaceValue = Matrix<value_t<T>, Size_>;
+
+    Matrix() = default;
+
+    /// Initialize from a incompatible matrix
+    template <typename Value2, size_t Size2, enable_if_t<Size2 == Size_> = 0>
+    ENOKI_INLINE Matrix(const Matrix<Value2, Size2> &m)
+     : Base(m) { }
+
+    /// Initialize from an incompatible matrix
+    template <size_t Size2, enable_if_t<Size2 != Size_> = 0>
+    ENOKI_INLINE Matrix(const Matrix<Value_, Size2> &m) {
+        if constexpr (Size2 > Size) {
+            /// Other matrix is bigger -- retain the top left part
+            for (size_t i = 0; i < Size; ++i)
+                coeff(i) = head<Size>(m.coeff(i));
+        } else {
+            /// Other matrix is smaller -- copy the top left part and set remainder to identity
+            using Remainder = Array<Value_, Size - Size2>;
+            for (size_t i = 0; i < Size2; ++i)
+                coeff(i) = concat(m.coeff(i), zero<Remainder>());
+            for (size_t i = Size2; i < Size; ++i) {
+                auto col = zero<Column>();
+                col.coeff(i) = 1;
+                coeff(i) = col;
+            }
+        }
+    }
+
+    template <typename T, enable_if_t<(array_depth_v<T> <= Base::Depth - 2)> = 0,
+                          enable_if_not_matrix_t<T> = 0>
+    ENOKI_INLINE Matrix(T&& v) {
+        for (size_t i = 0; i < Size; ++i) {
+            coeff(i) = zero<Column>();
+            coeff(i, i) = v;
+        }
+    }
+
+    template <typename T, enable_if_t<(array_depth_v<T> == Base::Depth)> = 0,
+                          enable_if_not_matrix_t<T> = 0>
+    ENOKI_INLINE Matrix(T&& v) : Base(std::forward<T>(v)) { }
+
+    /// Initialize the matrix from a list of columns
+    template <typename... Args, enable_if_t<sizeof...(Args) == Size_ &&
+              std::conjunction_v<std::is_constructible<Column, Args>...>> = 0>
+    ENOKI_INLINE Matrix(const Args&... args) : Base(args...) { }
+
+    /// Initialize the matrix from a list of entries in row-major order
+    template <typename... Args, enable_if_t<sizeof...(Args) == Size_ * Size_ &&
+              std::conjunction_v<std::is_constructible<Entry, Args>...>> = 0>
+    ENOKI_INLINE Matrix(const Args&... args) {
+        alignas(alignof(Column)) Entry values[sizeof...(Args)] = { Entry(args)... };
+        for (size_t j = 0; j < Size; ++j)
+            for (size_t i = 0; i < Size; ++i)
+                coeff(j, i) = values[i * Size + j];
+    }
+
+    template <typename... Column>
+    ENOKI_INLINE static Matrix from_cols(const Column&... cols) {
+        return Matrix(cols...);
+    }
+
+    template <typename... Row>
+    ENOKI_INLINE static Matrix from_rows(const Row&... rows) {
+        return transpose(Matrix(rows...));
+    }
+
+    ENOKI_INLINE Column& col(size_t index) { return coeff(index); }
+    ENOKI_INLINE const Column& col(size_t index) const { return coeff(index); }
+
+    ENOKI_INLINE Column row(size_t index) const {
+        using Index = Array<uint32_t, Size>;
+        return gather<Column>(coeff(0).data() + index,
+                              arange<Index>() * uint32_t(Size));
+    }
+
+    /// Return a reference to the (i, j) element
+    ENOKI_INLINE decltype(auto) operator()(size_t i, size_t j) { return coeff(j, i); }
+
+    /// Return a reference to the (i, j) element (const)
+    ENOKI_INLINE decltype(auto) operator()(size_t i, size_t j) const { return coeff(j, i); }
+
+    static ENOKI_INLINE Derived zero_(size_t size) {
+        Derived result;
+        for (size_t i = 0; i < Size; ++i)
+            result.coeff(i) = zero<Column>(size);
+        return result;
+    }
+
+    static ENOKI_INLINE Derived empty_(size_t size) {
+        Derived result;
+        for (size_t i = 0; i < Size; ++i)
+            result.coeff(i) = empty<Column>(size);
+        return result;
+    }
+
+    template <typename T> ENOKI_INLINE static Matrix full_(const T &value, size_t size) {
+        return Array<Column, Size>::full_(value, size);
+    }
+};
+
+template <typename T0, typename T1, size_t Size,
+          typename Result = Matrix<expr_t<T0, T1>, Size>,
+          typename Column = column_t<Result>>
+ENOKI_INLINE Result operator*(const Matrix<T0, Size> &m0,
+                              const Matrix<T1, Size> &m1) {
+    Result result;
+    /* 4x4 case reduced to 4 multiplications, 12 fused multiply-adds,
+       and 16 broadcasts (also fused on AVX512VL) */
+    for (size_t j = 0; j < Size; ++j) {
+        Column sum = m0.coeff(0) * Column::full_(m1(0, j), 1);
+        for (size_t i = 1; i < Size; ++i)
+            sum = fmadd(m0.coeff(i), Column::full_(m1(i, j), 1), sum);
+        result.coeff(j) = sum;
+    }
+
+    return result;
+}
+
+template <typename T0, typename T1, size_t Size, enable_if_t<!T1::IsMatrix> = 0>
+ENOKI_INLINE auto operator*(const Matrix<T0, Size> &m, const T1 &s) {
+    if constexpr (array_size_v<T1> == Size && T1::IsVector) {
+        using EValue  = expr_t<T0, value_t<T1>>;
+        using EVector = Array<EValue, Size>;
+        EVector sum = m.coeff(0) * EVector::full_(s.coeff(0), 1);
+        for (size_t i = 1; i < Size; ++i)
+            sum = fmadd(m.coeff(i), EVector::full_(s.coeff(i), 1), sum);
+        return sum;
+    } else {
+        using EValue  = expr_t<T0, T1>;
+        using EArray  = Array<Array<EValue, Size>, Size>;
+        using EMatrix = Matrix<EValue, Size>;
+
+        return EMatrix(EArray(m) * EArray::full_(EValue(s), 1));
+    }
+}
+
+template <typename T0, typename T1, size_t Size, enable_if_t<!T0::IsMatrix> = 0>
+ENOKI_INLINE auto operator*(const T0 &s, const Matrix<T1, Size> &m) {
+    using EValue  = expr_t<T0, T1>;
+    using EArray  = Array<Array<EValue, Size>, Size>;
+    using EMatrix = Matrix<EValue, Size>;
+
+    return EMatrix(EArray::full_(EValue(s), 1) * EArray(m));
+}
+
+template <typename T0, typename T1, size_t Size, enable_if_t<!T1::IsMatrix> = 0>
+ENOKI_INLINE auto operator/(const Matrix<T0, Size> &m, const T1 &s) {
+    using EValue  = expr_t<T0, T1>;
+    using EArray  = Array<Array<EValue, Size>, Size>;
+    using EMatrix = Matrix<EValue, Size>;
+
+    return EMatrix(EArray(m) * EArray::full_(rcp(EValue(s)), 1));
+}
+
+template <typename Value, size_t Size>
+ENOKI_INLINE expr_t<Value> trace(const Matrix<Value, Size> &m) {
+    expr_t<Value> result = m.coeff(0, 0);
+    for (size_t i = 1; i < Size; ++i)
+        result += m(i, i);
+    return result;
+}
+
+template <typename Value, size_t Size>
+ENOKI_INLINE expr_t<Value> frob(const Matrix<Value, Size> &matrix) {
+    expr_t<column_t<Matrix<Value, Size>>> result = sqr(matrix.coeff(0));
+    for (size_t i = 1; i < Size; ++i)
+        result = fmadd(matrix.coeff(i), matrix.coeff(i), result);
+    return hsum(result);
+}
+
+template <typename T, enable_if_matrix_t<T> = 0>
+ENOKI_INLINE T identity(size_t size = 1) {
+    T result = zero<T>(size);
+    for (size_t i = 0; i < T::Size; ++i)
+        result(i, i) = full<typename T::Entry>(scalar_t<T>(1.f), size);
+    return result;
+}
+
+
+template <typename Matrix, enable_if_matrix_t<Matrix> = 0>
+ENOKI_INLINE Matrix diag(const column_t<Matrix> &value) {
+    Matrix result = zero<Matrix>();
+    for (size_t i = 0; i < Matrix::Size; ++i)
+        result(i, i) = value.coeff(i);
+    return result;
+}
+
+template <typename Matrix, enable_if_matrix_t<Matrix> = 0>
+ENOKI_INLINE column_t<expr_t<Matrix>> diag(const Matrix &value) {
+    column_t<expr_t<Matrix>> result;
+    for (size_t i = 0; i < Matrix::Size; ++i)
+        result.coeff(i) = value(i, i);
+    return result;
+}
+
+template <typename T, typename E = expr_t<T>>
+ENOKI_INLINE Matrix<E, 1> inverse(const Matrix<T, 1> &m) {
+    return rcp(m(0, 0));
+}
+
+template <typename T, typename E = expr_t<T>>
+ENOKI_INLINE Matrix<E, 1>
+inverse_transpose(const Matrix<T, 1> &m) {
+    return rcp(m(0, 0));
+}
+
+template <typename T, typename E = expr_t<T>>
+ENOKI_INLINE E det(const Matrix<T, 1> &m) {
+    return m(0, 0);
+}
+
+template <typename T, typename E = expr_t<T>>
+ENOKI_INLINE Matrix<E, 2> inverse(const Matrix<T, 2> &m) {
+    E inv_det = rcp(fmsub(m(0, 0), m(1, 1), m(0, 1) * m(1, 0)));
+    return Matrix<E, 2>(
+        m(1, 1) * inv_det, -m(0, 1) * inv_det,
+       -m(1, 0) * inv_det,  m(0, 0) * inv_det
+    );
+}
+
+template <typename T, typename E = expr_t<T>>
+ENOKI_INLINE E det(const Matrix<T, 2> &m) {
+    return fmsub(m(0, 0), m(1, 1), m(0, 1) * m(1, 0));
+}
+
+template <typename T, typename E = expr_t<T>>
+ENOKI_INLINE Matrix<E, 2>
+inverse_transpose(const Matrix<T, 2> &m) {
+    E inv_det = rcp(fmsub(m(0, 0), m(1, 1), m(0, 1) * m(1, 0)));
+    return Matrix<E, 2>(
+        m(1, 1) * inv_det, -m(1, 0) * inv_det,
+       -m(0, 1) * inv_det,  m(0, 0) * inv_det
+    );
+}
+
+template <typename T, typename E = expr_t<T>>
+ENOKI_INLINE Matrix<E, 3>
+inverse_transpose(const Matrix<T, 3> &m) {
+    using Vector = Array<E, 3>;
+
+    Vector col0 = m.coeff(0),
+           col1 = m.coeff(1),
+           col2 = m.coeff(2);
+
+    Vector row0 = cross(col1, col2),
+           row1 = cross(col2, col0),
+           row2 = cross(col0, col1);
+
+    Vector inv_det = Vector(rcp(dot(col0, row0)));
+
+    return Matrix<E, 3>(
+        row0 * inv_det,
+        row1 * inv_det,
+        row2 * inv_det
+    );
+}
+
+template <typename T, typename E = expr_t<T>>
+ENOKI_INLINE Matrix<E, 3> inverse(const Matrix<T, 3> &m) {
+    return transpose(inverse_transpose(m));
+}
+
+template <typename T, typename E = expr_t<T>>
+ENOKI_INLINE E det(const Matrix<T, 3> &m) {
+    return dot(m.coeff(0), cross(m.coeff(1), m.coeff(2)));
+}
+
+template <typename T, typename E = expr_t<T>>
+ENOKI_INLINE Matrix<E, 4>
+inverse_transpose(const Matrix<T, 4> &m) {
+    using Vector = Array<E, 4>;
+
+    Vector col0 = m.coeff(0), col1 = m.coeff(1),
+           col2 = m.coeff(2), col3 = m.coeff(3);
+
+    col1 = shuffle<2, 3, 0, 1>(col1);
+    col3 = shuffle<2, 3, 0, 1>(col3);
+
+    Vector tmp, row0, row1, row2, row3;
+
+    tmp = shuffle<1, 0, 3, 2>(col2 * col3);
+    row0 = col1 * tmp;
+    row1 = col0 * tmp;
+    tmp = shuffle<2, 3, 0, 1>(tmp);
+    row0 = fmsub(col1, tmp, row0);
+    row1 = shuffle<2, 3, 0, 1>(fmsub(col0, tmp, row1));
+
+    tmp = shuffle<1, 0, 3, 2>(col1 * col2);
+    row0 = fmadd(col3, tmp, row0);
+    row3 = col0 * tmp;
+    tmp = shuffle<2, 3, 0, 1>(tmp);
+    row0 = fnmadd(col3, tmp, row0);
+    row3 = shuffle<2, 3, 0, 1>(fmsub(col0, tmp, row3));
+
+    tmp = shuffle<1, 0, 3, 2>(shuffle<2, 3, 0, 1>(col1) * col3);
+    col2 = shuffle<2, 3, 0, 1>(col2);
+    row0 = fmadd(col2, tmp, row0);
+    row2 = col0 * tmp;
+    tmp = shuffle<2, 3, 0, 1>(tmp);
+    row0 = fnmadd(col2, tmp, row0);
+    row2 = shuffle<2, 3, 0, 1>(fmsub(col0, tmp, row2));
+
+    tmp = shuffle<1, 0, 3, 2>(col0 * col1);
+    row2 = fmadd(col3, tmp, row2);
+    row3 = fmsub(col2, tmp, row3);
+    tmp = shuffle<2, 3, 0, 1>(tmp);
+    row2 = fmsub(col3, tmp, row2);
+    row3 = fnmadd(col2, tmp, row3);
+
+    tmp = shuffle<1, 0, 3, 2>(col0 * col3);
+    row1 = fnmadd(col2, tmp, row1);
+    row2 = fmadd(col1, tmp, row2);
+    tmp = shuffle<2, 3, 0, 1>(tmp);
+    row1 = fmadd(col2, tmp, row1);
+    row2 = fnmadd(col1, tmp, row2);
+
+    tmp = shuffle<1, 0, 3, 2>(col0 * col2);
+    row1 = fmadd(col3, tmp, row1);
+    row3 = fnmadd(col1, tmp, row3);
+    tmp = shuffle<2, 3, 0, 1>(tmp);
+    row1 = fnmadd(col3, tmp, row1);
+    row3 = fmadd(col1, tmp, row3);
+
+    Vector inv_det = Vector(rcp(dot(col0, row0)));
+
+    return Matrix<E, 4>(
+        row0 * inv_det, row1 * inv_det,
+        row2 * inv_det, row3 * inv_det
+    );
+}
+
+template <typename T, typename E = expr_t<T>>
+ENOKI_INLINE Matrix<E, 4> inverse(const Matrix<T, 4> &m) {
+    return transpose(inverse_transpose(m));
+}
+
+template <typename T, typename E = expr_t<T>>
+ENOKI_INLINE E det(const Matrix<T, 4> &m) {
+    using Vector = Array<E, 4>;
+
+    Vector col0 = m.coeff(0), col1 = m.coeff(1),
+           col2 = m.coeff(2), col3 = m.coeff(3);
+
+    col1 = shuffle<2, 3, 0, 1>(col1);
+    col3 = shuffle<2, 3, 0, 1>(col3);
+
+    Vector tmp, row0;
+
+    tmp = shuffle<1, 0, 3, 2>(col2 * col3);
+    row0 = col1 * tmp;
+    tmp = shuffle<2, 3, 0, 1>(tmp);
+    row0 = fmsub(col1, tmp, row0);
+
+    tmp = shuffle<1, 0, 3, 2>(col1 * col2);
+    row0 = fmadd(col3, tmp, row0);
+    tmp = shuffle<2, 3, 0, 1>(tmp);
+    row0 = fnmadd(col3, tmp, row0);
+
+    col1 = shuffle<2, 3, 0, 1>(col1);
+    col2 = shuffle<2, 3, 0, 1>(col2);
+    tmp = shuffle<1, 0, 3, 2>(col1 * col3);
+    row0 = fmadd(col2, tmp, row0);
+    tmp = shuffle<2, 3, 0, 1>(tmp);
+    row0 = fnmadd(col2, tmp, row0);
+
+    return dot(col0, row0);
+}
+
+template <typename Value, size_t Size, bool IsMask_, typename Derived>
+ENOKI_INLINE auto transpose(const StaticArrayBase<Value, Size, IsMask_, Derived> &a) {
+    static_assert(Value::Size == Size && array_depth<Derived>::value >= 2,
+                  "Array must be a square matrix!");
+    using Column = value_t<Derived>;
+
+    if constexpr (Column::IsNative) {
+        #if defined(ENOKI_X86_SSE42)
+            if constexpr (std::is_same_v<value_t<Column>, float> && Size == 3) {
+                __m128 c0 = a.derived().coeff(0).m,
+                       c1 = a.derived().coeff(1).m,
+                       c2 = a.derived().coeff(2).m;
+
+                __m128 t0 = _mm_unpacklo_ps(c0, c1);
+                __m128 t1 = _mm_unpacklo_ps(c2, c2);
+                __m128 t2 = _mm_unpackhi_ps(c0, c1);
+                __m128 t3 = _mm_unpackhi_ps(c2, c2);
+
+                return Derived(
+                    _mm_movelh_ps(t0, t1),
+                    _mm_movehl_ps(t1, t0),
+                    _mm_movelh_ps(t2, t3)
+                );
+            } else if constexpr (std::is_same_v<value_t<Column>, float> && Size == 4) {
+                __m128 c0 = a.derived().coeff(0).m, c1 = a.derived().coeff(1).m,
+                       c2 = a.derived().coeff(2).m, c3 = a.derived().coeff(3).m;
+
+                __m128 t0 = _mm_unpacklo_ps(c0, c1);
+                __m128 t1 = _mm_unpacklo_ps(c2, c3);
+                __m128 t2 = _mm_unpackhi_ps(c0, c1);
+                __m128 t3 = _mm_unpackhi_ps(c2, c3);
+
+                return Derived(
+                    _mm_movelh_ps(t0, t1),
+                    _mm_movehl_ps(t1, t0),
+                    _mm_movelh_ps(t2, t3),
+                    _mm_movehl_ps(t3, t2)
+                );
+            }
+        #endif
+
+        #if defined(ENOKI_X86_AVX)
+            if constexpr (std::is_same_v<value_t<Column>, double> && Size == 3) {
+                __m256d c0 = a.derived().coeff(0).m,
+                        c1 = a.derived().coeff(1).m,
+                        c2 = a.derived().coeff(2).m;
+
+                __m256d t3 = _mm256_shuffle_pd(c2, c2, 0b0000),
+                        t2 = _mm256_shuffle_pd(c2, c2, 0b1111),
+                        t1 = _mm256_shuffle_pd(c0, c1, 0b0000),
+                        t0 = _mm256_shuffle_pd(c0, c1, 0b1111);
+
+                return Derived(
+                    _mm256_permute2f128_pd(t1, t3, 0b0010'0000),
+                    _mm256_permute2f128_pd(t0, t2, 0b0010'0000),
+                    _mm256_permute2f128_pd(t1, t3, 0b0011'0001)
+                );
+            } else if constexpr (std::is_same_v<value_t<Column>, double> && Size == 4) {
+                __m256d c0 = a.derived().coeff(0).m, c1 = a.derived().coeff(1).m,
+                        c2 = a.derived().coeff(2).m, c3 = a.derived().coeff(3).m;
+
+                __m256d t3 = _mm256_shuffle_pd(c2, c3, 0b0000),
+                        t2 = _mm256_shuffle_pd(c2, c3, 0b1111),
+                        t1 = _mm256_shuffle_pd(c0, c1, 0b0000),
+                        t0 = _mm256_shuffle_pd(c0, c1, 0b1111);
+
+                return Derived(
+                    _mm256_permute2f128_pd(t1, t3, 0b0010'0000),
+                    _mm256_permute2f128_pd(t0, t2, 0b0010'0000),
+                    _mm256_permute2f128_pd(t1, t3, 0b0011'0001),
+                    _mm256_permute2f128_pd(t0, t2, 0b0011'0001)
+                );
+            }
+        #endif
+
+        #if defined(ENOKI_ARM_NEON)
+            if constexpr (std::is_same_v<value_t<Column>, float> && Size == 3) {
+                float32x4x2_t v01 = vtrnq_f32(a.derived().coeff(0).m, a.derived().coeff(1).m);
+                float32x4x2_t v23 = vtrnq_f32(a.derived().coeff(2).m, a.derived().coeff(2).m);
+
+                return Derived(
+                    vcombine_f32(vget_low_f32 (v01.val[0]), vget_low_f32 (v23.val[0])),
+                    vcombine_f32(vget_low_f32 (v01.val[1]), vget_low_f32 (v23.val[1])),
+                    vcombine_f32(vget_high_f32(v01.val[0]), vget_high_f32(v23.val[0]))
+                );
+            } else if constexpr (std::is_same_v<value_t<Column>, float> && Size == 4) {
+                float32x4x2_t v01 = vtrnq_f32(a.derived().coeff(0).m, a.derived().coeff(1).m);
+                float32x4x2_t v23 = vtrnq_f32(a.derived().coeff(2).m, a.derived().coeff(3).m);
+
+                return Derived(
+                    vcombine_f32(vget_low_f32 (v01.val[0]), vget_low_f32 (v23.val[0])),
+                    vcombine_f32(vget_low_f32 (v01.val[1]), vget_low_f32 (v23.val[1])),
+                    vcombine_f32(vget_high_f32(v01.val[0]), vget_high_f32(v23.val[0])),
+                    vcombine_f32(vget_high_f32(v01.val[1]), vget_high_f32(v23.val[1]))
+                );
+            }
+        #endif
+    }
+
+    ENOKI_CHKSCALAR("transpose");
+
+    Derived result;
+    for (size_t i = 0; i < Size; ++i)
+        for (size_t j = 0; j < Size; ++j)
+            result.coeff(i, j) = a.derived().coeff(j, i);
+    return result;
+}
+
+template <typename T, size_t Size, typename Expr = expr_t<T>,
+          typename Matrix = Matrix<Expr, Size>>
+std::pair<Matrix, Matrix> ENOKI_INLINE
+polar_decomp(const enoki::Matrix<T, Size> &A, size_t it = 10) {
+    using Arr = Array<Array<Expr, Size>, Size>;
+    Matrix Q = A;
+    for (size_t i = 0; i < it; ++i) {
+        Matrix Qi = inverse_transpose(Q);
+        Expr gamma = sqrt(frob(Qi) / frob(Q));
+        Q = fmadd(Arr(Q), gamma * .5f, Arr(Qi) * (rcp(gamma) * 0.5f));
+    }
+    return std::make_pair(Q, transpose(Q) * A);
+}
+
+// =======================================================================
+//! @{ \name Enoki accessors for static & dynamic vectorization
+// =======================================================================
+
+template <typename T, size_t Size>
+struct struct_support<Matrix<T, Size>,
+                      enable_if_static_array_t<Matrix<T, Size>>> {
+    static constexpr bool IsDynamic = enoki::is_dynamic_v<T>;
+    using Dynamic = Matrix<enoki::make_dynamic_t<T>, Size>;
+    using Value = Matrix<T, Size>;
+    using Column = column_t<Value>;
+
+    static ENOKI_INLINE size_t slices(const Value &value) {
+        return enoki::slices(value.coeff(0, 0));
+    }
+
+    static ENOKI_INLINE size_t packets(const Value &value) {
+        return enoki::packets(value.coeff(0, 0));
+    }
+
+    static ENOKI_INLINE void set_slices(Value &value, size_t size) {
+        for (size_t i = 0; i < Size; ++i)
+            enoki::set_slices(value.coeff(i), size);
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto packet(T2&& value, size_t i) {
+        return packet(value, i, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto slice(T2&& value, size_t i) {
+        return slice(value, i, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto slice_ptr(T2&& value, size_t i) {
+        return slice_ptr(value, i, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto ref_wrap(T2&& value) {
+        return ref_wrap(value, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto detach(T2&& value) {
+        return detach(value, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto gradient(T2&& value) {
+        return gradient(value, std::make_index_sequence<Size>());
+    }
+
+    static ENOKI_INLINE Value zero(size_t size) {
+        return Value::zero_(size);
+    }
+
+    static ENOKI_INLINE Value empty(size_t size) {
+        return Value::empty_(size);
+    }
+
+    template <typename T2, typename Mask,
+              enable_if_t<array_size<T2>::value == array_size<Mask>::value> = 0>
+    static ENOKI_INLINE auto masked(T2 &value, const Mask &mask) {
+        return detail::MaskedArray<T2>{ value, mask_t<T2>(mask) };
+    }
+
+    template <typename T2, typename Mask,
+              enable_if_t<array_size<T2>::value != array_size<Mask>::value> = 0>
+    static ENOKI_INLINE auto masked(T2 &value, const Mask &mask) {
+        using Arr = Array<Array<T, Size>, Size>;
+        return enoki::masked((Arr&) value, mask_t<Arr>(mask));
+    }
+
+private:
+    template <typename T2, size_t... Index>
+    static ENOKI_INLINE auto packet(T2&& value, size_t i, std::index_sequence<Index...>) {
+        return Matrix<decltype(enoki::packet(value.coeff(0, 0), i)), Size>(
+            enoki::packet(value.coeff(Index), i)...);
+    }
+
+    template <typename T2, size_t... Index>
+    static ENOKI_INLINE auto slice(T2&& value, size_t i, std::index_sequence<Index...>) {
+        return Matrix<decltype(enoki::slice(value.coeff(0, 0), i)), Size>(
+            enoki::slice(value.coeff(Index), i)...);
+    }
+
+    template <typename T2, size_t... Index>
+    static ENOKI_INLINE auto slice_ptr(T2&& value, size_t i, std::index_sequence<Index...>) {
+        return Matrix<decltype(enoki::slice_ptr(value.coeff(0, 0), i)), Size>(
+            enoki::slice_ptr(value.coeff(Index), i)...);
+    }
+
+    template <typename T2, size_t... Index>
+    static ENOKI_INLINE auto ref_wrap(T2&& value, std::index_sequence<Index...>) {
+        return Matrix<decltype(enoki::ref_wrap(value.coeff(0, 0))), Size>(
+            enoki::ref_wrap(value.coeff(Index))...);
+    }
+
+    template <typename T2, size_t... Index>
+    static ENOKI_INLINE auto detach(T2&& value, std::index_sequence<Index...>) {
+        return Matrix<decltype(enoki::detach(value.coeff(0, 0))), Size>(
+            enoki::detach(value.coeff(Index))...);
+    }
+
+    template <typename T2, size_t... Index>
+    static ENOKI_INLINE auto gradient(T2&& value, std::index_sequence<Index...>) {
+        return Matrix<decltype(enoki::gradient(value.coeff(0, 0))), Size>(
+            enoki::gradient(value.coeff(Index))...);
+    }
+};
+
+//! @}
+// =======================================================================
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/morton.h b/sources/enoki/morton.h
new file mode 100644
index 00000000..80cb5c22
--- /dev/null
+++ b/sources/enoki/morton.h
@@ -0,0 +1,161 @@
+/*
+    enoki/morton.h -- Morton/Z-order curve encoding and decoding routines
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+    Includes contributions by Sebastien Speierer
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/array.h>
+
+#if defined(_MSC_VER)
+#  pragma warning (push)
+#  pragma warning (disable: 4310) // cast truncates constant value
+#endif
+
+NAMESPACE_BEGIN(enoki)
+NAMESPACE_BEGIN(detail)
+
+/// Generate bit masks for the functions \ref scatter_bits() and \ref gather_bits()
+template <typename Value> constexpr Value morton_magic(size_t dim, size_t level) {
+    size_t n_bits = sizeof(Value) * 8;
+    size_t max_block_size = n_bits / dim;
+    size_t block_size = std::min(size_t(1) << (level - 1), max_block_size);
+    size_t count = 0;
+
+    Value mask  = Value(1) << (n_bits - 1),
+         value = Value(0);
+
+    for (size_t i = 0; i < n_bits; ++i) {
+        value >>= 1;
+
+        if (count < max_block_size && (i / block_size) % dim == 0) {
+            count++;
+            value |= mask;
+        }
+    }
+
+    return value;
+}
+
+/// Bit scatter function. \c Dimension defines the final distance between two output bits
+template <size_t, typename Value, size_t Level, enable_if_t<Level == 0> = 0>
+ENOKI_INLINE Value scatter_bits(Value x) { return x; }
+
+template <size_t Dimension, typename Value,
+          size_t Level = clog2i(sizeof(Value) * 8),
+          enable_if_t<Level != 0 && (!(has_avx2 && has_x86_64) || !std::is_integral_v<Value>)> = 0>
+ENOKI_INLINE Value scatter_bits(Value x) {
+    using Scalar = scalar_t<Value>;
+
+    constexpr Scalar magic = morton_magic<Scalar>(Dimension, Level);
+    constexpr size_t shift_maybe = (1 << (Level - 1)) * (Dimension - 1);
+    constexpr size_t shift = (shift_maybe < sizeof(Scalar) * 8) ? shift_maybe : 0;
+
+    if constexpr (shift != 0)
+        x |= sl<shift>(x);
+
+    x &= magic;
+
+    return scatter_bits<Dimension, Value, Level - 1>(x);
+}
+
+template <size_t, typename Value, size_t Level,
+          enable_if_t<Level == 0> = 0>
+ENOKI_INLINE Value gather_bits(Value x) { return x; }
+
+/// Bit gather function. \c Dimension defines the final distance between two input bits
+template <size_t Dimension, typename Value,
+          size_t Level = clog2i(sizeof(Value) * 8),
+          enable_if_t<Level != 0 && (!(has_avx2 && has_x86_64) || !std::is_integral_v<Value>)> = 0>
+ENOKI_INLINE Value gather_bits(Value x) {
+    using Scalar = scalar_t<Value>;
+
+    constexpr size_t ilevel = clog2i(sizeof(Value) * 8) - Level + 1;
+    constexpr Scalar magic = morton_magic<Scalar>(Dimension, ilevel);
+    constexpr size_t shift_maybe = (1 << (ilevel - 1)) * (Dimension - 1);
+    constexpr size_t shift = (shift_maybe < sizeof(Scalar) * 8) ? shift_maybe : 0;
+
+    x &= magic;
+
+    if constexpr (shift != 0)
+        x |= sr<shift>(x);
+
+    return gather_bits<Dimension, Value, Level - 1>(x);
+}
+
+#if defined(ENOKI_X86_AVX2) && defined(ENOKI_X86_64)
+template <size_t Dimension, typename Value,
+          enable_if_t<std::is_integral_v<Value>> = 0>
+ENOKI_INLINE Value scatter_bits(Value x) {
+    constexpr Value magic = morton_magic<Value>(Dimension, 1);
+    if constexpr (sizeof(Value) <= 4)
+        return Value(_pdep_u32((uint32_t) x, (uint32_t) magic));
+    else
+        return Value(_pdep_u64((uint64_t) x, (uint64_t) magic));
+}
+
+template <size_t Dimension, typename Value,
+          enable_if_t<std::is_integral_v<Value>> = 0>
+ENOKI_INLINE Value gather_bits(Value x) {
+    constexpr Value magic = morton_magic<Value>(Dimension, 1);
+    if constexpr (sizeof(Value) <= 4)
+        return Value(_pext_u32((uint32_t) x, (uint32_t) magic));
+    else
+        return Value(_pext_u64((uint64_t) x, (uint64_t) magic));
+}
+#endif
+
+template <typename Array, size_t Index,
+          enable_if_t<Index == 0> = 0>
+ENOKI_INLINE void morton_decode_helper(value_t<Array> value, Array &out) {
+    out.coeff(0) = gather_bits<Array::Size>(value);
+}
+
+template <typename Array, size_t Index = array_size_v<Array> - 1,
+          enable_if_t<Index != 0> = 0>
+ENOKI_INLINE void morton_decode_helper(value_t<Array> value, Array &out) {
+    out.coeff(Index) = gather_bits<Array::Size>(sr<Index>(value));
+    morton_decode_helper<Array, Index - 1>(value, out);
+}
+
+NAMESPACE_END(detail)
+
+/// Convert a N-dimensional integer array into the Morton/Z-order curve encoding
+template <typename Array, size_t Index, typename Return = value_t<Array>,
+          enable_if_t<Index == 0> = 0>
+ENOKI_INLINE Return morton_encode(Array a) {
+    return detail::scatter_bits<Array::Size>(a.coeff(0));
+}
+
+/// Convert a N-dimensional integer array into the Morton/Z-order curve encoding
+template <typename Array, size_t Index = array_size_v<Array> - 1,
+          typename Return = value_t<Array>, enable_if_t<Index != 0> = 0>
+ENOKI_INLINE Return morton_encode(Array a) {
+    static_assert(std::is_unsigned_v<scalar_t<Array>>, "morton_encode() requires unsigned arguments");
+    return sl<Index>(detail::scatter_bits<Array::Size>(a.coeff(Index))) |
+           morton_encode<Array, Index - 1>(a);
+}
+
+/// Convert Morton/Z-order curve encoding into a N-dimensional integer array
+template <typename Array, typename Value = value_t<Array>>
+ENOKI_INLINE Array morton_decode(Value value) {
+    static_assert(std::is_unsigned_v<scalar_t<Array>>, "morton_decode() requires unsigned arguments");
+    Array result;
+    detail::morton_decode_helper(value, result);
+    return result;
+}
+
+NAMESPACE_END(enoki)
+
+#if defined(_MSC_VER)
+#  pragma warning (pop)
+#endif
diff --git a/sources/enoki/python.h b/sources/enoki/python.h
new file mode 100644
index 00000000..fe527960
--- /dev/null
+++ b/sources/enoki/python.h
@@ -0,0 +1,229 @@
+/*
+    enoki/python.h -- pybind11 support for Enoki types
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyrighe (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/complex.h>
+#include <pybind11/numpy.h>
+
+NAMESPACE_BEGIN(pybind11)
+NAMESPACE_BEGIN(detail)
+
+template <typename T, typename = void> struct array_shape_descr {
+    static constexpr auto name() { return _(""); }
+    static constexpr auto name_cont() { return _(""); }
+};
+
+template <typename T>
+struct array_shape_descr<T, std::enable_if_t<enoki::is_static_array_v<T>>> {
+    static constexpr auto name() {
+        return array_shape_descr<enoki::value_t<T>>::name_cont() + _<T::Size>();
+    }
+    static constexpr auto name_cont() {
+        return array_shape_descr<enoki::value_t<T>>::name_cont() + _<T::Size>() + _(", ");
+    }
+};
+
+template <typename T>
+struct array_shape_descr<T, std::enable_if_t<enoki::is_dynamic_array_v<T>>> {
+    static constexpr auto name() {
+        return array_shape_descr<enoki::value_t<T>>::name_cont() + _("n");
+    }
+    static constexpr auto name_cont() {
+        return array_shape_descr<enoki::value_t<T>>::name_cont() + _("n, ");
+    }
+};
+
+template <typename Value>
+struct type_caster<Value, std::enable_if_t<enoki::is_array_v<Value> &&
+                                          !enoki::is_cuda_array_v<Value>>> {
+    using Scalar = std::conditional_t<Value::IsMask, bool, enoki::scalar_t<Value>>;
+    static constexpr bool IsComplex = Value::IsComplex;
+
+    bool load(handle src, bool convert) {
+        if (src.is_none()) {
+            is_none = true;
+            return true;
+        }
+
+        if constexpr (std::is_pointer_v<Scalar> || std::is_enum_v<Scalar>) {
+            /// Convert special array types (pointer, enum) to integer arrays
+            using UInt = enoki::uint_array_t<Value, false>;
+            type_caster<UInt> caster;
+            bool result = caster.load(src, convert);
+            value = caster.operator UInt &();
+            return result;
+        }
+
+        if (!isinstance<array_t<Scalar>>(src)) {
+            if (!convert)
+                return false;
+
+            /// Don't cast enoki CUDA/autodiff types
+            if (strncmp(((PyTypeObject *) src.get_type().ptr())->tp_name, "enoki.", 6) == 0)
+                return false;
+        }
+
+        constexpr size_t ndim = enoki::array_depth_v<Value>;
+
+        array arr = reinterpret_borrow<array>(src);
+        if constexpr (IsComplex) {
+            auto np = module::import("numpy");
+            try {
+                arr = np.attr("asarray")(arr, sizeof(Scalar) == 4 ? "c8" : "c16", "F");
+                arr = np.attr("expand_dims")(arr, -1).attr("view")(
+                    sizeof(Scalar) == 4 ? "f4" : "f8");
+            } catch (const error_already_set &) {
+                return false;
+            }
+        }
+
+        arr = array_t<Scalar, array::f_style | array::forcecast>::ensure(arr);
+        if (!arr)
+            return false;
+
+        if (ndim != arr.ndim() && !((arr.ndim() == 0 || (arr.ndim() == 1 && IsComplex)) && convert))
+            return false;
+
+        std::array<size_t, ndim> shape;
+        std::fill(shape.begin(), shape.end(), (size_t) 1);
+        std::reverse_copy(arr.shape(), arr.shape() + arr.ndim(), shape.begin());
+
+        try {
+            enoki::set_shape(value, shape);
+        } catch (const std::length_error &) {
+            return false;
+        }
+
+        const Scalar *buf = static_cast<const Scalar *>(arr.data());
+        read_buffer(buf, value);
+
+        return true;
+    }
+
+    static handle cast(const Value *src, return_value_policy policy, handle parent) {
+        if (!src)
+            return pybind11::none();
+        return cast(*src, policy, parent);
+    }
+
+    static handle cast(const Value &src, return_value_policy policy, handle parent) {
+        /// Convert special array types (pointer, enum) to integer arrays
+        if constexpr (std::is_pointer_v<Scalar> || std::is_enum_v<Scalar>) {
+            using UInt = enoki::uint_array_t<Value, false>;
+            return type_caster<UInt>::cast(src, policy, parent);
+        }
+        (void) policy; (void) parent;
+
+        if (enoki::ragged(src))
+            throw type_error("Ragged arrays are not supported!");
+
+        auto shape = enoki::shape(src);
+        std::reverse(shape.begin(), shape.end());
+        decltype(shape) stride;
+
+        stride[0] = sizeof(Scalar);
+        for (size_t i = 1; i < shape.size(); ++i)
+            stride[i] = shape[i - 1] * stride[i - 1];
+
+        array arr(pybind11::dtype::of<Scalar>(),
+                  std::vector<ssize_t>(shape.begin(), shape.end()),
+                  std::vector<ssize_t>(stride.begin(), stride.end()));
+
+        Scalar *buf = static_cast<Scalar *>(arr.mutable_data());
+        write_buffer(buf, src);
+
+        if constexpr (IsComplex) {
+            auto np = module::import("numpy");
+            arr = np.attr("ascontiguousarray")(arr).attr("view")(
+                        sizeof(Scalar) == 4 ? "c8" : "c16").attr("squeeze")(-1);
+        }
+
+        return arr.release();
+    }
+
+    template <typename _T> using cast_op_type = pybind11::detail::cast_op_type<_T>;
+
+    static constexpr auto name_default =
+            _("numpy.ndarray[dtype=") +
+            npy_format_descriptor<Scalar>::name + _(", shape=(") +
+            array_shape_descr<Value>::name() + _(")]");
+
+    static constexpr auto name_complex =
+            _("numpy.ndarray[dtype=Complex[") +
+            npy_format_descriptor<Scalar>::name + _("], shape=(") +
+            array_shape_descr<enoki::value_t<Value>>::name() + _(")]");
+
+    static constexpr auto name = _<IsComplex>(name_complex, name_default);
+
+    operator Value*() { if (is_none) return nullptr; else return &value; }
+    operator Value&() {
+        #if !defined(NDEBUG)
+            if (is_none)
+                throw pybind11::cast_error("Cannot cast None or nullptr to an"
+                                           " Enoki array.");
+        #endif
+        return value;
+    }
+
+private:
+    template <typename T> static ENOKI_INLINE void write_buffer(Scalar *&buf, const T &value) {
+        if constexpr (!enoki::is_array_v<enoki::value_t<T>>) {
+            if constexpr (!enoki::is_mask_v<T>) {
+                memcpy(buf, value.data(), sizeof(enoki::value_t<T>) * value.size());
+                buf += value.size();
+            } else {
+                for (size_t i = 0, size = value.size(); i < size; ++i)
+                    *buf++ = value.coeff(i);
+            }
+        } else {
+            for (size_t i = 0, size = value.size(); i < size; ++i)
+                write_buffer(buf, value.coeff(i));
+        }
+    }
+
+    template <typename T>
+    static ENOKI_INLINE void read_buffer(const Scalar *&buf, T &value) {
+        if constexpr (!enoki::is_array_v<enoki::value_t<T>>) {
+            if constexpr (!enoki::is_mask_v<T>) {
+                memcpy(value.data(), buf, sizeof(enoki::value_t<T>) * value.size());
+                buf += value.size();
+            } else {
+                if constexpr (!enoki::is_dynamic_array_v<T>) {
+                    enoki::Array<bool, T::Size> value2 = false;
+                    for (size_t i = 0, size = value2.size(); i < size; ++i)
+                        value2.coeff(i) = *buf++;
+                    value = enoki::reinterpret_array<T>(value2);
+                } else {
+                    const Scalar *end = buf + value.size();
+                    for (size_t i = 0; i < enoki::packets(value); ++i) {
+                        enoki::Array<bool, T::Packet::Size> value2 = false;
+                        for (size_t j = 0; j < T::Packet::Size && buf != end; ++j)
+                            value2.coeff(j) = *buf++;
+                        enoki::packet(value, i) = enoki::reinterpret_array<typename T::Packet>(value2);
+                    }
+                }
+            }
+        } else {
+            for (size_t i = 0, size = value.size(); i < size; ++i)
+                read_buffer(buf, value.coeff(i));
+        }
+    }
+
+private:
+    Value value;
+    bool is_none = false;
+};
+
+NAMESPACE_END(detail)
+NAMESPACE_END(pybind11)
diff --git a/sources/enoki/quaternion.h b/sources/enoki/quaternion.h
new file mode 100644
index 00000000..e932188a
--- /dev/null
+++ b/sources/enoki/quaternion.h
@@ -0,0 +1,361 @@
+/*
+    enoki/quaternion.h -- Quaternion data structure
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/complex.h>
+#include <enoki/matrix.h>
+
+NAMESPACE_BEGIN(enoki)
+
+/// SFINAE helper for quaternions
+template <typename T> using is_quaternion_helper = enable_if_t<std::decay_t<T>::IsQuaternion>;
+template <typename T> constexpr bool is_quaternion_v = is_detected_v<is_quaternion_helper, T>;
+template <typename T> using enable_if_quaternion_t = enable_if_t<is_quaternion_v<T>>;
+template <typename T> using enable_if_not_quaternion_t = enable_if_t<!is_quaternion_v<T>>;
+
+template <typename Value_>
+struct Quaternion : StaticArrayImpl<Value_, 4, false, Quaternion<Value_>> {
+    using Base = StaticArrayImpl<Value_, 4, false, Quaternion<Value_>>;
+    ENOKI_ARRAY_IMPORT_BASIC(Base, Quaternion);
+    using Base::operator=;
+
+    static constexpr bool IsQuaternion = true;
+    static constexpr bool IsVector = false;
+
+    using ArrayType = Quaternion;
+    using MaskType = Mask<Value_, 4>;
+
+    template <typename T> using ReplaceValue = Quaternion<T>;
+
+    Quaternion() = default;
+
+    template <typename Value2>
+    ENOKI_INLINE Quaternion(const Quaternion<Value2> &z) : Base(z) { }
+
+    template <typename T, enable_if_t<(array_depth_v<T> < Base::Depth && (is_scalar_v<T> || is_array_v<T>))> = 0,
+              enable_if_not_quaternion_t<T> = 0>
+    ENOKI_INLINE Quaternion(T &&v) : Base(zero<Value_>(), zero<Value_>(), zero<Value_>(), v) { }
+
+    template <typename T, enable_if_t<(array_depth_v<T> == Base::Depth || !(is_scalar_v<T> || is_array_v<T>))> = 0,
+              enable_if_not_quaternion_t<T> = 0>
+    ENOKI_INLINE Quaternion(T &&v) : Base(std::forward<T>(v)) { }
+
+    ENOKI_INLINE Quaternion(const Value_ &vi, const Value_ &vj,
+                            const Value_ &vk, const Value_ &vr)
+        : Base(vi, vj, vk, vr) { }
+
+    template <typename Im, typename Re, enable_if_t<array_size_v<Im> == 3> = 0>
+    ENOKI_INLINE Quaternion(const Im &im, const Re &re)
+        : Base(im.x(), im.y(), im.z(), re) { }
+
+    /// Construct from sub-arrays
+    template <typename T1, typename T2, typename T = Quaternion, enable_if_t<
+              array_depth_v<T1> == array_depth_v<T> && array_size_v<T1> == 2 &&
+              array_depth_v<T2> == array_depth_v<T> && array_size_v<T2> == 2> = 0>
+    Quaternion(const T1 &a1, const T2 &a2)
+        : Base(a1, a2) { }
+
+    template <typename T> ENOKI_INLINE static Quaternion full_(const T &value, size_t size) {
+        return Array<Value, 4>::full_(value, size);
+    }
+};
+
+template <typename T, enable_if_quaternion_t<T> = 0>
+ENOKI_INLINE T identity(size_t size = 1) {
+    using Value = value_t<T>;
+    Value z = zero<Value>(size),
+          o = full<Value>(1.f, size);
+    return T(z, z, z, o);
+}
+
+template <typename T> ENOKI_INLINE expr_t<T> real(const Quaternion<T> &q) { return q.w(); }
+template <typename T> ENOKI_INLINE auto imag(const Quaternion<T> &q) { return head<3>(q); }
+
+template <typename T0, typename T1, typename T = expr_t<T0, T1>>
+ENOKI_INLINE T dot(const Quaternion<T0> &q0, const Quaternion<T1> &q1) {
+    using Base = Array<T, 4>;
+    return dot(Base(q0), Base(q1));
+}
+
+template <typename T>
+ENOKI_INLINE Quaternion<expr_t<T>> conj(const Quaternion<T> &q) {
+    const Quaternion<expr_t<T>> mask(-0.f, -0.f, -0.f, 0.f);
+    return q ^ mask;
+}
+
+template <typename T>
+ENOKI_INLINE expr_t<T> squared_norm(const Quaternion<T> &q) {
+    return enoki::squared_norm(Array<expr_t<T>, 4>(q));
+}
+
+template <typename T>
+ENOKI_INLINE expr_t<T> norm(const Quaternion<T> &q) {
+    return enoki::norm(Array<expr_t<T>, 4>(q));
+}
+
+template <typename T>
+ENOKI_INLINE Quaternion<expr_t<T>> normalize(const Quaternion<T> &q) {
+    return enoki::normalize(Array<expr_t<T>, 4>(q));
+}
+
+template <typename T>
+ENOKI_INLINE Quaternion<expr_t<T>> rcp(const Quaternion<T> &q) {
+    return conj(q) * (1 / squared_norm(q));
+}
+
+template <typename T0, typename T1,
+          typename Value = expr_t<T0, T1>, typename Result = Quaternion<Value>>
+ENOKI_INLINE Result operator*(const Quaternion<T0> &q0, const Quaternion<T1> &q1) {
+    using Base   = Array<Value, 4>;
+    const Base sign_mask(0.f, 0.f, 0.f, -0.f);
+    Base q0_xyzx = shuffle<0, 1, 2, 0>(q0);
+    Base q0_yzxy = shuffle<1, 2, 0, 1>(q0);
+    Base q1_wwwx = shuffle<3, 3, 3, 0>(q1);
+    Base q1_zxyy = shuffle<2, 0, 1, 1>(q1);
+    Base t1 = fmadd(q0_xyzx, q1_wwwx, q0_yzxy * q1_zxyy) ^ sign_mask;
+
+    Base q0_zxyz = shuffle<2, 0, 1, 2>(q0);
+    Base q1_yzxz = shuffle<1, 2, 0, 2>(q1);
+    Base q0_wwww = shuffle<3, 3, 3, 3>(q0);
+    Base t2 = fmsub(q0_wwww, q1, q0_zxyz * q1_yzxz);
+    return t1 + t2;
+}
+
+template <typename T0, typename T1,
+          typename Value = expr_t<T0, T1>, typename Result = Quaternion<Value>>
+ENOKI_INLINE Result operator*(const Quaternion<T0> &q0, const T1 &v1) {
+    return Array<expr_t<T0>, 4>(q0) * v1;
+}
+
+template <typename T0, typename T1,
+          typename Value = expr_t<T0, T1>, typename Result = Quaternion<Value>>
+ENOKI_INLINE Result operator*(const T0 &v0, const Quaternion<T1> &q1) {
+    return v0 * Array<expr_t<T0>, 4>(q1);
+}
+
+template <typename T0, typename T1,
+          typename Value = expr_t<T0, T1>, typename Result = Quaternion<Value>>
+ENOKI_INLINE Result operator/(const Quaternion<T0> &q0, const Quaternion<T1> &q1) {
+    return q0 * rcp(q1);
+}
+
+template <typename T0, typename T1,
+          typename Value = expr_t<T0, T1>, typename Result = Quaternion<Value>>
+ENOKI_INLINE Result operator/(const Quaternion<T0> &z0, const T1 &v1) {
+    return Array<expr_t<T0>, 4>(z0) / v1;
+}
+
+template <typename T>
+ENOKI_INLINE expr_t<T> abs(const Quaternion<T> &z) {
+    return norm(z);
+}
+
+template <typename T>
+ENOKI_INLINE Quaternion<expr_t<T>> exp(const Quaternion<T> &q) {
+    auto qi     = imag(q);
+    auto ri     = norm(qi);
+    auto exp_w  = exp(real(q));
+    auto [s, c] = sincos(ri);
+
+    return { qi * (s * exp_w / ri), c * exp_w };
+}
+
+template <typename T>
+ENOKI_INLINE Quaternion<expr_t<T>> log(const Quaternion<T> &q) {
+    auto qi_n    = normalize(imag(q));
+    auto rq      = norm(q);
+    auto acos_rq = acos(real(q) / rq);
+    auto log_rq  = log(rq);
+
+    return { qi_n * acos_rq, log_rq };
+}
+
+template <typename T0, typename T1>
+ENOKI_INLINE auto pow(const Quaternion<T0> &q0, const Quaternion<T1> &q1) {
+    return exp(log(q0) * q1);
+}
+
+template <typename T>
+Quaternion<expr_t<T>> sqrt(const Quaternion<T> &q) {
+    auto ri = norm(imag(q));
+    auto cs = sqrt(Complex<expr_t<T>>(real(q), ri));
+    return { imag(q) * (rcp(ri) * imag(cs)), real(cs) };
+}
+
+template <typename Vector, typename T, typename Expr = expr_t<T>>
+ENOKI_INLINE Vector quat_to_euler(const Quaternion<T> &q) {
+
+    // https://en.wikipedia.org/wiki/Conversion_between_quaternions_and_Euler_angles#Quaternion_to_Euler_Angles_Conversion
+    // roll (x-axis rotation)
+
+    Expr q_y_2 = sqr(q.y());
+
+    Expr sinr_cosp = 2 * fmadd(q.w(), q.x(), q.y() * q.z());
+    Expr cosr_cosp = fnmadd(2, fmadd(q.x(), q.x(), q_y_2), 1);
+    Expr roll = atan2(sinr_cosp, cosr_cosp);
+
+    // pitch (y-axis rotation)
+    Expr sinp = 2 * fmsub(q.w(), q.y(), q.z() * q.x());
+    Expr pitch;
+    if (abs(sinp) >= 1)
+        pitch = copysign(Expr(M_PI / 2), sinp); // use 90 degrees if out of range
+    else
+        pitch = asin(sinp);
+
+    // yaw (z-axis rotation)
+    Expr siny_cosp = 2 * fmadd(q.w(), q.z(), q.x() * q.y());
+    Expr cosy_cosp = fnmadd(2, fmadd(q.z(), q.z(), q_y_2), 1);
+    Expr yaw = atan2(siny_cosp, cosy_cosp);
+
+    return Vector(roll, pitch, yaw);
+}
+
+template <typename Matrix, typename T, typename Expr = expr_t<T>,
+          enable_if_t<Matrix::Size == 4> = 0>
+ENOKI_INLINE Matrix quat_to_matrix(const Quaternion<T> &q_) {
+    auto q = q_ * scalar_t<T>(M_SQRT2);
+
+    Expr xx = q.x() * q.x(), yy = q.y() * q.y(), zz = q.z() * q.z();
+    Expr xy = q.x() * q.y(), xz = q.x() * q.z(), yz = q.y() * q.z();
+    Expr xw = q.x() * q.w(), yw = q.y() * q.w(), zw = q.z() * q.w();
+
+    return Matrix(
+         1.f - (yy + zz), xy - zw, xz + yw, 0.f,
+         xy + zw, 1.f - (xx + zz), yz - xw, 0.f,
+         xz - yw, yz + xw, 1.f - (xx + yy), 0.f,
+         0.f, 0.f, 0.f, 1.f
+    );
+}
+
+template <typename Matrix, typename T, typename Expr = expr_t<T>,
+          enable_if_t<Matrix::Size == 3> = 0>
+ENOKI_INLINE Matrix quat_to_matrix(const Quaternion<T> &q_) {
+    auto q = q_ * scalar_t<T>(M_SQRT2);
+
+    Expr xx = q.x() * q.x(), yy = q.y() * q.y(), zz = q.z() * q.z();
+    Expr xy = q.x() * q.y(), xz = q.x() * q.z(), yz = q.y() * q.z();
+    Expr xw = q.x() * q.w(), yw = q.y() * q.w(), zw = q.z() * q.w();
+
+    return Matrix(
+         1.f - (yy + zz), xy - zw, xz + yw,
+         xy + zw, 1.f - (xx + zz), yz - xw,
+         xz - yw,  yz + xw, 1.f - (xx + yy)
+    );
+}
+
+template <typename T, size_t Size,
+          typename Expr = expr_t<T>,
+          typename Quat = Quaternion<Expr>,
+          enable_if_t<Size == 3 || Size == 4> = 0>
+ENOKI_INLINE Quat matrix_to_quat(const Matrix<T, Size> &mat) {
+    const Expr c0(0), c1(1), ch(0.5f);
+
+    // Converting a Rotation Matrix to a Quaternion
+    // Mike Day, Insomniac Games
+    Expr t0(c1 + mat(0, 0) - mat(1, 1) - mat(2, 2));
+    Quat q0(t0,
+            mat(1, 0) + mat(0, 1),
+            mat(0, 2) + mat(2, 0),
+            mat(2, 1) - mat(1, 2));
+
+    Expr t1(c1 - mat(0, 0) + mat(1, 1) - mat(2, 2));
+    Quat q1(mat(1, 0) + mat(0, 1),
+            t1,
+            mat(2, 1) + mat(1, 2),
+            mat(0, 2) - mat(2, 0));
+
+    Expr t2(c1 - mat(0, 0) - mat(1, 1) + mat(2, 2));
+    Quat q2(mat(0, 2) + mat(2, 0),
+            mat(2, 1) + mat(1, 2),
+            t2,
+            mat(1, 0) - mat(0, 1));
+
+    Expr t3(c1 + mat(0, 0) + mat(1, 1) + mat(2, 2));
+    Quat q3(mat(2, 1) - mat(1, 2),
+            mat(0, 2) - mat(2, 0),
+            mat(1, 0) - mat(0, 1),
+            t3);
+
+    auto mask0 = mat(0, 0) > mat(1, 1);
+    Expr t01 = select(mask0, t0, t1);
+    Quat q01 = select(mask0, q0, q1);
+
+    auto mask1 = mat(0, 0) < -mat(1, 1);
+    Expr t23 = select(mask1, t2, t3);
+    Quat q23 = select(mask1, q2, q3);
+
+    auto mask2 = mat(2, 2) < c0;
+    Expr t0123 = select(mask2, t01, t23);
+    Quat q0123 = select(mask2, q01, q23);
+
+    return q0123 * (rsqrt(t0123) * ch);
+}
+
+template <typename T0, typename T1, typename T2,
+          typename Value  = expr_t<T0, T1, T2>,
+          typename Return = Quaternion<Value>>
+ENOKI_INLINE Return slerp(const Quaternion<T0> &q0,
+                          const Quaternion<T1> &q1_, const T2 &t) {
+    using Base = Array<Value, 4>;
+
+    Value cos_theta = dot(q0, q1_);
+    Return q1 = mulsign(Base(q1_), cos_theta);
+    cos_theta = mulsign(cos_theta, cos_theta);
+
+    Value theta = acos(cos_theta);
+    auto [s, c] = sincos(theta * t);
+    auto close_mask = cos_theta > 0.9995f;
+
+    Return qperp  = normalize(q1 - q0 * cos_theta),
+           result = q0 * c + qperp * s;
+
+    if (ENOKI_UNLIKELY(any_nested(close_mask)))
+        result[mask_t<Base>(close_mask)] =
+            Base(normalize(q0 * (1.f - t) + q1 * t));
+
+    return result;
+}
+
+template <typename Quat, typename Vector3, enable_if_t<Quat::IsQuaternion> = 0>
+ENOKI_INLINE Quat rotate(const Vector3 &axis, const value_t<Quat> &angle) {
+    auto [s, c] = sincos(angle * .5f);
+    return concat(axis * s, c);
+}
+
+template <typename T, enable_if_not_array_t<T> = 0>
+ENOKI_NOINLINE std::ostream &operator<<(std::ostream &os, const Quaternion<T> &q) {
+    os << q.w();
+    os << (q.x() < 0 ? " - " : " + ") << abs(q.x()) << "i";
+    os << (q.y() < 0 ? " - " : " + ") << abs(q.y()) << "j";
+    os << (q.z() < 0 ? " - " : " + ") << abs(q.z()) << "k";
+    return os;
+}
+
+template <typename T, enable_if_array_t<T> = 0>
+ENOKI_NOINLINE std::ostream &operator<<(std::ostream &os, const Quaternion<T> &q) {
+    os << "[";
+    size_t size = q.x().size();
+    for (size_t i = 0; i < size; ++i) {
+        os << q.w().coeff(i);
+        os << (q.x().coeff(i) < 0 ? " - " : " + ") << abs(q.x().coeff(i)) << "i";
+        os << (q.y().coeff(i) < 0 ? " - " : " + ") << abs(q.y().coeff(i)) << "j";
+        os << (q.z().coeff(i) < 0 ? " - " : " + ") << abs(q.z().coeff(i)) << "k";
+        if (i + 1 < size)
+            os << ",\n ";
+    }
+    os << "]";
+    return os;
+}
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/random.h b/sources/enoki/random.h
new file mode 100644
index 00000000..71dd9a48
--- /dev/null
+++ b/sources/enoki/random.h
@@ -0,0 +1,333 @@
+/*
+ * Tiny self-contained version of the PCG Random Number Generation for C++,
+ * put together from pieces of the much larger C/C++ codebase with
+ * vectorization using Enoki.
+ *
+ * Wenzel Jakob, February 2019
+ *
+ * The PCG random number generator was developed by Melissa O'Neill
+ * <oneill@pcg-random.org>
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ *
+ * For additional information about the PCG random number generation scheme,
+ * including its license and other licensing options, visit
+ *
+ *     http://www.pcg-random.org
+ */
+
+#pragma once
+
+#include <enoki/array.h>
+
+#define PCG32_DEFAULT_STATE  0x853c49e6748fea9bULL
+#define PCG32_DEFAULT_STREAM 0xda3e39cb94b95bdbULL
+#define PCG32_MULT           0x5851f42d4c957f2dULL
+
+NAMESPACE_BEGIN(enoki)
+
+/// PCG32 pseudorandom number generator proposed by Melissa O'Neill
+template <typename T, size_t Size = array_size_v<T>> struct PCG32 {
+    /* Some convenient type aliases for vectorization */
+    using  Int64     = int64_array_t<T>;
+    using UInt64     = uint64_array_t<T>;
+    using UInt32     = uint32_array_t<T>;
+    using Float64    = float64_array_t<T>;
+    using Float32    = float32_array_t<T>;
+    using UInt32Mask = mask_t<UInt32>;
+    using UInt64Mask = mask_t<UInt64>;
+
+    /// Initialize the pseudorandom number generator with the \ref seed() function
+    PCG32(const UInt64 &initstate = PCG32_DEFAULT_STATE,
+          const UInt64 &initseq = arange<UInt64>(Size) + PCG32_DEFAULT_STREAM) {
+        seed(initstate, initseq);
+    }
+
+    /**
+     * \brief Seed the pseudorandom number generator
+     *
+     * Specified in two parts: a state initializer and a sequence selection
+     * constant (a.k.a. stream id)
+     */
+    void seed(const UInt64 &initstate, const UInt64 &initseq) {
+        state = zero<UInt64>();
+        inc = sl<1>(initseq) | 1u;
+        next_uint32();
+        state += initstate;
+        next_uint32();
+    }
+
+    /// Generate a uniformly distributed unsigned 32-bit random number
+    ENOKI_INLINE UInt32 next_uint32() {
+        UInt64 oldstate = state;
+        state = oldstate * uint64_t(PCG32_MULT) + inc;
+        UInt32 xorshifted = UInt32(sr<27>(sr<18>(oldstate) ^ oldstate));
+        UInt32 rot_offset = UInt32(sr<59>(oldstate));
+        return ror(xorshifted, rot_offset);
+    }
+
+    /// Masked version of \ref next_uint32
+    ENOKI_INLINE UInt32 next_uint32(const UInt64Mask &mask) {
+        UInt64 oldstate = state;
+        masked(state, mask) = oldstate * uint64_t(PCG32_MULT) + inc;
+        UInt32 xorshifted = UInt32(sr<27>(sr<18>(oldstate) ^ oldstate));
+        UInt32 rot_offset = UInt32(sr<59>(oldstate));
+        return ror(xorshifted, rot_offset);
+    }
+
+    /// Generate a uniformly distributed unsigned 64-bit random number
+    ENOKI_INLINE UInt64 next_uint64() {
+        return UInt64(next_uint32()) | sl<32>(UInt64(next_uint32()));
+    }
+
+    /// Masked version of \ref next_uint64
+    ENOKI_INLINE UInt64 next_uint64(const UInt64Mask &mask) {
+        return UInt64(next_uint32(mask)) | sl<32>(UInt64(next_uint32(mask)));
+    }
+
+    /// Forward \ref next_uint call to the correct method based given type size
+    template <typename Value, enable_if_std_int_v<scalar_t<Value>> = 0>
+    ENOKI_INLINE Value next_uint() {
+        if constexpr (is_int64_v<scalar_t<Value>>)
+            return next_uint64();
+        else
+            return next_uint32();
+    }
+
+    /// Forward \ref next_uint call to the correct method based given type size (masked version)
+    template <typename Value, enable_if_std_int_v<scalar_t<Value>> = 0>
+    ENOKI_INLINE Value next_uint(const mask_t<Value> &mask) {
+        if constexpr (is_int64_v<scalar_t<Value>>)
+            return next_uint64(mask);
+        else
+            return next_uint32(mask);
+    }
+
+    /// Generate a single precision floating point value on the interval [0, 1)
+    ENOKI_INLINE Float32 next_float32() {
+        return reinterpret_array<Float32>(sr<9>(next_uint32()) | 0x3f800000u) - 1.f;
+    }
+
+    /// Masked version of \ref next_float32
+    ENOKI_INLINE Float32 next_float32(const UInt64Mask &mask) {
+        return reinterpret_array<Float32>(sr<9>(next_uint32(mask)) | 0x3f800000u) - 1.f;
+    }
+
+    /**
+     * \brief Generate a double precision floating point value on the interval [0, 1)
+     *
+     * \remark Since the underlying random number generator produces 32 bit output,
+     * only the first 32 mantissa bits will be filled (however, the resolution is still
+     * finer than in \ref next_float(), which only uses 23 mantissa bits)
+     */
+    ENOKI_INLINE Float64 next_float64() {
+        /* Trick from MTGP: generate an uniformly distributed
+           double precision number in [1,2) and subtract 1. */
+        return reinterpret_array<Float64>(sl<20>(UInt64(next_uint32())) |
+                                          0x3ff0000000000000ull) - 1.0;
+    }
+
+    /// Masked version of next_float64
+    ENOKI_INLINE Float64 next_float64(const UInt64Mask &mask) {
+        return reinterpret_array<Float64>(sl<20>(UInt64(next_uint32(mask))) |
+                                          0x3ff0000000000000ull) - 1.0;
+    }
+
+    /// Forward \ref next_float call to the correct method based given type size
+    template <typename Value, enable_if_std_float_v<scalar_t<Value>> = 0>
+    ENOKI_INLINE Value next_float() {
+        if constexpr (is_double_v<scalar_t<Value>>)
+            return next_float64();
+        else
+            return next_float32();
+    }
+
+    /// Forward \ref next_float call to the correct method based given type size (masked version)
+    template <typename Value, enable_if_std_float_v<scalar_t<Value>> = 0>
+    ENOKI_INLINE Value next_float(const mask_t<Value> &mask) {
+        if constexpr (is_double_v<scalar_t<Value>>)
+            return next_float64(mask);
+        else
+            return next_float32(mask);
+    }
+
+    /// Generate a uniformly distributed integer r, where 0 <= r < bound
+    UInt32 next_uint32_bounded(uint32_t bound, UInt64Mask mask = true) {
+        if constexpr (is_scalar_v<T>) {
+            ENOKI_MARK_USED(mask);
+
+            /* To avoid bias, we need to make the range of the RNG a multiple of
+               bound, which we do by dropping output less than a threshold.
+               A naive scheme to calculate the threshold would be to do
+
+                   UInt32 threshold = 0x1'0000'0000ull % bound;
+
+               but 64-bit div/mod is slower than 32-bit div/mod (especially on
+               32-bit platforms).  In essence, we do
+
+                   UInt32 threshold = (0x1'0000'0000ull-bound) % bound;
+
+               because this version will calculate the same modulus, but the LHS
+               value is less than 2^32.
+            */
+
+            const UInt32 threshold = (~bound + 1u) % bound;
+
+            /* Uniformity guarantees that this loop will terminate.  In practice, it
+               should usually terminate quickly; on average (assuming all bounds are
+               equally likely), 82.25% of the time, we can expect it to require just
+               one iteration.  In the worst case, someone passes a bound of 2^31 + 1
+               (i.e., 2147483649), which invalidates almost 50% of the range.  In
+               practice, bounds are typically small and only a tiny amount of the range
+               is eliminated.
+            */
+
+            while (true) {
+                UInt32 result = next_uint32();
+
+                if (all(result >= threshold))
+                    return result % bound;
+            }
+        } else {
+            const divisor_ext<uint32_t> div(bound);
+            const UInt32 threshold = (~bound + 1u) % div;
+
+            UInt32 result = zero<UInt32>();
+            do {
+                result[mask] = next_uint32(mask);
+
+                /* Keep track of which SIMD lanes have already
+                   finished and stops advancing the associated PRNGs */
+                mask &= result < threshold;
+            } while (any(mask));
+
+            return result % div;
+        }
+    }
+
+    /// Generate a uniformly distributed integer r, where 0 <= r < bound
+    UInt64 next_uint64_bounded(uint64_t bound, UInt64Mask mask = true) {
+        if constexpr (is_scalar_v<T>) {
+            ENOKI_MARK_USED(mask);
+
+            const uint64_t threshold = (~bound + (uint64_t) 1) % bound;
+
+            while (true) {
+                uint64_t result = next_uint64();
+
+                if (all(result >= threshold))
+                    return result % bound;
+            }
+        } else {
+            const divisor_ext<uint64_t> div(bound);
+            const UInt64 threshold = (~bound + (uint64_t) 1) % div;
+
+            UInt64 result = zero<UInt64>();
+            do {
+                result[mask] = next_uint64(mask);
+
+                /* Keep track of which SIMD lanes have already
+                   finished and stops advancing the associated PRNGs */
+                mask &= result < threshold;
+            } while (any(mask));
+
+            return result % div;
+        }
+    }
+
+    /// Forward \ref next_uint_bounded call to the correct method based given type size
+    template <typename Value, enable_if_std_int_v<scalar_t<Value>> = 0>
+    ENOKI_INLINE Value next_uint_bounded(scalar_t<Value> bound,
+                                         const mask_t<Value> &mask = true) {
+        if constexpr (is_int64_v<scalar_t<Value>>)
+            return next_uint64_bounded(bound, mask);
+        else
+            return next_uint32_bounded(bound, mask);
+    }
+
+    /**
+     * \brief Multi-step advance function (jump-ahead, jump-back)
+     *
+     * The method used here is based on Brown, "Random Number Generation with
+     * Arbitrary Stride", Transactions of the American Nuclear Society (Nov.
+     * 1994). The algorithm is very similar to fast exponentiation.
+     */
+    void advance(const Int64 &delta_) {
+        UInt64 cur_mult = PCG32_MULT,
+               cur_plus = inc,
+               acc_mult = 1ull,
+               acc_plus = 0ull;
+
+        /* Even though delta is an unsigned integer, we can pass a signed
+           integer to go backwards, it just goes "the long way round". */
+        UInt64 delta(delta_);
+
+        while (delta != zero<UInt64>()) {
+            auto mask = neq(delta & UInt64(1), zero<UInt64>());
+            acc_mult = select(mask, acc_mult * cur_mult, acc_mult);
+            acc_plus = select(mask, acc_plus * cur_mult + cur_plus, acc_plus);
+            cur_plus = (cur_mult + UInt64(1)) * cur_plus;
+            cur_mult *= cur_mult;
+            delta = sr<1>(delta);
+        }
+
+        state = acc_mult * state + acc_plus;
+    }
+
+    /// Compute the distance between two PCG32 pseudorandom number generators
+    Int64 operator-(const PCG32 &other) const {
+        assert(inc == other.inc);
+
+        UInt64 cur_mult = PCG32_MULT,
+               cur_plus = inc,
+               cur_state = other.state,
+               the_bit = 1ull,
+               distance = 0ull;
+
+        while (state != cur_state) {
+            auto mask = neq(state & the_bit, cur_state & the_bit);
+            cur_state = select(mask, cur_state * cur_mult + cur_plus, cur_state);
+            distance = select(mask, distance | the_bit, distance);
+            assert((state & the_bit) == (cur_state & the_bit));
+            the_bit = sl<1>(the_bit);
+            cur_plus = (cur_mult + UInt64(1)) * cur_plus;
+            cur_mult *= cur_mult;
+        }
+
+        return Int64(distance);
+    }
+
+    /**
+     * \brief Draw uniformly distributed permutation and permute the
+     * given container
+     *
+     * From: Knuth, TAoCP Vol. 2 (3rd 3d), Section 3.4.2
+     */
+    template <typename Iterator, typename T2 = T,
+              enable_if_t<is_scalar_v<T2>> = 0>
+    void shuffle(Iterator begin, Iterator end) {
+        for (Iterator it = end - 1; it > begin; --it)
+            std::iter_swap(it, begin + next_uint32_bounded((uint32_t) (it - begin + 1)));
+    }
+
+    /// Equality operator
+    bool operator==(const PCG32 &other) const { return state == other.state && inc == other.inc; }
+
+    /// Inequality operator
+    bool operator!=(const PCG32 &other) const { return state != other.state || inc != other.inc; }
+
+    UInt64 state;  // RNG state.  All values are possible.
+    UInt64 inc;    // Controls which RNG sequence (stream) is selected. Must *always* be odd.
+};
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/sh.h b/sources/enoki/sh.h
new file mode 100644
index 00000000..0cbcb71c
--- /dev/null
+++ b/sources/enoki/sh.h
@@ -0,0 +1,843 @@
+/*
+    enoki/matrix.h -- Real spherical harmonics evaluation routines
+
+    The generated code is based on the paper `Efficient Spherical Harmonic
+    Evaluation, Journal of Computer Graphics Techniques (JCGT), vol. 2, no. 2,
+    84-90, 2013 by Peter-Pike Sloan
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include "array.h"
+
+NAMESPACE_BEGIN(enoki)
+
+template <typename Array>
+void sh_eval(const Array &d, size_t order, value_t<expr_t<Array>> *out) {
+    switch (order) {
+        case 0: sh_eval_0(d, out); break;
+        case 1: sh_eval_1(d, out); break;
+        case 2: sh_eval_2(d, out); break;
+        case 3: sh_eval_3(d, out); break;
+        case 4: sh_eval_4(d, out); break;
+        case 5: sh_eval_5(d, out); break;
+        case 6: sh_eval_6(d, out); break;
+        case 7: sh_eval_7(d, out); break;
+        case 8: sh_eval_8(d, out); break;
+        case 9: sh_eval_9(d, out); break;
+        default: throw std::runtime_error("sh_eval(): order too high!");
+    }
+}
+
+template <typename Array>
+void sh_eval_0(const Array &, value_t<expr_t<Array>> *out) {
+    static_assert(array_size_v<Array> == 3, "The parameter 'd' should be a 3D vector.");
+
+    using Value = value_t<expr_t<Array>>;
+    using Scalar = scalar_t<Value>;
+
+    store(out + 0, Value(Scalar(0.28209479177387814)));
+}
+
+template <typename Array>
+void sh_eval_1(const Array &d, value_t<expr_t<Array>> *out) {
+    static_assert(array_size_v<Array> == 3, "The parameter 'd' should be a 3D vector.");
+
+    using Value = value_t<expr_t<Array>>;
+    using Scalar = scalar_t<Value>;
+
+    Value x = d.x(), y = d.y(), z = d.z();
+    Value c0, s0, tmp_a;
+
+    store(out + 0, Value(Scalar(0.28209479177387814)));
+    store(out + 2, z * Scalar(0.488602511902919923));
+    c0 = x;
+    s0 = y;
+
+    tmp_a = Scalar(-0.488602511902919978);
+    store(out + 3, tmp_a * c0);
+    store(out + 1, tmp_a * s0);
+}
+
+template <typename Array>
+void sh_eval_2(const Array &d, value_t<expr_t<Array>> *out) {
+    static_assert(array_size_v<Array> == 3, "The parameter 'd' should be a 3D vector.");
+
+    using Value = value_t<expr_t<Array>>;
+    using Scalar = scalar_t<Value>;
+
+    Value x = d.x(), y = d.y(), z = d.z(), z2 = z * z;
+    Value c0, c1, s0, s1, tmp_a, tmp_b, tmp_c;
+
+    store(out + 0, Value(Scalar(0.28209479177387814)));
+    store(out + 2, z * Scalar(0.488602511902919923));
+    store(out + 6, fmadd(z2, Scalar(0.94617469575756008), Scalar(-0.315391565252520045)));
+    c0 = x;
+    s0 = y;
+
+    tmp_a = Scalar(-0.488602511902919978);
+    store(out + 3, tmp_a * c0);
+    store(out + 1, tmp_a * s0);
+    tmp_b = z * Scalar(-1.09254843059207896);
+    store(out + 7, tmp_b * c0);
+    store(out + 5, tmp_b * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_c = Scalar(0.546274215296039478);
+    store(out + 8, tmp_c * c1);
+    store(out + 4, tmp_c * s1);
+}
+
+template <typename Array>
+void sh_eval_3(const Array &d, value_t<expr_t<Array>> *out) {
+    static_assert(array_size_v<Array> == 3, "The parameter 'd' should be a 3D vector.");
+
+    using Value = value_t<expr_t<Array>>;
+    using Scalar = scalar_t<Value>;
+
+    Value x = d.x(), y = d.y(), z = d.z(), z2 = z * z;
+    Value c0, c1, s0, s1, tmp_a, tmp_b, tmp_c;
+
+    store(out + 0, Value(Scalar(0.28209479177387814)));
+    store(out + 2, z * Scalar(0.488602511902919923));
+    store(out + 6, fmadd(z2, Scalar(0.94617469575756008), Scalar(-0.315391565252520045)));
+    store(out + 12, z * fmadd(z2, Scalar(1.865881662950577), Scalar(-1.1195289977703462)));
+    c0 = x;
+    s0 = y;
+
+    tmp_a = Scalar(-0.488602511902919978);
+    store(out + 3, tmp_a * c0);
+    store(out + 1, tmp_a * s0);
+    tmp_b = z * Scalar(-1.09254843059207896);
+    store(out + 7, tmp_b * c0);
+    store(out + 5, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-2.28522899732232876), Scalar(0.457045799464465774));
+    store(out + 13, tmp_c * c0);
+    store(out + 11, tmp_c * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.546274215296039478);
+    store(out + 8, tmp_a * c1);
+    store(out + 4, tmp_a * s1);
+    tmp_b = z * Scalar(1.44530572132027735);
+    store(out + 14, tmp_b * c1);
+    store(out + 10, tmp_b * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_c = Scalar(-0.590043589926643519);
+    store(out + 15, tmp_c * c0);
+    store(out + 9, tmp_c * s0);
+}
+
+template <typename Array>
+void sh_eval_4(const Array &d, value_t<expr_t<Array>> *out) {
+    static_assert(array_size_v<Array> == 3, "The parameter 'd' should be a 3D vector.");
+
+    using Value = value_t<expr_t<Array>>;
+    using Scalar = scalar_t<Value>;
+
+    Value x = d.x(), y = d.y(), z = d.z(), z2 = z * z;
+    Value c0, c1, s0, s1, tmp_a, tmp_b, tmp_c;
+
+    store(out + 0, Value(Scalar(0.28209479177387814)));
+    store(out + 2, z * Scalar(0.488602511902919923));
+    store(out + 6, fmadd(z2, Scalar(0.94617469575756008), Scalar(-0.315391565252520045)));
+    store(out + 12, z * fmadd(z2, Scalar(1.865881662950577), Scalar(-1.1195289977703462)));
+    store(out + 20, fmadd(z * Scalar(1.98431348329844304), load<Value>(out + 12), load<Value>(out + 6) * Scalar(-1.00623058987490532)));
+    c0 = x;
+    s0 = y;
+
+    tmp_a = Scalar(-0.488602511902919978);
+    store(out + 3, tmp_a * c0);
+    store(out + 1, tmp_a * s0);
+    tmp_b = z * Scalar(-1.09254843059207896);
+    store(out + 7, tmp_b * c0);
+    store(out + 5, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-2.28522899732232876), Scalar(0.457045799464465774));
+    store(out + 13, tmp_c * c0);
+    store(out + 11, tmp_c * s0);
+    tmp_a = z * fmadd(z2, Scalar(-4.6833258049010249), Scalar(2.00713963067186763));
+    store(out + 21, tmp_a * c0);
+    store(out + 19, tmp_a * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.546274215296039478);
+    store(out + 8, tmp_a * c1);
+    store(out + 4, tmp_a * s1);
+    tmp_b = z * Scalar(1.44530572132027735);
+    store(out + 14, tmp_b * c1);
+    store(out + 10, tmp_b * s1);
+    tmp_c = fmadd(z2, Scalar(3.31161143515146028), Scalar(-0.473087347878779985));
+    store(out + 22, tmp_c * c1);
+    store(out + 18, tmp_c * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_a = Scalar(-0.590043589926643519);
+    store(out + 15, tmp_a * c0);
+    store(out + 9, tmp_a * s0);
+    tmp_b = z * Scalar(-1.77013076977993067);
+    store(out + 23, tmp_b * c0);
+    store(out + 17, tmp_b * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_c = Scalar(0.625835735449176256);
+    store(out + 24, tmp_c * c1);
+    store(out + 16, tmp_c * s1);
+}
+
+template <typename Array>
+void sh_eval_5(const Array &d, value_t<expr_t<Array>> *out) {
+    static_assert(array_size_v<Array> == 3, "The parameter 'd' should be a 3D vector.");
+
+    using Value = value_t<expr_t<Array>>;
+    using Scalar = scalar_t<Value>;
+
+    Value x = d.x(), y = d.y(), z = d.z(), z2 = z * z;
+    Value c0, c1, s0, s1, tmp_a, tmp_b, tmp_c;
+
+    store(out + 0, Value(Scalar(0.28209479177387814)));
+    store(out + 2, z * Scalar(0.488602511902919923));
+    store(out + 6, fmadd(z2, Scalar(0.94617469575756008), Scalar(-0.315391565252520045)));
+    store(out + 12, z * fmadd(z2, Scalar(1.865881662950577), Scalar(-1.1195289977703462)));
+    store(out + 20, fmadd(z * Scalar(1.98431348329844304), load<Value>(out + 12), load<Value>(out + 6) * Scalar(-1.00623058987490532)));
+    store(out + 30, fmadd(z * Scalar(1.98997487421323993), load<Value>(out + 20), load<Value>(out + 12) * Scalar(-1.00285307284481395)));
+    c0 = x;
+    s0 = y;
+
+    tmp_a = Scalar(-0.488602511902919978);
+    store(out + 3, tmp_a * c0);
+    store(out + 1, tmp_a * s0);
+    tmp_b = z * Scalar(-1.09254843059207896);
+    store(out + 7, tmp_b * c0);
+    store(out + 5, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-2.28522899732232876), Scalar(0.457045799464465774));
+    store(out + 13, tmp_c * c0);
+    store(out + 11, tmp_c * s0);
+    tmp_a = z * fmadd(z2, Scalar(-4.6833258049010249), Scalar(2.00713963067186763));
+    store(out + 21, tmp_a * c0);
+    store(out + 19, tmp_a * s0);
+    tmp_b = fmadd(z * Scalar(2.03100960115899021), tmp_a, tmp_c * Scalar(-0.991031208965114985));
+    store(out + 31, tmp_b * c0);
+    store(out + 29, tmp_b * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.546274215296039478);
+    store(out + 8, tmp_a * c1);
+    store(out + 4, tmp_a * s1);
+    tmp_b = z * Scalar(1.44530572132027735);
+    store(out + 14, tmp_b * c1);
+    store(out + 10, tmp_b * s1);
+    tmp_c = fmadd(z2, Scalar(3.31161143515146028), Scalar(-0.473087347878779985));
+    store(out + 22, tmp_c * c1);
+    store(out + 18, tmp_c * s1);
+    tmp_a = z * fmadd(z2, Scalar(7.19030517745998665), Scalar(-2.39676839248666207));
+    store(out + 32, tmp_a * c1);
+    store(out + 28, tmp_a * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_a = Scalar(-0.590043589926643519);
+    store(out + 15, tmp_a * c0);
+    store(out + 9, tmp_a * s0);
+    tmp_b = z * Scalar(-1.77013076977993067);
+    store(out + 23, tmp_b * c0);
+    store(out + 17, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-4.40314469491725369), Scalar(0.48923829943525049));
+    store(out + 33, tmp_c * c0);
+    store(out + 27, tmp_c * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.625835735449176256);
+    store(out + 24, tmp_a * c1);
+    store(out + 16, tmp_a * s1);
+    tmp_b = z * Scalar(2.07566231488104114);
+    store(out + 34, tmp_b * c1);
+    store(out + 26, tmp_b * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_c = Scalar(-0.656382056840170258);
+    store(out + 35, tmp_c * c0);
+    store(out + 25, tmp_c * s0);
+}
+
+template <typename Array>
+void sh_eval_6(const Array &d, value_t<expr_t<Array>> *out) {
+    static_assert(array_size_v<Array> == 3, "The parameter 'd' should be a 3D vector.");
+
+    using Value = value_t<expr_t<Array>>;
+    using Scalar = scalar_t<Value>;
+
+    Value x = d.x(), y = d.y(), z = d.z(), z2 = z * z;
+    Value c0, c1, s0, s1, tmp_a, tmp_b, tmp_c;
+
+    store(out + 0, Value(Scalar(0.28209479177387814)));
+    store(out + 2, z * Scalar(0.488602511902919923));
+    store(out + 6, fmadd(z2, Scalar(0.94617469575756008), Scalar(-0.315391565252520045)));
+    store(out + 12, z * fmadd(z2, Scalar(1.865881662950577), Scalar(-1.1195289977703462)));
+    store(out + 20, fmadd(z * Scalar(1.98431348329844304), load<Value>(out + 12), load<Value>(out + 6) * Scalar(-1.00623058987490532)));
+    store(out + 30, fmadd(z * Scalar(1.98997487421323993), load<Value>(out + 20), load<Value>(out + 12) * Scalar(-1.00285307284481395)));
+    store(out + 42, fmadd(z * Scalar(1.99304345718356646), load<Value>(out + 30), load<Value>(out + 20) * Scalar(-1.00154202096221923)));
+    c0 = x;
+    s0 = y;
+
+    tmp_a = Scalar(-0.488602511902919978);
+    store(out + 3, tmp_a * c0);
+    store(out + 1, tmp_a * s0);
+    tmp_b = z * Scalar(-1.09254843059207896);
+    store(out + 7, tmp_b * c0);
+    store(out + 5, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-2.28522899732232876), Scalar(0.457045799464465774));
+    store(out + 13, tmp_c * c0);
+    store(out + 11, tmp_c * s0);
+    tmp_a = z * fmadd(z2, Scalar(-4.6833258049010249), Scalar(2.00713963067186763));
+    store(out + 21, tmp_a * c0);
+    store(out + 19, tmp_a * s0);
+    tmp_b = fmadd(z * Scalar(2.03100960115899021), tmp_a, tmp_c * Scalar(-0.991031208965114985));
+    store(out + 31, tmp_b * c0);
+    store(out + 29, tmp_b * s0);
+    tmp_c = fmadd(z * Scalar(2.02131498923702768), tmp_b, tmp_a * Scalar(-0.995226703056238504));
+    store(out + 43, tmp_c * c0);
+    store(out + 41, tmp_c * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.546274215296039478);
+    store(out + 8, tmp_a * c1);
+    store(out + 4, tmp_a * s1);
+    tmp_b = z * Scalar(1.44530572132027735);
+    store(out + 14, tmp_b * c1);
+    store(out + 10, tmp_b * s1);
+    tmp_c = fmadd(z2, Scalar(3.31161143515146028), Scalar(-0.473087347878779985));
+    store(out + 22, tmp_c * c1);
+    store(out + 18, tmp_c * s1);
+    tmp_a = z * fmadd(z2, Scalar(7.19030517745998665), Scalar(-2.39676839248666207));
+    store(out + 32, tmp_a * c1);
+    store(out + 28, tmp_a * s1);
+    tmp_b = fmadd(z * Scalar(2.11394181566096995), tmp_a, tmp_c * Scalar(-0.973610120462326756));
+    store(out + 44, tmp_b * c1);
+    store(out + 40, tmp_b * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_a = Scalar(-0.590043589926643519);
+    store(out + 15, tmp_a * c0);
+    store(out + 9, tmp_a * s0);
+    tmp_b = z * Scalar(-1.77013076977993067);
+    store(out + 23, tmp_b * c0);
+    store(out + 17, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-4.40314469491725369), Scalar(0.48923829943525049));
+    store(out + 33, tmp_c * c0);
+    store(out + 27, tmp_c * s0);
+    tmp_a = z * fmadd(z2, Scalar(-10.1332578546641603), Scalar(2.76361577854477058));
+    store(out + 45, tmp_a * c0);
+    store(out + 39, tmp_a * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.625835735449176256);
+    store(out + 24, tmp_a * c1);
+    store(out + 16, tmp_a * s1);
+    tmp_b = z * Scalar(2.07566231488104114);
+    store(out + 34, tmp_b * c1);
+    store(out + 26, tmp_b * s1);
+    tmp_c = fmadd(z2, Scalar(5.55021390801596581), Scalar(-0.504564900728724064));
+    store(out + 46, tmp_c * c1);
+    store(out + 38, tmp_c * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_a = Scalar(-0.656382056840170258);
+    store(out + 35, tmp_a * c0);
+    store(out + 25, tmp_a * s0);
+    tmp_b = z * Scalar(-2.3666191622317525);
+    store(out + 47, tmp_b * c0);
+    store(out + 37, tmp_b * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_c = Scalar(0.683184105191914415);
+    store(out + 48, tmp_c * c1);
+    store(out + 36, tmp_c * s1);
+}
+
+template <typename Array>
+void sh_eval_7(const Array &d, value_t<expr_t<Array>> *out) {
+    static_assert(array_size_v<Array> == 3, "The parameter 'd' should be a 3D vector.");
+
+    using Value = value_t<expr_t<Array>>;
+    using Scalar = scalar_t<Value>;
+
+    Value x = d.x(), y = d.y(), z = d.z(), z2 = z * z;
+    Value c0, c1, s0, s1, tmp_a, tmp_b, tmp_c;
+
+    store(out + 0, Value(Scalar(0.28209479177387814)));
+    store(out + 2, z * Scalar(0.488602511902919923));
+    store(out + 6, fmadd(z2, Scalar(0.94617469575756008), Scalar(-0.315391565252520045)));
+    store(out + 12, z * fmadd(z2, Scalar(1.865881662950577), Scalar(-1.1195289977703462)));
+    store(out + 20, fmadd(z * Scalar(1.98431348329844304), load<Value>(out + 12), load<Value>(out + 6) * Scalar(-1.00623058987490532)));
+    store(out + 30, fmadd(z * Scalar(1.98997487421323993), load<Value>(out + 20), load<Value>(out + 12) * Scalar(-1.00285307284481395)));
+    store(out + 42, fmadd(z * Scalar(1.99304345718356646), load<Value>(out + 30), load<Value>(out + 20) * Scalar(-1.00154202096221923)));
+    store(out + 56, fmadd(z * Scalar(1.99489143482413467), load<Value>(out + 42), load<Value>(out + 30) * Scalar(-1.00092721392195827)));
+    c0 = x;
+    s0 = y;
+
+    tmp_a = Scalar(-0.488602511902919978);
+    store(out + 3, tmp_a * c0);
+    store(out + 1, tmp_a * s0);
+    tmp_b = z * Scalar(-1.09254843059207896);
+    store(out + 7, tmp_b * c0);
+    store(out + 5, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-2.28522899732232876), Scalar(0.457045799464465774));
+    store(out + 13, tmp_c * c0);
+    store(out + 11, tmp_c * s0);
+    tmp_a = z * fmadd(z2, Scalar(-4.6833258049010249), Scalar(2.00713963067186763));
+    store(out + 21, tmp_a * c0);
+    store(out + 19, tmp_a * s0);
+    tmp_b = fmadd(z * Scalar(2.03100960115899021), tmp_a, tmp_c * Scalar(-0.991031208965114985));
+    store(out + 31, tmp_b * c0);
+    store(out + 29, tmp_b * s0);
+    tmp_c = fmadd(z * Scalar(2.02131498923702768), tmp_b, tmp_a * Scalar(-0.995226703056238504));
+    store(out + 43, tmp_c * c0);
+    store(out + 41, tmp_c * s0);
+    tmp_a = fmadd(z * Scalar(2.01556443707463773), tmp_c, tmp_b * Scalar(-0.99715504402183186));
+    store(out + 57, tmp_a * c0);
+    store(out + 55, tmp_a * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.546274215296039478);
+    store(out + 8, tmp_a * c1);
+    store(out + 4, tmp_a * s1);
+    tmp_b = z * Scalar(1.44530572132027735);
+    store(out + 14, tmp_b * c1);
+    store(out + 10, tmp_b * s1);
+    tmp_c = fmadd(z2, Scalar(3.31161143515146028), Scalar(-0.473087347878779985));
+    store(out + 22, tmp_c * c1);
+    store(out + 18, tmp_c * s1);
+    tmp_a = z * fmadd(z2, Scalar(7.19030517745998665), Scalar(-2.39676839248666207));
+    store(out + 32, tmp_a * c1);
+    store(out + 28, tmp_a * s1);
+    tmp_b = fmadd(z * Scalar(2.11394181566096995), tmp_a, tmp_c * Scalar(-0.973610120462326756));
+    store(out + 44, tmp_b * c1);
+    store(out + 40, tmp_b * s1);
+    tmp_c = fmadd(z * Scalar(2.08166599946613307), tmp_b, tmp_a * Scalar(-0.984731927834661791));
+    store(out + 58, tmp_c * c1);
+    store(out + 54, tmp_c * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_a = Scalar(-0.590043589926643519);
+    store(out + 15, tmp_a * c0);
+    store(out + 9, tmp_a * s0);
+    tmp_b = z * Scalar(-1.77013076977993067);
+    store(out + 23, tmp_b * c0);
+    store(out + 17, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-4.40314469491725369), Scalar(0.48923829943525049));
+    store(out + 33, tmp_c * c0);
+    store(out + 27, tmp_c * s0);
+    tmp_a = z * fmadd(z2, Scalar(-10.1332578546641603), Scalar(2.76361577854477058));
+    store(out + 45, tmp_a * c0);
+    store(out + 39, tmp_a * s0);
+    tmp_b = fmadd(z * Scalar(2.20794021658196149), tmp_a, tmp_c * Scalar(-0.95940322360024699));
+    store(out + 59, tmp_b * c0);
+    store(out + 53, tmp_b * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.625835735449176256);
+    store(out + 24, tmp_a * c1);
+    store(out + 16, tmp_a * s1);
+    tmp_b = z * Scalar(2.07566231488104114);
+    store(out + 34, tmp_b * c1);
+    store(out + 26, tmp_b * s1);
+    tmp_c = fmadd(z2, Scalar(5.55021390801596581), Scalar(-0.504564900728724064));
+    store(out + 46, tmp_c * c1);
+    store(out + 38, tmp_c * s1);
+    tmp_a = z * fmadd(z2, Scalar(13.4918050467267694), Scalar(-3.11349347232156193));
+    store(out + 60, tmp_a * c1);
+    store(out + 52, tmp_a * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_a = Scalar(-0.656382056840170258);
+    store(out + 35, tmp_a * c0);
+    store(out + 25, tmp_a * s0);
+    tmp_b = z * Scalar(-2.3666191622317525);
+    store(out + 47, tmp_b * c0);
+    store(out + 37, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-6.7459025233633847), Scalar(0.518915578720260395));
+    store(out + 61, tmp_c * c0);
+    store(out + 51, tmp_c * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.683184105191914415);
+    store(out + 48, tmp_a * c1);
+    store(out + 36, tmp_a * s1);
+    tmp_b = z * Scalar(2.64596066180190048);
+    store(out + 62, tmp_b * c1);
+    store(out + 50, tmp_b * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_c = Scalar(-0.707162732524596271);
+    store(out + 63, tmp_c * c0);
+    store(out + 49, tmp_c * s0);
+}
+
+template <typename Array>
+void sh_eval_8(const Array &d, value_t<expr_t<Array>> *out) {
+    static_assert(array_size_v<Array> == 3, "The parameter 'd' should be a 3D vector.");
+
+    using Value = value_t<expr_t<Array>>;
+    using Scalar = scalar_t<Value>;
+
+    Value x = d.x(), y = d.y(), z = d.z(), z2 = z * z;
+    Value c0, c1, s0, s1, tmp_a, tmp_b, tmp_c;
+
+    store(out + 0, Value(Scalar(0.28209479177387814)));
+    store(out + 2, z * Scalar(0.488602511902919923));
+    store(out + 6, fmadd(z2, Scalar(0.94617469575756008), Scalar(-0.315391565252520045)));
+    store(out + 12, z * fmadd(z2, Scalar(1.865881662950577), Scalar(-1.1195289977703462)));
+    store(out + 20, fmadd(z * Scalar(1.98431348329844304), load<Value>(out + 12), load<Value>(out + 6) * Scalar(-1.00623058987490532)));
+    store(out + 30, fmadd(z * Scalar(1.98997487421323993), load<Value>(out + 20), load<Value>(out + 12) * Scalar(-1.00285307284481395)));
+    store(out + 42, fmadd(z * Scalar(1.99304345718356646), load<Value>(out + 30), load<Value>(out + 20) * Scalar(-1.00154202096221923)));
+    store(out + 56, fmadd(z * Scalar(1.99489143482413467), load<Value>(out + 42), load<Value>(out + 30) * Scalar(-1.00092721392195827)));
+    store(out + 72, fmadd(z * Scalar(1.9960899278339137), load<Value>(out + 56), load<Value>(out + 42) * Scalar(-1.00060078106951478)));
+    c0 = x;
+    s0 = y;
+
+    tmp_a = Scalar(-0.488602511902919978);
+    store(out + 3, tmp_a * c0);
+    store(out + 1, tmp_a * s0);
+    tmp_b = z * Scalar(-1.09254843059207896);
+    store(out + 7, tmp_b * c0);
+    store(out + 5, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-2.28522899732232876), Scalar(0.457045799464465774));
+    store(out + 13, tmp_c * c0);
+    store(out + 11, tmp_c * s0);
+    tmp_a = z * fmadd(z2, Scalar(-4.6833258049010249), Scalar(2.00713963067186763));
+    store(out + 21, tmp_a * c0);
+    store(out + 19, tmp_a * s0);
+    tmp_b = fmadd(z * Scalar(2.03100960115899021), tmp_a, tmp_c * Scalar(-0.991031208965114985));
+    store(out + 31, tmp_b * c0);
+    store(out + 29, tmp_b * s0);
+    tmp_c = fmadd(z * Scalar(2.02131498923702768), tmp_b, tmp_a * Scalar(-0.995226703056238504));
+    store(out + 43, tmp_c * c0);
+    store(out + 41, tmp_c * s0);
+    tmp_a = fmadd(z * Scalar(2.01556443707463773), tmp_c, tmp_b * Scalar(-0.99715504402183186));
+    store(out + 57, tmp_a * c0);
+    store(out + 55, tmp_a * s0);
+    tmp_b = fmadd(z * Scalar(2.01186954040739119), tmp_a, tmp_c * Scalar(-0.998166817890174474));
+    store(out + 73, tmp_b * c0);
+    store(out + 71, tmp_b * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.546274215296039478);
+    store(out + 8, tmp_a * c1);
+    store(out + 4, tmp_a * s1);
+    tmp_b = z * Scalar(1.44530572132027735);
+    store(out + 14, tmp_b * c1);
+    store(out + 10, tmp_b * s1);
+    tmp_c = fmadd(z2, Scalar(3.31161143515146028), Scalar(-0.473087347878779985));
+    store(out + 22, tmp_c * c1);
+    store(out + 18, tmp_c * s1);
+    tmp_a = z * fmadd(z2, Scalar(7.19030517745998665), Scalar(-2.39676839248666207));
+    store(out + 32, tmp_a * c1);
+    store(out + 28, tmp_a * s1);
+    tmp_b = fmadd(z * Scalar(2.11394181566096995), tmp_a, tmp_c * Scalar(-0.973610120462326756));
+    store(out + 44, tmp_b * c1);
+    store(out + 40, tmp_b * s1);
+    tmp_c = fmadd(z * Scalar(2.08166599946613307), tmp_b, tmp_a * Scalar(-0.984731927834661791));
+    store(out + 58, tmp_c * c1);
+    store(out + 54, tmp_c * s1);
+    tmp_a = fmadd(z * Scalar(2.06155281280883029), tmp_c, tmp_b * Scalar(-0.990337937660287326));
+    store(out + 74, tmp_a * c1);
+    store(out + 70, tmp_a * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_a = Scalar(-0.590043589926643519);
+    store(out + 15, tmp_a * c0);
+    store(out + 9, tmp_a * s0);
+    tmp_b = z * Scalar(-1.77013076977993067);
+    store(out + 23, tmp_b * c0);
+    store(out + 17, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-4.40314469491725369), Scalar(0.48923829943525049));
+    store(out + 33, tmp_c * c0);
+    store(out + 27, tmp_c * s0);
+    tmp_a = z * fmadd(z2, Scalar(-10.1332578546641603), Scalar(2.76361577854477058));
+    store(out + 45, tmp_a * c0);
+    store(out + 39, tmp_a * s0);
+    tmp_b = fmadd(z * Scalar(2.20794021658196149), tmp_a, tmp_c * Scalar(-0.95940322360024699));
+    store(out + 59, tmp_b * c0);
+    store(out + 53, tmp_b * s0);
+    tmp_c = fmadd(z * Scalar(2.15322168769582012), tmp_b, tmp_a * Scalar(-0.975217386560017774));
+    store(out + 75, tmp_c * c0);
+    store(out + 69, tmp_c * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.625835735449176256);
+    store(out + 24, tmp_a * c1);
+    store(out + 16, tmp_a * s1);
+    tmp_b = z * Scalar(2.07566231488104114);
+    store(out + 34, tmp_b * c1);
+    store(out + 26, tmp_b * s1);
+    tmp_c = fmadd(z2, Scalar(5.55021390801596581), Scalar(-0.504564900728724064));
+    store(out + 46, tmp_c * c1);
+    store(out + 38, tmp_c * s1);
+    tmp_a = z * fmadd(z2, Scalar(13.4918050467267694), Scalar(-3.11349347232156193));
+    store(out + 60, tmp_a * c1);
+    store(out + 52, tmp_a * s1);
+    tmp_b = fmadd(z * Scalar(2.30488611432322132), tmp_a, tmp_c * Scalar(-0.948176387355465389));
+    store(out + 76, tmp_b * c1);
+    store(out + 68, tmp_b * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_a = Scalar(-0.656382056840170258);
+    store(out + 35, tmp_a * c0);
+    store(out + 25, tmp_a * s0);
+    tmp_b = z * Scalar(-2.3666191622317525);
+    store(out + 47, tmp_b * c0);
+    store(out + 37, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-6.7459025233633847), Scalar(0.518915578720260395));
+    store(out + 61, tmp_c * c0);
+    store(out + 51, tmp_c * s0);
+    tmp_a = z * fmadd(z2, Scalar(-17.2495531104905417), Scalar(3.44991062209810817));
+    store(out + 77, tmp_a * c0);
+    store(out + 67, tmp_a * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.683184105191914415);
+    store(out + 48, tmp_a * c1);
+    store(out + 36, tmp_a * s1);
+    tmp_b = z * Scalar(2.64596066180190048);
+    store(out + 62, tmp_b * c1);
+    store(out + 50, tmp_b * s1);
+    tmp_c = fmadd(z2, Scalar(7.98499149089313942), Scalar(-0.532332766059542606));
+    store(out + 78, tmp_c * c1);
+    store(out + 66, tmp_c * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_a = Scalar(-0.707162732524596271);
+    store(out + 63, tmp_a * c0);
+    store(out + 49, tmp_a * s0);
+    tmp_b = z * Scalar(-2.91570664069931995);
+    store(out + 79, tmp_b * c0);
+    store(out + 65, tmp_b * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_c = Scalar(0.728926660174829988);
+    store(out + 80, tmp_c * c1);
+    store(out + 64, tmp_c * s1);
+}
+
+template <typename Array>
+void sh_eval_9(const Array &d, value_t<expr_t<Array>> *out) {
+    static_assert(array_size_v<Array> == 3, "The parameter 'd' should be a 3D vector.");
+
+    using Value = value_t<expr_t<Array>>;
+    using Scalar = scalar_t<Value>;
+
+    Value x = d.x(), y = d.y(), z = d.z(), z2 = z * z;
+    Value c0, c1, s0, s1, tmp_a, tmp_b, tmp_c;
+
+    store(out + 0, Value(Scalar(0.28209479177387814)));
+    store(out + 2, z * Scalar(0.488602511902919923));
+    store(out + 6, fmadd(z2, Scalar(0.94617469575756008), Scalar(-0.315391565252520045)));
+    store(out + 12, z * fmadd(z2, Scalar(1.865881662950577), Scalar(-1.1195289977703462)));
+    store(out + 20, fmadd(z * Scalar(1.98431348329844304), load<Value>(out + 12), load<Value>(out + 6) * Scalar(-1.00623058987490532)));
+    store(out + 30, fmadd(z * Scalar(1.98997487421323993), load<Value>(out + 20), load<Value>(out + 12) * Scalar(-1.00285307284481395)));
+    store(out + 42, fmadd(z * Scalar(1.99304345718356646), load<Value>(out + 30), load<Value>(out + 20) * Scalar(-1.00154202096221923)));
+    store(out + 56, fmadd(z * Scalar(1.99489143482413467), load<Value>(out + 42), load<Value>(out + 30) * Scalar(-1.00092721392195827)));
+    store(out + 72, fmadd(z * Scalar(1.9960899278339137), load<Value>(out + 56), load<Value>(out + 42) * Scalar(-1.00060078106951478)));
+    store(out + 90, fmadd(z * Scalar(1.99691119506793657), load<Value>(out + 72), load<Value>(out + 56) * Scalar(-1.0004114379931337)));
+    c0 = x;
+    s0 = y;
+
+    tmp_a = Scalar(-0.488602511902919978);
+    store(out + 3, tmp_a * c0);
+    store(out + 1, tmp_a * s0);
+    tmp_b = z * Scalar(-1.09254843059207896);
+    store(out + 7, tmp_b * c0);
+    store(out + 5, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-2.28522899732232876), Scalar(0.457045799464465774));
+    store(out + 13, tmp_c * c0);
+    store(out + 11, tmp_c * s0);
+    tmp_a = z * fmadd(z2, Scalar(-4.6833258049010249), Scalar(2.00713963067186763));
+    store(out + 21, tmp_a * c0);
+    store(out + 19, tmp_a * s0);
+    tmp_b = fmadd(z * Scalar(2.03100960115899021), tmp_a, tmp_c * Scalar(-0.991031208965114985));
+    store(out + 31, tmp_b * c0);
+    store(out + 29, tmp_b * s0);
+    tmp_c = fmadd(z * Scalar(2.02131498923702768), tmp_b, tmp_a * Scalar(-0.995226703056238504));
+    store(out + 43, tmp_c * c0);
+    store(out + 41, tmp_c * s0);
+    tmp_a = fmadd(z * Scalar(2.01556443707463773), tmp_c, tmp_b * Scalar(-0.99715504402183186));
+    store(out + 57, tmp_a * c0);
+    store(out + 55, tmp_a * s0);
+    tmp_b = fmadd(z * Scalar(2.01186954040739119), tmp_a, tmp_c * Scalar(-0.998166817890174474));
+    store(out + 73, tmp_b * c0);
+    store(out + 71, tmp_b * s0);
+    tmp_c = fmadd(z * Scalar(2.00935312974101166), tmp_b, tmp_a * Scalar(-0.998749217771908837));
+    store(out + 91, tmp_c * c0);
+    store(out + 89, tmp_c * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.546274215296039478);
+    store(out + 8, tmp_a * c1);
+    store(out + 4, tmp_a * s1);
+    tmp_b = z * Scalar(1.44530572132027735);
+    store(out + 14, tmp_b * c1);
+    store(out + 10, tmp_b * s1);
+    tmp_c = fmadd(z2, Scalar(3.31161143515146028), Scalar(-0.473087347878779985));
+    store(out + 22, tmp_c * c1);
+    store(out + 18, tmp_c * s1);
+    tmp_a = z * fmadd(z2, Scalar(7.19030517745998665), Scalar(-2.39676839248666207));
+    store(out + 32, tmp_a * c1);
+    store(out + 28, tmp_a * s1);
+    tmp_b = fmadd(z * Scalar(2.11394181566096995), tmp_a, tmp_c * Scalar(-0.973610120462326756));
+    store(out + 44, tmp_b * c1);
+    store(out + 40, tmp_b * s1);
+    tmp_c = fmadd(z * Scalar(2.08166599946613307), tmp_b, tmp_a * Scalar(-0.984731927834661791));
+    store(out + 58, tmp_c * c1);
+    store(out + 54, tmp_c * s1);
+    tmp_a = fmadd(z * Scalar(2.06155281280883029), tmp_c, tmp_b * Scalar(-0.990337937660287326));
+    store(out + 74, tmp_a * c1);
+    store(out + 70, tmp_a * s1);
+    tmp_b = fmadd(z * Scalar(2.04812235835781919), tmp_a, tmp_c * Scalar(-0.993485272670404207));
+    store(out + 92, tmp_b * c1);
+    store(out + 88, tmp_b * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_a = Scalar(-0.590043589926643519);
+    store(out + 15, tmp_a * c0);
+    store(out + 9, tmp_a * s0);
+    tmp_b = z * Scalar(-1.77013076977993067);
+    store(out + 23, tmp_b * c0);
+    store(out + 17, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-4.40314469491725369), Scalar(0.48923829943525049));
+    store(out + 33, tmp_c * c0);
+    store(out + 27, tmp_c * s0);
+    tmp_a = z * fmadd(z2, Scalar(-10.1332578546641603), Scalar(2.76361577854477058));
+    store(out + 45, tmp_a * c0);
+    store(out + 39, tmp_a * s0);
+    tmp_b = fmadd(z * Scalar(2.20794021658196149), tmp_a, tmp_c * Scalar(-0.95940322360024699));
+    store(out + 59, tmp_b * c0);
+    store(out + 53, tmp_b * s0);
+    tmp_c = fmadd(z * Scalar(2.15322168769582012), tmp_b, tmp_a * Scalar(-0.975217386560017774));
+    store(out + 75, tmp_c * c0);
+    store(out + 69, tmp_c * s0);
+    tmp_a = fmadd(z * Scalar(2.11804417118980526), tmp_c, tmp_b * Scalar(-0.983662844979209416));
+    store(out + 93, tmp_a * c0);
+    store(out + 87, tmp_a * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.625835735449176256);
+    store(out + 24, tmp_a * c1);
+    store(out + 16, tmp_a * s1);
+    tmp_b = z * Scalar(2.07566231488104114);
+    store(out + 34, tmp_b * c1);
+    store(out + 26, tmp_b * s1);
+    tmp_c = fmadd(z2, Scalar(5.55021390801596581), Scalar(-0.504564900728724064));
+    store(out + 46, tmp_c * c1);
+    store(out + 38, tmp_c * s1);
+    tmp_a = z * fmadd(z2, Scalar(13.4918050467267694), Scalar(-3.11349347232156193));
+    store(out + 60, tmp_a * c1);
+    store(out + 52, tmp_a * s1);
+    tmp_b = fmadd(z * Scalar(2.30488611432322132), tmp_a, tmp_c * Scalar(-0.948176387355465389));
+    store(out + 76, tmp_b * c1);
+    store(out + 68, tmp_b * s1);
+    tmp_c = fmadd(z * Scalar(2.22917715070623501), tmp_b, tmp_a * Scalar(-0.967152839723182112));
+    store(out + 94, tmp_c * c1);
+    store(out + 86, tmp_c * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_a = Scalar(-0.656382056840170258);
+    store(out + 35, tmp_a * c0);
+    store(out + 25, tmp_a * s0);
+    tmp_b = z * Scalar(-2.3666191622317525);
+    store(out + 47, tmp_b * c0);
+    store(out + 37, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-6.7459025233633847), Scalar(0.518915578720260395));
+    store(out + 61, tmp_c * c0);
+    store(out + 51, tmp_c * s0);
+    tmp_a = z * fmadd(z2, Scalar(-17.2495531104905417), Scalar(3.44991062209810817));
+    store(out + 77, tmp_a * c0);
+    store(out + 67, tmp_a * s0);
+    tmp_b = fmadd(z * Scalar(2.40163634692206163), tmp_a, tmp_c * Scalar(-0.939224604204370817));
+    store(out + 95, tmp_b * c0);
+    store(out + 85, tmp_b * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.683184105191914415);
+    store(out + 48, tmp_a * c1);
+    store(out + 36, tmp_a * s1);
+    tmp_b = z * Scalar(2.64596066180190048);
+    store(out + 62, tmp_b * c1);
+    store(out + 50, tmp_b * s1);
+    tmp_c = fmadd(z2, Scalar(7.98499149089313942), Scalar(-0.532332766059542606));
+    store(out + 78, tmp_c * c1);
+    store(out + 66, tmp_c * s1);
+    tmp_a = z * fmadd(z2, Scalar(21.3928901909086377), Scalar(-3.77521591604270101));
+    store(out + 96, tmp_a * c1);
+    store(out + 84, tmp_a * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_a = Scalar(-0.707162732524596271);
+    store(out + 63, tmp_a * c0);
+    store(out + 49, tmp_a * s0);
+    tmp_b = z * Scalar(-2.91570664069931995);
+    store(out + 79, tmp_b * c0);
+    store(out + 65, tmp_b * s0);
+    tmp_c = fmadd(z2, Scalar(-9.26339318284890467), Scalar(0.544905481344053255));
+    store(out + 97, tmp_c * c0);
+    store(out + 83, tmp_c * s0);
+    c1 = fmsub(x, c0, y * s0);
+    s1 = fmadd(x, s0, y * c0);
+
+    tmp_a = Scalar(0.728926660174829988);
+    store(out + 80, tmp_a * c1);
+    store(out + 64, tmp_a * s1);
+    tmp_b = z * Scalar(3.17731764895469793);
+    store(out + 98, tmp_b * c1);
+    store(out + 82, tmp_b * s1);
+    c0 = fmsub(x, c1, y * s1);
+    s0 = fmadd(x, s1, y * c1);
+
+    tmp_c = Scalar(-0.74890095185318839);
+    store(out + 99, tmp_c * c0);
+    store(out + 81, tmp_c * s0);
+}
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/special.h b/sources/enoki/special.h
new file mode 100644
index 00000000..c7cfa775
--- /dev/null
+++ b/sources/enoki/special.h
@@ -0,0 +1,675 @@
+/*
+    enoki/special.h -- Special functions: Bessel functions, Elliptic
+    and exponential integrals, etc. (still incomplete)
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#include <enoki/array.h>
+
+#pragma once
+
+NAMESPACE_BEGIN(enoki)
+
+/// Evaluates a series of Chebyshev polynomials at argument x/2.
+template <typename T, typename T2, size_t Size,
+          typename Expr = expr_t<T>> Expr chbevl(const T &x, T2 (&coeffs)[Size]) {
+    using Scalar = scalar_t<Expr>;
+
+    Expr b0 = Scalar(coeffs[0]);
+    Expr b1 = Scalar(0);
+    Expr b2;
+
+    ENOKI_UNROLL for (size_t i = 0; i < Size; ++i) {
+        b2 = b1;
+        b1 = b0;
+        b0 = fmsub(x, b1, b2 - Scalar(coeffs[i]));
+    }
+
+    return (b0 - b2) * Scalar(0.5f);
+}
+
+template <typename T, enable_if_not_array_t<T> = 0> T erf(const T &x) {
+    return std::erf(x);
+}
+
+
+template <typename T, enable_if_not_array_t<T> = 0> T erfc(const T &x) {
+    return std::erfc(x);
+}
+
+template <typename T, bool Recurse = true, typename Expr = expr_t<T>,
+          enable_if_array_t<T> = 0>
+Expr erfc(const T &x);
+
+template <typename T, bool Recurse = true, typename Expr = expr_t<T>,
+          enable_if_array_t<T> = 0>
+Expr erf(const T &x);
+
+template <typename T, bool Recurse, typename Expr, enable_if_array_t<T>>
+Expr erfc(const T &x) {
+    constexpr bool Single = std::is_same_v<scalar_t<T>, float>;
+    using Scalar = scalar_t<T>;
+
+    Expr r;
+    Expr xa = abs(x),
+         z  = exp(-x*x);
+
+    auto erf_mask   = xa < Scalar(1),
+         large_mask = xa > Scalar(Single ? 2 : 8);
+
+    ENOKI_MARK_USED(erf_mask);
+
+    if constexpr (Single) {
+        Expr q  = rcp(xa),
+             y  = q*q, p_small, p_large;
+
+        if (is_cuda_array_v<Expr> || !all_nested(large_mask))
+            p_small = poly8(y, 5.638259427386472e-1, -2.741127028184656e-1,
+                               3.404879937665872e-1, -4.944515323274145e-1,
+                               6.210004621745983e-1, -5.824733027278666e-1,
+                               3.687424674597105e-1, -1.387039388740657e-1,
+                               2.326819970068386e-2);
+
+        if (is_cuda_array_v<Expr> || any_nested(large_mask))
+            p_large = poly7(y, 5.641895067754075e-1, -2.820767439740514e-1,
+                               4.218463358204948e-1, -1.015265279202700e+0,
+                               2.921019019210786e+0, -7.495518717768503e+0,
+                               1.297719955372516e+1, -1.047766399936249e+1);
+        r = z * q * select(large_mask, p_large, p_small);
+    } else {
+        Expr p_small, p_large, q_small, q_large;
+
+        if (is_cuda_array_v<Expr> || !all_nested(large_mask)) {
+            p_small = poly8(xa, 5.57535335369399327526e2, 1.02755188689515710272e3,
+                                9.34528527171957607540e2, 5.26445194995477358631e2,
+                                1.96520832956077098242e2, 4.86371970985681366614e1,
+                                7.46321056442269912687e0, 5.64189564831068821977e-1,
+                                2.46196981473530512524e-10);
+
+            q_small = poly8(xa, 5.57535340817727675546e2, 1.65666309194161350182e3,
+                                2.24633760818710981792e3, 1.82390916687909736289e3,
+                                9.75708501743205489753e2, 3.54937778887819891062e2,
+                                8.67072140885989742329e1, 1.32281951154744992508e1,
+                                1.00000000000000000000e0);
+        }
+
+
+        if (is_cuda_array_v<Expr> || any_nested(large_mask)) {
+            p_large = poly5(xa, 2.97886665372100240670e0, 7.40974269950448939160e0,
+                                6.16021097993053585195e0, 5.01905042251180477414e0,
+                                1.27536670759978104416e0, 5.64189583547755073984e-1);
+
+            q_large = poly6(xa, 3.36907645100081516050e0, 9.60896809063285878198e0,
+                                1.70814450747565897222e1, 1.20489539808096656605e1,
+                                9.39603524938001434673e0, 2.26052863220117276590e0,
+                                1.00000000000000000000e0);
+        }
+
+        r = (z * select(large_mask, p_large, p_small)) /
+                 select(large_mask, q_large, q_small);
+
+        r &= neq(z, zero<Expr>());
+    }
+
+    r[x < Scalar(0)] = Scalar(2) - r;
+
+    if constexpr (Recurse) {
+        if (ENOKI_UNLIKELY(is_cuda_array_v<Expr> || any_nested(erf_mask)))
+            r[erf_mask] = Scalar(1) - erf<T, false>(x);
+    }
+    return r;
+}
+
+template <typename T, bool Recurse, typename Expr, enable_if_array_t<T>>
+Expr erf(const T &x) {
+    using Scalar = scalar_t<T>;
+
+    Expr r;
+    auto erfc_mask = abs(x) > Scalar(1);
+    ENOKI_MARK_USED(erfc_mask);
+
+    Expr z = x * x;
+
+    constexpr bool Single = std::is_same_v<scalar_t<T>, float>;
+    if constexpr (Single) {
+        r = poly6(z, 1.128379165726710e+0, -3.761262582423300e-1,
+                     1.128358514861418e-1, -2.685381193529856e-2,
+                     5.188327685732524e-3, -8.010193625184903e-4,
+                     7.853861353153693e-5);
+    } else {
+        r = poly4(z, 5.55923013010394962768e4, 7.00332514112805075473e3,
+                     2.23200534594684319226e3, 9.00260197203842689217e1,
+                     9.60497373987051638749e0) /
+            poly5(z, 4.92673942608635921086e4, 2.26290000613890934246e4,
+                     4.59432382970980127987e3, 5.21357949780152679795e2,
+                     3.35617141647503099647e1, 1.00000000000000000000e0);
+    }
+
+    r *= x;
+
+    if constexpr (Recurse) {
+        if (ENOKI_UNLIKELY(is_cuda_array_v<Expr> || any_nested(erfc_mask)))
+            r[erfc_mask] = Scalar(1) - erfc<T, false>(x);
+    }
+
+    return r;
+}
+
+
+/// Modified Bessel function of the first kind, order zero (exponentially scaled)
+template <typename T, typename Expr = expr_t<T>> Expr i0e(const T &x_) {
+    using Scalar = scalar_t<T>;
+
+    /* Chebyshev coefficients for exp(-x) I0(x)
+     * in the interval [0,8].
+     *
+     * lim(x->0) { exp(-x) I0(x) } = 1.
+     */
+
+    static Scalar A[] = {
+        Scalar(-1.30002500998624804212E-8), Scalar(6.04699502254191894932E-8),
+        Scalar(-2.67079385394061173391E-7), Scalar(1.11738753912010371815E-6),
+        Scalar(-4.41673835845875056359E-6), Scalar(1.64484480707288970893E-5),
+        Scalar(-5.75419501008210370398E-5), Scalar(1.88502885095841655729E-4),
+        Scalar(-5.76375574538582365885E-4), Scalar(1.63947561694133579842E-3),
+        Scalar(-4.32430999505057594430E-3), Scalar(1.05464603945949983183E-2),
+        Scalar(-2.37374148058994688156E-2), Scalar(4.93052842396707084878E-2),
+        Scalar(-9.49010970480476444210E-2), Scalar(1.71620901522208775349E-1),
+        Scalar(-3.04682672343198398683E-1), Scalar(6.76795274409476084995E-1)
+    };
+
+
+    /* Chebyshev coefficients for exp(-x) sqrt(x) I0(x)
+     * in the inverted interval [8,infinity].
+     *
+     * lim(x->inf) { exp(-x) sqrt(x) I0(x) } = 1/sqrt(2pi).
+     */
+
+    static Scalar B[] = {
+        Scalar(3.39623202570838634515E-9), Scalar(2.26666899049817806459E-8),
+        Scalar(2.04891858946906374183E-7), Scalar(2.89137052083475648297E-6),
+        Scalar(6.88975834691682398426E-5), Scalar(3.36911647825569408990E-3),
+        Scalar(8.04490411014108831608E-1)
+    };
+
+
+    Expr x = abs(x_);
+
+    auto mask_big = x > Scalar(8);
+
+    Expr r_big, r_small;
+
+    if (!all_nested(mask_big))
+        r_small = chbevl(fmsub(x, Expr(Scalar(0.5)), Expr(Scalar(2))), A);
+
+    if (any_nested(mask_big))
+        r_big = chbevl(fmsub(Expr(Scalar(32)), rcp(x), Expr(Scalar(2))), B) *
+                rsqrt(x);
+
+    return select(mask_big, r_big, r_small);
+}
+
+// Inverse real error function approximation based on on "Approximating the
+// erfinv function" by Mark Giles
+template <typename T, typename Expr = expr_t<T>> Expr erfinv(const T &x_) {
+    using Scalar = scalar_t<T>;
+
+    Expr x(x_);
+    Expr w = -log((Expr(Scalar(1)) - x) * (Expr(Scalar(1)) + x));
+
+    Expr w1 = w - Scalar(2.5);
+    Expr w2 = sqrt(w) - Scalar(3);
+
+    Expr p1 = poly8(w1,
+         1.50140941,     0.246640727,
+        -0.00417768164, -0.00125372503,
+         0.00021858087, -4.39150654e-06,
+        -3.5233877e-06,  3.43273939e-07,
+         2.81022636e-08);
+
+    Expr p2 = poly8(w2,
+         2.83297682,     1.00167406,
+         0.00943887047, -0.0076224613,
+         0.00573950773, -0.00367342844,
+         0.00134934322,  0.000100950558,
+        -0.000200214257);
+
+    return select(w < Scalar(5), p1, p2) * x;
+}
+
+/// Evaluates Dawson's integral (e^(-x^2) \int_0^x e^(y^2) dy)
+template <typename T, typename Expr = expr_t<T>> Expr dawson(const T &x) {
+    // Rational minimax approximation to Dawson's integral with relative
+    // error < 1e-6 on the real number line. July 2017, Wenzel Jakob
+
+    Expr x2 = x*x;
+    Expr num = poly6(x2, 1.00000080272429,9.18170212243285e-2,
+                         4.25835373536124e-2, 6.0536496345054e-3,
+                         9.88555033724111e-4, 3.64943550840577e-5,
+                         1.55942290996993e-5);
+
+    Expr denom = poly7(x2, 1.0, 7.58517175815194e-1,
+                           2.81364355593059e-1, 6.81783097841267e-2,
+                           1.13586116798019e-2, 1.92020805811771e-3,
+                           5.74217664074868e-5, 3.11884331363595e-5);
+
+    return num / denom * x;
+}
+
+/// Imaginary component of the error function
+template <typename T, typename Expr = expr_t<T>> Expr erfi(const T &x) {
+    using Scalar = scalar_t<T>;
+
+    return Scalar(M_2_SQRTPI) * dawson(x) * exp(x * x);
+}
+
+/// Natural logarithm of the Gamma function
+template <typename Value> Value lgamma(Value x_) {
+    using Mask = mask_t<Value>;
+    using Scalar = scalar_t<Value>;
+
+    // 'g' and 'n' parameters of the Lanczos approximation
+    // See mrob.com/pub/ries/lanczos-gamma.html
+    const int n = 6;
+    const Scalar g = 5.0f;
+    const Scalar log_sqrt2pi = Scalar(0.91893853320467274178);
+    const Scalar coeff[n + 1] = { (Scalar)  1.000000000190015, (Scalar) 76.18009172947146,
+                                  (Scalar) -86.50532032941677, (Scalar) 24.01409824083091,
+                                  (Scalar) -1.231739572450155, (Scalar) 0.1208650973866179e-2,
+                                  (Scalar) -0.5395239384953e-5 };
+
+    // potentially reflect using gamma(x) = pi / (sin(pi*x) * gamma(1-x))
+    Mask reflect = x_ < .5f;
+
+    Value x = select(reflect, -x_, x_ - 1.f),
+          b = x + g + .5f; // base
+
+    Value sum = 0;
+    for (int i = n; i >= 1; --i)
+        sum += coeff[i] / (x + Scalar(i));
+    sum += coeff[0];
+
+    // gamma(x) = sqrt(2*pi) * sum * b^(x + .5) / exp(b)
+    Value result = ((log_sqrt2pi + log(sum)) - b) + log(b) * (x + .5f);
+
+    if (is_cuda_array_v<Value> || any_nested(reflect)) {
+        masked(result, reflect) = log(abs(Scalar(M_PI) / sin(Scalar(M_PI) * x_))) - result;
+        masked(result, reflect && eq(x_, round(x_))) = std::numeric_limits<Scalar>::infinity();
+    }
+
+    return result;
+}
+
+/// Gamma function
+template <typename Value> Value tgamma(Value x) { return exp(lgamma(x)); }
+
+/**
+ * Computes a Carlson integral of the form
+ *
+ * R_F(X, Y, Z) = 1/2 * \int_{0}^\infty ((t + x) (t + y) (t + z))^(-1/2) dt
+ *
+ * Based on
+ *
+ *   Computing elliptic integrals by duplication
+ *   B. C. Carlson
+ *   Numerische Mathematik, March 1979, Volume 33, Issue 1
+ */
+template <typename Vector3,
+          typename Value = value_t<Vector3>,
+          typename Scalar = scalar_t<Vector3>>
+Value carlson_rf(Vector3 xyz) {
+    static_assert(
+        Vector3::Size == 3,
+        "carlson_rf(): Expected a three-dimensional input vector (x, y, z)");
+    assert(all_nested(xyz.x() >= Scalar(0) && xyz.y() > Scalar(0) && xyz.z() > Scalar(0)));
+
+    Vector3 XYZ;
+    Value mu_inv;
+    mask_t<Value> active = true;
+    int iterations = 0;
+
+    while (true) {
+        Vector3 sqrt_xyz = sqrt(xyz);
+        Value lambda = dot(shuffle<1, 2, 0>(sqrt_xyz), sqrt_xyz);
+        Value mu = hsum(xyz) * Scalar(1.0 / 3.0);
+        mu_inv = rcp(mu);
+        XYZ = fnmadd(xyz, mu_inv, Scalar(1));
+        Value eps = hmax(abs(XYZ));
+        active &= eps > Scalar(std::is_same_v<Scalar, double>
+                                   ? 0.0024608
+                                   : 0.070154); // eps ^ (1/6)
+
+        if (none(active) || ++iterations == 10)
+            break;
+
+        xyz[mask_t<Vector3>(active)] = (xyz + lambda) * Scalar(0.25);
+    }
+
+    /* Use recurrences for cheaper polynomial evaluation. Based
+       on Numerical Recipes (3rd ed) by Press, Teukolsky,
+       Vetterling, and Flannery */
+
+    Value e2 = XYZ.x() * XYZ.y() - XYZ.z() * XYZ.z(),
+          e3 = hprod(XYZ),
+          er = (Scalar(1.0 / 24.0) * e2 - Scalar(1.0 / 10.0) -
+                Scalar(3.0 / 44.0) * e3) * e2 + Scalar(1.0 / 14.0) * e3;
+
+    return sqrt(mu_inv) * (Scalar(1) + er);
+}
+
+/**
+ * Computes a Carlson integral of the form
+ *
+ * R_D(x, y, z) = 3/2 * \int_{0}^\infty (t + x)^(-1/2) (t + y)^(-1/2) (t + z)^(-3/2) dt
+ *
+ * Based on
+ *
+ *   Computing elliptic integrals by duplication
+ *   B. C. Carlson
+ *   Numerische Mathematik, March 1979, Volume 33, Issue 1
+ */
+template <typename Vector3,
+          typename Value = value_t<Vector3>,
+          typename Scalar = scalar_t<Vector3>>
+Value carlson_rd(Vector3 xyz) {
+    static_assert(
+        Vector3::Size == 3,
+        "carlson_rd(): Expected a three-dimensional input vector (x, y, z)");
+    assert(all_nested(xyz.x() >= Scalar(0) && xyz.y() > Scalar(0) && xyz.z() > Scalar(0)));
+
+    Vector3 XYZ;
+    Value mu_inv;
+    mask_t<Value> active = true;
+    int iterations = 0;
+    Value sum = 0;
+    Value num = 1;
+    const Vector3 W(Scalar(1.0 / 5.0), Scalar(1.0 / 5.0), Scalar(3.0 / 5.0));
+
+    while (true) {
+        Vector3 sqrt_xyz = sqrt(xyz);
+        Value lambda = dot(shuffle<1, 2, 0>(sqrt_xyz), sqrt_xyz);
+        Value mu = hsum(xyz * W);
+        mu_inv = rcp(mu);
+        XYZ = fnmadd(xyz, mu_inv, Scalar(1));
+        Value eps = hmax(abs(XYZ));
+        active &= eps > Scalar(std::is_same_v<Scalar, double>
+                                   ? (0.0024608 * 0.6)
+                                   : (0.070154 * 0.6)); // eps ^ (1/6) * 0.6
+
+        if (none(active) || ++iterations == 10)
+            break;
+
+        masked(sum, active) += num / (sqrt(xyz.z()) * (xyz.z() + lambda));
+        masked(num, active) *= Scalar(0.25f);
+        masked(xyz, mask_t<Vector3>(active)) = (xyz + lambda) * Scalar(0.25f);
+    }
+
+    /* Use recurrences for cheaper polynomial evaluation. Based
+       on Numerical Recipes (3rd ed) by Press, Teukolsky,
+       Vetterling, and Flannery */
+
+    Value z  = XYZ.z(),
+          ea = XYZ.x() * XYZ.y(),
+          eb = z * z,
+          ec = ea - eb,
+          ed = fnmadd(Scalar(6), eb, ea),
+          ee = fmadd(ec, Scalar(2), ed);
+
+    Value p = ed * (-Scalar(3.0 / 14.0) + Scalar(9.0 / 88.0) * ed -
+                    Scalar(1.0 / 4.0) * z * ee) +
+              z * (Scalar(1.0 / 6.0) * ee + z *
+                    (-Scalar(9.0 / 22.0) * ec + z * Scalar(3.0 / 26.0) * ea));
+
+    return Scalar(3) * sum + num * mu_inv * sqrt(mu_inv) * (Scalar(1.0) + p);
+}
+
+/**
+ * Computes a Carlson integral of the form
+ *
+ * R_C(x, y) = 1/2 * \int_{0}^\infty (t + x)^(-1/2) (t + y)^-1 dt
+ *
+ * Based on
+ *
+ *   Computing elliptic integrals by duplication
+ *   B. C. Carlson
+ *   Numerische Mathematik, March 1979, Volume 33, Issue 1
+ */
+template <typename Vector2,
+          typename Value = value_t<Vector2>,
+          typename Scalar = scalar_t<Vector2>>
+Value carlson_rc(Vector2 xy) {
+    static_assert(
+        Vector2::Size == 2,
+        "carlson_rc(): Expected a two-dimensional input vector (x, y)");
+    assert(all(xy.x() >= Scalar(0) && xy.y() > Scalar(0)));
+
+    mask_t<Value> active = true;
+    Value inv_mu, s;
+    int iterations = 0;
+
+    while (true) {
+        Value lambda = hprod(sqrt(xy));
+        lambda += lambda + xy.y();
+        Value mu = fmadd(xy.x(), Scalar(1.0 / 3.0), xy.y() * Scalar(2.0 / 3.0));
+        inv_mu = rcp(mu);
+        s = (xy.y() - mu) * inv_mu;
+
+        active &= abs(s) > Scalar(std::is_same_v<Scalar, double>
+                                   ? (0.0024608 * 0.48)
+                                   : (0.070154 * 0.48)); // eps ^ (1/6) * 0.48
+
+        if (none(active) || ++iterations == 10)
+            break;
+
+        masked(xy, mask_t<Vector2>(active)) = (xy + lambda) * Scalar(0.25f);
+    }
+
+    /* Use recurrences for cheaper polynomial evaluation. Based
+       on Numerical Recipes (3rd ed) by Press, Teukolsky,
+       Vetterling, and Flannery */
+
+    return sqrt(inv_mu) * (Scalar(1) + s * s *
+              (Scalar(0.3) + s * (Scalar(1.0 / 7.0) +
+               s * (Scalar(0.375) + s * Scalar(9.0 / 22.0)))));
+}
+
+/**
+ * Computes a Carlson integral of the form
+ *
+ * R_J(x, y, z, rho) = 3/2 * \int_{0}^\infty ((t + x) (t + y) (t + z))^(-1/2) (t+rho)^(-1) dt
+ *
+ * Based on
+ *
+ *   Computing elliptic integrals by duplication
+ *   B. C. Carlson
+ *   Numerische Mathematik, March 1979, Volume 33, Issue 1
+ */
+template <typename Vector4,
+          typename Value = value_t<Vector4>,
+          typename Vector2 = Array<Value, 2>,
+          typename Scalar = scalar_t<Vector4>>
+Value carlson_rj(Vector4 xyzr) {
+    static_assert(
+        Vector4::Size == 4,
+        "carlson_rj(): Expected a four-dimensional input vector (x, y, z, rho)");
+    assert(all(xyzr.x() >= Scalar(0) && xyzr.y() > Scalar(0) && xyzr.z() > Scalar(0) && xyzr.w() > Scalar(0)));
+
+    Vector4 XYZR;
+    Value mu_inv;
+    mask_t<Value> active = true;
+    int iterations = 0;
+    Value sum = 0;
+    Value num = 1;
+
+    while (true) {
+        auto xyz = head<3>(xyzr);
+        auto rho = xyzr.w();
+        auto sqrt_xyz = sqrt(xyz);
+        Value lambda = dot(shuffle<1, 2, 0>(sqrt_xyz), sqrt_xyz);
+
+        Value mu = (hsum(xyzr) + rho) * Scalar(1.0 / 5.0);
+        mu_inv = rcp(mu);
+        XYZR = fnmadd(xyzr, mu_inv, Scalar(1));
+        Value eps = hmax(abs(XYZR));
+        active &= eps > Scalar(std::is_same_v<Scalar, double>
+                                   ? (0.0024608 * 0.6)
+                                   : (0.070154 * 0.6)); // eps ^ (1/6) * 0.6
+
+        Value alpha = rho * hsum(sqrt(xyz)) + sqrt(hprod(xyz));
+        alpha *= alpha;
+        Value beta = rho * (rho + lambda) * (rho + lambda);
+
+        if (none(active) || ++iterations == 10)
+            break;
+
+        masked(sum, active) += num * carlson_rc(Vector2(alpha, beta));
+        masked(num, active) *= Scalar(0.25f);
+        masked(xyzr, mask_t<Vector4>(active)) = (xyzr + lambda) * Scalar(0.25f);
+    }
+
+    /* Use recurrences for cheaper polynomial evaluation. Based
+       on Numerical Recipes (3rd ed) by Press, Teukolsky,
+       Vetterling, and Flannery */
+
+    Value ea = XYZR.x() * (XYZR.y() + XYZR.z()) + XYZR.y() * XYZR.z(),
+          eb = XYZR.x() * XYZR.y() * XYZR.z(),
+          R  = XYZR.w(),
+          ec = R * R,
+          ed = ea - Scalar(3) * ec,
+          ee = eb + Scalar(2) * R * (ea - ec);
+
+    return Scalar(3) * sum +
+           num * mu_inv * sqrt(mu_inv) *
+               (Scalar(1) +
+                ed * (-Scalar(3.0 / 14.0) + Scalar(9.0 / 88.0) * ed -
+                      Scalar(9.0 / 52.0) * ee) +
+                eb * (Scalar(1.0 / 6.0) +
+                      R * (-Scalar(3.0 / 11.0) + R * Scalar(3.0 / 26.0))) +
+                R * ea * (Scalar(1.0 / 3.0) - R * Scalar(3.0 / 22.0)) -
+                Scalar(1.0 / 3.0) * R * ec);
+}
+
+// -----------------------------------------------------------------------
+//! @{ \name Complete and incomplete elliptic integrals
+//! Caution: the 'k' factor is squared in the elliptic integral, which
+//! differs from the convention of Mathematica's EllipticK etc.
+// -----------------------------------------------------------------------
+
+/// Complete elliptic integral of the first kind
+template <typename K, typename Value = expr_t<K>,
+          typename Scalar = scalar_t<Value>,
+          typename Vector3 = Array<Value, 3>>
+Value comp_ellint_1(K k) {
+    return carlson_rf(Vector3(Scalar(0), Scalar(1) - k * k, Scalar(1)));
+}
+
+
+/// Incomplete elliptic integral of the first kind
+template <typename Phi, typename K,
+          typename Value = expr_t<Phi, K>,
+          typename Scalar = scalar_t<Value>,
+          typename Vector3 = Array<Value, 3>>
+Value ellint_1(Phi phi_, K k) {
+    Value phi = phi_,
+          n = floor(fmadd(phi, Scalar(1.0 / M_PI), Scalar(.5f))),
+          result = 0;
+
+    if (ENOKI_UNLIKELY(any(neq(n, Scalar(0))))) {
+        result = comp_ellint_1(k) * n * Scalar(2);
+        phi = fnmadd(n, Scalar(M_PI), phi);
+    }
+
+    auto [sin_phi, cos_phi] = sincos(phi);
+    Vector3 xyz(cos_phi * cos_phi, Scalar(1) - k * k * sin_phi * sin_phi,
+                Scalar(1));
+    result += sin_phi * carlson_rf(xyz);
+
+    return result;
+}
+
+/// Complete elliptic integral of the second kind
+template <typename K, typename Value = expr_t<K>,
+          typename Scalar = scalar_t<Value>,
+          typename Vector3 = Array<Value, 3>>
+Value comp_ellint_2(K k) {
+    auto k2 = k*k;
+    Vector3 xyz(Scalar(0), Scalar(1) - k2, Scalar(1));
+    return carlson_rf(xyz) - Scalar(1.0 / 3.0) * k2 * carlson_rd(xyz);
+}
+
+/// Incomplete elliptic integral of the second kind
+template <typename Phi, typename K,
+          typename Value = expr_t<Phi, K>,
+          typename Scalar = scalar_t<Value>,
+          typename Vector3 = Array<Value, 3>>
+Value ellint_2(Phi phi_, K k) {
+    Value phi = phi_,
+          k2 = k*k,
+          n = floor(fmadd(phi, Scalar(1.0 / M_PI), Scalar(.5f))),
+          result = 0;
+
+    if (ENOKI_UNLIKELY(any(neq(n, Scalar(0))))) {
+        result = comp_ellint_2(k) * n * Scalar(2);
+        phi = fnmadd(n, Scalar(M_PI), phi);
+    }
+
+    auto [sin_phi, cos_phi] = sincos(phi);
+    auto sin_phi_k_2 = sin_phi * sin_phi * k2;
+    Vector3 xyz(cos_phi * cos_phi, Scalar(1) - sin_phi_k_2, Scalar(1));
+    result += sin_phi * (carlson_rf(xyz) -
+                         Scalar(1.0 / 3.0) * sin_phi_k_2 * carlson_rd(xyz));
+
+    return result;
+}
+
+/// Complete elliptic integral of the third kind
+template <typename K, typename Nu,
+          typename Value = expr_t<K, Nu>,
+          typename Scalar = scalar_t<Value>,
+          typename Vector4 = Array<Value, 4>>
+Value comp_ellint_3(K k, Nu nu) {
+    auto k2 = k*k;
+    Vector4 xyzr(Scalar(0), Scalar(1) - k2, Scalar(1), Scalar(1) + nu);
+    return carlson_rf(head<3>(xyzr)) -
+           Scalar(1.0 / 3.0) * nu * carlson_rj(xyzr);
+}
+
+/// Incomplete elliptic integral of the third kind
+template <typename Phi, typename K, typename Nu,
+          typename Value = expr_t<Phi, K, Nu>,
+          typename Scalar = scalar_t<Value>,
+          typename Vector4 = Array<Value, 4>>
+Value ellint_3(Phi phi_, K k, Nu nu) {
+    Value phi = phi_,
+          k2 = k*k,
+          n = floor(fmadd(phi, Scalar(1.0 / M_PI), Scalar(.5f))),
+          result = 0;
+
+    if (ENOKI_UNLIKELY(any(neq(n, Scalar(0))))) {
+        result = comp_ellint_3(k, nu) * n * Scalar(2);
+        phi = fnmadd(n, Scalar(M_PI), phi);
+    }
+
+
+    auto [sin_phi, cos_phi] = sincos(phi);
+    auto sin_phi_2 = sin_phi * sin_phi;
+    Vector4 xyzr(cos_phi * cos_phi, Scalar(1) - k2 * sin_phi_2, Scalar(1),
+                 Scalar(1) + nu * sin_phi_2);
+    result += sin_phi * (carlson_rf(head<3>(xyzr)) -
+                         Scalar(1.0 / 3.0) * nu * sin_phi_2 * carlson_rj(xyzr));
+
+    return result;
+}
+
+//! @}
+// -----------------------------------------------------------------------
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/stl.h b/sources/enoki/stl.h
new file mode 100644
index 00000000..108c18b5
--- /dev/null
+++ b/sources/enoki/stl.h
@@ -0,0 +1,323 @@
+/*
+    enoki/stl.h -- vectorization support for STL pairs, tuples, and arrays
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/array.h>
+
+NAMESPACE_BEGIN(enoki)
+
+template <typename Arg0, typename Arg1> struct struct_support<std::pair<Arg0, Arg1>> {
+    static constexpr bool IsDynamic =
+        enoki::is_dynamic_v<Arg0> || enoki::is_dynamic_v<Arg1>;
+    using Dynamic = std::pair<enoki::make_dynamic_t<Arg0>, enoki::make_dynamic_t<Arg1>>;
+    using Value = std::pair<Arg0, Arg1>;
+
+    static ENOKI_INLINE size_t slices(const Value &value) {
+        return enoki::slices(value.first);
+    }
+
+    static ENOKI_INLINE size_t packets(const Value &value) {
+        return enoki::packets(value.first);
+    }
+
+    static ENOKI_INLINE void set_slices(Value &value, size_t size) {
+        enoki::set_slices(value.first, size);
+        enoki::set_slices(value.second, size);
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto packet(T2 &&value, size_t i) {
+        return std::pair<decltype(enoki::packet(value.first, i)),
+                         decltype(enoki::packet(value.second, i))>(
+            enoki::packet(value.first, i), enoki::packet(value.second, i));
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto slice(T2 &&value, size_t i) {
+        return std::pair<decltype(enoki::slice(value.first, i)),
+                         decltype(enoki::slice(value.second, i))>(
+            enoki::slice(value.first, i), enoki::slice(value.second, i));
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto slice_ptr(T2 &&value, size_t i) {
+        return std::pair<decltype(enoki::slice_ptr(value.first, i)),
+                         decltype(enoki::slice_ptr(value.second, i))>(
+            enoki::slice_ptr(value.first, i), enoki::slice_ptr(value.second, i));
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto ref_wrap(T2 &&value) {
+        return std::pair<decltype(enoki::ref_wrap(value.first)),
+                         decltype(enoki::ref_wrap(value.second))>(
+            enoki::ref_wrap(value.first), enoki::ref_wrap(value.second));
+    }
+
+    template <typename T2, typename Mask>
+    static ENOKI_INLINE auto masked(T2 &&value, const Mask &mask) {
+        return std::pair<decltype(enoki::masked(value.first, mask)),
+                         decltype(enoki::masked(value.second, mask))>(
+            enoki::masked(value.first, mask), enoki::masked(value.second, mask));
+    }
+
+    template <typename T2, typename Index, typename Mask>
+    static ENOKI_INLINE void scatter(T2 &dst, const Value &value, const Index &index, const Mask &mask) {
+        enoki::scatter(dst.first, value.first, index, mask);
+        enoki::scatter(dst.second, value.second, index, mask);
+    }
+
+    template <typename T2, typename Index, typename Mask>
+    static ENOKI_INLINE Value gather(const T2 &src, const Index &index, const Mask &mask) {
+        return Value(
+            enoki::gather<Arg0>(src.first, index, mask),
+            enoki::gather<Arg1>(src.second, index, mask)
+        );
+    }
+
+    static ENOKI_INLINE Value zero(size_t size) {
+        return Value(enoki::zero<Arg0>(size), enoki::zero<Arg1>(size));
+    }
+
+    static ENOKI_INLINE Value empty(size_t size) {
+        return Value(enoki::empty<Arg0>(size), enoki::empty<Arg1>(size));
+    }
+};
+
+template <typename... Args> struct struct_support<std::tuple<Args...>> {
+    static constexpr bool IsDynamic = std::disjunction_v<enoki::is_dynamic<Args>...>;
+    using Dynamic = std::tuple<enoki::make_dynamic_t<Args>...>;
+    using Value = std::tuple<Args...>;
+
+    static ENOKI_INLINE size_t slices(const Value &value) {
+        return enoki::slices(std::get<0>(value));
+    }
+
+    static ENOKI_INLINE size_t packets(const Value &value) {
+        return enoki::packets(std::get<0>(value));
+    }
+
+    static ENOKI_INLINE void set_slices(Value &value, size_t size) {
+        set_slices(value, size, std::make_index_sequence<sizeof...(Args)>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto packet(T2 &&value, size_t i) {
+        return packet(std::forward<T2>(value), i, std::make_index_sequence<sizeof...(Args)>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto slice(T2 &&value, size_t i) {
+        return slice(std::forward<T2>(value), i, std::make_index_sequence<sizeof...(Args)>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto slice_ptr(T2 &&value, size_t i) {
+        return slice_ptr(std::forward<T2>(value), i, std::make_index_sequence<sizeof...(Args)>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto ref_wrap(T2 &&value) {
+        return ref_wrap(std::forward<T2>(value), std::make_index_sequence<sizeof...(Args)>());
+    }
+
+    template <typename T2, typename Mask>
+    static ENOKI_INLINE auto masked(T2 &&value, const Mask &mask) {
+        return masked(value, mask, std::make_index_sequence<sizeof...(Args)>());
+    }
+
+    static ENOKI_INLINE Value zero(size_t size) {
+        return Value(enoki::zero<Args>(size)...);
+    }
+
+    static ENOKI_INLINE Value empty(size_t size) {
+        return Value(enoki::empty<Args>(size)...);
+    }
+
+    template <typename T2, typename Index, typename Mask>
+    static ENOKI_INLINE void scatter(T2 &dst, const Value &value, const Index &index, const Mask &mask) {
+        scatter(dst, value, index, mask, std::make_index_sequence<sizeof...(Args)>());
+    }
+
+    template <typename T2, typename Index, typename Mask>
+    static ENOKI_INLINE Value gather(const T2 &src, const Index &index, const Mask &mask) {
+        return gather(src, index, mask, std::make_index_sequence<sizeof...(Args)>());
+    }
+private:
+    template <size_t... Index>
+    static ENOKI_INLINE void set_slices(Value &value, size_t i, std::index_sequence<Index...>) {
+        bool unused[] = { (enoki::set_slices(std::get<Index>(value), i), false)..., false };
+        (void) unused;
+    }
+
+    template <typename T2, size_t... Index>
+    static ENOKI_INLINE auto packet(T2 &&value, size_t i, std::index_sequence<Index...>) {
+        return std::tuple<decltype(enoki::packet(std::get<Index>(value), i))...>(
+            enoki::packet(std::get<Index>(value), i)...);
+    }
+
+    template <typename T2, size_t... Index>
+    static ENOKI_INLINE auto slice(T2 &&value, size_t i, std::index_sequence<Index...>) {
+        return std::tuple<decltype(enoki::slice(std::get<Index>(value), i))...>(
+            enoki::slice(std::get<Index>(value), i)...);
+    }
+
+    template <typename T2, size_t... Index>
+    static ENOKI_INLINE auto slice_ptr(T2 &&value, size_t i, std::index_sequence<Index...>) {
+        return std::tuple<decltype(enoki::slice_ptr(std::get<Index>(value), i))...>(
+            enoki::slice_ptr(std::get<Index>(value), i)...);
+    }
+
+    template <typename T2, size_t... Index>
+    static ENOKI_INLINE auto ref_wrap(T2 &&value, std::index_sequence<Index...>) {
+        return std::tuple<decltype(enoki::ref_wrap(std::get<Index>(value)))...>(
+            enoki::ref_wrap(std::get<Index>(value))...);
+    }
+
+    template <typename T2, typename Mask, size_t... Index>
+    static ENOKI_INLINE auto masked(T2 &&value, const Mask &mask, std::index_sequence<Index...>) {
+        return std::tuple<decltype(enoki::masked(std::get<Index>(value), mask))...>(
+            enoki::masked(std::get<Index>(value), mask)...);
+    }
+
+    template <typename T2, typename Index, typename Mask, size_t... Is>
+    static ENOKI_INLINE void scatter(T2 &dst, const Value &value, const Index &index, const Mask &mask, std::index_sequence<Is...>) {
+        bool unused[] = { (enoki::scatter(std::get<Is>(dst),
+                                          std::get<Is>(value), index, mask), false)..., false };
+        ENOKI_MARK_USED(unused);
+    }
+
+    template <typename T2, typename Index, typename Mask, size_t... Is>
+    static ENOKI_INLINE Value gather(const T2 &src, const Index &index, const Mask &mask, std::index_sequence<Is...>) {
+        return Value(
+            enoki::gather<std::tuple_element_t<Is, Value>>(std::get<Is>(src), index, mask)...
+        );
+    }
+};
+
+template <typename T, size_t Size> struct struct_support<std::array<T, Size>> {
+    static constexpr bool IsDynamic = enoki::is_dynamic_v<T>;
+    using Dynamic = std::array<enoki::make_dynamic_t<T>, Size>;
+    using Value = std::array<T, Size>;
+
+    static ENOKI_INLINE size_t slices(const Value &value) {
+        return enoki::slices(value[0]);
+    }
+
+    static ENOKI_INLINE size_t packets(const Value &value) {
+        return enoki::packets(value[0]);
+    }
+
+    static ENOKI_INLINE void set_slices(Value &value, size_t size) {
+        for (size_t i = 0; i < Size; ++i)
+            enoki::set_slices(value[i], size);
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto packet(T2 &&value, size_t i) {
+        return packet(std::forward<T2>(value), i, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto slice(T2 &&value, size_t i) {
+        return slice(std::forward<T2>(value), i, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto slice_ptr(T2 &&value, size_t i) {
+        return slice_ptr(std::forward<T2>(value), i, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2>
+    static ENOKI_INLINE auto ref_wrap(T2 &&value) {
+        return ref_wrap(std::forward<T2>(value), std::make_index_sequence<Size>());
+    }
+
+    template <typename T2, typename Mask>
+    static ENOKI_INLINE auto masked(T2 &value, const Mask &mask) {
+        return masked(value, mask, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2, typename Index, typename Mask>
+    static ENOKI_INLINE void scatter(T2 &dst, const Value &value, const Index &index, const Mask &mask) {
+        scatter(dst, value, index, mask, std::make_index_sequence<Size>());
+    }
+
+    template <typename T2, typename Index, typename Mask>
+    static ENOKI_INLINE Value gather(const T2 &src, const Index &index, const Mask &mask) {
+        return gather(src, index, mask, std::make_index_sequence<Size>());
+    }
+
+    static ENOKI_INLINE auto zero(size_t size) {
+        return zero(size, std::make_index_sequence<Size>());
+    }
+
+    static ENOKI_INLINE auto empty(size_t size) {
+        return empty(size, std::make_index_sequence<Size>());
+    }
+private:
+    template <typename T2, size_t... Index>
+    static ENOKI_INLINE auto packet(T2 &&value, size_t i, std::index_sequence<Index...>) {
+        return std::array<decltype(enoki::packet(value[0], i)), Size>{{
+            enoki::packet(value[Index], i)...}};
+    }
+
+    template <typename T2, size_t... Index>
+    static ENOKI_INLINE auto slice(T2 &&value, size_t i, std::index_sequence<Index...>) {
+        return std::array<decltype(enoki::slice(value[0], i)), Size>{{
+            enoki::slice(value[Index], i)...}};
+    }
+
+    template <typename T2, size_t... Index>
+    static ENOKI_INLINE auto slice_ptr(T2 &&value, size_t i, std::index_sequence<Index...>) {
+        return std::array<decltype(enoki::slice_ptr(value[0], i)), Size>{{
+            enoki::slice_ptr(value[Index], i)...}};
+    }
+
+    template <typename T2, size_t... Index>
+    static ENOKI_INLINE auto ref_wrap(T2 &&value, std::index_sequence<Index...>) {
+        return std::array<decltype(enoki::ref_wrap(value[0])), Size>{{
+            enoki::ref_wrap(value[Index])...}};
+    }
+
+    template <typename T2, typename Mask, size_t... Index>
+    static ENOKI_INLINE auto masked(T2 &value, const Mask &mask, std::index_sequence<Index...>) {
+        return std::array<decltype(enoki::masked(value[0], mask)), Size>{{
+            enoki::masked(value[Index], mask)...}};
+    }
+
+    template <size_t... Index>
+    static ENOKI_INLINE auto zero(size_t size, std::index_sequence<Index...>) {
+        return Value{{ zero<T>(Index, size)... }};
+    }
+
+    template <size_t... Index>
+    static ENOKI_INLINE auto empty(size_t size, std::index_sequence<Index...>) {
+        return Value{{ empty<T>(Index, size)... }};
+    }
+
+    template <typename T2, typename Index, typename Mask, size_t... Is>
+    static ENOKI_INLINE void scatter(T2 &dst, const Value &value, const Index &index, const Mask &mask, std::index_sequence<Is...>) {
+        bool unused[] = { (enoki::scatter(dst[Is], value[Is], index, mask), false)..., false };
+        ENOKI_MARK_USED(unused);
+    }
+
+    template <typename T2, typename Index, typename Mask, size_t... Is>
+    static ENOKI_INLINE Value gather(const T2 &src, const Index &index, const Mask &mask, std::index_sequence<Is...>) {
+        return Value{
+            enoki::gather<T>(src[Is], index, mask)...
+        };
+    }
+};
+
+NAMESPACE_END(enoki)
diff --git a/sources/enoki/transform.h b/sources/enoki/transform.h
new file mode 100644
index 00000000..7bf54113
--- /dev/null
+++ b/sources/enoki/transform.h
@@ -0,0 +1,202 @@
+/*
+    enoki/transform.h -- 3D homogeneous coordinate transformations
+
+    Enoki is a C++ template library that enables transparent vectorization
+    of numerical kernels using SIMD instruction sets available on current
+    processor architectures.
+
+    Copyright (c) 2019 Wenzel Jakob <wenzel.jakob@epfl.ch>
+
+    All rights reserved. Use of this source code is governed by a BSD-style
+    license that can be found in the LICENSE file.
+*/
+
+#pragma once
+
+#include <enoki/quaternion.h>
+
+NAMESPACE_BEGIN(enoki)
+
+template <typename Matrix, typename Vector> ENOKI_INLINE Matrix translate(const Vector &v) {
+    Matrix trafo = identity<Matrix>();
+    trafo.coeff(Matrix::Size - 1) = concat(v, scalar_t<Matrix>(1));
+    return trafo;
+}
+
+template <typename Matrix, typename Vector> ENOKI_INLINE Matrix scale(const Vector &v) {
+    return diag<Matrix>(concat(v, scalar_t<Matrix>(1)));
+}
+
+template <typename Matrix, enable_if_t<Matrix::IsMatrix && Matrix::Size == 3> = 0>
+ENOKI_INLINE Matrix rotate(const entry_t<Matrix> &angle) {
+    entry_t<Matrix> z(0.f), o(1.f);
+    auto [s, c] = sincos(angle);
+    return Matrix(c, -s, z, s, c, z, z, z, o);
+}
+
+template <typename Matrix, typename Vector3, enable_if_t<Matrix::IsMatrix && Matrix::Size == 4> = 0>
+ENOKI_INLINE Matrix rotate(const Vector3 &axis, const entry_t<Matrix> &angle) {
+    using Value = entry_t<Matrix>;
+    using Vector4 = column_t<Matrix>;
+
+    auto [sin_theta, cos_theta] = sincos(angle);
+    Value cos_theta_m = 1.f - cos_theta;
+
+    auto shuf1 = shuffle<1, 2, 0>(axis),
+         shuf2 = shuffle<2, 0, 1>(axis),
+         tmp0  = fmadd(axis * axis, cos_theta_m, cos_theta),
+         tmp1  = fmadd(axis * shuf1, cos_theta_m, shuf2 * sin_theta),
+         tmp2  = fmsub(axis * shuf2, cos_theta_m, shuf1 * sin_theta);
+
+    return Matrix(
+        Vector4(tmp0.x(), tmp1.x(), tmp2.x(), 0.f),
+        Vector4(tmp2.y(), tmp0.y(), tmp1.y(), 0.f),
+        Vector4(tmp1.z(), tmp2.z(), tmp0.z(), 0.f),
+        Vector4(0.f, 0.f, 0.f, 1.f)
+    );
+}
+
+template <typename Matrix>
+ENOKI_INLINE Matrix perspective(const entry_t<Matrix> &fov,
+                                const entry_t<Matrix> &near_,
+                                const entry_t<Matrix> &far_,
+                                const entry_t<Matrix> &aspect = 1.f) {
+    static_assert(Matrix::Size == 4, "Matrix::perspective(): implementation assumes 4x4 matrix output");
+
+    auto recip = rcp(near_ - far_);
+    auto c = cot(.5f * fov);
+
+    Matrix trafo = diag<Matrix>(
+        column_t<Matrix>(c / aspect, c, (near_ + far_) * recip, 0.f));
+
+    trafo(2, 3) = 2.f * near_ * far_ * recip;
+    trafo(3, 2) = -1.f;
+
+    return trafo;
+}
+
+template <typename Matrix>
+ENOKI_INLINE Matrix frustum(const entry_t<Matrix> &left,
+                            const entry_t<Matrix> &right,
+                            const entry_t<Matrix> &bottom,
+                            const entry_t<Matrix> &top,
+                            const entry_t<Matrix> &near_,
+                            const entry_t<Matrix> &far_) {
+    static_assert(Matrix::Size == 4, "Matrix::frustum(): implementation assumes 4x4 matrix output");
+
+    auto rl = rcp(right - left),
+         tb = rcp(top - bottom),
+         fn = rcp(far_ - near_);
+
+    Matrix trafo = zero<Matrix>();
+    trafo(0, 0) = (2.f * near_) * rl;
+    trafo(1, 1) = (2.f * near_) * tb;
+    trafo(0, 2) = (right + left) * rl;
+    trafo(1, 2) = (top + bottom) * tb;
+    trafo(2, 2) = -(far_ + near_) * fn;
+    trafo(3, 2) = -1.f;
+    trafo(2, 3) = -2.f * far_ * near_ * fn;
+
+    return trafo;
+}
+
+template <typename Matrix>
+ENOKI_INLINE Matrix ortho(const entry_t<Matrix> &left,
+                          const entry_t<Matrix> &right,
+                          const entry_t<Matrix> &bottom,
+                          const entry_t<Matrix> &top,
+                          const entry_t<Matrix> &near_,
+                          const entry_t<Matrix> &far_) {
+    static_assert(Matrix::Size == 4, "Matrix::ortho(): implementation assumes 4x4 matrix output");
+
+    auto rl = rcp(right - left),
+         tb = rcp(top - bottom),
+         fn = rcp(far_ - near_);
+
+    Matrix trafo = zero<Matrix>();
+
+    trafo(0, 0) = 2.f * rl;
+    trafo(1, 1) = 2.f * tb;
+    trafo(2, 2) = -2.f * fn;
+    trafo(3, 3) = 1.f;
+    trafo(0, 3) = -(right + left) * rl;
+    trafo(1, 3) = -(top + bottom) * tb;
+    trafo(2, 3) = -(far_ + near_) * fn;
+
+    return trafo;
+}
+
+template <typename Matrix, typename Point, typename Vector>
+Matrix look_at(const Point &origin, const Point &target, const Vector &up) {
+    static_assert(Matrix::Size == 4, "Matrix::look_at(): implementation "
+                                     "assumes 4x4 matrix output");
+
+    auto dir = normalize(target - origin);
+    auto left = normalize(cross(dir, up));
+    auto new_up = cross(left, dir);
+    using Scalar = scalar_t<Matrix>;
+
+    return Matrix(
+        concat(left, Scalar(0)),
+        concat(new_up, Scalar(0)),
+        concat(-dir, Scalar(0)),
+        column_t<Matrix>(
+            -dot(left, origin),
+            -dot(new_up, origin),
+             dot(dir, origin),
+             1.f
+        )
+    );
+}
+
+template <typename T,
+          typename E       = expr_t<T>,
+          typename Matrix3 = Matrix<E, 3>,
+          typename Vector3 = Array<E, 3>,
+          typename Quat    = Quaternion<E>>
+std::tuple<Matrix3, Quat, Vector3> transform_decompose(const Matrix<T, 4> &A, size_t it = 10) {
+    Matrix3 A_sub(A), Q, P;
+    std::tie(Q, P) = polar_decomp(A_sub, it);
+
+    if (ENOKI_UNLIKELY(any(enoki::isnan(Q(0, 0)))))
+        Q = identity<Matrix3>();
+
+    auto sign_q = det(Q);
+    Q = mulsign(Array<Vector3, 3>(Q), sign_q);
+    P = mulsign(Array<Vector3, 3>(P), sign_q);
+
+    return std::make_tuple(
+        P,
+        matrix_to_quat(Q),
+        head<3>(A.col(3))
+    );
+}
+
+template <typename T,
+          typename E = expr_t<T>,
+          typename Matrix3 = Matrix<E, 3>,
+          typename Matrix4 = Matrix<E, 4>,
+          typename Vector3>
+Matrix4 transform_compose(const Matrix<T, 3> &S,
+                          const Quaternion<T> &q,
+                          const Vector3 &t) {
+    Matrix4 result = Matrix4(quat_to_matrix<Matrix3>(q) * S);
+    result.coeff(3) = concat(t, scalar_t<Matrix4>(1));
+    return result;
+}
+
+template <typename T,
+          typename E = expr_t<T>,
+          typename Matrix3 = Matrix<E, 3>,
+          typename Matrix4 = Matrix<E, 4>,
+          typename Vector3>
+Matrix4 transform_compose_inverse(const Matrix<T, 3> &S,
+                                  const Quaternion<T> &q,
+                                  const Vector3 &t) {
+    auto inv_m = inverse(quat_to_matrix<Matrix3>(q) * S);
+    Matrix4 result = Matrix4(inv_m);
+    result.coeff(3) = concat(inv_m * -t, scalar_t<Matrix4>(1));
+    return result;
+}
+
+NAMESPACE_END(enoki)