apache · twosom · Dec 20, 2024 · Dec 20, 2024 · Dec 20, 2024 · Dec 20, 2024
diff --git a/CHANGES.md b/CHANGES.md
@@ -104,6 +104,7 @@
 * Support OnWindowExpiration in Prism ([#32211](https://github.com/apache/beam/issues/32211)).
   * This enables initial Java GroupIntoBatches support.
 * Support OrderedListState in Prism ([#32929](https://github.com/apache/beam/issues/32929)).
+* Added OrderedList state support in SparkRunner ([#33211](https://github.com/apache/beam/issues/33211)).
 
 ## Breaking Changes
 

diff --git a/runners/core-java/src/main/java/org/apache/beam/runners/core/StateMerging.java b/runners/core-java/src/main/java/org/apache/beam/runners/core/StateMerging.java
@@ -25,10 +25,12 @@
 import org.apache.beam.sdk.state.BagState;
 import org.apache.beam.sdk.state.CombiningState;
 import org.apache.beam.sdk.state.GroupingState;
+import org.apache.beam.sdk.state.OrderedListState;
 import org.apache.beam.sdk.state.ReadableState;
 import org.apache.beam.sdk.state.SetState;
 import org.apache.beam.sdk.state.State;
 import org.apache.beam.sdk.transforms.windowing.BoundedWindow;
+import org.apache.beam.sdk.values.TimestampedValue;
 
 /** Helpers for merging state. */
 @SuppressWarnings({
@@ -108,6 +110,44 @@ public static <T, W extends BoundedWindow> void mergeBags(
     }
   }
 
+  public static <K, T, W extends BoundedWindow> void mergeOrderedLists(
+      MergingStateAccessor<K, W> context, StateTag<OrderedListState<T>> address) {
+    mergeOrderedLists(context.accessInEachMergingWindow(address).values(), context.access(address));
+  }
+
+  public static <T, W extends BoundedWindow> void mergeOrderedLists(
+      Collection<OrderedListState<T>> sources, OrderedListState<T> result) {
+    if (sources.isEmpty()) {
+      // Nothing to merge.
+      return;
+    }
+    // Prefetch everything except what's already in result.
+    final List<ReadableState<Iterable<TimestampedValue<T>>>> futures =
+        new ArrayList<>(sources.size());
+    for (OrderedListState<T> source : sources) {
+      if (!source.equals(result)) {
+        prefetchRead(source);
+        futures.add(source);
+      }
+    }
+    if (futures.isEmpty()) {
+      // Result already holds all the values.
+      return;
+    }
+    // Transfer from sources to result.
+    for (ReadableState<Iterable<TimestampedValue<T>>> future : futures) {
+      for (TimestampedValue<T> timestampedValue : future.read()) {
+        result.add(timestampedValue);
+      }
+    }
+    // Clear sources except for result.
+    for (OrderedListState<T> source : sources) {
+      if (!source.equals(result)) {
+        source.clear();
+      }
+    }
+  }
+
   /** Merge all set state in {@code address} across all windows under merge. */
   public static <K, T, W extends BoundedWindow> void mergeSets(
       MergingStateAccessor<K, W> context, StateTag<SetState<T>> address) {

diff --git a/runners/core-java/src/test/java/org/apache/beam/runners/core/StateInternalsTest.java b/runners/core-java/src/test/java/org/apache/beam/runners/core/StateInternalsTest.java
@@ -18,6 +18,7 @@
 package org.apache.beam.runners.core;
 
 import static org.hamcrest.MatcherAssert.assertThat;
+import static org.hamcrest.Matchers.contains;
 import static org.hamcrest.Matchers.containsInAnyOrder;
 import static org.hamcrest.Matchers.equalTo;
 import static org.hamcrest.Matchers.hasItems;
@@ -43,16 +44,19 @@
 import org.apache.beam.sdk.state.CombiningState;
 import org.apache.beam.sdk.state.GroupingState;
 import org.apache.beam.sdk.state.MapState;
+import org.apache.beam.sdk.state.OrderedListState;
 import org.apache.beam.sdk.state.ReadableState;
 import org.apache.beam.sdk.state.SetState;
 import org.apache.beam.sdk.state.ValueState;
 import org.apache.beam.sdk.state.WatermarkHoldState;
 import org.apache.beam.sdk.transforms.CombineWithContext;
 import org.apache.beam.sdk.transforms.Sum;
 import org.apache.beam.sdk.transforms.windowing.TimestampCombiner;
+import org.apache.beam.sdk.values.TimestampedValue;
 import org.apache.beam.vendor.guava.v32_1_2_jre.com.google.common.collect.Iterables;
 import org.checkerframework.checker.nullness.qual.Nullable;
 import org.hamcrest.Matchers;
+import org.joda.time.Duration;
 import org.joda.time.Instant;
 import org.junit.Before;
 import org.junit.Test;
@@ -76,6 +80,8 @@ public abstract class StateInternalsTest {
       StateTags.bag("stringBag", StringUtf8Coder.of());
   private static final StateTag<SetState<String>> STRING_SET_ADDR =
       StateTags.set("stringSet", StringUtf8Coder.of());
+  private static final StateTag<OrderedListState<String>> STRING_ORDERED_LIST_ADDR =
+      StateTags.orderedList("stringOrderedList", StringUtf8Coder.of());
   private static final StateTag<MapState<String, Integer>> STRING_MAP_ADDR =
       StateTags.map("stringMap", StringUtf8Coder.of(), VarIntCoder.of());
   private static final StateTag<WatermarkHoldState> WATERMARK_EARLIEST_ADDR =
@@ -187,6 +193,99 @@ public void testMergeBagIntoNewNamespace() throws Exception {
     assertThat(bag2.read(), Matchers.emptyIterable());
   }
 
+  @Test
+  public void testOrderedList() {
+    final OrderedListState<String> value = underTest.state(NAMESPACE_1, STRING_ORDERED_LIST_ADDR);
+
+    assertThat(value, equalTo(underTest.state(NAMESPACE_1, STRING_ORDERED_LIST_ADDR)));
+    assertThat(value, not(equalTo(underTest.state(NAMESPACE_2, STRING_ORDERED_LIST_ADDR))));
+
+    assertThat(value.read(), Matchers.emptyIterable());
+    Instant base = new Instant(0);
+    value.add(TimestampedValue.of("world", base.plus(Duration.millis(1))));
+    assertThat(
+        value.read(),
+        containsInAnyOrder(TimestampedValue.of("world", base.plus(Duration.millis(1)))));
+
+    value.add(TimestampedValue.of("hello", base));
+    assertThat(
+        value.read(),
+        contains(
+            TimestampedValue.of("hello", base),
+            TimestampedValue.of("world", base.plus(Duration.millis(1)))));
+    value.add(TimestampedValue.of("ignore", base.plus(Duration.millis(10))));
+
+    final Iterable<TimestampedValue<String>> range =
+        value.readRange(base, base.plus(Duration.millis(2L)));
+    assertThat(
+        range,
+        contains(
+            TimestampedValue.of("hello", base),
+            TimestampedValue.of("world", base.plus(Duration.millis(1)))));
+
+    assertThat(range, not(contains(TimestampedValue.of("ignore", base.plus(Duration.millis(10))))));
+
+    value.clear();
+    assertThat(value.read(), Matchers.emptyIterable());
+    assertThat(underTest.state(NAMESPACE_1, STRING_ORDERED_LIST_ADDR), equalTo(value));
+  }
+
+  @Test
+  public void testOrderedListIsEmpty() {
+    final OrderedListState<String> value = underTest.state(NAMESPACE_1, STRING_ORDERED_LIST_ADDR);
+    final Instant base = new Instant(0);
+    assertThat(value.isEmpty().read(), Matchers.is(true));
+    final ReadableState<Boolean> readFuture = value.isEmpty();
+    value.add(TimestampedValue.of("hello", base));
+    assertThat(readFuture.read(), Matchers.is(false));
+
+    value.clear();
+    assertThat(readFuture.read(), Matchers.is(true));
+  }
+
+  @Test
+  public void testMergeOrderedListIntoSource() {
+    final OrderedListState<String> bag1 = underTest.state(NAMESPACE_1, STRING_ORDERED_LIST_ADDR);
+    final OrderedListState<String> bag2 = underTest.state(NAMESPACE_2, STRING_ORDERED_LIST_ADDR);
+    final Instant base = new Instant();
+
+    bag1.add(TimestampedValue.of("World", base.plus(Duration.millis(1L))));
+    bag2.add(TimestampedValue.of("Hello", base));
+    bag1.add(TimestampedValue.of("!", base.plus(Duration.millis(5L))));
+
+    StateMerging.mergeOrderedLists(Arrays.asList(bag1, bag2), bag1);
+
+    assertThat(
+        bag1.read(),
+        contains(
+            TimestampedValue.of("Hello", base),
+            TimestampedValue.of("World", base.plus(Duration.millis(1L))),
+            TimestampedValue.of("!", base.plus(Duration.millis(5L)))));
+    assertThat(bag2.read(), Matchers.emptyIterable());
+  }
+
+  @Test
+  public void testMergeOrderedListIntoNewNamespace() {
+    final OrderedListState<String> bag1 = underTest.state(NAMESPACE_1, STRING_ORDERED_LIST_ADDR);
+    final OrderedListState<String> bag2 = underTest.state(NAMESPACE_2, STRING_ORDERED_LIST_ADDR);
+    final OrderedListState<String> bag3 = underTest.state(NAMESPACE_3, STRING_ORDERED_LIST_ADDR);
+    final Instant base = new Instant();
+
+    bag1.add(TimestampedValue.of("World", base.plus(Duration.millis(1L))));
+    bag2.add(TimestampedValue.of("Hello", base));
+    bag1.add(TimestampedValue.of("!", base.plus(Duration.millis(5L))));
+
+    StateMerging.mergeOrderedLists(Arrays.asList(bag1, bag2), bag3);
+    assertThat(
+        bag3.read(),
+        contains(
+            TimestampedValue.of("Hello", base),
+            TimestampedValue.of("World", base.plus(Duration.millis(1L))),
+            TimestampedValue.of("!", base.plus(Duration.millis(5L)))));
+    assertThat(bag1.read(), Matchers.emptyIterable());
+    assertThat(bag2.read(), Matchers.emptyIterable());
+  }
+
   @Test
   public void testSet() throws Exception {
 

diff --git a/...g/apache/beam/runners/flink/translation/wrappers/streaming/state/FlinkStateInternals.java b/...g/apache/beam/runners/flink/translation/wrappers/streaming/state/FlinkStateInternals.java
@@ -455,6 +455,7 @@ public int hashCode() {
   private static class FlinkOrderedListState<T> implements OrderedListState<T> {
     private final StateNamespace namespace;
     private final String namespaceKey;
+    private final String stateId;
     private final ListStateDescriptor<TimestampedValue<T>> flinkStateDescriptor;
     private final KeyedStateBackend<ByteBuffer> flinkStateBackend;
 
@@ -466,6 +467,7 @@ private static class FlinkOrderedListState<T> implements OrderedListState<T> {
         SerializablePipelineOptions pipelineOptions) {
       this.namespace = namespace;
       this.namespaceKey = namespace.stringKey();
+      this.stateId = stateId;
       this.flinkStateBackend = flinkStateBackend;
       this.flinkStateDescriptor =
           new ListStateDescriptor<>(
@@ -571,6 +573,27 @@ public void clear() {
         throw new RuntimeException("Error clearing state.", e);
       }
     }
+
+    @Override
+    public boolean equals(@Nullable Object o) {
+      if (this == o) {
+        return true;
+      }
+      if (o == null || getClass() != o.getClass()) {
+        return false;
+      }
+
+      final FlinkOrderedListState<?> that = (FlinkOrderedListState<?>) o;
+
+      return namespace.equals(that.namespace) && stateId.equals(that.stateId);
+    }
+
+    @Override
+    public int hashCode() {
+      int result = namespace.hashCode();
 return Objects.hashCode(isSuccess, site, throwable); 
 return Objects.hashCode(isSuccess, site, throwable); 
+      result = 31 * result + stateId.hashCode();
+      return result;
+    }
   }
 
   private static class FlinkBagState<T> implements BagState<T> {

diff --git a/...c/test/java/org/apache/beam/runners/flink/streaming/FlinkBroadcastStateInternalsTest.java b/...c/test/java/org/apache/beam/runners/flink/streaming/FlinkBroadcastStateInternalsTest.java
@@ -96,4 +96,20 @@ public void testSetReadable() {}
   @Override
   @Ignore
   public void testMapReadable() {}
+
+  @Override
+  @Ignore
+  public void testOrderedList() {}
+
+  @Override
+  @Ignore
+  public void testOrderedListIsEmpty() {}
+
+  @Override
+  @Ignore
+  public void testMergeOrderedListIntoSource() {}
+
+  @Override
+  @Ignore
+  public void testMergeOrderedListIntoNewNamespace() {}
 }
diff --git a/runners/spark/src/main/java/org/apache/beam/runners/spark/stateful/SparkStateInternals.java b/runners/spark/src/main/java/org/apache/beam/runners/spark/stateful/SparkStateInternals.java
@@ -25,6 +25,7 @@
 import java.util.List;
 import java.util.Map;
 import java.util.Set;
+import java.util.SortedMap;
 import java.util.function.Function;
 import org.apache.beam.runners.core.StateInternals;
 import org.apache.beam.runners.core.StateNamespace;
@@ -37,6 +38,7 @@
 import org.apache.beam.sdk.coders.SetCoder;
 import org.apache.beam.sdk.state.BagState;
 import org.apache.beam.sdk.state.CombiningState;
+import org.apache.beam.sdk.state.GroupingState;
 import org.apache.beam.sdk.state.MapState;
 import org.apache.beam.sdk.state.MultimapState;
 import org.apache.beam.sdk.state.OrderedListState;
@@ -53,8 +55,12 @@
 import org.apache.beam.sdk.transforms.CombineWithContext;
 import org.apache.beam.sdk.transforms.windowing.TimestampCombiner;
 import org.apache.beam.sdk.util.CombineFnUtil;
+import org.apache.beam.sdk.values.TimestampedValue;
+import org.apache.beam.vendor.guava.v32_1_2_jre.com.google.common.base.MoreObjects;
 import org.apache.beam.vendor.guava.v32_1_2_jre.com.google.common.collect.HashBasedTable;
 import org.apache.beam.vendor.guava.v32_1_2_jre.com.google.common.collect.ImmutableList;
+import org.apache.beam.vendor.guava.v32_1_2_jre.com.google.common.collect.Lists;
+import org.apache.beam.vendor.guava.v32_1_2_jre.com.google.common.collect.Maps;
 import org.apache.beam.vendor.guava.v32_1_2_jre.com.google.common.collect.Table;
 import org.checkerframework.checker.nullness.qual.Nullable;
 import org.joda.time.Instant;
@@ -149,8 +155,7 @@ public <KeyT, ValueT> MultimapState<KeyT, ValueT> bindMultimap(
     @Override
     public <T> OrderedListState<T> bindOrderedList(
         String id, StateSpec<OrderedListState<T>> spec, Coder<T> elemCoder) {
-      throw new UnsupportedOperationException(
-          String.format("%s is not supported", OrderedListState.class.getSimpleName()));
+      return new SparkOrderedListState<>(namespace, id, elemCoder);
     }
 
     @Override
@@ -622,4 +627,82 @@ public Boolean read() {
       };
     }
   }
+
+  private final class SparkOrderedListState<T> extends AbstractState<List<TimestampedValue<T>>>
+      implements OrderedListState<T> {
+
+    private SparkOrderedListState(StateNamespace namespace, String id, Coder<T> coder) {
+      super(namespace, id, ListCoder.of(TimestampedValue.TimestampedValueCoder.of(coder)));
+    }
+
+    private SortedMap<Instant, TimestampedValue<T>> readAsMap() {
+      final List<TimestampedValue<T>> listValues =
+          MoreObjects.firstNonNull(this.readValue(), Lists.newArrayList());
+      final SortedMap<Instant, TimestampedValue<T>> sortedMap = Maps.newTreeMap();
+      for (TimestampedValue<T> value : listValues) {
+        sortedMap.put(value.getTimestamp(), value);
+      }
+      return sortedMap;
+    }
+
+    @Override
+    public Iterable<TimestampedValue<T>> readRange(Instant minTimestamp, Instant limitTimestamp) {
+      return this.readAsMap().subMap(minTimestamp, limitTimestamp).values();
+    }
+
+    @Override
+    public void clearRange(Instant minTimestamp, Instant limitTimestamp) {
+      final SortedMap<Instant, TimestampedValue<T>> sortedMap = this.readAsMap();
+      sortedMap.subMap(minTimestamp, limitTimestamp).clear();
+      this.writeValue(Lists.newArrayList(sortedMap.values()));
+    }
+
+    @Override
+    public OrderedListState<T> readRangeLater(Instant minTimestamp, Instant limitTimestamp) {
+      return this;
+    }
+
+    @Override
+    public void add(TimestampedValue<T> value) {
+      final List<TimestampedValue<T>> listValue =
+          MoreObjects.firstNonNull(this.readValue(), Lists.newArrayList());
+      listValue.add(value);
+      this.writeValue(listValue);
+    }
+
+    @Override
+    public ReadableState<Boolean> isEmpty() {
+      return new ReadableState<Boolean>() {
+        @Override
+        public Boolean read() {
+          final List<TimestampedValue<T>> listValue = readValue();
+          return listValue == null || listValue.isEmpty();
+        }
+
+        @Override
+        public ReadableState<Boolean> readLater() {
+          return this;
+        }
+      };
+    }
+
+    @Override
+    public Iterable<TimestampedValue<T>> read() {
+      return this.readAsMap().values();
+    }
+
+    @Override
+    public GroupingState<TimestampedValue<T>, Iterable<TimestampedValue<T>>> readLater() {
+      return this;
+    }
+
+    @Override
+    public void clear() {
+      final List<TimestampedValue<T>> listValue = this.readValue();
+      if (listValue != null) {
+        listValue.clear();
+        this.writeValue(listValue);
+      }
+    }
+  }
 }