langchain-ai · isahers1 · Dec 20, 2024 · Dec 23, 2024 · Dec 23, 2024 · Dec 23, 2024
diff --git a/python/langsmith/evaluation/_arunner.py b/python/langsmith/evaluation/_arunner.py
@@ -1,4 +1,4 @@
 """V2 Evaluation Interface."""

 from __future__ import annotations

@@ -36,7 +36,6 @@
     AEVALUATOR_T,
     DATA_T,
     EVALUATOR_T,
-    ExperimentResultRow,
     _evaluators_include_attachments,
     _ExperimentManagerMixin,
     _extract_feedback_keys,
@@ -703,11 +702,11 @@
             upload_results=self._upload_results,
         )
 
-    async def aget_results(self) -> AsyncIterator[ExperimentResultRow]:
+    async def aget_results(self) -> AsyncIterator[schemas.ExperimentResultRow]:
         async for run, example, evaluation_results in aitertools.async_zip(
             self.aget_runs(), await self.aget_examples(), self.aget_evaluation_results()
         ):
-            yield ExperimentResultRow(
+            yield schemas.ExperimentResultRow(
                 run=run,
                 example=example,
                 evaluation_results=evaluation_results,
@@ -758,7 +757,7 @@
         self,
         evaluators: Sequence[RunEvaluator],
         max_concurrency: Optional[int] = None,
-    ) -> AsyncIterator[ExperimentResultRow]:
+    ) -> AsyncIterator[schemas.ExperimentResultRow]:
         with cf.ThreadPoolExecutor(max_workers=4) as executor:
 
             async def score_all():
@@ -776,9 +775,9 @@
     async def _arun_evaluators(
         self,
         evaluators: Sequence[RunEvaluator],
-        current_results: ExperimentResultRow,
+        current_results: schemas.ExperimentResultRow,
         executor: cf.ThreadPoolExecutor,
-    ) -> ExperimentResultRow:
+    ) -> schemas.ExperimentResultRow:
         current_context = rh.get_tracing_context()
         metadata = {
             **(current_context["metadata"] or {}),
@@ -848,22 +847,28 @@
                     for attachment in example.attachments:
                         reader = example.attachments[attachment]["reader"]
                         reader.seek(0)
-            return ExperimentResultRow(
+            return schemas.ExperimentResultRow(
                 run=run,
                 example=example,
                 evaluation_results=eval_results,
             )
 
     async def _aapply_summary_evaluators(
-        self, summary_evaluators: Sequence[SUMMARY_EVALUATOR_T]
+        self,
+        summary_evaluators: Sequence[SUMMARY_EVALUATOR_T],
     ) -> AsyncIterator[EvaluationResults]:
-        runs, examples = [], []
+        runs, examples, evaluation_results = [], [], []
+
         async_examples = aitertools.ensure_async_iterator(await self.aget_examples())
         async for run, example in aitertools.async_zip(
             self.aget_runs(), async_examples
         ):
             runs.append(run)
             examples.append(example)
+
+        async for evaluation_result in self.aget_evaluation_results():
+            evaluation_results.append(evaluation_result["results"])
+
         aggregate_feedback = []
         project_id = self._get_experiment().id if self._upload_results else None
         current_context = rh.get_tracing_context()
@@ -885,7 +890,7 @@
         ):
             for evaluator in summary_evaluators:
                 try:
-                    summary_eval_result = evaluator(runs, examples)
+                    summary_eval_result = evaluator(runs, examples, evaluation_results)
                     flattened_results = self.client._select_eval_results(
                         summary_eval_result,
                         fn_name=evaluator.__name__,
@@ -963,7 +968,7 @@
         experiment_manager: _AsyncExperimentManager,
     ):
         self._manager = experiment_manager
-        self._results: List[ExperimentResultRow] = []
+        self._results: List[schemas.ExperimentResultRow] = []
         self._lock = asyncio.Lock()
         self._task = asyncio.create_task(self._process_data(self._manager))
         self._processed_count = 0
@@ -972,10 +977,10 @@
     def experiment_name(self) -> str:
         return self._manager.experiment_name
 
-    def __aiter__(self) -> AsyncIterator[ExperimentResultRow]:
+    def __aiter__(self) -> AsyncIterator[schemas.ExperimentResultRow]:
         return self
 
-    async def __anext__(self) -> ExperimentResultRow:
+    async def __anext__(self) -> schemas.ExperimentResultRow:
         async def _wait_until_index(index: int) -> None:
             while self._processed_count < index:
                 await asyncio.sleep(0.05)

diff --git a/python/langsmith/evaluation/_runner.py b/python/langsmith/evaluation/_runner.py
@@ -534,12 +534,6 @@ def evaluate_existing(
     )
 
 
-class ExperimentResultRow(TypedDict):
-    run: schemas.Run
-    example: schemas.Example
-    evaluation_results: EvaluationResults
-
-
 class ExperimentResults:
     """Represents the results of an evaluate() call.
 
@@ -554,8 +548,8 @@ class ExperimentResults:
 
     def __init__(self, experiment_manager: _ExperimentManager, blocking: bool = True):
         self._manager = experiment_manager
-        self._results: List[ExperimentResultRow] = []
-        self._queue: queue.Queue[ExperimentResultRow] = queue.Queue()
+        self._results: List[schemas.ExperimentResultRow] = []
+        self._queue: queue.Queue[schemas.ExperimentResultRow] = queue.Queue()
         self._processing_complete = threading.Event()
         if not blocking:
             self._thread: Optional[threading.Thread] = threading.Thread(
@@ -570,7 +564,7 @@ def __init__(self, experiment_manager: _ExperimentManager, blocking: bool = True
     def experiment_name(self) -> str:
         return self._manager.experiment_name
 
-    def __iter__(self) -> Iterator[ExperimentResultRow]:
+    def __iter__(self) -> Iterator[schemas.ExperimentResultRow]:
         ix = 0
         while (
             not self._processing_complete.is_set()
@@ -1473,12 +1467,12 @@ def with_summary_evaluators(
             upload_results=self._upload_results,
         )
 
-    def get_results(self) -> Iterable[ExperimentResultRow]:
+    def get_results(self) -> Iterable[schemas.ExperimentResultRow]:
         """Return the traces, evaluation results, and associated examples."""
         for run, example, evaluation_results in zip(
             self.runs, self.examples, self.evaluation_results
         ):
-            yield ExperimentResultRow(
+            yield schemas.ExperimentResultRow(
                 run=run,
                 example=example,
                 evaluation_results=evaluation_results,
@@ -1544,9 +1538,9 @@ def _predict(
     def _run_evaluators(
         self,
         evaluators: Sequence[RunEvaluator],
-        current_results: ExperimentResultRow,
+        current_results: schemas.ExperimentResultRow,
         executor: cf.ThreadPoolExecutor,
-    ) -> ExperimentResultRow:
+    ) -> schemas.ExperimentResultRow:
         current_context = rh.get_tracing_context()
         metadata = {
             **(current_context["metadata"] or {}),
@@ -1619,7 +1613,7 @@ def _run_evaluators(
                         reader = example.attachments[attachment]["reader"]
                         reader.seek(0)
 
-            return ExperimentResultRow(
+            return schemas.ExperimentResultRow(
                 run=run,
                 example=example,
                 evaluation_results=eval_results,
@@ -1629,7 +1623,7 @@ def _score(
         self,
         evaluators: Sequence[RunEvaluator],
         max_concurrency: Optional[int] = None,
-    ) -> Iterable[ExperimentResultRow]:
+    ) -> Iterable[schemas.ExperimentResultRow]:
         """Run the evaluators on the prediction stream.
 
         Expects runs to be available in the manager.
@@ -1673,10 +1667,14 @@ def _score(
     def _apply_summary_evaluators(
         self, summary_evaluators: Sequence[SUMMARY_EVALUATOR_T]
     ) -> Generator[EvaluationResults, None, None]:
-        runs, examples = [], []
+        runs, examples, evaluation_results = [], [], []
         for run, example in zip(self.runs, self.examples):
             runs.append(run)
             examples.append(example)
+
+        for evaluation_result in self.evaluation_results:
+            evaluation_results.append(evaluation_result["results"])
+
         aggregate_feedback = []
         with ls_utils.ContextThreadPoolExecutor() as executor:
             project_id = self._get_experiment().id if self._upload_results else None
@@ -1699,7 +1697,9 @@ def _apply_summary_evaluators(
             ):
                 for evaluator in summary_evaluators:
                     try:
-                        summary_eval_result = evaluator(runs, examples)
+                        summary_eval_result = evaluator(
+                            runs, examples, evaluation_results
+                        )
                         # TODO: Expose public API for this.
                         flattened_results = self.client._select_eval_results(
                             summary_eval_result,
@@ -1793,16 +1793,20 @@ def _wrap(evaluator: SUMMARY_EVALUATOR_T) -> SUMMARY_EVALUATOR_T:
 
         @functools.wraps(evaluator)
         def _wrapper_inner(
-            runs: Sequence[schemas.Run], examples: Sequence[schemas.Example]
+            runs: Sequence[schemas.Run],
+            examples: Sequence[schemas.Example],
+            evaluation_results: Sequence[list[EvaluationResult]],
         ) -> Union[EvaluationResult, EvaluationResults]:
             @rh.traceable(name=eval_name)
             def _wrapper_super_inner(
-                runs_: str, examples_: str
+                runs_: str, examples_: str, evaluation_results_: str
             ) -> Union[EvaluationResult, EvaluationResults]:
-                return evaluator(list(runs), list(examples))
+                return evaluator(list(runs), list(examples), list(evaluation_results))
 
             return _wrapper_super_inner(
-                f"Runs[] (Length={len(runs)})", f"Examples[] (Length={len(examples)})"
+                f"Runs[] (Length={len(runs)})",
+                f"Examples[] (Length={len(examples)})",
+                f"EvaluationResults[] (Length={len(evaluation_results)})",
             )
 
         return _wrapper_inner
@@ -2173,7 +2177,7 @@ def extract_evaluation_results_keys(node, variables):
 
 
 def _to_pandas(
-    results: list[ExperimentResultRow],
+    results: list[schemas.ExperimentResultRow],
     start: Optional[int] = 0,
     end: Optional[int] = None,
 ):
@@ -2190,7 +2194,7 @@ def _to_pandas(
 
 
 def _flatten_experiment_results(
-    results: list[ExperimentResultRow],
+    results: list[schemas.ExperimentResultRow],
     start: Optional[int] = 0,
     end: Optional[int] = None,
 ):