diff --git a/.doctrees/data_juicer.analysis.doctree b/.doctrees/data_juicer.analysis.doctree
deleted file mode 100644
index 83688c6f2..000000000
Binary files a/.doctrees/data_juicer.analysis.doctree and /dev/null differ
diff --git a/.doctrees/data_juicer.config.doctree b/.doctrees/data_juicer.config.doctree
deleted file mode 100644
index 8ec06e4e6..000000000
Binary files a/.doctrees/data_juicer.config.doctree and /dev/null differ
diff --git a/.doctrees/data_juicer.core.doctree b/.doctrees/data_juicer.core.doctree
deleted file mode 100644
index 5897f2495..000000000
Binary files a/.doctrees/data_juicer.core.doctree and /dev/null differ
diff --git a/.doctrees/data_juicer.doctree b/.doctrees/data_juicer.doctree
deleted file mode 100644
index 068cc9084..000000000
Binary files a/.doctrees/data_juicer.doctree and /dev/null differ
diff --git a/.doctrees/data_juicer.format.doctree b/.doctrees/data_juicer.format.doctree
deleted file mode 100644
index 2fcaef22d..000000000
Binary files a/.doctrees/data_juicer.format.doctree and /dev/null differ
diff --git a/.doctrees/data_juicer.ops.common.doctree b/.doctrees/data_juicer.ops.common.doctree
deleted file mode 100644
index afd5f0b87..000000000
Binary files a/.doctrees/data_juicer.ops.common.doctree and /dev/null differ
diff --git a/.doctrees/data_juicer.ops.deduplicator.doctree b/.doctrees/data_juicer.ops.deduplicator.doctree
deleted file mode 100644
index 06e634384..000000000
Binary files a/.doctrees/data_juicer.ops.deduplicator.doctree and /dev/null differ
diff --git a/.doctrees/data_juicer.ops.doctree b/.doctrees/data_juicer.ops.doctree
deleted file mode 100644
index 1895ebcb0..000000000
Binary files a/.doctrees/data_juicer.ops.doctree and /dev/null differ
diff --git a/.doctrees/data_juicer.ops.filter.doctree b/.doctrees/data_juicer.ops.filter.doctree
deleted file mode 100644
index 73d9f8361..000000000
Binary files a/.doctrees/data_juicer.ops.filter.doctree and /dev/null differ
diff --git a/.doctrees/data_juicer.ops.mapper.doctree b/.doctrees/data_juicer.ops.mapper.doctree
deleted file mode 100644
index 4a6395cb8..000000000
Binary files a/.doctrees/data_juicer.ops.mapper.doctree and /dev/null differ
diff --git a/.doctrees/data_juicer.ops.selector.doctree b/.doctrees/data_juicer.ops.selector.doctree
deleted file mode 100644
index 9e4cd16b3..000000000
Binary files a/.doctrees/data_juicer.ops.selector.doctree and /dev/null differ
diff --git a/.doctrees/data_juicer.utils.doctree b/.doctrees/data_juicer.utils.doctree
deleted file mode 100644
index 6482d5580..000000000
Binary files a/.doctrees/data_juicer.utils.doctree and /dev/null differ
diff --git a/.doctrees/environment.pickle b/.doctrees/environment.pickle
index eaf99719e..1db72595d 100644
Binary files a/.doctrees/environment.pickle and b/.doctrees/environment.pickle differ
diff --git a/.doctrees/index.doctree b/.doctrees/index.doctree
index bb7231658..1ec9634a1 100644
Binary files a/.doctrees/index.doctree and b/.doctrees/index.doctree differ
diff --git a/.doctrees/modules.doctree b/.doctrees/modules.doctree
index 46c885473..7b5193c75 100644
Binary files a/.doctrees/modules.doctree and b/.doctrees/modules.doctree differ
diff --git a/_modules/data_juicer/analysis/column_wise_analysis.html b/_modules/data_juicer/analysis/column_wise_analysis.html
deleted file mode 100644
index 2705eea87..000000000
--- a/_modules/data_juicer/analysis/column_wise_analysis.html
+++ /dev/null
@@ -1,389 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.analysis.column_wise_analysis &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.analysis.column_wise_analysis</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">math</span>
-<span class="kn">import</span> <span class="nn">os</span>
-
-<span class="kn">import</span> <span class="nn">matplotlib.pyplot</span> <span class="k">as</span> <span class="nn">plt</span>
-<span class="kn">import</span> <span class="nn">pandas</span> <span class="k">as</span> <span class="nn">pd</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span>
-
-<span class="kn">from</span> <span class="nn">.overall_analysis</span> <span class="kn">import</span> <span class="n">OverallAnalysis</span>
-
-
-<div class="viewcode-block" id="get_row_col"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.get_row_col">[docs]</a><span class="k">def</span> <span class="nf">get_row_col</span><span class="p">(</span><span class="n">total_num</span><span class="p">,</span> <span class="n">factor</span><span class="o">=</span><span class="mi">2</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Given the total number of stats figures, get the &quot;best&quot; number of rows and</span>
-<span class="sd">    columns. This function is needed when we need to store all stats figures</span>
-<span class="sd">    into one image.</span>
-
-<span class="sd">    :param total_num: Total number of stats figures</span>
-<span class="sd">    :param factor: Number of sub-figure types in each figure. In</span>
-<span class="sd">        default, it&#39;s 2, which means there are histogram and box plot</span>
-<span class="sd">        for each stat figure</span>
-<span class="sd">    :return: &quot;best&quot; number of rows and columns, and the grid list</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">n</span> <span class="o">=</span> <span class="n">total_num</span> <span class="o">*</span> <span class="n">factor</span>  <span class="c1"># actual number of figures</span>
-    <span class="n">now_col</span> <span class="o">=</span> <span class="n">factor</span>  <span class="c1"># search from the minimum number of columns</span>
-    <span class="n">now_row</span> <span class="o">=</span> <span class="n">total_num</span>
-    <span class="k">for</span> <span class="n">col</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">factor</span><span class="p">,</span> <span class="n">n</span> <span class="o">+</span> <span class="mi">1</span><span class="p">,</span> <span class="n">factor</span><span class="p">):</span>
-        <span class="n">row</span> <span class="o">=</span> <span class="n">n</span> <span class="o">*</span> <span class="mf">1.0</span> <span class="o">/</span> <span class="n">col</span>
-        <span class="k">if</span> <span class="n">row</span> <span class="o">!=</span> <span class="nb">int</span><span class="p">(</span><span class="n">row</span><span class="p">):</span>  <span class="c1"># skip non-integer results</span>
-            <span class="k">continue</span>
-        <span class="k">if</span> <span class="n">col</span> <span class="o">&gt;</span> <span class="n">row</span><span class="p">:</span>
-            <span class="c1"># object: minimum the difference between number of columns and rows</span>
-            <span class="k">if</span> <span class="nb">abs</span><span class="p">(</span><span class="n">col</span> <span class="o">-</span> <span class="n">row</span><span class="p">)</span> <span class="o">&gt;</span> <span class="nb">abs</span><span class="p">(</span><span class="n">now_col</span> <span class="o">-</span> <span class="n">now_row</span><span class="p">):</span>
-                <span class="k">break</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">now_row</span> <span class="o">=</span> <span class="n">row</span>
-                <span class="n">now_col</span> <span class="o">=</span> <span class="n">col</span>
-                <span class="k">break</span>
-        <span class="n">now_row</span> <span class="o">=</span> <span class="n">row</span>
-        <span class="n">now_col</span> <span class="o">=</span> <span class="n">col</span>
-
-    <span class="c1"># different sub-figures of the same stats should be in the same row</span>
-    <span class="n">now_col</span> <span class="o">=</span> <span class="n">now_col</span> <span class="o">//</span> <span class="n">factor</span>
-
-    <span class="c1"># get grid indexes</span>
-    <span class="n">grids</span> <span class="o">=</span> <span class="p">[]</span>
-    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">total_num</span><span class="p">):</span>
-        <span class="n">grids</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">i</span> <span class="o">//</span> <span class="n">now_col</span><span class="p">,</span> <span class="n">i</span> <span class="o">%</span> <span class="n">now_col</span><span class="p">))</span>
-
-    <span class="k">return</span> <span class="nb">int</span><span class="p">(</span><span class="n">now_row</span><span class="p">),</span> <span class="nb">int</span><span class="p">(</span><span class="n">now_col</span><span class="p">),</span> <span class="n">grids</span></div>
-
-
-<div class="viewcode-block" id="ColumnWiseAnalysis"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis">[docs]</a><span class="k">class</span> <span class="nc">ColumnWiseAnalysis</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Apply analysis on each column of stats respectively.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">dataset</span><span class="p">,</span>
-                 <span class="n">output_path</span><span class="p">,</span>
-                 <span class="n">overall_result</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-                 <span class="n">save_stats_in_one_file</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method</span>
-<span class="sd">        :param dataset: the dataset to be analysed</span>
-<span class="sd">        :param output_path: path to store the analysis results</span>
-<span class="sd">        :param overall_result: optional precomputed overall stats result</span>
-<span class="sd">        :param save_stats_in_one_file: whether save all analysis figures of all</span>
-<span class="sd">            stats into one image file</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">stats</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">output_path</span> <span class="o">=</span> <span class="n">output_path</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">):</span>
-            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">)</span>
-
-        <span class="c1"># if no overall description provided, analyse it from scratch</span>
-        <span class="k">if</span> <span class="n">overall_result</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">oa</span> <span class="o">=</span> <span class="n">OverallAnalysis</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">output_path</span><span class="p">)</span>
-            <span class="n">overall_result</span> <span class="o">=</span> <span class="n">oa</span><span class="o">.</span><span class="n">analyse</span><span class="p">()</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">overall_result</span> <span class="o">=</span> <span class="n">overall_result</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">save_stats_in_one_file</span> <span class="o">=</span> <span class="n">save_stats_in_one_file</span>
-
-<div class="viewcode-block" id="ColumnWiseAnalysis.analyse"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyse">[docs]</a>    <span class="k">def</span> <span class="nf">analyse</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">show_percentiles</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">show</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Apply analysis and draw the analysis figure for stats.</span>
-
-<span class="sd">        :param show_percentiles: whether to show the percentile line in</span>
-<span class="sd">            each sub-figure. If it&#39;s true, there will be several red</span>
-<span class="sd">            lines to indicate the quantiles of the stats distributions</span>
-<span class="sd">        :param show: whether to show in a single window after drawing</span>
-<span class="sd">        :return:</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># number of sub-figures for each stat. There are histogram and box plot</span>
-        <span class="c1"># for now, so it&#39;s 2.</span>
-        <span class="n">num_subcol</span> <span class="o">=</span> <span class="mi">2</span>
-
-        <span class="c1"># Default width and height unit for each sub-figure</span>
-        <span class="n">width_unit</span> <span class="o">=</span> <span class="mi">4</span>
-        <span class="n">height_unit</span> <span class="o">=</span> <span class="mi">6</span>
-
-        <span class="n">columns</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">stats</span><span class="o">.</span><span class="n">columns</span>
-        <span class="n">num</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">columns</span><span class="p">)</span>
-
-        <span class="c1"># get the recommended &quot;best&quot; number of columns and rows</span>
-        <span class="n">rec_row</span><span class="p">,</span> <span class="n">rec_col</span><span class="p">,</span> <span class="n">grid_indexes</span> <span class="o">=</span> <span class="n">get_row_col</span><span class="p">(</span><span class="n">num</span><span class="p">,</span> <span class="n">num_subcol</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">save_stats_in_one_file</span><span class="p">:</span>
-            <span class="c1"># if save_stats_in_one_file is opened, use recommended &quot;best&quot;</span>
-            <span class="c1"># number of columns and rows to initialize the image panel.</span>
-            <span class="n">rec_width</span> <span class="o">=</span> <span class="n">rec_col</span> <span class="o">*</span> <span class="n">num_subcol</span> <span class="o">*</span> <span class="n">width_unit</span>
-            <span class="n">rec_height</span> <span class="o">=</span> <span class="n">rec_row</span> <span class="o">*</span> <span class="n">height_unit</span>
-            <span class="n">fig</span> <span class="o">=</span> <span class="n">plt</span><span class="o">.</span><span class="n">figure</span><span class="p">(</span><span class="n">figsize</span><span class="o">=</span><span class="p">(</span><span class="n">rec_width</span><span class="p">,</span> <span class="n">rec_height</span><span class="p">),</span>
-                             <span class="n">layout</span><span class="o">=</span><span class="s1">&#39;constrained&#39;</span><span class="p">)</span>
-            <span class="n">subfigs</span> <span class="o">=</span> <span class="n">fig</span><span class="o">.</span><span class="n">subfigures</span><span class="p">(</span><span class="n">rec_row</span><span class="p">,</span> <span class="n">rec_col</span><span class="p">,</span> <span class="n">wspace</span><span class="o">=</span><span class="mf">0.01</span><span class="p">)</span>
-        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">column_name</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">columns</span><span class="p">):</span>
-            <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">stats</span><span class="p">[</span><span class="n">column_name</span><span class="p">]</span>
-            <span class="n">grid</span> <span class="o">=</span> <span class="n">grid_indexes</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">save_stats_in_one_file</span><span class="p">:</span>
-                <span class="k">if</span> <span class="n">rec_col</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
-                    <span class="n">grid</span> <span class="o">=</span> <span class="n">grid</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
-                <span class="k">elif</span> <span class="n">rec_row</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
-                    <span class="n">grid</span> <span class="o">=</span> <span class="n">grid</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
-
-                <span class="k">if</span> <span class="n">rec_col</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="n">rec_row</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
-                    <span class="n">subfig</span> <span class="o">=</span> <span class="n">subfigs</span>
-                <span class="k">else</span><span class="p">:</span>
-                    <span class="n">subfig</span> <span class="o">=</span> <span class="n">subfigs</span><span class="p">[</span><span class="n">grid</span><span class="p">]</span>
-                <span class="n">subfig</span><span class="o">.</span><span class="n">set_facecolor</span><span class="p">(</span><span class="s1">&#39;0.85&#39;</span><span class="p">)</span>
-
-            <span class="c1"># numeric or string via nan. Apply different plot method for them.</span>
-            <span class="k">if</span> <span class="n">pd</span><span class="o">.</span><span class="n">isna</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">overall_result</span><span class="p">[</span><span class="n">column_name</span><span class="p">]</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;top&#39;</span><span class="p">)):</span>
-                <span class="c1"># numeric -- draw histogram and box plot for this stat</span>
-                <span class="n">percentiles</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">overall_result</span><span class="p">[</span><span class="n">column_name</span><span class="p">]</span> \
-                    <span class="k">if</span> <span class="n">show_percentiles</span> <span class="k">else</span> <span class="kc">None</span>
-
-                <span class="c1"># get axes for each subplot</span>
-                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">save_stats_in_one_file</span><span class="p">:</span>
-                    <span class="n">axes</span> <span class="o">=</span> <span class="n">subfig</span><span class="o">.</span><span class="n">subplots</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">num_subcol</span><span class="p">)</span>
-                <span class="k">else</span><span class="p">:</span>
-                    <span class="n">axes</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">*</span> <span class="n">num_subcol</span>
-
-                <span class="c1"># draw histogram</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">draw_hist</span><span class="p">(</span><span class="n">axes</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
-                               <span class="n">data</span><span class="p">,</span>
-                               <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">,</span>
-                                            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">column_name</span><span class="si">}</span><span class="s1">-hist.png&#39;</span><span class="p">),</span>
-                               <span class="n">percentiles</span><span class="o">=</span><span class="n">percentiles</span><span class="p">)</span>
-
-                <span class="c1"># draw box</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">draw_box</span><span class="p">(</span><span class="n">axes</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
-                              <span class="n">data</span><span class="p">,</span>
-                              <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">,</span>
-                                           <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">column_name</span><span class="si">}</span><span class="s1">-box.png&#39;</span><span class="p">),</span>
-                              <span class="n">percentiles</span><span class="o">=</span><span class="n">percentiles</span><span class="p">)</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="c1"># object (string) -- only draw histogram for this stat</span>
-                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">save_stats_in_one_file</span><span class="p">:</span>
-                    <span class="n">axes</span> <span class="o">=</span> <span class="n">subfig</span><span class="o">.</span><span class="n">subplots</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-                <span class="k">else</span><span class="p">:</span>
-                    <span class="n">axes</span> <span class="o">=</span> <span class="kc">None</span>
-
-                <span class="bp">self</span><span class="o">.</span><span class="n">draw_hist</span><span class="p">(</span>
-                    <span class="n">axes</span><span class="p">,</span> <span class="n">data</span><span class="p">,</span>
-                    <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">column_name</span><span class="si">}</span><span class="s1">-hist.png&#39;</span><span class="p">))</span>
-
-            <span class="c1"># add a title to the figure of this stat</span>
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">save_stats_in_one_file</span><span class="p">:</span>
-                <span class="n">subfig</span><span class="o">.</span><span class="n">suptitle</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">data</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">,</span>
-                                <span class="n">fontsize</span><span class="o">=</span><span class="s1">&#39;x-large&#39;</span><span class="p">,</span>
-                                <span class="n">fontweight</span><span class="o">=</span><span class="s1">&#39;bold&#39;</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">save_stats_in_one_file</span><span class="p">:</span>
-            <span class="n">fig</span> <span class="o">=</span> <span class="n">plt</span><span class="o">.</span><span class="n">gcf</span><span class="p">()</span>
-            <span class="n">fig</span><span class="o">.</span><span class="n">savefig</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">,</span> <span class="s1">&#39;all-stats.png&#39;</span><span class="p">))</span>
-            <span class="k">if</span> <span class="n">show</span><span class="p">:</span>
-                <span class="n">plt</span><span class="o">.</span><span class="n">show</span><span class="p">()</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="k">pass</span>
-                <span class="c1"># TODO: (fixme) the saved png sometime are blank</span>
-                <span class="n">plt</span><span class="o">.</span><span class="n">clf</span><span class="p">()</span></div>
-
-<div class="viewcode-block" id="ColumnWiseAnalysis.draw_hist"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist">[docs]</a>    <span class="k">def</span> <span class="nf">draw_hist</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ax</span><span class="p">,</span> <span class="n">data</span><span class="p">,</span> <span class="n">save_path</span><span class="p">,</span> <span class="n">percentiles</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">show</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Draw the histogram for the data.</span>
-
-<span class="sd">        :param ax: the axes to draw</span>
-<span class="sd">        :param data: data to draw</span>
-<span class="sd">        :param save_path: the path to save the histogram figure</span>
-<span class="sd">        :param percentiles: the overall analysis result of the data</span>
-<span class="sd">            including percentile information</span>
-<span class="sd">        :param show: whether to show in a single window after drawing</span>
-<span class="sd">        :return:</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># recommended number of bins</span>
-        <span class="n">data_num</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">data_num</span> <span class="o">&gt;=</span> <span class="mi">100</span><span class="p">:</span>
-            <span class="n">rec_bins</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">)))</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">rec_bins</span> <span class="o">=</span> <span class="kc">None</span>
-
-        <span class="c1"># if ax is None, using plot method in pandas</span>
-        <span class="k">if</span> <span class="n">ax</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">ax</span> <span class="o">=</span> <span class="n">data</span><span class="o">.</span><span class="n">hist</span><span class="p">(</span><span class="n">bins</span><span class="o">=</span><span class="n">rec_bins</span><span class="p">,</span> <span class="n">figsize</span><span class="o">=</span><span class="p">(</span><span class="mi">20</span><span class="p">,</span> <span class="mi">16</span><span class="p">))</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">ax</span><span class="o">.</span><span class="n">hist</span><span class="p">(</span><span class="n">data</span><span class="p">,</span> <span class="n">bins</span><span class="o">=</span><span class="n">rec_bins</span><span class="p">)</span>
-
-        <span class="c1"># set axes</span>
-        <span class="n">ax</span><span class="o">.</span><span class="n">set_xlabel</span><span class="p">(</span><span class="n">data</span><span class="o">.</span><span class="n">name</span><span class="p">)</span>
-        <span class="n">ax</span><span class="o">.</span><span class="n">set_ylabel</span><span class="p">(</span><span class="s1">&#39;Count&#39;</span><span class="p">)</span>
-
-        <span class="c1"># draw percentile lines if it&#39;s not None</span>
-        <span class="k">if</span> <span class="n">percentiles</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">ymin</span><span class="p">,</span> <span class="n">ymax</span> <span class="o">=</span> <span class="n">ax</span><span class="o">.</span><span class="n">get_ylim</span><span class="p">()</span>
-            <span class="k">for</span> <span class="n">percentile</span> <span class="ow">in</span> <span class="n">percentiles</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
-                <span class="c1"># skip other information</span>
-                <span class="k">if</span> <span class="n">percentile</span> <span class="ow">in</span> <span class="p">{</span><span class="s1">&#39;count&#39;</span><span class="p">,</span> <span class="s1">&#39;unique&#39;</span><span class="p">,</span> <span class="s1">&#39;top&#39;</span><span class="p">,</span> <span class="s1">&#39;freq&#39;</span><span class="p">,</span> <span class="s1">&#39;std&#39;</span><span class="p">}:</span>
-                    <span class="k">continue</span>
-                <span class="n">value</span> <span class="o">=</span> <span class="n">percentiles</span><span class="p">[</span><span class="n">percentile</span><span class="p">]</span>
-
-                <span class="n">ax</span><span class="o">.</span><span class="n">vlines</span><span class="p">(</span><span class="n">x</span><span class="o">=</span><span class="n">value</span><span class="p">,</span> <span class="n">ymin</span><span class="o">=</span><span class="n">ymin</span><span class="p">,</span> <span class="n">ymax</span><span class="o">=</span><span class="n">ymax</span><span class="p">,</span> <span class="n">colors</span><span class="o">=</span><span class="s1">&#39;r&#39;</span><span class="p">)</span>
-                <span class="n">ax</span><span class="o">.</span><span class="n">text</span><span class="p">(</span><span class="n">x</span><span class="o">=</span><span class="n">value</span><span class="p">,</span> <span class="n">y</span><span class="o">=</span><span class="n">ymax</span><span class="p">,</span> <span class="n">s</span><span class="o">=</span><span class="n">percentile</span><span class="p">,</span> <span class="n">rotation</span><span class="o">=</span><span class="mi">30</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s1">&#39;r&#39;</span><span class="p">)</span>
-                <span class="n">ax</span><span class="o">.</span><span class="n">text</span><span class="p">(</span><span class="n">x</span><span class="o">=</span><span class="n">value</span><span class="p">,</span>
-                        <span class="n">y</span><span class="o">=</span><span class="n">ymax</span> <span class="o">*</span> <span class="mf">0.97</span><span class="p">,</span>
-                        <span class="n">s</span><span class="o">=</span><span class="nb">str</span><span class="p">(</span><span class="nb">round</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span>
-                        <span class="n">rotation</span><span class="o">=</span><span class="mi">30</span><span class="p">,</span>
-                        <span class="n">color</span><span class="o">=</span><span class="s1">&#39;r&#39;</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">save_stats_in_one_file</span><span class="p">:</span>
-            <span class="c1"># save into file</span>
-            <span class="n">plt</span><span class="o">.</span><span class="n">savefig</span><span class="p">(</span><span class="n">save_path</span><span class="p">)</span>
-
-            <span class="k">if</span> <span class="n">show</span><span class="p">:</span>
-                <span class="n">plt</span><span class="o">.</span><span class="n">show</span><span class="p">()</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="c1"># if no showing, we need to clear this axes to avoid</span>
-                <span class="c1"># accumulated overlapped figures in different draw_xxx function</span>
-                <span class="c1"># calling</span>
-                <span class="n">ax</span><span class="o">.</span><span class="n">clear</span><span class="p">()</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="c1"># add a little rotation on labels of x axis to avoid overlapping</span>
-            <span class="n">ax</span><span class="o">.</span><span class="n">tick_params</span><span class="p">(</span><span class="n">axis</span><span class="o">=</span><span class="s1">&#39;x&#39;</span><span class="p">,</span> <span class="n">rotation</span><span class="o">=</span><span class="mi">25</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="ColumnWiseAnalysis.draw_box"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box">[docs]</a>    <span class="k">def</span> <span class="nf">draw_box</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ax</span><span class="p">,</span> <span class="n">data</span><span class="p">,</span> <span class="n">save_path</span><span class="p">,</span> <span class="n">percentiles</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">show</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Draw the box plot for the data.</span>
-
-<span class="sd">        :param ax: the axes to draw</span>
-<span class="sd">        :param data: data to draw</span>
-<span class="sd">        :param save_path: the path to save the box figure</span>
-<span class="sd">        :param percentiles: the overall analysis result of the data</span>
-<span class="sd">            including percentile information</span>
-<span class="sd">        :param show: whether to show in a single window after drawing</span>
-<span class="sd">        :return:</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># if ax is None, using plot method in pandas</span>
-        <span class="k">if</span> <span class="n">ax</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">ax</span> <span class="o">=</span> <span class="n">data</span><span class="o">.</span><span class="n">plot</span><span class="o">.</span><span class="n">box</span><span class="p">(</span><span class="n">figsize</span><span class="o">=</span><span class="p">(</span><span class="mi">20</span><span class="p">,</span> <span class="mi">16</span><span class="p">))</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">ax</span><span class="o">.</span><span class="n">boxplot</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
-
-        <span class="c1"># set axes</span>
-        <span class="n">ax</span><span class="o">.</span><span class="n">set_ylabel</span><span class="p">(</span><span class="n">data</span><span class="o">.</span><span class="n">name</span><span class="p">)</span>
-
-        <span class="c1"># draw percentile lines if it&#39;s not None</span>
-        <span class="k">if</span> <span class="n">percentiles</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">xmin</span><span class="p">,</span> <span class="n">xmax</span> <span class="o">=</span> <span class="n">ax</span><span class="o">.</span><span class="n">get_xlim</span><span class="p">()</span>
-            <span class="k">for</span> <span class="n">percentile</span> <span class="ow">in</span> <span class="n">percentiles</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
-                <span class="c1"># skip other information</span>
-                <span class="k">if</span> <span class="n">percentile</span> <span class="ow">in</span> <span class="p">{</span><span class="s1">&#39;count&#39;</span><span class="p">,</span> <span class="s1">&#39;unique&#39;</span><span class="p">,</span> <span class="s1">&#39;top&#39;</span><span class="p">,</span> <span class="s1">&#39;freq&#39;</span><span class="p">,</span> <span class="s1">&#39;std&#39;</span><span class="p">}:</span>
-                    <span class="k">continue</span>
-                <span class="n">value</span> <span class="o">=</span> <span class="n">percentiles</span><span class="p">[</span><span class="n">percentile</span><span class="p">]</span>
-
-                <span class="n">ax</span><span class="o">.</span><span class="n">hlines</span><span class="p">(</span><span class="n">y</span><span class="o">=</span><span class="n">value</span><span class="p">,</span> <span class="n">xmin</span><span class="o">=</span><span class="n">xmin</span><span class="p">,</span> <span class="n">xmax</span><span class="o">=</span><span class="n">xmax</span><span class="p">,</span> <span class="n">colors</span><span class="o">=</span><span class="s1">&#39;r&#39;</span><span class="p">)</span>
-                <span class="n">ax</span><span class="o">.</span><span class="n">text</span><span class="p">(</span><span class="n">y</span><span class="o">=</span><span class="n">value</span><span class="p">,</span>
-                        <span class="n">x</span><span class="o">=</span><span class="n">xmin</span> <span class="o">+</span> <span class="p">(</span><span class="n">xmax</span> <span class="o">-</span> <span class="n">xmin</span><span class="p">)</span> <span class="o">*</span> <span class="mf">0.6</span><span class="p">,</span>
-                        <span class="n">s</span><span class="o">=</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">percentile</span><span class="si">}</span><span class="s1">: </span><span class="si">{</span><span class="nb">round</span><span class="p">(</span><span class="n">value</span><span class="p">,</span><span class="w"> </span><span class="mi">3</span><span class="p">)</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">,</span>
-                        <span class="n">color</span><span class="o">=</span><span class="s1">&#39;r&#39;</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">save_stats_in_one_file</span><span class="p">:</span>
-            <span class="c1"># save into file</span>
-            <span class="n">plt</span><span class="o">.</span><span class="n">savefig</span><span class="p">(</span><span class="n">save_path</span><span class="p">)</span>
-
-            <span class="k">if</span> <span class="n">show</span><span class="p">:</span>
-                <span class="n">plt</span><span class="o">.</span><span class="n">show</span><span class="p">()</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="c1"># if no showing, we need to clear this axes to avoid</span>
-                <span class="c1"># accumulated overlapped figures in different draw_xxx function</span>
-                <span class="c1"># calling</span>
-                <span class="n">ax</span><span class="o">.</span><span class="n">clear</span><span class="p">()</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/analysis/diversity_analysis.html b/_modules/data_juicer/analysis/diversity_analysis.html
deleted file mode 100644
index f55b7d108..000000000
--- a/_modules/data_juicer/analysis/diversity_analysis.html
+++ /dev/null
@@ -1,259 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.analysis.diversity_analysis &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.analysis.diversity_analysis</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">os</span>
-
-<span class="kn">import</span> <span class="nn">pandas</span> <span class="k">as</span> <span class="nn">pd</span>
-<span class="kn">import</span> <span class="nn">spacy</span>
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.model_utils</span> <span class="kn">import</span> <span class="n">MODEL_ZOO</span><span class="p">,</span> <span class="n">prepare_model</span>
-
-
-<span class="c1"># Modify from self_instruct, please refer to</span>
-<span class="c1"># https://github.com/yizhongw/self-instruct/blob/main/self_instruct/instruction_visualize.ipynb</span>
-<div class="viewcode-block" id="find_root_verb_and_its_dobj"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj">[docs]</a><span class="k">def</span> <span class="nf">find_root_verb_and_its_dobj</span><span class="p">(</span><span class="n">tree_root</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Find the verb and its object closest to the root.</span>
-
-<span class="sd">    :param tree_root: the root of lexical tree</span>
-<span class="sd">    :return: valid verb and its object.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="c1"># first check if the current node and its children satisfy the condition</span>
-    <span class="k">if</span> <span class="n">tree_root</span><span class="o">.</span><span class="n">pos_</span> <span class="o">==</span> <span class="s1">&#39;VERB&#39;</span><span class="p">:</span>
-        <span class="k">for</span> <span class="n">child</span> <span class="ow">in</span> <span class="n">tree_root</span><span class="o">.</span><span class="n">children</span><span class="p">:</span>
-            <span class="k">if</span> <span class="n">child</span><span class="o">.</span><span class="n">dep_</span> <span class="o">==</span> <span class="s1">&#39;dobj&#39;</span> <span class="ow">and</span> <span class="n">child</span><span class="o">.</span><span class="n">pos_</span> <span class="o">==</span> <span class="s1">&#39;NOUN&#39;</span><span class="p">:</span>
-                <span class="k">return</span> <span class="n">tree_root</span><span class="o">.</span><span class="n">lemma_</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span>
-                    <span class="n">tree_root</span><span class="o">.</span><span class="n">lemma_</span><span class="p">)</span> <span class="k">else</span> <span class="n">tree_root</span><span class="o">.</span><span class="n">text</span><span class="p">,</span> <span class="n">child</span><span class="o">.</span><span class="n">lemma_</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span>
-                        <span class="n">child</span><span class="o">.</span><span class="n">lemma_</span><span class="p">)</span> <span class="k">else</span> <span class="n">child</span><span class="o">.</span><span class="n">text</span>
-        <span class="k">return</span> <span class="n">tree_root</span><span class="o">.</span><span class="n">lemma_</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span>
-            <span class="n">tree_root</span><span class="o">.</span><span class="n">lemma_</span><span class="p">)</span> <span class="k">else</span> <span class="n">tree_root</span><span class="o">.</span><span class="n">text</span><span class="p">,</span> <span class="kc">None</span>
-    <span class="c1"># if not, check its children</span>
-    <span class="k">for</span> <span class="n">child</span> <span class="ow">in</span> <span class="n">tree_root</span><span class="o">.</span><span class="n">children</span><span class="p">:</span>
-        <span class="k">return</span> <span class="n">find_root_verb_and_its_dobj</span><span class="p">(</span><span class="n">child</span><span class="p">)</span>
-    <span class="c1"># if no children satisfy the condition, return None</span>
-    <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span></div>
-
-
-<span class="c1"># Modify from self_instruct, please refer to</span>
-<span class="c1"># https://github.com/yizhongw/self-instruct/blob/main/self_instruct/instruction_visualize.ipynb</span>
-<div class="viewcode-block" id="find_root_verb_and_its_dobj_in_string"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string">[docs]</a><span class="k">def</span> <span class="nf">find_root_verb_and_its_dobj_in_string</span><span class="p">(</span><span class="n">nlp</span><span class="p">,</span> <span class="n">s</span><span class="p">,</span> <span class="n">first_sent</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Find the verb and its object closest to the root of lexical tree of input</span>
-<span class="sd">    string.</span>
-
-<span class="sd">    :param nlp: the diversity model to analyse the diversity strings</span>
-<span class="sd">    :param s: the string to be analysed</span>
-<span class="sd">    :param first_sent: whether to analyse the first sentence in the</span>
-<span class="sd">        input string only. If it&#39;s true, return the analysis result of</span>
-<span class="sd">        the first sentence no matter it&#39;s valid or not. If it&#39;s false,</span>
-<span class="sd">        return the first valid result over all sentences</span>
-<span class="sd">    :return: valid verb and its object of this string</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">doc</span> <span class="o">=</span> <span class="n">nlp</span><span class="p">(</span><span class="n">s</span><span class="p">)</span>
-    <span class="k">for</span> <span class="n">sent</span> <span class="ow">in</span> <span class="n">doc</span><span class="o">.</span><span class="n">sents</span><span class="p">:</span>
-        <span class="n">verb</span><span class="p">,</span> <span class="n">noun</span> <span class="o">=</span> <span class="n">find_root_verb_and_its_dobj</span><span class="p">(</span><span class="n">sent</span><span class="o">.</span><span class="n">root</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">first_sent</span> <span class="ow">or</span> <span class="p">(</span><span class="n">verb</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">noun</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">):</span>
-            <span class="k">return</span> <span class="n">verb</span><span class="p">,</span> <span class="n">noun</span>
-    <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span></div>
-
-
-<div class="viewcode-block" id="get_diversity"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.get_diversity">[docs]</a><span class="k">def</span> <span class="nf">get_diversity</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">top_k_verbs</span><span class="o">=</span><span class="mi">20</span><span class="p">,</span> <span class="n">top_k_nouns</span><span class="o">=</span><span class="mi">4</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Given the lexical tree analysis result, return the diversity results.</span>
-
-<span class="sd">    :param dataset: lexical tree analysis result</span>
-<span class="sd">    :param top_k_verbs: only keep the top_k_verbs largest verb groups</span>
-<span class="sd">    :param top_k_nouns: only keep the top_k_nouns largest noun groups</span>
-<span class="sd">        for each verb group</span>
-<span class="sd">    :param kwargs: extra args</span>
-<span class="sd">    :return: the diversity results</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">phrases</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span><span class="o">.</span><span class="n">dropna</span><span class="p">()</span>
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;find valid verb-noun structure </span><span class="se">\</span>
-<span class="s1">                </span><span class="si">{</span><span class="n">phrases</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="si">}</span><span class="s1"> of </span><span class="si">{</span><span class="n">dataset</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
-    <span class="n">top_verbs</span> <span class="o">=</span> <span class="n">phrases</span><span class="o">.</span><span class="n">groupby</span><span class="p">([</span><span class="s1">&#39;verb&#39;</span>
-                                 <span class="p">])</span><span class="o">.</span><span class="n">size</span><span class="p">()</span><span class="o">.</span><span class="n">nlargest</span><span class="p">(</span><span class="n">top_k_verbs</span><span class="p">)</span><span class="o">.</span><span class="n">reset_index</span><span class="p">()</span>
-
-    <span class="n">df</span> <span class="o">=</span> <span class="n">phrases</span><span class="p">[</span><span class="n">phrases</span><span class="p">[</span><span class="s1">&#39;verb&#39;</span><span class="p">]</span><span class="o">.</span><span class="n">isin</span><span class="p">(</span><span class="n">top_verbs</span><span class="p">[</span><span class="s1">&#39;verb&#39;</span><span class="p">]</span><span class="o">.</span><span class="n">tolist</span><span class="p">())]</span>
-    <span class="n">df</span> <span class="o">=</span> <span class="n">df</span><span class="o">.</span><span class="n">groupby</span><span class="p">([</span><span class="s1">&#39;verb&#39;</span><span class="p">,</span> <span class="s1">&#39;noun&#39;</span><span class="p">])</span><span class="o">.</span><span class="n">size</span><span class="p">()</span><span class="o">.</span><span class="n">reset_index</span><span class="p">()</span><span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="n">columns</span><span class="o">=</span><span class="p">{</span>
-        <span class="mi">0</span><span class="p">:</span> <span class="s1">&#39;count&#39;</span>
-    <span class="p">})</span><span class="o">.</span><span class="n">sort_values</span><span class="p">(</span><span class="n">by</span><span class="o">=</span><span class="p">[</span><span class="s1">&#39;count&#39;</span><span class="p">],</span> <span class="n">ascending</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
-
-    <span class="n">df</span> <span class="o">=</span> <span class="n">df</span><span class="o">.</span><span class="n">groupby</span><span class="p">(</span><span class="s1">&#39;verb&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">x</span><span class="o">.</span><span class="n">sort_values</span><span class="p">(</span>
-        <span class="s1">&#39;count&#39;</span><span class="p">,</span> <span class="n">ascending</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span><span class="o">.</span><span class="n">head</span><span class="p">(</span><span class="n">top_k_nouns</span><span class="p">))</span><span class="o">.</span><span class="n">reset_index</span><span class="p">(</span><span class="n">drop</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">df</span></div>
-
-
-<div class="viewcode-block" id="DiversityAnalysis"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis">[docs]</a><span class="k">class</span> <span class="nc">DiversityAnalysis</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Apply diversity analysis for each sample and get an overall analysis</span>
-<span class="sd">    result.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">output_path</span><span class="p">,</span> <span class="n">lang_or_model</span><span class="o">=</span><span class="s1">&#39;en&#39;</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Initialization method :param dataset: the dataset to be analysed</span>
-<span class="sd">        :param output_path: path to store the analysis results :param</span>
-<span class="sd">        lang_or_model: the diversity model or a specific language used to load</span>
-<span class="sd">        the diversity model.&quot;&quot;&quot;</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">output_path</span> <span class="o">=</span> <span class="n">output_path</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">):</span>
-            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lang_or_model</span> <span class="o">=</span> <span class="n">lang_or_model</span>
-
-<div class="viewcode-block" id="DiversityAnalysis.compute"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute">[docs]</a>    <span class="k">def</span> <span class="nf">compute</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">lang_or_model</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">column_name</span><span class="o">=</span><span class="s1">&#39;text&#39;</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Apply lexical tree analysis on each sample.</span>
-
-<span class="sd">        :param lang_or_model: the diversity model or a specific language</span>
-<span class="sd">            used to load the diversity model</span>
-<span class="sd">        :param column_name: the name of column to be analysed</span>
-<span class="sd">        :return: the analysis result.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># load diversity model</span>
-        <span class="n">lang_or_model</span> <span class="o">=</span> <span class="n">lang_or_model</span> <span class="k">if</span> <span class="n">lang_or_model</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">lang_or_model</span>
-        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">lang_or_model</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
-            <span class="n">diversity_model</span> <span class="o">=</span> <span class="n">MODEL_ZOO</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
-                <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang_or_model</span><span class="p">,</span> <span class="s1">&#39;spacy&#39;</span><span class="p">))</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">diversity_model</span> <span class="o">=</span> <span class="n">lang_or_model</span>
-
-        <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">diversity_model</span><span class="p">,</span> <span class="n">spacy</span><span class="o">.</span><span class="n">Language</span><span class="p">)</span>
-
-        <span class="k">def</span> <span class="nf">find_verb_noun</span><span class="p">(</span><span class="n">sample</span><span class="p">):</span>
-            <span class="k">try</span><span class="p">:</span>
-                <span class="n">verb</span><span class="p">,</span> <span class="n">noun</span> <span class="o">=</span> <span class="n">find_root_verb_and_its_dobj_in_string</span><span class="p">(</span>
-                    <span class="n">diversity_model</span><span class="p">,</span> <span class="n">sample</span><span class="p">[</span><span class="n">column_name</span><span class="p">])</span>
-            <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
-                <span class="nb">print</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">e</span><span class="p">))</span>
-                <span class="n">verb</span><span class="p">,</span> <span class="n">noun</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span>
-            <span class="k">return</span> <span class="p">{</span><span class="s1">&#39;verb&#39;</span><span class="p">:</span> <span class="n">verb</span><span class="p">,</span> <span class="s1">&#39;noun&#39;</span><span class="p">:</span> <span class="n">noun</span><span class="p">}</span>
-
-        <span class="n">dataset</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">find_verb_noun</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="DiversityAnalysis.analyse"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyse">[docs]</a>    <span class="k">def</span> <span class="nf">analyse</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                <span class="n">lang_or_model</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-                <span class="n">column_name</span><span class="o">=</span><span class="s1">&#39;text&#39;</span><span class="p">,</span>
-                <span class="n">postproc_func</span><span class="o">=</span><span class="n">get_diversity</span><span class="p">,</span>
-                <span class="o">**</span><span class="n">postproc_kwarg</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Apply diversity analysis on the whole dataset.</span>
-
-<span class="sd">        :param lang_or_model: the diversity model or a specific language</span>
-<span class="sd">            used to load the diversity model</span>
-<span class="sd">        :param column_name: the name of column to be analysed</span>
-<span class="sd">        :param postproc_func: function to analyse diversity. In default,</span>
-<span class="sd">            it&#39;s function get_diversity</span>
-<span class="sd">        :param postproc_kwarg: arguments of the postproc_func</span>
-<span class="sd">        :return:</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># get the lexical tree analysis result</span>
-        <span class="n">raw_df</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">compute</span><span class="p">(</span><span class="n">lang_or_model</span><span class="o">=</span><span class="n">lang_or_model</span><span class="p">,</span>
-                              <span class="n">column_name</span><span class="o">=</span><span class="n">column_name</span><span class="p">)</span>
-        <span class="c1"># get the result of diversity analysis</span>
-        <span class="n">df</span> <span class="o">=</span> <span class="n">postproc_func</span><span class="p">(</span><span class="n">raw_df</span><span class="p">,</span> <span class="o">**</span><span class="n">postproc_kwarg</span><span class="p">)</span>
-
-        <span class="c1"># export to result report file</span>
-        <span class="n">df</span><span class="o">.</span><span class="n">to_csv</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">,</span> <span class="s1">&#39;diversity.csv&#39;</span><span class="p">))</span>
-        <span class="n">df</span><span class="o">.</span><span class="n">to_markdown</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">,</span> <span class="s1">&#39;diversity.md&#39;</span><span class="p">))</span>
-
-        <span class="k">return</span> <span class="n">df</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/analysis/overall_analysis.html b/_modules/data_juicer/analysis/overall_analysis.html
deleted file mode 100644
index 3d390b7e8..000000000
--- a/_modules/data_juicer/analysis/overall_analysis.html
+++ /dev/null
@@ -1,142 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.analysis.overall_analysis &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.analysis.overall_analysis</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.analysis.overall_analysis</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">os</span>
-
-<span class="kn">import</span> <span class="nn">pandas</span> <span class="k">as</span> <span class="nn">pd</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span>
-<div class="viewcode-block" id="OverallAnalysis"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis">[docs]</a><span class="k">class</span> <span class="nc">OverallAnalysis</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Apply analysis on the overall stats, including mean, std, quantiles,</span>
-<span class="sd">    etc.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">output_path</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param dataset: the dataset to be analysed</span>
-<span class="sd">        :param output_path: path to store the analysis results.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">stats</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">output_path</span> <span class="o">=</span> <span class="n">output_path</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">):</span>
-            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">)</span>
-
-        <span class="c1"># default percentiles to analyse</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">default_percentiles</span> <span class="o">=</span> <span class="p">[</span><span class="mf">0.25</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">,</span> <span class="mf">0.75</span><span class="p">]</span>
-
-<div class="viewcode-block" id="OverallAnalysis.analyse"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.analyse">[docs]</a>    <span class="k">def</span> <span class="nf">analyse</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">percentiles</span><span class="o">=</span><span class="p">[]):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Apply overall analysis on the whole dataset based on the describe</span>
-<span class="sd">        method of pandas.</span>
-
-<span class="sd">        :param percentiles: percentiles to analyse</span>
-<span class="sd">        :return: the overall analysis result.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># merge default and customized percentiles and get overall information</span>
-        <span class="n">percentiles</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="n">percentiles</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">default_percentiles</span><span class="p">))</span>
-        <span class="n">overall</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">stats</span><span class="o">.</span><span class="n">describe</span><span class="p">(</span><span class="n">percentiles</span><span class="o">=</span><span class="n">percentiles</span><span class="p">,</span> <span class="n">include</span><span class="o">=</span><span class="s1">&#39;all&#39;</span><span class="p">)</span>
-
-        <span class="c1"># export to result report file</span>
-        <span class="n">overall</span><span class="o">.</span><span class="n">to_csv</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">,</span> <span class="s1">&#39;overall.csv&#39;</span><span class="p">))</span>
-        <span class="n">overall</span><span class="o">.</span><span class="n">to_markdown</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">,</span> <span class="s1">&#39;overall.md&#39;</span><span class="p">))</span>
-
-        <span class="k">return</span> <span class="n">overall</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/config/config.html b/_modules/data_juicer/config/config.html
deleted file mode 100644
index 986cd39be..000000000
--- a/_modules/data_juicer/config/config.html
+++ /dev/null
@@ -1,511 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.config.config &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.config.config</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">os</span>
-<span class="kn">import</span> <span class="nn">shutil</span>
-<span class="kn">import</span> <span class="nn">time</span>
-<span class="kn">from</span> <span class="nn">argparse</span> <span class="kn">import</span> <span class="n">ArgumentError</span>
-<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
-
-<span class="kn">from</span> <span class="nn">jsonargparse</span> <span class="kn">import</span> <span class="p">(</span><span class="n">ActionConfigFile</span><span class="p">,</span> <span class="n">ArgumentParser</span><span class="p">,</span> <span class="n">dict_to_namespace</span><span class="p">,</span>
-                          <span class="n">namespace_to_dict</span><span class="p">)</span>
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">NonNegativeInt</span><span class="p">,</span> <span class="n">PositiveInt</span>
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.ops.base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.logger_utils</span> <span class="kn">import</span> <span class="n">setup_logger</span>
-
-
-<div class="viewcode-block" id="init_configs"><a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.init_configs">[docs]</a><span class="k">def</span> <span class="nf">init_configs</span><span class="p">(</span><span class="n">args</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    initialize the jsonargparse parser and parse configs from one of:</span>
-<span class="sd">        1. POSIX-style commands line args;</span>
-<span class="sd">        2. config files in yaml (json and jsonnet supersets);</span>
-<span class="sd">        3. environment variables</span>
-<span class="sd">        4. hard-coded defaults</span>
-
-<span class="sd">    :param args: list of params, e.g., [&#39;--conifg&#39;, &#39;cfg.yaml&#39;], defaut None.</span>
-<span class="sd">    :return: a global cfg object used by the Executor or Analyser</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">parser</span> <span class="o">=</span> <span class="n">ArgumentParser</span><span class="p">(</span><span class="n">default_env</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">default_config_files</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span>
-
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--config&#39;</span><span class="p">,</span>
-        <span class="n">action</span><span class="o">=</span><span class="n">ActionConfigFile</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Path to a configuration file.&#39;</span><span class="p">,</span>
-        <span class="n">required</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-
-    <span class="c1"># basic global paras with extended type hints</span>
-    <span class="c1"># e.g., files can be mode include flags</span>
-    <span class="c1"># &quot;fr&quot;: &quot;path to a file that exists and is readable&quot;)</span>
-    <span class="c1"># &quot;fc&quot;: &quot;path to a file that can be created if it does not exist&quot;)</span>
-    <span class="c1"># &quot;dw&quot;: &quot;path to a directory that exists and is writeable&quot;)</span>
-    <span class="c1"># &quot;dc&quot;: &quot;path to a directory that can be created if it does not exist&quot;)</span>
-    <span class="c1"># &quot;drw&quot;: &quot;path to a directory that exists and is readable and writeable&quot;)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--project_name&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">str</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="s1">&#39;hello_world&#39;</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Name of your data process project.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--executor_type&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">str</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="s1">&#39;default&#39;</span><span class="p">,</span>
-        <span class="n">choices</span><span class="o">=</span><span class="p">[</span><span class="s1">&#39;default&#39;</span><span class="p">,</span> <span class="s1">&#39;ray&#39;</span><span class="p">],</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Type of executor, support &quot;default&quot; or &quot;ray&quot; for now.&#39;</span>
-    <span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--dataset_path&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">str</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Path to datasets with optional weights(0.0-1.0), 1.0 as &#39;</span>
-             <span class="s1">&#39;default. Accepted format:&lt;w1&gt; dataset1-path &lt;w2&gt; dataset2-path &#39;</span>
-             <span class="s1">&#39;&lt;w3&gt; dataset3-path ...&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--export_path&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">str</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="s1">&#39;./outputs/hello_world.jsonl&#39;</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Path to export and save the output processed dataset. The &#39;</span>
-             <span class="s1">&#39;directory to store the processed dataset will be the work &#39;</span>
-             <span class="s1">&#39;directory of this process.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--export_shard_size&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="n">NonNegativeInt</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Shard size of exported dataset in Byte. In default, it</span><span class="se">\&#39;</span><span class="s1">s 0, &#39;</span>
-             <span class="s1">&#39;which means export the whole dataset into only one file. If &#39;</span>
-             <span class="s1">&#39;it</span><span class="se">\&#39;</span><span class="s1">s set a positive number, the exported dataset will be split &#39;</span>
-             <span class="s1">&#39;into several sub-dataset shards, and the max size of each shard &#39;</span>
-             <span class="s1">&#39;won</span><span class="se">\&#39;</span><span class="s1">t larger than the export_shard_size&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--export_in_parallel&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">bool</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Whether to export the result dataset in parallel to a single &#39;</span>
-             <span class="s1">&#39;file, which usually takes less time. It only works when &#39;</span>
-             <span class="s1">&#39;export_shard_size is 0, and its default number of processes is &#39;</span>
-             <span class="s1">&#39;the same as the argument np. **Notice**: If it</span><span class="se">\&#39;</span><span class="s1">s True, &#39;</span>
-             <span class="s1">&#39;sometimes exporting in parallel might require much more time &#39;</span>
-             <span class="s1">&#39;due to the IO blocking, especially for very large datasets. &#39;</span>
-             <span class="s1">&#39;When this happens, False is a better choice, although it takes &#39;</span>
-             <span class="s1">&#39;more time.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--np&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="n">PositiveInt</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="mi">4</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Number of processes to process dataset.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--text_keys&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
-        <span class="n">default</span><span class="o">=</span><span class="s1">&#39;text&#39;</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Key name of field where the sample texts to be processed, e.g., &#39;</span>
-             <span class="s1">&#39;`text`, `text.instruction`, `text.output`, ... Note: currently, &#39;</span>
-             <span class="s1">&#39;we support specify only ONE key for each op, for cases &#39;</span>
-             <span class="s1">&#39;requiring multiple keys, users can specify the op multiple &#39;</span>
-             <span class="s1">&#39;times.  We will only use the first key of `text_keys` when you &#39;</span>
-             <span class="s1">&#39;set multiple keys.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--suffixes&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
-        <span class="n">default</span><span class="o">=</span><span class="p">[],</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Suffixes of files that will be find and loaded. If not set, we &#39;</span>
-             <span class="s1">&#39;will find all suffix files, and select a suitable formatter &#39;</span>
-             <span class="s1">&#39;with the most files as default.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--use_cache&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">bool</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Whether to use the cache management of huggingface datasets. It &#39;</span>
-             <span class="s1">&#39;might take up lots of disk space when using cache&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--ds_cache_dir&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">str</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="s1">&#39;~/.cache/huggingface/datasets&#39;</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Cache dir for HuggingFace datasets. In default it</span><span class="se">\&#39;</span><span class="s1">s the &#39;</span>
-             <span class="s1">&#39;default cache dir &quot;~/.cache/huggingface/datasets&quot;. If this &#39;</span>
-             <span class="s1">&#39;argument is reset by users, it will override the default cache &#39;</span>
-             <span class="s1">&#39;dir.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--cache_compress&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">str</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;The compression method of the cache file, which can be&#39;</span>
-             <span class="s1">&#39;specified in [&quot;gzip&quot;, &quot;zstd&quot;, &quot;lz4&quot;]. If this parameter is&#39;</span>
-             <span class="s1">&#39;None, the cache file will not be compressed.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--use_checkpoint&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">bool</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Whether to use the checkpoint management to save the latest &#39;</span>
-             <span class="s1">&#39;version of dataset to work dir when processing. Rerun the same &#39;</span>
-             <span class="s1">&#39;config will reload the checkpoint and skip ops before it. Cache &#39;</span>
-             <span class="s1">&#39;will be disabled when it is true . If args of ops before the &#39;</span>
-             <span class="s1">&#39;checkpoint are changed, all ops will be rerun from the &#39;</span>
-             <span class="s1">&#39;beginning.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--temp_dir&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">str</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Path to the temp directory to store intermediate caches when &#39;</span>
-             <span class="s1">&#39;cache is disabled. In default it</span><span class="se">\&#39;</span><span class="s1">s None, so the temp dir will &#39;</span>
-             <span class="s1">&#39;be specified by system. NOTICE: you should be caution when &#39;</span>
-             <span class="s1">&#39;setting this argument because it might cause unexpected program &#39;</span>
-             <span class="s1">&#39;behaviors when this path is set to an unsafe directory.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--open_tracer&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">bool</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Whether to open the tracer to trace samples changed during &#39;</span>
-             <span class="s1">&#39;process. It might take more time when opening tracer.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--op_list_to_trace&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
-        <span class="n">default</span><span class="o">=</span><span class="p">[],</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Which ops will be traced by tracer. If it</span><span class="se">\&#39;</span><span class="s1">s empty, all ops in &#39;</span>
-             <span class="s1">&#39;cfg.process will be traced. Only available when open_tracer is &#39;</span>
-             <span class="s1">&#39;true.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--trace_num&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">int</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Number of samples extracted by tracer to show the dataset &#39;</span>
-             <span class="s1">&#39;difference before and after a op. Only available when &#39;</span>
-             <span class="s1">&#39;open_tracer is true.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--op_fusion&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">bool</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Whether to fuse operators that share the same intermediate &#39;</span>
-             <span class="s1">&#39;variables automatically. Op fusion might reduce the memory &#39;</span>
-             <span class="s1">&#39;requirements slightly but speed up the whole process.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--process&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="n">List</span><span class="p">[</span><span class="n">Dict</span><span class="p">],</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;List of several operators with their arguments, these ops will &#39;</span>
-             <span class="s1">&#39;be applied to dataset in order&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--save_stats_in_one_file&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">bool</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;Whether to save all stats to only one file. Only used in &#39;</span>
-             <span class="s1">&#39;Analysis.&#39;</span><span class="p">)</span>
-    <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
-        <span class="s1">&#39;--ray_address&#39;</span><span class="p">,</span>
-        <span class="nb">type</span><span class="o">=</span><span class="nb">str</span><span class="p">,</span>
-        <span class="n">default</span><span class="o">=</span><span class="s1">&#39;auto&#39;</span><span class="p">,</span>
-        <span class="n">help</span><span class="o">=</span><span class="s1">&#39;The address of the Ray cluster.&#39;</span>
-    <span class="p">)</span>
-
-    <span class="c1"># add all parameters of the registered ops class to the parser,</span>
-    <span class="c1"># and these op parameters can be modified through the command line,</span>
-    <span class="n">ops_sorted_by_types</span> <span class="o">=</span> <span class="n">sort_op_by_types_and_names</span><span class="p">(</span><span class="n">OPERATORS</span><span class="o">.</span><span class="n">modules</span><span class="o">.</span><span class="n">items</span><span class="p">())</span>
-    <span class="n">_collect_config_info_from_class_docs</span><span class="p">(</span><span class="n">ops_sorted_by_types</span><span class="p">,</span> <span class="n">parser</span><span class="p">)</span>
-
-    <span class="k">try</span><span class="p">:</span>
-        <span class="n">cfg</span> <span class="o">=</span> <span class="n">parser</span><span class="o">.</span><span class="n">parse_args</span><span class="p">(</span><span class="n">args</span><span class="o">=</span><span class="n">args</span><span class="p">)</span>
-        <span class="n">option_in_commands</span> <span class="o">=</span> <span class="p">[</span>
-            <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">arg</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;--&#39;</span><span class="p">)[</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">])</span> <span class="k">for</span> <span class="n">arg</span> <span class="ow">in</span> <span class="n">parser</span><span class="o">.</span><span class="n">args</span>
-            <span class="k">if</span> <span class="s1">&#39;--&#39;</span> <span class="ow">in</span> <span class="n">arg</span> <span class="ow">and</span> <span class="s1">&#39;config&#39;</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">arg</span>
-        <span class="p">]</span>
-
-        <span class="n">full_option_in_commands</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span>
-            <span class="nb">set</span><span class="p">([</span>
-                <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">arg</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;--&#39;</span><span class="p">)[</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;=&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">])</span>
-                <span class="k">for</span> <span class="n">arg</span> <span class="ow">in</span> <span class="n">parser</span><span class="o">.</span><span class="n">args</span> <span class="k">if</span> <span class="s1">&#39;--&#39;</span> <span class="ow">in</span> <span class="n">arg</span> <span class="ow">and</span> <span class="s1">&#39;config&#39;</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">arg</span>
-            <span class="p">]))</span>
-
-        <span class="k">if</span> <span class="n">cfg</span><span class="o">.</span><span class="n">process</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">cfg</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="p">[]</span>
-
-        <span class="c1"># check and update every op params in `cfg.process`</span>
-        <span class="c1"># e.g.</span>
-        <span class="c1"># `python demo.py --config demo.yaml</span>
-        <span class="c1">#  --language_id_score_filter.lang en`</span>
-        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">op_in_process</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">cfg</span><span class="o">.</span><span class="n">process</span><span class="p">):</span>
-            <span class="n">op_in_process_name</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">op_in_process</span><span class="o">.</span><span class="n">keys</span><span class="p">())[</span><span class="mi">0</span><span class="p">]</span>
-
-            <span class="n">temp_cfg</span> <span class="o">=</span> <span class="n">cfg</span>
-            <span class="k">if</span> <span class="n">op_in_process_name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">option_in_commands</span><span class="p">:</span>
-
-                <span class="c1"># update op params to temp cfg if set</span>
-                <span class="k">if</span> <span class="n">op_in_process</span><span class="p">[</span><span class="n">op_in_process_name</span><span class="p">]:</span>
-                    <span class="n">temp_cfg</span> <span class="o">=</span> <span class="n">parser</span><span class="o">.</span><span class="n">merge_config</span><span class="p">(</span>
-                        <span class="n">dict_to_namespace</span><span class="p">(</span><span class="n">op_in_process</span><span class="p">),</span> <span class="n">cfg</span><span class="p">)</span>
-            <span class="k">else</span><span class="p">:</span>
-
-                <span class="c1"># args in the command line override the ones in `cfg.process`</span>
-                <span class="k">for</span> <span class="n">full_option_in_command</span> <span class="ow">in</span> <span class="n">full_option_in_commands</span><span class="p">:</span>
-
-                    <span class="n">key</span> <span class="o">=</span> <span class="n">full_option_in_command</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)[</span><span class="mi">1</span><span class="p">]</span>
-                    <span class="k">if</span> <span class="n">op_in_process</span><span class="p">[</span>
-                            <span class="n">op_in_process_name</span><span class="p">]</span> <span class="ow">and</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">op_in_process</span><span class="p">[</span>
-                                <span class="n">op_in_process_name</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
-                        <span class="n">op_in_process</span><span class="p">[</span><span class="n">op_in_process_name</span><span class="p">]</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">)</span>
-
-                <span class="k">if</span> <span class="n">op_in_process</span><span class="p">[</span><span class="n">op_in_process_name</span><span class="p">]:</span>
-                    <span class="n">temp_cfg</span> <span class="o">=</span> <span class="n">parser</span><span class="o">.</span><span class="n">merge_config</span><span class="p">(</span>
-                        <span class="n">dict_to_namespace</span><span class="p">(</span><span class="n">op_in_process</span><span class="p">),</span> <span class="n">temp_cfg</span><span class="p">)</span>
-
-            <span class="c1"># update op params of cfg.process</span>
-            <span class="n">internal_op_para</span> <span class="o">=</span> <span class="n">temp_cfg</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">op_in_process_name</span><span class="p">)</span>
-
-            <span class="n">cfg</span><span class="o">.</span><span class="n">process</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span>
-                <span class="n">op_in_process_name</span><span class="p">:</span>
-                <span class="kc">None</span> <span class="k">if</span> <span class="n">internal_op_para</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span>
-                <span class="n">namespace_to_dict</span><span class="p">(</span><span class="n">internal_op_para</span><span class="p">)</span>
-            <span class="p">}</span>
-
-        <span class="n">cfg</span> <span class="o">=</span> <span class="n">init_setup_from_cfg</span><span class="p">(</span><span class="n">cfg</span><span class="p">)</span>
-
-        <span class="c1"># copy the config file into the work directory</span>
-        <span class="n">config_backup</span><span class="p">(</span><span class="n">cfg</span><span class="p">)</span>
-
-        <span class="c1"># show the final config tables before the process started</span>
-        <span class="n">display_config</span><span class="p">(</span><span class="n">cfg</span><span class="p">)</span>
-
-        <span class="k">return</span> <span class="n">cfg</span>
-    <span class="k">except</span> <span class="n">ArgumentError</span><span class="p">:</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span><span class="s1">&#39;Config initialization failed&#39;</span><span class="p">)</span></div>
-
-
-<div class="viewcode-block" id="init_setup_from_cfg"><a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.init_setup_from_cfg">[docs]</a><span class="k">def</span> <span class="nf">init_setup_from_cfg</span><span class="p">(</span><span class="n">cfg</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Do some extra setup tasks after parsing config file or command line.</span>
-
-<span class="sd">    1. create working directory and a log directory</span>
-<span class="sd">    2. update cache directory</span>
-<span class="sd">    3. update checkpoint and `temp_dir` of tempfile</span>
-
-<span class="sd">    :param cfg: a original cfg</span>
-<span class="sd">    :param cfg: a updated cfg</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="n">export_path</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">export_path</span>
-    <span class="n">cfg</span><span class="o">.</span><span class="n">work_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">export_path</span><span class="p">)</span>
-    <span class="n">log_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">cfg</span><span class="o">.</span><span class="n">work_dir</span><span class="p">,</span> <span class="s1">&#39;log&#39;</span><span class="p">)</span>
-    <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">log_dir</span><span class="p">):</span>
-        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">log_dir</span><span class="p">,</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-    <span class="n">timestamp</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">strftime</span><span class="p">(</span><span class="s1">&#39;%Y%m</span><span class="si">%d</span><span class="s1">%H%M%S&#39;</span><span class="p">,</span> <span class="n">time</span><span class="o">.</span><span class="n">localtime</span><span class="p">(</span><span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()))</span>
-    <span class="n">cfg</span><span class="o">.</span><span class="n">timestamp</span> <span class="o">=</span> <span class="n">timestamp</span>
-    <span class="n">logfile_name</span> <span class="o">=</span> <span class="n">timestamp</span> <span class="o">+</span> <span class="s1">&#39;.txt&#39;</span>
-    <span class="n">setup_logger</span><span class="p">(</span><span class="n">save_dir</span><span class="o">=</span><span class="n">log_dir</span><span class="p">,</span> <span class="n">filename</span><span class="o">=</span><span class="n">logfile_name</span><span class="p">,</span> <span class="n">redirect</span><span class="o">=</span><span class="n">cfg</span><span class="o">.</span><span class="n">executor_type</span><span class="o">==</span><span class="s1">&#39;default&#39;</span><span class="p">)</span>
-
-    <span class="c1"># whether or not to use cache management</span>
-    <span class="c1"># disabling the cache or using checkpoint explicitly will turn off the</span>
-    <span class="c1"># cache management.</span>
-    <span class="k">if</span> <span class="ow">not</span> <span class="n">cfg</span><span class="o">.</span><span class="n">use_cache</span> <span class="ow">or</span> <span class="n">cfg</span><span class="o">.</span><span class="n">use_checkpoint</span><span class="p">:</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;Cache management of datasets is disabled.&#39;</span><span class="p">)</span>
-        <span class="kn">from</span> <span class="nn">datasets</span> <span class="kn">import</span> <span class="n">disable_caching</span>
-        <span class="n">disable_caching</span><span class="p">()</span>
-        <span class="n">cfg</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="kc">False</span>
-
-        <span class="c1"># disabled cache compression when cache is disabled</span>
-        <span class="k">if</span> <span class="n">cfg</span><span class="o">.</span><span class="n">cache_compress</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;Disable cache compression due to disabled cache.&#39;</span><span class="p">)</span>
-            <span class="n">cfg</span><span class="o">.</span><span class="n">cache_compress</span> <span class="o">=</span> <span class="kc">None</span>
-
-        <span class="c1"># when disabling cache, enable the temp_dir argument</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Set temp directory to store temp files to &#39;</span>
-                       <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="n">cfg</span><span class="o">.</span><span class="n">temp_dir</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
-        <span class="kn">import</span> <span class="nn">tempfile</span>
-        <span class="k">if</span> <span class="n">cfg</span><span class="o">.</span><span class="n">temp_dir</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">cfg</span><span class="o">.</span><span class="n">temp_dir</span><span class="p">):</span>
-            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">cfg</span><span class="o">.</span><span class="n">temp_dir</span><span class="p">,</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-        <span class="n">tempfile</span><span class="o">.</span><span class="n">tempdir</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">temp_dir</span>
-
-    <span class="c1"># The checkpoint mode is not compatible with op fusion for now.</span>
-    <span class="k">if</span> <span class="n">cfg</span><span class="o">.</span><span class="n">op_fusion</span><span class="p">:</span>
-        <span class="n">cfg</span><span class="o">.</span><span class="n">use_checkpoint</span> <span class="o">=</span> <span class="kc">False</span>
-
-    <span class="c1"># reset huggingface datasets cache directory</span>
-    <span class="kn">from</span> <span class="nn">datasets</span> <span class="kn">import</span> <span class="n">config</span>
-    <span class="n">config</span><span class="o">.</span><span class="n">HF_DATASETS_CACHE</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">ds_cache_dir</span>
-
-    <span class="c1"># if there is suffix_filter op, turn on the add_suffix flag</span>
-    <span class="n">cfg</span><span class="o">.</span><span class="n">add_suffix</span> <span class="o">=</span> <span class="kc">False</span>
-    <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="n">cfg</span><span class="o">.</span><span class="n">process</span><span class="p">:</span>
-        <span class="n">op_name</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">items</span><span class="p">())[</span><span class="mi">0</span><span class="p">]</span>
-        <span class="k">if</span> <span class="n">op_name</span> <span class="o">==</span> <span class="s1">&#39;suffix_filter&#39;</span><span class="p">:</span>
-            <span class="n">cfg</span><span class="o">.</span><span class="n">add_suffix</span> <span class="o">=</span> <span class="kc">True</span>
-            <span class="k">break</span>
-
-    <span class="c1"># Apply text_key modification during initializing configs</span>
-    <span class="c1"># users can freely specify text_key for different ops using `text_key`</span>
-    <span class="c1"># otherwise, set arg text_key of each op to text_keys</span>
-    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">cfg</span><span class="o">.</span><span class="n">text_keys</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
-        <span class="n">text_key</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">text_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="n">text_key</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">text_keys</span>
-    <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="n">cfg</span><span class="o">.</span><span class="n">process</span><span class="p">:</span>
-        <span class="k">for</span> <span class="n">op_name</span> <span class="ow">in</span> <span class="n">op</span><span class="p">:</span>
-            <span class="n">args</span> <span class="o">=</span> <span class="n">op</span><span class="p">[</span><span class="n">op_name</span><span class="p">]</span>
-            <span class="k">if</span> <span class="n">args</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="n">args</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;text_key&#39;</span><span class="p">:</span> <span class="n">text_key</span><span class="p">}</span>
-            <span class="k">elif</span> <span class="n">args</span><span class="p">[</span><span class="s1">&#39;text_key&#39;</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="n">args</span><span class="p">[</span><span class="s1">&#39;text_key&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">text_key</span>
-            <span class="n">op</span><span class="p">[</span><span class="n">op_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">args</span>
-
-    <span class="k">return</span> <span class="n">cfg</span></div>
-
-
-<span class="k">def</span> <span class="nf">_collect_config_info_from_class_docs</span><span class="p">(</span><span class="n">configurable_ops</span><span class="p">,</span> <span class="n">parser</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Add ops and its params to parser for command line.</span>
-
-<span class="sd">    :param configurable_ops: a list of ops to be to added, each item is</span>
-<span class="sd">        a pair of op_name and op_class</span>
-<span class="sd">    :param parser: jsonargparse parser need to update</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">for</span> <span class="n">op_name</span><span class="p">,</span> <span class="n">op_class</span> <span class="ow">in</span> <span class="n">configurable_ops</span><span class="p">:</span>
-        <span class="n">parser</span><span class="o">.</span><span class="n">add_class_arguments</span><span class="p">(</span>
-            <span class="n">theclass</span><span class="o">=</span><span class="n">op_class</span><span class="p">,</span>
-            <span class="n">nested_key</span><span class="o">=</span><span class="n">op_name</span><span class="p">,</span>
-            <span class="n">fail_untyped</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-            <span class="n">instantiate</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="p">)</span>
-
-
-<div class="viewcode-block" id="sort_op_by_types_and_names"><a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.sort_op_by_types_and_names">[docs]</a><span class="k">def</span> <span class="nf">sort_op_by_types_and_names</span><span class="p">(</span><span class="n">op_name_classes</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Split ops items by op type and sort them to sub-ops by name, then concat</span>
-<span class="sd">    together.</span>
-
-<span class="sd">    :param op_name_classes: a list of op modules</span>
-<span class="sd">    :return: sorted op list , each item is a pair of op_name and</span>
-<span class="sd">        op_class</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="n">mapper_ops</span> <span class="o">=</span> <span class="p">[(</span><span class="n">name</span><span class="p">,</span> <span class="n">c</span><span class="p">)</span> <span class="k">for</span> <span class="p">(</span><span class="n">name</span><span class="p">,</span> <span class="n">c</span><span class="p">)</span> <span class="ow">in</span> <span class="n">op_name_classes</span>
-                  <span class="k">if</span> <span class="s1">&#39;mapper&#39;</span> <span class="ow">in</span> <span class="n">name</span><span class="p">]</span>
-    <span class="n">filter_ops</span> <span class="o">=</span> <span class="p">[(</span><span class="n">name</span><span class="p">,</span> <span class="n">c</span><span class="p">)</span> <span class="k">for</span> <span class="p">(</span><span class="n">name</span><span class="p">,</span> <span class="n">c</span><span class="p">)</span> <span class="ow">in</span> <span class="n">op_name_classes</span>
-                  <span class="k">if</span> <span class="s1">&#39;filter&#39;</span> <span class="ow">in</span> <span class="n">name</span><span class="p">]</span>
-    <span class="n">deduplicator_ops</span> <span class="o">=</span> <span class="p">[(</span><span class="n">name</span><span class="p">,</span> <span class="n">c</span><span class="p">)</span> <span class="k">for</span> <span class="p">(</span><span class="n">name</span><span class="p">,</span> <span class="n">c</span><span class="p">)</span> <span class="ow">in</span> <span class="n">op_name_classes</span>
-                        <span class="k">if</span> <span class="s1">&#39;deduplicator&#39;</span> <span class="ow">in</span> <span class="n">name</span><span class="p">]</span>
-    <span class="n">selector_ops</span> <span class="o">=</span> <span class="p">[(</span><span class="n">name</span><span class="p">,</span> <span class="n">c</span><span class="p">)</span> <span class="k">for</span> <span class="p">(</span><span class="n">name</span><span class="p">,</span> <span class="n">c</span><span class="p">)</span> <span class="ow">in</span> <span class="n">op_name_classes</span>
-                    <span class="k">if</span> <span class="s1">&#39;selector&#39;</span> <span class="ow">in</span> <span class="n">name</span><span class="p">]</span>
-    <span class="n">ops_sorted_by_types</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">mapper_ops</span><span class="p">)</span> <span class="o">+</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">filter_ops</span><span class="p">)</span> <span class="o">+</span> <span class="nb">sorted</span><span class="p">(</span>
-        <span class="n">deduplicator_ops</span><span class="p">)</span> <span class="o">+</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">selector_ops</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">ops_sorted_by_types</span></div>
-
-<div class="viewcode-block" id="config_backup"><a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.config_backup">[docs]</a><span class="k">def</span> <span class="nf">config_backup</span><span class="p">(</span><span class="n">cfg</span><span class="p">):</span>
-    <span class="n">cfg_path</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">config</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">absolute</span>
-    <span class="n">work_dir</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">work_dir</span>
-    <span class="n">target_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">work_dir</span><span class="p">,</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">cfg_path</span><span class="p">))</span>
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Back up the input config file [</span><span class="si">{</span><span class="n">cfg_path</span><span class="si">}</span><span class="s1">] into the &#39;</span>
-                <span class="sa">f</span><span class="s1">&#39;work_dir [</span><span class="si">{</span><span class="n">work_dir</span><span class="si">}</span><span class="s1">]&#39;</span><span class="p">)</span>
-    <span class="n">shutil</span><span class="o">.</span><span class="n">copyfile</span><span class="p">(</span><span class="n">cfg_path</span><span class="p">,</span> <span class="n">target_path</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="display_config"><a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.display_config">[docs]</a><span class="k">def</span> <span class="nf">display_config</span><span class="p">(</span><span class="n">cfg</span><span class="p">):</span>
-    <span class="kn">from</span> <span class="nn">tabulate</span> <span class="kn">import</span> <span class="n">tabulate</span>
-    <span class="kn">import</span> <span class="nn">pprint</span>
-    <span class="n">table_header</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;key&#39;</span><span class="p">,</span> <span class="s1">&#39;values&#39;</span><span class="p">]</span>
-
-    <span class="c1"># remove ops outside the process list for better displaying</span>
-    <span class="n">shown_cfg</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span>
-    <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="n">OPERATORS</span><span class="o">.</span><span class="n">modules</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
-        <span class="n">_</span> <span class="o">=</span> <span class="n">shown_cfg</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">op</span><span class="p">)</span>
-
-    <span class="c1"># construct the table as 2 columns</span>
-    <span class="n">config_table</span> <span class="o">=</span> <span class="p">[(</span><span class="n">k</span><span class="p">,</span> <span class="n">pprint</span><span class="o">.</span><span class="n">pformat</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="n">compact</span><span class="o">=</span><span class="kc">True</span><span class="p">))</span>
-                    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">shown_cfg</span><span class="o">.</span><span class="n">items</span><span class="p">()]</span>
-    <span class="n">table</span> <span class="o">=</span> <span class="n">tabulate</span><span class="p">(</span><span class="n">config_table</span><span class="p">,</span> <span class="n">headers</span><span class="o">=</span><span class="n">table_header</span><span class="p">,</span> <span class="n">tablefmt</span><span class="o">=</span><span class="s1">&#39;fancy_grid&#39;</span><span class="p">)</span>
-
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Configuration table: &#39;</span><span class="p">)</span>
-    <span class="nb">print</span><span class="p">(</span><span class="n">table</span><span class="p">)</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/core/analyser.html b/_modules/data_juicer/core/analyser.html
deleted file mode 100644
index 474a28777..000000000
--- a/_modules/data_juicer/core/analyser.html
+++ /dev/null
@@ -1,230 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.core.analyser &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.core.analyser</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.core.analyser</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">os</span>
-
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.analysis</span> <span class="kn">import</span> <span class="n">ColumnWiseAnalysis</span><span class="p">,</span> <span class="n">OverallAnalysis</span>
-<span class="kn">from</span> <span class="nn">data_juicer.config</span> <span class="kn">import</span> <span class="n">init_configs</span>
-<span class="kn">from</span> <span class="nn">data_juicer.format</span> <span class="kn">import</span> <span class="n">load_formatter</span>
-<span class="kn">from</span> <span class="nn">data_juicer.ops</span> <span class="kn">import</span> <span class="n">Filter</span><span class="p">,</span> <span class="n">load_ops</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils</span> <span class="kn">import</span> <span class="n">cache_utils</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span>
-
-<span class="kn">from</span> <span class="nn">.exporter</span> <span class="kn">import</span> <span class="n">Exporter</span>
-
-
-<div class="viewcode-block" id="Analyser"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.analyser.Analyser">[docs]</a><span class="k">class</span> <span class="nc">Analyser</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    This Analyser class is used to analyse a specific dataset.</span>
-
-<span class="sd">    It will compute stats for all filter ops in the config file, apply</span>
-<span class="sd">    multiple analysis (e.g. OverallAnalysis, ColumnWiseAnalysis, etc.)</span>
-<span class="sd">    on these stats, and generate the analysis results (stats tables,</span>
-<span class="sd">    distribution figures, etc.) to help users understand the input</span>
-<span class="sd">    dataset better.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param cfg: optional config dict.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span> <span class="o">=</span> <span class="n">init_configs</span><span class="p">()</span> <span class="k">if</span> <span class="n">cfg</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">cfg</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">work_dir</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">ops</span> <span class="o">=</span> <span class="kc">None</span>
-
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">use_cache</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Using cache compression method: &#39;</span>
-                        <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">cache_compress</span><span class="si">}</span><span class="s1">]&#39;</span><span class="p">)</span>
-            <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">cache_compress</span>
-
-        <span class="c1"># setup formatter</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Setting up data formatter...&#39;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">formatter</span> <span class="o">=</span> <span class="n">load_formatter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">,</span>
-                                        <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">text_keys</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">suffixes</span><span class="p">,</span>
-                                        <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">add_suffix</span><span class="p">)</span>
-
-        <span class="c1"># prepare exporter and check export path suffix</span>
-        <span class="c1"># NOTICE: no need to export dataset texts for analyser</span>
-        <span class="c1"># (export_ds=False). Instead, only need to export stats</span>
-        <span class="c1"># (export_stats=True).</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Preparing exporter...&#39;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">exporter</span> <span class="o">=</span> <span class="n">Exporter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">export_path</span><span class="p">,</span>
-                                 <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">export_shard_size</span><span class="p">,</span>
-                                 <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">export_in_parallel</span><span class="p">,</span>
-                                 <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">np</span><span class="p">,</span>
-                                 <span class="n">export_ds</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-                                 <span class="n">export_stats</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-
-        <span class="c1"># parsed_res</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">overall_result</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">overall_single_plot_path</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">work_dir</span><span class="p">,</span> <span class="s1">&#39;analysis&#39;</span><span class="p">)</span>
-
-<div class="viewcode-block" id="Analyser.run"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.analyser.Analyser.run">[docs]</a>    <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">load_data_np</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Running the dataset analysis pipeline.</span>
-
-<span class="sd">        :param load_data_np: number of workers when loading the dataset.</span>
-<span class="sd">        :return: analysed dataset.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># 1. format data</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading dataset from data formatter...&#39;</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">load_data_np</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">load_data_np</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">np</span>
-        <span class="n">dataset</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">formatter</span><span class="o">.</span><span class="n">load_dataset</span><span class="p">(</span><span class="n">load_data_np</span><span class="p">)</span>
-
-        <span class="c1"># extract processes</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Preparing process operators...&#39;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">process</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">ops</span> <span class="o">=</span> <span class="n">load_ops</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">process</span><span class="p">,</span>
-                                              <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">op_fusion</span><span class="p">)</span>
-
-        <span class="c1"># 2. stats precompute only for filter ops</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Computing the stats of dataset...&#39;</span><span class="p">)</span>
-        <span class="n">stats_collected</span> <span class="o">=</span> <span class="kc">False</span>
-        <span class="k">for</span> <span class="n">op_cfg</span><span class="p">,</span> <span class="n">op</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">process</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">ops</span><span class="p">):</span>
-            <span class="n">op_name</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">op_cfg</span><span class="o">.</span><span class="n">keys</span><span class="p">())[</span><span class="mi">0</span><span class="p">]</span>
-            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">op</span><span class="p">,</span> <span class="n">Filter</span><span class="p">):</span>
-                <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">stats</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="p">:</span>
-                    <span class="c1"># TODO:</span>
-                    <span class="c1"># this is a temp solution,</span>
-                    <span class="c1"># only add stats when calling filter op</span>
-                    <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">add_column</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">,</span>
-                                                 <span class="n">column</span><span class="o">=</span><span class="p">[{}]</span> <span class="o">*</span>
-                                                 <span class="n">dataset</span><span class="o">.</span><span class="n">num_rows</span><span class="p">)</span>
-                <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">compute_stats</span><span class="p">,</span>
-                                      <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">np</span><span class="p">,</span>
-                                      <span class="n">desc</span><span class="o">=</span><span class="n">op_name</span> <span class="o">+</span> <span class="s1">&#39;_compute_stats&#39;</span><span class="p">)</span>
-                <span class="n">stats_collected</span> <span class="o">=</span> <span class="kc">True</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">stats_collected</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;No stats collected. Please add some Filter ops to &#39;</span>
-                           <span class="s1">&#39;the process list in configs.&#39;</span><span class="p">)</span>
-            <span class="k">return</span> <span class="n">dataset</span>
-
-        <span class="c1"># 3. analysis and output result to the export path</span>
-        <span class="c1"># 3.1. Only consider fields in Fields.stats</span>
-        <span class="c1"># 3.2. For string fields, only consider its histogram</span>
-        <span class="c1"># 3.3. For numeric fields, consider its histogram and box</span>
-        <span class="c1"># 3.4. Otherwise, DO NOT analyse</span>
-
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Applying overall analysis on stats...&#39;</span><span class="p">)</span>
-        <span class="n">overall_analysis</span> <span class="o">=</span> <span class="n">OverallAnalysis</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">analysis_path</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">overall_result</span> <span class="o">=</span> <span class="n">overall_analysis</span><span class="o">.</span><span class="n">analyse</span><span class="p">()</span>
-
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Applying column-wise analysis on stats...&#39;</span><span class="p">)</span>
-        <span class="n">column_wise_analysis</span> <span class="o">=</span> <span class="n">ColumnWiseAnalysis</span><span class="p">(</span>
-            <span class="n">dataset</span><span class="p">,</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">analysis_path</span><span class="p">,</span>
-            <span class="n">overall_result</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">overall_result</span><span class="p">,</span>
-            <span class="n">save_stats_in_one_file</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">save_stats_in_one_file</span><span class="p">)</span>
-        <span class="n">column_wise_analysis</span><span class="o">.</span><span class="n">analyse</span><span class="p">()</span>
-
-        <span class="c1"># 4. data export</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Exporting dataset to disk...&#39;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">exporter</span><span class="o">.</span><span class="n">export</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">use_cache</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">cache_compress</span><span class="p">:</span>
-            <span class="kn">from</span> <span class="nn">data_juicer.utils.compress</span> <span class="kn">import</span> <span class="n">compress</span>
-            <span class="n">compress</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">dataset</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/core/data.html b/_modules/data_juicer/core/data.html
deleted file mode 100644
index d1068e650..000000000
--- a/_modules/data_juicer/core/data.html
+++ /dev/null
@@ -1,423 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.core.data &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.core.data</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">copy</span>
-<span class="kn">import</span> <span class="nn">inspect</span>
-<span class="kn">from</span> <span class="nn">functools</span> <span class="kn">import</span> <span class="n">wraps</span>
-<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Union</span>
-
-<span class="kn">from</span> <span class="nn">datasets</span> <span class="kn">import</span> <span class="n">Dataset</span><span class="p">,</span> <span class="n">DatasetDict</span><span class="p">,</span> <span class="n">is_caching_enabled</span>
-<span class="kn">from</span> <span class="nn">datasets.formatting.formatting</span> <span class="kn">import</span> <span class="n">LazyBatch</span>
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils</span> <span class="kn">import</span> <span class="n">cache_utils</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.compress</span> <span class="kn">import</span> <span class="p">(</span><span class="n">cleanup_compressed_cache_files</span><span class="p">,</span>
-                                        <span class="n">compress</span><span class="p">,</span> <span class="n">decompress</span><span class="p">,</span> <span class="n">CompressionOff</span><span class="p">)</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.fingerprint_utils</span> <span class="kn">import</span> <span class="n">generate_fingerprint</span>
-
-
-<div class="viewcode-block" id="wrap_func_with_nested_access"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.wrap_func_with_nested_access">[docs]</a><span class="k">def</span> <span class="nf">wrap_func_with_nested_access</span><span class="p">(</span><span class="n">f</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Before conducting actual function `f`, wrap its args and kargs into nested</span>
-<span class="sd">    ones.</span>
-
-<span class="sd">    :param f: function to be wrapped.</span>
-<span class="sd">    :return: wrapped function</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="nf">wrap_nested_structure</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
-        <span class="n">wrapped_args</span> <span class="o">=</span> <span class="p">[</span><span class="n">nested_obj_factory</span><span class="p">(</span><span class="n">arg</span><span class="p">)</span> <span class="k">for</span> <span class="n">arg</span> <span class="ow">in</span> <span class="n">args</span><span class="p">]</span>
-        <span class="n">wrapped_kargs</span> <span class="o">=</span> <span class="p">{</span>
-            <span class="n">k</span><span class="p">:</span> <span class="n">nested_obj_factory</span><span class="p">(</span><span class="n">arg</span><span class="p">)</span>
-            <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">arg</span> <span class="ow">in</span> <span class="n">kargs</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
-        <span class="p">}</span>
-        <span class="k">return</span> <span class="n">wrapped_args</span><span class="p">,</span> <span class="n">nested_obj_factory</span><span class="p">(</span><span class="n">wrapped_kargs</span><span class="p">)</span>
-
-    <span class="nd">@wraps</span><span class="p">(</span><span class="n">f</span><span class="p">)</span>
-    <span class="k">def</span> <span class="nf">wrapped_f</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
-        <span class="n">args</span><span class="p">,</span> <span class="n">kargs</span> <span class="o">=</span> <span class="n">wrap_nested_structure</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">)</span>
-        <span class="c1"># to ensure the args passing to the final calling of f can be nested,</span>
-        <span class="c1"># in case of deeper-order wrapper funcs de-wrap this nesting behavior</span>
-        <span class="n">args</span> <span class="o">=</span> <span class="p">[</span>
-            <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="n">arg</span><span class="p">)</span> <span class="k">if</span> <span class="nb">callable</span><span class="p">(</span><span class="n">arg</span><span class="p">)</span> <span class="k">else</span> <span class="n">arg</span>
-            <span class="k">for</span> <span class="n">arg</span> <span class="ow">in</span> <span class="n">args</span>
-        <span class="p">]</span>
-        <span class="n">kargs</span> <span class="o">=</span> <span class="p">{</span>
-            <span class="n">k</span><span class="p">:</span> <span class="p">(</span><span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="n">arg</span><span class="p">)</span> <span class="k">if</span> <span class="nb">callable</span><span class="p">(</span><span class="n">arg</span><span class="p">)</span> <span class="k">else</span> <span class="n">arg</span><span class="p">)</span>
-            <span class="k">for</span> <span class="p">(</span><span class="n">k</span><span class="p">,</span> <span class="n">arg</span><span class="p">)</span> <span class="ow">in</span> <span class="n">kargs</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
-        <span class="p">}</span>
-        <span class="k">return</span> <span class="n">f</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">)</span>
-
-    <span class="k">return</span> <span class="n">wrapped_f</span></div>
-
-
-<div class="viewcode-block" id="nested_obj_factory"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.nested_obj_factory">[docs]</a><span class="k">def</span> <span class="nf">nested_obj_factory</span><span class="p">(</span><span class="n">obj</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Use nested classes to wrap the input object.</span>
-
-<span class="sd">    :param obj: object to be nested.</span>
-<span class="sd">    :return: nested object</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="n">Dataset</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="n">obj</span><span class="p">)</span>
-    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="n">DatasetDict</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">NestedDatasetDict</span><span class="p">(</span><span class="n">obj</span><span class="p">)</span>
-    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="nb">dict</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">NestedQueryDict</span><span class="p">(</span><span class="n">obj</span><span class="p">)</span>
-    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="n">LazyBatch</span><span class="p">):</span>
-        <span class="n">obj</span><span class="o">.</span><span class="n">data</span> <span class="o">=</span> <span class="n">NestedQueryDict</span><span class="p">(</span><span class="n">obj</span><span class="o">.</span><span class="n">data</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">obj</span>
-    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
-        <span class="k">return</span> <span class="p">[</span><span class="n">nested_obj_factory</span><span class="p">(</span><span class="n">item</span><span class="p">)</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">obj</span><span class="p">]</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="k">return</span> <span class="n">obj</span></div>
-
-
-<div class="viewcode-block" id="NestedQueryDict"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedQueryDict">[docs]</a><span class="k">class</span> <span class="nc">NestedQueryDict</span><span class="p">(</span><span class="nb">dict</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Enhanced dict for better usability.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">args</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">Dataset</span><span class="p">):</span>
-            <span class="c1"># init from another DatasetDict instance</span>
-            <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">copy</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="c1"># init from scratch</span>
-            <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">)</span>
-
-        <span class="c1"># batched sample, (k &amp; v) are organized by list manner</span>
-        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="nb">list</span><span class="p">)</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">v</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">v</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="nb">dict</span><span class="p">):</span>
-                <span class="bp">self</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">NestedQueryDict</span><span class="p">(</span><span class="n">item</span><span class="p">)</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">v</span><span class="p">]</span>
-
-    <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">nested_query</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">)</span></div>
-
-
-<div class="viewcode-block" id="NestedDatasetDict"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDatasetDict">[docs]</a><span class="k">class</span> <span class="nc">NestedDatasetDict</span><span class="p">(</span><span class="n">DatasetDict</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Enhanced HuggingFace-DatasetDict for better usability and efficiency.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">args</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">Dataset</span><span class="p">):</span>
-            <span class="c1"># init from another DatasetDict instance</span>
-            <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">copy</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="c1"># init from scratch</span>
-            <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">nested_query</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">)</span>
-
-<div class="viewcode-block" id="NestedDatasetDict.map"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDatasetDict.map">[docs]</a>    <span class="k">def</span> <span class="nf">map</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">**</span><span class="n">args</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the map func, which is called by most common operations,</span>
-<span class="sd">        such that the processed samples can be accessed by nested manner.&quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="s1">&#39;function&#39;</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">args</span> <span class="ow">or</span> <span class="n">args</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">args</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">nested_obj_factory</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">args</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">])</span>
-
-        <span class="k">return</span> <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="o">**</span><span class="n">args</span><span class="p">)</span></div></div>
-
-
-<div class="viewcode-block" id="NestedDataset"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset">[docs]</a><span class="k">class</span> <span class="nc">NestedDataset</span><span class="p">(</span><span class="n">Dataset</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Enhanced HuggingFace-Dataset for better usability and efficiency.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">args</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">Dataset</span><span class="p">):</span>
-            <span class="c1"># init from another Dataset instance</span>
-            <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">copy</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="c1"># init from scratch</span>
-            <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">)</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">need_to_cleanup_caches</span> <span class="o">=</span> <span class="ow">not</span> <span class="n">is_caching_enabled</span><span class="p">()</span>
-
-    <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">):</span>
-        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
-            <span class="c1"># to index columns by query as string name(s)</span>
-            <span class="n">res</span> <span class="o">=</span> <span class="n">nested_query</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="c1"># to index rows by query as integer index, slices,</span>
-            <span class="c1"># or iter of indices or bools</span>
-            <span class="n">res</span> <span class="o">=</span> <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__getitem__</span><span class="p">(</span><span class="n">key</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">nested_obj_factory</span><span class="p">(</span><span class="n">res</span><span class="p">)</span>
-
-<div class="viewcode-block" id="NestedDataset.map"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.map">[docs]</a>    <span class="k">def</span> <span class="nf">map</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the map func, which is called by most common operations,</span>
-<span class="sd">        such that the processed samples can be accessed by nested manner.&quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="n">args</span><span class="p">:</span>
-            <span class="n">args</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">args</span><span class="p">)</span>
-            <span class="c1"># the first positional para is function</span>
-            <span class="k">if</span> <span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">nested_obj_factory</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
-            <span class="n">called_func</span> <span class="o">=</span> <span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">if</span> <span class="s1">&#39;function&#39;</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">kargs</span> <span class="ow">or</span> <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">nested_obj_factory</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span>
-                    <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">])</span>
-            <span class="n">called_func</span> <span class="o">=</span> <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">]</span>
-
-        <span class="c1"># For wrapped function, try to get its original unwrapped method</span>
-        <span class="k">while</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">called_func</span><span class="p">,</span> <span class="s1">&#39;__wrapped__&#39;</span><span class="p">):</span>
-            <span class="n">called_func</span> <span class="o">=</span> <span class="n">called_func</span><span class="o">.</span><span class="n">__wrapped__</span>
-        <span class="c1"># Does the called function belong to a batched OP?</span>
-        <span class="k">if</span> <span class="n">inspect</span><span class="o">.</span><span class="n">ismethod</span><span class="p">(</span><span class="n">called_func</span><span class="p">)</span> \
-                <span class="ow">and</span> <span class="s1">&#39;is_batched_op&#39;</span> <span class="ow">in</span> <span class="nb">dir</span><span class="p">(</span><span class="n">called_func</span><span class="o">.</span><span class="vm">__self__</span><span class="p">)</span> \
-                <span class="ow">and</span> <span class="nb">callable</span><span class="p">(</span><span class="nb">getattr</span><span class="p">(</span><span class="n">called_func</span><span class="o">.</span><span class="vm">__self__</span><span class="p">,</span> <span class="s1">&#39;is_batched_op&#39;</span><span class="p">))</span> \
-                <span class="ow">and</span> <span class="n">called_func</span><span class="o">.</span><span class="vm">__self__</span><span class="o">.</span><span class="n">is_batched_op</span><span class="p">():</span>
-            <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;batched&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span>
-            <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;batch_size&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="mi">1</span>
-
-        <span class="k">if</span> <span class="s1">&#39;new_fingerprint&#39;</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">kargs</span> <span class="ow">or</span> <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;new_fingerprint&#39;</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">new_fingerprint</span> <span class="o">=</span> <span class="n">generate_fingerprint</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">)</span>
-            <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;new_fingerprint&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">new_fingerprint</span>
-
-        <span class="k">if</span> <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span><span class="p">:</span>
-            <span class="n">decompress</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                       <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;new_fingerprint&#39;</span><span class="p">],</span>
-                       <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;num_proc&#39;</span><span class="p">]</span> <span class="k">if</span> <span class="s1">&#39;num_proc&#39;</span> <span class="ow">in</span> <span class="n">kargs</span> <span class="k">else</span> <span class="mi">1</span><span class="p">)</span>
-
-        <span class="n">new_ds</span> <span class="o">=</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">))</span>
-
-        <span class="k">if</span> <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span><span class="p">:</span>
-            <span class="n">compress</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                     <span class="n">new_ds</span><span class="p">,</span>
-                     <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;num_proc&#39;</span><span class="p">]</span> <span class="k">if</span> <span class="s1">&#39;num_proc&#39;</span> <span class="ow">in</span> <span class="n">kargs</span> <span class="k">else</span> <span class="mi">1</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">need_to_cleanup_caches</span><span class="p">:</span>
-            <span class="n">new_ds</span><span class="o">.</span><span class="n">cleanup_cache_files</span><span class="p">()</span>
-
-        <span class="k">return</span> <span class="n">new_ds</span></div>
-
-<div class="viewcode-block" id="NestedDataset.filter"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.filter">[docs]</a>    <span class="k">def</span> <span class="nf">filter</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the filter func, which is called by most common operations,</span>
-<span class="sd">        such that the processed samples can be accessed by nested manner.&quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="n">args</span><span class="p">:</span>
-            <span class="n">args</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">args</span><span class="p">)</span>
-            <span class="c1"># the first positional para is function</span>
-            <span class="k">if</span> <span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">nested_obj_factory</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">if</span> <span class="s1">&#39;function&#39;</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">kargs</span> <span class="ow">or</span> <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">nested_obj_factory</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span>
-                    <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">])</span>
-
-        <span class="k">if</span> <span class="s1">&#39;new_fingerprint&#39;</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">kargs</span> <span class="ow">or</span> <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;new_fingerprint&#39;</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">new_fingerprint</span> <span class="o">=</span> <span class="n">generate_fingerprint</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">)</span>
-            <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;new_fingerprint&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">new_fingerprint</span>
-
-        <span class="c1"># For filter, it involves a map and a filter operations, so the final</span>
-        <span class="c1"># cache files includes two sets with different fingerprint (before and</span>
-        <span class="c1"># after). So we need to decompress these two sets of compressed cache</span>
-        <span class="c1"># files</span>
-        <span class="k">if</span> <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span><span class="p">:</span>
-            <span class="n">decompress</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                       <span class="p">[</span><span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;new_fingerprint&#39;</span><span class="p">],</span> <span class="bp">self</span><span class="o">.</span><span class="n">_fingerprint</span><span class="p">],</span>
-                       <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;num_proc&#39;</span><span class="p">]</span> <span class="k">if</span> <span class="s1">&#39;num_proc&#39;</span> <span class="ow">in</span> <span class="n">kargs</span> <span class="k">else</span> <span class="mi">1</span><span class="p">)</span>
-
-        <span class="c1"># Turn off the compression due to it invokes map actually in the filter</span>
-        <span class="c1"># function. For cache file changes, map: A -&gt; B, filter: A -&gt; A, B. If</span>
-        <span class="c1"># we compress the caches of map, ops after filter cannot find the cache</span>
-        <span class="c1"># files A. So we turn off the inner cache compression for filter.</span>
-        <span class="c1"># Same for cleaning up cache files.</span>
-        <span class="k">with</span> <span class="n">CompressionOff</span><span class="p">():</span>
-            <span class="n">prev_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">need_to_cleanup_caches</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">need_to_cleanup_caches</span> <span class="o">=</span> <span class="kc">False</span>
-            <span class="n">new_ds</span> <span class="o">=</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">))</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">need_to_cleanup_caches</span> <span class="o">=</span> <span class="n">prev_state</span>
-
-        <span class="k">if</span> <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span><span class="p">:</span>
-            <span class="n">compress</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                     <span class="n">new_ds</span><span class="p">,</span>
-                     <span class="n">kargs</span><span class="p">[</span><span class="s1">&#39;num_proc&#39;</span><span class="p">]</span> <span class="k">if</span> <span class="s1">&#39;num_proc&#39;</span> <span class="ow">in</span> <span class="n">kargs</span> <span class="k">else</span> <span class="mi">1</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">need_to_cleanup_caches</span><span class="p">:</span>
-            <span class="n">new_ds</span><span class="o">.</span><span class="n">cleanup_cache_files</span><span class="p">()</span>
-
-        <span class="k">return</span> <span class="n">new_ds</span></div>
-
-<div class="viewcode-block" id="NestedDataset.select"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.select">[docs]</a>    <span class="k">def</span> <span class="nf">select</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the select func, such that selected samples can be accessed</span>
-<span class="sd">        by nested manner.&quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="n">nested_obj_factory</span><span class="p">(</span><span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">))</span></div>
-
-<div class="viewcode-block" id="NestedDataset.from_dict"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.from_dict">[docs]</a>    <span class="nd">@classmethod</span>
-    <span class="k">def</span> <span class="nf">from_dict</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the from_dict func, which is called by most from_xx</span>
-<span class="sd">        constructors, such that the constructed dataset object is</span>
-<span class="sd">        NestedDataset.&quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">from_dict</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">))</span></div>
-
-<div class="viewcode-block" id="NestedDataset.add_column"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.add_column">[docs]</a>    <span class="k">def</span> <span class="nf">add_column</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the add column func, such that the processed samples</span>
-<span class="sd">        can be accessed by nested manner.&quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">add_column</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">))</span></div>
-
-<div class="viewcode-block" id="NestedDataset.select_columns"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.select_columns">[docs]</a>    <span class="k">def</span> <span class="nf">select_columns</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the select columns func, such that the processed samples</span>
-<span class="sd">        can be accessed by nested manner.&quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">select_columns</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">))</span></div>
-
-<div class="viewcode-block" id="NestedDataset.remove_columns"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.remove_columns">[docs]</a>    <span class="k">def</span> <span class="nf">remove_columns</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the remove columns func, such that the processed samples</span>
-<span class="sd">        can be accessed by nested manner.&quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">remove_columns</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">))</span></div>
-
-<div class="viewcode-block" id="NestedDataset.cleanup_cache_files"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.cleanup_cache_files">[docs]</a>    <span class="k">def</span> <span class="nf">cleanup_cache_files</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the cleanup_cache_files func, clear raw and compressed</span>
-<span class="sd">        cache files.&quot;&quot;&quot;</span>
-        <span class="n">cleanup_compressed_cache_files</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span>
-        <span class="k">return</span> <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">cleanup_cache_files</span><span class="p">()</span></div></div>
-
-
-<div class="viewcode-block" id="nested_query"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.nested_query">[docs]</a><span class="k">def</span> <span class="nf">nested_query</span><span class="p">(</span><span class="n">root_obj</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">NestedDatasetDict</span><span class="p">,</span> <span class="n">NestedDataset</span><span class="p">,</span>
-                                 <span class="n">NestedQueryDict</span><span class="p">],</span> <span class="n">key</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Find item from a given object, by first checking flatten layer, then</span>
-<span class="sd">    checking nested layers.</span>
-
-<span class="sd">    :param root_obj: the object</span>
-<span class="sd">    :param key: the stored item to be queried, e.g., &quot;meta&quot; or</span>
-<span class="sd">        &quot;meta.date&quot;</span>
-<span class="sd">    :return:</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">subkeys</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span>
-
-    <span class="n">tmp</span> <span class="o">=</span> <span class="n">root_obj</span>
-    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">subkeys</span><span class="p">)):</span>
-        <span class="k">try</span><span class="p">:</span>
-            <span class="n">key_to_query</span> <span class="o">=</span> <span class="s1">&#39;.&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">subkeys</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="nb">len</span><span class="p">(</span><span class="n">subkeys</span><span class="p">)])</span>
-            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">tmp</span><span class="p">,</span>
-                          <span class="p">(</span><span class="n">NestedQueryDict</span><span class="p">,</span> <span class="n">NestedDataset</span><span class="p">,</span> <span class="n">NestedDatasetDict</span><span class="p">)):</span>
-                <span class="c1"># access field using base_class&#39;s func to avoid endless loop</span>
-                <span class="n">res</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="nb">type</span><span class="p">(</span><span class="n">tmp</span><span class="p">),</span> <span class="n">tmp</span><span class="p">)</span><span class="o">.</span><span class="fm">__getitem__</span><span class="p">(</span><span class="n">key_to_query</span><span class="p">)</span>
-            <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">tmp</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
-                <span class="c1"># NestedDataset may return multiple rows as list</span>
-                <span class="n">res</span> <span class="o">=</span> <span class="p">[</span><span class="n">nested_query</span><span class="p">(</span><span class="n">item</span><span class="p">,</span> <span class="n">key_to_query</span><span class="p">)</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">tmp</span><span class="p">]</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="c1"># NestedQueryDict may return single row</span>
-                <span class="n">res</span> <span class="o">=</span> <span class="n">tmp</span><span class="p">[</span><span class="n">key_to_query</span><span class="p">]</span>
-            <span class="k">if</span> <span class="n">res</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="k">return</span> <span class="n">res</span>
-        <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">outer_get_error</span><span class="p">:</span>
-            <span class="n">exist_in_dict</span> <span class="o">=</span> <span class="nb">issubclass</span><span class="p">(</span><span class="nb">type</span><span class="p">(</span><span class="n">tmp</span><span class="p">),</span> <span class="nb">dict</span><span class="p">)</span> <span class="ow">and</span> \
-                                <span class="s1">&#39;.&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">subkeys</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="mi">1</span><span class="p">])</span> <span class="ow">in</span> <span class="n">tmp</span>
-            <span class="n">exist_in_dataset</span> <span class="o">=</span> <span class="nb">issubclass</span><span class="p">(</span><span class="nb">type</span><span class="p">(</span><span class="n">tmp</span><span class="p">),</span> <span class="n">Dataset</span><span class="p">)</span> <span class="ow">and</span> <span class="s1">&#39;.&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
-                <span class="n">subkeys</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="mi">1</span><span class="p">])</span> <span class="ow">in</span> <span class="n">tmp</span><span class="o">.</span><span class="n">features</span>
-            <span class="k">if</span> <span class="n">exist_in_dict</span> <span class="ow">or</span> <span class="n">exist_in_dataset</span><span class="p">:</span>
-                <span class="c1"># dive into next level</span>
-                <span class="n">tmp</span> <span class="o">=</span> <span class="n">nested_obj_factory</span><span class="p">(</span><span class="n">tmp</span><span class="p">[</span><span class="s1">&#39;.&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">subkeys</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="mi">1</span><span class="p">])])</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span>
-                    <span class="sa">f</span><span class="s1">&#39;cannot find item given key=</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s1"> in dataset=&#39;</span>
-                    <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">root_obj</span><span class="si">}</span><span class="s1">. For the final caught outer-exception,&#39;</span>
-                    <span class="sa">f</span><span class="s1">&#39;type is: </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">outer_get_error</span><span class="p">)</span><span class="si">}</span><span class="s1">, &#39;</span>
-                    <span class="sa">f</span><span class="s1">&#39;info is: </span><span class="si">{</span><span class="n">outer_get_error</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
-                <span class="k">return</span> <span class="kc">None</span>
-
-    <span class="k">return</span> <span class="kc">None</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/core/executor.html b/_modules/data_juicer/core/executor.html
deleted file mode 100644
index 89dce68e1..000000000
--- a/_modules/data_juicer/core/executor.html
+++ /dev/null
@@ -1,311 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.core.executor &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.core.executor</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.core.executor</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">os</span>
-<span class="kn">from</span> <span class="nn">time</span> <span class="kn">import</span> <span class="n">time</span>
-
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.config</span> <span class="kn">import</span> <span class="n">init_configs</span>
-<span class="kn">from</span> <span class="nn">data_juicer.format.load</span> <span class="kn">import</span> <span class="n">load_formatter</span>
-<span class="kn">from</span> <span class="nn">data_juicer.ops</span> <span class="kn">import</span> <span class="p">(</span><span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Deduplicator</span><span class="p">,</span> <span class="n">Filter</span><span class="p">,</span> <span class="n">Mapper</span><span class="p">,</span> <span class="n">Selector</span><span class="p">,</span>
-                             <span class="n">load_ops</span><span class="p">)</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils</span> <span class="kn">import</span> <span class="n">cache_utils</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.ckpt_utils</span> <span class="kn">import</span> <span class="n">CheckpointManager</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span>
-
-<span class="kn">from</span> <span class="nn">.exporter</span> <span class="kn">import</span> <span class="n">Exporter</span>
-<span class="kn">from</span> <span class="nn">.tracer</span> <span class="kn">import</span> <span class="n">Tracer</span>
-
-
-<div class="viewcode-block" id="Executor"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.executor.Executor">[docs]</a><span class="k">class</span> <span class="nc">Executor</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    This Executor class is used to process a specific dataset.</span>
-
-<span class="sd">    It will load the dataset and unify the format, then apply all the</span>
-<span class="sd">    ops in the config file in order and generate a processed dataset.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param cfg: optional config dict.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span> <span class="o">=</span> <span class="n">init_configs</span><span class="p">()</span> <span class="k">if</span> <span class="n">cfg</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">cfg</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">work_dir</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">ops</span> <span class="o">=</span> <span class="kc">None</span>
-
-        <span class="c1"># only enable it when using cache</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">use_cache</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Using cache compression method: &#39;</span>
-                        <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">cache_compress</span><span class="si">}</span><span class="s1">]&#39;</span><span class="p">)</span>
-            <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">cache_compress</span>
-
-        <span class="c1"># setup formatter</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Setting up data formatter...&#39;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">formatter</span> <span class="o">=</span> <span class="n">load_formatter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">,</span>
-                                        <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">text_keys</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">suffixes</span><span class="p">,</span>
-                                        <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">add_suffix</span><span class="p">)</span>
-
-        <span class="c1"># whether to use checkpoint mechanism. If it&#39;s true, Executor will</span>
-        <span class="c1"># check if there are existing checkpoints first and try to load the</span>
-        <span class="c1"># checkpoints. If the checkpoints are loaded successfully, ops that</span>
-        <span class="c1"># have been processed will be skipped.</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">process</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">use_checkpoint</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Preparing checkpoint manager...&#39;</span><span class="p">)</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span><span class="p">,</span> <span class="s1">&#39;ckpt&#39;</span><span class="p">)</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_manager</span> <span class="o">=</span> <span class="n">CheckpointManager</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_dir</span><span class="p">,</span>
-                                                  <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span><span class="p">,</span>
-                                                  <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">np</span><span class="p">)</span>
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_manager</span><span class="o">.</span><span class="n">ckpt_available</span><span class="p">:</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Found existed dataset checkpoint.&#39;</span><span class="p">)</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_manager</span><span class="o">.</span><span class="n">get_left_process_list</span><span class="p">()</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span>
-
-        <span class="c1"># prepare exporter and check export path suffix</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Preparing exporter...&#39;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">exporter</span> <span class="o">=</span> <span class="n">Exporter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">export_path</span><span class="p">,</span>
-                                 <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">export_shard_size</span><span class="p">,</span>
-                                 <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">export_in_parallel</span><span class="p">,</span>
-                                 <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">np</span><span class="p">)</span>
-
-        <span class="c1"># setup tracer</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">open_tracer</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">open_tracer</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">open_tracer</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Preparing tracer...&#39;</span><span class="p">)</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">tracer</span> <span class="o">=</span> <span class="n">Tracer</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">trace_num</span><span class="p">)</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">op_list_to_trace</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">op_list_to_trace</span>
-            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">op_list_to_trace</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Trace for all ops.&#39;</span><span class="p">)</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">op_list_to_trace</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">OPERATORS</span><span class="o">.</span><span class="n">modules</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
-
-<div class="viewcode-block" id="Executor.run"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.executor.Executor.run">[docs]</a>    <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">load_data_np</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Running the dataset process pipeline.</span>
-
-<span class="sd">        :param load_data_np: number of workers when loading the dataset.</span>
-<span class="sd">        :return: processed dataset.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># 1. format data</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">use_checkpoint</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_manager</span><span class="o">.</span><span class="n">ckpt_available</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading dataset from checkpoint...&#39;</span><span class="p">)</span>
-            <span class="n">dataset</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_manager</span><span class="o">.</span><span class="n">load_ckpt</span><span class="p">()</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading dataset from data formatter...&#39;</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">load_data_np</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="n">load_data_np</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">np</span>
-            <span class="n">dataset</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">formatter</span><span class="o">.</span><span class="n">load_dataset</span><span class="p">(</span><span class="n">load_data_np</span><span class="p">)</span>
-
-        <span class="c1"># 2. extract processes</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Preparing process operators...&#39;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">ops</span> <span class="o">=</span> <span class="n">load_ops</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">process</span><span class="p">,</span>
-                                               <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">op_fusion</span><span class="p">)</span>
-
-        <span class="c1"># 3. data process</span>
-        <span class="c1"># - If tracer is open, trace each op after it&#39;s processed</span>
-        <span class="c1"># - If checkpoint is open, clean the cache files after each process</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Processing data...&#39;</span><span class="p">)</span>
-        <span class="n">start</span> <span class="o">=</span> <span class="n">time</span><span class="p">()</span>
-        <span class="n">tstart</span> <span class="o">=</span> <span class="n">start</span>
-        <span class="k">for</span> <span class="n">op_cfg</span><span class="p">,</span> <span class="n">op</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process_list</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">ops</span><span class="p">):</span>
-            <span class="n">op_name</span><span class="p">,</span> <span class="n">op_args</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">op_cfg</span><span class="o">.</span><span class="n">items</span><span class="p">())[</span><span class="mi">0</span><span class="p">]</span>
-            <span class="n">prev</span> <span class="o">=</span> <span class="n">dataset</span>  <span class="c1"># record last dataset</span>
-            <span class="k">try</span><span class="p">:</span>
-                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">op</span><span class="p">,</span> <span class="n">Mapper</span><span class="p">):</span>
-                    <span class="n">tmp</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">function</span><span class="o">=</span><span class="n">op</span><span class="o">.</span><span class="n">process</span><span class="p">,</span>
-                                      <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">np</span><span class="p">,</span>
-                                      <span class="n">desc</span><span class="o">=</span><span class="n">op_name</span> <span class="o">+</span> <span class="s1">&#39;_process&#39;</span><span class="p">)</span>
-                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">open_tracer</span> <span class="ow">and</span> \
-                            <span class="n">op_name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">op_list_to_trace</span><span class="p">:</span>
-                        <span class="k">if</span> <span class="n">op</span><span class="o">.</span><span class="n">is_batched_op</span><span class="p">():</span>
-                            <span class="bp">self</span><span class="o">.</span><span class="n">tracer</span><span class="o">.</span><span class="n">trace_batch_mapper</span><span class="p">(</span>
-                                <span class="n">op_name</span><span class="p">,</span>
-                                <span class="n">dataset</span><span class="p">,</span>
-                                <span class="n">tmp</span><span class="p">,</span>
-                                <span class="n">op</span><span class="o">.</span><span class="n">text_key</span><span class="p">)</span>
-                        <span class="k">else</span><span class="p">:</span>
-                            <span class="bp">self</span><span class="o">.</span><span class="n">tracer</span><span class="o">.</span><span class="n">trace_mapper</span><span class="p">(</span><span class="n">op_name</span><span class="p">,</span>
-                                                     <span class="n">dataset</span><span class="p">,</span>
-                                                     <span class="n">tmp</span><span class="p">,</span>
-                                                     <span class="n">op</span><span class="o">.</span><span class="n">text_key</span><span class="p">)</span>
-                <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">op</span><span class="p">,</span> <span class="n">Filter</span><span class="p">):</span>
-                    <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">stats</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="p">:</span>
-                        <span class="c1"># TODO:</span>
-                        <span class="c1"># this is a temp solution,</span>
-                        <span class="c1"># only add stats when calling filter op</span>
-                        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">add_column</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">,</span>
-                                                     <span class="n">column</span><span class="o">=</span><span class="p">[{}]</span> <span class="o">*</span>
-                                                     <span class="n">dataset</span><span class="o">.</span><span class="n">num_rows</span><span class="p">)</span>
-                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">use_checkpoint</span><span class="p">:</span>
-                            <span class="n">prev</span> <span class="o">=</span> <span class="n">dataset</span>
-                    <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">compute_stats</span><span class="p">,</span>
-                                          <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">np</span><span class="p">,</span>
-                                          <span class="n">desc</span><span class="o">=</span><span class="n">op_name</span> <span class="o">+</span> <span class="s1">&#39;_compute_stats&#39;</span><span class="p">)</span>
-                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">use_checkpoint</span><span class="p">:</span>
-                        <span class="n">prev</span> <span class="o">=</span> <span class="n">dataset</span>
-                    <span class="n">tmp</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">process</span><span class="p">,</span>
-                                         <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">np</span><span class="p">,</span>
-                                         <span class="n">desc</span><span class="o">=</span><span class="n">op_name</span> <span class="o">+</span> <span class="s1">&#39;_process&#39;</span><span class="p">)</span>
-                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">open_tracer</span> <span class="ow">and</span> <span class="n">op_name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">op_list_to_trace</span><span class="p">:</span>
-                        <span class="bp">self</span><span class="o">.</span><span class="n">tracer</span><span class="o">.</span><span class="n">trace_filter</span><span class="p">(</span><span class="n">op_name</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">tmp</span><span class="p">)</span>
-                <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">op</span><span class="p">,</span> <span class="n">Selector</span><span class="p">):</span>
-                    <span class="n">tmp</span> <span class="o">=</span> <span class="n">op</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
-                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">open_tracer</span> <span class="ow">and</span> <span class="n">op_name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">op_list_to_trace</span><span class="p">:</span>
-                        <span class="bp">self</span><span class="o">.</span><span class="n">tracer</span><span class="o">.</span><span class="n">trace_filter</span><span class="p">(</span><span class="n">op_name</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">tmp</span><span class="p">)</span>
-                <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">op</span><span class="p">,</span> <span class="n">Deduplicator</span><span class="p">):</span>
-                    <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">,</span>
-                                          <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">np</span><span class="p">,</span>
-                                          <span class="n">desc</span><span class="o">=</span><span class="n">op_name</span> <span class="o">+</span> <span class="s1">&#39;_compute_hash&#39;</span><span class="p">)</span>
-                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">use_checkpoint</span><span class="p">:</span>
-                        <span class="n">prev</span> <span class="o">=</span> <span class="n">dataset</span>
-                    <span class="n">tmp</span><span class="p">,</span> <span class="n">dup_pairs</span> <span class="o">=</span> <span class="n">op</span><span class="o">.</span><span class="n">process</span><span class="p">(</span>
-                        <span class="n">dataset</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">tracer</span><span class="o">.</span><span class="n">show_num</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">open_tracer</span>
-                        <span class="ow">and</span> <span class="n">op_name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">op_list_to_trace</span> <span class="k">else</span> <span class="mi">0</span><span class="p">)</span>
-                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">open_tracer</span> <span class="ow">and</span> <span class="n">op_name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">op_list_to_trace</span><span class="p">:</span>
-                        <span class="bp">self</span><span class="o">.</span><span class="n">tracer</span><span class="o">.</span><span class="n">trace_deduplicator</span><span class="p">(</span><span class="n">op_name</span><span class="p">,</span> <span class="n">dup_pairs</span><span class="p">)</span>
-                <span class="k">else</span><span class="p">:</span>
-                    <span class="k">raise</span> <span class="ne">NotImplementedError</span>
-                <span class="n">dataset</span> <span class="o">=</span> <span class="n">tmp</span>
-            <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;An error occurred during Op [</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
-                <span class="kn">import</span> <span class="nn">traceback</span>
-                <span class="n">traceback</span><span class="o">.</span><span class="n">print_exc</span><span class="p">()</span>
-                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">use_checkpoint</span><span class="p">:</span>
-                    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Writing checkpoint of dataset processed by &#39;</span>
-                                <span class="s1">&#39;last op...&#39;</span><span class="p">)</span>
-                    <span class="n">prev</span><span class="o">.</span><span class="n">cleanup_cache_files</span><span class="p">()</span>
-                    <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_manager</span><span class="o">.</span><span class="n">save_ckpt</span><span class="p">(</span><span class="n">prev</span><span class="p">)</span>
-                <span class="n">exit</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
-
-            <span class="c1"># clean up cache files and record processed ops</span>
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">use_checkpoint</span><span class="p">:</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_manager</span><span class="o">.</span><span class="n">record</span><span class="p">(</span><span class="n">op_name</span><span class="p">,</span> <span class="n">op_args</span><span class="p">)</span>
-
-            <span class="n">end</span> <span class="o">=</span> <span class="n">time</span><span class="p">()</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Op [</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">] Done in </span><span class="si">{</span><span class="s2">&quot;</span><span class="si">%.3f</span><span class="s2">&quot;</span><span class="w"> </span><span class="o">%</span><span class="w"> </span><span class="p">(</span><span class="n">end</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">start</span><span class="p">)</span><span class="si">}</span><span class="s1">(s). &#39;</span>
-                        <span class="sa">f</span><span class="s1">&#39;Left </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span><span class="si">}</span><span class="s1"> samples.&#39;</span><span class="p">)</span>
-            <span class="n">start</span> <span class="o">=</span> <span class="n">end</span>
-        <span class="n">tend</span> <span class="o">=</span> <span class="n">time</span><span class="p">()</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;All Ops are done in </span><span class="si">{</span><span class="s2">&quot;</span><span class="si">%.3f</span><span class="s2">&quot;</span><span class="w"> </span><span class="o">%</span><span class="w"> </span><span class="p">(</span><span class="n">tend</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">tstart</span><span class="p">)</span><span class="si">}</span><span class="s1">(s).&#39;</span><span class="p">)</span>
-
-        <span class="c1"># 4. data export</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Exporting dataset to disk...&#39;</span><span class="p">)</span>
-        <span class="k">try</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">exporter</span><span class="o">.</span><span class="n">export</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
-        <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span><span class="s1">&#39;An error occurred during exporting the processed &#39;</span>
-                         <span class="s1">&#39;dataset.&#39;</span><span class="p">)</span>
-            <span class="kn">import</span> <span class="nn">traceback</span>
-            <span class="n">traceback</span><span class="o">.</span><span class="n">print_exc</span><span class="p">()</span>
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">use_checkpoint</span><span class="p">:</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Writing checkpoint of dataset processed by &#39;</span>
-                            <span class="s1">&#39;last op...&#39;</span><span class="p">)</span>
-                <span class="n">dataset</span><span class="o">.</span><span class="n">cleanup_cache_files</span><span class="p">()</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_manager</span><span class="o">.</span><span class="n">save_ckpt</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
-        <span class="c1"># compress the last dataset after exporting</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">use_cache</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">cache_compress</span><span class="p">:</span>
-            <span class="kn">from</span> <span class="nn">data_juicer.utils.compress</span> <span class="kn">import</span> <span class="n">compress</span>
-            <span class="n">compress</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">dataset</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/core/exporter.html b/_modules/data_juicer/core/exporter.html
deleted file mode 100644
index f0f335f16..000000000
--- a/_modules/data_juicer/core/exporter.html
+++ /dev/null
@@ -1,315 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.core.exporter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.core.exporter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.core.exporter</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">os</span>
-<span class="kn">from</span> <span class="nn">multiprocessing</span> <span class="kn">import</span> <span class="n">Pool</span>
-
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span>
-
-
-<div class="viewcode-block" id="Exporter"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.exporter.Exporter">[docs]</a><span class="k">class</span> <span class="nc">Exporter</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;The Exporter class is used to export a dataset to files of specific</span>
-<span class="sd">    format.&quot;&quot;&quot;</span>
-
-    <span class="n">KiB</span> <span class="o">=</span> <span class="mi">2</span><span class="o">**</span><span class="mi">10</span>  <span class="c1"># 1024</span>
-    <span class="n">MiB</span> <span class="o">=</span> <span class="mi">2</span><span class="o">**</span><span class="mi">20</span>  <span class="c1"># 1024*1024</span>
-    <span class="n">GiB</span> <span class="o">=</span> <span class="mi">2</span><span class="o">**</span><span class="mi">30</span>  <span class="c1"># 1024*1024*1024</span>
-    <span class="n">TiB</span> <span class="o">=</span> <span class="mi">2</span><span class="o">**</span><span class="mi">40</span>  <span class="c1"># 1024*1024*1024*1024</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">export_path</span><span class="p">,</span>
-                 <span class="n">export_shard_size</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
-                 <span class="n">export_in_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-                 <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
-                 <span class="n">export_ds</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-                 <span class="n">export_stats</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param export_path: the path to export datasets.</span>
-<span class="sd">        :param export_shard_size: the size of each shard of exported</span>
-<span class="sd">            dataset. In default, it&#39;s 0, which means export the dataset</span>
-<span class="sd">            to a single file.</span>
-<span class="sd">        :param num_proc: number of process to export the dataset.</span>
-<span class="sd">        :param export_ds: whether to export the dataset contents.</span>
-<span class="sd">        :param export_stats: whether to export the stats of dataset.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">export_path</span> <span class="o">=</span> <span class="n">export_path</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">export_shard_size</span> <span class="o">=</span> <span class="n">export_shard_size</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">export_in_parallel</span> <span class="o">=</span> <span class="n">export_in_parallel</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">export_ds</span> <span class="o">=</span> <span class="n">export_ds</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">export_stats</span> <span class="o">=</span> <span class="n">export_stats</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">suffix</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_suffix</span><span class="p">(</span><span class="n">export_path</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="o">=</span> <span class="n">num_proc</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_shard_size_str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
-
-        <span class="c1"># get the string format of shard size</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">export_shard_size</span> <span class="o">//</span> <span class="n">Exporter</span><span class="o">.</span><span class="n">TiB</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">max_shard_size_str</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="si">%.2f</span><span class="s1"> TiB&#39;</span> <span class="o">%</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">export_shard_size</span> <span class="o">/</span>
-                                                    <span class="n">Exporter</span><span class="o">.</span><span class="n">TiB</span><span class="p">)</span>
-        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">export_shard_size</span> <span class="o">//</span> <span class="n">Exporter</span><span class="o">.</span><span class="n">GiB</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">max_shard_size_str</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="si">%.2f</span><span class="s1"> GiB&#39;</span> <span class="o">%</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">export_shard_size</span> <span class="o">/</span>
-                                                    <span class="n">Exporter</span><span class="o">.</span><span class="n">GiB</span><span class="p">)</span>
-        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">export_shard_size</span> <span class="o">//</span> <span class="n">Exporter</span><span class="o">.</span><span class="n">MiB</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">max_shard_size_str</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="si">%.2f</span><span class="s1"> MiB&#39;</span> <span class="o">%</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">export_shard_size</span> <span class="o">/</span>
-                                                    <span class="n">Exporter</span><span class="o">.</span><span class="n">MiB</span><span class="p">)</span>
-        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">export_shard_size</span> <span class="o">//</span> <span class="n">Exporter</span><span class="o">.</span><span class="n">KiB</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">max_shard_size_str</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="si">%.2f</span><span class="s1"> KiB&#39;</span> <span class="o">%</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">export_shard_size</span> <span class="o">/</span>
-                                                    <span class="n">Exporter</span><span class="o">.</span><span class="n">KiB</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">max_shard_size_str</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="si">%.2f</span><span class="s1"> Bytes&#39;</span> <span class="o">%</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">export_shard_size</span><span class="p">)</span>
-
-        <span class="c1"># we recommend users to set a shard size between MiB and TiB.</span>
-        <span class="k">if</span> <span class="mi">0</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">export_shard_size</span> <span class="o">&lt;</span> <span class="n">Exporter</span><span class="o">.</span><span class="n">MiB</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;The export_shard_size [</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_shard_size_str</span><span class="si">}</span><span class="s1">]&#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39; is less than 1MiB. If the result dataset is too &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;large, there might be too many shard files to &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;generate.&#39;</span><span class="p">)</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">export_shard_size</span> <span class="o">&gt;=</span> <span class="n">Exporter</span><span class="o">.</span><span class="n">TiB</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;The export_shard_size [</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_shard_size_str</span><span class="si">}</span><span class="s1">]&#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39; is larger than 1TiB. It might generate large &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;single shard file and make loading and exporting &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;slower.&#39;</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">_get_suffix</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">export_path</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Get the suffix of export path and check if it&#39;s supported.</span>
-
-<span class="sd">        We only support [&quot;jsonl&quot;, &quot;json&quot;, &quot;parquet&quot;] for now.</span>
-
-<span class="sd">        :param export_path: the path to export datasets.</span>
-<span class="sd">        :return: the suffix of export_path.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">suffix</span> <span class="o">=</span> <span class="n">export_path</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
-        <span class="n">support_dict</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_router</span><span class="p">()</span>
-        <span class="k">if</span> <span class="n">suffix</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">support_dict</span><span class="p">:</span>
-            <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Suffix of export path [&#39;</span>
-                                      <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">export_path</span><span class="si">}</span><span class="s1">] is not supported &#39;</span>
-                                      <span class="sa">f</span><span class="s1">&#39;for now. Only support &#39;</span>
-                                      <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="nb">list</span><span class="p">(</span><span class="n">support_dict</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span><span class="si">}</span><span class="s1">.&#39;</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">suffix</span>
-
-    <span class="k">def</span> <span class="nf">_export_impl</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">export_path</span><span class="p">,</span> <span class="n">suffix</span><span class="p">,</span> <span class="n">export_stats</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Export a dataset to specific path.</span>
-
-<span class="sd">        :param dataset: the dataset to export.</span>
-<span class="sd">        :param export_path: the path to export the dataset.</span>
-<span class="sd">        :param suffix: suffix of export path.</span>
-<span class="sd">        :param export_stats: whether to export stats of dataset.</span>
-<span class="sd">        :return:</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">export_ds</span><span class="p">:</span>
-            <span class="c1"># fetch the corresponding export method according to the suffix</span>
-            <span class="n">export_method</span> <span class="o">=</span> <span class="n">Exporter</span><span class="o">.</span><span class="n">_router</span><span class="p">()[</span><span class="n">suffix</span><span class="p">]</span>
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">export_shard_size</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
-                <span class="c1"># export the whole dataset into one single file.</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Export dataset into a single file...&#39;</span><span class="p">)</span>
-                <span class="n">export_method</span><span class="p">(</span>
-                    <span class="n">dataset</span><span class="p">,</span>
-                    <span class="n">export_path</span><span class="p">,</span>
-                    <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">export_in_parallel</span> <span class="k">else</span> <span class="mi">1</span><span class="p">)</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="c1"># compute the dataset size and number of shards to split</span>
-                <span class="k">if</span> <span class="n">dataset</span><span class="o">.</span><span class="n">_indices</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-                    <span class="n">dataset_nbytes</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">nbytes</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span>
-                        <span class="n">dataset</span><span class="o">.</span><span class="n">_indices</span><span class="p">)</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="o">.</span><span class="n">data</span><span class="p">)</span>
-                <span class="k">else</span><span class="p">:</span>
-                    <span class="n">dataset_nbytes</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">nbytes</span>
-                <span class="n">num_shards</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">dataset_nbytes</span> <span class="o">/</span> <span class="bp">self</span><span class="o">.</span><span class="n">export_shard_size</span><span class="p">)</span> <span class="o">+</span> <span class="mi">1</span>
-                <span class="n">num_shards</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">num_shards</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">))</span>
-
-                <span class="c1"># split the dataset into multiple shards</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Split the dataset to export into </span><span class="si">{</span><span class="n">num_shards</span><span class="si">}</span><span class="s1"> &#39;</span>
-                            <span class="sa">f</span><span class="s1">&#39;shards. Size of each shard &lt;= &#39;</span>
-                            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_shard_size_str</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
-                <span class="n">shards</span> <span class="o">=</span> <span class="p">[</span>
-                    <span class="n">dataset</span><span class="o">.</span><span class="n">shard</span><span class="p">(</span><span class="n">num_shards</span><span class="o">=</span><span class="n">num_shards</span><span class="p">,</span>
-                                  <span class="n">index</span><span class="o">=</span><span class="n">i</span><span class="p">,</span>
-                                  <span class="n">contiguous</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_shards</span><span class="p">)</span>
-                <span class="p">]</span>
-                <span class="n">len_num</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">num_shards</span><span class="p">))</span> <span class="o">+</span> <span class="mi">1</span>
-                <span class="n">num_fmt</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;%0</span><span class="si">{</span><span class="n">len_num</span><span class="si">}</span><span class="s1">d&#39;</span>
-
-                <span class="c1"># regard the export path as a directory and set file names for</span>
-                <span class="c1"># each shard</span>
-                <span class="n">dirname</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">abspath</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">export_path</span><span class="p">))</span>
-                <span class="n">basename</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">export_path</span><span class="p">)</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
-                <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">dirname</span><span class="p">,</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-                <span class="n">filenames</span> <span class="o">=</span> <span class="p">[</span>
-                    <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
-                        <span class="n">dirname</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">basename</span><span class="si">}</span><span class="s1">-</span><span class="si">{</span><span class="n">num_fmt</span><span class="w"> </span><span class="o">%</span><span class="w"> </span><span class="n">index</span><span class="si">}</span><span class="s1">-of-&#39;</span>
-                        <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">num_fmt</span><span class="w"> </span><span class="o">%</span><span class="w"> </span><span class="n">num_shards</span><span class="si">}</span><span class="s1">&#39;</span>
-                        <span class="sa">f</span><span class="s1">&#39;.</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">suffix</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span> <span class="k">for</span> <span class="n">index</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_shards</span><span class="p">)</span>
-                <span class="p">]</span>
-
-                <span class="c1"># export dataset into multiple shards using multiprocessing</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Start to exporting to </span><span class="si">{</span><span class="n">num_shards</span><span class="si">}</span><span class="s1"> shards.&#39;</span><span class="p">)</span>
-                <span class="n">pool</span> <span class="o">=</span> <span class="n">Pool</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span><span class="p">)</span>
-                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_shards</span><span class="p">):</span>
-                    <span class="n">pool</span><span class="o">.</span><span class="n">apply_async</span><span class="p">(</span><span class="n">export_method</span><span class="p">,</span>
-                                     <span class="n">args</span><span class="o">=</span><span class="p">(</span>
-                                         <span class="n">shards</span><span class="p">[</span><span class="n">i</span><span class="p">],</span>
-                                         <span class="n">filenames</span><span class="p">[</span><span class="n">i</span><span class="p">],</span>
-                                     <span class="p">))</span>
-                <span class="n">pool</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
-                <span class="n">pool</span><span class="o">.</span><span class="n">join</span><span class="p">()</span>
-
-        <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">stats</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span> <span class="ow">and</span> <span class="n">export_stats</span><span class="p">:</span>
-            <span class="c1"># export stats of datasets into a single file.</span>
-            <span class="n">ds_stats</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">select_columns</span><span class="p">(</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">)</span>
-            <span class="n">stats_file</span> <span class="o">=</span> <span class="n">export_path</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.&#39;</span> <span class="o">+</span> <span class="n">suffix</span><span class="p">,</span> <span class="s1">&#39;_stats.jsonl&#39;</span><span class="p">)</span>
-            <span class="n">Exporter</span><span class="o">.</span><span class="n">to_jsonl</span><span class="p">(</span>
-                <span class="n">ds_stats</span><span class="p">,</span>
-                <span class="n">stats_file</span><span class="p">,</span>
-                <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">export_in_parallel</span> <span class="k">else</span> <span class="mi">1</span>
-            <span class="p">)</span>
-
-<div class="viewcode-block" id="Exporter.export"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.exporter.Exporter.export">[docs]</a>    <span class="k">def</span> <span class="nf">export</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Export method for a dataset.</span>
-
-<span class="sd">        :param dataset: the dataset to export.</span>
-<span class="sd">        :return:</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_export_impl</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">export_path</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">suffix</span><span class="p">,</span>
-                          <span class="bp">self</span><span class="o">.</span><span class="n">export_stats</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="Exporter.to_jsonl"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.exporter.Exporter.to_jsonl">[docs]</a>    <span class="nd">@staticmethod</span>
-    <span class="k">def</span> <span class="nf">to_jsonl</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">export_path</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Export method for json/jsonl target files.</span>
-
-<span class="sd">        :param dataset: the dataset to export.</span>
-<span class="sd">        :param export_path: the path to store the exported dataset.</span>
-<span class="sd">        :param num_proc: the number of processes used to export the dataset.</span>
-<span class="sd">        :param kwargs: extra arguments.</span>
-<span class="sd">        :return:</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">dataset</span><span class="o">.</span><span class="n">to_json</span><span class="p">(</span><span class="n">export_path</span><span class="p">,</span> <span class="n">force_ascii</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="n">num_proc</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="Exporter.to_parquet"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.exporter.Exporter.to_parquet">[docs]</a>    <span class="nd">@staticmethod</span>
-    <span class="k">def</span> <span class="nf">to_parquet</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">export_path</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Export method for parquet target files.</span>
-
-<span class="sd">        :param dataset: the dataset to export.</span>
-<span class="sd">        :param export_path: the path to store the exported dataset.</span>
-<span class="sd">        :param kwargs: extra arguments.</span>
-<span class="sd">        :return:</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">dataset</span><span class="o">.</span><span class="n">to_parquet</span><span class="p">(</span><span class="n">export_path</span><span class="p">)</span></div>
-
-    <span class="c1"># suffix to export method</span>
-    <span class="nd">@staticmethod</span>
-    <span class="k">def</span> <span class="nf">_router</span><span class="p">():</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        A router from different suffixes to corresponding export methods.</span>
-
-<span class="sd">        :return: A dict router.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="p">{</span>
-            <span class="s1">&#39;jsonl&#39;</span><span class="p">:</span> <span class="n">Exporter</span><span class="o">.</span><span class="n">to_jsonl</span><span class="p">,</span>
-            <span class="s1">&#39;json&#39;</span><span class="p">:</span> <span class="n">Exporter</span><span class="o">.</span><span class="n">to_jsonl</span><span class="p">,</span>
-            <span class="s1">&#39;parquet&#39;</span><span class="p">:</span> <span class="n">Exporter</span><span class="o">.</span><span class="n">to_parquet</span><span class="p">,</span>
-        <span class="p">}</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/core/tracer.html b/_modules/data_juicer/core/tracer.html
deleted file mode 100644
index 9a50e56fe..000000000
--- a/_modules/data_juicer/core/tracer.html
+++ /dev/null
@@ -1,325 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.core.tracer &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.core.tracer</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.core.tracer</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">os</span>
-
-<span class="kn">import</span> <span class="nn">pandas</span> <span class="k">as</span> <span class="nn">pd</span>
-<span class="kn">from</span> <span class="nn">datasets</span> <span class="kn">import</span> <span class="n">Dataset</span>
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-
-<div class="viewcode-block" id="Tracer"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.tracer.Tracer">[docs]</a><span class="k">class</span> <span class="nc">Tracer</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    The tracer to trace the sample changes before and after an operator</span>
-<span class="sd">    process.</span>
-
-<span class="sd">    The comparison results will be stored in the work directory.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">work_dir</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">10</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param work_dir: the work directory to store the comparison</span>
-<span class="sd">            results</span>
-<span class="sd">        :param show_num: the maximum number of samples to show in the</span>
-<span class="sd">            comparison result files.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">work_dir</span><span class="p">,</span> <span class="s1">&#39;trace&#39;</span><span class="p">)</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span><span class="p">):</span>
-            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">show_num</span> <span class="o">=</span> <span class="n">show_num</span>
-
-<div class="viewcode-block" id="Tracer.trace_mapper"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_mapper">[docs]</a>    <span class="k">def</span> <span class="nf">trace_mapper</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">op_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">previous_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
-                     <span class="n">processed_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Compare datasets before and after a Mapper.</span>
-
-<span class="sd">        This will mainly show the different sample pairs due to the</span>
-<span class="sd">        modification by the Mapper</span>
-
-<span class="sd">        :param op_name: the op name of mapper</span>
-<span class="sd">        :param previous_ds: dataset before the mapper process</span>
-<span class="sd">        :param processed_ds: dataset processed by the mapper</span>
-<span class="sd">        :param text_key: which text_key to trace</span>
-<span class="sd">        :return:</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">assert</span> <span class="nb">len</span><span class="p">(</span><span class="n">previous_ds</span><span class="p">)</span> <span class="o">==</span> <span class="nb">len</span><span class="p">(</span><span class="n">processed_ds</span><span class="p">)</span>
-        <span class="n">dif_dict</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="n">num</span> <span class="o">=</span> <span class="mi">0</span>
-
-        <span class="c1"># Find different samples orderly between previous and processed</span>
-        <span class="c1"># datasets until the total number of found sample pairs is enough.</span>
-        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">previous_ds</span><span class="p">)):</span>
-            <span class="n">previous_sample</span> <span class="o">=</span> <span class="n">previous_ds</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="n">text_key</span><span class="p">]</span>
-            <span class="n">processed_sample</span> <span class="o">=</span> <span class="n">processed_ds</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="n">text_key</span><span class="p">]</span>
-            <span class="k">if</span> <span class="n">previous_sample</span> <span class="o">!=</span> <span class="n">processed_sample</span><span class="p">:</span>
-                <span class="n">dif_dict</span><span class="o">.</span><span class="n">append</span><span class="p">({</span>
-                    <span class="s1">&#39;original text&#39;</span><span class="p">:</span> <span class="n">previous_sample</span><span class="p">,</span>
-                    <span class="s1">&#39;processed_text&#39;</span><span class="p">:</span> <span class="n">processed_sample</span><span class="p">,</span>
-                <span class="p">})</span>
-                <span class="n">num</span> <span class="o">+=</span> <span class="mi">1</span>
-                <span class="k">if</span> <span class="n">num</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">show_num</span><span class="p">:</span>
-                    <span class="k">break</span>
-
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dif_dict</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Datasets before and after op [</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">] are all &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;the same. Thus no comparison results would be &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;generated.&#39;</span><span class="p">)</span>
-            <span class="k">return</span>
-        <span class="k">elif</span> <span class="nb">len</span><span class="p">(</span><span class="n">dif_dict</span><span class="p">)</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">show_num</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;There are </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">dif_dict</span><span class="p">)</span><span class="si">}</span><span class="s1"> different samples &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;before and after op [</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">] -- less than &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;expected </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">show_num</span><span class="si">}</span><span class="s1"> samples.&#39;</span><span class="p">)</span>
-
-        <span class="c1"># export the tracer results.</span>
-        <span class="n">res_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;mapper-</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">.jsonl&#39;</span>
-        <span class="n">dif_df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span><span class="n">dif_dict</span><span class="p">)</span>
-        <span class="n">dif_df</span><span class="o">.</span><span class="n">to_json</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span><span class="p">,</span> <span class="n">res_name</span><span class="p">),</span>
-                       <span class="n">orient</span><span class="o">=</span><span class="s1">&#39;records&#39;</span><span class="p">,</span>
-                       <span class="n">lines</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-                       <span class="n">force_ascii</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="Tracer.trace_batch_mapper"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_batch_mapper">[docs]</a>    <span class="k">def</span> <span class="nf">trace_batch_mapper</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">op_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">previous_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
-                           <span class="n">processed_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Compare datasets before and after a BatchMapper.</span>
-
-<span class="sd">        This will mainly show the new samples augmented by the BatchMapper</span>
-
-<span class="sd">        :param op_name: the op name of mapper</span>
-<span class="sd">        :param previous_ds: dataset before the mapper process</span>
-<span class="sd">        :param processed_ds: dataset processed by the mapper</span>
-<span class="sd">        :param text_key: which text_key to trace</span>
-<span class="sd">        :return:</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">assert</span> <span class="n">previous_ds</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="n">text_key</span><span class="p">]</span> <span class="o">==</span> <span class="n">processed_ds</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="n">text_key</span><span class="p">]</span>
-        <span class="n">aug_dict</span> <span class="o">=</span> <span class="p">[]</span>
-
-        <span class="c1"># Get the first samples</span>
-        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">processed_ds</span><span class="p">)):</span>
-            <span class="n">processed_sample</span> <span class="o">=</span> <span class="n">processed_ds</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
-            <span class="n">aug_dict</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">processed_sample</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">i</span> <span class="o">+</span> <span class="mi">1</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">show_num</span><span class="p">:</span>
-                <span class="k">break</span>
-
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">aug_dict</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Datasets before and after op [</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">] are &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;empty. Thus no comparison results would be &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;generated.&#39;</span><span class="p">)</span>
-            <span class="k">return</span>
-        <span class="k">elif</span> <span class="nb">len</span><span class="p">(</span><span class="n">aug_dict</span><span class="p">)</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">show_num</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;There are only </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">aug_dict</span><span class="p">)</span><span class="si">}</span><span class="s1"> samples -- less &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;than expected </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">show_num</span><span class="si">}</span><span class="s1"> samples.&#39;</span><span class="p">)</span>
-
-        <span class="c1"># export the tracer results.</span>
-        <span class="n">res_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;mapper-</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">.jsonl&#39;</span>
-        <span class="n">dif_df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span><span class="n">aug_dict</span><span class="p">)</span>
-        <span class="n">dif_df</span><span class="o">.</span><span class="n">to_json</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span><span class="p">,</span> <span class="n">res_name</span><span class="p">),</span>
-                       <span class="n">orient</span><span class="o">=</span><span class="s1">&#39;records&#39;</span><span class="p">,</span>
-                       <span class="n">lines</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-                       <span class="n">force_ascii</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="Tracer.trace_filter"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_filter">[docs]</a>    <span class="k">def</span> <span class="nf">trace_filter</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">op_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">previous_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
-                     <span class="n">processed_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Compare datasets before and after a Filter.</span>
-
-<span class="sd">        This will mainly show the filtered samples by the Filter</span>
-
-<span class="sd">        :param op_name: the op name of filter</span>
-<span class="sd">        :param previous_ds: dataset before the filter process</span>
-<span class="sd">        :param processed_ds: dataset processed by the filter</span>
-<span class="sd">        :return:</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">previous_ds</span><span class="p">)</span> <span class="o">==</span> <span class="nb">len</span><span class="p">(</span><span class="n">processed_ds</span><span class="p">):</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Datasets before and after op [</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">] are all &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;the same. Thus no comparison results would be &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;generated.&#39;</span><span class="p">)</span>
-            <span class="k">return</span>
-
-        <span class="c1"># get the number of filtered samples.</span>
-        <span class="n">total_dif_num</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">previous_ds</span><span class="p">)</span> <span class="o">-</span> <span class="nb">len</span><span class="p">(</span><span class="n">processed_ds</span><span class="p">)</span>
-        <span class="c1"># index of the current sample in the previous dataset</span>
-        <span class="n">i</span> <span class="o">=</span> <span class="mi">0</span>
-        <span class="n">filter_dict</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="c1"># number of found filtered samples. It&#39;s the offset bewteen two</span>
-        <span class="c1"># datasets as well.</span>
-        <span class="n">num</span> <span class="o">=</span> <span class="mi">0</span>
-        <span class="k">while</span> <span class="n">i</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">previous_ds</span><span class="p">):</span>
-            <span class="k">if</span> <span class="n">i</span> <span class="o">-</span> <span class="n">num</span> <span class="o">&gt;=</span> <span class="nb">len</span><span class="p">(</span><span class="n">processed_ds</span><span class="p">)</span> <span class="ow">or</span> \
-                    <span class="n">previous_ds</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">!=</span> <span class="n">processed_ds</span><span class="p">[</span><span class="n">i</span> <span class="o">-</span> <span class="n">num</span><span class="p">]:</span>
-                <span class="c1"># 1. If all samples in processed dataset are checked but there</span>
-                <span class="c1"># still some samples left in the previous dataset, all of these</span>
-                <span class="c1"># left samples are filtered.</span>
-                <span class="c1"># 2. If the corresponding samples in previous and processed</span>
-                <span class="c1"># datasets are different, samples in the previous dataset are</span>
-                <span class="c1"># filtered.</span>
-                <span class="n">num</span> <span class="o">+=</span> <span class="mi">1</span>
-                <span class="n">filter_dict</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">previous_ds</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
-            <span class="k">if</span> <span class="n">num</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">show_num</span> <span class="ow">or</span> <span class="n">num</span> <span class="o">&gt;=</span> <span class="n">total_dif_num</span><span class="p">:</span>
-                <span class="c1"># If the total number of found filtered samples is enough or we</span>
-                <span class="c1"># have found all filtered samples, just stop.</span>
-                <span class="k">break</span>
-            <span class="n">i</span> <span class="o">+=</span> <span class="mi">1</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">filter_dict</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Datasets before and after op [</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">] are all &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;the same. Thus no comparison results would be &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;generated.&#39;</span><span class="p">)</span>
-            <span class="k">return</span>
-        <span class="k">elif</span> <span class="nb">len</span><span class="p">(</span><span class="n">filter_dict</span><span class="p">)</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">show_num</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;There are </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">filter_dict</span><span class="p">)</span><span class="si">}</span><span class="s1"> filtered samples &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;before and after op [</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">] -- less than &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;expected </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">show_num</span><span class="si">}</span><span class="s1"> samples.&#39;</span><span class="p">)</span>
-
-        <span class="c1"># export the tracer results.</span>
-        <span class="n">res_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;filter-</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">.jsonl&#39;</span>
-        <span class="n">filter_df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span><span class="n">filter_dict</span><span class="p">)</span>
-        <span class="n">filter_df</span><span class="o">.</span><span class="n">to_json</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span><span class="p">,</span> <span class="n">res_name</span><span class="p">),</span>
-                          <span class="n">orient</span><span class="o">=</span><span class="s1">&#39;records&#39;</span><span class="p">,</span>
-                          <span class="n">lines</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-                          <span class="n">force_ascii</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="Tracer.trace_deduplicator"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_deduplicator">[docs]</a>    <span class="k">def</span> <span class="nf">trace_deduplicator</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">op_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">dup_pairs</span><span class="p">:</span> <span class="nb">list</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Compare datasets before and after a Deduplicator.</span>
-
-<span class="sd">        This will mainly show the near-duplicate sample pairs extracted</span>
-<span class="sd">        by the Deduplicator. Different from the other two trace methods,</span>
-<span class="sd">        the trace process for deduplicator is embedded into the process</span>
-<span class="sd">        method of deduplicator, but the other two trace methods are</span>
-<span class="sd">        independent of the process method of mapper and filter operators</span>
-
-<span class="sd">        :param op_name: the op name of deduplicator</span>
-<span class="sd">        :param dup_pairs: duplicate sample pairs obtained from</span>
-<span class="sd">            deduplicator</span>
-<span class="sd">        :return:</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="n">dup_pairs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Op [</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">] does not generate dup_pairs &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;correctly, thus no comparison results can be &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;obtained from this op.&#39;</span><span class="p">)</span>
-            <span class="k">return</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dup_pairs</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Datasets before and after op [</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">] are all &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;the same. Thus no comparison results would be &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;generated.&#39;</span><span class="p">)</span>
-            <span class="k">return</span>
-        <span class="k">elif</span> <span class="nb">len</span><span class="p">(</span><span class="n">dup_pairs</span><span class="p">)</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">show_num</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;There are </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">dup_pairs</span><span class="p">)</span><span class="si">}</span><span class="s1"> filtered samples &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;before and after op [</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">] -- less than &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;expected </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">show_num</span><span class="si">}</span><span class="s1"> samples.&#39;</span><span class="p">)</span>
-
-        <span class="c1"># reorganize the duplicate pairs</span>
-        <span class="n">dup_dict</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">dup_pairs</span><span class="p">:</span>
-            <span class="n">dup_dict</span><span class="o">.</span><span class="n">append</span><span class="p">({</span>
-                <span class="s1">&#39;dup1&#39;</span><span class="p">:</span> <span class="n">dup_pairs</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="mi">0</span><span class="p">],</span>
-                <span class="s1">&#39;dup2&#39;</span><span class="p">:</span> <span class="n">dup_pairs</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="mi">1</span><span class="p">],</span>
-            <span class="p">})</span>
-
-        <span class="c1"># export the tracer result.</span>
-        <span class="n">res_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;duplicate-</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">.jsonl&#39;</span>
-        <span class="n">dup_df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span><span class="n">dup_dict</span><span class="p">)</span>
-        <span class="n">dup_df</span><span class="o">.</span><span class="n">to_json</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span><span class="p">,</span> <span class="n">res_name</span><span class="p">),</span>
-                       <span class="n">orient</span><span class="o">=</span><span class="s1">&#39;records&#39;</span><span class="p">,</span>
-                       <span class="n">lines</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-                       <span class="n">force_ascii</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/format/csv_formatter.html b/_modules/data_juicer/format/csv_formatter.html
deleted file mode 100644
index 47d27d095..000000000
--- a/_modules/data_juicer/format/csv_formatter.html
+++ /dev/null
@@ -1,127 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.format.csv_formatter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.format.csv_formatter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.format.csv_formatter</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">.formatter</span> <span class="kn">import</span> <span class="n">FORMATTERS</span><span class="p">,</span> <span class="n">LocalFormatter</span>
-
-
-<div class="viewcode-block" id="CsvFormatter"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter">[docs]</a><span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
-<span class="k">class</span> <span class="nc">CsvFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    The class is used to load and format csv-type files.</span>
-
-<span class="sd">    Default suffixes is `[&#39;.csv&#39;]`</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.csv&#39;</span><span class="p">]</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param dataset_path: a dataset file or a dataset directory</span>
-<span class="sd">        :param suffixes: files with specified suffixes to be processed</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
-            <span class="n">dataset_path</span><span class="o">=</span><span class="n">dataset_path</span><span class="p">,</span>
-            <span class="n">suffixes</span><span class="o">=</span><span class="n">suffixes</span> <span class="k">if</span> <span class="n">suffixes</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">SUFFIXES</span><span class="p">,</span>
-            <span class="nb">type</span><span class="o">=</span><span class="s1">&#39;csv&#39;</span><span class="p">,</span>
-            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-        <span class="p">)</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/format/formatter.html b/_modules/data_juicer/format/formatter.html
deleted file mode 100644
index ee3fe449d..000000000
--- a/_modules/data_juicer/format/formatter.html
+++ /dev/null
@@ -1,366 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.format.formatter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.format.formatter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">os</span>
-<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
-
-<span class="kn">from</span> <span class="nn">datasets</span> <span class="kn">import</span> <span class="n">Dataset</span><span class="p">,</span> <span class="n">DatasetDict</span><span class="p">,</span> <span class="n">concatenate_datasets</span><span class="p">,</span> <span class="n">load_dataset</span>
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.file_utils</span> <span class="kn">import</span> <span class="p">(</span><span class="n">find_files_with_suffix</span><span class="p">,</span>
-                                          <span class="n">is_absolute_path</span><span class="p">)</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.registry</span> <span class="kn">import</span> <span class="n">Registry</span>
-
-<span class="n">FORMATTERS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="s1">&#39;Formatters&#39;</span><span class="p">)</span>
-
-
-<div class="viewcode-block" id="BaseFormatter"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.BaseFormatter">[docs]</a><span class="k">class</span> <span class="nc">BaseFormatter</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Base class to load dataset.&quot;&quot;&quot;</span>
-
-<div class="viewcode-block" id="BaseFormatter.load_dataset"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.BaseFormatter.load_dataset">[docs]</a>    <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div></div>
-
-
-<div class="viewcode-block" id="LocalFormatter"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.LocalFormatter">[docs]</a><span class="k">class</span> <span class="nc">LocalFormatter</span><span class="p">(</span><span class="n">BaseFormatter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;The class is used to load a dataset from local files or local</span>
-<span class="sd">    directory.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-        <span class="bp">self</span><span class="p">,</span>
-        <span class="n">dataset_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
-        <span class="nb">type</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
-        <span class="n">suffixes</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-        <span class="n">text_keys</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-        <span class="n">add_suffix</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-    <span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param dataset_path: path to a dataset file or a dataset</span>
-<span class="sd">            directory</span>
-<span class="sd">        :param type: a packaged dataset module type (json, csv, etc.)</span>
-<span class="sd">        :param suffixes: files with specified suffixes to be processed</span>
-<span class="sd">        :param text_keys: key names of field that stores sample</span>
-<span class="sd">            text.</span>
-<span class="sd">        :param add_suffix: whether to add the file suffix to dataset</span>
-<span class="sd">            meta info</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">type</span> <span class="o">=</span> <span class="nb">type</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">kwargs</span> <span class="o">=</span> <span class="n">kwargs</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">text_keys</span> <span class="o">=</span> <span class="n">text_keys</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">data_files</span> <span class="o">=</span> <span class="n">find_files_with_suffix</span><span class="p">(</span><span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">add_suffix</span> <span class="o">=</span> <span class="n">add_suffix</span>
-
-<div class="viewcode-block" id="LocalFormatter.load_dataset"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.load_dataset">[docs]</a>    <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Load a dataset from dataset file or dataset directory, and unify its</span>
-<span class="sd">        format.</span>
-
-<span class="sd">        :param num_proc: number of processes when loading the dataset</span>
-<span class="sd">        :param global_cfg: global cfg used in consequent processes,</span>
-<span class="sd">        :return: formatted dataset</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">datasets</span> <span class="o">=</span> <span class="n">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">type</span><span class="p">,</span>
-                                <span class="n">data_files</span><span class="o">=</span><span class="p">{</span>
-                                    <span class="n">key</span><span class="o">.</span><span class="n">strip</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">):</span> <span class="bp">self</span><span class="o">.</span><span class="n">data_files</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
-                                    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">data_files</span>
-                                <span class="p">},</span>
-                                <span class="n">num_proc</span><span class="o">=</span><span class="n">num_proc</span><span class="p">,</span>
-                                <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">add_suffix</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Add suffix info into dataset...&#39;</span><span class="p">)</span>
-            <span class="n">datasets</span> <span class="o">=</span> <span class="n">add_suffixes</span><span class="p">(</span><span class="n">datasets</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">NestedDataset</span>
-            <span class="n">datasets</span> <span class="o">=</span> <span class="n">NestedDataset</span><span class="p">(</span>
-                <span class="n">concatenate_datasets</span><span class="p">([</span><span class="n">ds</span> <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">ds</span> <span class="ow">in</span> <span class="n">datasets</span><span class="o">.</span><span class="n">items</span><span class="p">()]))</span>
-        <span class="n">ds</span> <span class="o">=</span> <span class="n">unify_format</span><span class="p">(</span><span class="n">datasets</span><span class="p">,</span>
-                          <span class="n">text_keys</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">text_keys</span><span class="p">,</span>
-                          <span class="n">num_proc</span><span class="o">=</span><span class="n">num_proc</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">ds</span></div></div>
-
-
-<div class="viewcode-block" id="RemoteFormatter"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter">[docs]</a><span class="k">class</span> <span class="nc">RemoteFormatter</span><span class="p">(</span><span class="n">BaseFormatter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;The class is used to load a dataset from repository of huggingface</span>
-<span class="sd">    hub.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">dataset_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
-                 <span class="n">text_keys</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param dataset_path: a dataset file or a dataset directory</span>
-<span class="sd">        :param text_keys: key names of field that stores sample</span>
-<span class="sd">            text.</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">path</span> <span class="o">=</span> <span class="n">dataset_path</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">text_keys</span> <span class="o">=</span> <span class="n">text_keys</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">kwargs</span> <span class="o">=</span> <span class="n">kwargs</span>
-
-<div class="viewcode-block" id="RemoteFormatter.load_dataset"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.load_dataset">[docs]</a>    <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Load a dataset from HuggingFace, and unify its format.</span>
-
-<span class="sd">        :param num_proc: number of processes when loading the dataset</span>
-<span class="sd">        :param global_cfg: the global cfg used in consequent processes,</span>
-<span class="sd">        :return: formatted dataset</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">ds</span> <span class="o">=</span> <span class="n">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">path</span><span class="p">,</span>
-                          <span class="n">split</span><span class="o">=</span><span class="s1">&#39;train&#39;</span><span class="p">,</span>
-                          <span class="n">num_proc</span><span class="o">=</span><span class="n">num_proc</span><span class="p">,</span>
-                          <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="n">ds</span> <span class="o">=</span> <span class="n">unify_format</span><span class="p">(</span><span class="n">ds</span><span class="p">,</span> <span class="n">text_keys</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">text_keys</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="n">num_proc</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">ds</span></div></div>
-
-
-<div class="viewcode-block" id="add_suffixes"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.add_suffixes">[docs]</a><span class="k">def</span> <span class="nf">add_suffixes</span><span class="p">(</span><span class="n">datasets</span><span class="p">:</span> <span class="n">DatasetDict</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Add suffix filed to datasets.</span>
-
-<span class="sd">    :param datasets: a DatasetDict object</span>
-<span class="sd">    :return: datasets with suffix features.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Add suffix column for dataset&#39;</span><span class="p">)</span>
-    <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">ds</span> <span class="ow">in</span> <span class="n">datasets</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-        <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">suffix</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">ds</span><span class="o">.</span><span class="n">features</span><span class="p">:</span>
-            <span class="n">datasets</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">ds</span><span class="o">.</span><span class="n">add_column</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="n">Fields</span><span class="o">.</span><span class="n">suffix</span><span class="p">,</span>
-                                          <span class="n">column</span><span class="o">=</span><span class="p">[</span><span class="s1">&#39;.&#39;</span> <span class="o">+</span> <span class="n">key</span><span class="p">]</span> <span class="o">*</span> <span class="n">ds</span><span class="o">.</span><span class="n">num_rows</span><span class="p">)</span>
-    <span class="n">datasets</span> <span class="o">=</span> <span class="n">concatenate_datasets</span><span class="p">([</span><span class="n">ds</span> <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">ds</span> <span class="ow">in</span> <span class="n">datasets</span><span class="o">.</span><span class="n">items</span><span class="p">()])</span>
-    <span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">NestedDataset</span>
-    <span class="k">return</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="n">datasets</span><span class="p">)</span></div>
-
-
-<div class="viewcode-block" id="unify_format"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.unify_format">[docs]</a><span class="k">def</span> <span class="nf">unify_format</span><span class="p">(</span>
-    <span class="n">dataset</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
-    <span class="n">text_keys</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;text&#39;</span><span class="p">,</span>
-    <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
-<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Get an unified internal format, conduct the following modifications.</span>
-
-<span class="sd">    1. check keys of dataset</span>
-
-<span class="sd">    2. filter out those samples with empty or None text</span>
-
-<span class="sd">    :param dataset: input dataset</span>
-<span class="sd">    :param text_keys: original text key(s) of dataset.</span>
-<span class="sd">    :param num_proc: number of processes for mapping</span>
-<span class="sd">    :param global_cfg: the global cfg used in consequent processes,</span>
-<span class="sd">        since cfg.text_key may be modified after unifying</span>
-
-<span class="sd">    :return: unified_format_dataset</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">NestedDataset</span>
-    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">DatasetDict</span><span class="p">):</span>
-        <span class="n">datasets</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">dataset</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
-        <span class="k">assert</span> <span class="nb">len</span><span class="p">(</span><span class="n">datasets</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span><span class="p">,</span> <span class="s1">&#39;Please make sure the passed datasets &#39;</span> \
-                                   <span class="s1">&#39;contains only 1 dataset&#39;</span>
-        <span class="n">dataset</span> <span class="o">=</span> <span class="n">datasets</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
-    <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">Dataset</span><span class="p">)</span> <span class="ow">or</span> \
-           <span class="nb">isinstance</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">NestedDataset</span><span class="p">),</span> \
-           <span class="s1">&#39;Currently we only support processing data&#39;</span> \
-           <span class="s1">&#39;with huggingface-Dataset format&#39;</span>
-
-    <span class="k">if</span> <span class="n">text_keys</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-        <span class="n">text_keys</span> <span class="o">=</span> <span class="p">[]</span>
-
-    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">text_keys</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
-        <span class="n">text_keys</span> <span class="o">=</span> <span class="p">[</span><span class="n">text_keys</span><span class="p">]</span>
-
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Unifying the input dataset formats...&#39;</span><span class="p">)</span>
-
-    <span class="n">dataset</span> <span class="o">=</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
-
-    <span class="c1"># 1. check text related keys</span>
-    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">text_keys</span><span class="p">:</span>
-        <span class="k">if</span> <span class="n">key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="p">:</span>
-            <span class="n">err_msg</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;There is no key [</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s1">] in dataset. You might set &#39;</span> \
-                      <span class="sa">f</span><span class="s1">&#39;wrong text_key in the config file for your dataset. &#39;</span> \
-                      <span class="sa">f</span><span class="s1">&#39;Please check and retry!&#39;</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span><span class="n">err_msg</span><span class="p">)</span>
-            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="n">err_msg</span><span class="p">)</span>
-
-    <span class="c1"># 2. filter out those samples with empty or None text</span>
-    <span class="c1"># TODO: optimize the filtering operation for better efficiency</span>
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;There are </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span><span class="si">}</span><span class="s1"> sample(s) in the original dataset.&#39;</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">non_empty_text</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">target_keys</span><span class="p">):</span>
-        <span class="k">for</span> <span class="n">target_key</span> <span class="ow">in</span> <span class="n">target_keys</span><span class="p">:</span>
-            <span class="c1"># TODO: case for CFT, in which the len(sample[target_key]) == 0</span>
-            <span class="k">if</span> <span class="n">sample</span><span class="p">[</span><span class="n">target_key</span><span class="p">]</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-                <span class="c1"># we filter out the samples contains at least None column</span>
-                <span class="c1"># since the op can not handle it now</span>
-                <span class="k">return</span> <span class="kc">False</span>
-        <span class="k">return</span> <span class="kc">True</span>
-
-    <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="n">non_empty_text</span><span class="p">,</span>
-                             <span class="n">num_proc</span><span class="o">=</span><span class="n">num_proc</span><span class="p">,</span>
-                             <span class="n">fn_kwargs</span><span class="o">=</span><span class="p">{</span><span class="s1">&#39;target_keys&#39;</span><span class="p">:</span> <span class="n">text_keys</span><span class="p">})</span>
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span><span class="si">}</span><span class="s1"> samples left after filtering empty text.&#39;</span><span class="p">)</span>
-
-    <span class="c1"># 3. add Fields.stats field</span>
-    <span class="c1"># TODO:</span>
-    <span class="c1"># this is a temp solution,</span>
-    <span class="c1"># it will occur errors when only call mapper ops</span>
-    <span class="c1"># dataset = dataset.add_column( \</span>
-    <span class="c1"># name=Fields.stats, column=[{}] * dataset.num_rows)</span>
-
-    <span class="k">return</span> <span class="n">dataset</span></div>
-
-
-<div class="viewcode-block" id="load_formatter"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.load_formatter">[docs]</a><span class="k">def</span> <span class="nf">load_formatter</span><span class="p">(</span><span class="n">dataset_path</span><span class="p">,</span>
-                   <span class="n">text_keys</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-                   <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-                   <span class="n">add_suffix</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-                   <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">BaseFormatter</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Load the appropriate formatter for different types of data formats.</span>
-
-<span class="sd">    :param dataset_path: Path to dataset file or dataset directory</span>
-<span class="sd">    :param text_keys: key names of field that stores sample text.</span>
-<span class="sd">        Default: None</span>
-<span class="sd">    :param suffixes: the suffix of files that will be read. Default:</span>
-<span class="sd">        None</span>
-<span class="sd">    :return: a dataset formatter.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">if</span> <span class="n">suffixes</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-        <span class="n">suffixes</span> <span class="o">=</span> <span class="p">[]</span>
-    <span class="n">ext_num</span> <span class="o">=</span> <span class="p">{}</span>
-    <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isdir</span><span class="p">(</span><span class="n">dataset_path</span><span class="p">)</span> <span class="ow">or</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="n">dataset_path</span><span class="p">):</span>
-        <span class="n">file_dict</span> <span class="o">=</span> <span class="n">find_files_with_suffix</span><span class="p">(</span><span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="p">)</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">file_dict</span><span class="p">:</span>
-            <span class="k">raise</span> <span class="ne">IOError</span><span class="p">(</span>
-                <span class="s1">&#39;Unable to find files matching the suffix from </span><span class="si">{}</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
-                    <span class="n">dataset_path</span><span class="p">))</span>
-        <span class="k">for</span> <span class="n">ext</span> <span class="ow">in</span> <span class="n">file_dict</span><span class="p">:</span>
-            <span class="n">ext_num</span><span class="p">[</span><span class="n">ext</span><span class="p">]</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">file_dict</span><span class="p">[</span><span class="n">ext</span><span class="p">])</span>
-
-    <span class="c1"># local dataset</span>
-    <span class="k">if</span> <span class="n">ext_num</span><span class="p">:</span>
-        <span class="n">formatter_num</span> <span class="o">=</span> <span class="p">{}</span>
-        <span class="k">for</span> <span class="n">name</span><span class="p">,</span> <span class="n">formatter</span> <span class="ow">in</span> <span class="n">FORMATTERS</span><span class="o">.</span><span class="n">modules</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-            <span class="n">formatter_num</span><span class="p">[</span><span class="n">name</span><span class="p">]</span> <span class="o">=</span> <span class="mi">0</span>
-            <span class="k">for</span> <span class="n">ext</span> <span class="ow">in</span> <span class="n">ext_num</span><span class="p">:</span>
-                <span class="k">if</span> <span class="n">ext</span> <span class="ow">in</span> <span class="n">formatter</span><span class="o">.</span><span class="n">SUFFIXES</span><span class="p">:</span>
-                    <span class="n">formatter_num</span><span class="p">[</span><span class="n">name</span><span class="p">]</span> <span class="o">+=</span> <span class="n">ext_num</span><span class="p">[</span><span class="n">ext</span><span class="p">]</span>
-        <span class="n">formatter</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">formatter_num</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">formatter_num</span><span class="p">[</span><span class="n">x</span><span class="p">])</span>
-        <span class="n">target_suffixes</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">ext_num</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span><span class="o">.</span><span class="n">intersection</span><span class="p">(</span>
-            <span class="nb">set</span><span class="p">(</span><span class="n">FORMATTERS</span><span class="o">.</span><span class="n">modules</span><span class="p">[</span><span class="n">formatter</span><span class="p">]</span><span class="o">.</span><span class="n">SUFFIXES</span><span class="p">))</span>
-        <span class="k">return</span> <span class="n">FORMATTERS</span><span class="o">.</span><span class="n">modules</span><span class="p">[</span><span class="n">formatter</span><span class="p">](</span><span class="n">dataset_path</span><span class="p">,</span>
-                                             <span class="n">text_keys</span><span class="o">=</span><span class="n">text_keys</span><span class="p">,</span>
-                                             <span class="n">suffixes</span><span class="o">=</span><span class="n">target_suffixes</span><span class="p">,</span>
-                                             <span class="n">add_suffix</span><span class="o">=</span><span class="n">add_suffix</span><span class="p">,</span>
-                                             <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-
-    <span class="c1"># try huggingface dataset hub</span>
-    <span class="k">elif</span> <span class="ow">not</span> <span class="n">is_absolute_path</span><span class="p">(</span><span class="n">dataset_path</span><span class="p">)</span> <span class="ow">and</span> <span class="n">dataset_path</span><span class="o">.</span><span class="n">count</span><span class="p">(</span><span class="s1">&#39;/&#39;</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span><span class="p">:</span>
-        <span class="k">return</span> <span class="n">RemoteFormatter</span><span class="p">(</span><span class="n">dataset_path</span><span class="p">,</span> <span class="n">text_keys</span><span class="o">=</span><span class="n">text_keys</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-
-    <span class="c1"># no data</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/format/json_formatter.html b/_modules/data_juicer/format/json_formatter.html
deleted file mode 100644
index 5452c4dc5..000000000
--- a/_modules/data_juicer/format/json_formatter.html
+++ /dev/null
@@ -1,127 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.format.json_formatter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.format.json_formatter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.format.json_formatter</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">.formatter</span> <span class="kn">import</span> <span class="n">FORMATTERS</span><span class="p">,</span> <span class="n">LocalFormatter</span>
-
-
-<div class="viewcode-block" id="JsonFormatter"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter">[docs]</a><span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
-<span class="k">class</span> <span class="nc">JsonFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    The class is used to load and format json-type files.</span>
-
-<span class="sd">    Default suffixes is `[&#39;.json&#39;, &#39;.jsonl&#39;, &#39;.jsonl.zst&#39;]`</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.json&#39;</span><span class="p">,</span> <span class="s1">&#39;.jsonl&#39;</span><span class="p">,</span> <span class="s1">&#39;.jsonl.zst&#39;</span><span class="p">]</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param dataset_path: a dataset file or a dataset directory</span>
-<span class="sd">        :param suffixes: files with specified suffixes to be processed</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
-            <span class="n">dataset_path</span><span class="o">=</span><span class="n">dataset_path</span><span class="p">,</span>
-            <span class="n">suffixes</span><span class="o">=</span><span class="n">suffixes</span> <span class="k">if</span> <span class="n">suffixes</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">SUFFIXES</span><span class="p">,</span>
-            <span class="nb">type</span><span class="o">=</span><span class="s1">&#39;json&#39;</span><span class="p">,</span>
-            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-        <span class="p">)</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/format/load.html b/_modules/data_juicer/format/load.html
deleted file mode 100644
index b00d988cf..000000000
--- a/_modules/data_juicer/format/load.html
+++ /dev/null
@@ -1,128 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.format.load &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.format.load</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.format.load</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">.formatter</span> <span class="kn">import</span> <span class="n">BaseFormatter</span>
-<span class="kn">from</span> <span class="nn">.mixture_formatter</span> <span class="kn">import</span> <span class="n">MixtureFormatter</span>
-
-
-<div class="viewcode-block" id="load_formatter"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.load.load_formatter">[docs]</a><span class="k">def</span> <span class="nf">load_formatter</span><span class="p">(</span><span class="n">dataset_path</span><span class="p">,</span>
-                   <span class="n">text_keys</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-                   <span class="n">suffixes</span><span class="o">=</span><span class="p">[],</span>
-                   <span class="n">add_suffix</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-                   <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">BaseFormatter</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Load mixture formatter for multiple different data formats with an optional</span>
-<span class="sd">    weight(default 1.0) according to their formats.</span>
-
-<span class="sd">    :param dataset_path: path to a dataset file or a dataset directory</span>
-<span class="sd">    :param text_keys: key names of field that stores sample text.</span>
-<span class="sd">        Default: None</span>
-<span class="sd">    :param suffixes: files with specified suffixes to be processed.</span>
-<span class="sd">    :param add_suffix: whether to add the file suffix to dataset meta</span>
-<span class="sd">        info</span>
-<span class="sd">    :return: a dataset formatter.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">formatter</span> <span class="o">=</span> <span class="n">MixtureFormatter</span><span class="p">(</span><span class="n">dataset_path</span><span class="o">=</span><span class="n">dataset_path</span><span class="p">,</span>
-                                 <span class="n">text_keys</span><span class="o">=</span><span class="n">text_keys</span><span class="p">,</span>
-                                 <span class="n">suffixes</span><span class="o">=</span><span class="n">suffixes</span><span class="p">,</span>
-                                 <span class="n">add_suffix</span><span class="o">=</span><span class="n">add_suffix</span><span class="p">,</span>
-                                 <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">formatter</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/format/mixture_formatter.html b/_modules/data_juicer/format/mixture_formatter.html
deleted file mode 100644
index 477423a08..000000000
--- a/_modules/data_juicer/format/mixture_formatter.html
+++ /dev/null
@@ -1,203 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.format.mixture_formatter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.format.mixture_formatter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.format.mixture_formatter</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
-
-<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-<span class="kn">from</span> <span class="nn">datasets</span> <span class="kn">import</span> <span class="n">Dataset</span><span class="p">,</span> <span class="n">concatenate_datasets</span>
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-<span class="kn">from</span> <span class="nn">.formatter</span> <span class="kn">import</span> <span class="n">BaseFormatter</span><span class="p">,</span> <span class="n">load_formatter</span>
-
-
-<div class="viewcode-block" id="MixtureFormatter"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter">[docs]</a><span class="k">class</span> <span class="nc">MixtureFormatter</span><span class="p">(</span><span class="n">BaseFormatter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;The class mixes multiple datasets by randomly selecting samples from</span>
-<span class="sd">    every dataset and merging them, and then exports the merged datasset as a</span>
-<span class="sd">    new mixed dataset.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">dataset_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
-                 <span class="n">suffixes</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-                 <span class="n">text_keys</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-                 <span class="n">add_suffix</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param dataset_path: a dataset file or a dataset dir or a list</span>
-<span class="sd">            of them, optional weights, default 1.0 e.g. `&lt;w1&gt; ds.jsonl</span>
-<span class="sd">            &lt;w2&gt; ds_dir &lt;w3&gt; ds_file.json`</span>
-<span class="sd">        :param suffixes: files with specified suffixes to be processed</span>
-<span class="sd">        :param text_keys: key names of field that stores sample text.</span>
-<span class="sd">        :param add_suffix: whether to add the file suffix to dataset</span>
-<span class="sd">            meta info</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">data_prefixes</span><span class="p">,</span> <span class="n">weights</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_weight</span><span class="p">(</span><span class="n">data_prefix</span><span class="o">=</span><span class="n">dataset_path</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">weights</span> <span class="o">=</span> <span class="n">weights</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">formatters</span> <span class="o">=</span> <span class="p">[</span>
-            <span class="n">load_formatter</span><span class="p">(</span><span class="n">dataset_path</span><span class="o">=</span><span class="n">data_prefix</span><span class="p">,</span>
-                           <span class="n">suffixes</span><span class="o">=</span><span class="n">suffixes</span><span class="p">,</span>
-                           <span class="n">text_keys</span><span class="o">=</span><span class="n">text_keys</span><span class="p">,</span>
-                           <span class="n">add_suffix</span><span class="o">=</span><span class="n">add_suffix</span><span class="p">,</span>
-                           <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="k">for</span> <span class="n">data_prefix</span> <span class="ow">in</span> <span class="n">data_prefixes</span>
-        <span class="p">]</span>
-
-    <span class="k">def</span> <span class="nf">_get_weight</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data_prefix</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Split every dataset path and its weight.</span>
-
-<span class="sd">        :param data_prefix: a dataset file or a dataset dir or a list of</span>
-<span class="sd">            them, e.g. `&lt;w1&gt; ds1.jsonl &lt;w2&gt; ds2_dir &lt;w3&gt; ds3_file.json`</span>
-<span class="sd">        :return: list of dataset path and list of weights</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">data_prefix</span> <span class="o">=</span> <span class="n">data_prefix</span><span class="o">.</span><span class="n">split</span><span class="p">()</span>
-        <span class="n">weights</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="n">prefixes</span> <span class="o">=</span> <span class="p">[]</span>
-
-        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">data_prefix</span><span class="p">)):</span>
-            <span class="k">try</span><span class="p">:</span>
-                <span class="n">value</span> <span class="o">=</span> <span class="nb">float</span><span class="p">(</span><span class="n">data_prefix</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
-                <span class="n">weights</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">value</span><span class="p">)</span>
-            <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
-                <span class="n">value</span> <span class="o">=</span> <span class="n">data_prefix</span><span class="p">[</span><span class="n">i</span><span class="p">]</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
-
-                <span class="c1"># if not set weight, use 1.0 as default</span>
-                <span class="k">if</span> <span class="n">i</span> <span class="o">==</span> <span class="mi">0</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="n">weights</span><span class="p">)</span> <span class="o">==</span> <span class="nb">len</span><span class="p">(</span><span class="n">prefixes</span><span class="p">):</span>
-                    <span class="n">weights</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="mf">1.0</span><span class="p">)</span>
-                <span class="n">prefixes</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">value</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">prefixes</span><span class="p">,</span> <span class="n">weights</span>
-
-    <span class="k">def</span> <span class="nf">_random_sample</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">weight</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Randomly sample a subset from a dataset with weight.</span>
-<span class="sd">        :param dataset: a HuggingFace dataset</span>
-<span class="sd">        :param weight: sample ratio of dataset</span>
-<span class="sd">        :param seed: random sample seed, if None, 42 as default</span>
-<span class="sd">        :return: a subset of dataset</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="n">seed</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">seed</span> <span class="o">=</span> <span class="mi">42</span>
-        <span class="n">num_samples</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">ceil</span><span class="p">(</span><span class="n">dataset</span><span class="o">.</span><span class="n">num_rows</span> <span class="o">*</span> <span class="n">weight</span><span class="p">)),</span>
-                          <span class="n">dataset</span><span class="o">.</span><span class="n">num_rows</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">num_samples</span> <span class="o">==</span> <span class="n">dataset</span><span class="o">.</span><span class="n">num_rows</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">dataset</span>
-        <span class="k">return</span> <span class="n">dataset</span><span class="o">.</span><span class="n">shuffle</span><span class="p">(</span><span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">)</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="n">num_samples</span><span class="p">))</span>
-
-<div class="viewcode-block" id="MixtureFormatter.load_dataset"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset">[docs]</a>    <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Load a mixed dataset.</span>
-
-<span class="sd">        :param num_proc: number of processes when loading the dataset</span>
-<span class="sd">        :return: mixed dataset</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">dataset_list</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="k">for</span> <span class="n">weight</span><span class="p">,</span> <span class="n">formatter</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">weights</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">formatters</span><span class="p">):</span>
-            <span class="n">dataset</span> <span class="o">=</span> <span class="n">formatter</span><span class="o">.</span><span class="n">load_dataset</span><span class="p">(</span><span class="n">num_proc</span><span class="p">)</span>
-            <span class="n">sampled</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_random_sample</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">weight</span><span class="p">)</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;sampled </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">sampled</span><span class="p">)</span><span class="si">}</span><span class="s1"> from &#39;</span>
-                        <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span><span class="si">}</span><span class="s1"> with weight </span><span class="si">{</span><span class="n">weight</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
-            <span class="n">dataset_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">sampled</span><span class="p">)</span>
-
-        <span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">NestedDataset</span>
-        <span class="n">mixed_dataset</span> <span class="o">=</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="n">concatenate_datasets</span><span class="p">(</span><span class="n">dataset_list</span><span class="p">))</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;There are </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">mixed_dataset</span><span class="p">)</span><span class="si">}</span><span class="s1"> in final dataset&#39;</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">mixed_dataset</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/format/parquet_formatter.html b/_modules/data_juicer/format/parquet_formatter.html
deleted file mode 100644
index 1b542d4e0..000000000
--- a/_modules/data_juicer/format/parquet_formatter.html
+++ /dev/null
@@ -1,127 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.format.parquet_formatter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.format.parquet_formatter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.format.parquet_formatter</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">.formatter</span> <span class="kn">import</span> <span class="n">FORMATTERS</span><span class="p">,</span> <span class="n">LocalFormatter</span>
-
-
-<div class="viewcode-block" id="ParquetFormatter"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter">[docs]</a><span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
-<span class="k">class</span> <span class="nc">ParquetFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    The class is used to load and format parquet-type files.</span>
-
-<span class="sd">    Default suffixes is `[&#39;.parquet&#39;]`</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.parquet&#39;</span><span class="p">]</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param dataset_path: a dataset file or a dataset directory</span>
-<span class="sd">        :param suffixes: files with specified suffixes to be processed</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
-            <span class="n">dataset_path</span><span class="o">=</span><span class="n">dataset_path</span><span class="p">,</span>
-            <span class="n">suffixes</span><span class="o">=</span><span class="n">suffixes</span> <span class="k">if</span> <span class="n">suffixes</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">SUFFIXES</span><span class="p">,</span>
-            <span class="nb">type</span><span class="o">=</span><span class="s1">&#39;parquet&#39;</span><span class="p">,</span>
-            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-        <span class="p">)</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/format/text_formatter.html b/_modules/data_juicer/format/text_formatter.html
deleted file mode 100644
index 630945540..000000000
--- a/_modules/data_juicer/format/text_formatter.html
+++ /dev/null
@@ -1,258 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.format.text_formatter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.format.text_formatter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.format.text_formatter</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">os</span>
-<span class="kn">from</span> <span class="nn">multiprocessing</span> <span class="kn">import</span> <span class="n">Pool</span>
-
-<span class="kn">import</span> <span class="nn">pdfplumber</span>
-<span class="kn">from</span> <span class="nn">datasets</span> <span class="kn">import</span> <span class="n">Dataset</span><span class="p">,</span> <span class="n">concatenate_datasets</span><span class="p">,</span> <span class="n">load_dataset</span>
-<span class="kn">from</span> <span class="nn">docx</span> <span class="kn">import</span> <span class="n">Document</span>
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.cache_utils</span> <span class="kn">import</span> <span class="n">DATA_JUICER_CACHE_HOME</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.file_utils</span> <span class="kn">import</span> <span class="n">find_files_with_suffix</span>
-
-<span class="kn">from</span> <span class="nn">.formatter</span> <span class="kn">import</span> <span class="n">FORMATTERS</span><span class="p">,</span> <span class="n">LocalFormatter</span><span class="p">,</span> <span class="n">add_suffixes</span><span class="p">,</span> <span class="n">unify_format</span>
-
-
-<div class="viewcode-block" id="extract_txt_from_docx"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_docx">[docs]</a><span class="k">def</span> <span class="nf">extract_txt_from_docx</span><span class="p">(</span><span class="n">fn</span><span class="p">,</span> <span class="n">tgt_path</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Extract text from a docx file and save to target path.</span>
-
-<span class="sd">    :param fn: path to input pdf file</span>
-<span class="sd">    :param tgt_path: path to save text file.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">doc</span> <span class="o">=</span> <span class="n">Document</span><span class="p">(</span><span class="n">fn</span><span class="p">)</span>
-    <span class="n">text</span> <span class="o">=</span> <span class="p">[</span><span class="n">para</span><span class="o">.</span><span class="n">text</span> <span class="k">for</span> <span class="n">para</span> <span class="ow">in</span> <span class="n">doc</span><span class="o">.</span><span class="n">paragraphs</span> <span class="k">if</span> <span class="n">para</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">strip</span><span class="p">()]</span>
-    <span class="n">base_fn</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">fn</span><span class="p">)</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.docx&#39;</span><span class="p">,</span> <span class="s1">&#39;.txt&#39;</span><span class="p">)</span>
-    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tgt_path</span><span class="p">,</span> <span class="n">base_fn</span><span class="p">),</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-        <span class="n">f</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">text</span><span class="p">))</span></div>
-
-
-<div class="viewcode-block" id="extract_txt_from_pdf"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_pdf">[docs]</a><span class="k">def</span> <span class="nf">extract_txt_from_pdf</span><span class="p">(</span><span class="n">fn</span><span class="p">,</span> <span class="n">tgt_path</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Extract text from a pdf file and save to target path.</span>
-
-<span class="sd">    :param fn: path to input pdf file</span>
-<span class="sd">    :param tgt_path: path to save text file.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">with</span> <span class="n">pdfplumber</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">fn</span><span class="p">)</span> <span class="k">as</span> <span class="n">pdf</span><span class="p">:</span>
-        <span class="n">text</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="k">for</span> <span class="n">page</span> <span class="ow">in</span> <span class="n">pdf</span><span class="o">.</span><span class="n">pages</span><span class="p">:</span>
-            <span class="c1"># remove tables from each page extracted by pdfplumber</span>
-            <span class="n">tables</span> <span class="o">=</span> <span class="n">page</span><span class="o">.</span><span class="n">find_tables</span><span class="p">()</span>
-            <span class="k">for</span> <span class="n">table</span> <span class="ow">in</span> <span class="n">tables</span><span class="p">:</span>
-                <span class="n">page</span> <span class="o">=</span> <span class="n">page</span><span class="o">.</span><span class="n">outside_bbox</span><span class="p">(</span><span class="n">table</span><span class="o">.</span><span class="n">bbox</span><span class="p">)</span>
-            <span class="c1"># remove page number from the end of each page</span>
-            <span class="n">page_text</span> <span class="o">=</span> <span class="n">page</span><span class="o">.</span><span class="n">extract_text</span><span class="p">()</span>
-            <span class="n">page_num</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">page</span><span class="o">.</span><span class="n">page_number</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">page_text</span><span class="o">.</span><span class="n">rstrip</span><span class="p">()</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="n">page_num</span><span class="p">):</span>
-                <span class="n">page_text</span> <span class="o">=</span> <span class="n">page_text</span><span class="o">.</span><span class="n">rstrip</span><span class="p">()[:</span><span class="o">-</span><span class="nb">len</span><span class="p">(</span><span class="n">page_num</span><span class="p">)]</span>
-            <span class="k">if</span> <span class="n">page_text</span><span class="o">.</span><span class="n">strip</span><span class="p">():</span>
-                <span class="n">text</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">page_text</span><span class="p">)</span>
-        <span class="n">base_fn</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">fn</span><span class="p">)</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.pdf&#39;</span><span class="p">,</span> <span class="s1">&#39;.txt&#39;</span><span class="p">)</span>
-        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tgt_path</span><span class="p">,</span> <span class="n">base_fn</span><span class="p">),</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-            <span class="n">f</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">text</span><span class="p">))</span></div>
-
-
-<div class="viewcode-block" id="TextFormatter"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter">[docs]</a><span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
-<span class="k">class</span> <span class="nc">TextFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    The class is used to load and format text-type files.</span>
-
-<span class="sd">    e.g. `[&#39;.txt&#39;, &#39;.pdf&#39;, &#39;.cpp&#39;, &#39;.docx&#39;]`</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span>
-        <span class="s1">&#39;.docx&#39;</span><span class="p">,</span> <span class="s1">&#39;.pdf&#39;</span><span class="p">,</span> <span class="s1">&#39;.txt&#39;</span><span class="p">,</span> <span class="s1">&#39;.md&#39;</span><span class="p">,</span> <span class="s1">&#39;.tex&#39;</span><span class="p">,</span> <span class="s1">&#39;.asm&#39;</span><span class="p">,</span> <span class="s1">&#39;.bat&#39;</span><span class="p">,</span> <span class="s1">&#39;.cmd&#39;</span><span class="p">,</span> <span class="s1">&#39;.c&#39;</span><span class="p">,</span>
-        <span class="s1">&#39;.h&#39;</span><span class="p">,</span> <span class="s1">&#39;.cs&#39;</span><span class="p">,</span> <span class="s1">&#39;.cpp&#39;</span><span class="p">,</span> <span class="s1">&#39;.hpp&#39;</span><span class="p">,</span> <span class="s1">&#39;.c++&#39;</span><span class="p">,</span> <span class="s1">&#39;.h++&#39;</span><span class="p">,</span> <span class="s1">&#39;.cc&#39;</span><span class="p">,</span> <span class="s1">&#39;.hh&#39;</span><span class="p">,</span> <span class="s1">&#39;.C&#39;</span><span class="p">,</span> <span class="s1">&#39;.H&#39;</span><span class="p">,</span>
-        <span class="s1">&#39;.cmake&#39;</span><span class="p">,</span> <span class="s1">&#39;.css&#39;</span><span class="p">,</span> <span class="s1">&#39;.dockerfile&#39;</span><span class="p">,</span> <span class="s1">&#39;.f90&#39;</span><span class="p">,</span> <span class="s1">&#39;.f&#39;</span><span class="p">,</span> <span class="s1">&#39;.f03&#39;</span><span class="p">,</span> <span class="s1">&#39;.f08&#39;</span><span class="p">,</span> <span class="s1">&#39;.f77&#39;</span><span class="p">,</span>
-        <span class="s1">&#39;.f95&#39;</span><span class="p">,</span> <span class="s1">&#39;.for&#39;</span><span class="p">,</span> <span class="s1">&#39;.fpp&#39;</span><span class="p">,</span> <span class="s1">&#39;.go&#39;</span><span class="p">,</span> <span class="s1">&#39;.hs&#39;</span><span class="p">,</span> <span class="s1">&#39;.html&#39;</span><span class="p">,</span> <span class="s1">&#39;.java&#39;</span><span class="p">,</span> <span class="s1">&#39;.js&#39;</span><span class="p">,</span> <span class="s1">&#39;.jl&#39;</span><span class="p">,</span>
-        <span class="s1">&#39;.lua&#39;</span><span class="p">,</span> <span class="s1">&#39;.markdown&#39;</span><span class="p">,</span> <span class="s1">&#39;.php&#39;</span><span class="p">,</span> <span class="s1">&#39;.php3&#39;</span><span class="p">,</span> <span class="s1">&#39;.php4&#39;</span><span class="p">,</span> <span class="s1">&#39;.php5&#39;</span><span class="p">,</span> <span class="s1">&#39;.phps&#39;</span><span class="p">,</span>
-        <span class="s1">&#39;.phpt&#39;</span><span class="p">,</span> <span class="s1">&#39;.pl&#39;</span><span class="p">,</span> <span class="s1">&#39;.pm&#39;</span><span class="p">,</span> <span class="s1">&#39;.pod&#39;</span><span class="p">,</span> <span class="s1">&#39;.perl&#39;</span><span class="p">,</span> <span class="s1">&#39;.ps1&#39;</span><span class="p">,</span> <span class="s1">&#39;.psd1&#39;</span><span class="p">,</span> <span class="s1">&#39;.psm1&#39;</span><span class="p">,</span>
-        <span class="s1">&#39;.py&#39;</span><span class="p">,</span> <span class="s1">&#39;.rb&#39;</span><span class="p">,</span> <span class="s1">&#39;.rs&#39;</span><span class="p">,</span> <span class="s1">&#39;.sql&#39;</span><span class="p">,</span> <span class="s1">&#39;.scala&#39;</span><span class="p">,</span> <span class="s1">&#39;.sh&#39;</span><span class="p">,</span> <span class="s1">&#39;.bash&#39;</span><span class="p">,</span> <span class="s1">&#39;.command&#39;</span><span class="p">,</span>
-        <span class="s1">&#39;.zsh&#39;</span><span class="p">,</span> <span class="s1">&#39;.ts&#39;</span><span class="p">,</span> <span class="s1">&#39;.tsx&#39;</span><span class="p">,</span> <span class="s1">&#39;.vb&#39;</span><span class="p">,</span> <span class="s1">&#39;Dockerfile&#39;</span><span class="p">,</span> <span class="s1">&#39;Makefile&#39;</span><span class="p">,</span> <span class="s1">&#39;.xml&#39;</span><span class="p">,</span> <span class="s1">&#39;.rst&#39;</span><span class="p">,</span>
-        <span class="s1">&#39;.m&#39;</span><span class="p">,</span> <span class="s1">&#39;.smali&#39;</span>
-    <span class="p">]</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">dataset_path</span><span class="p">,</span>
-                 <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-                 <span class="n">add_suffix</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param dataset_path: a dataset file or a dataset directory</span>
-<span class="sd">        :param suffixes: files with specified suffixes to be processed</span>
-<span class="sd">        :param add_suffix: Whether to add file suffix to datase meta</span>
-<span class="sd">            info</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
-            <span class="n">dataset_path</span><span class="o">=</span><span class="n">dataset_path</span><span class="p">,</span>
-            <span class="n">suffixes</span><span class="o">=</span><span class="n">suffixes</span> <span class="k">if</span> <span class="n">suffixes</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">SUFFIXES</span><span class="p">,</span>
-            <span class="nb">type</span><span class="o">=</span><span class="s1">&#39;text&#39;</span><span class="p">,</span>
-            <span class="n">add_suffix</span><span class="o">=</span><span class="n">add_suffix</span><span class="p">,</span>
-            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-        <span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">dataset_path</span> <span class="o">=</span> <span class="n">dataset_path</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">add_suffix</span> <span class="o">=</span> <span class="n">add_suffix</span>
-
-<div class="viewcode-block" id="TextFormatter.load_dataset"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.load_dataset">[docs]</a>    <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Load a dataset from local text-type files.</span>
-
-<span class="sd">        :param num_proc: number of processes when loading the dataset</span>
-<span class="sd">        :return: unified_format_dataset.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># extract text to cache directory</span>
-        <span class="n">extracted_dataset_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
-            <span class="n">DATA_JUICER_CACHE_HOME</span><span class="p">,</span>
-            <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">abspath</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">)))</span>
-
-        <span class="k">for</span> <span class="n">file_type</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">data_files</span><span class="p">:</span>
-
-            <span class="c1"># extract text from docx or pdf files, and save as txt type</span>
-            <span class="k">if</span> <span class="n">file_type</span> <span class="o">==</span> <span class="s1">&#39;.docx&#39;</span> <span class="ow">or</span> <span class="n">file_type</span> <span class="o">==</span> <span class="s1">&#39;.pdf&#39;</span><span class="p">:</span>
-                <span class="n">extracted_filetype_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">extracted_dataset_path</span><span class="p">,</span>
-                                                       <span class="n">file_type</span><span class="o">.</span><span class="n">strip</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">))</span>
-                <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">extracted_filetype_path</span><span class="p">):</span>
-                    <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">extracted_filetype_path</span><span class="p">)</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Extracting text from </span><span class="si">{}</span><span class="s1"> files...&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
-                    <span class="n">file_type</span><span class="o">.</span><span class="n">strip</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)))</span>
-
-                <span class="n">extract_func</span> <span class="o">=</span> <span class="n">extract_txt_from_docx</span> \
-                    <span class="k">if</span> <span class="n">file_type</span> <span class="o">==</span> <span class="s1">&#39;.docx&#39;</span> <span class="k">else</span> <span class="n">extract_txt_from_pdf</span>
-                <span class="n">pool</span> <span class="o">=</span> <span class="n">Pool</span><span class="p">(</span><span class="n">num_proc</span><span class="p">)</span>
-                <span class="k">for</span> <span class="n">data_file</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">data_files</span><span class="p">[</span><span class="n">file_type</span><span class="p">]:</span>
-                    <span class="n">pool</span><span class="o">.</span><span class="n">apply_async</span><span class="p">(</span><span class="n">func</span><span class="o">=</span><span class="n">extract_func</span><span class="p">,</span>
-                                     <span class="n">args</span><span class="o">=</span><span class="p">(</span>
-                                         <span class="n">data_file</span><span class="p">,</span>
-                                         <span class="n">extracted_filetype_path</span><span class="p">,</span>
-                                     <span class="p">))</span>
-                <span class="n">pool</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
-                <span class="n">pool</span><span class="o">.</span><span class="n">join</span><span class="p">()</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Extracted text files are stored in directory &#39;</span>
-                            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">extracted_filetype_path</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
-
-                <span class="c1"># look for extracted txt files</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">data_files</span><span class="p">[</span><span class="n">file_type</span><span class="p">]</span> <span class="o">=</span> <span class="n">find_files_with_suffix</span><span class="p">(</span>
-                    <span class="n">extracted_filetype_path</span><span class="p">,</span> <span class="s1">&#39;.txt&#39;</span><span class="p">)[</span><span class="s1">&#39;.txt&#39;</span><span class="p">]</span>
-
-        <span class="c1"># load text dataset, one text file as one sample</span>
-        <span class="n">datasets</span> <span class="o">=</span> <span class="n">load_dataset</span><span class="p">(</span><span class="s1">&#39;text&#39;</span><span class="p">,</span>
-                                <span class="n">data_files</span><span class="o">=</span><span class="p">{</span>
-                                    <span class="n">key</span><span class="o">.</span><span class="n">strip</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">):</span> <span class="bp">self</span><span class="o">.</span><span class="n">data_files</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
-                                    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">data_files</span>
-                                <span class="p">},</span>
-                                <span class="n">sample_by</span><span class="o">=</span><span class="s1">&#39;document&#39;</span><span class="p">,</span>
-                                <span class="n">num_proc</span><span class="o">=</span><span class="n">num_proc</span><span class="p">,</span>
-                                <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="c1"># whether to add file suffix to datase meta info</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">add_suffix</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Add suffix info into dataset...&#39;</span><span class="p">)</span>
-            <span class="n">datasets</span> <span class="o">=</span> <span class="n">add_suffixes</span><span class="p">(</span><span class="n">datasets</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">datasets</span> <span class="o">=</span> <span class="n">concatenate_datasets</span><span class="p">([</span><span class="n">ds</span> <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">ds</span> <span class="ow">in</span> <span class="n">datasets</span><span class="o">.</span><span class="n">items</span><span class="p">()])</span>
-        <span class="k">return</span> <span class="n">unify_format</span><span class="p">(</span><span class="n">datasets</span><span class="p">,</span>
-                            <span class="n">text_keys</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">text_keys</span><span class="p">,</span>
-                            <span class="n">num_proc</span><span class="o">=</span><span class="n">num_proc</span><span class="p">)</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/format/tsv_formatter.html b/_modules/data_juicer/format/tsv_formatter.html
deleted file mode 100644
index 4b0169428..000000000
--- a/_modules/data_juicer/format/tsv_formatter.html
+++ /dev/null
@@ -1,128 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.format.tsv_formatter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.format.tsv_formatter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.format.tsv_formatter</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">.formatter</span> <span class="kn">import</span> <span class="n">FORMATTERS</span><span class="p">,</span> <span class="n">LocalFormatter</span>
-
-
-<div class="viewcode-block" id="TsvFormatter"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter">[docs]</a><span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
-<span class="k">class</span> <span class="nc">TsvFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    The class is used to load and format tsv-type files.</span>
-
-<span class="sd">    Default suffixes is `[&#39;.tsv&#39;]`</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.tsv&#39;</span><span class="p">]</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param dataset_path: a dataset file or a dataset directory</span>
-<span class="sd">        :param suffixes: files with specified suffixes to be processed</span>
-<span class="sd">        :param kwargs: extra args, e.g. `delimiter = &#39;,&#39;`</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
-            <span class="n">dataset_path</span><span class="o">=</span><span class="n">dataset_path</span><span class="p">,</span>
-            <span class="n">suffixes</span><span class="o">=</span><span class="n">suffixes</span> <span class="k">if</span> <span class="n">suffixes</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">SUFFIXES</span><span class="p">,</span>
-            <span class="nb">type</span><span class="o">=</span><span class="s1">&#39;csv&#39;</span><span class="p">,</span>
-            <span class="n">delimiter</span><span class="o">=</span><span class="s1">&#39;</span><span class="se">\t</span><span class="s1">&#39;</span><span class="p">,</span>
-            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-        <span class="p">)</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/base_op.html b/_modules/data_juicer/ops/base_op.html
deleted file mode 100644
index 3df4706c7..000000000
--- a/_modules/data_juicer/ops/base_op.html
+++ /dev/null
@@ -1,235 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.base_op &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.base_op</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">data_juicer.utils.registry</span> <span class="kn">import</span> <span class="n">Registry</span>
-
-<span class="n">OPERATORS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="s1">&#39;Operators&#39;</span><span class="p">)</span>
-
-
-<div class="viewcode-block" id="Mapper"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper">[docs]</a><span class="k">class</span> <span class="nc">Mapper</span><span class="p">:</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Base class that conducts text editing.</span>
-
-<span class="sd">        :param text_key: the key name of field that stores sample texts</span>
-<span class="sd">            to be processed.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="n">text_key</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">text_key</span> <span class="o">=</span> <span class="s1">&#39;text&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span> <span class="o">=</span> <span class="n">text_key</span>
-        <span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">wrap_func_with_nested_access</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">)</span>
-
-        <span class="c1"># In default, it&#39;s a normal OP instead of batched OP</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">False</span>
-
-<div class="viewcode-block" id="Mapper.process"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        For sample level, sample --&gt; sample</span>
-
-<span class="sd">        :param sample: sample to process</span>
-<span class="sd">        :return: processed sample</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
-
-<div class="viewcode-block" id="Mapper.is_batched_op"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper.is_batched_op">[docs]</a>    <span class="k">def</span> <span class="nf">is_batched_op</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_batched_op</span></div></div>
-
-
-<div class="viewcode-block" id="Filter"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter">[docs]</a><span class="k">class</span> <span class="nc">Filter</span><span class="p">:</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Base class that removes specific info.</span>
-
-<span class="sd">        :param text_key: the key name of field that stores sample texts</span>
-<span class="sd">            to be processed</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="n">text_key</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">text_key</span> <span class="o">=</span> <span class="s1">&#39;text&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span> <span class="o">=</span> <span class="n">text_key</span>
-        <span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">wrap_func_with_nested_access</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">compute_stats</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compute_stats</span><span class="p">)</span>
-
-<div class="viewcode-block" id="Filter.compute_stats"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Compute stats for the sample which is used as a metric to decide</span>
-<span class="sd">        whether to filter this sample.</span>
-
-<span class="sd">        :param sample: input sample.</span>
-<span class="sd">        :param context: whether to store context information of intermediate</span>
-<span class="sd">            vars in the sample temporarily.</span>
-<span class="sd">        :return: sample with computed stats</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
-
-<div class="viewcode-block" id="Filter.process"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        For sample level, sample --&gt; Boolean.</span>
-
-<span class="sd">        :param sample: sample to decide whether to filter</span>
-<span class="sd">        :return: true for keeping and false for filtering</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div></div>
-
-
-<div class="viewcode-block" id="Deduplicator"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator">[docs]</a><span class="k">class</span> <span class="nc">Deduplicator</span><span class="p">:</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Base class that conducts deduplication.</span>
-
-<span class="sd">        :param text_key: the key name of field that stores sample texts</span>
-<span class="sd">            to be processed</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="n">text_key</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">text_key</span> <span class="o">=</span> <span class="s1">&#39;text&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span> <span class="o">=</span> <span class="n">text_key</span>
-        <span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">wrap_func_with_nested_access</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">compute_hash</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">)</span>
-
-<div class="viewcode-block" id="Deduplicator.compute_hash"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.compute_hash">[docs]</a>    <span class="k">def</span> <span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Compute hash values for the sample.</span>
-
-<span class="sd">        :param sample: input sample</span>
-<span class="sd">        :return: sample with computed hash value.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
-
-<div class="viewcode-block" id="Deduplicator.process"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        For doc-level, dataset --&gt; dataset.</span>
-
-<span class="sd">        :param dataset: input dataset</span>
-<span class="sd">        :param show_num: number of traced samples used when tracer is</span>
-<span class="sd">            open.</span>
-<span class="sd">        :return: deduplicated dataset and the sampled duplicate pairs.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div></div>
-
-
-<div class="viewcode-block" id="Selector"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Selector">[docs]</a><span class="k">class</span> <span class="nc">Selector</span><span class="p">:</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Base class that conducts selection in dataset-level.</span>
-
-<span class="sd">        :param text_key: the key name of field that stores sample texts</span>
-<span class="sd">            to be processed</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="n">text_key</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">text_key</span> <span class="o">=</span> <span class="s1">&#39;text&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span> <span class="o">=</span> <span class="n">text_key</span>
-        <span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">wrap_func_with_nested_access</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">)</span>
-
-<div class="viewcode-block" id="Selector.process"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Selector.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Dataset --&gt; dataset.</span>
-
-<span class="sd">        :param dataset: input dataset</span>
-<span class="sd">        :return: selected dataset.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/common/helper_func.html b/_modules/data_juicer/ops/common/helper_func.html
deleted file mode 100644
index 766ed18ea..000000000
--- a/_modules/data_juicer/ops/common/helper_func.html
+++ /dev/null
@@ -1,298 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.common.helper_func &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.common.helper_func</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
-<span class="c1"># --------------------------------------------------------</span>
-<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Dict</span>
-
-<span class="kn">import</span> <span class="nn">regex</span> <span class="k">as</span> <span class="nn">re</span>
-
-
-<div class="viewcode-block" id="UnionFind"><a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind">[docs]</a><span class="k">class</span> <span class="nc">UnionFind</span><span class="p">:</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Initialization method.&quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span>
-
-<div class="viewcode-block" id="UnionFind.find"><a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.find">[docs]</a>    <span class="k">def</span> <span class="nf">find</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">):</span>
-        <span class="k">if</span> <span class="n">x</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span> <span class="o">=</span> <span class="n">x</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span> <span class="o">!=</span> <span class="n">x</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">])</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span></div>
-
-<div class="viewcode-block" id="UnionFind.union"><a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.union">[docs]</a>    <span class="k">def</span> <span class="nf">union</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">):</span>
-        <span class="n">px</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
-        <span class="n">py</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">y</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">px</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">py</span><span class="p">]</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">px</span><span class="p">,</span> <span class="n">py</span><span class="p">)</span></div></div>
-
-
-<div class="viewcode-block" id="strip"><a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.strip">[docs]</a><span class="k">def</span> <span class="nf">strip</span><span class="p">(</span><span class="n">document</span><span class="p">,</span> <span class="n">strip_characters</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Way faster than document.strip(strip_characters) since strip_characters is</span>
-<span class="sd">    now a set instead of a str, and it contains a lot of elements (all the</span>
-<span class="sd">    emojis).</span>
-
-<span class="sd">    :param document: document to be processed</span>
-<span class="sd">    :param strip_characters: characters uesd for stripping document</span>
-<span class="sd">    :return: stripped document</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">if</span> <span class="ow">not</span> <span class="n">document</span><span class="p">:</span>
-        <span class="k">return</span> <span class="n">document</span>
-    <span class="n">beg_ind</span> <span class="o">=</span> <span class="mi">0</span>
-    <span class="n">end_ind</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">document</span><span class="p">)</span>
-    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">document</span><span class="p">)):</span>
-        <span class="k">if</span> <span class="n">document</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="ow">in</span> <span class="n">strip_characters</span><span class="p">:</span>
-            <span class="n">beg_ind</span> <span class="o">+=</span> <span class="mi">1</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">break</span>
-    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">document</span><span class="p">)</span> <span class="o">+</span> <span class="mi">1</span><span class="p">):</span>
-        <span class="k">if</span> <span class="n">document</span><span class="p">[</span><span class="o">-</span><span class="n">i</span><span class="p">]</span> <span class="ow">in</span> <span class="n">strip_characters</span><span class="p">:</span>
-            <span class="n">end_ind</span> <span class="o">-=</span> <span class="mi">1</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">break</span>
-    <span class="n">document_stripped</span> <span class="o">=</span> <span class="n">document</span><span class="p">[</span><span class="n">beg_ind</span><span class="p">:</span><span class="n">end_ind</span><span class="p">]</span>
-    <span class="k">return</span> <span class="n">document_stripped</span></div>
-
-
-<div class="viewcode-block" id="split_on_whitespace"><a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_whitespace">[docs]</a><span class="k">def</span> <span class="nf">split_on_whitespace</span><span class="p">(</span><span class="n">document</span><span class="p">,</span> <span class="n">new_line</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">tab</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    This method also removes concatenated spaces.</span>
-
-<span class="sd">    :param document: document to be splited</span>
-<span class="sd">    :param new_line: whether to split document with &#39;\\\\n&#39;</span>
-<span class="sd">    :param tag: whether to split document with &#39;\\\\t&#39;</span>
-<span class="sd">    :return: word list obtained after splitting document</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">sep</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39; &#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">new_line</span> <span class="o">*</span> <span class="p">[</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">tab</span> <span class="o">*</span> <span class="p">[</span><span class="s1">&#39;</span><span class="se">\t</span><span class="s1">&#39;</span><span class="p">]</span>
-    <span class="n">sep</span> <span class="o">=</span> <span class="s1">&#39;|&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">sep</span><span class="p">)</span>
-    <span class="n">split_document</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">sep</span><span class="p">,</span> <span class="n">document</span><span class="p">)</span>
-    <span class="n">split_document</span> <span class="o">=</span> <span class="p">[</span><span class="n">word</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">split_document</span> <span class="k">if</span> <span class="n">word</span><span class="p">]</span>
-    <span class="k">return</span> <span class="n">split_document</span></div>
-
-
-<div class="viewcode-block" id="split_on_newline_tab_whitespace"><a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace">[docs]</a><span class="k">def</span> <span class="nf">split_on_newline_tab_whitespace</span><span class="p">(</span><span class="n">document</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    This method is used to split the document into different levels of sub-</span>
-<span class="sd">    sentences.</span>
-
-<span class="sd">    First split on &quot;\\\\n&quot;, then on &quot;\\\\t&quot;, then on &quot; &quot;.</span>
-<span class="sd">    :param document: document to be splited</span>
-<span class="sd">    :return: setence list obtained after splitting document</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">sentences</span> <span class="o">=</span> <span class="n">document</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span>
-    <span class="n">sentences</span> <span class="o">=</span> <span class="p">[</span><span class="n">sentence</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\t</span><span class="s1">&#39;</span><span class="p">)</span> <span class="k">for</span> <span class="n">sentence</span> <span class="ow">in</span> <span class="n">sentences</span><span class="p">]</span>
-    <span class="n">sentences</span> <span class="o">=</span> <span class="p">[[</span>
-        <span class="n">split_on_whitespace</span><span class="p">(</span><span class="n">subsentence</span><span class="p">)</span> <span class="k">for</span> <span class="n">subsentence</span> <span class="ow">in</span> <span class="n">sentence</span>
-    <span class="p">]</span> <span class="k">for</span> <span class="n">sentence</span> <span class="ow">in</span> <span class="n">sentences</span><span class="p">]</span>
-    <span class="k">return</span> <span class="n">sentences</span></div>
-
-
-<div class="viewcode-block" id="merge_on_whitespace_tab_newline"><a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline">[docs]</a><span class="k">def</span> <span class="nf">merge_on_whitespace_tab_newline</span><span class="p">(</span><span class="n">sentences</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    This method is used to merge different levels of sub-sentences into one</span>
-<span class="sd">    document. Invert the method split_on_newline_tab_whitespace. Removes</span>
-<span class="sd">    concatenated separators.</span>
-
-<span class="sd">    :param sentences: sentence list to be merged</span>
-<span class="sd">    :return: document obtained after merging sub-sentences</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">sentences</span> <span class="o">=</span> <span class="p">[[</span>
-        <span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">subsentence</span><span class="p">)</span> <span class="k">for</span> <span class="n">subsentence</span> <span class="ow">in</span> <span class="n">sentence</span> <span class="k">if</span> <span class="n">subsentence</span>
-    <span class="p">]</span> <span class="k">for</span> <span class="n">sentence</span> <span class="ow">in</span> <span class="n">sentences</span><span class="p">]</span>
-    <span class="n">sentences</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;</span><span class="se">\t</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">sentence</span><span class="p">)</span> <span class="k">for</span> <span class="n">sentence</span> <span class="ow">in</span> <span class="n">sentences</span> <span class="k">if</span> <span class="n">sentence</span><span class="p">]</span>
-    <span class="k">if</span> <span class="ow">not</span> <span class="n">sentences</span><span class="p">:</span>
-        <span class="k">return</span> <span class="s1">&#39;&#39;</span>
-    <span class="n">document</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">sentences</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">document</span></div>
-
-
-<div class="viewcode-block" id="words_augmentation"><a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_augmentation">[docs]</a><span class="k">def</span> <span class="nf">words_augmentation</span><span class="p">(</span><span class="n">words</span><span class="p">,</span> <span class="n">group_size</span><span class="p">,</span> <span class="n">join_char</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Augment words, especially for Chinese (without a space between words) and</span>
-<span class="sd">    Vietnamese (with a space between syllables).</span>
-
-<span class="sd">    :param word: word list to be augmented</span>
-<span class="sd">    :param group_size: the size of word groups that need to be merged</span>
-<span class="sd">    :param join_char: characters to be added between word group</span>
-<span class="sd">    :return: word list after augment</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">augmentation</span> <span class="o">=</span> <span class="p">[</span>
-        <span class="n">join_char</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">words</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="n">group_size</span><span class="p">])</span>
-        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">)</span> <span class="o">-</span> <span class="n">group_size</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span>
-    <span class="p">]</span>
-    <span class="k">return</span> <span class="n">augmentation</span></div>
-
-
-<div class="viewcode-block" id="get_words_from_document"><a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_words_from_document">[docs]</a><span class="k">def</span> <span class="nf">get_words_from_document</span><span class="p">(</span><span class="n">document</span><span class="p">,</span>
-                            <span class="n">token_func</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-                            <span class="n">new_line</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-                            <span class="n">tab</span><span class="o">=</span><span class="kc">True</span><span class="p">,):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Get words from a document. Useful to compute ratios, like the</span>
-<span class="sd">    stopwords ratio.</span>
-
-<span class="sd">    :param document: document that need to split words</span>
-<span class="sd">    :param token_func: function of tokenizer, if specified, the function</span>
-<span class="sd">        will be used for split document into different tokens.</span>
-<span class="sd">    :param new_line: whether to use `\\\\n&#39; to split words</span>
-<span class="sd">    :param tab: whether to use &#39;\\\\t&#39; to split words</span>
-<span class="sd">    :return: word list obtained from document</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">if</span> <span class="n">token_func</span><span class="p">:</span>
-        <span class="n">words</span> <span class="o">=</span> <span class="n">token_func</span><span class="p">(</span><span class="n">document</span><span class="p">)</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="n">words</span> <span class="o">=</span> <span class="n">split_on_whitespace</span><span class="p">(</span><span class="n">document</span><span class="p">,</span> <span class="n">new_line</span><span class="p">,</span> <span class="n">tab</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">words</span></div>
-
-<div class="viewcode-block" id="words_refinement"><a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_refinement">[docs]</a><span class="k">def</span> <span class="nf">words_refinement</span><span class="p">(</span><span class="n">words</span><span class="p">,</span>
-                     <span class="n">lower_case</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-                     <span class="n">strip_chars</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
-                     <span class="n">use_words_aug</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
-                     <span class="n">words_aug_group_sizes</span><span class="o">=</span><span class="p">[</span><span class="mi">2</span><span class="p">],</span>
-                     <span class="n">words_aug_join_char</span><span class="o">=</span><span class="s1">&#39;&#39;</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Refine split words. Non reversible since the document is split on</span>
-<span class="sd">    multiple characters, words are stripped of special characters and</span>
-<span class="sd">    characters are converted to lower case.</span>
-
-<span class="sd">    :param words: the word list to be augmented</span>
-<span class="sd">    :param lower_case: whether to convert word to lowercase</span>
-<span class="sd">    :param strip_chars: chars that need to be stripped in words</span>
-<span class="sd">    :param use_words_aug: whether to use word augmentation</span>
-<span class="sd">    :param words_aug_group_sizes: the size of word groups that need to</span>
-<span class="sd">        be merged</span>
-<span class="sd">    :param words_aug_join_char: characters to be added between word</span>
-<span class="sd">        group</span>
-<span class="sd">    :return: refined words or word list</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">if</span> <span class="n">lower_case</span><span class="p">:</span>
-        <span class="n">words</span> <span class="o">=</span> <span class="p">[</span><span class="n">word</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">words</span><span class="p">]</span>
-    <span class="k">if</span> <span class="n">strip_chars</span><span class="p">:</span>
-        <span class="n">words</span> <span class="o">=</span> <span class="p">[</span><span class="n">strip</span><span class="p">(</span><span class="n">word</span><span class="p">,</span> <span class="n">strip_chars</span><span class="p">)</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">words</span><span class="p">]</span>
-        <span class="n">words</span> <span class="o">=</span> <span class="p">[</span><span class="n">word</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">words</span> <span class="k">if</span> <span class="n">word</span><span class="p">]</span>
-    <span class="k">if</span> <span class="n">use_words_aug</span><span class="p">:</span>
-        <span class="n">augmentation</span> <span class="o">=</span> <span class="p">[</span>
-            <span class="n">words_augmentation</span><span class="p">(</span><span class="n">words</span><span class="p">,</span> <span class="n">group_size</span><span class="p">,</span> <span class="n">words_aug_join_char</span><span class="p">)</span>
-            <span class="k">for</span> <span class="n">group_size</span> <span class="ow">in</span> <span class="n">words_aug_group_sizes</span>
-        <span class="p">]</span>
-        <span class="n">augmentation</span> <span class="o">=</span> <span class="p">[</span><span class="n">word</span> <span class="k">for</span> <span class="n">augm</span> <span class="ow">in</span> <span class="n">augmentation</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">augm</span><span class="p">]</span>
-        <span class="n">words</span> <span class="o">=</span> <span class="n">words</span> <span class="o">+</span> <span class="n">augmentation</span>
-    <span class="k">return</span> <span class="n">words</span></div>
-
-
-<div class="viewcode-block" id="get_sentences_from_document"><a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_sentences_from_document">[docs]</a><span class="k">def</span> <span class="nf">get_sentences_from_document</span><span class="p">(</span><span class="n">document</span><span class="p">,</span> <span class="n">model_func</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Get sentences from a document.</span>
-
-<span class="sd">    :param document: document that need to split sentences</span>
-<span class="sd">    :param model_func: function of sentence model, if specified, the</span>
-<span class="sd">        function will be used for spliting document into different</span>
-<span class="sd">        sentences.</span>
-<span class="sd">    :return: document with the sentences separated by &#39;\\\\n&#39;</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">if</span> <span class="n">model_func</span><span class="p">:</span>
-        <span class="n">sentences</span> <span class="o">=</span> <span class="n">model_func</span><span class="p">(</span><span class="n">document</span><span class="p">)</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="n">sentences</span> <span class="o">=</span> <span class="n">document</span><span class="o">.</span><span class="n">splitlines</span><span class="p">()</span>
-    <span class="k">return</span> <span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">sentences</span><span class="p">)</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/deduplicator/document_deduplicator.html b/_modules/data_juicer/ops/deduplicator/document_deduplicator.html
deleted file mode 100644
index b0b0eca96..000000000
--- a/_modules/data_juicer/ops/deduplicator/document_deduplicator.html
+++ /dev/null
@@ -1,213 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.deduplicator.document_deduplicator &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.deduplicator.document_deduplicator</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.deduplicator.document_deduplicator</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://github.com/bigscience-workshop/data-preparation/blob/main/preprocessing/training/01a_catalogue_cleaning_and_filtering/clean_helpers/deduplication.py</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">import</span> <span class="nn">hashlib</span>
-<span class="kn">import</span> <span class="nn">string</span>
-<span class="kn">from</span> <span class="nn">collections</span> <span class="kn">import</span> <span class="n">defaultdict</span>
-<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Set</span>
-
-<span class="kn">import</span> <span class="nn">regex</span> <span class="k">as</span> <span class="nn">re</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">HashKeys</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Deduplicator</span>
-
-
-<div class="viewcode-block" id="DocumentDeduplicator"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;document_deduplicator&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">DocumentDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Deduplicator to deduplicate samples at document-level using exact matching.</span>
-
-<span class="sd">    Using md5 hash to deduplicate samples.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">lowercase</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="n">ignore_non_character</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param lowercase: Whether to convert sample text to lower case</span>
-<span class="sd">        :param ignore_non_character: Whether to ignore non-alphabet</span>
-<span class="sd">            characters, including whitespaces, digits, and punctuations</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span> <span class="o">=</span> <span class="n">lowercase</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">remove_non_character_regex</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
-            <span class="sa">f</span><span class="s1">&#39;\s+|\d+|[</span><span class="si">{</span><span class="n">re</span><span class="o">.</span><span class="n">escape</span><span class="p">(</span><span class="n">string</span><span class="o">.</span><span class="n">punctuation</span><span class="p">)</span><span class="si">}</span><span class="s1">]&#39;</span>  <span class="c1"># noqa: W605</span>
-        <span class="p">)</span> <span class="k">if</span> <span class="n">ignore_non_character</span> <span class="k">else</span> <span class="kc">None</span>
-
-<div class="viewcode-block" id="DocumentDeduplicator.compute_hash"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash">[docs]</a>    <span class="k">def</span> <span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Compute md5 hash values for the sample.</span>
-
-<span class="sd">        :param sample: input sample</span>
-<span class="sd">        :return: sample with md5 hash value.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># check if it&#39;s computed already</span>
-        <span class="k">if</span> <span class="n">HashKeys</span><span class="o">.</span><span class="n">hash</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span><span class="p">:</span>
-            <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_non_character_regex</span><span class="p">:</span>
-            <span class="n">text</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">remove_non_character_regex</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
-
-        <span class="k">def</span> <span class="nf">_get_hash</span><span class="p">(</span><span class="n">txt</span><span class="p">):</span>
-            <span class="k">return</span> <span class="n">hashlib</span><span class="o">.</span><span class="n">md5</span><span class="p">(</span><span class="n">txt</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">))</span><span class="o">.</span><span class="n">hexdigest</span><span class="p">()</span>
-
-        <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">hash</span><span class="p">]</span> <span class="o">=</span> <span class="n">_get_hash</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="DocumentDeduplicator.process"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        For doc-level, dataset --&gt; dataset.</span>
-
-<span class="sd">        :param dataset: input dataset</span>
-<span class="sd">        :param show_num: number of traced samples used when tracer is</span>
-<span class="sd">            open.</span>
-<span class="sd">        :return: deduplicated dataset and the sampled duplicate pairs.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># no need to deduplicate because too few samples</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="p">{}</span>
-
-        <span class="n">dup_hashes</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
-            <span class="c1"># sample duplicate pairs</span>
-            <span class="n">hash2ids</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">Set</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">set</span><span class="p">)</span>
-            <span class="k">for</span> <span class="n">sid</span><span class="p">,</span> <span class="n">hash_val</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">hash</span><span class="p">]):</span>
-                <span class="n">hash2ids</span><span class="p">[</span><span class="n">hash_val</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">sid</span><span class="p">)</span>
-            <span class="n">dup_samples</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="n">hash2ids</span><span class="o">.</span><span class="n">items</span><span class="p">()),</span>
-                                 <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">[</span><span class="mi">1</span><span class="p">]),</span>
-                                 <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-            <span class="n">dup_hashes</span> <span class="o">=</span> <span class="nb">set</span><span class="p">([</span>
-                <span class="n">item</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">dup_samples</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">item</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span> <span class="o">&gt;</span> <span class="mi">1</span>
-            <span class="p">][:</span><span class="n">show_num</span><span class="p">])</span>
-
-        <span class="k">def</span> <span class="nf">_filter_dup_helper</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">hashes</span><span class="p">):</span>
-            <span class="nb">hash</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">hash</span><span class="p">]</span>
-            <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> <span class="nb">hash</span> <span class="ow">in</span> <span class="n">dup_hashes</span> \
-                    <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">dup_pairs</span><span class="p">[</span><span class="nb">hash</span><span class="p">])</span> <span class="o">&lt;</span> <span class="mi">2</span><span class="p">:</span>
-                <span class="c1"># tracer is open and not enough duplicate sample pairs</span>
-                <span class="n">dup_pairs</span><span class="p">[</span><span class="nb">hash</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
-            <span class="k">if</span> <span class="nb">hash</span> <span class="ow">in</span> <span class="n">hashes</span><span class="p">:</span>
-                <span class="k">return</span> <span class="kc">False</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">hashes</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="nb">hash</span><span class="p">)</span>
-                <span class="k">return</span> <span class="kc">True</span>
-
-        <span class="n">hashes</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-        <span class="n">dup_pairs</span> <span class="o">=</span> <span class="p">{</span><span class="n">hash_v</span><span class="p">:</span> <span class="p">[]</span> <span class="k">for</span> <span class="n">hash_v</span> <span class="ow">in</span> <span class="n">dup_hashes</span><span class="p">}</span> <span class="k">if</span> <span class="n">dup_hashes</span> <span class="k">else</span> <span class="p">{}</span>
-        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span>
-            <span class="n">_filter_dup_helper</span><span class="p">,</span>
-            <span class="n">fn_kwargs</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span><span class="n">hashes</span><span class="o">=</span><span class="n">hashes</span><span class="p">),</span>
-            <span class="n">load_from_cache_file</span><span class="o">=</span><span class="kc">False</span> <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="k">else</span> <span class="kc">True</span><span class="p">)</span>  <span class="c1"># num_proc=1</span>
-        <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">dup_pairs</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html b/_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html
deleted file mode 100644
index 5d6ad6f8d..000000000
--- a/_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html
+++ /dev/null
@@ -1,413 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.deduplicator.document_minhash_deduplicator &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.deduplicator.document_minhash_deduplicator</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.deduplicator.document_minhash_deduplicator</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://github.com/bigcode-project/bigcode-dataset/blob/main/near_deduplication/minhash_deduplication.py</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">import</span> <span class="nn">hashlib</span>
-<span class="kn">import</span> <span class="nn">struct</span>
-<span class="kn">from</span> <span class="nn">collections</span> <span class="kn">import</span> <span class="n">defaultdict</span>
-
-<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-<span class="kn">import</span> <span class="nn">regex</span>
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">ClosedUnitInterval</span><span class="p">,</span> <span class="n">PositiveInt</span>
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-<span class="kn">from</span> <span class="nn">scipy.integrate</span> <span class="kn">import</span> <span class="n">quad</span> <span class="k">as</span> <span class="n">integrate</span>
-<span class="kn">from</span> <span class="nn">tqdm</span> <span class="kn">import</span> <span class="n">tqdm</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">HashKeys</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Deduplicator</span>
-<span class="kn">from</span> <span class="nn">..common.helper_func</span> <span class="kn">import</span> <span class="n">UnionFind</span><span class="p">,</span> <span class="n">split_on_whitespace</span>
-
-<span class="n">MERSENNE_PRIME</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">((</span><span class="mi">1</span> <span class="o">&lt;&lt;</span> <span class="mi">61</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span>
-<span class="n">MAX_HASH</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">((</span><span class="mi">1</span> <span class="o">&lt;&lt;</span> <span class="mi">32</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span>
-
-
-<div class="viewcode-block" id="sha1_hash32"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32">[docs]</a><span class="k">def</span> <span class="nf">sha1_hash32</span><span class="p">(</span><span class="n">data</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Directly taken from datasketch package to avoid dependency.</span>
-
-<span class="sd">    Parameters</span>
-<span class="sd">    ----------</span>
-<span class="sd">    data : bytes</span>
-
-<span class="sd">    Returns</span>
-<span class="sd">    -------</span>
-<span class="sd">    int</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">return</span> <span class="n">struct</span><span class="o">.</span><span class="n">unpack</span><span class="p">(</span><span class="s1">&#39;&lt;I&#39;</span><span class="p">,</span> <span class="n">hashlib</span><span class="o">.</span><span class="n">sha1</span><span class="p">(</span><span class="n">data</span><span class="p">)</span><span class="o">.</span><span class="n">digest</span><span class="p">()[:</span><span class="mi">4</span><span class="p">])[</span><span class="mi">0</span><span class="p">]</span></div>
-
-
-<div class="viewcode-block" id="optimal_param"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param">[docs]</a><span class="k">def</span> <span class="nf">optimal_param</span><span class="p">(</span>
-    <span class="n">threshold</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
-    <span class="n">num_perm</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
-    <span class="n">false_positive_weight</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
-    <span class="n">false_negative_weight</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
-<span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Compute the optimal `MinHashLSH` parameter that minimizes the weighted sum</span>
-<span class="sd">    of probabilities of false positive and false negative, taken from</span>
-<span class="sd">    datasketch.</span>
-
-<span class="sd">    :param threshold: float. The threshold for similarity</span>
-<span class="sd">    :param num_perm: int. The number of permutations</span>
-<span class="sd">    :param false_positive_weight: float. The weight of false positive</span>
-<span class="sd">    :param false_negative_weight: float. The weight of false negative</span>
-<span class="sd">    :return: Tuple[int, int]. The optimal `b` and `r` parameters. The number of</span>
-<span class="sd">        bands, and the number of rows per band respectively</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="nf">false_positive_probability</span><span class="p">(</span><span class="n">th</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span> <span class="n">band</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">rows</span><span class="p">:</span> <span class="nb">int</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Source: `datasketch.lsh`&quot;&quot;&quot;</span>
-
-        <span class="k">def</span> <span class="nf">proba</span><span class="p">(</span><span class="n">s</span><span class="p">):</span>
-            <span class="k">return</span> <span class="mi">1</span> <span class="o">-</span> <span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">s</span><span class="o">**</span><span class="nb">float</span><span class="p">(</span><span class="n">rows</span><span class="p">))</span><span class="o">**</span><span class="nb">float</span><span class="p">(</span><span class="n">band</span><span class="p">)</span>
-
-        <span class="n">a</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">integrate</span><span class="p">(</span><span class="n">proba</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">,</span> <span class="n">th</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">a</span>
-
-    <span class="k">def</span> <span class="nf">false_negative_probability</span><span class="p">(</span><span class="n">th</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span> <span class="n">band</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">rows</span><span class="p">:</span> <span class="nb">int</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Source: `datasketch.lsh`&quot;&quot;&quot;</span>
-
-        <span class="k">def</span> <span class="nf">proba</span><span class="p">(</span><span class="n">s</span><span class="p">):</span>
-            <span class="k">return</span> <span class="mi">1</span> <span class="o">-</span> <span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">s</span><span class="o">**</span><span class="nb">float</span><span class="p">(</span><span class="n">rows</span><span class="p">))</span><span class="o">**</span><span class="nb">float</span><span class="p">(</span><span class="n">band</span><span class="p">))</span>
-
-        <span class="n">a</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">integrate</span><span class="p">(</span><span class="n">proba</span><span class="p">,</span> <span class="n">th</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">a</span>
-
-    <span class="c1"># object: minimize the weighted FP and FN ratio</span>
-    <span class="n">min_error</span> <span class="o">=</span> <span class="nb">float</span><span class="p">(</span><span class="s1">&#39;inf&#39;</span><span class="p">)</span>
-    <span class="n">opt</span> <span class="o">=</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>
-    <span class="k">for</span> <span class="n">b</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">num_perm</span> <span class="o">+</span> <span class="mi">1</span><span class="p">):</span>
-        <span class="n">max_r</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">num_perm</span> <span class="o">/</span> <span class="n">b</span><span class="p">)</span>
-        <span class="k">for</span> <span class="n">r</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">max_r</span> <span class="o">+</span> <span class="mi">1</span><span class="p">):</span>
-            <span class="n">fp</span> <span class="o">=</span> <span class="n">false_positive_probability</span><span class="p">(</span><span class="n">threshold</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">r</span><span class="p">)</span>
-            <span class="n">fn</span> <span class="o">=</span> <span class="n">false_negative_probability</span><span class="p">(</span><span class="n">threshold</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">r</span><span class="p">)</span>
-            <span class="n">error</span> <span class="o">=</span> <span class="n">fp</span> <span class="o">*</span> <span class="n">false_positive_weight</span> <span class="o">+</span> <span class="n">fn</span> <span class="o">*</span> <span class="n">false_negative_weight</span>
-            <span class="k">if</span> <span class="n">error</span> <span class="o">&lt;</span> <span class="n">min_error</span><span class="p">:</span>
-                <span class="n">min_error</span> <span class="o">=</span> <span class="n">error</span>
-                <span class="n">opt</span> <span class="o">=</span> <span class="p">(</span><span class="n">b</span><span class="p">,</span> <span class="n">r</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">opt</span></div>
-
-
-<div class="viewcode-block" id="DocumentMinhashDeduplicator"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;document_minhash_deduplicator&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">DocumentMinhashDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Deduplicator to deduplicate samples at document-level using MinHashLSH.</span>
-
-<span class="sd">    Different from simhash, minhash is stored as bytes, so they won&#39;t be</span>
-<span class="sd">    kept in the final dataset.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
-        <span class="bp">self</span><span class="p">,</span>
-        <span class="n">tokenization</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;space&#39;</span><span class="p">,</span>
-        <span class="n">window_size</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">5</span><span class="p">,</span>
-        <span class="n">lowercase</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-        <span class="n">ignore_pattern</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-        <span class="n">num_permutations</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">256</span><span class="p">,</span>
-        <span class="n">jaccard_threshold</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.7</span><span class="p">,</span>
-        <span class="n">num_bands</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-        <span class="n">num_rows_per_band</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-        <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-    <span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param tokenization: tokenization method for sample texts. It</span>
-<span class="sd">            should be one of [space, punctuation, character]. For</span>
-<span class="sd">            English-like languages, we recommend to use &#39;space&#39;. And for</span>
-<span class="sd">            Chinese-like languages, we recommend to use &#39;character&#39;</span>
-<span class="sd">        :param window_size: window size of shingling</span>
-<span class="sd">        :param lowercase: whether to convert text to lower case first</span>
-<span class="sd">        :param ignore_pattern: whether to ignore sub-strings with</span>
-<span class="sd">            specific pattern when computing minhash</span>
-<span class="sd">        :param num_permutations: number of permutations in minhash</span>
-<span class="sd">            computing</span>
-<span class="sd">        :param jaccard_threshold: the min jaccard similarity threshold</span>
-<span class="sd">            in near-duplicate detection. When the jaccard similarity of</span>
-<span class="sd">            two sample texts is &gt;= this threshold, they are regarded as</span>
-<span class="sd">            similar samples and this op will only keep one of them after</span>
-<span class="sd">            deduplication</span>
-<span class="sd">        :param num_bands: number of bands in LSH. Default it&#39;s None, and</span>
-<span class="sd">            it will be determined by an optimal params computation</span>
-<span class="sd">            algorithm by minimize the weighted sum of probs of False</span>
-<span class="sd">            Positives and False Negatives</span>
-<span class="sd">        :param num_rows_per_band: number of rows in each band in LSH.</span>
-<span class="sd">            Default it&#39;s None, and it will be determined by an optimal</span>
-<span class="sd">            params computation algorithm</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="c1"># about minhash computation</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">=</span> <span class="n">tokenization</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span> <span class="o">=</span> <span class="n">window_size</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span> <span class="o">=</span> <span class="n">lowercase</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="o">=</span> <span class="n">ignore_pattern</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="o">=</span> <span class="n">regex</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">)</span>
-
-        <span class="c1"># check parameters</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;punctuation&#39;</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;Be careful that tokenization with punctuations &#39;</span>
-                           <span class="s1">&#39;won</span><span class="se">\&#39;</span><span class="s1">t work if the ignore pattern includes &#39;</span>
-                           <span class="s1">&#39;punctuations.&#39;</span><span class="p">)</span>
-
-        <span class="c1"># about deduplication</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">num_permutation</span> <span class="o">=</span> <span class="n">num_permutations</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">jaccard_threshold</span> <span class="o">=</span> <span class="n">jaccard_threshold</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">num_bands</span> <span class="o">=</span> <span class="n">num_bands</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span> <span class="o">=</span> <span class="n">num_rows_per_band</span>
-
-        <span class="c1"># initialize deduplication parameters</span>
-        <span class="c1"># check number of bands and rows</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_bands</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">num_bands</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span> <span class="o">=</span> <span class="n">optimal_param</span><span class="p">(</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">jaccard_threshold</span><span class="p">,</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">num_permutation</span><span class="p">,</span>
-            <span class="p">)</span>
-
-        <span class="c1"># compute hash ranges and create hash tables</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">hash_ranges</span> <span class="o">=</span> <span class="p">[(</span><span class="n">i</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span><span class="p">,</span>
-                             <span class="p">(</span><span class="n">i</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_rows_per_band</span><span class="p">)</span>
-                            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_bands</span><span class="p">)]</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">hash_tables</span> <span class="o">=</span> <span class="p">[</span><span class="n">defaultdict</span><span class="p">(</span><span class="nb">set</span><span class="p">)</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_bands</span><span class="p">)]</span>
-
-        <span class="c1"># generate permutations</span>
-        <span class="n">gen</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">RandomState</span><span class="p">(</span><span class="n">seed</span><span class="o">=</span><span class="mi">42</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">perm_a</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">perm_b</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
-            <span class="p">[(</span>
-                <span class="n">gen</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">MERSENNE_PRIME</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">),</span>
-                <span class="n">gen</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">MERSENNE_PRIME</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">),</span>
-            <span class="p">)</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_permutation</span><span class="p">)],</span>
-            <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">,</span>
-        <span class="p">)</span><span class="o">.</span><span class="n">T</span>
-
-<div class="viewcode-block" id="DocumentMinhashDeduplicator.compute_hash"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash">[docs]</a>    <span class="k">def</span> <span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Compute minhash values for the sample.</span>
-
-<span class="sd">        :param sample: input sample</span>
-<span class="sd">        :return: sample with minhash value.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># check if it&#39;s computed already</span>
-        <span class="k">if</span> <span class="n">HashKeys</span><span class="o">.</span><span class="n">minhash</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
-
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span><span class="p">:</span>
-            <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">:</span>
-            <span class="n">text</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
-
-        <span class="c1"># get tokens for different tokenization method</span>
-        <span class="n">tokens</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;character&#39;</span><span class="p">:</span>
-            <span class="n">tokens</span> <span class="o">=</span> <span class="p">{</span>
-                <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">text</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">])</span>
-                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">text</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
-            <span class="p">}</span>
-        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;punctuation&#39;</span><span class="p">:</span>
-            <span class="n">tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">punctuation_pattern</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
-            <span class="n">tokens</span> <span class="o">=</span> <span class="p">{</span>
-                <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tokens</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">]))</span>
-                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
-            <span class="p">}</span>
-        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;space&#39;</span><span class="p">:</span>
-            <span class="n">tokens</span> <span class="o">=</span> <span class="n">split_on_whitespace</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
-            <span class="n">tokens</span> <span class="o">=</span> <span class="p">{</span>
-                <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tokens</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">]))</span>
-                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
-            <span class="p">}</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
-                <span class="sa">f</span><span class="s1">&#39;Unimplemented tokenization method [</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span><span class="si">}</span><span class="s1">]&#39;</span><span class="p">)</span>
-
-        <span class="c1"># compute minhash value</span>
-        <span class="n">hv</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span><span class="n">sha1_hash32</span><span class="p">(</span><span class="n">token</span><span class="p">)</span> <span class="k">for</span> <span class="n">token</span> <span class="ow">in</span> <span class="n">tokens</span><span class="p">],</span>
-                      <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">)</span>
-        <span class="n">phv</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">bitwise_and</span><span class="p">(</span>
-            <span class="p">((</span><span class="n">hv</span> <span class="o">*</span> <span class="n">np</span><span class="o">.</span><span class="n">tile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">perm_a</span><span class="p">,</span>
-                           <span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">hv</span><span class="p">),</span> <span class="mi">1</span><span class="p">))</span><span class="o">.</span><span class="n">T</span><span class="p">)</span><span class="o">.</span><span class="n">T</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">perm_b</span><span class="p">)</span> <span class="o">%</span> <span class="n">MERSENNE_PRIME</span><span class="p">,</span>
-            <span class="n">MAX_HASH</span><span class="p">)</span>
-        <span class="n">hash_values</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">vstack</span><span class="p">([</span>
-            <span class="n">phv</span><span class="p">,</span>
-            <span class="n">np</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_permutation</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">)</span> <span class="o">*</span> <span class="n">MAX_HASH</span>
-        <span class="p">])</span><span class="o">.</span><span class="n">min</span><span class="p">(</span><span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
-        <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">minhash</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
-            <span class="nb">bytes</span><span class="p">(</span><span class="n">hash_values</span><span class="p">[</span><span class="n">start</span><span class="p">:</span><span class="n">end</span><span class="p">]</span><span class="o">.</span><span class="n">byteswap</span><span class="p">()</span><span class="o">.</span><span class="n">data</span><span class="p">)</span>
-            <span class="k">for</span> <span class="n">start</span><span class="p">,</span> <span class="n">end</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">hash_ranges</span>
-        <span class="p">]</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="DocumentMinhashDeduplicator.process"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        For doc-level, dataset --&gt; dataset.</span>
-
-<span class="sd">        :param dataset: input dataset</span>
-<span class="sd">        :param show_num: number of traced samples used when tracer is</span>
-<span class="sd">            open.</span>
-<span class="sd">        :return: deduplicated dataset and the sampled duplicate pairs.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># no need to deduplicate because too few samples</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="p">{}</span>
-
-        <span class="n">minhashes</span> <span class="o">=</span> <span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">minhash</span><span class="p">]</span>
-        <span class="c1"># remove bytes minhash column otherwise unexpected error would occur</span>
-        <span class="c1"># when exporting the processed dataset</span>
-        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">remove_columns</span><span class="p">([</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">minhash</span><span class="p">])</span>
-
-        <span class="c1"># make clusters -- construct the minhash lookup tables of seg to ids</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Start clustering for </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span><span class="si">}</span><span class="s1"> samples...&#39;</span><span class="p">)</span>
-        <span class="n">batch_size</span> <span class="o">=</span> <span class="mi">10000</span>
-        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">minhashes</span><span class="p">),</span> <span class="n">batch_size</span><span class="p">),</span>
-                      <span class="n">dynamic_ncols</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-                      <span class="n">desc</span><span class="o">=</span><span class="s1">&#39;Iterating MinHashes of samples...&#39;</span><span class="p">):</span>
-            <span class="n">batch</span> <span class="o">=</span> <span class="n">minhashes</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="n">batch_size</span><span class="p">]</span>
-            <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">hs</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">batch</span><span class="p">):</span>
-                <span class="k">for</span> <span class="n">h</span><span class="p">,</span> <span class="n">hashtable</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">hs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hash_tables</span><span class="p">):</span>
-                    <span class="n">hashtable</span><span class="p">[</span><span class="n">h</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">idx</span> <span class="o">+</span> <span class="n">i</span><span class="p">)</span>
-
-        <span class="c1"># using UnionFind set to union samples within the same clusters</span>
-        <span class="n">union_find</span> <span class="o">=</span> <span class="n">UnionFind</span><span class="p">()</span>
-        <span class="k">for</span> <span class="n">table</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hash_tables</span><span class="p">,</span>
-                          <span class="n">dynamic_ncols</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-                          <span class="n">desc</span><span class="o">=</span><span class="s1">&#39;Clustering&#39;</span><span class="p">):</span>
-            <span class="k">for</span> <span class="n">cluster</span> <span class="ow">in</span> <span class="n">table</span><span class="o">.</span><span class="n">values</span><span class="p">():</span>
-                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">cluster</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span><span class="p">:</span>
-                    <span class="k">continue</span>
-                <span class="n">idx</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">cluster</span><span class="p">)</span>
-                <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">cluster</span><span class="p">:</span>
-                    <span class="n">union_find</span><span class="o">.</span><span class="n">union</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">idx</span><span class="p">)</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;There are </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="n">union_find</span><span class="o">.</span><span class="n">parent</span><span class="o">.</span><span class="n">values</span><span class="p">()))</span><span class="si">}</span><span class="s1"> &#39;</span>
-                    <span class="sa">f</span><span class="s1">&#39;clusters that includes multiple near-duplicate samples.&#39;</span><span class="p">)</span>
-
-        <span class="c1"># record the duplicate sample pairs</span>
-        <span class="n">dup_pairs</span> <span class="o">=</span> <span class="p">{}</span>
-        <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
-            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)):</span>
-                <span class="n">cluster_idx</span> <span class="o">=</span> <span class="n">union_find</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">i</span><span class="p">)</span>
-                <span class="k">if</span> <span class="n">cluster_idx</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">dup_pairs</span> <span class="ow">and</span> <span class="n">cluster_idx</span> <span class="o">!=</span> <span class="n">i</span><span class="p">:</span>
-                    <span class="n">dup_pairs</span><span class="p">[</span><span class="n">cluster_idx</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
-                        <span class="n">dataset</span><span class="p">[</span><span class="n">cluster_idx</span><span class="p">],</span>
-                        <span class="n">dataset</span><span class="p">[</span><span class="n">i</span><span class="p">],</span>
-                    <span class="p">]</span>
-                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dup_pairs</span><span class="p">)</span> <span class="o">&gt;=</span> <span class="n">show_num</span><span class="p">:</span>
-                    <span class="k">break</span>
-
-        <span class="c1"># filtering -- only keep those samples whose parent index is itself,</span>
-        <span class="c1"># including:</span>
-        <span class="c1"># 1. samples that form a cluster by themselves</span>
-        <span class="c1"># 2. the first sample in a cluster that includes multiple samples</span>
-        <span class="k">def</span> <span class="nf">_filter_minhash_dup_helper</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">index</span><span class="p">):</span>
-            <span class="k">return</span> <span class="n">union_find</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">index</span><span class="p">)</span> <span class="o">==</span> <span class="n">index</span>
-
-        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span>
-            <span class="n">_filter_minhash_dup_helper</span><span class="p">,</span>
-            <span class="n">with_indices</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-        <span class="p">)</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span><span class="si">}</span><span class="s1"> samples after MinHash dedup.&#39;</span><span class="p">)</span>
-
-        <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">dup_pairs</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html b/_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html
deleted file mode 100644
index 0918f324a..000000000
--- a/_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html
+++ /dev/null
@@ -1,367 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.deduplicator.document_simhash_deduplicator &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.deduplicator.document_simhash_deduplicator</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.deduplicator.document_simhash_deduplicator</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://github.com/bigscience-workshop/data-preparation</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">from</span> <span class="nn">collections</span> <span class="kn">import</span> <span class="n">Counter</span><span class="p">,</span> <span class="n">defaultdict</span><span class="p">,</span> <span class="n">deque</span>
-<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">Set</span>
-
-<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-<span class="kn">import</span> <span class="nn">regex</span>
-<span class="kn">import</span> <span class="nn">simhash</span>
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">PositiveInt</span>
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">HashKeys</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Deduplicator</span>
-<span class="kn">from</span> <span class="nn">..common.helper_func</span> <span class="kn">import</span> <span class="n">split_on_whitespace</span>
-
-
-<div class="viewcode-block" id="local_num_differing_bits"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.local_num_differing_bits">[docs]</a><span class="k">def</span> <span class="nf">local_num_differing_bits</span><span class="p">(</span><span class="n">hash_a</span><span class="p">,</span> <span class="n">hash_b</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Local implementation of calculating the number of different bits between</span>
-<span class="sd">    two integers.</span>
-
-<span class="sd">    :param hash_a: integer hash value a</span>
-<span class="sd">    :param hash_b: integer hash value b</span>
-<span class="sd">    :return: number of different bits between input hashes.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">cnt</span> <span class="o">=</span> <span class="mi">0</span>
-    <span class="n">n</span> <span class="o">=</span> <span class="n">hash_a</span> <span class="o">^</span> <span class="n">hash_b</span>
-    <span class="k">while</span> <span class="n">n</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">:</span>
-        <span class="n">cnt</span> <span class="o">+=</span> <span class="mi">1</span>
-        <span class="n">n</span> <span class="o">=</span> <span class="n">n</span> <span class="o">&amp;</span> <span class="p">(</span><span class="n">n</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">cnt</span></div>
-
-
-<div class="viewcode-block" id="num_differing_bits_selector"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.num_differing_bits_selector">[docs]</a><span class="k">def</span> <span class="nf">num_differing_bits_selector</span><span class="p">():</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Select a num_differing_bits method according to the Python version</span>
-<span class="sd">    installed.</span>
-
-<span class="sd">    When Python &gt;= 3.9, the original simhash library cannot be compiled</span>
-<span class="sd">    correctly due to some changes in cython. After fixing this</span>
-<span class="sd">    incompatibility, RecursionError occurs sometimes when calling</span>
-<span class="sd">    simhash.num_differing_bits. So we use our implementation when Python</span>
-<span class="sd">    &gt;= 3.9. Otherwise, we use implementation of simhash.</span>
-
-<span class="sd">    :return: an available num_differing_bits function.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="kn">import</span> <span class="nn">platform</span>
-    <span class="n">a</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">platform</span><span class="o">.</span><span class="n">python_version</span><span class="p">()</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span>
-    <span class="k">if</span> <span class="n">a</span> <span class="o">==</span> <span class="s1">&#39;3&#39;</span> <span class="ow">and</span> <span class="nb">int</span><span class="p">(</span><span class="n">b</span><span class="p">)</span> <span class="o">&gt;=</span> <span class="mi">9</span><span class="p">:</span>
-        <span class="c1"># for &gt;= 3.9, use local implementation</span>
-        <span class="k">return</span> <span class="n">local_num_differing_bits</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="c1"># for &lt; 3.9, use simhash version</span>
-        <span class="k">return</span> <span class="n">simhash</span><span class="o">.</span><span class="n">num_differing_bits</span></div>
-
-
-<span class="n">num_differing_bits</span> <span class="o">=</span> <span class="n">num_differing_bits_selector</span><span class="p">()</span>
-
-
-<div class="viewcode-block" id="DocumentSimhashDeduplicator"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;document_simhash_deduplicator&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">DocumentSimhashDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Deduplicator to deduplicate samples at document-level using SimHash.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">tokenization</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;space&#39;</span><span class="p">,</span>
-                 <span class="n">window_size</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">6</span><span class="p">,</span>
-                 <span class="n">lowercase</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-                 <span class="n">ignore_pattern</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-                 <span class="n">num_blocks</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">6</span><span class="p">,</span>
-                 <span class="n">hamming_distance</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">4</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method :param tokenization: tokenization method for</span>
-<span class="sd">        sample texts.</span>
-
-<span class="sd">        It should be one of [space, punctuation, character]. For</span>
-<span class="sd">        English-like languages, we recommend to use &#39;space&#39;. And for</span>
-<span class="sd">        Chinese-like languages, we recommend to use &#39;character&#39;</span>
-
-<span class="sd">        :param window_size: window size of shingling</span>
-<span class="sd">        :param lowercase: whether to convert text to lower case first</span>
-<span class="sd">        :param ignore_pattern: whether to ignore sub-strings with</span>
-<span class="sd">            specific pattern when computing simhash</span>
-<span class="sd">        :param num_blocks: number of blocks in simhash computing</span>
-<span class="sd">        :param hamming_distance: the max hamming distance threshold in</span>
-<span class="sd">            near-duplicate detection. When the hamming distance of two</span>
-<span class="sd">            sample texts is &lt;= this threshold, they are regarded as</span>
-<span class="sd">            similar samples and this op will only keep one of them after</span>
-<span class="sd">            deduplication. This threshold should be always less than</span>
-<span class="sd">            num_blocks</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># about simhash computation</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">=</span> <span class="n">tokenization</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span> <span class="o">=</span> <span class="n">window_size</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span> <span class="o">=</span> <span class="n">lowercase</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="o">=</span> <span class="n">ignore_pattern</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="o">=</span> <span class="n">regex</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">)</span>
-
-        <span class="c1"># check parameters</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;punctuation&#39;</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;Be careful that tokenization with punctuations &#39;</span>
-                           <span class="s1">&#39;won</span><span class="se">\&#39;</span><span class="s1">t work if the ignore pattern includes &#39;</span>
-                           <span class="s1">&#39;punctuations.&#39;</span><span class="p">)</span>
-
-        <span class="c1"># about deduplication</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">num_blocks</span> <span class="o">=</span> <span class="n">num_blocks</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">hamming_distance</span> <span class="o">=</span> <span class="n">hamming_distance</span>
-
-<div class="viewcode-block" id="DocumentSimhashDeduplicator.compute_hash"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash">[docs]</a>    <span class="k">def</span> <span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Compute simhash values for the sample.</span>
-
-<span class="sd">        :param sample: input sample</span>
-<span class="sd">        :return: sample with simhash value.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># check if it&#39;s computed already</span>
-        <span class="k">if</span> <span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
-
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span><span class="p">:</span>
-            <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="p">:</span>
-            <span class="n">text</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_pattern</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
-
-        <span class="c1"># get tokens for different tokenization method</span>
-        <span class="n">tokens</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;character&#39;</span><span class="p">:</span>
-            <span class="n">tokens</span> <span class="o">=</span> <span class="p">[</span>
-                <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">text</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">])</span>
-                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">text</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
-            <span class="p">]</span>
-        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;punctuation&#39;</span><span class="p">:</span>
-            <span class="n">tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">punctuation_pattern</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
-            <span class="n">tokens</span> <span class="o">=</span> <span class="p">[</span>
-                <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tokens</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">]))</span>
-                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
-            <span class="p">]</span>
-        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">==</span> <span class="s1">&#39;space&#39;</span><span class="p">:</span>
-            <span class="n">tokens</span> <span class="o">=</span> <span class="n">split_on_whitespace</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
-            <span class="n">tokens</span> <span class="o">=</span> <span class="p">[</span>
-                <span class="nb">str</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tokens</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">]))</span>
-                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">tokens</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">window_size</span><span class="p">)</span>
-            <span class="p">]</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
-                <span class="sa">f</span><span class="s1">&#39;Unimplemented tokenization method [</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span><span class="si">}</span><span class="s1">]&#39;</span><span class="p">)</span>
-
-        <span class="c1"># compute simhash</span>
-        <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">]</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">(</span>
-            <span class="n">simhash</span><span class="o">.</span><span class="n">compute</span><span class="p">(</span><span class="nb">map</span><span class="p">(</span><span class="n">simhash</span><span class="o">.</span><span class="n">unsigned_hash</span><span class="p">,</span> <span class="n">tokens</span><span class="p">)))</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="DocumentSimhashDeduplicator.process"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        For doc-level, dataset --&gt; dataset.</span>
-
-<span class="sd">        :param dataset: input dataset</span>
-<span class="sd">        :param show_num: number of traced samples used when tracer is</span>
-<span class="sd">            open.</span>
-<span class="sd">        :return: deduplicated dataset and the sampled duplicate pairs.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="c1"># no need to deduplicate because too few samples</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="p">{}</span>
-
-        <span class="c1"># find matches</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Start querying </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span><span class="si">}</span><span class="s1"> samples.&#39;</span><span class="p">)</span>
-        <span class="n">matches</span> <span class="o">=</span> <span class="n">simhash</span><span class="o">.</span><span class="n">find_all</span><span class="p">(</span>
-            <span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">],</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">num_blocks</span><span class="p">,</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">hamming_distance</span><span class="p">,</span>
-        <span class="p">)</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Querying done, found </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">matches</span><span class="p">)</span><span class="si">}</span><span class="s1"> matches.&#39;</span><span class="p">)</span>
-
-        <span class="c1"># compute hash diff distribution</span>
-        <span class="n">graph</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">dict</span><span class="p">)</span>
-        <span class="n">dist</span> <span class="o">=</span> <span class="n">Counter</span><span class="p">()</span>
-        <span class="k">for</span> <span class="n">x</span><span class="p">,</span> <span class="n">y</span> <span class="ow">in</span> <span class="n">matches</span><span class="p">:</span>
-            <span class="n">graph</span><span class="p">[</span><span class="n">x</span><span class="p">][</span><span class="n">y</span><span class="p">]</span> <span class="o">=</span> <span class="n">graph</span><span class="p">[</span><span class="n">y</span><span class="p">][</span><span class="n">x</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span>
-            <span class="n">num_diff</span> <span class="o">=</span> <span class="n">num_differing_bits</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">)</span>
-            <span class="n">dist</span><span class="p">[</span><span class="n">num_diff</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Hash diff distribution: </span><span class="si">{</span><span class="n">dist</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
-
-        <span class="n">hash2ids</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">Set</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">set</span><span class="p">)</span>
-        <span class="n">hashes</span><span class="p">:</span> <span class="n">Set</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">])</span>
-        <span class="n">hash2cluster</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span>
-        <span class="n">visited</span><span class="p">:</span> <span class="n">Set</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-        <span class="n">cluster_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span>
-
-        <span class="k">for</span> <span class="n">sid</span><span class="p">,</span> <span class="n">hash_val</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">]):</span>
-            <span class="n">hash2ids</span><span class="p">[</span><span class="n">hash_val</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">sid</span><span class="p">))</span>
-
-        <span class="c1"># clustering</span>
-        <span class="n">dup_pairs</span> <span class="o">=</span> <span class="p">{}</span>  <span class="c1"># store duplicate pairs when show_num &gt; 0</span>
-        <span class="k">while</span> <span class="n">hashes</span><span class="p">:</span>
-            <span class="n">hash_val</span> <span class="o">=</span> <span class="n">hashes</span><span class="o">.</span><span class="n">pop</span><span class="p">()</span>
-            <span class="k">if</span> <span class="n">hash_val</span> <span class="ow">in</span> <span class="n">visited</span><span class="p">:</span>
-                <span class="k">continue</span>
-
-            <span class="c1"># if this hash value is not in the matches list, it&#39;s regarded as a</span>
-            <span class="c1"># single cluster</span>
-            <span class="k">if</span> <span class="n">hash_val</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">graph</span><span class="p">:</span>
-                <span class="k">continue</span>
-
-            <span class="c1"># Otherwise, BFS to find the cluster</span>
-            <span class="n">q</span> <span class="o">=</span> <span class="n">deque</span><span class="p">([</span><span class="n">hash_val</span><span class="p">])</span>
-            <span class="n">visited</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">hash_val</span><span class="p">)</span>
-            <span class="n">hash2cluster</span><span class="p">[</span><span class="n">hash_val</span><span class="p">]</span> <span class="o">=</span> <span class="n">cluster_id</span>
-            <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">dup_pairs</span><span class="p">)</span> <span class="o">&lt;</span> <span class="n">show_num</span><span class="p">:</span>
-                <span class="n">dup_pairs</span><span class="p">[</span><span class="n">cluster_id</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
-
-            <span class="k">while</span> <span class="n">q</span><span class="p">:</span>
-                <span class="n">curr</span> <span class="o">=</span> <span class="n">q</span><span class="o">.</span><span class="n">popleft</span><span class="p">()</span>
-                <span class="k">for</span> <span class="n">neighbor</span> <span class="ow">in</span> <span class="n">graph</span><span class="p">[</span><span class="n">curr</span><span class="p">]:</span>
-                    <span class="k">if</span> <span class="n">neighbor</span> <span class="ow">in</span> <span class="n">visited</span><span class="p">:</span>
-                        <span class="k">continue</span>
-                    <span class="n">visited</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">neighbor</span><span class="p">)</span>
-                    <span class="n">q</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">neighbor</span><span class="p">)</span>
-                    <span class="n">hash2cluster</span><span class="p">[</span><span class="n">neighbor</span><span class="p">]</span> <span class="o">=</span> <span class="n">cluster_id</span>
-
-            <span class="n">cluster_id</span> <span class="o">+=</span> <span class="mi">1</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Found </span><span class="si">{</span><span class="n">cluster_id</span><span class="si">}</span><span class="s1"> clusters and </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">graph</span><span class="p">)</span><span class="si">}</span><span class="s1"> hashes.&#39;</span><span class="p">)</span>
-
-        <span class="c1"># filter duplicated samples</span>
-        <span class="c1"># NOTICE: For now, we only keep the first sample in a cluster. Maybe</span>
-        <span class="c1"># there are some better strategies later.</span>
-        <span class="k">def</span> <span class="nf">_filter_simhash_dup_helper</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">visited_clusters</span><span class="p">,</span>
-                                       <span class="n">visited_hashes</span><span class="p">):</span>
-            <span class="n">sample_hash_val</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">simhash</span><span class="p">]</span>
-            <span class="k">if</span> <span class="n">sample_hash_val</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">hash2cluster</span><span class="p">:</span>
-                <span class="c1"># single-sample cluster, we need to check hash value still.</span>
-                <span class="k">if</span> <span class="n">sample_hash_val</span> <span class="ow">in</span> <span class="n">visited_hashes</span><span class="p">:</span>
-                    <span class="k">return</span> <span class="kc">False</span>
-                <span class="k">else</span><span class="p">:</span>
-                    <span class="n">visited_hashes</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">sample_hash_val</span><span class="p">)</span>
-                    <span class="k">return</span> <span class="kc">True</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">cluster_num</span> <span class="o">=</span> <span class="n">hash2cluster</span><span class="p">[</span><span class="n">sample_hash_val</span><span class="p">]</span>
-                <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> <span class="n">cluster_num</span> <span class="ow">in</span> <span class="n">dup_pairs</span> \
-                        <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">dup_pairs</span><span class="p">[</span><span class="n">cluster_num</span><span class="p">])</span> <span class="o">&lt;</span> <span class="mi">2</span><span class="p">:</span>
-                    <span class="n">dup_pairs</span><span class="p">[</span><span class="n">cluster_num</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
-                <span class="c1"># regular cluster, check cluster number.</span>
-                <span class="k">if</span> <span class="n">cluster_num</span> <span class="ow">in</span> <span class="n">visited_clusters</span><span class="p">:</span>
-                    <span class="k">return</span> <span class="kc">False</span>
-                <span class="k">else</span><span class="p">:</span>
-                    <span class="n">visited_clusters</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">cluster_num</span><span class="p">)</span>
-                    <span class="k">return</span> <span class="kc">True</span>
-
-        <span class="n">cluster_record</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-        <span class="n">hash_record</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
-        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span>
-            <span class="n">_filter_simhash_dup_helper</span><span class="p">,</span>
-            <span class="n">fn_kwargs</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span><span class="n">visited_clusters</span><span class="o">=</span><span class="n">cluster_record</span><span class="p">,</span>
-                           <span class="n">visited_hashes</span><span class="o">=</span><span class="n">hash_record</span><span class="p">),</span>
-            <span class="n">load_from_cache_file</span><span class="o">=</span><span class="kc">False</span> <span class="k">if</span> <span class="n">show_num</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="k">else</span> <span class="kc">True</span><span class="p">)</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Keep </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span><span class="si">}</span><span class="s1"> samples after SimHash dedup.&#39;</span><span class="p">)</span>
-
-        <span class="k">return</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">dup_pairs</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/alphanumeric_filter.html b/_modules/data_juicer/ops/filter/alphanumeric_filter.html
deleted file mode 100644
index a7093eeca..000000000
--- a/_modules/data_juicer/ops/filter/alphanumeric_filter.html
+++ /dev/null
@@ -1,183 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.alphanumeric_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.alphanumeric_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.alphanumeric_filter</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">sys</span>
-
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">PositiveFloat</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.model_utils</span> <span class="kn">import</span> <span class="n">prepare_model</span><span class="p">,</span> <span class="n">get_model</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-<span class="kn">from</span> <span class="nn">..common</span> <span class="kn">import</span> <span class="n">get_words_from_document</span>
-
-
-<div class="viewcode-block" id="AlphanumericFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;alphanumeric_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">AlphanumericFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with alphabet/numeric ratio within a specific</span>
-<span class="sd">    range.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.25</span><span class="p">,</span>
-                 <span class="n">max_ratio</span><span class="p">:</span> <span class="n">PositiveFloat</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param tokenization: Whether to count the ratio of alphanumeric</span>
-<span class="sd">            to the total number of tokens. if tokenization=False, it</span>
-<span class="sd">            will count the ratio of alphanumeric to the total number of</span>
-<span class="sd">            characters.</span>
-<span class="sd">        :param min_ratio: The min filter ratio in alphanumeric op,</span>
-<span class="sd">            samples will be filtered if their alphabet/numeric ratio is</span>
-<span class="sd">            below this parameter.</span>
-<span class="sd">        :param max_ratio: The max filter ratio in alphanumeric op,</span>
-<span class="sd">            samples will be filtered if their alphabet/numeric ratio</span>
-<span class="sd">            exceeds this parameter.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">=</span> <span class="n">tokenization</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">min_ratio</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="kc">None</span>
-
-        <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
-                <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
-                <span class="n">model_key</span><span class="o">=</span><span class="s1">&#39;EleutherAI/pythia-6.9b-deduped&#39;</span><span class="p">)</span>
-
-<div class="viewcode-block" id="AlphanumericFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span><span class="p">:</span>
-            <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">alpha_token_ratio</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
-                <span class="k">return</span> <span class="n">sample</span>
-            <span class="n">alpha_count</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span>
-                <span class="nb">map</span><span class="p">(</span><span class="k">lambda</span> <span class="n">char</span><span class="p">:</span> <span class="mi">1</span>
-                    <span class="k">if</span> <span class="n">char</span><span class="o">.</span><span class="n">isalpha</span><span class="p">()</span> <span class="k">else</span> <span class="mi">0</span><span class="p">,</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]))</span>
-            <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">)</span>
-            <span class="n">token_count</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span>
-                <span class="n">get_words_from_document</span><span class="p">(</span>
-                    <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                    <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">tokenize</span> <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">))</span>
-            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">alpha_token_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
-                <span class="n">alpha_count</span> <span class="o">/</span> <span class="n">token_count</span><span class="p">)</span> <span class="k">if</span> <span class="n">token_count</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">alnum_ratio</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
-                <span class="k">return</span> <span class="n">sample</span>
-            <span class="n">alnum_count</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span>
-                <span class="nb">map</span><span class="p">(</span><span class="k">lambda</span> <span class="n">char</span><span class="p">:</span> <span class="mi">1</span>
-                    <span class="k">if</span> <span class="n">char</span><span class="o">.</span><span class="n">isalnum</span><span class="p">()</span> <span class="k">else</span> <span class="mi">0</span><span class="p">,</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]))</span>
-            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">alnum_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
-                <span class="n">alnum_count</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]))</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span>
-                    <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="AlphanumericFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="n">ratio</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
-            <span class="n">StatsKeys</span><span class="o">.</span><span class="n">alpha_token_ratio</span><span class="p">]</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="k">else</span> <span class="n">sample</span><span class="p">[</span>
-                <span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">alnum_ratio</span><span class="p">]</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> <span class="n">ratio</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">True</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">False</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/average_line_length_filter.html b/_modules/data_juicer/ops/filter/average_line_length_filter.html
deleted file mode 100644
index fb32b60f3..000000000
--- a/_modules/data_juicer/ops/filter/average_line_length_filter.html
+++ /dev/null
@@ -1,161 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.average_line_length_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.average_line_length_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.average_line_length_filter</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">sys</span>
-
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">PositiveInt</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span><span class="p">,</span> <span class="n">InterVars</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-<span class="kn">from</span> <span class="nn">..op_fusion</span> <span class="kn">import</span> <span class="n">INTER_LINES</span>
-
-
-<div class="viewcode-block" id="AverageLineLengthFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;average_line_length_filter&#39;</span><span class="p">)</span>
-<span class="nd">@INTER_LINES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;average_line_length_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">AverageLineLengthFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with average line length within a specific</span>
-<span class="sd">    range.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">min_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
-                 <span class="n">max_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param min_len: The min filter length in this op, samples will</span>
-<span class="sd">            be filtered if their average line length is below this</span>
-<span class="sd">            parameter.</span>
-<span class="sd">        :param max_len: The max filter length in this op, samples will</span>
-<span class="sd">            be filtered if their average line length exceeds this</span>
-<span class="sd">            parameter.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">=</span> <span class="n">min_len</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span>
-
-<div class="viewcode-block" id="AverageLineLengthFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-        <span class="c1"># check if it&#39;s computed already</span>
-        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">avg_line_length</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">context_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">lines</span><span class="si">}</span><span class="s1">&#39;</span>
-        <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">context_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
-            <span class="n">lines</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">context_key</span><span class="p">]</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">lines</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span><span class="o">.</span><span class="n">splitlines</span><span class="p">()</span>
-            <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
-                <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">context_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">lines</span>
-        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">avg_line_length</span><span class="p">]</span> <span class="o">=</span> \
-            <span class="nb">len</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">lines</span><span class="p">)</span> \
-            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">lines</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="AverageLineLengthFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
-                <span class="n">StatsKeys</span><span class="o">.</span><span class="n">avg_line_length</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">True</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">False</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/character_repetition_filter.html b/_modules/data_juicer/ops/filter/character_repetition_filter.html
deleted file mode 100644
index 675915560..000000000
--- a/_modules/data_juicer/ops/filter/character_repetition_filter.html
+++ /dev/null
@@ -1,178 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.character_repetition_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.character_repetition_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.character_repetition_filter</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">ClosedUnitInterval</span><span class="p">,</span> <span class="n">PositiveInt</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-
-
-<div class="viewcode-block" id="CharacterRepetitionFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;character_repetition_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">CharacterRepetitionFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with char-level n-gram repetition ratio within a</span>
-<span class="sd">    \ specific range.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">rep_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
-                 <span class="n">min_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
-                 <span class="n">max_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param rep_len: Repetition length for char-level n-gram.</span>
-<span class="sd">        :param min_ratio: The min filter ratio in this op, samples will</span>
-<span class="sd">            be filtered if their char-level n-gram repetition ratio is</span>
-<span class="sd">            below this parameter.</span>
-<span class="sd">        :param max_ratio: The max filter ratio in this op, samples will</span>
-<span class="sd">            be filtered if their char-level n-gram repetition ratio</span>
-<span class="sd">            exceeds this parameter.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">n</span> <span class="o">=</span> <span class="n">rep_len</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">min_ratio</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span>
-
-<div class="viewcode-block" id="CharacterRepetitionFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="c1"># check if it&#39;s computed already</span>
-        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">char_rep_ratio</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">char_ngrams</span> <span class="o">=</span> <span class="p">[</span>
-            <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">n</span><span class="p">]</span>
-            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">n</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span>
-        <span class="p">]</span>
-        <span class="n">freq_char_ngrams</span> <span class="o">=</span> <span class="p">{}</span>
-        <span class="k">for</span> <span class="n">char_ngram</span> <span class="ow">in</span> <span class="n">char_ngrams</span><span class="p">:</span>
-            <span class="n">freq_char_ngrams</span><span class="p">[</span><span class="n">char_ngram</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
-                <span class="n">freq_char_ngrams</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">char_ngram</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">freq_char_ngrams</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">char_rep_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="mf">0.0</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">freq_char_ngrams</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="n">freq_char_ngrams</span><span class="o">.</span><span class="n">values</span><span class="p">()),</span>
-                                  <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-        <span class="n">rep_more_than_one</span> <span class="o">=</span> <span class="nb">len</span><span class="p">([</span><span class="n">el</span> <span class="k">for</span> <span class="n">el</span> <span class="ow">in</span> <span class="n">freq_char_ngrams</span> <span class="k">if</span> <span class="n">el</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">])</span>
-        <span class="n">num_rep_char_ngrams</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span>
-            <span class="nb">int</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">freq_char_ngrams</span><span class="p">))),</span>
-            <span class="nb">len</span><span class="p">(</span><span class="n">freq_char_ngrams</span><span class="p">)</span> <span class="o">-</span> <span class="n">rep_more_than_one</span><span class="p">,</span>
-        <span class="p">)</span>
-        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">char_rep_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="nb">sum</span><span class="p">(</span>
-            <span class="n">freq_char_ngrams</span><span class="p">[:</span><span class="n">num_rep_char_ngrams</span><span class="p">])</span> <span class="o">/</span> <span class="nb">sum</span><span class="p">(</span><span class="n">freq_char_ngrams</span><span class="p">))</span> \
-            <span class="k">if</span> <span class="nb">sum</span><span class="p">(</span><span class="n">freq_char_ngrams</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="CharacterRepetitionFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">char_rep_ratio</span><span class="p">]</span> \
-                <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">True</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">False</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/flagged_words_filter.html b/_modules/data_juicer/ops/filter/flagged_words_filter.html
deleted file mode 100644
index ae479c942..000000000
--- a/_modules/data_juicer/ops/filter/flagged_words_filter.html
+++ /dev/null
@@ -1,223 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.flagged_words_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.flagged_words_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.flagged_words_filter</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">ClosedUnitInterval</span><span class="p">,</span> <span class="n">List</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span><span class="p">,</span> <span class="n">InterVars</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.model_utils</span> <span class="kn">import</span> <span class="n">prepare_model</span><span class="p">,</span> <span class="n">get_model</span>
-
-<span class="kn">from</span> <span class="nn">...utils.asset_utils</span> <span class="kn">import</span> <span class="n">ASSET_DIR</span><span class="p">,</span> <span class="n">load_words_asset</span>
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-<span class="kn">from</span> <span class="nn">..op_fusion</span> <span class="kn">import</span> <span class="n">INTER_WORDS</span>
-<span class="kn">from</span> <span class="nn">..common</span> <span class="kn">import</span> <span class="p">(</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span> <span class="n">get_words_from_document</span><span class="p">,</span>
-                      <span class="n">words_refinement</span><span class="p">)</span>
-
-
-<div class="viewcode-block" id="FlaggedWordFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;flagged_words_filter&#39;</span><span class="p">)</span>
-<span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;flagged_words_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">FlaggedWordFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with flagged-word ratio less than a specific max</span>
-<span class="sd">    value.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
-                 <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="n">max_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.045</span><span class="p">,</span>
-                 <span class="n">flagged_words_dir</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">ASSET_DIR</span><span class="p">,</span>
-                 <span class="n">use_words_aug</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="n">words_aug_group_sizes</span><span class="p">:</span> <span class="n">List</span> <span class="o">=</span> <span class="p">[</span><span class="mi">2</span><span class="p">],</span>
-                 <span class="n">words_aug_join_char</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param lang: Consider flagged words in what language. If lang ==</span>
-<span class="sd">            &quot;all&quot;, we will adopt the one merged from all the available</span>
-<span class="sd">            languages</span>
-<span class="sd">        :param tokenization: Whether to use model to tokenize documents</span>
-<span class="sd">        :param max_ratio: The max filter ratio in this op.</span>
-<span class="sd">        :param flagged_words_dir: The directory storing the</span>
-<span class="sd">            flagged_words file(s) whose name includes &quot;flagged_words&quot;</span>
-<span class="sd">            and in json format</span>
-<span class="sd">        :param use_words_aug: Whether to augment words, especially for</span>
-<span class="sd">            Chinese and Vietnamese</span>
-<span class="sd">        :param words_aug_group_sizes: The group size of words to augment</span>
-<span class="sd">        :param words_aug_join_char: The join char between words to</span>
-<span class="sd">            augment</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">use_words_aug</span> <span class="o">=</span> <span class="n">use_words_aug</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">words_aug_group_sizes</span> <span class="o">=</span> <span class="n">words_aug_group_sizes</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">words_aug_join_char</span> <span class="o">=</span> <span class="n">words_aug_join_char</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">FLAGGED_WORDS</span> <span class="o">=</span> <span class="n">load_words_asset</span><span class="p">(</span><span class="n">words_dir</span><span class="o">=</span><span class="n">flagged_words_dir</span><span class="p">,</span>
-                                              <span class="n">words_type</span><span class="o">=</span><span class="s1">&#39;flagged_words&#39;</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="s1">&#39;all&#39;</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">FLAGGED_WORDS</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">FLAGGED_WORDS</span><span class="p">[</span><span class="s1">&#39;all&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
-                <span class="n">val</span> <span class="k">for</span> <span class="n">vals</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">FLAGGED_WORDS</span><span class="o">.</span><span class="n">values</span><span class="p">()</span> <span class="k">for</span> <span class="n">val</span> <span class="ow">in</span> <span class="n">vals</span>
-            <span class="p">]</span>
-        <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span>
-                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
-
-<div class="viewcode-block" id="FlaggedWordFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-        <span class="c1"># check if it&#39;s computed already</span>
-        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">flagged_words_ratio</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="c1"># try to get words from context</span>
-        <span class="n">words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">words</span><span class="si">}</span><span class="s1">-</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="si">}</span><span class="s1">&#39;</span>
-        <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">words_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">lang</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">,</span>
-                                                <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">get_words_from_document</span><span class="p">(</span>
-                <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode_as_pieces</span> <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
-                <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
-
-        <span class="c1"># try to get refined words from context</span>
-        <span class="n">refined_words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">refined_words</span><span class="si">}</span><span class="s1">-True-SPECIAL_CHARS-&#39;</span> \
-                            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">use_words_aug</span><span class="si">}</span><span class="s1">-&#39;</span> \
-                            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_group_sizes</span><span class="si">}</span><span class="s1">-&#39;</span> \
-                            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_join_char</span><span class="si">}</span><span class="s1">&#39;</span>
-        <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">refined_words_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">refined_words_key</span><span class="p">]</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">words_refinement</span><span class="p">(</span>
-                <span class="n">words</span><span class="p">,</span>
-                <span class="n">lower_case</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-                <span class="n">strip_chars</span><span class="o">=</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span>
-                <span class="n">use_words_aug</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">use_words_aug</span><span class="p">,</span>
-                <span class="n">words_aug_group_sizes</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_group_sizes</span><span class="p">,</span>
-                <span class="n">words_aug_join_char</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_join_char</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
-                <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">refined_words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
-
-        <span class="n">flagged_words_ratio</span> <span class="o">=</span> <span class="p">(</span><span class="nb">len</span><span class="p">(</span>
-            <span class="p">[</span><span class="n">word</span>
-             <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">words</span> <span class="k">if</span> <span class="n">word</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">FLAGGED_WORDS</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">]])</span> <span class="o">/</span>
-                               <span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">))</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
-
-        <span class="k">if</span> <span class="n">flagged_words_ratio</span> <span class="o">&gt;</span> <span class="mf">1.0</span><span class="p">:</span>
-            <span class="n">flagged_words_ratio</span> <span class="o">=</span> <span class="mf">1.0</span>
-
-        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
-            <span class="n">StatsKeys</span><span class="o">.</span><span class="n">flagged_words_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="n">flagged_words_ratio</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="FlaggedWordFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
-            <span class="n">StatsKeys</span><span class="o">.</span><span class="n">flagged_words_ratio</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/language_id_score_filter.html b/_modules/data_juicer/ops/filter/language_id_score_filter.html
deleted file mode 100644
index 2ffcbafc5..000000000
--- a/_modules/data_juicer/ops/filter/language_id_score_filter.html
+++ /dev/null
@@ -1,161 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.language_id_score_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.language_id_score_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.language_id_score_filter</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">ClosedUnitInterval</span>
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.model_utils</span> <span class="kn">import</span> <span class="n">prepare_model</span><span class="p">,</span> <span class="n">get_model</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-
-
-<div class="viewcode-block" id="LanguageIDScoreFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;language_id_score_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">LanguageIDScoreFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples in a specific language with confidence score</span>
-<span class="sd">    larger than a specific min value.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
-                 <span class="n">min_score</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.8</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param lang: Samples in which language to keep.</span>
-<span class="sd">        :param min_score: The min language identification confidence</span>
-<span class="sd">            scores of samples to keep.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">=</span> <span class="n">min_score</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;fasttext&#39;</span><span class="p">)</span>
-
-<div class="viewcode-block" id="LanguageIDScoreFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="c1"># check if it&#39;s computed already</span>
-        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span>
-                <span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span> <span class="ow">and</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang_score</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">,</span> <span class="s1">&#39; &#39;</span><span class="p">)</span>
-        <span class="n">ft_model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">lang</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;fasttext&#39;</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">ft_model</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">err_msg</span> <span class="o">=</span> <span class="s1">&#39;Model not loaded. Please retry later.&#39;</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span><span class="n">err_msg</span><span class="p">)</span>
-            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="n">err_msg</span><span class="p">)</span>
-        <span class="n">pred</span> <span class="o">=</span> <span class="n">ft_model</span><span class="o">.</span><span class="n">predict</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
-        <span class="n">lang_id</span> <span class="o">=</span> <span class="n">pred</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;__label__&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span>
-        <span class="n">lang_score</span> <span class="o">=</span> <span class="n">pred</span><span class="p">[</span><span class="mi">1</span><span class="p">][</span><span class="mi">0</span><span class="p">]</span>
-
-        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang</span><span class="p">]</span> <span class="o">=</span> <span class="n">lang_id</span>
-        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang_score</span><span class="p">]</span> <span class="o">=</span> <span class="n">lang_score</span>
-
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="LanguageIDScoreFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> \
-                   <span class="ow">and</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang_score</span><span class="p">]</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang_score</span><span class="p">]</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/maximum_line_length_filter.html b/_modules/data_juicer/ops/filter/maximum_line_length_filter.html
deleted file mode 100644
index dafe68c56..000000000
--- a/_modules/data_juicer/ops/filter/maximum_line_length_filter.html
+++ /dev/null
@@ -1,161 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.maximum_line_length_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.maximum_line_length_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.maximum_line_length_filter</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">sys</span>
-
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">PositiveInt</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span><span class="p">,</span> <span class="n">InterVars</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-<span class="kn">from</span> <span class="nn">..op_fusion</span> <span class="kn">import</span> <span class="n">INTER_LINES</span>
-
-
-<div class="viewcode-block" id="MaximumLineLengthFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;maximum_line_length_filter&#39;</span><span class="p">)</span>
-<span class="nd">@INTER_LINES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;maximum_line_length_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">MaximumLineLengthFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with maximum line length within a specific</span>
-<span class="sd">    range.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">min_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
-                 <span class="n">max_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param min_len: The min filter length in this op, samples will</span>
-<span class="sd">            be filtered if their maximum line length is below this</span>
-<span class="sd">            parameter.</span>
-<span class="sd">        :param max_len: The max filter length in this op, samples will</span>
-<span class="sd">            be filtered if their maximum line length exceeds this</span>
-<span class="sd">            parameter.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">=</span> <span class="n">min_len</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span>
-
-<div class="viewcode-block" id="MaximumLineLengthFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-        <span class="c1"># check if it&#39;s computed already</span>
-        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">max_line_length</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">context_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">lines</span><span class="si">}</span><span class="s1">&#39;</span>
-        <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">context_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
-            <span class="n">lines</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">context_key</span><span class="p">]</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">lines</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span><span class="o">.</span><span class="n">splitlines</span><span class="p">()</span>
-            <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
-                <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">context_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">lines</span>
-        <span class="n">line_lengths</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">map</span><span class="p">(</span><span class="nb">len</span><span class="p">,</span> <span class="n">lines</span><span class="p">))</span>
-        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">max_line_length</span><span class="p">]</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span>
-            <span class="n">line_lengths</span><span class="p">)</span> <span class="k">if</span> <span class="n">line_lengths</span> <span class="k">else</span> <span class="mf">0.0</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="MaximumLineLengthFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
-                <span class="n">StatsKeys</span><span class="o">.</span><span class="n">max_line_length</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">True</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">False</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/perplexity_filter.html b/_modules/data_juicer/ops/filter/perplexity_filter.html
deleted file mode 100644
index 3d52be318..000000000
--- a/_modules/data_juicer/ops/filter/perplexity_filter.html
+++ /dev/null
@@ -1,172 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.perplexity_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.perplexity_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.perplexity_filter</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">PositiveFloat</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span><span class="p">,</span> <span class="n">InterVars</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.model_utils</span> <span class="kn">import</span> <span class="n">prepare_model</span><span class="p">,</span> <span class="n">get_model</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-<span class="kn">from</span> <span class="nn">..op_fusion</span> <span class="kn">import</span> <span class="n">INTER_WORDS</span>
-<span class="kn">from</span> <span class="nn">..common</span> <span class="kn">import</span> <span class="n">get_words_from_document</span>
-
-
-<div class="viewcode-block" id="PerplexityFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;perplexity_filter&#39;</span><span class="p">)</span>
-<span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;perplexity_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">PerplexityFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with perplexity score less than a specific max</span>
-<span class="sd">    value.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
-                 <span class="n">max_ppl</span><span class="p">:</span> <span class="n">PositiveFloat</span> <span class="o">=</span> <span class="mi">1500</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param lang: Compute perplexity for samples in which language.</span>
-<span class="sd">        :param max_ppl: The max filter perplexity in this op, samples</span>
-<span class="sd">            will be filtered if their perplexity exceeds this parameter.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_ppl</span> <span class="o">=</span> <span class="n">max_ppl</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">sp_model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span>
-                                          <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">kl_model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;kenlm&#39;</span><span class="p">)</span>
-
-<div class="viewcode-block" id="PerplexityFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-        <span class="c1"># check if it&#39;s computed already</span>
-        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">perplexity</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="c1"># tokenization</span>
-        <span class="n">words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">words</span><span class="si">}</span><span class="s1">-</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">sp_model_key</span><span class="si">}</span><span class="s1">&#39;</span>
-        <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">words_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">sp_model_key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">,</span> <span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">get_words_from_document</span><span class="p">(</span>
-                <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode_as_pieces</span> <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
-                <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
-        <span class="n">text</span> <span class="o">=</span> <span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">words</span><span class="p">)</span>
-        <span class="c1"># compute perplexity</span>
-        <span class="n">logits</span><span class="p">,</span> <span class="n">length</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span>
-        <span class="n">kenlm_model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">kl_model_key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">,</span> <span class="s1">&#39;kenlm&#39;</span><span class="p">)</span>
-        <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">text</span><span class="o">.</span><span class="n">splitlines</span><span class="p">():</span>
-            <span class="n">logits</span> <span class="o">+=</span> <span class="n">kenlm_model</span><span class="o">.</span><span class="n">score</span><span class="p">(</span><span class="n">line</span><span class="p">)</span>
-            <span class="n">length</span> <span class="o">+=</span> <span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">line</span><span class="o">.</span><span class="n">split</span><span class="p">())</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span>
-        <span class="n">ppl</span> <span class="o">=</span> <span class="p">(</span><span class="mf">10.0</span><span class="o">**</span><span class="p">(</span><span class="o">-</span><span class="n">logits</span> <span class="o">/</span> <span class="n">length</span><span class="p">))</span> <span class="k">if</span> <span class="n">length</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
-        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">perplexity</span><span class="p">]</span> <span class="o">=</span> <span class="nb">round</span><span class="p">(</span><span class="n">ppl</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
-
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="PerplexityFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">perplexity</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ppl</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/special_characters_filter.html b/_modules/data_juicer/ops/filter/special_characters_filter.html
deleted file mode 100644
index d2a5e6767..000000000
--- a/_modules/data_juicer/ops/filter/special_characters_filter.html
+++ /dev/null
@@ -1,158 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.special_characters_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.special_characters_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.special_characters_filter</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">ClosedUnitInterval</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-<span class="kn">from</span> <span class="nn">..common</span> <span class="kn">import</span> <span class="n">SPECIAL_CHARACTERS</span>
-
-
-<div class="viewcode-block" id="SpecialCharactersFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;special_characters_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">SpecialCharactersFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with special-char ratio within a specific</span>
-<span class="sd">    range.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">min_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
-                 <span class="n">max_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.25</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param min_ratio: The min filter ratio in this op, samples will</span>
-<span class="sd">            be filtered if their special-char ratio is below this</span>
-<span class="sd">            parameter.</span>
-<span class="sd">        :param max_ratio: The max filter ratio in this op, samples will</span>
-<span class="sd">            be filtered if their special-char ratio exceeds this</span>
-<span class="sd">            parameter.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">min_ratio</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span>
-
-<div class="viewcode-block" id="SpecialCharactersFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="c1"># check if it&#39;s computed already</span>
-        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">special_char_ratio</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="c1"># get ratio of special characters</span>
-        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">special_char_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
-            <span class="nb">len</span><span class="p">([</span><span class="n">c</span>
-                 <span class="k">for</span> <span class="n">c</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="k">if</span> <span class="n">c</span> <span class="ow">in</span> <span class="n">SPECIAL_CHARACTERS</span><span class="p">])</span> <span class="o">/</span>
-            <span class="nb">len</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]))</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span>
-                <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="SpecialCharactersFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">special_char_ratio</span><span class="p">]</span> \
-                <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">True</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">False</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/specified_field_filter.html b/_modules/data_juicer/ops/filter/specified_field_filter.html
deleted file mode 100644
index 76d98d2f1..000000000
--- a/_modules/data_juicer/ops/filter/specified_field_filter.html
+++ /dev/null
@@ -1,156 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.specified_field_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.specified_field_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.specified_field_filter</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-
-
-<div class="viewcode-block" id="SpecifiedFieldFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;specified_field_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">SpecifiedFieldFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Filter based on specified field information.</span>
-
-<span class="sd">    If the specified field information in the sample is not within the</span>
-<span class="sd">    specified target value, the sample will be filtered.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
-                 <span class="n">target_value</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">List</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">]</span> <span class="o">=</span> <span class="p">[],</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param field_key: Filter based on the specified value</span>
-<span class="sd">            corresponding to the target key. The target key</span>
-<span class="sd">            corresponding to multi-level field information need to be</span>
-<span class="sd">            separated by &#39;.&#39;.</span>
-<span class="sd">        :param target_value: The range of specified field information</span>
-<span class="sd">            corresponding to the samples that need to be retained.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="o">=</span> <span class="n">field_key</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">target_value</span> <span class="o">=</span> <span class="n">target_value</span>
-
-<div class="viewcode-block" id="SpecifiedFieldFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="SpecifiedFieldFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">target_value</span><span class="p">):</span>
-            <span class="k">return</span> <span class="kc">True</span>
-
-        <span class="n">field_value</span> <span class="o">=</span> <span class="n">sample</span>
-        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">):</span>
-            <span class="k">assert</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">(),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
-                <span class="n">key</span><span class="p">,</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
-            <span class="n">field_value</span> <span class="o">=</span> <span class="n">field_value</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
-
-        <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span><span class="nb">isinstance</span><span class="p">(</span><span class="n">field_value</span><span class="p">,</span> <span class="nb">list</span><span class="p">)</span>
-                <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">field_value</span><span class="p">,</span> <span class="nb">tuple</span><span class="p">)):</span>
-            <span class="n">field_value</span> <span class="o">=</span> <span class="p">[</span><span class="n">field_value</span><span class="p">]</span>
-        <span class="k">for</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">field_value</span><span class="p">:</span>
-            <span class="k">if</span> <span class="n">value</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">target_value</span><span class="p">:</span>
-                <span class="k">return</span> <span class="kc">False</span>
-        <span class="k">return</span> <span class="kc">True</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/specified_numeric_field_filter.html b/_modules/data_juicer/ops/filter/specified_numeric_field_filter.html
deleted file mode 100644
index 3a8325c2c..000000000
--- a/_modules/data_juicer/ops/filter/specified_numeric_field_filter.html
+++ /dev/null
@@ -1,170 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.specified_numeric_field_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.specified_numeric_field_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.specified_numeric_field_filter</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">sys</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-
-
-<div class="viewcode-block" id="is_number"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.is_number">[docs]</a><span class="k">def</span> <span class="nf">is_number</span><span class="p">(</span><span class="n">s</span><span class="p">):</span>
-    <span class="k">if</span> <span class="n">s</span><span class="p">:</span>
-        <span class="k">try</span><span class="p">:</span>
-            <span class="nb">float</span><span class="p">(</span><span class="n">s</span><span class="p">)</span>
-            <span class="k">return</span> <span class="kc">True</span>
-        <span class="k">except</span> <span class="ne">ValueError</span><span class="p">:</span>
-            <span class="k">pass</span>
-    <span class="k">return</span> <span class="kc">False</span></div>
-
-
-<div class="viewcode-block" id="SpecifiedNumericFieldFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;specified_numeric_field_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">SpecifiedNumericFieldFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Filter based on specified numeric field information.</span>
-
-<span class="sd">    If the specified numeric information in the sample is not within the</span>
-<span class="sd">    specified range, the sample will be filtered.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
-                 <span class="n">min_value</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="o">-</span><span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
-                 <span class="n">max_value</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param field_key: Filter based on the specified numeric value</span>
-<span class="sd">            corresponding to the target key. The target key</span>
-<span class="sd">            corresponding to multi-level field information need to be</span>
-<span class="sd">            separated by &#39;.&#39;.</span>
-<span class="sd">        :param min_value: The min filter value in SpecifiedNumericField</span>
-<span class="sd">            op, samples will be filtered if their specified numeric</span>
-<span class="sd">            field value is below this parameter.</span>
-<span class="sd">        :param max_value: The max filter value in SpecifiedNumericField</span>
-<span class="sd">            op, samples will be filtered if their specified numeric</span>
-<span class="sd">            field value exceeds this parameter.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="o">=</span> <span class="n">field_key</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">min_value</span> <span class="o">=</span> <span class="n">min_value</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_value</span> <span class="o">=</span> <span class="n">max_value</span>
-
-<div class="viewcode-block" id="SpecifiedNumericFieldFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="SpecifiedNumericFieldFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">True</span>
-
-        <span class="n">field_value</span> <span class="o">=</span> <span class="n">sample</span>
-        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">):</span>
-            <span class="k">assert</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">(),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
-                <span class="n">key</span><span class="p">,</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
-            <span class="n">field_value</span> <span class="o">=</span> <span class="n">field_value</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
-
-        <span class="k">if</span> <span class="n">is_number</span><span class="p">(</span><span class="n">field_value</span><span class="p">):</span>
-            <span class="n">field_value</span> <span class="o">=</span> <span class="nb">float</span><span class="p">(</span><span class="n">field_value</span><span class="p">)</span>
-            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_value</span> <span class="o">&lt;=</span> <span class="n">field_value</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_value</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">False</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/stopwords_filter.html b/_modules/data_juicer/ops/filter/stopwords_filter.html
deleted file mode 100644
index b1e25c03b..000000000
--- a/_modules/data_juicer/ops/filter/stopwords_filter.html
+++ /dev/null
@@ -1,221 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.stopwords_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.stopwords_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.stopwords_filter</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">ClosedUnitInterval</span><span class="p">,</span> <span class="n">List</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.asset_utils</span> <span class="kn">import</span> <span class="n">ASSET_DIR</span><span class="p">,</span> <span class="n">load_words_asset</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span><span class="p">,</span> <span class="n">InterVars</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.model_utils</span> <span class="kn">import</span> <span class="n">prepare_model</span><span class="p">,</span> <span class="n">get_model</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-<span class="kn">from</span> <span class="nn">..op_fusion</span> <span class="kn">import</span> <span class="n">INTER_WORDS</span>
-<span class="kn">from</span> <span class="nn">..common</span> <span class="kn">import</span> <span class="p">(</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span> <span class="n">get_words_from_document</span><span class="p">,</span>
-                      <span class="n">words_refinement</span><span class="p">)</span>
-
-
-<div class="viewcode-block" id="StopWordsFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;stopwords_filter&#39;</span><span class="p">)</span>
-<span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;stopwords_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">StopWordsFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with stopword ratio larger than a specific min</span>
-<span class="sd">    value.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
-                 <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="n">min_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.3</span><span class="p">,</span>
-                 <span class="n">stopwords_dir</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">ASSET_DIR</span><span class="p">,</span>
-                 <span class="n">use_words_aug</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="n">words_aug_group_sizes</span><span class="p">:</span> <span class="n">List</span> <span class="o">=</span> <span class="p">[</span><span class="mi">2</span><span class="p">],</span>
-                 <span class="n">words_aug_join_char</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param lang: Consider stopwords in what language. If lang ==</span>
-<span class="sd">            &quot;all&quot;, we will adopt the one merged from all the available</span>
-<span class="sd">            languages</span>
-<span class="sd">        :param tokenization: whether to use model to tokenize documents</span>
-<span class="sd">        :param min_ratio: The min filter ratio in this op.</span>
-<span class="sd">        :param stopwords_dir: The directory storing the stopwords</span>
-<span class="sd">            file(s) whose name includes &quot;stopwords&quot; and in json format</span>
-<span class="sd">        :param use_words_aug: Whether to augment words, especially for</span>
-<span class="sd">            Chinese and Vietnamese</span>
-<span class="sd">        :param words_aug_group_sizes: The group size of words to augment</span>
-<span class="sd">        :param words_aug_join_char: The join char between words to</span>
-<span class="sd">            augment</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">min_ratio</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">use_words_aug</span> <span class="o">=</span> <span class="n">use_words_aug</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">words_aug_group_sizes</span> <span class="o">=</span> <span class="n">words_aug_group_sizes</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">words_aug_join_char</span> <span class="o">=</span> <span class="n">words_aug_join_char</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">STOPWORDS</span> <span class="o">=</span> <span class="n">load_words_asset</span><span class="p">(</span><span class="n">words_dir</span><span class="o">=</span><span class="n">stopwords_dir</span><span class="p">,</span>
-                                          <span class="n">words_type</span><span class="o">=</span><span class="s1">&#39;stopwords&#39;</span><span class="p">)</span>
-        <span class="k">if</span> <span class="s1">&#39;all&#39;</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">STOPWORDS</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">STOPWORDS</span><span class="p">[</span><span class="s1">&#39;all&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
-                <span class="n">val</span> <span class="k">for</span> <span class="n">vals</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">STOPWORDS</span><span class="o">.</span><span class="n">values</span><span class="p">()</span> <span class="k">for</span> <span class="n">val</span> <span class="ow">in</span> <span class="n">vals</span>
-            <span class="p">]</span>
-        <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span>
-                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
-
-<div class="viewcode-block" id="StopWordsFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-        <span class="c1"># check if it&#39;s computed already</span>
-        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">stopwords_ratio</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="c1"># try to get words from context</span>
-        <span class="n">words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">words</span><span class="si">}</span><span class="s1">-</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="si">}</span><span class="s1">&#39;</span>
-        <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">words_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">lang</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">,</span>
-                                            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">get_words_from_document</span><span class="p">(</span>
-                <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode_as_pieces</span> <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
-                <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
-
-        <span class="c1"># try to get refined words from context</span>
-        <span class="n">refined_words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">refined_words</span><span class="si">}</span><span class="s1">-True-SPECIAL_CHARS-&#39;</span> \
-                            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">use_words_aug</span><span class="si">}</span><span class="s1">-&#39;</span> \
-                            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_group_sizes</span><span class="si">}</span><span class="s1">-&#39;</span> \
-                            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_join_char</span><span class="si">}</span><span class="s1">&#39;</span>
-        <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">refined_words_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">refined_words_key</span><span class="p">]</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">words_refinement</span><span class="p">(</span>
-                <span class="n">words</span><span class="p">,</span>
-                <span class="n">lower_case</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-                <span class="n">strip_chars</span><span class="o">=</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span>
-                <span class="n">use_words_aug</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">use_words_aug</span><span class="p">,</span>
-                <span class="n">words_aug_group_sizes</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_group_sizes</span><span class="p">,</span>
-                <span class="n">words_aug_join_char</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">words_aug_join_char</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
-                <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">refined_words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
-
-        <span class="n">stopwords_ratio</span> <span class="o">=</span> <span class="p">(</span>
-                <span class="nb">len</span><span class="p">([</span><span class="n">word</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">words</span>
-                     <span class="k">if</span> <span class="n">word</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">STOPWORDS</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">]])</span>
-                <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">))</span> \
-            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
-
-        <span class="k">if</span> <span class="n">stopwords_ratio</span> <span class="o">&gt;</span> <span class="mf">1.0</span><span class="p">:</span>
-            <span class="n">stopwords_ratio</span> <span class="o">=</span> <span class="mf">1.0</span>
-
-        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">stopwords_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="n">stopwords_ratio</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="StopWordsFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
-            <span class="n">StatsKeys</span><span class="o">.</span><span class="n">stopwords_ratio</span><span class="p">]</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/suffix_filter.html b/_modules/data_juicer/ops/filter/suffix_filter.html
deleted file mode 100644
index 8c9cafa71..000000000
--- a/_modules/data_juicer/ops/filter/suffix_filter.html
+++ /dev/null
@@ -1,143 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.suffix_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.suffix_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.suffix_filter</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-
-
-<div class="viewcode-block" id="SuffixFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;suffix_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">SuffixFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with specified suffix.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">suffixes</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">[],</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param suffixes: the suffix of text that will be keep.</span>
-<span class="sd">            For example: &#39;.txt&#39;, &#39;txt&#39; or [&#39;txt&#39;, &#39;.pdf&#39;, &#39;docx&#39;]</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">suffixes</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span> <span class="o">=</span> <span class="p">[]</span>
-        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">suffixes</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span> <span class="o">=</span> <span class="p">[</span><span class="n">suffixes</span><span class="p">]</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span> <span class="o">=</span> <span class="n">suffixes</span>
-
-<div class="viewcode-block" id="SuffixFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="SuffixFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span><span class="p">:</span>
-            <span class="k">if</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">suffix</span><span class="p">]</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span><span class="p">:</span>
-                <span class="k">return</span> <span class="kc">True</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="k">return</span> <span class="kc">False</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">True</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/text_length_filter.html b/_modules/data_juicer/ops/filter/text_length_filter.html
deleted file mode 100644
index 2e1fd6053..000000000
--- a/_modules/data_juicer/ops/filter/text_length_filter.html
+++ /dev/null
@@ -1,150 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.text_length_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.text_length_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.text_length_filter</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">sys</span>
-
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">PositiveInt</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-
-
-<div class="viewcode-block" id="TextLengthFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;text_length_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">TextLengthFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with total text length within a specific</span>
-<span class="sd">    range.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">min_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
-                 <span class="n">max_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param min_len: The min text length in the filtering. samples</span>
-<span class="sd">            will be filtered if their text length is below this</span>
-<span class="sd">            parameter.</span>
-<span class="sd">        :param max_len: The max text length in the filtering. samples</span>
-<span class="sd">            will be filtered if their text length exceeds this</span>
-<span class="sd">            parameter.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">=</span> <span class="n">min_len</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span>
-
-<div class="viewcode-block" id="TextLengthFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="c1"># check if it&#39;s computed already</span>
-        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">text_len</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">text_len</span><span class="p">]</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="TextLengthFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
-                <span class="n">StatsKeys</span><span class="o">.</span><span class="n">text_len</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">True</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">False</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/word_num_filter.html b/_modules/data_juicer/ops/filter/word_num_filter.html
deleted file mode 100644
index 3b198b979..000000000
--- a/_modules/data_juicer/ops/filter/word_num_filter.html
+++ /dev/null
@@ -1,177 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.word_num_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.word_num_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.word_num_filter</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">sys</span>
-
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">PositiveInt</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span><span class="p">,</span> <span class="n">InterVars</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.model_utils</span> <span class="kn">import</span> <span class="n">prepare_model</span><span class="p">,</span> <span class="n">get_model</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-<span class="kn">from</span> <span class="nn">..op_fusion</span> <span class="kn">import</span> <span class="n">INTER_WORDS</span>
-<span class="kn">from</span> <span class="nn">..common</span> <span class="kn">import</span> <span class="p">(</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span> <span class="n">get_words_from_document</span><span class="p">,</span>
-                      <span class="n">words_refinement</span><span class="p">)</span>
-
-
-<div class="viewcode-block" id="WordNumFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;words_num_filter&#39;</span><span class="p">)</span>
-<span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;words_num_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">WordNumFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with total words number within a specific</span>
-<span class="sd">    range.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
-                 <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="n">min_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
-                 <span class="n">max_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param lang: sample in which language.</span>
-<span class="sd">        :param tokenization: whether to use model to tokenize documents</span>
-<span class="sd">        :param min_num: The min filter word number in this op, samples</span>
-<span class="sd">            will be filtered if their word number is below this</span>
-<span class="sd">            parameter.</span>
-<span class="sd">        :param max_num: The max filter word number in this op, samples</span>
-<span class="sd">            will be filtered if their word number exceeds this</span>
-<span class="sd">            parameter.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">min_num</span> <span class="o">=</span> <span class="n">min_num</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_num</span> <span class="o">=</span> <span class="n">max_num</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
-
-        <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span>
-                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
-
-<div class="viewcode-block" id="WordNumFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-        <span class="c1"># check if it&#39;s computed already</span>
-        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_words</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">words</span><span class="si">}</span><span class="s1">-</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="si">}</span><span class="s1">&#39;</span>
-        <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">words_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">lang</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">,</span>
-                                            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">get_words_from_document</span><span class="p">(</span>
-                <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode_as_pieces</span> <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
-                <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
-        <span class="n">words</span> <span class="o">=</span> <span class="n">words_refinement</span><span class="p">(</span><span class="n">words</span><span class="p">,</span> <span class="n">strip_chars</span><span class="o">=</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">)</span>
-        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_words</span><span class="p">]</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="WordNumFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_num</span> <span class="o">&lt;=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
-                <span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_words</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_num</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">True</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">False</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/filter/word_repetition_filter.html b/_modules/data_juicer/ops/filter/word_repetition_filter.html
deleted file mode 100644
index 57eeff82f..000000000
--- a/_modules/data_juicer/ops/filter/word_repetition_filter.html
+++ /dev/null
@@ -1,212 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter.word_repetition_filter &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter.word_repetition_filter</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.filter.word_repetition_filter</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">ClosedUnitInterval</span><span class="p">,</span> <span class="n">PositiveInt</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">StatsKeys</span><span class="p">,</span> <span class="n">InterVars</span>
-<span class="kn">from</span> <span class="nn">data_juicer.utils.model_utils</span> <span class="kn">import</span> <span class="n">prepare_model</span><span class="p">,</span> <span class="n">get_model</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
-<span class="kn">from</span> <span class="nn">..op_fusion</span> <span class="kn">import</span> <span class="n">INTER_WORDS</span>
-<span class="kn">from</span> <span class="nn">..common</span> <span class="kn">import</span> <span class="p">(</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span> <span class="n">get_words_from_document</span><span class="p">,</span>
-                      <span class="n">words_refinement</span><span class="p">)</span>
-
-
-<div class="viewcode-block" id="WordRepetitionFilter"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;word_repetition_filter&#39;</span><span class="p">)</span>
-<span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;word_repetition_filter&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">WordRepetitionFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with word-level n-gram repetition ratio within a</span>
-<span class="sd">    \ specific range.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
-                 <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="n">rep_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
-                 <span class="n">min_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
-                 <span class="n">max_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param lang: sample in which language.</span>
-<span class="sd">        :param tokenization: whether to use model to tokenize documents</span>
-<span class="sd">        :param rep_len: Repetition length for word-level n-gram.</span>
-<span class="sd">        :param min_ratio: The min filter ratio in this op, samples will</span>
-<span class="sd">            be filtered if their word-level n-gram repetition ratio is</span>
-<span class="sd">            below this parameter.</span>
-<span class="sd">        :param max_ratio: The max filter ratio in this op, samples will</span>
-<span class="sd">            be filtered if their word-level n-gram repetition ratio</span>
-<span class="sd">            exceeds this parameter.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">n</span> <span class="o">=</span> <span class="n">rep_len</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">min_ratio</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
-
-        <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span>
-                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
-
-<div class="viewcode-block" id="WordRepetitionFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-        <span class="c1"># check if it&#39;s computed already</span>
-        <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">word_rep_ratio</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="c1"># try to get words from context</span>
-        <span class="n">words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">words</span><span class="si">}</span><span class="s1">-</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="si">}</span><span class="s1">&#39;</span>
-        <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">words_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">lang</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">,</span>
-                                            <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">get_words_from_document</span><span class="p">(</span>
-                <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode_as_pieces</span> <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
-                <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
-
-        <span class="c1"># try to get refined words from context</span>
-        <span class="n">refined_words_key</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">InterVars</span><span class="o">.</span><span class="n">refined_words</span><span class="si">}</span><span class="s1">-True-SPECIAL_CHARS-&#39;</span> \
-                            <span class="sa">f</span><span class="s1">&#39;False-[2]-&#39;</span>
-        <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">refined_words_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">refined_words_key</span><span class="p">]</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="n">words_refinement</span><span class="p">(</span>
-                <span class="n">words</span><span class="p">,</span>
-                <span class="n">lower_case</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-                <span class="n">strip_chars</span><span class="o">=</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
-                <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">refined_words_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">words</span>
-        <span class="n">word_ngrams</span> <span class="o">=</span> <span class="p">[</span>
-            <span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">words</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">n</span><span class="p">])</span>
-            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">)</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">n</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span>
-        <span class="p">]</span>
-        <span class="n">freq_word_ngrams</span> <span class="o">=</span> <span class="p">{}</span>
-        <span class="k">for</span> <span class="n">word_ngram</span> <span class="ow">in</span> <span class="n">word_ngrams</span><span class="p">:</span>
-            <span class="n">freq_word_ngrams</span><span class="p">[</span><span class="n">word_ngram</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
-                <span class="n">freq_word_ngrams</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">word_ngram</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">freq_word_ngrams</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-            <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">word_rep_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="mf">0.0</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">freq_word_ngrams</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">freq_word_ngrams</span><span class="o">.</span><span class="n">values</span><span class="p">())</span>
-        <span class="n">rep_more_than_one</span> <span class="o">=</span> <span class="p">[</span><span class="n">freq</span> <span class="k">for</span> <span class="n">freq</span> <span class="ow">in</span> <span class="n">freq_word_ngrams</span> <span class="k">if</span> <span class="n">freq</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">]</span>
-        <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">word_rep_ratio</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
-            <span class="nb">sum</span><span class="p">(</span><span class="n">rep_more_than_one</span><span class="p">)</span> <span class="o">/</span>
-            <span class="nb">sum</span><span class="p">(</span><span class="n">freq_word_ngrams</span><span class="p">))</span> <span class="k">if</span> <span class="nb">sum</span><span class="p">(</span><span class="n">freq_word_ngrams</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span> <span class="k">else</span> <span class="mf">0.0</span>
-        <span class="k">return</span> <span class="n">sample</span></div>
-
-<div class="viewcode-block" id="WordRepetitionFilter.process"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">&lt;=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">word_rep_ratio</span><span class="p">]</span> \
-                <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">True</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">False</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/load.html b/_modules/data_juicer/ops/load.html
deleted file mode 100644
index 5f1fc2c62..000000000
--- a/_modules/data_juicer/ops/load.html
+++ /dev/null
@@ -1,124 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.load &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.load</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.load</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">.base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span>
-<span class="kn">from</span> <span class="nn">.op_fusion</span> <span class="kn">import</span> <span class="n">fuse_operators</span>
-
-<div class="viewcode-block" id="load_ops"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.load.load_ops">[docs]</a><span class="k">def</span> <span class="nf">load_ops</span><span class="p">(</span><span class="n">process_list</span><span class="p">,</span> <span class="n">op_fusion</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Load op list according to the process list from config file.</span>
-
-<span class="sd">    :param process_list: A process list. Each item is an op name and its</span>
-<span class="sd">        arguments.</span>
-<span class="sd">    :param op_fusion: whether to fuse ops that share the same intermediate</span>
-<span class="sd">        variables.</span>
-<span class="sd">    :return: The op instance list.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">ops</span> <span class="o">=</span> <span class="p">[]</span>
-    <span class="k">for</span> <span class="n">process</span> <span class="ow">in</span> <span class="n">process_list</span><span class="p">:</span>
-        <span class="n">op_name</span><span class="p">,</span> <span class="n">args</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">process</span><span class="o">.</span><span class="n">items</span><span class="p">())[</span><span class="mi">0</span><span class="p">]</span>
-        <span class="n">ops</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">OPERATORS</span><span class="o">.</span><span class="n">modules</span><span class="p">[</span><span class="n">op_name</span><span class="p">](</span><span class="o">**</span><span class="n">args</span><span class="p">))</span>
-
-    <span class="c1"># detect filter groups</span>
-    <span class="k">if</span> <span class="n">op_fusion</span><span class="p">:</span>
-        <span class="n">process_list</span><span class="p">,</span> <span class="n">ops</span> <span class="o">=</span> <span class="n">fuse_operators</span><span class="p">(</span><span class="n">process_list</span><span class="p">,</span> <span class="n">ops</span><span class="p">)</span>
-
-    <span class="k">return</span> <span class="n">process_list</span><span class="p">,</span> <span class="n">ops</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/clean_copyright_mapper.html b/_modules/data_juicer/ops/mapper/clean_copyright_mapper.html
deleted file mode 100644
index f9874d929..000000000
--- a/_modules/data_juicer/ops/mapper/clean_copyright_mapper.html
+++ /dev/null
@@ -1,156 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.clean_copyright_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.clean_copyright_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.clean_copyright_mapper</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://github.com/togethercomputer/RedPajama-Data/</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">import</span> <span class="nn">regex</span> <span class="k">as</span> <span class="nn">re</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-
-
-<div class="viewcode-block" id="CleanCopyrightMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;clean_copyright_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">CleanCopyrightMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean copyright comments at the beginning of the text</span>
-<span class="sd">    samples.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pat</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="s1">&#39;/</span><span class="se">\\</span><span class="s1">*[^*]*</span><span class="se">\\</span><span class="s1">*+(?:[^/*][^*]*</span><span class="se">\\</span><span class="s1">*+)*/&#39;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">cpat</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="s1">&#39;copyright&#39;</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">IGNORECASE</span><span class="p">)</span>
-
-<div class="viewcode-block" id="CleanCopyrightMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-
-        <span class="n">r</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pat</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
-        <span class="k">if</span> <span class="n">r</span><span class="p">:</span>
-            <span class="c1"># found one, now see if it contains &quot;copyright&quot;, if so strip it</span>
-            <span class="n">span</span> <span class="o">=</span> <span class="n">r</span><span class="o">.</span><span class="n">span</span><span class="p">()</span>
-            <span class="n">sub</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">span</span><span class="p">[</span><span class="mi">0</span><span class="p">]:</span><span class="n">span</span><span class="p">[</span><span class="mi">1</span><span class="p">]]</span>
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cpat</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="n">sub</span><span class="p">):</span>
-                <span class="c1"># cut it</span>
-                <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span>
-                    <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][:</span><span class="n">span</span><span class="p">[</span><span class="mi">0</span><span class="p">]]</span> <span class="o">+</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">][</span><span class="n">span</span><span class="p">[</span><span class="mi">1</span><span class="p">]:]</span>
-
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">lines</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span>
-        <span class="n">skip</span> <span class="o">=</span> <span class="mi">0</span>
-
-        <span class="c1"># Greedy replace any file that begins with comment block, most</span>
-        <span class="c1"># are copyright headers</span>
-        <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">lines</span><span class="p">)):</span>
-            <span class="k">if</span> <span class="p">(</span><span class="n">lines</span><span class="p">[</span><span class="n">k</span><span class="p">]</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;//&#39;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">lines</span><span class="p">[</span><span class="n">k</span><span class="p">]</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;#&#39;</span><span class="p">)</span>
-                    <span class="ow">or</span> <span class="n">lines</span><span class="p">[</span><span class="n">k</span><span class="p">]</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;--&#39;</span><span class="p">)</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">lines</span><span class="p">[</span><span class="n">k</span><span class="p">]):</span>
-                <span class="n">skip</span> <span class="o">=</span> <span class="n">skip</span> <span class="o">+</span> <span class="mi">1</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="k">break</span>
-
-        <span class="k">if</span> <span class="n">skip</span><span class="p">:</span>
-            <span class="c1"># we skipped, consume it</span>
-            <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">lines</span><span class="p">[</span><span class="n">skip</span><span class="p">:])</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/clean_email_mapper.html b/_modules/data_juicer/ops/mapper/clean_email_mapper.html
deleted file mode 100644
index c76997818..000000000
--- a/_modules/data_juicer/ops/mapper/clean_email_mapper.html
+++ /dev/null
@@ -1,130 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.clean_email_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.clean_email_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.clean_email_mapper</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">regex</span> <span class="k">as</span> <span class="nn">re</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-
-
-<div class="viewcode-block" id="CleanEmailMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;clean_email_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">CleanEmailMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean email in text samples.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;[A-Za-z0-9.\-+_]+@[a-z0-9.\-+_]+\.[a-z]+&#39;</span>
-
-<div class="viewcode-block" id="CleanEmailMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">):</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
-                                       <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;&#39;</span><span class="p">,</span>
-                                       <span class="n">string</span><span class="o">=</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                                       <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/clean_html_mapper.html b/_modules/data_juicer/ops/mapper/clean_html_mapper.html
deleted file mode 100644
index f8d6ad18e..000000000
--- a/_modules/data_juicer/ops/mapper/clean_html_mapper.html
+++ /dev/null
@@ -1,135 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.clean_html_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.clean_html_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.clean_html_mapper</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://github.com/togethercomputer/RedPajama-Data/</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">from</span> <span class="nn">selectolax.parser</span> <span class="kn">import</span> <span class="n">HTMLParser</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-
-
-<div class="viewcode-block" id="CleanHtmlMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;clean_html_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">CleanHtmlMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean html code in text samples.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-
-<div class="viewcode-block" id="CleanHtmlMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-
-        <span class="k">def</span> <span class="nf">_clean_html</span><span class="p">(</span><span class="n">raw_html</span><span class="p">):</span>
-            <span class="n">raw_html</span> <span class="o">=</span> <span class="n">raw_html</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;&lt;li&gt;&#39;</span><span class="p">,</span> <span class="s1">&#39;</span><span class="se">\n</span><span class="s1">*&#39;</span><span class="p">)</span>
-            <span class="n">raw_html</span> <span class="o">=</span> <span class="n">raw_html</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;&lt;/li&gt;&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span>
-            <span class="n">raw_html</span> <span class="o">=</span> <span class="n">raw_html</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;&lt;ol&gt;&#39;</span><span class="p">,</span> <span class="s1">&#39;</span><span class="se">\n</span><span class="s1">*&#39;</span><span class="p">)</span>
-            <span class="n">raw_html</span> <span class="o">=</span> <span class="n">raw_html</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;&lt;/ol&gt;&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span>
-            <span class="n">parser</span> <span class="o">=</span> <span class="n">HTMLParser</span><span class="p">(</span><span class="n">raw_html</span><span class="p">)</span>
-            <span class="k">return</span> <span class="n">parser</span><span class="o">.</span><span class="n">text</span><span class="p">()</span>
-
-        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">_clean_html</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/clean_ip_mapper.html b/_modules/data_juicer/ops/mapper/clean_ip_mapper.html
deleted file mode 100644
index 7cf1f134c..000000000
--- a/_modules/data_juicer/ops/mapper/clean_ip_mapper.html
+++ /dev/null
@@ -1,135 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.clean_ip_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.clean_ip_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.clean_ip_mapper</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">regex</span> <span class="k">as</span> <span class="nn">re</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-
-
-<div class="viewcode-block" id="CleanIpMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;clean_ip_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">CleanIpMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean ipv4 and ipv6 address in text samples.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;(?:(?:1[0-9][0-9]\.)|(?:2[0-4][0-9]\.)|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;(?:25[0-5]\.)|(?:[1-9][0-9]\.)|(?:[0-9]\.))&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="si">{3}</span><span class="s1">(?:(?:1[0-9][0-9])|(?:2[0-4][0-9])|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;(?:25[0-5])|(?:[1-9][0-9])|(?:[0-9]))|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;([\da-fA-F]{1,4}:)</span><span class="si">{7}</span><span class="s1">[\da-fA-F]{1,4}&#39;</span>  <span class="c1"># ipv6</span>
-
-<div class="viewcode-block" id="CleanIpMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">):</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
-                                       <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;&#39;</span><span class="p">,</span>
-                                       <span class="n">string</span><span class="o">=</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                                       <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/clean_links_mapper.html b/_modules/data_juicer/ops/mapper/clean_links_mapper.html
deleted file mode 100644
index dd49acc3b..000000000
--- a/_modules/data_juicer/ops/mapper/clean_links_mapper.html
+++ /dev/null
@@ -1,140 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.clean_links_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.clean_links_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.clean_links_mapper</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://github.com/kallewesterling/CleanText/</span>
-<span class="c1"># --------------------------------------------------------</span>
-<span class="kn">import</span> <span class="nn">regex</span> <span class="k">as</span> <span class="nn">re</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-
-
-<div class="viewcode-block" id="CleanLinksMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;clean_links_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">CleanLinksMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean links like http/https/ftp in text samples.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;(?i)\b(&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;(?:[a-z][\w-]+:(?:\/{1,3}|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;[a-z0-9%])|www\d{0,3}[.]|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;[a-z0-9.\-]+[.][a-z]{2,4}\/)&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;(?:[^\s()&lt;&gt;]+|\(([^\s()&lt;&gt;]+|(\([^\s()&lt;&gt;]+\)))*\))&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;+(?:\(([^\s()&lt;&gt;]+|(\([^\s()&lt;&gt;]+\)))*\)|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;[^\s`!()\[\]</span><span class="si">{}</span><span class="s1">;:</span><span class="se">\&#39;</span><span class="s1">\&quot;.,&lt;&gt;?«»“”‘’])&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;)&#39;</span>
-
-<div class="viewcode-block" id="CleanLinksMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">):</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
-                                       <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;&#39;</span><span class="p">,</span>
-                                       <span class="n">string</span><span class="o">=</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                                       <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/expand_macro_mapper.html b/_modules/data_juicer/ops/mapper/expand_macro_mapper.html
deleted file mode 100644
index 2bffdd6b6..000000000
--- a/_modules/data_juicer/ops/mapper/expand_macro_mapper.html
+++ /dev/null
@@ -1,181 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.expand_macro_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.expand_macro_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.expand_macro_mapper</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://github.com/togethercomputer/RedPajama-Data/blob/main/data_prep/arxiv/arxiv_cleaner.py</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">import</span> <span class="nn">regex</span> <span class="k">as</span> <span class="nn">re</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-
-
-<div class="viewcode-block" id="ExpandMacroMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;expand_macro_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">ExpandMacroMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to expand macro definitions in the document body of Latex</span>
-<span class="sd">    samples.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="nf">_build_non_arg_macros_dict</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file_content</span><span class="p">):</span>
-        <span class="c1"># regex for extracting \newcommand macros without arguments</span>
-        <span class="n">non_arg_nc_reg</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
-            <span class="c1"># this regex matches the following:</span>
-            <span class="c1"># \newcommand{\macro_name}{macro_value}</span>
-            <span class="c1"># \newcommand*{\macro_name}{macro_value}</span>
-            <span class="c1"># where macro_name is only allowed to contain letters and numbers;</span>
-            <span class="c1"># macro_value can contain any character.</span>
-            <span class="n">pattern</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bnewcommand\b\*?\{(</span><span class="se">\\</span><span class="s1">[a-zA-Z0-9]+?)\}\{(.*?)\}$&#39;</span><span class="p">,</span>
-            <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">MULTILINE</span><span class="p">)</span>
-
-        <span class="c1"># regex for extracting \def macros without arguments</span>
-        <span class="n">non_arg_def_reg</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
-            <span class="c1"># this regex matches the following:</span>
-            <span class="c1"># \def\macro_name{macro_value}</span>
-            <span class="c1"># where macro_name is only allowed to contain letters and numbers;</span>
-            <span class="c1"># macro_value can contain any character.</span>
-            <span class="n">pattern</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">def\s*(</span><span class="se">\\</span><span class="s1">[a-zA-Z0-9]+?)\s*\{(.*?)\}$&#39;</span><span class="p">,</span>
-            <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">MULTILINE</span><span class="p">)</span>
-
-        <span class="c1"># Extract all user-defined LaTeX macros from the preamble</span>
-        <span class="n">macros</span> <span class="o">=</span> <span class="p">{}</span>
-        <span class="k">for</span> <span class="n">reg</span> <span class="ow">in</span> <span class="p">[</span><span class="n">non_arg_nc_reg</span><span class="p">,</span> <span class="n">non_arg_def_reg</span><span class="p">]:</span>
-            <span class="k">for</span> <span class="n">match</span> <span class="ow">in</span> <span class="n">reg</span><span class="o">.</span><span class="n">finditer</span><span class="p">(</span><span class="n">file_content</span><span class="p">):</span>
-                <span class="c1"># convert the macro name and value to a raw string that can be</span>
-                <span class="c1"># used in re.sub</span>
-                <span class="n">macro_name</span> <span class="o">=</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39;unicode-escape&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span>
-                    <span class="s1">&#39;utf-8&#39;</span><span class="p">)</span>
-                <span class="n">macro_val</span> <span class="o">=</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">2</span><span class="p">)</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39;unicode-escape&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span>
-                    <span class="s1">&#39;utf-8&#39;</span><span class="p">)</span>
-
-                <span class="n">macros</span><span class="p">[</span><span class="n">macro_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">macro_val</span>
-        <span class="k">return</span> <span class="n">macros</span>
-
-<div class="viewcode-block" id="ExpandMacroMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="n">non_arg_macros</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_build_non_arg_macros_dict</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
-
-        <span class="c1"># TODO: macros that take arguments are not supported yet</span>
-        <span class="n">arg_macros</span> <span class="o">=</span> <span class="p">{}</span>
-
-        <span class="c1"># inline-expand all non-arg macros</span>
-        <span class="k">for</span> <span class="n">macro_name</span><span class="p">,</span> <span class="n">macro_value</span> <span class="ow">in</span> <span class="n">non_arg_macros</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-            <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span>
-                <span class="c1"># make pattern grouped to make sure that the macro is not part</span>
-                <span class="c1"># of a longer alphanumeric word</span>
-                <span class="n">pattern</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;(&#39;</span> <span class="o">+</span> <span class="n">macro_name</span> <span class="o">+</span> <span class="sa">r</span><span class="s1">&#39;)&#39;</span> <span class="o">+</span> <span class="sa">r</span><span class="s1">&#39;([^a-zA-Z0-9])&#39;</span><span class="p">,</span>
-                <span class="c1"># replace the macro with its value and add back the character</span>
-                <span class="c1"># that was matched after the macro</span>
-                <span class="n">repl</span><span class="o">=</span><span class="n">macro_value</span> <span class="o">+</span> <span class="sa">r</span><span class="s1">&#39;\2&#39;</span><span class="p">,</span>
-                <span class="n">string</span><span class="o">=</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
-
-        <span class="c1"># inline-expand all macros that use args</span>
-        <span class="c1"># TODO: inline-expand macros with args</span>
-        <span class="k">for</span> <span class="n">macro_name</span><span class="p">,</span> <span class="n">macro_value</span> <span class="ow">in</span> <span class="n">arg_macros</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-            <span class="k">pass</span>
-
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/fix_unicode_mapper.html b/_modules/data_juicer/ops/mapper/fix_unicode_mapper.html
deleted file mode 100644
index af8339dbf..000000000
--- a/_modules/data_juicer/ops/mapper/fix_unicode_mapper.html
+++ /dev/null
@@ -1,122 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.fix_unicode_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.fix_unicode_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.fix_unicode_mapper</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">ftfy</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-
-
-<div class="viewcode-block" id="FixUnicodeMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;fix_unicode_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">FixUnicodeMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to fix unicode errors in text samples.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-
-<div class="viewcode-block" id="FixUnicodeMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">ftfy</span><span class="o">.</span><span class="n">fix_text</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html b/_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html
deleted file mode 100644
index 39d4f1fe5..000000000
--- a/_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html
+++ /dev/null
@@ -1,163 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.punctuation_normalization_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.punctuation_normalization_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.punctuation_normalization_mapper</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://github.com/bigscience-workshop/data-preparation</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-
-
-<div class="viewcode-block" id="PunctuationNormalizationMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;punctuation_normalization_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">PunctuationNormalizationMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to normalize unicode punctuations to English punctuations in text</span>
-<span class="sd">    \ samples.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">punctuation_unicode</span> <span class="o">=</span> <span class="p">{</span>
-            <span class="s1">&#39;，&#39;</span><span class="p">:</span> <span class="s1">&#39;,&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;。&#39;</span><span class="p">:</span> <span class="s1">&#39;.&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;、&#39;</span><span class="p">:</span> <span class="s1">&#39;,&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;„&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;”&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;“&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;«&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;»&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;１&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;」&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;「&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;《&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;》&#39;</span><span class="p">:</span> <span class="s1">&#39;&quot;&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;´&#39;</span><span class="p">:</span> <span class="s2">&quot;&#39;&quot;</span><span class="p">,</span>
-            <span class="s1">&#39;∶&#39;</span><span class="p">:</span> <span class="s1">&#39;:&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;：&#39;</span><span class="p">:</span> <span class="s1">&#39;:&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;？&#39;</span><span class="p">:</span> <span class="s1">&#39;?&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;！&#39;</span><span class="p">:</span> <span class="s1">&#39;!&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;（&#39;</span><span class="p">:</span> <span class="s1">&#39;(&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;）&#39;</span><span class="p">:</span> <span class="s1">&#39;)&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;；&#39;</span><span class="p">:</span> <span class="s1">&#39;;&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;–&#39;</span><span class="p">:</span> <span class="s1">&#39;-&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;—&#39;</span><span class="p">:</span> <span class="s1">&#39; - &#39;</span><span class="p">,</span>
-            <span class="s1">&#39;．&#39;</span><span class="p">:</span> <span class="s1">&#39;. &#39;</span><span class="p">,</span>
-            <span class="s1">&#39;～&#39;</span><span class="p">:</span> <span class="s1">&#39;~&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;’&#39;</span><span class="p">:</span> <span class="s2">&quot;&#39;&quot;</span><span class="p">,</span>
-            <span class="s1">&#39;…&#39;</span><span class="p">:</span> <span class="s1">&#39;...&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;━&#39;</span><span class="p">:</span> <span class="s1">&#39;-&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;〈&#39;</span><span class="p">:</span> <span class="s1">&#39;&lt;&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;〉&#39;</span><span class="p">:</span> <span class="s1">&#39;&gt;&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;【&#39;</span><span class="p">:</span> <span class="s1">&#39;[&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;】&#39;</span><span class="p">:</span> <span class="s1">&#39;]&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;％&#39;</span><span class="p">:</span> <span class="s1">&#39;%&#39;</span><span class="p">,</span>
-            <span class="s1">&#39;►&#39;</span><span class="p">:</span> <span class="s1">&#39;-&#39;</span><span class="p">,</span>
-        <span class="p">}</span>
-
-<div class="viewcode-block" id="PunctuationNormalizationMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">([</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">punctuation_unicode</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">c</span><span class="p">,</span> <span class="n">c</span><span class="p">)</span> <span class="k">for</span> <span class="n">c</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
-        <span class="p">])</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html b/_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html
deleted file mode 100644
index fabcea27f..000000000
--- a/_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html
+++ /dev/null
@@ -1,136 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.remove_bibliography_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_bibliography_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.remove_bibliography_mapper</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://github.com/togethercomputer/RedPajama-Data/</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">import</span> <span class="nn">regex</span> <span class="k">as</span> <span class="nn">re</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-
-
-<div class="viewcode-block" id="RemoveBibliographyMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_bibliography_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">RemoveBibliographyMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove bibliography at the end of documents in Latex</span>
-<span class="sd">    samples.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;(</span><span class="se">\\</span><span class="s1">appendix|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">begin\{references\}|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">begin\{REFERENCES\}|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">begin\{thebibliography\}|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">bibliography\{.*\}&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;).*$&#39;</span>
-
-<div class="viewcode-block" id="RemoveBibliographyMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
-                                       <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;&#39;</span><span class="p">,</span>
-                                       <span class="n">string</span><span class="o">=</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                                       <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_comments_mapper.html b/_modules/data_juicer/ops/mapper/remove_comments_mapper.html
deleted file mode 100644
index 9f16e8009..000000000
--- a/_modules/data_juicer/ops/mapper/remove_comments_mapper.html
+++ /dev/null
@@ -1,156 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.remove_comments_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_comments_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.remove_comments_mapper</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://github.com/togethercomputer/RedPajama-Data/</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Union</span>
-
-<span class="kn">import</span> <span class="nn">regex</span> <span class="k">as</span> <span class="nn">re</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-
-
-<div class="viewcode-block" id="RemoveCommentsMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_comments_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">RemoveCommentsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Mapper to remove comments in different kinds of documents.</span>
-
-<span class="sd">    Only support &#39;tex&#39; \ for now.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">doc_type</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="s1">&#39;tex&#39;</span><span class="p">,</span>
-                 <span class="n">inline</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-                 <span class="n">multiline</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param doc_type: Type of document to remove comments.</span>
-<span class="sd">        :param inline: Whether to remove inline comments.</span>
-<span class="sd">        :param multiline: Whether to remove multiline comments.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">doc_type</span> <span class="o">=</span> <span class="n">doc_type</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">inline</span> <span class="o">=</span> <span class="n">inline</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">multiline</span> <span class="o">=</span> <span class="n">multiline</span>
-
-<div class="viewcode-block" id="RemoveCommentsMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="c1"># TODO: remove different comments by sample type</span>
-
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">inline</span><span class="p">:</span>
-            <span class="c1"># remove all in comments within a line</span>
-            <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;[^</span><span class="se">\\</span><span class="s1">]%.+$&#39;</span><span class="p">,</span>
-                                           <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;&#39;</span><span class="p">,</span>
-                                           <span class="n">string</span><span class="o">=</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                                           <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">MULTILINE</span><span class="p">)</span>
-
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">multiline</span><span class="p">:</span>
-            <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;(?m)^%.*\n?&#39;</span><span class="p">,</span>
-                                           <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;&#39;</span><span class="p">,</span>
-                                           <span class="n">string</span><span class="o">=</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                                           <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">MULTILINE</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_header_mapper.html b/_modules/data_juicer/ops/mapper/remove_header_mapper.html
deleted file mode 100644
index 7f1fa1383..000000000
--- a/_modules/data_juicer/ops/mapper/remove_header_mapper.html
+++ /dev/null
@@ -1,150 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.remove_header_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_header_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.remove_header_mapper</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://github.com/togethercomputer/RedPajama-Data/</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">import</span> <span class="nn">regex</span> <span class="k">as</span> <span class="nn">re</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-
-
-<span class="c1"># TODO</span>
-<div class="viewcode-block" id="RemoveHeaderMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_header_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">RemoveHeaderMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove headers at the beginning of documents in Latex</span>
-<span class="sd">    samples.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">drop_no_head</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param drop_no_head: whether to drop sample texts without</span>
-<span class="sd">            headers.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;^(.*?)(&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bchapter\b\*?(?:\[(.*?)\])?\{(.*?)\}|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bpart\b\*?(?:\[(.*?)\])?\{(.*?)\}|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bsubsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bsubsubsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\}&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bsubparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\}&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;)&#39;</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">drop_no_head</span> <span class="o">=</span> <span class="n">drop_no_head</span>
-
-<div class="viewcode-block" id="RemoveHeaderMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">):</span>
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">drop_no_head</span><span class="p">:</span>
-                <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
-                                       <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;\2&#39;</span><span class="p">,</span>
-                                       <span class="n">string</span><span class="o">=</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                                       <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_long_words_mapper.html b/_modules/data_juicer/ops/mapper/remove_long_words_mapper.html
deleted file mode 100644
index ff560bf21..000000000
--- a/_modules/data_juicer/ops/mapper/remove_long_words_mapper.html
+++ /dev/null
@@ -1,154 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.remove_long_words_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_long_words_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.remove_long_words_mapper</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some code here has been modified from:</span>
-<span class="c1"># https://huggingface.co/spaces/huggingface/text-data-filtering</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">import</span> <span class="nn">sys</span>
-
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">PositiveInt</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-<span class="kn">from</span> <span class="nn">..common</span> <span class="kn">import</span> <span class="p">(</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span> <span class="n">merge_on_whitespace_tab_newline</span><span class="p">,</span>
-                      <span class="n">split_on_newline_tab_whitespace</span><span class="p">,</span> <span class="n">strip</span><span class="p">)</span>
-
-
-<div class="viewcode-block" id="RemoveLongWordsMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_long_words_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">RemoveLongWordsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove long words within a specific range.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">min_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
-                 <span class="n">max_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param min_len: The min mapper word length in this op, words</span>
-<span class="sd">            will be filtered if their length is below this parameter.</span>
-<span class="sd">        :param max_len: The max mapper word length in this op, words</span>
-<span class="sd">            will be filtered if their length exceeds this parameter.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">=</span> <span class="n">min_len</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span>
-
-<div class="viewcode-block" id="RemoveLongWordsMapper.should_keep_long_word"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word">[docs]</a>    <span class="k">def</span> <span class="nf">should_keep_long_word</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">word</span><span class="p">):</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="nb">len</span><span class="p">(</span><span class="n">word</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">True</span>
-        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="nb">len</span><span class="p">(</span><span class="n">strip</span><span class="p">(</span><span class="n">word</span><span class="p">,</span>
-                                       <span class="n">SPECIAL_CHARACTERS</span><span class="p">))</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">True</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">return</span> <span class="kc">False</span></div>
-
-<div class="viewcode-block" id="RemoveLongWordsMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-
-        <span class="n">sentences</span> <span class="o">=</span> <span class="n">split_on_newline_tab_whitespace</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
-        <span class="n">sentences</span> <span class="o">=</span> <span class="p">[[[</span>
-            <span class="n">word</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">subsentence</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">should_keep_long_word</span><span class="p">(</span><span class="n">word</span><span class="p">)</span>
-        <span class="p">]</span> <span class="k">for</span> <span class="n">subsentence</span> <span class="ow">in</span> <span class="n">sentence</span><span class="p">]</span> <span class="k">for</span> <span class="n">sentence</span> <span class="ow">in</span> <span class="n">sentences</span><span class="p">]</span>
-        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">merge_on_whitespace_tab_newline</span><span class="p">(</span><span class="n">sentences</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html b/_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html
deleted file mode 100644
index 63c2895db..000000000
--- a/_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html
+++ /dev/null
@@ -1,141 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.remove_specific_chars_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_specific_chars_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.remove_specific_chars_mapper</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Union</span>
-
-<span class="kn">import</span> <span class="nn">regex</span> <span class="k">as</span> <span class="nn">re</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-
-
-<div class="viewcode-block" id="RemoveSpecificCharsMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_specific_chars_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">RemoveSpecificCharsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean specific chars in text samples.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">chars_to_remove</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="s1">&#39;◆●■►▼▲▴∆▻▷❖♡□&#39;</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param chars_to_remove: a list or a string including all</span>
-<span class="sd">            characters that need to be removed from text.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">chars_to_remove</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="s1">&#39;[&#39;</span> <span class="o">+</span> <span class="s1">&#39;|&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">chars_to_remove</span><span class="p">)</span> <span class="o">+</span> <span class="s1">&#39;]&#39;</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="kc">None</span>
-
-<div class="viewcode-block" id="RemoveSpecificCharsMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">sample</span>
-
-        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
-                                       <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;&#39;</span><span class="p">,</span>
-                                       <span class="n">string</span><span class="o">=</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                                       <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_table_text_mapper.html b/_modules/data_juicer/ops/mapper/remove_table_text_mapper.html
deleted file mode 100644
index e8d0dd886..000000000
--- a/_modules/data_juicer/ops/mapper/remove_table_text_mapper.html
+++ /dev/null
@@ -1,146 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.remove_table_text_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_table_text_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.remove_table_text_mapper</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">regex</span> <span class="k">as</span> <span class="nn">re</span>
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">restricted_number_type</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-
-<span class="n">from_2_to_20</span> <span class="o">=</span> <span class="n">restricted_number_type</span><span class="p">(</span><span class="s1">&#39;from_2_to_20&#39;</span><span class="p">,</span> <span class="nb">int</span><span class="p">,</span> <span class="p">[(</span><span class="s1">&#39;&gt;=&#39;</span><span class="p">,</span> <span class="mi">2</span><span class="p">),</span>
-                                                            <span class="p">(</span><span class="s1">&#39;&lt;=&#39;</span><span class="p">,</span> <span class="mi">20</span><span class="p">)])</span>
-
-
-<div class="viewcode-block" id="RemoveTableTextMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_table_text_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">RemoveTableTextMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Mapper to remove table texts from text samples.</span>
-
-<span class="sd">    Regular expression is used to remove tables in the range of column</span>
-<span class="sd">    number of tables.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">min_col</span><span class="p">:</span> <span class="n">from_2_to_20</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
-                 <span class="n">max_col</span><span class="p">:</span> <span class="n">from_2_to_20</span> <span class="o">=</span> <span class="mi">20</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param min_col: The min number of columns of table to remove.</span>
-<span class="sd">        :param max_col: The max number of columns of table to remove.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">min_col</span> <span class="o">=</span> <span class="n">min_col</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_col</span> <span class="o">=</span> <span class="n">max_col</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;(?&lt;=\n)((\S+?)([ |\t](\S+?)){</span><span class="si">%d</span><span class="s1">}\n+){2,}&#39;</span>
-
-<div class="viewcode-block" id="RemoveTableTextMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-
-        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
-        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">min_col</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_col</span><span class="p">):</span>
-            <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">%</span> <span class="n">i</span><span class="p">)</span>
-            <span class="n">text</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
-
-        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">text</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html b/_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html
deleted file mode 100644
index 9928a34fd..000000000
--- a/_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html
+++ /dev/null
@@ -1,167 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">List</span>
-
-<span class="kn">from</span> <span class="nn">data_juicer.utils.model_utils</span> <span class="kn">import</span> <span class="n">prepare_model</span><span class="p">,</span> <span class="n">get_model</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-<span class="kn">from</span> <span class="nn">..common</span> <span class="kn">import</span> <span class="p">(</span><span class="n">SPECIAL_CHARACTERS</span><span class="p">,</span> <span class="n">get_words_from_document</span><span class="p">,</span>
-                      <span class="n">merge_on_whitespace_tab_newline</span><span class="p">,</span>
-                      <span class="n">split_on_newline_tab_whitespace</span><span class="p">,</span> <span class="n">strip</span><span class="p">)</span>
-
-
-<div class="viewcode-block" id="RemoveWordsWithIncorrectSubstringsMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_words_with_incorrect_substrings_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">RemoveWordsWithIncorrectSubstringsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove words with incorrect substrings.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
-                 <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
-                 <span class="n">substrings</span><span class="p">:</span> <span class="n">List</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param lang: sample in which language</span>
-<span class="sd">        :param tokenization: whether to use model to tokenize documents</span>
-<span class="sd">        :param substrings: The incorrect substrings in words.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="n">substrings</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">substrings</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;http&#39;</span><span class="p">,</span> <span class="s1">&#39;www&#39;</span><span class="p">,</span> <span class="s1">&#39;.com&#39;</span><span class="p">,</span> <span class="s1">&#39;href&#39;</span><span class="p">,</span> <span class="s1">&#39;//&#39;</span><span class="p">]</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> <span class="o">=</span> <span class="n">tokenization</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">substrings</span> <span class="o">=</span> <span class="n">substrings</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
-        <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span>
-                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
-
-<div class="viewcode-block" id="RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">[docs]</a>    <span class="k">def</span> <span class="nf">should_keep_word_with_incorrect_substrings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">word</span><span class="p">,</span> <span class="n">substrings</span><span class="p">):</span>
-        <span class="n">word</span> <span class="o">=</span> <span class="n">strip</span><span class="p">(</span><span class="n">word</span><span class="p">,</span> <span class="n">SPECIAL_CHARACTERS</span><span class="p">)</span>
-        <span class="n">should_keep</span> <span class="o">=</span> <span class="nb">all</span><span class="p">([(</span><span class="n">i_substr</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">word</span><span class="p">)</span> <span class="k">for</span> <span class="n">i_substr</span> <span class="ow">in</span> <span class="n">substrings</span><span class="p">])</span>
-        <span class="k">return</span> <span class="n">should_keep</span></div>
-
-<div class="viewcode-block" id="RemoveWordsWithIncorrectSubstringsMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span><span class="p">:</span>
-            <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">lang</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
-            <span class="n">sentences</span> <span class="o">=</span> <span class="n">get_words_from_document</span><span class="p">(</span>
-                <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-                <span class="n">token_func</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode_as_pieces</span> <span class="k">if</span> <span class="n">tokenizer</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
-            <span class="n">words</span> <span class="o">=</span> <span class="p">[</span>
-                <span class="n">word</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;▁&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">sentences</span>
-                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">should_keep_word_with_incorrect_substrings</span><span class="p">(</span>
-                    <span class="n">word</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;▁&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">substrings</span><span class="p">)</span>
-            <span class="p">]</span>
-            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">words</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">sentences</span><span class="p">):</span>
-                <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">words</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">sentences</span> <span class="o">=</span> <span class="n">split_on_newline_tab_whitespace</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
-            <span class="n">sentences</span> <span class="o">=</span> <span class="p">[[[</span>
-                <span class="n">word</span> <span class="k">for</span> <span class="n">word</span> <span class="ow">in</span> <span class="n">subsentence</span>
-                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">should_keep_word_with_incorrect_substrings</span><span class="p">(</span>
-                    <span class="n">word</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">substrings</span><span class="p">)</span>
-            <span class="p">]</span> <span class="k">for</span> <span class="n">subsentence</span> <span class="ow">in</span> <span class="n">sentence</span><span class="p">]</span> <span class="k">for</span> <span class="n">sentence</span> <span class="ow">in</span> <span class="n">sentences</span><span class="p">]</span>
-            <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">merge_on_whitespace_tab_newline</span><span class="p">(</span><span class="n">sentences</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/sentence_split_mapper.html b/_modules/data_juicer/ops/mapper/sentence_split_mapper.html
deleted file mode 100644
index eb3ebf0c2..000000000
--- a/_modules/data_juicer/ops/mapper/sentence_split_mapper.html
+++ /dev/null
@@ -1,130 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.sentence_split_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.sentence_split_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.sentence_split_mapper</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">data_juicer.utils.model_utils</span> <span class="kn">import</span> <span class="n">prepare_model</span><span class="p">,</span> <span class="n">get_model</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-<span class="kn">from</span> <span class="nn">..common</span> <span class="kn">import</span> <span class="n">get_sentences_from_document</span>
-
-
-<div class="viewcode-block" id="SentenceSplitMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;sentence_split_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">SentenceSplitMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to split text samples to sentences.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param lang: split sentence of text in which language.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;nltk&#39;</span><span class="p">)</span>
-
-<div class="viewcode-block" id="SentenceSplitMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-
-        <span class="n">nltk_model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">lang</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;nltk&#39;</span><span class="p">)</span>
-        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">get_sentences_from_document</span><span class="p">(</span>
-            <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span>
-            <span class="n">model_func</span><span class="o">=</span><span class="n">nltk_model</span><span class="o">.</span><span class="n">tokenize</span> <span class="k">if</span> <span class="n">nltk_model</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html b/_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html
deleted file mode 100644
index d1999d5e4..000000000
--- a/_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html
+++ /dev/null
@@ -1,137 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper.whitespace_normalization_mapper &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper.whitespace_normalization_mapper</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.mapper.whitespace_normalization_mapper</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Most of the code here has been modified from:</span>
-<span class="c1"># https://github.com/bigscience-workshop/data-preparation</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
-<span class="kn">from</span> <span class="nn">..common.special_characters</span> <span class="kn">import</span> <span class="n">VARIOUS_WHITESPACES</span>
-
-<div class="viewcode-block" id="WhitespaceNormalizationMapper"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;whitespace_normalization_mapper&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">WhitespaceNormalizationMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Mapper to normalize different kinds of whitespaces to whitespace &#39; &#39; (0x20)</span>
-<span class="sd">    in text samples.</span>
-
-<span class="sd">    Different kinds of whitespaces can be found here:</span>
-<span class="sd">    https://en.wikipedia.org/wiki/Whitespace_character</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-
-<div class="viewcode-block" id="WhitespaceNormalizationMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
-        <span class="c1"># remove whitespaces before and after the main content</span>
-        <span class="n">text</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
-
-        <span class="c1"># replace all kinds of whitespaces with &#39; &#39;</span>
-        <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
-            <span class="p">[</span><span class="n">char</span> <span class="k">if</span> <span class="n">char</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">VARIOUS_WHITESPACES</span> <span class="k">else</span> <span class="s1">&#39; &#39;</span>
-             <span class="k">for</span> <span class="n">char</span> <span class="ow">in</span> <span class="n">text</span><span class="p">])</span>
-
-        <span class="k">return</span> <span class="n">sample</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/selector/frequency_specified_field_selector.html b/_modules/data_juicer/ops/selector/frequency_specified_field_selector.html
deleted file mode 100644
index b0d85ef19..000000000
--- a/_modules/data_juicer/ops/selector/frequency_specified_field_selector.html
+++ /dev/null
@@ -1,188 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.selector.frequency_specified_field_selector &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.selector.frequency_specified_field_selector</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.selector.frequency_specified_field_selector</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">numbers</span>
-
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">ClosedUnitInterval</span><span class="p">,</span> <span class="n">PositiveInt</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Selector</span>
-
-
-<div class="viewcode-block" id="FrequencySpecifiedFieldSelector"><a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;frequency_specified_field_selector&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">FrequencySpecifiedFieldSelector</span><span class="p">(</span><span class="n">Selector</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Selector to select samples based on the sorted frequency of specified</span>
-<span class="sd">    field.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
-                 <span class="n">top_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-                 <span class="n">topk</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-                 <span class="n">reverse</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param field_key: Selector based on the specified value</span>
-<span class="sd">            corresponding to the target key. The target key</span>
-<span class="sd">            corresponding to multi-level field information need to be</span>
-<span class="sd">            separated by &#39;.&#39;.</span>
-<span class="sd">        :param top_ratio: Ratio of selected top specified field value,</span>
-<span class="sd">            samples will be selected if their specified field values are</span>
-<span class="sd">            within this parameter. When both topk and top_ratio are set,</span>
-<span class="sd">            the value corresponding to the smaller number of samples</span>
-<span class="sd">            will be applied.</span>
-<span class="sd">        :param topk: Number of selected top specified field value,</span>
-<span class="sd">            samples will be selected if their specified field values are</span>
-<span class="sd">            within this parameter. When both topk and top_ratio are set,</span>
-<span class="sd">            the value corresponding to the smaller number of samples</span>
-<span class="sd">            will be applied.</span>
-<span class="sd">        :param reverse: Determine the sorting rule, if reverse=True,</span>
-<span class="sd">            then sort in descending order.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="o">=</span> <span class="n">field_key</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">top_ratio</span> <span class="o">=</span> <span class="n">top_ratio</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">topk</span> <span class="o">=</span> <span class="n">topk</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">reverse</span> <span class="o">=</span> <span class="n">reverse</span>
-
-<div class="viewcode-block" id="FrequencySpecifiedFieldSelector.process"><a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span> <span class="ow">or</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">dataset</span>
-
-        <span class="n">field_keys</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span>
-        <span class="k">assert</span> <span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="o">.</span><span class="n">keys</span><span class="p">(</span>
-        <span class="p">),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
-
-        <span class="n">field_value_dict</span> <span class="o">=</span> <span class="p">{}</span>
-        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">item</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]]):</span>
-            <span class="n">field_value</span> <span class="o">=</span> <span class="n">item</span>
-            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_keys</span><span class="p">[</span><span class="mi">1</span><span class="p">:]:</span>
-                <span class="k">assert</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">(),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
-                    <span class="n">key</span><span class="p">,</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
-                <span class="n">field_value</span> <span class="o">=</span> <span class="n">field_value</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
-            <span class="k">assert</span> <span class="n">field_value</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span>
-                <span class="n">field_value</span><span class="p">,</span> <span class="nb">str</span><span class="p">)</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span>
-                    <span class="n">field_value</span><span class="p">,</span> <span class="n">numbers</span><span class="o">.</span><span class="n">Number</span>
-                <span class="p">),</span> <span class="s1">&#39;The </span><span class="si">{}</span><span class="s1"> item is not String, Numbers or NoneType&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">i</span><span class="p">)</span>
-            <span class="k">if</span> <span class="n">field_value</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">field_value_dict</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
-                <span class="n">field_value_dict</span><span class="p">[</span><span class="n">field_value</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">i</span><span class="p">]</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">field_value_dict</span><span class="p">[</span><span class="n">field_value</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">i</span><span class="p">)</span>
-
-        <span class="n">select_num</span> <span class="o">=</span> <span class="mi">0</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">top_ratio</span><span class="p">:</span>
-            <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span><span class="p">:</span>
-                <span class="k">return</span> <span class="n">dataset</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">select_num</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">select_num</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">top_ratio</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">field_value_dict</span><span class="p">)</span>
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span> <span class="o">&lt;</span> <span class="n">select_num</span><span class="p">:</span>
-                <span class="n">select_num</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span>
-
-        <span class="n">select_index</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span>
-            <span class="nb">sorted</span><span class="p">(</span><span class="n">field_value_dict</span><span class="o">.</span><span class="n">values</span><span class="p">(),</span>
-                   <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
-                   <span class="n">reverse</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">reverse</span><span class="p">)[:</span><span class="nb">int</span><span class="p">(</span><span class="n">select_num</span><span class="p">)],</span> <span class="p">[])</span>
-        <span class="k">return</span> <span class="n">dataset</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="n">select_index</span><span class="p">)</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/selector/topk_specified_field_selector.html b/_modules/data_juicer/ops/selector/topk_specified_field_selector.html
deleted file mode 100644
index 155754b0d..000000000
--- a/_modules/data_juicer/ops/selector/topk_specified_field_selector.html
+++ /dev/null
@@ -1,198 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.selector.topk_specified_field_selector &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.selector.topk_specified_field_selector</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.ops.selector.topk_specified_field_selector</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">heapq</span>
-<span class="kn">import</span> <span class="nn">sys</span>
-
-<span class="kn">from</span> <span class="nn">jsonargparse.typing</span> <span class="kn">import</span> <span class="n">ClosedUnitInterval</span><span class="p">,</span> <span class="n">PositiveInt</span>
-
-<span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Selector</span>
-
-
-<div class="viewcode-block" id="to_number"><a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.to_number">[docs]</a><span class="k">def</span> <span class="nf">to_number</span><span class="p">(</span><span class="n">s</span><span class="p">,</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
-    <span class="k">try</span><span class="p">:</span>
-        <span class="k">return</span> <span class="nb">float</span><span class="p">(</span><span class="n">s</span><span class="p">)</span>
-    <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
-        <span class="k">if</span> <span class="n">reverse</span><span class="p">:</span>
-            <span class="k">return</span> <span class="o">-</span><span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span></div>
-
-
-<div class="viewcode-block" id="TopkSpecifiedFieldSelector"><a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector">[docs]</a><span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;topk_specified_field_selector&#39;</span><span class="p">)</span>
-<span class="k">class</span> <span class="nc">TopkSpecifiedFieldSelector</span><span class="p">(</span><span class="n">Selector</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Selector to select top samples based on the sorted specified field</span>
-<span class="sd">    value.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                 <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
-                 <span class="n">top_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-                 <span class="n">topk</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-                 <span class="n">reverse</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
-                 <span class="o">*</span><span class="n">args</span><span class="p">,</span>
-                 <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param field_key: Selector based on the specified value</span>
-<span class="sd">            corresponding to the target key. The target key</span>
-<span class="sd">            corresponding to multi-level field information need to be</span>
-<span class="sd">            separated by &#39;.&#39;.</span>
-<span class="sd">        :param top_ratio: Ratio of selected top samples, samples will be</span>
-<span class="sd">            selected if their specified field values are within this</span>
-<span class="sd">            parameter. When both topk and top_ratio are set, the value</span>
-<span class="sd">            corresponding to the smaller number of samples will be</span>
-<span class="sd">            applied.</span>
-<span class="sd">        :param topk: Number of selected top sample, samples will be</span>
-<span class="sd">            selected if their specified field values are within this</span>
-<span class="sd">            parameter. When both topk and top_ratio are set, the value</span>
-<span class="sd">            corresponding to the smaller number of samples will be</span>
-<span class="sd">            applied.</span>
-<span class="sd">        :param reverse: Determine the sorting rule, if reverse=True,</span>
-<span class="sd">            then sort in descending order.</span>
-<span class="sd">        :param args: extra args</span>
-<span class="sd">        :param kwargs: extra args</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="o">=</span> <span class="n">field_key</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">top_ratio</span> <span class="o">=</span> <span class="n">top_ratio</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">topk</span> <span class="o">=</span> <span class="n">topk</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">reverse</span> <span class="o">=</span> <span class="n">reverse</span>
-
-<div class="viewcode-block" id="TopkSpecifiedFieldSelector.process"><a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span> <span class="ow">or</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="p">:</span>
-            <span class="k">return</span> <span class="n">dataset</span>
-
-        <span class="n">select_num</span> <span class="o">=</span> <span class="mi">0</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">top_ratio</span><span class="p">:</span>
-            <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span><span class="p">:</span>
-                <span class="k">return</span> <span class="n">dataset</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">select_num</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">select_num</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">top_ratio</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
-            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span> <span class="o">&lt;</span> <span class="n">select_num</span><span class="p">:</span>
-                <span class="n">select_num</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">topk</span>
-
-        <span class="n">field_keys</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span>
-        <span class="k">assert</span> <span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="o">.</span><span class="n">keys</span><span class="p">(</span>
-        <span class="p">),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
-
-        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">field_keys</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
-            <span class="n">field_value_list</span> <span class="o">=</span> <span class="n">dataset</span><span class="p">[</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]]</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">field_value_list</span> <span class="o">=</span> <span class="p">[]</span>
-            <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">dataset</span><span class="p">[</span><span class="n">field_keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]]:</span>
-                <span class="n">field_value</span> <span class="o">=</span> <span class="n">item</span>
-                <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_keys</span><span class="p">[</span><span class="mi">1</span><span class="p">:]:</span>
-                    <span class="k">assert</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">(),</span> <span class="s2">&quot;&#39;</span><span class="si">{}</span><span class="s2">&#39; not in </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
-                        <span class="n">key</span><span class="p">,</span> <span class="n">field_value</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
-                    <span class="n">field_value</span> <span class="o">=</span> <span class="n">field_value</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
-                <span class="n">field_value_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">to_number</span><span class="p">(</span><span class="n">field_value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">reverse</span><span class="p">))</span>
-
-        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">reverse</span><span class="p">:</span>
-            <span class="n">select_index</span> <span class="o">=</span> <span class="n">heapq</span><span class="o">.</span><span class="n">nlargest</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">select_num</span><span class="p">),</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)),</span>
-                                          <span class="n">field_value_list</span><span class="o">.</span><span class="fm">__getitem__</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">select_index</span> <span class="o">=</span> <span class="n">heapq</span><span class="o">.</span><span class="n">nsmallest</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">select_num</span><span class="p">),</span>
-                                           <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)),</span>
-                                           <span class="n">field_value_list</span><span class="o">.</span><span class="fm">__getitem__</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">dataset</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="n">select_index</span><span class="p">)</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/asset_utils.html b/_modules/data_juicer/utils/asset_utils.html
deleted file mode 100644
index 21ae2ea46..000000000
--- a/_modules/data_juicer/utils/asset_utils.html
+++ /dev/null
@@ -1,159 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.utils.asset_utils &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.utils.asset_utils</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.utils.asset_utils</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">json</span>
-<span class="kn">import</span> <span class="nn">os</span>
-
-<span class="kn">import</span> <span class="nn">requests</span>
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-<span class="kn">from</span> <span class="nn">.cache_utils</span> <span class="kn">import</span> <span class="n">DATA_JUICER_ASSETS_CACHE</span>
-
-<span class="c1"># Default directory to store auxiliary resources</span>
-<span class="n">ASSET_DIR</span> <span class="o">=</span> <span class="n">DATA_JUICER_ASSETS_CACHE</span>
-
-<span class="c1"># Default cached assets links for downloading</span>
-<span class="n">ASSET_LINKS</span> <span class="o">=</span> <span class="p">{</span>
-    <span class="s1">&#39;flagged_words&#39;</span><span class="p">:</span>
-    <span class="s1">&#39;https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/&#39;</span>
-    <span class="s1">&#39;data_juicer/flagged_words.json&#39;</span><span class="p">,</span>
-    <span class="s1">&#39;stopwords&#39;</span><span class="p">:</span>
-    <span class="s1">&#39;https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/&#39;</span>
-    <span class="s1">&#39;data_juicer/stopwords.json&#39;</span><span class="p">,</span>
-<span class="p">}</span>
-
-
-<div class="viewcode-block" id="load_words_asset"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.asset_utils.load_words_asset">[docs]</a><span class="k">def</span> <span class="nf">load_words_asset</span><span class="p">(</span><span class="n">words_dir</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">words_type</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Load words from a asset file named `words_type`, if not find a valid asset</span>
-<span class="sd">    file, then download it from ASSET_LINKS cached by data_juicer team.</span>
-
-<span class="sd">    :param words_dir: directory that stores asset file(s)</span>
-<span class="sd">    :param words_type: name of target words assets</span>
-<span class="sd">    :return: a dict that stores words assets, whose keys are language</span>
-<span class="sd">        names, and the values are lists of words</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">words_dict</span> <span class="o">=</span> <span class="p">{}</span>
-    <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">words_dir</span><span class="p">,</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-
-    <span class="c1"># try to load words from `words_type` file</span>
-    <span class="k">for</span> <span class="n">filename</span> <span class="ow">in</span> <span class="n">os</span><span class="o">.</span><span class="n">listdir</span><span class="p">(</span><span class="n">words_dir</span><span class="p">):</span>
-        <span class="k">if</span> <span class="n">filename</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s1">&#39;.json&#39;</span><span class="p">)</span> <span class="ow">and</span> <span class="n">words_type</span> <span class="ow">in</span> <span class="n">filename</span><span class="p">:</span>
-            <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">words_dir</span><span class="p">,</span> <span class="n">filename</span><span class="p">),</span> <span class="s1">&#39;r&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">file</span><span class="p">:</span>
-                <span class="n">loaded_words</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
-                <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_words</span><span class="p">:</span>
-                    <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">words_dict</span><span class="p">:</span>
-                        <span class="n">words_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">+=</span> <span class="n">loaded_words</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
-                    <span class="k">else</span><span class="p">:</span>
-                        <span class="n">words_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">loaded_words</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
-    <span class="c1"># if the asset file is not found, then download it from ASSET_LINKS</span>
-    <span class="k">if</span> <span class="ow">not</span> <span class="nb">bool</span><span class="p">(</span><span class="n">words_dict</span><span class="p">):</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Specified </span><span class="si">{</span><span class="n">words_dir</span><span class="si">}</span><span class="s1"> does not contain &#39;</span>
-                    <span class="sa">f</span><span class="s1">&#39;any </span><span class="si">{</span><span class="n">words_type</span><span class="si">}</span><span class="s1"> files in json format, now &#39;</span>
-                    <span class="s1">&#39;download the one cached by data_juicer team&#39;</span><span class="p">)</span>
-        <span class="n">response</span> <span class="o">=</span> <span class="n">requests</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">ASSET_LINKS</span><span class="p">[</span><span class="n">words_type</span><span class="p">])</span>
-        <span class="n">words_dict</span> <span class="o">=</span> <span class="n">response</span><span class="o">.</span><span class="n">json</span><span class="p">()</span>
-        <span class="c1"># cache the asset file locally</span>
-        <span class="n">cache_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">words_dir</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">words_type</span><span class="si">}</span><span class="s1">.json&#39;</span><span class="p">)</span>
-        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">cache_path</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">file</span><span class="p">:</span>
-            <span class="n">json</span><span class="o">.</span><span class="n">dump</span><span class="p">(</span><span class="n">words_dict</span><span class="p">,</span> <span class="n">file</span><span class="p">)</span>
-
-    <span class="k">return</span> <span class="n">words_dict</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/ckpt_utils.html b/_modules/data_juicer/utils/ckpt_utils.html
deleted file mode 100644
index 62bb44ec9..000000000
--- a/_modules/data_juicer/utils/ckpt_utils.html
+++ /dev/null
@@ -1,229 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.utils.ckpt_utils &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.utils.ckpt_utils</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.utils.ckpt_utils</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">json</span>
-<span class="kn">import</span> <span class="nn">os</span>
-
-<span class="kn">from</span> <span class="nn">datasets</span> <span class="kn">import</span> <span class="n">Dataset</span>
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-
-<div class="viewcode-block" id="CheckpointManager"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager">[docs]</a><span class="k">class</span> <span class="nc">CheckpointManager</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    This class is used to save the latest version of dataset to checkpoint</span>
-<span class="sd">    directory or load it from checkpoint directory, a bit like cache management</span>
-<span class="sd">    Rerun the same config will reload the checkpoint and skip ops before it.</span>
-
-<span class="sd">    If any args of operator in process list is changed, all ops will be</span>
-<span class="sd">    rerun from the beginning.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ckpt_dir</span><span class="p">,</span> <span class="n">original_process_list</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param ckpt_dir: path to save and load checkpoint</span>
-<span class="sd">        :param original_process_list: process list in config</span>
-<span class="sd">        :param num_proc: number of process workers when saving dataset</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_dir</span> <span class="o">=</span> <span class="n">ckpt_dir</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_dir</span><span class="p">,</span> <span class="s1">&#39;latest&#39;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_dir</span><span class="p">,</span> <span class="s1">&#39;ckpt_op.json&#39;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span> <span class="o">=</span> <span class="n">original_process_list</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="o">=</span> <span class="n">num_proc</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span> <span class="o">=</span> <span class="p">[]</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_available</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">check_ckpt</span><span class="p">()</span>
-
-<div class="viewcode-block" id="CheckpointManager.get_left_process_list"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list">[docs]</a>    <span class="k">def</span> <span class="nf">get_left_process_list</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Get left process list of ops for processing dataset, when checkpoint is</span>
-<span class="sd">        available, remove some ops from process list, otherwise keep it</span>
-<span class="sd">        unchanged.</span>
-
-<span class="sd">        :return: process list of left ops</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span></div>
-
-<div class="viewcode-block" id="CheckpointManager.check_ckpt"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt">[docs]</a>    <span class="k">def</span> <span class="nf">check_ckpt</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Check if checkpoint is available.</span>
-
-<span class="sd">        :return: True when checkpoint is available, else False</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span><span class="p">)</span> \
-                <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isdir</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span><span class="p">)</span> \
-                <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span><span class="p">)</span> \
-                <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span><span class="p">)</span> \
-                <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">check_ops_to_skip</span><span class="p">():</span>
-            <span class="k">return</span> <span class="kc">True</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_dir</span><span class="p">,</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-            <span class="k">return</span> <span class="kc">False</span></div>
-
-<div class="viewcode-block" id="CheckpointManager.record"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.record">[docs]</a>    <span class="k">def</span> <span class="nf">record</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">op_name</span><span class="p">,</span> <span class="n">op_args</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Save op name and args to op record, which is used to compare with</span>
-<span class="sd">        the process list from config to decide if a checkpoint is available.&quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="o">.</span><span class="n">append</span><span class="p">({</span><span class="n">op_name</span><span class="p">:</span> <span class="n">op_args</span><span class="p">})</span></div>
-
-<div class="viewcode-block" id="CheckpointManager.check_ops_to_skip"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip">[docs]</a>    <span class="k">def</span> <span class="nf">check_ops_to_skip</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Check which ops need to be skipped in the process list.</span>
-
-<span class="sd">        If op record list from checkpoint are the same as the prefix</span>
-<span class="sd">        part of process list, then skip these ops and start processing</span>
-<span class="sd">        from the checkpoint. Otherwise, process the original dataset</span>
-<span class="sd">        from scratch.</span>
-
-<span class="sd">        :return: whether to skip somme ops or not</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-
-        <span class="c1"># load op records</span>
-        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span><span class="p">,</span> <span class="s1">&#39;r&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">fin</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">fin</span><span class="p">)</span>
-
-        <span class="c1"># check whether the op records are exactly the same</span>
-        <span class="c1"># with prefix of process list</span>
-        <span class="c1"># 1. same: remove these ops from process list</span>
-        <span class="c1"># 2. different: cleanup op record, and keep process list unchanged</span>
-        <span class="n">recorded_op_num</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="p">)</span>
-        <span class="n">prefix_process</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span><span class="p">[:</span><span class="n">recorded_op_num</span><span class="p">]</span>
-        <span class="n">all_the_same</span> <span class="o">=</span> <span class="kc">True</span>
-        <span class="n">dif1</span><span class="p">,</span> <span class="n">dif2</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span>
-
-        <span class="k">for</span> <span class="n">record_op</span><span class="p">,</span> <span class="n">config_op</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="p">,</span> <span class="n">prefix_process</span><span class="p">):</span>
-            <span class="k">if</span> <span class="n">record_op</span> <span class="o">!=</span> <span class="n">config_op</span><span class="p">:</span>
-                <span class="n">all_the_same</span> <span class="o">=</span> <span class="kc">False</span>
-                <span class="n">dif1</span><span class="p">,</span> <span class="n">dif2</span> <span class="o">=</span> <span class="n">record_op</span><span class="p">,</span> <span class="n">config_op</span>
-                <span class="k">break</span>
-        <span class="k">if</span> <span class="n">all_the_same</span><span class="p">:</span>
-            <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="p">:</span>
-                <span class="n">op_name</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">keys</span><span class="p">())[</span><span class="mi">0</span><span class="p">]</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Skip op [</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span><span class="p">[</span><span class="n">recorded_op_num</span><span class="p">:]</span>
-            <span class="k">return</span> <span class="kc">True</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Processed ops of checkpoint are different from &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;current configs: checkpoint-</span><span class="si">{</span><span class="n">dif1</span><span class="si">}</span><span class="s1"> vs. config-&#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">dif2</span><span class="si">}</span><span class="s1">. All ops will be processed from the &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;beginning&#39;</span><span class="p">)</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span> <span class="o">=</span> <span class="p">[]</span>
-            <span class="k">return</span> <span class="kc">False</span></div>
-
-<div class="viewcode-block" id="CheckpointManager.save_ckpt"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt">[docs]</a>    <span class="k">def</span> <span class="nf">save_ckpt</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ds</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Save dataset to checkpoint directory and dump processed ops list.</span>
-
-<span class="sd">        :param ds: input dataset to save</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">ds</span><span class="o">.</span><span class="n">save_to_disk</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span><span class="p">)</span>
-
-        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">fout</span><span class="p">:</span>
-            <span class="n">json</span><span class="o">.</span><span class="n">dump</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="p">,</span> <span class="n">fout</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="CheckpointManager.load_ckpt"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt">[docs]</a>    <span class="k">def</span> <span class="nf">load_ckpt</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Load dataset from a checkpoint file.</span>
-
-<span class="sd">        :return: a dataset stored in checkpoint file.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">ds</span> <span class="o">=</span> <span class="n">Dataset</span><span class="o">.</span><span class="n">load_from_disk</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">ds</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/file_utils.html b/_modules/data_juicer/utils/file_utils.html
deleted file mode 100644
index af14e5c6a..000000000
--- a/_modules/data_juicer/utils/file_utils.html
+++ /dev/null
@@ -1,170 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.utils.file_utils &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.utils.file_utils</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.utils.file_utils</h1><div class="highlight"><pre>
-<span></span><span class="kn">from</span> <span class="nn">pathlib</span> <span class="kn">import</span> <span class="n">Path</span>
-<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
-
-<span class="kn">from</span> <span class="nn">datasets.utils.extract</span> <span class="kn">import</span> <span class="n">ZstdExtractor</span> <span class="k">as</span> <span class="n">Extractor</span>
-
-
-<div class="viewcode-block" id="find_files_with_suffix"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.find_files_with_suffix">[docs]</a><span class="k">def</span> <span class="nf">find_files_with_suffix</span><span class="p">(</span>
-        <span class="n">path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Path</span><span class="p">],</span>
-        <span class="n">suffixes</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Traverse a path to find all files with the specified suffixes.</span>
-
-<span class="sd">    :param path: path (str/Path): source path</span>
-<span class="sd">    :param suffixes: specified file suffixes, &#39;.txt&#39; or [&#39;.txt&#39;, &#39;.md&#39;]</span>
-<span class="sd">        etc</span>
-<span class="sd">    :return: list of all files with the specified suffixes</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">path</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">path</span><span class="p">)</span>
-    <span class="n">file_dict</span> <span class="o">=</span> <span class="p">{}</span>
-
-    <span class="k">if</span> <span class="n">suffixes</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-        <span class="n">suffixes</span> <span class="o">=</span> <span class="p">[]</span>
-
-    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">suffixes</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
-        <span class="n">suffixes</span> <span class="o">=</span> <span class="p">[</span><span class="n">suffixes</span><span class="p">]</span>
-
-    <span class="n">suffixes</span> <span class="o">=</span> <span class="p">[</span>
-        <span class="n">x</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">if</span> <span class="n">x</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span> <span class="k">else</span> <span class="s1">&#39;.&#39;</span> <span class="o">+</span> <span class="n">x</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">suffixes</span>
-    <span class="p">]</span>
-
-    <span class="k">if</span> <span class="n">path</span><span class="o">.</span><span class="n">is_file</span><span class="p">():</span>
-        <span class="n">files</span> <span class="o">=</span> <span class="p">[</span><span class="n">path</span><span class="p">]</span>
-    <span class="k">else</span><span class="p">:</span>
-        <span class="n">searched_files</span> <span class="o">=</span> <span class="n">path</span><span class="o">.</span><span class="n">rglob</span><span class="p">(</span><span class="s1">&#39;*&#39;</span><span class="p">)</span>
-        <span class="n">files</span> <span class="o">=</span> <span class="p">[</span><span class="n">file</span> <span class="k">for</span> <span class="n">file</span> <span class="ow">in</span> <span class="n">searched_files</span> <span class="k">if</span> <span class="n">file</span><span class="o">.</span><span class="n">is_file</span><span class="p">()]</span>
-
-    <span class="n">extractor</span> <span class="o">=</span> <span class="n">Extractor</span>
-
-    <span class="c1"># only keep the file with the specified suffixes</span>
-    <span class="k">for</span> <span class="n">file</span> <span class="ow">in</span> <span class="n">files</span><span class="p">:</span>
-        <span class="n">suffix</span> <span class="o">=</span> <span class="n">file</span><span class="o">.</span><span class="n">suffix</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
-
-        <span class="k">if</span> <span class="n">extractor</span><span class="o">.</span><span class="n">is_extractable</span><span class="p">(</span><span class="n">file</span><span class="p">):</span>
-
-            <span class="c1"># TODO</span>
-            <span class="c1"># hard code</span>
-            <span class="c1"># only support zstd-format file now,</span>
-            <span class="c1"># and use the last 2 sub-suffixes as the final suffix</span>
-            <span class="c1"># just like &#39;.jsonl.zst&#39;</span>
-            <span class="n">file_suffixes</span> <span class="o">=</span> <span class="p">[</span><span class="n">suffix</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">for</span> <span class="n">suffix</span> <span class="ow">in</span> <span class="n">file</span><span class="o">.</span><span class="n">suffixes</span><span class="p">]</span>
-            <span class="n">suffix</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">file_suffixes</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:])</span>
-
-        <span class="k">if</span> <span class="ow">not</span> <span class="n">suffixes</span> <span class="ow">or</span> <span class="p">(</span><span class="n">suffix</span> <span class="ow">in</span> <span class="n">suffixes</span><span class="p">):</span>
-            <span class="k">if</span> <span class="n">suffix</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">file_dict</span><span class="p">:</span>
-                <span class="n">file_dict</span><span class="p">[</span><span class="n">suffix</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="nb">str</span><span class="p">(</span><span class="n">file</span><span class="p">)]</span>
-            <span class="k">else</span><span class="p">:</span>
-                <span class="n">file_dict</span><span class="p">[</span><span class="n">suffix</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">file</span><span class="p">))</span>
-    <span class="k">return</span> <span class="n">file_dict</span></div>
-
-
-<div class="viewcode-block" id="is_absolute_path"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.is_absolute_path">[docs]</a><span class="k">def</span> <span class="nf">is_absolute_path</span><span class="p">(</span><span class="n">path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Path</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Check whether input path is a absolute path.</span>
-
-<span class="sd">    :param path: input path</span>
-<span class="sd">    :return: True means input path is absolute path, False means input</span>
-<span class="sd">        path is a relative path.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">return</span> <span class="n">Path</span><span class="p">(</span><span class="n">path</span><span class="p">)</span><span class="o">.</span><span class="n">is_absolute</span><span class="p">()</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/logger_utils.html b/_modules/data_juicer/utils/logger_utils.html
deleted file mode 100644
index 726f0102d..000000000
--- a/_modules/data_juicer/utils/logger_utils.html
+++ /dev/null
@@ -1,253 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.utils.logger_utils &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.utils.logger_utils</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.utils.logger_utils</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Some codes here are adapted from</span>
-<span class="c1"># https://github.com/MegEngine/YOLOX/blob/main/yolox/utils/logger.py</span>
-
-<span class="c1"># Copyright 2021 Megvii, Base Detection</span>
-<span class="c1">#</span>
-<span class="c1">#    Licensed under the Apache License, Version 2.0 (the &quot;License&quot;);</span>
-<span class="c1">#    you may not use this file except in compliance with the License.</span>
-<span class="c1">#    You may obtain a copy of the License at</span>
-<span class="c1">#</span>
-<span class="c1">#        http://www.apache.org/licenses/LICENSE-2.0</span>
-<span class="c1">#</span>
-<span class="c1">#    Unless required by applicable law or agreed to in writing, software</span>
-<span class="c1">#    distributed under the License is distributed on an &quot;AS IS&quot; BASIS,</span>
-<span class="c1">#    WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.</span>
-<span class="c1">#    See the License for the specific language governing permissions and</span>
-<span class="c1">#    limitations under the License.</span>
-
-<span class="kn">import</span> <span class="nn">inspect</span>
-<span class="kn">import</span> <span class="nn">os</span>
-<span class="kn">import</span> <span class="nn">sys</span>
-
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-<span class="kn">from</span> <span class="nn">loguru._file_sink</span> <span class="kn">import</span> <span class="n">FileSink</span>
-
-<span class="n">LOGGER_SETUP</span> <span class="o">=</span> <span class="kc">False</span>
-
-
-<div class="viewcode-block" id="get_caller_name"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.get_caller_name">[docs]</a><span class="k">def</span> <span class="nf">get_caller_name</span><span class="p">(</span><span class="n">depth</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Get caller name by depth.</span>
-
-<span class="sd">    :param depth: depth of caller context, use 0 for caller depth.</span>
-<span class="sd">    :return: module name of the caller</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="c1"># the following logic is a little bit faster than inspect.stack() logic</span>
-    <span class="n">frame</span> <span class="o">=</span> <span class="n">inspect</span><span class="o">.</span><span class="n">currentframe</span><span class="p">()</span><span class="o">.</span><span class="n">f_back</span>
-    <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">depth</span><span class="p">):</span>
-        <span class="n">frame</span> <span class="o">=</span> <span class="n">frame</span><span class="o">.</span><span class="n">f_back</span>
-
-    <span class="k">return</span> <span class="n">frame</span><span class="o">.</span><span class="n">f_globals</span><span class="p">[</span><span class="s1">&#39;__name__&#39;</span><span class="p">]</span></div>
-
-
-<div class="viewcode-block" id="StreamToLoguru"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru">[docs]</a><span class="k">class</span> <span class="nc">StreamToLoguru</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Stream object that redirects writes to a logger instance.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">level</span><span class="o">=</span><span class="s1">&#39;INFO&#39;</span><span class="p">,</span> <span class="n">caller_names</span><span class="o">=</span><span class="p">(</span><span class="s1">&#39;datasets&#39;</span><span class="p">,</span> <span class="s1">&#39;logging&#39;</span><span class="p">)):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param level: log level string of loguru. Default value: &quot;INFO&quot;.</span>
-<span class="sd">        :param caller_names: caller names of redirected module.</span>
-<span class="sd">                    Default value: (apex, pycocotools).</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">level</span> <span class="o">=</span> <span class="n">level</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">linebuf</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">caller_names</span> <span class="o">=</span> <span class="n">caller_names</span>
-
-<div class="viewcode-block" id="StreamToLoguru.write"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.write">[docs]</a>    <span class="k">def</span> <span class="nf">write</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">buf</span><span class="p">):</span>
-        <span class="n">full_name</span> <span class="o">=</span> <span class="n">get_caller_name</span><span class="p">(</span><span class="n">depth</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
-        <span class="n">module_name</span> <span class="o">=</span> <span class="n">full_name</span><span class="o">.</span><span class="n">rsplit</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">,</span> <span class="n">maxsplit</span><span class="o">=-</span><span class="mi">1</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
-        <span class="k">if</span> <span class="n">module_name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">caller_names</span><span class="p">:</span>
-            <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">buf</span><span class="o">.</span><span class="n">rstrip</span><span class="p">()</span><span class="o">.</span><span class="n">splitlines</span><span class="p">():</span>
-                <span class="c1"># use caller level log</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">opt</span><span class="p">(</span><span class="n">depth</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">level</span><span class="p">,</span> <span class="n">line</span><span class="o">.</span><span class="n">rstrip</span><span class="p">())</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="c1"># sys.__stdout__.write(buf)</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">opt</span><span class="p">(</span><span class="n">raw</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="n">buf</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="StreamToLoguru.flush"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.flush">[docs]</a>    <span class="k">def</span> <span class="nf">flush</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">pass</span></div></div>
-
-
-<div class="viewcode-block" id="redirect_sys_output"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.redirect_sys_output">[docs]</a><span class="k">def</span> <span class="nf">redirect_sys_output</span><span class="p">(</span><span class="n">log_level</span><span class="o">=</span><span class="s1">&#39;INFO&#39;</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Redirect stdout/stderr to loguru with log level.</span>
-
-<span class="sd">    :param log_level: log level string of loguru. Default value: &quot;INFO&quot;.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="n">redirect_logger</span> <span class="o">=</span> <span class="n">StreamToLoguru</span><span class="p">(</span><span class="n">log_level</span><span class="p">)</span>
-    <span class="n">sys</span><span class="o">.</span><span class="n">stderr</span> <span class="o">=</span> <span class="n">redirect_logger</span>
-    <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span> <span class="o">=</span> <span class="n">redirect_logger</span></div>
-
-
-<div class="viewcode-block" id="get_log_file_path"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.get_log_file_path">[docs]</a><span class="k">def</span> <span class="nf">get_log_file_path</span><span class="p">():</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Get the path to the location of the log file.</span>
-
-<span class="sd">    :return: a location of log file.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">handler</span> <span class="ow">in</span> <span class="n">logger</span><span class="o">.</span><span class="n">_core</span><span class="o">.</span><span class="n">handlers</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">handler</span><span class="o">.</span><span class="n">_sink</span><span class="p">,</span> <span class="n">FileSink</span><span class="p">):</span>
-            <span class="k">return</span> <span class="n">handler</span><span class="o">.</span><span class="n">_sink</span><span class="o">.</span><span class="n">_file</span><span class="o">.</span><span class="n">name</span></div>
-
-
-<div class="viewcode-block" id="setup_logger"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.setup_logger">[docs]</a><span class="k">def</span> <span class="nf">setup_logger</span><span class="p">(</span><span class="n">save_dir</span><span class="p">,</span> <span class="n">distributed_rank</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">filename</span><span class="o">=</span><span class="s1">&#39;log.txt&#39;</span><span class="p">,</span> <span class="n">mode</span><span class="o">=</span><span class="s1">&#39;o&#39;</span><span class="p">,</span> <span class="n">redirect</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Setup logger for training and testing.</span>
-
-<span class="sd">    :param save_dir: location to save log file</span>
-<span class="sd">    :param distributed_rank: device rank when multi-gpu environment</span>
-<span class="sd">    :param filename: log file name to save</span>
-<span class="sd">    :param mode: log file write mode, `append` or `override`. default is `o`.</span>
-<span class="sd">    :param redirect: whether to redirect system output</span>
-<span class="sd">    :return: logger instance.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">global</span> <span class="n">LOGGER_SETUP</span>
-
-    <span class="k">if</span> <span class="n">LOGGER_SETUP</span><span class="p">:</span>
-        <span class="k">return</span>
-
-    <span class="n">loguru_format</span> <span class="o">=</span> <span class="p">(</span>
-        <span class="s1">&#39;&lt;green&gt;{time:YYYY-MM-DD HH:mm:ss}&lt;/green&gt; | &#39;</span>
-        <span class="s1">&#39;&lt;level&gt;</span><span class="si">{level: &lt;8}</span><span class="s1">&lt;/level&gt; | &#39;</span>
-        <span class="s1">&#39;&lt;cyan&gt;</span><span class="si">{name}</span><span class="s1">&lt;/cyan&gt;:&lt;cyan&gt;</span><span class="si">{line}</span><span class="s1">&lt;/cyan&gt; - &lt;level&gt;</span><span class="si">{message}</span><span class="s1">&lt;/level&gt;&#39;</span><span class="p">)</span>
-
-    <span class="n">logger</span><span class="o">.</span><span class="n">remove</span><span class="p">()</span>
-    <span class="n">save_file</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">save_dir</span><span class="p">,</span> <span class="n">filename</span><span class="p">)</span>
-    <span class="k">if</span> <span class="n">mode</span> <span class="o">==</span> <span class="s1">&#39;o&#39;</span> <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">save_file</span><span class="p">):</span>
-        <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">save_file</span><span class="p">)</span>
-
-    <span class="c1"># only keep logger in rank0 process</span>
-    <span class="k">if</span> <span class="n">distributed_rank</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">add</span><span class="p">(</span>
-            <span class="n">sys</span><span class="o">.</span><span class="n">stderr</span><span class="p">,</span>
-            <span class="nb">format</span><span class="o">=</span><span class="n">loguru_format</span><span class="p">,</span>
-            <span class="n">level</span><span class="o">=</span><span class="s1">&#39;INFO&#39;</span><span class="p">,</span>
-            <span class="n">enqueue</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-        <span class="p">)</span>
-        <span class="n">logger</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">save_file</span><span class="p">)</span>
-
-    <span class="c1"># redirect stdout/stderr to loguru</span>
-    <span class="k">if</span> <span class="n">redirect</span><span class="p">:</span>
-        <span class="n">redirect_sys_output</span><span class="p">(</span><span class="s1">&#39;INFO&#39;</span><span class="p">)</span>
-    <span class="n">LOGGER_SETUP</span> <span class="o">=</span> <span class="kc">True</span></div>
-
-<div class="viewcode-block" id="HiddenPrints"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.HiddenPrints">[docs]</a><span class="k">class</span> <span class="nc">HiddenPrints</span><span class="p">:</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Define a range that hide the outputs within this range.&quot;&quot;&quot;</span>
-    <span class="k">def</span> <span class="fm">__enter__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Store the original standard output and redirect the standard output to</span>
-<span class="sd">        null when entering this range.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_original_stdout</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span>
-        <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span> <span class="o">=</span> <span class="nb">open</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">devnull</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span>
-
-    <span class="k">def</span> <span class="fm">__exit__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">exc_type</span><span class="p">,</span> <span class="n">exc_val</span><span class="p">,</span> <span class="n">exc_tb</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Close the redirected standard output and restore it when exiting from</span>
-<span class="sd">        this range.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
-        <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_original_stdout</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/model_utils.html b/_modules/data_juicer/utils/model_utils.html
deleted file mode 100644
index 56b09db10..000000000
--- a/_modules/data_juicer/utils/model_utils.html
+++ /dev/null
@@ -1,352 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.utils.model_utils &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.utils.model_utils</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.utils.model_utils</h1><div class="highlight"><pre>
-<span></span><span class="kn">import</span> <span class="nn">os</span>
-
-<span class="kn">import</span> <span class="nn">wget</span>
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-<span class="kn">from</span> <span class="nn">.cache_utils</span> <span class="kn">import</span> <span class="n">DATA_JUICER_MODELS_CACHE</span>
-
-<span class="c1"># Default directory to store models</span>
-<span class="n">MODEL_PATH</span> <span class="o">=</span> <span class="n">DATA_JUICER_MODELS_CACHE</span>
-
-<span class="c1"># Default backup cached models links for downloading</span>
-<span class="n">BACKUP_MODEL_LINKS</span> <span class="o">=</span> <span class="p">{</span>
-    <span class="c1"># language identification model from fasttext</span>
-    <span class="s1">&#39;lid.176.bin&#39;</span><span class="p">:</span>
-    <span class="s1">&#39;https://dl.fbaipublicfiles.com/fasttext/supervised-models/&#39;</span><span class="p">,</span>
-
-    <span class="c1"># tokenizer and language model for English from sentencepiece and KenLM</span>
-    <span class="s1">&#39;</span><span class="si">%s</span><span class="s1">.sp.model&#39;</span><span class="p">:</span>
-    <span class="s1">&#39;https://huggingface.co/edugp/kenlm/resolve/main/wikipedia/&#39;</span><span class="p">,</span>
-    <span class="s1">&#39;</span><span class="si">%s</span><span class="s1">.arpa.bin&#39;</span><span class="p">:</span>
-    <span class="s1">&#39;https://huggingface.co/edugp/kenlm/resolve/main/wikipedia/&#39;</span><span class="p">,</span>
-
-    <span class="c1"># sentence split model from nltk punkt</span>
-    <span class="s1">&#39;punkt.</span><span class="si">%s</span><span class="s1">.pickle&#39;</span><span class="p">:</span>
-    <span class="s1">&#39;https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/&#39;</span>
-    <span class="s1">&#39;data_juicer/models/&#39;</span>
-<span class="p">}</span>
-
-<span class="c1"># Default cached models links for downloading</span>
-<span class="n">MODEL_LINKS</span> <span class="o">=</span> <span class="s1">&#39;https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/&#39;</span> \
-               <span class="s1">&#39;data_juicer/models/&#39;</span>
-
-<span class="n">MODEL_ZOO</span> <span class="o">=</span> <span class="p">{}</span>
-
-
-<div class="viewcode-block" id="check_model"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.check_model">[docs]</a><span class="k">def</span> <span class="nf">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">args</span><span class="o">=</span><span class="p">(),</span> <span class="n">force</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Check whether a model exists in MODEL_PATH. If exists, return its full path</span>
-<span class="sd">    Else, download it from cached models links.</span>
-
-<span class="sd">    :param model_name: a specified model name</span>
-<span class="sd">    :param args: optional extra args of model.</span>
-<span class="sd">    :param force: Whether to download model forcefully or not, Sometimes</span>
-<span class="sd">        the model file maybe incomplete for some reason, so need to</span>
-<span class="sd">        download again forcefully.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">MODEL_PATH</span><span class="p">):</span>
-        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">MODEL_PATH</span><span class="p">)</span>
-
-    <span class="c1"># check if the specified model exists. If it does not exist, download it</span>
-    <span class="n">true_model_name</span> <span class="o">=</span> <span class="n">model_name</span> <span class="o">%</span> <span class="n">args</span>
-    <span class="n">mdp</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">MODEL_PATH</span><span class="p">,</span> <span class="n">true_model_name</span><span class="p">)</span>
-    <span class="k">if</span> <span class="n">force</span><span class="p">:</span>
-        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">mdp</span><span class="p">):</span>
-            <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">mdp</span><span class="p">)</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
-                <span class="sa">f</span><span class="s1">&#39;Model [</span><span class="si">{</span><span class="n">true_model_name</span><span class="si">}</span><span class="s1">] invalid, force to downloading...&#39;</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
-                <span class="sa">f</span><span class="s1">&#39;Model [</span><span class="si">{</span><span class="n">true_model_name</span><span class="si">}</span><span class="s1">] not found . Downloading...&#39;</span><span class="p">)</span>
-
-        <span class="k">try</span><span class="p">:</span>
-            <span class="n">model_link</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">MODEL_LINKS</span><span class="p">,</span> <span class="n">true_model_name</span><span class="p">)</span>
-            <span class="n">wget</span><span class="o">.</span><span class="n">download</span><span class="p">(</span><span class="n">model_link</span><span class="p">,</span> <span class="n">mdp</span><span class="p">,</span> <span class="n">bar</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span>
-        <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
-            <span class="k">try</span><span class="p">:</span>
-                <span class="n">backup_model_link</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
-                    <span class="n">BACKUP_MODEL_LINKS</span><span class="p">[</span><span class="n">model_name</span><span class="p">],</span> <span class="n">true_model_name</span><span class="p">)</span>
-                <span class="n">wget</span><span class="o">.</span><span class="n">download</span><span class="p">(</span><span class="n">backup_model_link</span><span class="p">,</span> <span class="n">mdp</span><span class="p">,</span> <span class="n">bar</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span>
-            <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
-                <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span>
-                    <span class="sa">f</span><span class="s1">&#39;Downloading model [</span><span class="si">{</span><span class="n">true_model_name</span><span class="si">}</span><span class="s1">] error. &#39;</span>
-                    <span class="sa">f</span><span class="s1">&#39;Please retry later or download it into </span><span class="si">{</span><span class="n">MODEL_PATH</span><span class="si">}</span><span class="s1"> &#39;</span>
-                    <span class="sa">f</span><span class="s1">&#39;manually from </span><span class="si">{</span><span class="n">model_link</span><span class="si">}</span><span class="s1"> or </span><span class="si">{</span><span class="n">backup_model_link</span><span class="si">}</span><span class="s1"> &#39;</span><span class="p">)</span>
-                <span class="n">exit</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">mdp</span></div>
-
-
-<div class="viewcode-block" id="prepare_fasttext_model"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_fasttext_model">[docs]</a><span class="k">def</span> <span class="nf">prepare_fasttext_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Prepare and load a fasttext model.</span>
-
-<span class="sd">    :param model_name: input model name</span>
-<span class="sd">    :return: model instance.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="kn">import</span> <span class="nn">fasttext</span>
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading fasttext language identification model...&#39;</span><span class="p">)</span>
-    <span class="k">try</span><span class="p">:</span>
-        <span class="n">ft_model</span> <span class="o">=</span> <span class="n">fasttext</span><span class="o">.</span><span class="n">load_model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">))</span>
-    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
-        <span class="n">ft_model</span> <span class="o">=</span> <span class="n">fasttext</span><span class="o">.</span><span class="n">load_model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">))</span>
-    <span class="k">return</span> <span class="n">ft_model</span></div>
-
-
-<div class="viewcode-block" id="prepare_sentencepiece_model"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_model">[docs]</a><span class="k">def</span> <span class="nf">prepare_sentencepiece_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">lang</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Prepare and load a sentencepiece model.</span>
-
-<span class="sd">    :param model_name: input model name in formatting syntax</span>
-<span class="sd">    :param lang: language to render model name</span>
-<span class="sd">    :return: model instance.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="kn">import</span> <span class="nn">sentencepiece</span>
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading sentencepiece model...&#39;</span><span class="p">)</span>
-    <span class="n">sentencepiece_model</span> <span class="o">=</span> <span class="n">sentencepiece</span><span class="o">.</span><span class="n">SentencePieceProcessor</span><span class="p">()</span>
-    <span class="k">try</span><span class="p">:</span>
-        <span class="n">sentencepiece_model</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">lang</span><span class="p">))</span>
-    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
-        <span class="n">sentencepiece_model</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">lang</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">))</span>
-    <span class="k">return</span> <span class="n">sentencepiece_model</span></div>
-
-
-<div class="viewcode-block" id="prepare_kenlm_model"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_kenlm_model">[docs]</a><span class="k">def</span> <span class="nf">prepare_kenlm_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">lang</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Prepare and load a kenlm model.</span>
-
-<span class="sd">    :param model_name: input model name in formatting syntax.</span>
-<span class="sd">    :param lang: language to render model name</span>
-<span class="sd">    :return: model instance.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="kn">import</span> <span class="nn">kenlm</span>
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading kenlm language model...&#39;</span><span class="p">)</span>
-    <span class="k">try</span><span class="p">:</span>
-        <span class="n">kenlm_model</span> <span class="o">=</span> <span class="n">kenlm</span><span class="o">.</span><span class="n">Model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">lang</span><span class="p">))</span>
-    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
-        <span class="n">kenlm_model</span> <span class="o">=</span> <span class="n">kenlm</span><span class="o">.</span><span class="n">Model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">lang</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">))</span>
-    <span class="k">return</span> <span class="n">kenlm_model</span></div>
-
-
-<div class="viewcode-block" id="prepare_nltk_model"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_nltk_model">[docs]</a><span class="k">def</span> <span class="nf">prepare_nltk_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">lang</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Prepare and load a nltk punkt model.</span>
-
-<span class="sd">    :param model_name: input model name in formatting syntax</span>
-<span class="sd">    :param lang: language to render model name</span>
-<span class="sd">    :return: model instance.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="n">nltk_to_punkt</span> <span class="o">=</span> <span class="p">{</span>
-        <span class="s1">&#39;en&#39;</span><span class="p">:</span> <span class="s1">&#39;english&#39;</span><span class="p">,</span>
-        <span class="s1">&#39;fr&#39;</span><span class="p">:</span> <span class="s1">&#39;french&#39;</span><span class="p">,</span>
-        <span class="s1">&#39;pt&#39;</span><span class="p">:</span> <span class="s1">&#39;portuguese&#39;</span><span class="p">,</span>
-        <span class="s1">&#39;es&#39;</span><span class="p">:</span> <span class="s1">&#39;spanish&#39;</span>
-    <span class="p">}</span>
-    <span class="k">assert</span> <span class="n">lang</span> <span class="ow">in</span> <span class="n">nltk_to_punkt</span><span class="o">.</span><span class="n">keys</span><span class="p">(</span>
-    <span class="p">),</span> <span class="s1">&#39;lang must be one of the following: </span><span class="si">{}</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
-        <span class="nb">list</span><span class="p">(</span><span class="n">nltk_to_punkt</span><span class="o">.</span><span class="n">keys</span><span class="p">()))</span>
-
-    <span class="kn">from</span> <span class="nn">nltk.data</span> <span class="kn">import</span> <span class="n">load</span>
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading nltk punkt split model...&#39;</span><span class="p">)</span>
-    <span class="k">try</span><span class="p">:</span>
-        <span class="n">nltk_model</span> <span class="o">=</span> <span class="n">load</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">nltk_to_punkt</span><span class="p">[</span><span class="n">lang</span><span class="p">]))</span>
-    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
-        <span class="n">nltk_model</span> <span class="o">=</span> <span class="n">load</span><span class="p">(</span>
-            <span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">nltk_to_punkt</span><span class="p">[</span><span class="n">lang</span><span class="p">],</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">))</span>
-    <span class="k">return</span> <span class="n">nltk_model</span></div>
-
-
-<div class="viewcode-block" id="prepare_huggingface_tokenizer"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_huggingface_tokenizer">[docs]</a><span class="k">def</span> <span class="nf">prepare_huggingface_tokenizer</span><span class="p">(</span><span class="n">tokenizer_name</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Prepare and load a tokenizer from HuggingFace.</span>
-
-<span class="sd">    :param tokenizer_name: input tokenizer name</span>
-<span class="sd">    :return: a tokenizer instance.</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="kn">from</span> <span class="nn">transformers</span> <span class="kn">import</span> <span class="n">AutoTokenizer</span>
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading tokenizer from HuggingFace...&#39;</span><span class="p">)</span>
-    <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">AutoTokenizer</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">tokenizer_name</span><span class="p">,</span>
-                                              <span class="n">trust_remote_code</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">tokenizer</span></div>
-
-<div class="viewcode-block" id="prepare_diversity_model"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_diversity_model">[docs]</a><span class="k">def</span> <span class="nf">prepare_diversity_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">lang</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Prepare diversity model for specific language.</span>
-
-<span class="sd">    :param model_name: the model name to be loaded.</span>
-<span class="sd">    :param lang: language of diversity model. Should be one of [&quot;zh&quot;,</span>
-<span class="sd">        &quot;en&quot;]</span>
-<span class="sd">    :return: corresponding diversity model</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="kn">import</span> <span class="nn">spacy</span>
-    <span class="k">assert</span> <span class="n">lang</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;zh&#39;</span><span class="p">,</span> <span class="s1">&#39;en&#39;</span><span class="p">],</span> <span class="s1">&#39;Diversity only support zh and en&#39;</span>
-    <span class="n">model_name</span> <span class="o">=</span> <span class="n">model_name</span> <span class="o">%</span> <span class="n">lang</span>
-    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Loading spacy model [</span><span class="si">{</span><span class="n">model_name</span><span class="si">}</span><span class="s1">]...&#39;</span><span class="p">)</span>
-    <span class="n">compressed_model</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="si">%s</span><span class="s1">.zip&#39;</span> <span class="o">%</span> <span class="n">model_name</span>
-
-    <span class="c1"># decompress the compressed model if it&#39;s not decompressed</span>
-    <span class="k">def</span> <span class="nf">decompress_model</span><span class="p">(</span><span class="n">compressed_model_path</span><span class="p">):</span>
-        <span class="n">decompressed_model_path</span> <span class="o">=</span> <span class="n">compressed_model_path</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.zip&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">decompressed_model_path</span><span class="p">)</span> \
-                <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isdir</span><span class="p">(</span><span class="n">decompressed_model_path</span><span class="p">):</span>
-            <span class="k">return</span> <span class="n">decompressed_model_path</span>
-        <span class="kn">import</span> <span class="nn">zipfile</span>
-        <span class="k">with</span> <span class="n">zipfile</span><span class="o">.</span><span class="n">ZipFile</span><span class="p">(</span><span class="n">compressed_model_path</span><span class="p">)</span> <span class="k">as</span> <span class="n">zf</span><span class="p">:</span>
-            <span class="n">zf</span><span class="o">.</span><span class="n">extractall</span><span class="p">(</span><span class="n">MODEL_PATH</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">decompressed_model_path</span>
-
-    <span class="k">try</span><span class="p">:</span>
-        <span class="n">diversity_model</span> <span class="o">=</span> <span class="n">spacy</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
-            <span class="n">decompress_model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">compressed_model</span><span class="p">)))</span>
-    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
-        <span class="n">diversity_model</span> <span class="o">=</span> <span class="n">spacy</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
-            <span class="n">decompress_model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">compressed_model</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">)))</span>
-    <span class="k">return</span> <span class="n">diversity_model</span></div>
-
-
-<div class="viewcode-block" id="prepare_model"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_model">[docs]</a><span class="k">def</span> <span class="nf">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="s1">&#39;en&#39;</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">,</span> <span class="n">model_key</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Prepare and load a model or a tokenizer from MODEL_ZOO.</span>
-
-<span class="sd">    :param lang: which lang model to load</span>
-<span class="sd">    :param model_type: model or tokenizer type</span>
-<span class="sd">    :param model_key: tokenizer name, only used when prepare HuggingFace</span>
-<span class="sd">        tokenizer</span>
-<span class="sd">    :return: a model or tokenizer instance</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="n">type_to_name</span> <span class="o">=</span> <span class="p">{</span>
-        <span class="s1">&#39;fasttext&#39;</span><span class="p">:</span> <span class="p">(</span><span class="s1">&#39;lid.176.bin&#39;</span><span class="p">,</span> <span class="n">prepare_fasttext_model</span><span class="p">),</span>
-        <span class="s1">&#39;sentencepiece&#39;</span><span class="p">:</span> <span class="p">(</span><span class="s1">&#39;</span><span class="si">%s</span><span class="s1">.sp.model&#39;</span><span class="p">,</span> <span class="n">prepare_sentencepiece_model</span><span class="p">),</span>
-        <span class="s1">&#39;kenlm&#39;</span><span class="p">:</span> <span class="p">(</span><span class="s1">&#39;</span><span class="si">%s</span><span class="s1">.arpa.bin&#39;</span><span class="p">,</span> <span class="n">prepare_kenlm_model</span><span class="p">),</span>
-        <span class="s1">&#39;nltk&#39;</span><span class="p">:</span> <span class="p">(</span><span class="s1">&#39;punkt.</span><span class="si">%s</span><span class="s1">.pickle&#39;</span><span class="p">,</span> <span class="n">prepare_nltk_model</span><span class="p">),</span>
-        <span class="s1">&#39;huggingface&#39;</span><span class="p">:</span> <span class="p">(</span><span class="s1">&#39;</span><span class="si">%s</span><span class="s1">&#39;</span><span class="p">,</span> <span class="n">prepare_huggingface_tokenizer</span><span class="p">),</span>
-        <span class="s1">&#39;spacy&#39;</span><span class="p">:</span> <span class="p">(</span><span class="s1">&#39;</span><span class="si">%s</span><span class="s1">_core_web_md-3.5.0&#39;</span><span class="p">,</span> <span class="n">prepare_diversity_model</span><span class="p">),</span>
-    <span class="p">}</span>
-    <span class="k">assert</span> <span class="n">model_type</span> <span class="ow">in</span> <span class="n">type_to_name</span><span class="o">.</span><span class="n">keys</span><span class="p">(</span>
-    <span class="p">),</span> <span class="s1">&#39;model_type must be one of the following: </span><span class="si">{}</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
-        <span class="nb">list</span><span class="p">(</span><span class="n">type_to_name</span><span class="o">.</span><span class="n">keys</span><span class="p">()))</span>
-
-    <span class="k">if</span> <span class="n">model_key</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-        <span class="n">model_key</span> <span class="o">=</span> <span class="n">model_type</span> <span class="o">+</span> <span class="s1">&#39;_&#39;</span> <span class="o">+</span> <span class="n">lang</span>
-    <span class="k">if</span> <span class="n">model_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">MODEL_ZOO</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
-        <span class="n">model_name</span><span class="p">,</span> <span class="n">model_func</span> <span class="o">=</span> <span class="n">type_to_name</span><span class="p">[</span><span class="n">model_type</span><span class="p">]</span>
-        <span class="k">if</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s1">&#39;fasttext&#39;</span><span class="p">:</span>
-            <span class="n">MODEL_ZOO</span><span class="p">[</span><span class="n">model_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_func</span><span class="p">(</span><span class="n">model_name</span><span class="p">)</span>
-        <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s1">&#39;huggingface&#39;</span><span class="p">:</span>
-            <span class="n">MODEL_ZOO</span><span class="p">[</span><span class="n">model_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_func</span><span class="p">(</span><span class="n">model_key</span><span class="p">)</span>
-        <span class="k">else</span><span class="p">:</span>
-            <span class="n">MODEL_ZOO</span><span class="p">[</span><span class="n">model_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_func</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">lang</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">model_key</span></div>
-
-
-<div class="viewcode-block" id="get_model"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.get_model">[docs]</a><span class="k">def</span> <span class="nf">get_model</span><span class="p">(</span><span class="n">model_key</span><span class="p">,</span> <span class="n">lang</span><span class="o">=</span><span class="s1">&#39;en&#39;</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">    Get a model or a tokenizer from MODEL_ZOO.</span>
-
-<span class="sd">    :param model_key: name of the model or tokenzier</span>
-<span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">if</span> <span class="n">model_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">MODEL_ZOO</span><span class="p">:</span>
-        <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="n">model_type</span><span class="p">,</span> <span class="n">model_key</span><span class="o">=</span><span class="n">model_key</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">MODEL_ZOO</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">model_key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/registry.html b/_modules/data_juicer/utils/registry.html
deleted file mode 100644
index 0830c6f22..000000000
--- a/_modules/data_juicer/utils/registry.html
+++ /dev/null
@@ -1,234 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.utils.registry &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../../../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../../../_static/doctools.js?v=888ff710"></script>
-        <script src="../../../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../../../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../../../genindex.html" />
-    <link rel="search" title="Search" href="../../../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../../../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../../../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
-      <li class="breadcrumb-item active">data_juicer.utils.registry</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>Source code for data_juicer.utils.registry</h1><div class="highlight"><pre>
-<span></span><span class="c1"># Copyright (c) Alibaba, Inc. and its affiliates.</span>
-<span class="c1">#</span>
-<span class="c1"># Licensed under the Apache License, Version 2.0 (the &quot;License&quot;);</span>
-<span class="c1"># you may not use this file except in compliance with the License.</span>
-<span class="c1"># You may obtain a copy of the License at</span>
-<span class="c1">#</span>
-<span class="c1">#     http://www.apache.org/licenses/LICENSE-2.0</span>
-<span class="c1">#</span>
-<span class="c1"># Unless required by applicable law or agreed to in writing, software</span>
-<span class="c1"># distributed under the License is distributed on an &quot;AS IS&quot; BASIS,</span>
-<span class="c1"># WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.</span>
-<span class="c1"># See the License for the specific language governing permissions and</span>
-<span class="c1"># limitations under the License.</span>
-
-<span class="c1"># --------------------------------------------------------</span>
-<span class="c1"># Most of the code here has been modified from:</span>
-<span class="c1">#  https://github.com/modelscope/modelscope/blob/master/modelscope/utils/registry.py</span>
-<span class="c1"># --------------------------------------------------------</span>
-
-<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
-
-
-<div class="viewcode-block" id="Registry"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry">[docs]</a><span class="k">class</span> <span class="nc">Registry</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;This class is used to register some modules to registry by a repo</span>
-<span class="sd">    name.&quot;&quot;&quot;</span>
-
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Initialization method.</span>
-
-<span class="sd">        :param name: a registry repo name</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_name</span> <span class="o">=</span> <span class="n">name</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span> <span class="o">=</span> <span class="p">{}</span>
-
-    <span class="nd">@property</span>
-    <span class="k">def</span> <span class="nf">name</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Get name of current registry.</span>
-
-<span class="sd">        :return: name of current registry.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_name</span>
-
-    <span class="nd">@property</span>
-    <span class="k">def</span> <span class="nf">modules</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Get all modules in current registry.</span>
-
-<span class="sd">        :return: a dict storing modules in current registry.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span>
-
-<div class="viewcode-block" id="Registry.list"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry.list">[docs]</a>    <span class="k">def</span> <span class="nf">list</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;Logging the list of module in current registry.&quot;&quot;&quot;</span>
-        <span class="k">for</span> <span class="n">m</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
-            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="si">}</span><span class="se">\t</span><span class="si">{</span><span class="n">m</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span></div>
-
-<div class="viewcode-block" id="Registry.get"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry.get">[docs]</a>    <span class="k">def</span> <span class="nf">get</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">module_key</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Get module named module_key from in current registry. If not found,</span>
-<span class="sd">        return None.</span>
-
-<span class="sd">        :param module_key: specified module name</span>
-<span class="sd">        :return: module named module_key</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">module_key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span></div>
-
-    <span class="k">def</span> <span class="nf">_register_module</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">module_name</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">module_cls</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Register module to registry.</span>
-
-<span class="sd">        :param module_name: module name</span>
-<span class="sd">        :param module_cls: module class object</span>
-<span class="sd">        :param force: Whether to override an existing class with the</span>
-<span class="sd">            same name. Default: False.</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-
-        <span class="k">if</span> <span class="n">module_name</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="n">module_name</span> <span class="o">=</span> <span class="n">module_cls</span><span class="o">.</span><span class="vm">__name__</span>
-
-        <span class="k">if</span> <span class="n">module_name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">force</span><span class="p">:</span>
-            <span class="k">raise</span> <span class="ne">KeyError</span><span class="p">(</span>
-                <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">module_name</span><span class="si">}</span><span class="s1"> is already registered in </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
-
-        <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span><span class="p">[</span><span class="n">module_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">module_cls</span>
-
-<div class="viewcode-block" id="Registry.register_module"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry.register_module">[docs]</a>    <span class="k">def</span> <span class="nf">register_module</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
-                        <span class="n">module_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-                        <span class="n">module_cls</span><span class="p">:</span> <span class="nb">type</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
-                        <span class="n">force</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
-<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">        Register module class object to registry with the specified modulename.</span>
-
-<span class="sd">        :param module_name: module name</span>
-<span class="sd">        :param module_cls: module class object</span>
-<span class="sd">        :param force: Whether to override an existing class with</span>
-<span class="sd">                the same name. Default: False.</span>
-
-<span class="sd">        Example:</span>
-<span class="sd">            &gt;&gt;&gt; registry = Registry()</span>
-<span class="sd">            &gt;&gt;&gt; @registry.register_module()</span>
-<span class="sd">            &gt;&gt;&gt; class TextFormatter:</span>
-<span class="sd">            &gt;&gt;&gt;     pass</span>
-
-<span class="sd">            &gt;&gt;&gt; class TextFormatter2:</span>
-<span class="sd">            &gt;&gt;&gt;     pass</span>
-<span class="sd">            &gt;&gt;&gt; registry.register_module( module_name=&#39;text_formatter2&#39;,</span>
-<span class="sd">                                        module_cls=TextFormatter2)</span>
-<span class="sd">        &quot;&quot;&quot;</span>
-        <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span><span class="n">module_name</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">module_name</span><span class="p">,</span> <span class="nb">str</span><span class="p">)):</span>
-            <span class="k">raise</span> <span class="ne">TypeError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;module_name must be either of None, str,&#39;</span>
-                            <span class="sa">f</span><span class="s1">&#39;got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">module_name</span><span class="p">)</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
-        <span class="k">if</span> <span class="n">module_cls</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">_register_module</span><span class="p">(</span><span class="n">module_name</span><span class="o">=</span><span class="n">module_name</span><span class="p">,</span>
-                                  <span class="n">module_cls</span><span class="o">=</span><span class="n">module_cls</span><span class="p">,</span>
-                                  <span class="n">force</span><span class="o">=</span><span class="n">force</span><span class="p">)</span>
-            <span class="k">return</span> <span class="n">module_cls</span>
-
-        <span class="c1"># if module_cls is None, should return a decorator function</span>
-        <span class="k">def</span> <span class="nf">_register</span><span class="p">(</span><span class="n">module_cls</span><span class="p">):</span>
-<span class="w">            </span><span class="sd">&quot;&quot;&quot;</span>
-<span class="sd">            Register module class object to registry.</span>
-
-<span class="sd">            :param module_cls: module class object</span>
-<span class="sd">            :return: module class object.</span>
-<span class="sd">            &quot;&quot;&quot;</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">_register_module</span><span class="p">(</span><span class="n">module_name</span><span class="o">=</span><span class="n">module_name</span><span class="p">,</span>
-                                  <span class="n">module_cls</span><span class="o">=</span><span class="n">module_cls</span><span class="p">,</span>
-                                  <span class="n">force</span><span class="o">=</span><span class="n">force</span><span class="p">)</span>
-            <span class="k">return</span> <span class="n">module_cls</span>
-
-        <span class="k">return</span> <span class="n">_register</span></div></div>
-</pre></div>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_modules/index.html b/_modules/index.html
deleted file mode 100644
index 8c8794279..000000000
--- a/_modules/index.html
+++ /dev/null
@@ -1,163 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>Overview: module code &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="../_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="../_static/doctools.js?v=888ff710"></script>
-        <script src="../_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="../_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="../genindex.html" />
-    <link rel="search" title="Search" href="../search.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="../index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="../index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="../index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">Overview: module code</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <h1>All modules for which code is available</h1>
-<ul><li><a href="data_juicer/analysis/column_wise_analysis.html">data_juicer.analysis.column_wise_analysis</a></li>
-<li><a href="data_juicer/analysis/diversity_analysis.html">data_juicer.analysis.diversity_analysis</a></li>
-<li><a href="data_juicer/analysis/overall_analysis.html">data_juicer.analysis.overall_analysis</a></li>
-<li><a href="data_juicer/config/config.html">data_juicer.config.config</a></li>
-<li><a href="data_juicer/core/analyser.html">data_juicer.core.analyser</a></li>
-<li><a href="data_juicer/core/data.html">data_juicer.core.data</a></li>
-<li><a href="data_juicer/core/executor.html">data_juicer.core.executor</a></li>
-<li><a href="data_juicer/core/exporter.html">data_juicer.core.exporter</a></li>
-<li><a href="data_juicer/core/tracer.html">data_juicer.core.tracer</a></li>
-<li><a href="data_juicer/format/csv_formatter.html">data_juicer.format.csv_formatter</a></li>
-<li><a href="data_juicer/format/formatter.html">data_juicer.format.formatter</a></li>
-<li><a href="data_juicer/format/json_formatter.html">data_juicer.format.json_formatter</a></li>
-<li><a href="data_juicer/format/load.html">data_juicer.format.load</a></li>
-<li><a href="data_juicer/format/mixture_formatter.html">data_juicer.format.mixture_formatter</a></li>
-<li><a href="data_juicer/format/parquet_formatter.html">data_juicer.format.parquet_formatter</a></li>
-<li><a href="data_juicer/format/text_formatter.html">data_juicer.format.text_formatter</a></li>
-<li><a href="data_juicer/format/tsv_formatter.html">data_juicer.format.tsv_formatter</a></li>
-<li><a href="data_juicer/ops/base_op.html">data_juicer.ops.base_op</a></li>
-<li><a href="data_juicer/ops/common/helper_func.html">data_juicer.ops.common.helper_func</a></li>
-<li><a href="data_juicer/ops/deduplicator/document_deduplicator.html">data_juicer.ops.deduplicator.document_deduplicator</a></li>
-<li><a href="data_juicer/ops/deduplicator/document_minhash_deduplicator.html">data_juicer.ops.deduplicator.document_minhash_deduplicator</a></li>
-<li><a href="data_juicer/ops/deduplicator/document_simhash_deduplicator.html">data_juicer.ops.deduplicator.document_simhash_deduplicator</a></li>
-<li><a href="data_juicer/ops/filter/alphanumeric_filter.html">data_juicer.ops.filter.alphanumeric_filter</a></li>
-<li><a href="data_juicer/ops/filter/average_line_length_filter.html">data_juicer.ops.filter.average_line_length_filter</a></li>
-<li><a href="data_juicer/ops/filter/character_repetition_filter.html">data_juicer.ops.filter.character_repetition_filter</a></li>
-<li><a href="data_juicer/ops/filter/flagged_words_filter.html">data_juicer.ops.filter.flagged_words_filter</a></li>
-<li><a href="data_juicer/ops/filter/language_id_score_filter.html">data_juicer.ops.filter.language_id_score_filter</a></li>
-<li><a href="data_juicer/ops/filter/maximum_line_length_filter.html">data_juicer.ops.filter.maximum_line_length_filter</a></li>
-<li><a href="data_juicer/ops/filter/perplexity_filter.html">data_juicer.ops.filter.perplexity_filter</a></li>
-<li><a href="data_juicer/ops/filter/special_characters_filter.html">data_juicer.ops.filter.special_characters_filter</a></li>
-<li><a href="data_juicer/ops/filter/specified_field_filter.html">data_juicer.ops.filter.specified_field_filter</a></li>
-<li><a href="data_juicer/ops/filter/specified_numeric_field_filter.html">data_juicer.ops.filter.specified_numeric_field_filter</a></li>
-<li><a href="data_juicer/ops/filter/stopwords_filter.html">data_juicer.ops.filter.stopwords_filter</a></li>
-<li><a href="data_juicer/ops/filter/suffix_filter.html">data_juicer.ops.filter.suffix_filter</a></li>
-<li><a href="data_juicer/ops/filter/text_length_filter.html">data_juicer.ops.filter.text_length_filter</a></li>
-<li><a href="data_juicer/ops/filter/word_num_filter.html">data_juicer.ops.filter.word_num_filter</a></li>
-<li><a href="data_juicer/ops/filter/word_repetition_filter.html">data_juicer.ops.filter.word_repetition_filter</a></li>
-<li><a href="data_juicer/ops/load.html">data_juicer.ops.load</a></li>
-<li><a href="data_juicer/ops/mapper/clean_copyright_mapper.html">data_juicer.ops.mapper.clean_copyright_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/clean_email_mapper.html">data_juicer.ops.mapper.clean_email_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/clean_html_mapper.html">data_juicer.ops.mapper.clean_html_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/clean_ip_mapper.html">data_juicer.ops.mapper.clean_ip_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/clean_links_mapper.html">data_juicer.ops.mapper.clean_links_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/expand_macro_mapper.html">data_juicer.ops.mapper.expand_macro_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/fix_unicode_mapper.html">data_juicer.ops.mapper.fix_unicode_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/punctuation_normalization_mapper.html">data_juicer.ops.mapper.punctuation_normalization_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/remove_bibliography_mapper.html">data_juicer.ops.mapper.remove_bibliography_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/remove_comments_mapper.html">data_juicer.ops.mapper.remove_comments_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/remove_header_mapper.html">data_juicer.ops.mapper.remove_header_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/remove_long_words_mapper.html">data_juicer.ops.mapper.remove_long_words_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/remove_specific_chars_mapper.html">data_juicer.ops.mapper.remove_specific_chars_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/remove_table_text_mapper.html">data_juicer.ops.mapper.remove_table_text_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/sentence_split_mapper.html">data_juicer.ops.mapper.sentence_split_mapper</a></li>
-<li><a href="data_juicer/ops/mapper/whitespace_normalization_mapper.html">data_juicer.ops.mapper.whitespace_normalization_mapper</a></li>
-<li><a href="data_juicer/ops/selector/frequency_specified_field_selector.html">data_juicer.ops.selector.frequency_specified_field_selector</a></li>
-<li><a href="data_juicer/ops/selector/topk_specified_field_selector.html">data_juicer.ops.selector.topk_specified_field_selector</a></li>
-<li><a href="data_juicer/utils/asset_utils.html">data_juicer.utils.asset_utils</a></li>
-<li><a href="data_juicer/utils/ckpt_utils.html">data_juicer.utils.ckpt_utils</a></li>
-<li><a href="data_juicer/utils/file_utils.html">data_juicer.utils.file_utils</a></li>
-<li><a href="data_juicer/utils/logger_utils.html">data_juicer.utils.logger_utils</a></li>
-<li><a href="data_juicer/utils/model_utils.html">data_juicer.utils.model_utils</a></li>
-<li><a href="data_juicer/utils/registry.html">data_juicer.utils.registry</a></li>
-</ul>
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/_sources/data_juicer.analysis.rst.txt b/_sources/data_juicer.analysis.rst.txt
deleted file mode 100644
index e8a6c97a7..000000000
--- a/_sources/data_juicer.analysis.rst.txt
+++ /dev/null
@@ -1,37 +0,0 @@
-data\_juicer.analysis package
-=============================
-
-Submodules
-----------
-
-data\_juicer.analysis.column\_wise\_analysis module
----------------------------------------------------
-
-.. automodule:: data_juicer.analysis.column_wise_analysis
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.analysis.diversity\_analysis module
-------------------------------------------------
-
-.. automodule:: data_juicer.analysis.diversity_analysis
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.analysis.overall\_analysis module
-----------------------------------------------
-
-.. automodule:: data_juicer.analysis.overall_analysis
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-Module contents
----------------
-
-.. automodule:: data_juicer.analysis
-   :members:
-   :undoc-members:
-   :show-inheritance:
diff --git a/_sources/data_juicer.config.rst.txt b/_sources/data_juicer.config.rst.txt
deleted file mode 100644
index 9b7293596..000000000
--- a/_sources/data_juicer.config.rst.txt
+++ /dev/null
@@ -1,21 +0,0 @@
-data\_juicer.config package
-===========================
-
-Submodules
-----------
-
-data\_juicer.config.config module
----------------------------------
-
-.. automodule:: data_juicer.config.config
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-Module contents
----------------
-
-.. automodule:: data_juicer.config
-   :members:
-   :undoc-members:
-   :show-inheritance:
diff --git a/_sources/data_juicer.core.rst.txt b/_sources/data_juicer.core.rst.txt
deleted file mode 100644
index 858d271ca..000000000
--- a/_sources/data_juicer.core.rst.txt
+++ /dev/null
@@ -1,53 +0,0 @@
-data\_juicer.core package
-=========================
-
-Submodules
-----------
-
-data\_juicer.core.analyser module
----------------------------------
-
-.. automodule:: data_juicer.core.analyser
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.core.data module
------------------------------
-
-.. automodule:: data_juicer.core.data
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.core.executor module
----------------------------------
-
-.. automodule:: data_juicer.core.executor
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.core.exporter module
----------------------------------
-
-.. automodule:: data_juicer.core.exporter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.core.tracer module
--------------------------------
-
-.. automodule:: data_juicer.core.tracer
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-Module contents
----------------
-
-.. automodule:: data_juicer.core
-   :members:
-   :undoc-members:
-   :show-inheritance:
diff --git a/_sources/data_juicer.format.rst.txt b/_sources/data_juicer.format.rst.txt
deleted file mode 100644
index 575a5b16a..000000000
--- a/_sources/data_juicer.format.rst.txt
+++ /dev/null
@@ -1,77 +0,0 @@
-data\_juicer.format package
-===========================
-
-Submodules
-----------
-
-data\_juicer.format.csv\_formatter module
------------------------------------------
-
-.. automodule:: data_juicer.format.csv_formatter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.format.formatter module
-------------------------------------
-
-.. automodule:: data_juicer.format.formatter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.format.json\_formatter module
-------------------------------------------
-
-.. automodule:: data_juicer.format.json_formatter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.format.load module
--------------------------------
-
-.. automodule:: data_juicer.format.load
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.format.mixture\_formatter module
----------------------------------------------
-
-.. automodule:: data_juicer.format.mixture_formatter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.format.parquet\_formatter module
----------------------------------------------
-
-.. automodule:: data_juicer.format.parquet_formatter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.format.text\_formatter module
-------------------------------------------
-
-.. automodule:: data_juicer.format.text_formatter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.format.tsv\_formatter module
------------------------------------------
-
-.. automodule:: data_juicer.format.tsv_formatter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-Module contents
----------------
-
-.. automodule:: data_juicer.format
-   :members:
-   :undoc-members:
-   :show-inheritance:
diff --git a/_sources/data_juicer.ops.common.rst.txt b/_sources/data_juicer.ops.common.rst.txt
deleted file mode 100644
index be34ff5bf..000000000
--- a/_sources/data_juicer.ops.common.rst.txt
+++ /dev/null
@@ -1,29 +0,0 @@
-data\_juicer.ops.common package
-===============================
-
-Submodules
-----------
-
-data\_juicer.ops.common.helper\_func module
--------------------------------------------
-
-.. automodule:: data_juicer.ops.common.helper_func
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.common.special\_characters module
---------------------------------------------------
-
-.. automodule:: data_juicer.ops.common.special_characters
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-Module contents
----------------
-
-.. automodule:: data_juicer.ops.common
-   :members:
-   :undoc-members:
-   :show-inheritance:
diff --git a/_sources/data_juicer.ops.deduplicator.rst.txt b/_sources/data_juicer.ops.deduplicator.rst.txt
deleted file mode 100644
index d30ce1dad..000000000
--- a/_sources/data_juicer.ops.deduplicator.rst.txt
+++ /dev/null
@@ -1,37 +0,0 @@
-data\_juicer.ops.deduplicator package
-=====================================
-
-Submodules
-----------
-
-data\_juicer.ops.deduplicator.document\_deduplicator module
------------------------------------------------------------
-
-.. automodule:: data_juicer.ops.deduplicator.document_deduplicator
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.deduplicator.document\_minhash\_deduplicator module
---------------------------------------------------------------------
-
-.. automodule:: data_juicer.ops.deduplicator.document_minhash_deduplicator
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.deduplicator.document\_simhash\_deduplicator module
---------------------------------------------------------------------
-
-.. automodule:: data_juicer.ops.deduplicator.document_simhash_deduplicator
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-Module contents
----------------
-
-.. automodule:: data_juicer.ops.deduplicator
-   :members:
-   :undoc-members:
-   :show-inheritance:
diff --git a/_sources/data_juicer.ops.filter.rst.txt b/_sources/data_juicer.ops.filter.rst.txt
deleted file mode 100644
index 64e449177..000000000
--- a/_sources/data_juicer.ops.filter.rst.txt
+++ /dev/null
@@ -1,133 +0,0 @@
-data\_juicer.ops.filter package
-===============================
-
-Submodules
-----------
-
-data\_juicer.ops.filter.alphanumeric\_filter module
----------------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.alphanumeric_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.filter.average\_line\_length\_filter module
-------------------------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.average_line_length_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.filter.character\_repetition\_filter module
-------------------------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.character_repetition_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.filter.flagged\_words\_filter module
------------------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.flagged_words_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.filter.language\_id\_score\_filter module
-----------------------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.language_id_score_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.filter.maximum\_line\_length\_filter module
-------------------------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.maximum_line_length_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.filter.perplexity\_filter module
--------------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.perplexity_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.filter.special\_characters\_filter module
-----------------------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.special_characters_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.filter.specified\_field\_filter module
--------------------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.specified_field_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.filter.specified\_numeric\_field\_filter module
-----------------------------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.specified_numeric_field_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.filter.stopwords\_filter module
-------------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.stopwords_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.filter.suffix\_filter module
----------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.suffix_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.filter.text\_length\_filter module
----------------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.text_length_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.filter.word\_num\_filter module
-------------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.word_num_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.filter.word\_repetition\_filter module
--------------------------------------------------------
-
-.. automodule:: data_juicer.ops.filter.word_repetition_filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-Module contents
----------------
-
-.. automodule:: data_juicer.ops.filter
-   :members:
-   :undoc-members:
-   :show-inheritance:
diff --git a/_sources/data_juicer.ops.mapper.rst.txt b/_sources/data_juicer.ops.mapper.rst.txt
deleted file mode 100644
index c8688614b..000000000
--- a/_sources/data_juicer.ops.mapper.rst.txt
+++ /dev/null
@@ -1,149 +0,0 @@
-data\_juicer.ops.mapper package
-===============================
-
-Submodules
-----------
-
-data\_juicer.ops.mapper.clean\_copyright\_mapper module
--------------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.clean_copyright_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.clean\_email\_mapper module
----------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.clean_email_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.clean\_html\_mapper module
---------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.clean_html_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.clean\_ip\_mapper module
-------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.clean_ip_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.clean\_links\_mapper module
----------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.clean_links_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.expand\_macro\_mapper module
-----------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.expand_macro_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.fix\_unicode\_mapper module
----------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.fix_unicode_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.punctuation\_normalization\_mapper module
------------------------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.punctuation_normalization_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.remove\_bibliography\_mapper module
------------------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.remove_bibliography_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.remove\_comments\_mapper module
--------------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.remove_comments_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.remove\_header\_mapper module
------------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.remove_header_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.remove\_long\_words\_mapper module
-----------------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.remove_long_words_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.remove\_specific\_chars\_mapper module
---------------------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.remove_specific_chars_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.remove\_table\_text\_mapper module
-----------------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.remove_table_text_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.remove\_words\_with\_incorrect\_substrings\_mapper module
----------------------------------------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.sentence\_split\_mapper module
-------------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.sentence_split_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.mapper.whitespace\_normalization\_mapper module
-----------------------------------------------------------------
-
-.. automodule:: data_juicer.ops.mapper.whitespace_normalization_mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-Module contents
----------------
-
-.. automodule:: data_juicer.ops.mapper
-   :members:
-   :undoc-members:
-   :show-inheritance:
diff --git a/_sources/data_juicer.ops.rst.txt b/_sources/data_juicer.ops.rst.txt
deleted file mode 100644
index f25068b50..000000000
--- a/_sources/data_juicer.ops.rst.txt
+++ /dev/null
@@ -1,41 +0,0 @@
-data\_juicer.ops package
-========================
-
-Subpackages
------------
-
-.. toctree::
-   :maxdepth: 4
-
-   data_juicer.ops.common
-   data_juicer.ops.deduplicator
-   data_juicer.ops.filter
-   data_juicer.ops.mapper
-   data_juicer.ops.selector
-
-Submodules
-----------
-
-data\_juicer.ops.base\_op module
---------------------------------
-
-.. automodule:: data_juicer.ops.base_op
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.load module
-----------------------------
-
-.. automodule:: data_juicer.ops.load
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-Module contents
----------------
-
-.. automodule:: data_juicer.ops
-   :members:
-   :undoc-members:
-   :show-inheritance:
diff --git a/_sources/data_juicer.ops.selector.rst.txt b/_sources/data_juicer.ops.selector.rst.txt
deleted file mode 100644
index 266b47408..000000000
--- a/_sources/data_juicer.ops.selector.rst.txt
+++ /dev/null
@@ -1,29 +0,0 @@
-data\_juicer.ops.selector package
-=================================
-
-Submodules
-----------
-
-data\_juicer.ops.selector.frequency\_specified\_field\_selector module
-----------------------------------------------------------------------
-
-.. automodule:: data_juicer.ops.selector.frequency_specified_field_selector
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.ops.selector.topk\_specified\_field\_selector module
------------------------------------------------------------------
-
-.. automodule:: data_juicer.ops.selector.topk_specified_field_selector
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-Module contents
----------------
-
-.. automodule:: data_juicer.ops.selector
-   :members:
-   :undoc-members:
-   :show-inheritance:
diff --git a/_sources/data_juicer.rst.txt b/_sources/data_juicer.rst.txt
deleted file mode 100644
index c305d1dd0..000000000
--- a/_sources/data_juicer.rst.txt
+++ /dev/null
@@ -1,23 +0,0 @@
-data\_juicer package
-====================
-
-Subpackages
------------
-
-.. toctree::
-   :maxdepth: 4
-
-   data_juicer.analysis
-   data_juicer.config
-   data_juicer.core
-   data_juicer.format
-   data_juicer.ops
-   data_juicer.utils
-
-Module contents
----------------
-
-.. automodule:: data_juicer
-   :members:
-   :undoc-members:
-   :show-inheritance:
diff --git a/_sources/data_juicer.utils.rst.txt b/_sources/data_juicer.utils.rst.txt
deleted file mode 100644
index 65b8d1208..000000000
--- a/_sources/data_juicer.utils.rst.txt
+++ /dev/null
@@ -1,69 +0,0 @@
-data\_juicer.utils package
-==========================
-
-Submodules
-----------
-
-data\_juicer.utils.asset\_utils module
---------------------------------------
-
-.. automodule:: data_juicer.utils.asset_utils
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.utils.cache\_utils module
---------------------------------------
-
-.. automodule:: data_juicer.utils.cache_utils
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.utils.ckpt\_utils module
--------------------------------------
-
-.. automodule:: data_juicer.utils.ckpt_utils
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.utils.file\_utils module
--------------------------------------
-
-.. automodule:: data_juicer.utils.file_utils
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.utils.logger\_utils module
----------------------------------------
-
-.. automodule:: data_juicer.utils.logger_utils
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.utils.model\_utils module
---------------------------------------
-
-.. automodule:: data_juicer.utils.model_utils
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-data\_juicer.utils.registry module
-----------------------------------
-
-.. automodule:: data_juicer.utils.registry
-   :members:
-   :undoc-members:
-   :show-inheritance:
-
-Module contents
----------------
-
-.. automodule:: data_juicer.utils
-   :members:
-   :undoc-members:
-   :show-inheritance:
diff --git a/data_juicer.analysis.html b/data_juicer.analysis.html
deleted file mode 100644
index 2ec601f20..000000000
--- a/data_juicer.analysis.html
+++ /dev/null
@@ -1,359 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" /><meta name="generator" content="Docutils 0.18.1: http://docutils.sourceforge.net/" />
-
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.analysis package &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="_static/doctools.js?v=888ff710"></script>
-        <script src="_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.config package" href="data_juicer.config.html" />
-    <link rel="prev" title="data_juicer package" href="data_juicer.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul class="current">
-<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul class="current">
-<li class="toctree-l3 current"><a class="current reference internal" href="#">data_juicer.analysis package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.analysis">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a></li>
-</ul>
-</li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.html">data_juicer package</a></li>
-      <li class="breadcrumb-item active">data_juicer.analysis package</li>
-      <li class="wy-breadcrumbs-aside">
-            <a href="_sources/data_juicer.analysis.rst.txt" rel="nofollow"> View page source</a>
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <section id="data-juicer-analysis-package">
-<h1>data_juicer.analysis package<a class="headerlink" href="#data-juicer-analysis-package" title="Permalink to this heading">¶</a></h1>
-<section id="submodules">
-<h2>Submodules<a class="headerlink" href="#submodules" title="Permalink to this heading">¶</a></h2>
-</section>
-<section id="module-data_juicer.analysis.column_wise_analysis">
-<span id="data-juicer-analysis-column-wise-analysis-module"></span><h2>data_juicer.analysis.column_wise_analysis module<a class="headerlink" href="#module-data_juicer.analysis.column_wise_analysis" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.column_wise_analysis.</span></span><span class="sig-name descname"><span class="pre">ColumnWiseAnalysis</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overall_result</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_stats_in_one_file</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<p>Apply analysis on each column of stats respectively.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyse">
-<span class="sig-name descname"><span class="pre">analyse</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">show_percentiles</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.analyse"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyse" title="Permalink to this definition">¶</a></dt>
-<dd><p>Apply analysis and draw the analysis figure for stats.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>show_percentiles</strong> – whether to show the percentile line in
-each sub-figure. If it’s true, there will be several red
-lines to indicate the quantiles of the stats distributions</p></li>
-<li><p><strong>show</strong> – whether to show in a single window after drawing</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p></p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box">
-<span class="sig-name descname"><span class="pre">draw_box</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ax</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">percentiles</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.draw_box"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box" title="Permalink to this definition">¶</a></dt>
-<dd><p>Draw the box plot for the data.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>ax</strong> – the axes to draw</p></li>
-<li><p><strong>data</strong> – data to draw</p></li>
-<li><p><strong>save_path</strong> – the path to save the box figure</p></li>
-<li><p><strong>percentiles</strong> – the overall analysis result of the data
-including percentile information</p></li>
-<li><p><strong>show</strong> – whether to show in a single window after drawing</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p></p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist">
-<span class="sig-name descname"><span class="pre">draw_hist</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ax</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">percentiles</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.draw_hist"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist" title="Permalink to this definition">¶</a></dt>
-<dd><p>Draw the histogram for the data.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>ax</strong> – the axes to draw</p></li>
-<li><p><strong>data</strong> – data to draw</p></li>
-<li><p><strong>save_path</strong> – the path to save the histogram figure</p></li>
-<li><p><strong>percentiles</strong> – the overall analysis result of the data
-including percentile information</p></li>
-<li><p><strong>show</strong> – whether to show in a single window after drawing</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p></p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.get_row_col">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.column_wise_analysis.</span></span><span class="sig-name descname"><span class="pre">get_row_col</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">total_num</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">factor</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">2</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#get_row_col"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.get_row_col" title="Permalink to this definition">¶</a></dt>
-<dd><p>Given the total number of stats figures, get the “best” number of rows and
-columns. This function is needed when we need to store all stats figures
-into one image.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>total_num</strong> – Total number of stats figures</p></li>
-<li><p><strong>factor</strong> – Number of sub-figure types in each figure. In
-default, it’s 2, which means there are histogram and box plot
-for each stat figure</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>“best” number of rows and columns, and the grid list</p>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.analysis.diversity_analysis">
-<span id="data-juicer-analysis-diversity-analysis-module"></span><h2>data_juicer.analysis.diversity_analysis module<a class="headerlink" href="#module-data_juicer.analysis.diversity_analysis" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.DiversityAnalysis">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.diversity_analysis.</span></span><span class="sig-name descname"><span class="pre">DiversityAnalysis</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lang_or_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'en'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#DiversityAnalysis"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.DiversityAnalysis" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<p>Apply diversity analysis for each sample and get an overall analysis
-result.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyse">
-<span class="sig-name descname"><span class="pre">analyse</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang_or_model=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">column_name='text'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">postproc_func=&lt;function</span> <span class="pre">get_diversity&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">**postproc_kwarg</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#DiversityAnalysis.analyse"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyse" title="Permalink to this definition">¶</a></dt>
-<dd><p>Apply diversity analysis on the whole dataset.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>lang_or_model</strong> – the diversity model or a specific language
-used to load the diversity model</p></li>
-<li><p><strong>column_name</strong> – the name of column to be analysed</p></li>
-<li><p><strong>postproc_func</strong> – function to analyse diversity. In default,
-it’s function get_diversity</p></li>
-<li><p><strong>postproc_kwarg</strong> – arguments of the postproc_func</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p></p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute">
-<span class="sig-name descname"><span class="pre">compute</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang_or_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">column_name</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'text'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#DiversityAnalysis.compute"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute" title="Permalink to this definition">¶</a></dt>
-<dd><p>Apply lexical tree analysis on each sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>lang_or_model</strong> – the diversity model or a specific language
-used to load the diversity model</p></li>
-<li><p><strong>column_name</strong> – the name of column to be analysed</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>the analysis result.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.diversity_analysis.</span></span><span class="sig-name descname"><span class="pre">find_root_verb_and_its_dobj</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tree_root</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#find_root_verb_and_its_dobj"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj" title="Permalink to this definition">¶</a></dt>
-<dd><p>Find the verb and its object closest to the root.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>tree_root</strong> – the root of lexical tree</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>valid verb and its object.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.diversity_analysis.</span></span><span class="sig-name descname"><span class="pre">find_root_verb_and_its_dobj_in_string</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">nlp</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">s</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">first_sent</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#find_root_verb_and_its_dobj_in_string"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string" title="Permalink to this definition">¶</a></dt>
-<dd><p>Find the verb and its object closest to the root of lexical tree of input
-string.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>nlp</strong> – the diversity model to analyse the diversity strings</p></li>
-<li><p><strong>s</strong> – the string to be analysed</p></li>
-<li><p><strong>first_sent</strong> – whether to analyse the first sentence in the
-input string only. If it’s true, return the analysis result of
-the first sentence no matter it’s valid or not. If it’s false,
-return the first valid result over all sentences</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>valid verb and its object of this string</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.get_diversity">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.diversity_analysis.</span></span><span class="sig-name descname"><span class="pre">get_diversity</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_k_verbs</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_k_nouns</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">4</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#get_diversity"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.get_diversity" title="Permalink to this definition">¶</a></dt>
-<dd><p>Given the lexical tree analysis result, return the diversity results.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>dataset</strong> – lexical tree analysis result</p></li>
-<li><p><strong>top_k_verbs</strong> – only keep the top_k_verbs largest verb groups</p></li>
-<li><p><strong>top_k_nouns</strong> – only keep the top_k_nouns largest noun groups
-for each verb group</p></li>
-<li><p><strong>kwargs</strong> – extra args</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>the diversity results</p>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.analysis.overall_analysis">
-<span id="data-juicer-analysis-overall-analysis-module"></span><h2>data_juicer.analysis.overall_analysis module<a class="headerlink" href="#module-data_juicer.analysis.overall_analysis" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.analysis.overall_analysis.OverallAnalysis">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.overall_analysis.</span></span><span class="sig-name descname"><span class="pre">OverallAnalysis</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/overall_analysis.html#OverallAnalysis"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.overall_analysis.OverallAnalysis" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<p>Apply analysis on the overall stats, including mean, std, quantiles,
-etc.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.analysis.overall_analysis.OverallAnalysis.analyse">
-<span class="sig-name descname"><span class="pre">analyse</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">percentiles</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/overall_analysis.html#OverallAnalysis.analyse"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.overall_analysis.OverallAnalysis.analyse" title="Permalink to this definition">¶</a></dt>
-<dd><p>Apply overall analysis on the whole dataset based on the describe
-method of pandas.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>percentiles</strong> – percentiles to analyse</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>the overall analysis result.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.analysis">
-<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.analysis" title="Permalink to this heading">¶</a></h2>
-</section>
-</section>
-
-
-           </div>
-          </div>
-          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.html" class="btn btn-neutral float-left" title="data_juicer package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.config.html" class="btn btn-neutral float-right" title="data_juicer.config package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-    </div>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/data_juicer.config.html b/data_juicer.config.html
deleted file mode 100644
index e69d52a9f..000000000
--- a/data_juicer.config.html
+++ /dev/null
@@ -1,203 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" /><meta name="generator" content="Docutils 0.18.1: http://docutils.sourceforge.net/" />
-
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.config package &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="_static/doctools.js?v=888ff710"></script>
-        <script src="_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.core package" href="data_juicer.core.html" />
-    <link rel="prev" title="data_juicer.analysis package" href="data_juicer.analysis.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul class="current">
-<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">data_juicer.config package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.config.config">data_juicer.config.config module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.config">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a></li>
-</ul>
-</li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.html">data_juicer package</a></li>
-      <li class="breadcrumb-item active">data_juicer.config package</li>
-      <li class="wy-breadcrumbs-aside">
-            <a href="_sources/data_juicer.config.rst.txt" rel="nofollow"> View page source</a>
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <section id="data-juicer-config-package">
-<h1>data_juicer.config package<a class="headerlink" href="#data-juicer-config-package" title="Permalink to this heading">¶</a></h1>
-<section id="submodules">
-<h2>Submodules<a class="headerlink" href="#submodules" title="Permalink to this heading">¶</a></h2>
-</section>
-<section id="module-data_juicer.config.config">
-<span id="data-juicer-config-config-module"></span><h2>data_juicer.config.config module<a class="headerlink" href="#module-data_juicer.config.config" title="Permalink to this heading">¶</a></h2>
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.config.config.config_backup">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">config_backup</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#config_backup"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.config_backup" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.config.config.display_config">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">display_config</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#display_config"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.display_config" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.config.config.init_configs">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">init_configs</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">args</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#init_configs"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.init_configs" title="Permalink to this definition">¶</a></dt>
-<dd><dl class="simple">
-<dt>initialize the jsonargparse parser and parse configs from one of:</dt><dd><ol class="arabic simple">
-<li><p>POSIX-style commands line args;</p></li>
-<li><p>config files in yaml (json and jsonnet supersets);</p></li>
-<li><p>environment variables</p></li>
-<li><p>hard-coded defaults</p></li>
-</ol>
-</dd>
-</dl>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>args</strong> – list of params, e.g., [’–conifg’, ‘cfg.yaml’], defaut None.</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>a global cfg object used by the Executor or Analyser</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.config.config.init_setup_from_cfg">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">init_setup_from_cfg</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#init_setup_from_cfg"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.init_setup_from_cfg" title="Permalink to this definition">¶</a></dt>
-<dd><p>Do some extra setup tasks after parsing config file or command line.</p>
-<ol class="arabic simple">
-<li><p>create working directory and a log directory</p></li>
-<li><p>update cache directory</p></li>
-<li><p>update checkpoint and <cite>temp_dir</cite> of tempfile</p></li>
-</ol>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>cfg</strong> – a original cfg</p></li>
-<li><p><strong>cfg</strong> – a updated cfg</p></li>
-</ul>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.config.config.sort_op_by_types_and_names">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">sort_op_by_types_and_names</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_name_classes</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#sort_op_by_types_and_names"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.sort_op_by_types_and_names" title="Permalink to this definition">¶</a></dt>
-<dd><p>Split ops items by op type and sort them to sub-ops by name, then concat
-together.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>op_name_classes</strong> – a list of op modules</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sorted op list , each item is a pair of op_name and
-op_class</p>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.config">
-<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.config" title="Permalink to this heading">¶</a></h2>
-</section>
-</section>
-
-
-           </div>
-          </div>
-          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.analysis.html" class="btn btn-neutral float-left" title="data_juicer.analysis package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.core.html" class="btn btn-neutral float-right" title="data_juicer.core package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-    </div>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/data_juicer.core.html b/data_juicer.core.html
deleted file mode 100644
index 404a492a5..000000000
--- a/data_juicer.core.html
+++ /dev/null
@@ -1,505 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" /><meta name="generator" content="Docutils 0.18.1: http://docutils.sourceforge.net/" />
-
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.core package &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="_static/doctools.js?v=888ff710"></script>
-        <script src="_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.format package" href="data_juicer.format.html" />
-    <link rel="prev" title="data_juicer.config package" href="data_juicer.config.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul class="current">
-<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">data_juicer.core package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.core.analyser">data_juicer.core.analyser module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.core.data">data_juicer.core.data module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.core.executor">data_juicer.core.executor module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.core.exporter">data_juicer.core.exporter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.core.tracer">data_juicer.core.tracer module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.core">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a></li>
-</ul>
-</li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.html">data_juicer package</a></li>
-      <li class="breadcrumb-item active">data_juicer.core package</li>
-      <li class="wy-breadcrumbs-aside">
-            <a href="_sources/data_juicer.core.rst.txt" rel="nofollow"> View page source</a>
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <section id="data-juicer-core-package">
-<h1>data_juicer.core package<a class="headerlink" href="#data-juicer-core-package" title="Permalink to this heading">¶</a></h1>
-<section id="submodules">
-<h2>Submodules<a class="headerlink" href="#submodules" title="Permalink to this heading">¶</a></h2>
-</section>
-<section id="module-data_juicer.core.analyser">
-<span id="data-juicer-core-analyser-module"></span><h2>data_juicer.core.analyser module<a class="headerlink" href="#module-data_juicer.core.analyser" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.core.analyser.Analyser">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.analyser.</span></span><span class="sig-name descname"><span class="pre">Analyser</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/analyser.html#Analyser"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.analyser.Analyser" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<p>This Analyser class is used to analyse a specific dataset.</p>
-<p>It will compute stats for all filter ops in the config file, apply
-multiple analysis (e.g. OverallAnalysis, ColumnWiseAnalysis, etc.)
-on these stats, and generate the analysis results (stats tables,
-distribution figures, etc.) to help users understand the input
-dataset better.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.analyser.Analyser.run">
-<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">load_data_np</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/analyser.html#Analyser.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.analyser.Analyser.run" title="Permalink to this definition">¶</a></dt>
-<dd><p>Running the dataset analysis pipeline.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>load_data_np</strong> – number of workers when loading the dataset.</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>analysed dataset.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.core.data">
-<span id="data-juicer-core-data-module"></span><h2>data_juicer.core.data module<a class="headerlink" href="#module-data_juicer.core.data" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">NestedDataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">Dataset</span></code></p>
-<p>Enhanced HuggingFace-Dataset for better usability and efficiency.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.add_column">
-<span class="sig-name descname"><span class="pre">add_column</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.add_column"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.add_column" title="Permalink to this definition">¶</a></dt>
-<dd><p>Override the add column func, such that the processed samples
-can be accessed by nested manner.</p>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.cleanup_cache_files">
-<span class="sig-name descname"><span class="pre">cleanup_cache_files</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.cleanup_cache_files"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.cleanup_cache_files" title="Permalink to this definition">¶</a></dt>
-<dd><p>Override the cleanup_cache_files func, clear raw and compressed
-cache files.</p>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.filter">
-<span class="sig-name descname"><span class="pre">filter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.filter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.filter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Override the filter func, which is called by most common operations,
-such that the processed samples can be accessed by nested manner.</p>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.from_dict">
-<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">from_dict</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.from_dict"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.from_dict" title="Permalink to this definition">¶</a></dt>
-<dd><p>Override the from_dict func, which is called by most from_xx
-constructors, such that the constructed dataset object is
-NestedDataset.</p>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.map">
-<span class="sig-name descname"><span class="pre">map</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.map"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.map" title="Permalink to this definition">¶</a></dt>
-<dd><p>Override the map func, which is called by most common operations,
-such that the processed samples can be accessed by nested manner.</p>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.remove_columns">
-<span class="sig-name descname"><span class="pre">remove_columns</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.remove_columns"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.remove_columns" title="Permalink to this definition">¶</a></dt>
-<dd><p>Override the remove columns func, such that the processed samples
-can be accessed by nested manner.</p>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.select">
-<span class="sig-name descname"><span class="pre">select</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.select"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.select" title="Permalink to this definition">¶</a></dt>
-<dd><p>Override the select func, such that selected samples can be accessed
-by nested manner.</p>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.select_columns">
-<span class="sig-name descname"><span class="pre">select_columns</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.select_columns"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.select_columns" title="Permalink to this definition">¶</a></dt>
-<dd><p>Override the select columns func, such that the processed samples
-can be accessed by nested manner.</p>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.core.data.NestedDatasetDict">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">NestedDatasetDict</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDatasetDict"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDatasetDict" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">DatasetDict</span></code></p>
-<p>Enhanced HuggingFace-DatasetDict for better usability and efficiency.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.data.NestedDatasetDict.map">
-<span class="sig-name descname"><span class="pre">map</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">args</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDatasetDict.map"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDatasetDict.map" title="Permalink to this definition">¶</a></dt>
-<dd><p>Override the map func, which is called by most common operations,
-such that the processed samples can be accessed by nested manner.</p>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.core.data.NestedQueryDict">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">NestedQueryDict</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedQueryDict"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedQueryDict" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">dict</span></code></p>
-<p>Enhanced dict for better usability.</p>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.core.data.nested_obj_factory">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">nested_obj_factory</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obj</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#nested_obj_factory"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.nested_obj_factory" title="Permalink to this definition">¶</a></dt>
-<dd><p>Use nested classes to wrap the input object.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>obj</strong> – object to be nested.</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>nested object</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.core.data.nested_query">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">nested_query</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">root_obj</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference internal" href="#data_juicer.core.data.NestedDatasetDict" title="data_juicer.core.data.NestedDatasetDict"><span class="pre">NestedDatasetDict</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference internal" href="#data_juicer.core.data.NestedDataset" title="data_juicer.core.data.NestedDataset"><span class="pre">NestedDataset</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference internal" href="#data_juicer.core.data.NestedQueryDict" title="data_juicer.core.data.NestedQueryDict"><span class="pre">NestedQueryDict</span></a></span></em>, <em class="sig-param"><span class="n"><span class="pre">key</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#nested_query"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.nested_query" title="Permalink to this definition">¶</a></dt>
-<dd><p>Find item from a given object, by first checking flatten layer, then
-checking nested layers.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>root_obj</strong> – the object</p></li>
-<li><p><strong>key</strong> – the stored item to be queried, e.g., “meta” or
-“meta.date”</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p></p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.core.data.wrap_func_with_nested_access">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">wrap_func_with_nested_access</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">f</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#wrap_func_with_nested_access"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.wrap_func_with_nested_access" title="Permalink to this definition">¶</a></dt>
-<dd><p>Before conducting actual function <cite>f</cite>, wrap its args and kargs into nested
-ones.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>f</strong> – function to be wrapped.</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>wrapped function</p>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.core.executor">
-<span id="data-juicer-core-executor-module"></span><h2>data_juicer.core.executor module<a class="headerlink" href="#module-data_juicer.core.executor" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.core.executor.Executor">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.executor.</span></span><span class="sig-name descname"><span class="pre">Executor</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/executor.html#Executor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.executor.Executor" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<p>This Executor class is used to process a specific dataset.</p>
-<p>It will load the dataset and unify the format, then apply all the
-ops in the config file in order and generate a processed dataset.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.executor.Executor.run">
-<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">load_data_np</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/executor.html#Executor.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.executor.Executor.run" title="Permalink to this definition">¶</a></dt>
-<dd><p>Running the dataset process pipeline.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>load_data_np</strong> – number of workers when loading the dataset.</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed dataset.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.core.exporter">
-<span id="data-juicer-core-exporter-module"></span><h2>data_juicer.core.exporter module<a class="headerlink" href="#module-data_juicer.core.exporter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.exporter.</span></span><span class="sig-name descname"><span class="pre">Exporter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">export_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_shard_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_in_parallel</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_ds</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_stats</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/exporter.html#Exporter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.exporter.Exporter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<p>The Exporter class is used to export a dataset to files of specific
-format.</p>
-<dl class="py attribute">
-<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.GiB">
-<span class="sig-name descname"><span class="pre">GiB</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">1073741824</span></em><a class="headerlink" href="#data_juicer.core.exporter.Exporter.GiB" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-<dl class="py attribute">
-<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.KiB">
-<span class="sig-name descname"><span class="pre">KiB</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">1024</span></em><a class="headerlink" href="#data_juicer.core.exporter.Exporter.KiB" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-<dl class="py attribute">
-<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.MiB">
-<span class="sig-name descname"><span class="pre">MiB</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">1048576</span></em><a class="headerlink" href="#data_juicer.core.exporter.Exporter.MiB" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-<dl class="py attribute">
-<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.TiB">
-<span class="sig-name descname"><span class="pre">TiB</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">1099511627776</span></em><a class="headerlink" href="#data_juicer.core.exporter.Exporter.TiB" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.export">
-<span class="sig-name descname"><span class="pre">export</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/exporter.html#Exporter.export"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.exporter.Exporter.export" title="Permalink to this definition">¶</a></dt>
-<dd><p>Export method for a dataset.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>dataset</strong> – the dataset to export.</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p></p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.to_jsonl">
-<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">to_jsonl</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/exporter.html#Exporter.to_jsonl"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.exporter.Exporter.to_jsonl" title="Permalink to this definition">¶</a></dt>
-<dd><p>Export method for json/jsonl target files.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>dataset</strong> – the dataset to export.</p></li>
-<li><p><strong>export_path</strong> – the path to store the exported dataset.</p></li>
-<li><p><strong>num_proc</strong> – the number of processes used to export the dataset.</p></li>
-<li><p><strong>kwargs</strong> – extra arguments.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p></p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.to_parquet">
-<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">to_parquet</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_path</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/exporter.html#Exporter.to_parquet"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.exporter.Exporter.to_parquet" title="Permalink to this definition">¶</a></dt>
-<dd><p>Export method for parquet target files.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>dataset</strong> – the dataset to export.</p></li>
-<li><p><strong>export_path</strong> – the path to store the exported dataset.</p></li>
-<li><p><strong>kwargs</strong> – extra arguments.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p></p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.core.tracer">
-<span id="data-juicer-core-tracer-module"></span><h2>data_juicer.core.tracer module<a class="headerlink" href="#module-data_juicer.core.tracer" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.core.tracer.Tracer">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.tracer.</span></span><span class="sig-name descname"><span class="pre">Tracer</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">work_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">10</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/tracer.html#Tracer"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.tracer.Tracer" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<p>The tracer to trace the sample changes before and after an operator
-process.</p>
-<p>The comparison results will be stored in the work directory.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.tracer.Tracer.trace_batch_mapper">
-<span class="sig-name descname"><span class="pre">trace_batch_mapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">previous_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">processed_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/tracer.html#Tracer.trace_batch_mapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.tracer.Tracer.trace_batch_mapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compare datasets before and after a BatchMapper.</p>
-<p>This will mainly show the new samples augmented by the BatchMapper</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>op_name</strong> – the op name of mapper</p></li>
-<li><p><strong>previous_ds</strong> – dataset before the mapper process</p></li>
-<li><p><strong>processed_ds</strong> – dataset processed by the mapper</p></li>
-<li><p><strong>text_key</strong> – which text_key to trace</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p></p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.tracer.Tracer.trace_deduplicator">
-<span class="sig-name descname"><span class="pre">trace_deduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dup_pairs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">list</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/tracer.html#Tracer.trace_deduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.tracer.Tracer.trace_deduplicator" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compare datasets before and after a Deduplicator.</p>
-<p>This will mainly show the near-duplicate sample pairs extracted
-by the Deduplicator. Different from the other two trace methods,
-the trace process for deduplicator is embedded into the process
-method of deduplicator, but the other two trace methods are
-independent of the process method of mapper and filter operators</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>op_name</strong> – the op name of deduplicator</p></li>
-<li><p><strong>dup_pairs</strong> – duplicate sample pairs obtained from
-deduplicator</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p></p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.tracer.Tracer.trace_filter">
-<span class="sig-name descname"><span class="pre">trace_filter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">previous_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">processed_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/tracer.html#Tracer.trace_filter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.tracer.Tracer.trace_filter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compare datasets before and after a Filter.</p>
-<p>This will mainly show the filtered samples by the Filter</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>op_name</strong> – the op name of filter</p></li>
-<li><p><strong>previous_ds</strong> – dataset before the filter process</p></li>
-<li><p><strong>processed_ds</strong> – dataset processed by the filter</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p></p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.core.tracer.Tracer.trace_mapper">
-<span class="sig-name descname"><span class="pre">trace_mapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">previous_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">processed_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/tracer.html#Tracer.trace_mapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.tracer.Tracer.trace_mapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compare datasets before and after a Mapper.</p>
-<p>This will mainly show the different sample pairs due to the
-modification by the Mapper</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>op_name</strong> – the op name of mapper</p></li>
-<li><p><strong>previous_ds</strong> – dataset before the mapper process</p></li>
-<li><p><strong>processed_ds</strong> – dataset processed by the mapper</p></li>
-<li><p><strong>text_key</strong> – which text_key to trace</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p></p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.core">
-<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.core" title="Permalink to this heading">¶</a></h2>
-</section>
-</section>
-
-
-           </div>
-          </div>
-          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.config.html" class="btn btn-neutral float-left" title="data_juicer.config package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.format.html" class="btn btn-neutral float-right" title="data_juicer.format package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-    </div>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/data_juicer.format.html b/data_juicer.format.html
deleted file mode 100644
index ef6f31201..000000000
--- a/data_juicer.format.html
+++ /dev/null
@@ -1,437 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" /><meta name="generator" content="Docutils 0.18.1: http://docutils.sourceforge.net/" />
-
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.format package &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="_static/doctools.js?v=888ff710"></script>
-        <script src="_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops package" href="data_juicer.ops.html" />
-    <link rel="prev" title="data_juicer.core package" href="data_juicer.core.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul class="current">
-<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">data_juicer.format package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.format.formatter">data_juicer.format.formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.format.load">data_juicer.format.load module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.format">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a></li>
-</ul>
-</li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.html">data_juicer package</a></li>
-      <li class="breadcrumb-item active">data_juicer.format package</li>
-      <li class="wy-breadcrumbs-aside">
-            <a href="_sources/data_juicer.format.rst.txt" rel="nofollow"> View page source</a>
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <section id="data-juicer-format-package">
-<h1>data_juicer.format package<a class="headerlink" href="#data-juicer-format-package" title="Permalink to this heading">¶</a></h1>
-<section id="submodules">
-<h2>Submodules<a class="headerlink" href="#submodules" title="Permalink to this heading">¶</a></h2>
-</section>
-<section id="module-data_juicer.format.csv_formatter">
-<span id="data-juicer-format-csv-formatter-module"></span><h2>data_juicer.format.csv_formatter module<a class="headerlink" href="#module-data_juicer.format.csv_formatter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.format.csv_formatter.CsvFormatter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.csv_formatter.</span></span><span class="sig-name descname"><span class="pre">CsvFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/csv_formatter.html#CsvFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.csv_formatter.CsvFormatter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
-<p>The class is used to load and format csv-type files.</p>
-<p>Default suffixes is <cite>[‘.csv’]</cite></p>
-<dl class="py attribute">
-<dt class="sig sig-object py" id="data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES">
-<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.csv']</span></em><a class="headerlink" href="#data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.format.formatter">
-<span id="data-juicer-format-formatter-module"></span><h2>data_juicer.format.formatter module<a class="headerlink" href="#module-data_juicer.format.formatter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.format.formatter.BaseFormatter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">BaseFormatter</span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#BaseFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.BaseFormatter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<p>Base class to load dataset.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.format.formatter.BaseFormatter.load_dataset">
-<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#BaseFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.BaseFormatter.load_dataset" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-</dd></dl>
-
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.format.formatter.LocalFormatter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">LocalFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#LocalFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.LocalFormatter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
-<p>The class is used to load a dataset from local files or local
-directory.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.format.formatter.LocalFormatter.load_dataset">
-<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#LocalFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.LocalFormatter.load_dataset" title="Permalink to this definition">¶</a></dt>
-<dd><p>Load a dataset from dataset file or dataset directory, and unify its
-format.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>num_proc</strong> – number of processes when loading the dataset</p></li>
-<li><p><strong>global_cfg</strong> – global cfg used in consequent processes,</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>formatted dataset</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.format.formatter.RemoteFormatter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">RemoteFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#RemoteFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.RemoteFormatter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
-<p>The class is used to load a dataset from repository of huggingface
-hub.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.format.formatter.RemoteFormatter.load_dataset">
-<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#RemoteFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.RemoteFormatter.load_dataset" title="Permalink to this definition">¶</a></dt>
-<dd><p>Load a dataset from HuggingFace, and unify its format.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>num_proc</strong> – number of processes when loading the dataset</p></li>
-<li><p><strong>global_cfg</strong> – the global cfg used in consequent processes,</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>formatted dataset</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.format.formatter.add_suffixes">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">add_suffixes</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">datasets</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">DatasetDict</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#add_suffixes"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.add_suffixes" title="Permalink to this definition">¶</a></dt>
-<dd><p>Add suffix filed to datasets.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>datasets</strong> – a DatasetDict object</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>datasets with suffix features.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.format.formatter.load_formatter">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">load_formatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><span class="pre">BaseFormatter</span></a></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#load_formatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.load_formatter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Load the appropriate formatter for different types of data formats.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>dataset_path</strong> – Path to dataset file or dataset directory</p></li>
-<li><p><strong>text_keys</strong> – key names of field that stores sample text.
-Default: None</p></li>
-<li><p><strong>suffixes</strong> – the suffix of files that will be read. Default:
-None</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>a dataset formatter.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.format.formatter.unify_format">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">unify_format</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'text'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#unify_format"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.unify_format" title="Permalink to this definition">¶</a></dt>
-<dd><p>Get an unified internal format, conduct the following modifications.</p>
-<ol class="arabic simple">
-<li><p>check keys of dataset</p></li>
-<li><p>filter out those samples with empty or None text</p></li>
-</ol>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>dataset</strong> – input dataset</p></li>
-<li><p><strong>text_keys</strong> – original text key(s) of dataset.</p></li>
-<li><p><strong>num_proc</strong> – number of processes for mapping</p></li>
-<li><p><strong>global_cfg</strong> – the global cfg used in consequent processes,
-since cfg.text_key may be modified after unifying</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>unified_format_dataset</p>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.format.json_formatter">
-<span id="data-juicer-format-json-formatter-module"></span><h2>data_juicer.format.json_formatter module<a class="headerlink" href="#module-data_juicer.format.json_formatter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.format.json_formatter.JsonFormatter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.json_formatter.</span></span><span class="sig-name descname"><span class="pre">JsonFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/json_formatter.html#JsonFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.json_formatter.JsonFormatter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
-<p>The class is used to load and format json-type files.</p>
-<p>Default suffixes is <cite>[‘.json’, ‘.jsonl’, ‘.jsonl.zst’]</cite></p>
-<dl class="py attribute">
-<dt class="sig sig-object py" id="data_juicer.format.json_formatter.JsonFormatter.SUFFIXES">
-<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.json',</span> <span class="pre">'.jsonl',</span> <span class="pre">'.jsonl.zst']</span></em><a class="headerlink" href="#data_juicer.format.json_formatter.JsonFormatter.SUFFIXES" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.format.load">
-<span id="data-juicer-format-load-module"></span><h2>data_juicer.format.load module<a class="headerlink" href="#module-data_juicer.format.load" title="Permalink to this heading">¶</a></h2>
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.format.load.load_formatter">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.format.load.</span></span><span class="sig-name descname"><span class="pre">load_formatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><span class="pre">BaseFormatter</span></a></span></span><a class="reference internal" href="_modules/data_juicer/format/load.html#load_formatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.load.load_formatter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Load mixture formatter for multiple different data formats with an optional
-weight(default 1.0) according to their formats.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>dataset_path</strong> – path to a dataset file or a dataset directory</p></li>
-<li><p><strong>text_keys</strong> – key names of field that stores sample text.
-Default: None</p></li>
-<li><p><strong>suffixes</strong> – files with specified suffixes to be processed.</p></li>
-<li><p><strong>add_suffix</strong> – whether to add the file suffix to dataset meta
-info</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>a dataset formatter.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.format.mixture_formatter">
-<span id="data-juicer-format-mixture-formatter-module"></span><h2>data_juicer.format.mixture_formatter module<a class="headerlink" href="#module-data_juicer.format.mixture_formatter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.format.mixture_formatter.MixtureFormatter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.mixture_formatter.</span></span><span class="sig-name descname"><span class="pre">MixtureFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/mixture_formatter.html#MixtureFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.mixture_formatter.MixtureFormatter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
-<p>The class mixes multiple datasets by randomly selecting samples from
-every dataset and merging them, and then exports the merged datasset as a
-new mixed dataset.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset">
-<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/mixture_formatter.html#MixtureFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset" title="Permalink to this definition">¶</a></dt>
-<dd><p>Load a mixed dataset.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>num_proc</strong> – number of processes when loading the dataset</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>mixed dataset</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.format.parquet_formatter">
-<span id="data-juicer-format-parquet-formatter-module"></span><h2>data_juicer.format.parquet_formatter module<a class="headerlink" href="#module-data_juicer.format.parquet_formatter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.format.parquet_formatter.ParquetFormatter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.parquet_formatter.</span></span><span class="sig-name descname"><span class="pre">ParquetFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/parquet_formatter.html#ParquetFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.parquet_formatter.ParquetFormatter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
-<p>The class is used to load and format parquet-type files.</p>
-<p>Default suffixes is <cite>[‘.parquet’]</cite></p>
-<dl class="py attribute">
-<dt class="sig sig-object py" id="data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES">
-<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.parquet']</span></em><a class="headerlink" href="#data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.format.text_formatter">
-<span id="data-juicer-format-text-formatter-module"></span><h2>data_juicer.format.text_formatter module<a class="headerlink" href="#module-data_juicer.format.text_formatter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.format.text_formatter.TextFormatter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.text_formatter.</span></span><span class="sig-name descname"><span class="pre">TextFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#TextFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.TextFormatter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
-<p>The class is used to load and format text-type files.</p>
-<p>e.g. <cite>[‘.txt’, ‘.pdf’, ‘.cpp’, ‘.docx’]</cite></p>
-<dl class="py attribute">
-<dt class="sig sig-object py" id="data_juicer.format.text_formatter.TextFormatter.SUFFIXES">
-<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.docx',</span> <span class="pre">'.pdf',</span> <span class="pre">'.txt',</span> <span class="pre">'.md',</span> <span class="pre">'.tex',</span> <span class="pre">'.asm',</span> <span class="pre">'.bat',</span> <span class="pre">'.cmd',</span> <span class="pre">'.c',</span> <span class="pre">'.h',</span> <span class="pre">'.cs',</span> <span class="pre">'.cpp',</span> <span class="pre">'.hpp',</span> <span class="pre">'.c++',</span> <span class="pre">'.h++',</span> <span class="pre">'.cc',</span> <span class="pre">'.hh',</span> <span class="pre">'.C',</span> <span class="pre">'.H',</span> <span class="pre">'.cmake',</span> <span class="pre">'.css',</span> <span class="pre">'.dockerfile',</span> <span class="pre">'.f90',</span> <span class="pre">'.f',</span> <span class="pre">'.f03',</span> <span class="pre">'.f08',</span> <span class="pre">'.f77',</span> <span class="pre">'.f95',</span> <span class="pre">'.for',</span> <span class="pre">'.fpp',</span> <span class="pre">'.go',</span> <span class="pre">'.hs',</span> <span class="pre">'.html',</span> <span class="pre">'.java',</span> <span class="pre">'.js',</span> <span class="pre">'.jl',</span> <span class="pre">'.lua',</span> <span class="pre">'.markdown',</span> <span class="pre">'.php',</span> <span class="pre">'.php3',</span> <span class="pre">'.php4',</span> <span class="pre">'.php5',</span> <span class="pre">'.phps',</span> <span class="pre">'.phpt',</span> <span class="pre">'.pl',</span> <span class="pre">'.pm',</span> <span class="pre">'.pod',</span> <span class="pre">'.perl',</span> <span class="pre">'.ps1',</span> <span class="pre">'.psd1',</span> <span class="pre">'.psm1',</span> <span class="pre">'.py',</span> <span class="pre">'.rb',</span> <span class="pre">'.rs',</span> <span class="pre">'.sql',</span> <span class="pre">'.scala',</span> <span class="pre">'.sh',</span> <span class="pre">'.bash',</span> <span class="pre">'.command',</span> <span class="pre">'.zsh',</span> <span class="pre">'.ts',</span> <span class="pre">'.tsx',</span> <span class="pre">'.vb',</span> <span class="pre">'Dockerfile',</span> <span class="pre">'Makefile',</span> <span class="pre">'.xml',</span> <span class="pre">'.rst',</span> <span class="pre">'.m',</span> <span class="pre">'.smali']</span></em><a class="headerlink" href="#data_juicer.format.text_formatter.TextFormatter.SUFFIXES" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.format.text_formatter.TextFormatter.load_dataset">
-<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#TextFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.TextFormatter.load_dataset" title="Permalink to this definition">¶</a></dt>
-<dd><p>Load a dataset from local text-type files.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>num_proc</strong> – number of processes when loading the dataset</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>unified_format_dataset.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.format.text_formatter.extract_txt_from_docx">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.format.text_formatter.</span></span><span class="sig-name descname"><span class="pre">extract_txt_from_docx</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">fn</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tgt_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#extract_txt_from_docx"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.extract_txt_from_docx" title="Permalink to this definition">¶</a></dt>
-<dd><p>Extract text from a docx file and save to target path.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>fn</strong> – path to input pdf file</p></li>
-<li><p><strong>tgt_path</strong> – path to save text file.</p></li>
-</ul>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.format.text_formatter.extract_txt_from_pdf">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.format.text_formatter.</span></span><span class="sig-name descname"><span class="pre">extract_txt_from_pdf</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">fn</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tgt_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#extract_txt_from_pdf"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.extract_txt_from_pdf" title="Permalink to this definition">¶</a></dt>
-<dd><p>Extract text from a pdf file and save to target path.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>fn</strong> – path to input pdf file</p></li>
-<li><p><strong>tgt_path</strong> – path to save text file.</p></li>
-</ul>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.format.tsv_formatter">
-<span id="data-juicer-format-tsv-formatter-module"></span><h2>data_juicer.format.tsv_formatter module<a class="headerlink" href="#module-data_juicer.format.tsv_formatter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.format.tsv_formatter.TsvFormatter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.tsv_formatter.</span></span><span class="sig-name descname"><span class="pre">TsvFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/tsv_formatter.html#TsvFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.tsv_formatter.TsvFormatter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
-<p>The class is used to load and format tsv-type files.</p>
-<p>Default suffixes is <cite>[‘.tsv’]</cite></p>
-<dl class="py attribute">
-<dt class="sig sig-object py" id="data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES">
-<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.tsv']</span></em><a class="headerlink" href="#data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.format">
-<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.format" title="Permalink to this heading">¶</a></h2>
-</section>
-</section>
-
-
-           </div>
-          </div>
-          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.core.html" class="btn btn-neutral float-left" title="data_juicer.core package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.html" class="btn btn-neutral float-right" title="data_juicer.ops package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-    </div>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/data_juicer.html b/data_juicer.html
deleted file mode 100644
index 2e15fa434..000000000
--- a/data_juicer.html
+++ /dev/null
@@ -1,474 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" /><meta name="generator" content="Docutils 0.18.1: http://docutils.sourceforge.net/" />
-
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer package &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="_static/doctools.js?v=888ff710"></script>
-        <script src="_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.analysis package" href="data_juicer.analysis.html" />
-    <link rel="prev" title="Welcome to data-juicer’s documentation!" href="index.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul class="current">
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer package</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#subpackages">Subpackages</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer">Module contents</a></li>
-</ul>
-</li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer package</li>
-      <li class="wy-breadcrumbs-aside">
-            <a href="_sources/data_juicer.rst.txt" rel="nofollow"> View page source</a>
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <section id="data-juicer-package">
-<h1>data_juicer package<a class="headerlink" href="#data-juicer-package" title="Permalink to this heading">¶</a></h1>
-<section id="subpackages">
-<h2>Subpackages<a class="headerlink" href="#subpackages" title="Permalink to this heading">¶</a></h2>
-<div class="toctree-wrapper compound">
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#submodules">Submodules</a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyse"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.analyse()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_box()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_hist()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.get_row_col"><code class="docutils literal notranslate"><span class="pre">get_row_col()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyse"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.analyse()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.compute()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj"><code class="docutils literal notranslate"><span class="pre">find_root_verb_and_its_dobj()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string"><code class="docutils literal notranslate"><span class="pre">find_root_verb_and_its_dobj_in_string()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.get_diversity"><code class="docutils literal notranslate"><span class="pre">get_diversity()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.analyse"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.analyse()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#submodules">Submodules</a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config.config">data_juicer.config.config module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.config_backup"><code class="docutils literal notranslate"><span class="pre">config_backup()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.display_config"><code class="docutils literal notranslate"><span class="pre">display_config()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.init_configs"><code class="docutils literal notranslate"><span class="pre">init_configs()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.init_setup_from_cfg"><code class="docutils literal notranslate"><span class="pre">init_setup_from_cfg()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.sort_op_by_types_and_names"><code class="docutils literal notranslate"><span class="pre">sort_op_by_types_and_names()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#submodules">Submodules</a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.analyser">data_juicer.core.analyser module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.analyser.Analyser"><code class="docutils literal notranslate"><span class="pre">Analyser</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.analyser.Analyser.run"><code class="docutils literal notranslate"><span class="pre">Analyser.run()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.data">data_juicer.core.data module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset"><code class="docutils literal notranslate"><span class="pre">NestedDataset</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.add_column"><code class="docutils literal notranslate"><span class="pre">NestedDataset.add_column()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.cleanup_cache_files"><code class="docutils literal notranslate"><span class="pre">NestedDataset.cleanup_cache_files()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.filter"><code class="docutils literal notranslate"><span class="pre">NestedDataset.filter()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.from_dict"><code class="docutils literal notranslate"><span class="pre">NestedDataset.from_dict()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.map"><code class="docutils literal notranslate"><span class="pre">NestedDataset.map()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.remove_columns"><code class="docutils literal notranslate"><span class="pre">NestedDataset.remove_columns()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.select"><code class="docutils literal notranslate"><span class="pre">NestedDataset.select()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.select_columns"><code class="docutils literal notranslate"><span class="pre">NestedDataset.select_columns()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDatasetDict"><code class="docutils literal notranslate"><span class="pre">NestedDatasetDict</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDatasetDict.map"><code class="docutils literal notranslate"><span class="pre">NestedDatasetDict.map()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedQueryDict"><code class="docutils literal notranslate"><span class="pre">NestedQueryDict</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.nested_obj_factory"><code class="docutils literal notranslate"><span class="pre">nested_obj_factory()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.nested_query"><code class="docutils literal notranslate"><span class="pre">nested_query()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.wrap_func_with_nested_access"><code class="docutils literal notranslate"><span class="pre">wrap_func_with_nested_access()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.executor">data_juicer.core.executor module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.executor.Executor"><code class="docutils literal notranslate"><span class="pre">Executor</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.executor.Executor.run"><code class="docutils literal notranslate"><span class="pre">Executor.run()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.exporter">data_juicer.core.exporter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter"><code class="docutils literal notranslate"><span class="pre">Exporter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.GiB"><code class="docutils literal notranslate"><span class="pre">Exporter.GiB</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.KiB"><code class="docutils literal notranslate"><span class="pre">Exporter.KiB</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.MiB"><code class="docutils literal notranslate"><span class="pre">Exporter.MiB</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.TiB"><code class="docutils literal notranslate"><span class="pre">Exporter.TiB</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.export"><code class="docutils literal notranslate"><span class="pre">Exporter.export()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.to_jsonl"><code class="docutils literal notranslate"><span class="pre">Exporter.to_jsonl()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.to_parquet"><code class="docutils literal notranslate"><span class="pre">Exporter.to_parquet()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.tracer">data_juicer.core.tracer module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer"><code class="docutils literal notranslate"><span class="pre">Tracer</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_batch_mapper"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_batch_mapper()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_deduplicator"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_deduplicator()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_filter"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_filter()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_mapper"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_mapper()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#submodules">Submodules</a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter"><code class="docutils literal notranslate"><span class="pre">CsvFormatter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">CsvFormatter.SUFFIXES</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.formatter">data_juicer.format.formatter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.BaseFormatter"><code class="docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.BaseFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">BaseFormatter.load_dataset()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter"><code class="docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">LocalFormatter.load_dataset()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter.load_dataset()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.add_suffixes"><code class="docutils literal notranslate"><span class="pre">add_suffixes()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.load_formatter"><code class="docutils literal notranslate"><span class="pre">load_formatter()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.unify_format"><code class="docutils literal notranslate"><span class="pre">unify_format()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter"><code class="docutils literal notranslate"><span class="pre">JsonFormatter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">JsonFormatter.SUFFIXES</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.load">data_juicer.format.load module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.load.load_formatter"><code class="docutils literal notranslate"><span class="pre">load_formatter()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.load_dataset()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter.SUFFIXES</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter"><code class="docutils literal notranslate"><span class="pre">TextFormatter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">TextFormatter.SUFFIXES</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">TextFormatter.load_dataset()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_docx"><code class="docutils literal notranslate"><span class="pre">extract_txt_from_docx()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_pdf"><code class="docutils literal notranslate"><span class="pre">extract_txt_from_pdf()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter"><code class="docutils literal notranslate"><span class="pre">TsvFormatter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">TsvFormatter.SUFFIXES</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">data_juicer.ops.common.helper_func module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters">data_juicer.ops.common.special_characters module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">data_juicer.ops.deduplicator.document_deduplicator module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">data_juicer.ops.deduplicator.document_minhash_deduplicator module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">data_juicer.ops.deduplicator.document_simhash_deduplicator module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">data_juicer.ops.filter.alphanumeric_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">data_juicer.ops.filter.average_line_length_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">data_juicer.ops.filter.character_repetition_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">data_juicer.ops.filter.flagged_words_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">data_juicer.ops.filter.language_id_score_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">data_juicer.ops.filter.maximum_line_length_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">data_juicer.ops.filter.perplexity_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">data_juicer.ops.filter.special_characters_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">data_juicer.ops.filter.specified_field_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">data_juicer.ops.filter.specified_numeric_field_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">data_juicer.ops.filter.stopwords_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">data_juicer.ops.filter.suffix_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">data_juicer.ops.filter.text_length_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_num_filter">data_juicer.ops.filter.word_num_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">data_juicer.ops.filter.word_repetition_filter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">data_juicer.ops.mapper.clean_copyright_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">data_juicer.ops.mapper.clean_email_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">data_juicer.ops.mapper.clean_html_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">data_juicer.ops.mapper.clean_ip_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">data_juicer.ops.mapper.clean_links_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">data_juicer.ops.mapper.expand_macro_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">data_juicer.ops.mapper.fix_unicode_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">data_juicer.ops.mapper.punctuation_normalization_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">data_juicer.ops.mapper.remove_bibliography_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">data_juicer.ops.mapper.remove_comments_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">data_juicer.ops.mapper.remove_header_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">data_juicer.ops.mapper.remove_long_words_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">data_juicer.ops.mapper.remove_specific_chars_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">data_juicer.ops.mapper.remove_table_text_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">data_juicer.ops.mapper.sentence_split_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">data_juicer.ops.mapper.whitespace_normalization_mapper module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">data_juicer.ops.selector.frequency_specified_field_selector module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">data_juicer.ops.selector.topk_specified_field_selector module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">Module contents</a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator"><code class="docutils literal notranslate"><span class="pre">Deduplicator</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">Deduplicator.compute_hash()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.process"><code class="docutils literal notranslate"><span class="pre">Deduplicator.process()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter"><code class="docutils literal notranslate"><span class="pre">Filter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats"><code class="docutils literal notranslate"><span class="pre">Filter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.process"><code class="docutils literal notranslate"><span class="pre">Filter.process()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper"><code class="docutils literal notranslate"><span class="pre">Mapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.is_batched_op"><code class="docutils literal notranslate"><span class="pre">Mapper.is_batched_op()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process"><code class="docutils literal notranslate"><span class="pre">Mapper.process()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector"><code class="docutils literal notranslate"><span class="pre">Selector</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.process"><code class="docutils literal notranslate"><span class="pre">Selector.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.load.load_ops"><code class="docutils literal notranslate"><span class="pre">load_ops()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#submodules">Submodules</a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.asset_utils">data_juicer.utils.asset_utils module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.asset_utils.load_words_asset"><code class="docutils literal notranslate"><span class="pre">load_words_asset()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.cache_utils">data_juicer.utils.cache_utils module</a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils">data_juicer.utils.ckpt_utils module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager"><code class="docutils literal notranslate"><span class="pre">CheckpointManager</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.check_ckpt()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.check_ops_to_skip()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.get_left_process_list()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.load_ckpt()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.record"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.record()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.save_ckpt()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.file_utils">data_juicer.utils.file_utils module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.find_files_with_suffix"><code class="docutils literal notranslate"><span class="pre">find_files_with_suffix()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.is_absolute_path"><code class="docutils literal notranslate"><span class="pre">is_absolute_path()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.logger_utils">data_juicer.utils.logger_utils module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.HiddenPrints"><code class="docutils literal notranslate"><span class="pre">HiddenPrints</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.flush"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru.flush()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.write"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru.write()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.get_caller_name"><code class="docutils literal notranslate"><span class="pre">get_caller_name()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.get_log_file_path"><code class="docutils literal notranslate"><span class="pre">get_log_file_path()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.redirect_sys_output"><code class="docutils literal notranslate"><span class="pre">redirect_sys_output()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.setup_logger"><code class="docutils literal notranslate"><span class="pre">setup_logger()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.model_utils">data_juicer.utils.model_utils module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.check_model"><code class="docutils literal notranslate"><span class="pre">check_model()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.get_model"><code class="docutils literal notranslate"><span class="pre">get_model()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_diversity_model"><code class="docutils literal notranslate"><span class="pre">prepare_diversity_model()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_fasttext_model"><code class="docutils literal notranslate"><span class="pre">prepare_fasttext_model()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_huggingface_tokenizer"><code class="docutils literal notranslate"><span class="pre">prepare_huggingface_tokenizer()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_kenlm_model"><code class="docutils literal notranslate"><span class="pre">prepare_kenlm_model()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_model"><code class="docutils literal notranslate"><span class="pre">prepare_model()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_nltk_model"><code class="docutils literal notranslate"><span class="pre">prepare_nltk_model()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_model"><code class="docutils literal notranslate"><span class="pre">prepare_sentencepiece_model()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.registry">data_juicer.utils.registry module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry"><code class="docutils literal notranslate"><span class="pre">Registry</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.get"><code class="docutils literal notranslate"><span class="pre">Registry.get()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.list"><code class="docutils literal notranslate"><span class="pre">Registry.list()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.modules"><code class="docutils literal notranslate"><span class="pre">Registry.modules</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.name"><code class="docutils literal notranslate"><span class="pre">Registry.name</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.register_module"><code class="docutils literal notranslate"><span class="pre">Registry.register_module()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils">Module contents</a></li>
-</ul>
-</li>
-</ul>
-</div>
-</section>
-<section id="module-data_juicer">
-<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer" title="Permalink to this heading">¶</a></h2>
-</section>
-</section>
-
-
-           </div>
-          </div>
-          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="index.html" class="btn btn-neutral float-left" title="Welcome to data-juicer’s documentation!" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.analysis.html" class="btn btn-neutral float-right" title="data_juicer.analysis package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-    </div>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/data_juicer.ops.common.html b/data_juicer.ops.common.html
deleted file mode 100644
index 478b144ec..000000000
--- a/data_juicer.ops.common.html
+++ /dev/null
@@ -1,305 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" /><meta name="generator" content="Docutils 0.18.1: http://docutils.sourceforge.net/" />
-
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.common package &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="_static/doctools.js?v=888ff710"></script>
-        <script src="_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.deduplicator package" href="data_juicer.ops.deduplicator.html" />
-    <link rel="prev" title="data_juicer.ops package" href="data_juicer.ops.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul class="current">
-<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
-<li class="toctree-l3 current"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul class="current">
-<li class="toctree-l4 current"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a></li>
-</ul>
-</li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.html">data_juicer package</a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.common package</li>
-      <li class="wy-breadcrumbs-aside">
-            <a href="_sources/data_juicer.ops.common.rst.txt" rel="nofollow"> View page source</a>
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <section id="data-juicer-ops-common-package">
-<h1>data_juicer.ops.common package<a class="headerlink" href="#data-juicer-ops-common-package" title="Permalink to this heading">¶</a></h1>
-<section id="submodules">
-<h2>Submodules<a class="headerlink" href="#submodules" title="Permalink to this heading">¶</a></h2>
-</section>
-<section id="module-data_juicer.ops.common.helper_func">
-<span id="data-juicer-ops-common-helper-func-module"></span><h2>data_juicer.ops.common.helper_func module<a class="headerlink" href="#module-data_juicer.ops.common.helper_func" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.UnionFind">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">UnionFind</span></span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#UnionFind"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.UnionFind" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.UnionFind.find">
-<span class="sig-name descname"><span class="pre">find</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#UnionFind.find"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.UnionFind.find" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.UnionFind.union">
-<span class="sig-name descname"><span class="pre">union</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">y</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#UnionFind.union"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.UnionFind.union" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.get_sentences_from_document">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">get_sentences_from_document</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_func</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#get_sentences_from_document"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.get_sentences_from_document" title="Permalink to this definition">¶</a></dt>
-<dd><p>Get sentences from a document.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>document</strong> – document that need to split sentences</p></li>
-<li><p><strong>model_func</strong> – function of sentence model, if specified, the
-function will be used for spliting document into different
-sentences.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>document with the sentences separated by ‘\n’</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.get_words_from_document">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">get_words_from_document</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">token_func</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">new_line</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tab</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#get_words_from_document"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.get_words_from_document" title="Permalink to this definition">¶</a></dt>
-<dd><p>Get words from a document. Useful to compute ratios, like the
-stopwords ratio.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>document</strong> – document that need to split words</p></li>
-<li><p><strong>token_func</strong> – function of tokenizer, if specified, the function
-will be used for split document into different tokens.</p></li>
-<li><p><strong>new_line</strong> – whether to use <a href="#id1"><span class="problematic" id="id2">`</span></a>\n’ to split words</p></li>
-<li><p><strong>tab</strong> – whether to use ‘\t’ to split words</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>word list obtained from document</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">merge_on_whitespace_tab_newline</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sentences</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#merge_on_whitespace_tab_newline"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline" title="Permalink to this definition">¶</a></dt>
-<dd><p>This method is used to merge different levels of sub-sentences into one
-document. Invert the method split_on_newline_tab_whitespace. Removes
-concatenated separators.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sentences</strong> – sentence list to be merged</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>document obtained after merging sub-sentences</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">split_on_newline_tab_whitespace</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#split_on_newline_tab_whitespace"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace" title="Permalink to this definition">¶</a></dt>
-<dd><p>This method is used to split the document into different levels of sub-
-sentences.</p>
-<p>First split on “\n”, then on “\t”, then on ” “.
-:param document: document to be splited
-:return: setence list obtained after splitting document</p>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.split_on_whitespace">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">split_on_whitespace</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">new_line</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tab</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#split_on_whitespace"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.split_on_whitespace" title="Permalink to this definition">¶</a></dt>
-<dd><p>This method also removes concatenated spaces.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>document</strong> – document to be splited</p></li>
-<li><p><strong>new_line</strong> – whether to split document with ‘\n’</p></li>
-<li><p><strong>tag</strong> – whether to split document with ‘\t’</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>word list obtained after splitting document</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.strip">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">strip</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strip_characters</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#strip"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.strip" title="Permalink to this definition">¶</a></dt>
-<dd><p>Way faster than document.strip(strip_characters) since strip_characters is
-now a set instead of a str, and it contains a lot of elements (all the
-emojis).</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>document</strong> – document to be processed</p></li>
-<li><p><strong>strip_characters</strong> – characters uesd for stripping document</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>stripped document</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.words_augmentation">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">words_augmentation</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">words</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">group_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">join_char</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#words_augmentation"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.words_augmentation" title="Permalink to this definition">¶</a></dt>
-<dd><p>Augment words, especially for Chinese (without a space between words) and
-Vietnamese (with a space between syllables).</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>word</strong> – word list to be augmented</p></li>
-<li><p><strong>group_size</strong> – the size of word groups that need to be merged</p></li>
-<li><p><strong>join_char</strong> – characters to be added between word group</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>word list after augment</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.words_refinement">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">words_refinement</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">words</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_case</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strip_chars</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">''</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#words_refinement"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.words_refinement" title="Permalink to this definition">¶</a></dt>
-<dd><p>Refine split words. Non reversible since the document is split on
-multiple characters, words are stripped of special characters and
-characters are converted to lower case.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>words</strong> – the word list to be augmented</p></li>
-<li><p><strong>lower_case</strong> – whether to convert word to lowercase</p></li>
-<li><p><strong>strip_chars</strong> – chars that need to be stripped in words</p></li>
-<li><p><strong>use_words_aug</strong> – whether to use word augmentation</p></li>
-<li><p><strong>words_aug_group_sizes</strong> – the size of word groups that need to
-be merged</p></li>
-<li><p><strong>words_aug_join_char</strong> – characters to be added between word
-group</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>refined words or word list</p>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.common.special_characters">
-<span id="data-juicer-ops-common-special-characters-module"></span><h2>data_juicer.ops.common.special_characters module<a class="headerlink" href="#module-data_juicer.ops.common.special_characters" title="Permalink to this heading">¶</a></h2>
-</section>
-<section id="module-data_juicer.ops.common">
-<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.common" title="Permalink to this heading">¶</a></h2>
-</section>
-</section>
-
-
-           </div>
-          </div>
-          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.html" class="btn btn-neutral float-left" title="data_juicer.ops package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.deduplicator.html" class="btn btn-neutral float-right" title="data_juicer.ops.deduplicator package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-    </div>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/data_juicer.ops.deduplicator.html b/data_juicer.ops.deduplicator.html
deleted file mode 100644
index eda4d502a..000000000
--- a/data_juicer.ops.deduplicator.html
+++ /dev/null
@@ -1,336 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" /><meta name="generator" content="Docutils 0.18.1: http://docutils.sourceforge.net/" />
-
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.deduplicator package &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="_static/doctools.js?v=888ff710"></script>
-        <script src="_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.filter package" href="data_juicer.ops.filter.html" />
-    <link rel="prev" title="data_juicer.ops.common package" href="data_juicer.ops.common.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul class="current">
-<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
-<li class="toctree-l3 current"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul class="current">
-<li class="toctree-l4 current"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a></li>
-</ul>
-</li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.html">data_juicer package</a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.deduplicator package</li>
-      <li class="wy-breadcrumbs-aside">
-            <a href="_sources/data_juicer.ops.deduplicator.rst.txt" rel="nofollow"> View page source</a>
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <section id="data-juicer-ops-deduplicator-package">
-<h1>data_juicer.ops.deduplicator package<a class="headerlink" href="#data-juicer-ops-deduplicator-package" title="Permalink to this heading">¶</a></h1>
-<section id="submodules">
-<h2>Submodules<a class="headerlink" href="#submodules" title="Permalink to this heading">¶</a></h2>
-</section>
-<section id="module-data_juicer.ops.deduplicator.document_deduplicator">
-<span id="data-juicer-ops-deduplicator-document-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.document_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.document_deduplicator" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
-<p>Deduplicator to deduplicate samples at document-level using exact matching.</p>
-<p>Using md5 hash to deduplicate samples.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash">
-<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute md5 hash values for the sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with md5 hash value.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For doc-level, dataset –&gt; dataset.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>dataset</strong> – input dataset</p></li>
-<li><p><strong>show_num</strong> – number of traced samples used when tracer is
-open.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.deduplicator.document_minhash_deduplicator">
-<span id="data-juicer-ops-deduplicator-document-minhash-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.document_minhash_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.document_minhash_deduplicator" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_minhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentMinhashDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_permutations</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">jaccard_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_bands</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_rows_per_band</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
-<p>Deduplicator to deduplicate samples at document-level using MinHashLSH.</p>
-<p>Different from simhash, minhash is stored as bytes, so they won’t be
-kept in the final dataset.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash">
-<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute minhash values for the sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with minhash value.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For doc-level, dataset –&gt; dataset.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>dataset</strong> – input dataset</p></li>
-<li><p><strong>show_num</strong> – number of traced samples used when tracer is
-open.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_minhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">optimal_param</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_perm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">false_positive_weight</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">false_negative_weight</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#optimal_param"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute the optimal <cite>MinHashLSH</cite> parameter that minimizes the weighted sum
-of probabilities of false positive and false negative, taken from
-datasketch.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>threshold</strong> – float. The threshold for similarity</p></li>
-<li><p><strong>num_perm</strong> – int. The number of permutations</p></li>
-<li><p><strong>false_positive_weight</strong> – float. The weight of false positive</p></li>
-<li><p><strong>false_negative_weight</strong> – float. The weight of false negative</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>Tuple[int, int]. The optimal <cite>b</cite> and <cite>r</cite> parameters. The number of
-bands, and the number of rows per band respectively</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_minhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">sha1_hash32</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">data</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#sha1_hash32"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32" title="Permalink to this definition">¶</a></dt>
-<dd><p>Directly taken from datasketch package to avoid dependency.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>data</strong> (<em>bytes</em>) – </p>
-</dd>
-<dt class="field-even">Return type<span class="colon">:</span></dt>
-<dd class="field-even"><p>int</p>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.deduplicator.document_simhash_deduplicator">
-<span id="data-juicer-ops-deduplicator-document-simhash-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.document_simhash_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.document_simhash_deduplicator" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_simhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentSimhashDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hamming_distance</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">4</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
-<p>Deduplicator to deduplicate samples at document-level using SimHash.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash">
-<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute simhash values for the sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with simhash value.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For doc-level, dataset –&gt; dataset.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>dataset</strong> – input dataset</p></li>
-<li><p><strong>show_num</strong> – number of traced samples used when tracer is
-open.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.local_num_differing_bits">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_simhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">local_num_differing_bits</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hash_a</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hash_b</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#local_num_differing_bits"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.local_num_differing_bits" title="Permalink to this definition">¶</a></dt>
-<dd><p>Local implementation of calculating the number of different bits between
-two integers.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>hash_a</strong> – integer hash value a</p></li>
-<li><p><strong>hash_b</strong> – integer hash value b</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>number of different bits between input hashes.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.num_differing_bits_selector">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_simhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">num_differing_bits_selector</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#num_differing_bits_selector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.num_differing_bits_selector" title="Permalink to this definition">¶</a></dt>
-<dd><p>Select a num_differing_bits method according to the Python version
-installed.</p>
-<p>When Python &gt;= 3.9, the original simhash library cannot be compiled
-correctly due to some changes in cython. After fixing this
-incompatibility, RecursionError occurs sometimes when calling
-simhash.num_differing_bits. So we use our implementation when Python
-&gt;= 3.9. Otherwise, we use implementation of simhash.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Returns<span class="colon">:</span></dt>
-<dd class="field-odd"><p>an available num_differing_bits function.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.deduplicator">
-<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.deduplicator" title="Permalink to this heading">¶</a></h2>
-</section>
-</section>
-
-
-           </div>
-          </div>
-          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.common.html" class="btn btn-neutral float-left" title="data_juicer.ops.common package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.filter.html" class="btn btn-neutral float-right" title="data_juicer.ops.filter package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-    </div>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/data_juicer.ops.filter.html b/data_juicer.ops.filter.html
deleted file mode 100644
index 29f3aad15..000000000
--- a/data_juicer.ops.filter.html
+++ /dev/null
@@ -1,802 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" /><meta name="generator" content="Docutils 0.18.1: http://docutils.sourceforge.net/" />
-
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter package &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="_static/doctools.js?v=888ff710"></script>
-        <script src="_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.mapper package" href="data_juicer.ops.mapper.html" />
-    <link rel="prev" title="data_juicer.ops.deduplicator package" href="data_juicer.ops.deduplicator.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul class="current">
-<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
-<li class="toctree-l3 current"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul class="current">
-<li class="toctree-l4 current"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a></li>
-</ul>
-</li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.html">data_juicer package</a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter package</li>
-      <li class="wy-breadcrumbs-aside">
-            <a href="_sources/data_juicer.ops.filter.rst.txt" rel="nofollow"> View page source</a>
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <section id="data-juicer-ops-filter-package">
-<h1>data_juicer.ops.filter package<a class="headerlink" href="#data-juicer-ops-filter-package" title="Permalink to this heading">¶</a></h1>
-<section id="submodules">
-<h2>Submodules<a class="headerlink" href="#submodules" title="Permalink to this heading">¶</a></h2>
-</section>
-<section id="module-data_juicer.ops.filter.alphanumeric_filter">
-<span id="data-juicer-ops-filter-alphanumeric-filter-module"></span><h2>data_juicer.ops.filter.alphanumeric_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.alphanumeric_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.alphanumeric_filter.</span></span><span class="sig-name descname"><span class="pre">AlphanumericFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveFloat</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter to keep samples with alphabet/numeric ratio within a specific
-range.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter.average_line_length_filter">
-<span id="data-juicer-ops-filter-average-line-length-filter-module"></span><h2>data_juicer.ops.filter.average_line_length_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.average_line_length_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.average_line_length_filter.</span></span><span class="sig-name descname"><span class="pre">AverageLineLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter to keep samples with average line length within a specific
-range.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter.character_repetition_filter">
-<span id="data-juicer-ops-filter-character-repetition-filter-module"></span><h2>data_juicer.ops.filter.character_repetition_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.character_repetition_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.character_repetition_filter.</span></span><span class="sig-name descname"><span class="pre">CharacterRepetitionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter to keep samples with char-level n-gram repetition ratio within a
-specific range.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter.flagged_words_filter">
-<span id="data-juicer-ops-filter-flagged-words-filter-module"></span><h2>data_juicer.ops.filter.flagged_words_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.flagged_words_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.flagged_words_filter.</span></span><span class="sig-name descname"><span class="pre">FlaggedWordFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.045</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">flagged_words_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter to keep samples with flagged-word ratio less than a specific max
-value.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter.language_id_score_filter">
-<span id="data-juicer-ops-filter-language-id-score-filter-module"></span><h2>data_juicer.ops.filter.language_id_score_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.language_id_score_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.language_id_score_filter.</span></span><span class="sig-name descname"><span class="pre">LanguageIDScoreFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter to keep samples in a specific language with confidence score
-larger than a specific min value.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter.maximum_line_length_filter">
-<span id="data-juicer-ops-filter-maximum-line-length-filter-module"></span><h2>data_juicer.ops.filter.maximum_line_length_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.maximum_line_length_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.maximum_line_length_filter.</span></span><span class="sig-name descname"><span class="pre">MaximumLineLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter to keep samples with maximum line length within a specific
-range.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter.perplexity_filter">
-<span id="data-juicer-ops-filter-perplexity-filter-module"></span><h2>data_juicer.ops.filter.perplexity_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.perplexity_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.perplexity_filter.PerplexityFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.perplexity_filter.</span></span><span class="sig-name descname"><span class="pre">PerplexityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ppl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveFloat</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1500</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.perplexity_filter.PerplexityFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter to keep samples with perplexity score less than a specific max
-value.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter.special_characters_filter">
-<span id="data-juicer-ops-filter-special-characters-filter-module"></span><h2>data_juicer.ops.filter.special_characters_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.special_characters_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.special_characters_filter.</span></span><span class="sig-name descname"><span class="pre">SpecialCharactersFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter to keep samples with special-char ratio within a specific
-range.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter.specified_field_filter">
-<span id="data-juicer-ops-filter-specified-field-filter-module"></span><h2>data_juicer.ops.filter.specified_field_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.specified_field_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.specified_field_filter.</span></span><span class="sig-name descname"><span class="pre">SpecifiedFieldFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter based on specified field information.</p>
-<p>If the specified field information in the sample is not within the
-specified target value, the sample will be filtered.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter.specified_numeric_field_filter">
-<span id="data-juicer-ops-filter-specified-numeric-field-filter-module"></span><h2>data_juicer.ops.filter.specified_numeric_field_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.specified_numeric_field_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.specified_numeric_field_filter.</span></span><span class="sig-name descname"><span class="pre">SpecifiedNumericFieldFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">-9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter based on specified numeric field information.</p>
-<p>If the specified numeric information in the sample is not within the
-specified range, the sample will be filtered.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.is_number">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.specified_numeric_field_filter.</span></span><span class="sig-name descname"><span class="pre">is_number</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">s</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#is_number"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.is_number" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter.stopwords_filter">
-<span id="data-juicer-ops-filter-stopwords-filter-module"></span><h2>data_juicer.ops.filter.stopwords_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.stopwords_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.stopwords_filter.StopWordsFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.stopwords_filter.</span></span><span class="sig-name descname"><span class="pre">StopWordsFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stopwords_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.stopwords_filter.StopWordsFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter to keep samples with stopword ratio larger than a specific min
-value.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter.suffix_filter">
-<span id="data-juicer-ops-filter-suffix-filter-module"></span><h2>data_juicer.ops.filter.suffix_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.suffix_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.suffix_filter.SuffixFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.suffix_filter.</span></span><span class="sig-name descname"><span class="pre">SuffixFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.suffix_filter.SuffixFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter to keep samples with specified suffix.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.suffix_filter.SuffixFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.suffix_filter.SuffixFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter.text_length_filter">
-<span id="data-juicer-ops-filter-text-length-filter-module"></span><h2>data_juicer.ops.filter.text_length_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.text_length_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.text_length_filter.TextLengthFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.text_length_filter.</span></span><span class="sig-name descname"><span class="pre">TextLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_length_filter.TextLengthFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter to keep samples with total text length within a specific
-range.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.text_length_filter.TextLengthFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_length_filter.TextLengthFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter.word_num_filter">
-<span id="data-juicer-ops-filter-word-num-filter-module"></span><h2>data_juicer.ops.filter.word_num_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.word_num_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.word_num_filter.WordNumFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.word_num_filter.</span></span><span class="sig-name descname"><span class="pre">WordNumFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_num_filter.html#WordNumFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_num_filter.WordNumFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter to keep samples with total words number within a specific
-range.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.word_num_filter.WordNumFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_num_filter.html#WordNumFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_num_filter.WordNumFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.word_num_filter.WordNumFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_num_filter.html#WordNumFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_num_filter.WordNumFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter.word_repetition_filter">
-<span id="data-juicer-ops-filter-word-repetition-filter-module"></span><h2>data_juicer.ops.filter.word_repetition_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.word_repetition_filter" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.word_repetition_filter.</span></span><span class="sig-name descname"><span class="pre">WordRepetitionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
-<p>Filter to keep samples with word-level n-gram repetition ratio within a
-specific range.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.filter">
-<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.filter" title="Permalink to this heading">¶</a></h2>
-</section>
-</section>
-
-
-           </div>
-          </div>
-          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.deduplicator.html" class="btn btn-neutral float-left" title="data_juicer.ops.deduplicator package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.mapper.html" class="btn btn-neutral float-right" title="data_juicer.ops.mapper package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-    </div>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/data_juicer.ops.html b/data_juicer.ops.html
deleted file mode 100644
index 232a8bc0a..000000000
--- a/data_juicer.ops.html
+++ /dev/null
@@ -1,616 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" /><meta name="generator" content="Docutils 0.18.1: http://docutils.sourceforge.net/" />
-
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops package &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="_static/doctools.js?v=888ff710"></script>
-        <script src="_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.common package" href="data_juicer.ops.common.html" />
-    <link rel="prev" title="data_juicer.format package" href="data_juicer.format.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul class="current">
-<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">data_juicer.ops package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="#subpackages">Subpackages</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.ops">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a></li>
-</ul>
-</li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.html">data_juicer package</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops package</li>
-      <li class="wy-breadcrumbs-aside">
-            <a href="_sources/data_juicer.ops.rst.txt" rel="nofollow"> View page source</a>
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <section id="data-juicer-ops-package">
-<h1>data_juicer.ops package<a class="headerlink" href="#data-juicer-ops-package" title="Permalink to this heading">¶</a></h1>
-<section id="subpackages">
-<h2>Subpackages<a class="headerlink" href="#subpackages" title="Permalink to this heading">¶</a></h2>
-<div class="toctree-wrapper compound">
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#submodules">Submodules</a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">data_juicer.ops.common.helper_func module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind"><code class="docutils literal notranslate"><span class="pre">UnionFind</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.find"><code class="docutils literal notranslate"><span class="pre">UnionFind.find()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.union"><code class="docutils literal notranslate"><span class="pre">UnionFind.union()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_sentences_from_document"><code class="docutils literal notranslate"><span class="pre">get_sentences_from_document()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_words_from_document"><code class="docutils literal notranslate"><span class="pre">get_words_from_document()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline"><code class="docutils literal notranslate"><span class="pre">merge_on_whitespace_tab_newline()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_newline_tab_whitespace()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_whitespace()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.strip"><code class="docutils literal notranslate"><span class="pre">strip()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_augmentation"><code class="docutils literal notranslate"><span class="pre">words_augmentation()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_refinement"><code class="docutils literal notranslate"><span class="pre">words_refinement()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters">data_juicer.ops.common.special_characters module</a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#submodules">Submodules</a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">data_juicer.ops.deduplicator.document_deduplicator module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.compute_hash()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">data_juicer.ops.deduplicator.document_minhash_deduplicator module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.compute_hash()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.process()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param"><code class="docutils literal notranslate"><span class="pre">optimal_param()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32"><code class="docutils literal notranslate"><span class="pre">sha1_hash32()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">data_juicer.ops.deduplicator.document_simhash_deduplicator module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.compute_hash()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.process()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.local_num_differing_bits"><code class="docutils literal notranslate"><span class="pre">local_num_differing_bits()</span></code></a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.num_differing_bits_selector"><code class="docutils literal notranslate"><span class="pre">num_differing_bits_selector()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#submodules">Submodules</a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">data_juicer.ops.filter.alphanumeric_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">data_juicer.ops.filter.average_line_length_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">data_juicer.ops.filter.character_repetition_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">data_juicer.ops.filter.flagged_words_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">data_juicer.ops.filter.language_id_score_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">data_juicer.ops.filter.maximum_line_length_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">data_juicer.ops.filter.perplexity_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">data_juicer.ops.filter.special_characters_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">data_juicer.ops.filter.specified_field_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">data_juicer.ops.filter.specified_numeric_field_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.process()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.is_number"><code class="docutils literal notranslate"><span class="pre">is_number()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">data_juicer.ops.filter.stopwords_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">data_juicer.ops.filter.suffix_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter"><code class="docutils literal notranslate"><span class="pre">SuffixFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.process"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">data_juicer.ops.filter.text_length_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.process"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_num_filter">data_juicer.ops.filter.word_num_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter"><code class="docutils literal notranslate"><span class="pre">WordNumFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">WordNumFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter.process"><code class="docutils literal notranslate"><span class="pre">WordNumFilter.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">data_juicer.ops.filter.word_repetition_filter module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.compute_stats()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#submodules">Submodules</a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">data_juicer.ops.mapper.clean_copyright_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">data_juicer.ops.mapper.clean_email_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">data_juicer.ops.mapper.clean_html_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">data_juicer.ops.mapper.clean_ip_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">data_juicer.ops.mapper.clean_links_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">data_juicer.ops.mapper.expand_macro_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">data_juicer.ops.mapper.fix_unicode_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">data_juicer.ops.mapper.punctuation_normalization_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">data_juicer.ops.mapper.remove_bibliography_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">data_juicer.ops.mapper.remove_comments_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">data_juicer.ops.mapper.remove_header_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">data_juicer.ops.mapper.remove_long_words_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.process()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.should_keep_long_word()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">data_juicer.ops.mapper.remove_specific_chars_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">data_juicer.ops.mapper.remove_table_text_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.process()</span></code></a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">data_juicer.ops.mapper.sentence_split_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">data_juicer.ops.mapper.whitespace_normalization_mapper module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#submodules">Submodules</a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">data_juicer.ops.selector.frequency_specified_field_selector module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector.process()</span></code></a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">data_juicer.ops.selector.topk_specified_field_selector module</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector</span></code></a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector.process()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.to_number"><code class="docutils literal notranslate"><span class="pre">to_number()</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">Module contents</a></li>
-</ul>
-</li>
-</ul>
-</div>
-</section>
-<section id="submodules">
-<h2>Submodules<a class="headerlink" href="#submodules" title="Permalink to this heading">¶</a></h2>
-</section>
-<section id="module-data_juicer.ops.base_op">
-<span id="data-juicer-ops-base-op-module"></span><h2>data_juicer.ops.base_op module<a class="headerlink" href="#module-data_juicer.ops.base_op" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Deduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator.compute_hash">
-<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator.compute_hash" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute hash values for the sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed hash value.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For doc-level, dataset –&gt; dataset.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>dataset</strong> – input dataset</p></li>
-<li><p><strong>show_num</strong> – number of traced samples used when tracer is
-open.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Filter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.compute_stats">
-<span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.compute_stats" title="Permalink to this definition">¶</a></dt>
-<dd><p>Compute stats for the sample which is used as a metric to decide
-whether to filter this sample.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>sample</strong> – input sample.</p></li>
-<li><p><strong>context</strong> – whether to store context information of intermediate
-vars in the sample temporarily.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>sample with computed stats</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; Boolean.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>true for keeping and false for filtering</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Mapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper.is_batched_op">
-<span class="sig-name descname"><span class="pre">is_batched_op</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.is_batched_op"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper.is_batched_op" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.base_op.Selector">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Selector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Selector" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.base_op.Selector.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Selector.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>Dataset –&gt; dataset.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>selected dataset.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.load">
-<span id="data-juicer-ops-load-module"></span><h2>data_juicer.ops.load module<a class="headerlink" href="#module-data_juicer.ops.load" title="Permalink to this heading">¶</a></h2>
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.load.load_ops">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.load.</span></span><span class="sig-name descname"><span class="pre">load_ops</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">process_list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">op_fusion</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/load.html#load_ops"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.load.load_ops" title="Permalink to this definition">¶</a></dt>
-<dd><p>Load op list according to the process list from config file.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>process_list</strong> – A process list. Each item is an op name and its
-arguments.</p></li>
-<li><p><strong>op_fusion</strong> – whether to fuse ops that share the same intermediate
-variables.</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>The op instance list.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops">
-<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops" title="Permalink to this heading">¶</a></h2>
-</section>
-</section>
-
-
-           </div>
-          </div>
-          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.format.html" class="btn btn-neutral float-left" title="data_juicer.format package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.common.html" class="btn btn-neutral float-right" title="data_juicer.ops.common package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-    </div>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/data_juicer.ops.mapper.html b/data_juicer.ops.mapper.html
deleted file mode 100644
index 44aedac3f..000000000
--- a/data_juicer.ops.mapper.html
+++ /dev/null
@@ -1,565 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" /><meta name="generator" content="Docutils 0.18.1: http://docutils.sourceforge.net/" />
-
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper package &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="_static/doctools.js?v=888ff710"></script>
-        <script src="_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.selector package" href="data_juicer.ops.selector.html" />
-    <link rel="prev" title="data_juicer.ops.filter package" href="data_juicer.ops.filter.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul class="current">
-<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
-<li class="toctree-l3 current"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul class="current">
-<li class="toctree-l4 current"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a></li>
-</ul>
-</li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.html">data_juicer package</a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper package</li>
-      <li class="wy-breadcrumbs-aside">
-            <a href="_sources/data_juicer.ops.mapper.rst.txt" rel="nofollow"> View page source</a>
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <section id="data-juicer-ops-mapper-package">
-<h1>data_juicer.ops.mapper package<a class="headerlink" href="#data-juicer-ops-mapper-package" title="Permalink to this heading">¶</a></h1>
-<section id="submodules">
-<h2>Submodules<a class="headerlink" href="#submodules" title="Permalink to this heading">¶</a></h2>
-</section>
-<section id="module-data_juicer.ops.mapper.clean_copyright_mapper">
-<span id="data-juicer-ops-mapper-clean-copyright-mapper-module"></span><h2>data_juicer.ops.mapper.clean_copyright_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_copyright_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_copyright_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanCopyrightMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_copyright_mapper.html#CleanCopyrightMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to clean copyright comments at the beginning of the text
-samples.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_copyright_mapper.html#CleanCopyrightMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.clean_email_mapper">
-<span id="data-juicer-ops-mapper-clean-email-mapper-module"></span><h2>data_juicer.ops.mapper.clean_email_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_email_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_email_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanEmailMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to clean email in text samples.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.clean_html_mapper">
-<span id="data-juicer-ops-mapper-clean-html-mapper-module"></span><h2>data_juicer.ops.mapper.clean_html_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_html_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_html_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanHtmlMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to clean html code in text samples.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.clean_ip_mapper">
-<span id="data-juicer-ops-mapper-clean-ip-mapper-module"></span><h2>data_juicer.ops.mapper.clean_ip_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_ip_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_ip_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanIpMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to clean ipv4 and ipv6 address in text samples.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.clean_links_mapper">
-<span id="data-juicer-ops-mapper-clean-links-mapper-module"></span><h2>data_juicer.ops.mapper.clean_links_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_links_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_links_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanLinksMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to clean links like http/https/ftp in text samples.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.expand_macro_mapper">
-<span id="data-juicer-ops-mapper-expand-macro-mapper-module"></span><h2>data_juicer.ops.mapper.expand_macro_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.expand_macro_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.expand_macro_mapper.</span></span><span class="sig-name descname"><span class="pre">ExpandMacroMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/expand_macro_mapper.html#ExpandMacroMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to expand macro definitions in the document body of Latex
-samples.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/expand_macro_mapper.html#ExpandMacroMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.fix_unicode_mapper">
-<span id="data-juicer-ops-mapper-fix-unicode-mapper-module"></span><h2>data_juicer.ops.mapper.fix_unicode_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.fix_unicode_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.fix_unicode_mapper.</span></span><span class="sig-name descname"><span class="pre">FixUnicodeMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to fix unicode errors in text samples.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.punctuation_normalization_mapper">
-<span id="data-juicer-ops-mapper-punctuation-normalization-mapper-module"></span><h2>data_juicer.ops.mapper.punctuation_normalization_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.punctuation_normalization_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.punctuation_normalization_mapper.</span></span><span class="sig-name descname"><span class="pre">PunctuationNormalizationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html#PunctuationNormalizationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to normalize unicode punctuations to English punctuations in text
-samples.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html#PunctuationNormalizationMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.remove_bibliography_mapper">
-<span id="data-juicer-ops-mapper-remove-bibliography-mapper-module"></span><h2>data_juicer.ops.mapper.remove_bibliography_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_bibliography_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_bibliography_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveBibliographyMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html#RemoveBibliographyMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to remove bibliography at the end of documents in Latex
-samples.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html#RemoveBibliographyMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.remove_comments_mapper">
-<span id="data-juicer-ops-mapper-remove-comments-mapper-module"></span><h2>data_juicer.ops.mapper.remove_comments_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_comments_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_comments_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveCommentsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">doc_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'tex'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">inline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">multiline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_comments_mapper.html#RemoveCommentsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to remove comments in different kinds of documents.</p>
-<p>Only support ‘tex’ for now.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_comments_mapper.html#RemoveCommentsMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.remove_header_mapper">
-<span id="data-juicer-ops-mapper-remove-header-mapper-module"></span><h2>data_juicer.ops.mapper.remove_header_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_header_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_header_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveHeaderMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">drop_no_head</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_header_mapper.html#RemoveHeaderMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to remove headers at the beginning of documents in Latex
-samples.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_header_mapper.html#RemoveHeaderMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.remove_long_words_mapper">
-<span id="data-juicer-ops-mapper-remove-long-words-mapper-module"></span><h2>data_juicer.ops.mapper.remove_long_words_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_long_words_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_long_words_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveLongWordsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to remove long words within a specific range.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word">
-<span class="sig-name descname"><span class="pre">should_keep_long_word</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">word</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper.should_keep_long_word"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.remove_specific_chars_mapper">
-<span id="data-juicer-ops-mapper-remove-specific-chars-mapper-module"></span><h2>data_juicer.ops.mapper.remove_specific_chars_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_specific_chars_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_specific_chars_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveSpecificCharsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">chars_to_remove</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'◆●■►▼▲▴∆▻▷❖♡□'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to clean specific chars in text samples.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.remove_table_text_mapper">
-<span id="data-juicer-ops-mapper-remove-table-text-mapper-module"></span><h2>data_juicer.ops.mapper.remove_table_text_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_table_text_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_table_text_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveTableTextMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">from_2_to_20</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">from_2_to_20</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_table_text_mapper.html#RemoveTableTextMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to remove table texts from text samples.</p>
-<p>Regular expression is used to remove tables in the range of column
-number of tables.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_table_text_mapper.html#RemoveTableTextMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">
-<span id="data-juicer-ops-mapper-remove-words-with-incorrect-substrings-mapper-module"></span><h2>data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">substrings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to remove words with incorrect substrings.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">
-<span class="sig-name descname"><span class="pre">should_keep_word_with_incorrect_substrings</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">word</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">substrings</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.sentence_split_mapper">
-<span id="data-juicer-ops-mapper-sentence-split-mapper-module"></span><h2>data_juicer.ops.mapper.sentence_split_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.sentence_split_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.sentence_split_mapper.</span></span><span class="sig-name descname"><span class="pre">SentenceSplitMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to split text samples to sentences.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper.whitespace_normalization_mapper">
-<span id="data-juicer-ops-mapper-whitespace-normalization-mapper-module"></span><h2>data_juicer.ops.mapper.whitespace_normalization_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.whitespace_normalization_mapper" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.whitespace_normalization_mapper.</span></span><span class="sig-name descname"><span class="pre">WhitespaceNormalizationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html#WhitespaceNormalizationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
-<p>Mapper to normalize different kinds of whitespaces to whitespace ‘ ‘ (0x20)
-in text samples.</p>
-<p>Different kinds of whitespaces can be found here:
-<a class="reference external" href="https://en.wikipedia.org/wiki/Whitespace_character">https://en.wikipedia.org/wiki/Whitespace_character</a></p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html#WhitespaceNormalizationMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>For sample level, sample –&gt; sample</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>processed sample</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.mapper">
-<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.mapper" title="Permalink to this heading">¶</a></h2>
-</section>
-</section>
-
-
-           </div>
-          </div>
-          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.filter.html" class="btn btn-neutral float-left" title="data_juicer.ops.filter package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.selector.html" class="btn btn-neutral float-right" title="data_juicer.ops.selector package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-    </div>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/data_juicer.ops.selector.html b/data_juicer.ops.selector.html
deleted file mode 100644
index 89a079181..000000000
--- a/data_juicer.ops.selector.html
+++ /dev/null
@@ -1,191 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" /><meta name="generator" content="Docutils 0.18.1: http://docutils.sourceforge.net/" />
-
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.selector package &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="_static/doctools.js?v=888ff710"></script>
-        <script src="_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.utils package" href="data_juicer.utils.html" />
-    <link rel="prev" title="data_juicer.ops.mapper package" href="data_juicer.ops.mapper.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul class="current">
-<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
-<li class="toctree-l3 current"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul class="current">
-<li class="toctree-l4 current"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a></li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a></li>
-</ul>
-</li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.html">data_juicer package</a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.selector package</li>
-      <li class="wy-breadcrumbs-aside">
-            <a href="_sources/data_juicer.ops.selector.rst.txt" rel="nofollow"> View page source</a>
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <section id="data-juicer-ops-selector-package">
-<h1>data_juicer.ops.selector package<a class="headerlink" href="#data-juicer-ops-selector-package" title="Permalink to this heading">¶</a></h1>
-<section id="submodules">
-<h2>Submodules<a class="headerlink" href="#submodules" title="Permalink to this heading">¶</a></h2>
-</section>
-<section id="module-data_juicer.ops.selector.frequency_specified_field_selector">
-<span id="data-juicer-ops-selector-frequency-specified-field-selector-module"></span><h2>data_juicer.ops.selector.frequency_specified_field_selector module<a class="headerlink" href="#module-data_juicer.ops.selector.frequency_specified_field_selector" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.frequency_specified_field_selector.</span></span><span class="sig-name descname"><span class="pre">FrequencySpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/frequency_specified_field_selector.html#FrequencySpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
-<p>Selector to select samples based on the sorted frequency of specified
-field.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/frequency_specified_field_selector.html#FrequencySpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>Dataset –&gt; dataset.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>selected dataset.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.selector.topk_specified_field_selector">
-<span id="data-juicer-ops-selector-topk-specified-field-selector-module"></span><h2>data_juicer.ops.selector.topk_specified_field_selector module<a class="headerlink" href="#module-data_juicer.ops.selector.topk_specified_field_selector" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.topk_specified_field_selector.</span></span><span class="sig-name descname"><span class="pre">TopkSpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#TopkSpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
-<p>Selector to select top samples based on the sorted specified field
-value.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process">
-<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#TopkSpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process" title="Permalink to this definition">¶</a></dt>
-<dd><p>Dataset –&gt; dataset.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>selected dataset.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.ops.selector.topk_specified_field_selector.to_number">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.topk_specified_field_selector.</span></span><span class="sig-name descname"><span class="pre">to_number</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">s</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#to_number"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.topk_specified_field_selector.to_number" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-</section>
-<section id="module-data_juicer.ops.selector">
-<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.selector" title="Permalink to this heading">¶</a></h2>
-</section>
-</section>
-
-
-           </div>
-          </div>
-          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.mapper.html" class="btn btn-neutral float-left" title="data_juicer.ops.mapper package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.utils.html" class="btn btn-neutral float-right" title="data_juicer.utils package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-    </div>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/data_juicer.utils.html b/data_juicer.utils.html
deleted file mode 100644
index 836bbdeaa..000000000
--- a/data_juicer.utils.html
+++ /dev/null
@@ -1,594 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" /><meta name="generator" content="Docutils 0.18.1: http://docutils.sourceforge.net/" />
-
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.utils package &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="_static/doctools.js?v=888ff710"></script>
-        <script src="_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" />
-    <link rel="prev" title="data_juicer.ops.selector package" href="data_juicer.ops.selector.html" /> 
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul class="current">
-<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul class="current">
-<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul class="current">
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
-<li class="toctree-l3 current"><a class="current reference internal" href="#">data_juicer.utils package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.utils.asset_utils">data_juicer.utils.asset_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.utils.cache_utils">data_juicer.utils.cache_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.utils.ckpt_utils">data_juicer.utils.ckpt_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.utils.file_utils">data_juicer.utils.file_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.utils.logger_utils">data_juicer.utils.logger_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.utils.model_utils">data_juicer.utils.model_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.utils.registry">data_juicer.utils.registry module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="#module-data_juicer.utils">Module contents</a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a></li>
-</ul>
-</li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-          <li class="breadcrumb-item"><a href="data_juicer.html">data_juicer package</a></li>
-      <li class="breadcrumb-item active">data_juicer.utils package</li>
-      <li class="wy-breadcrumbs-aside">
-            <a href="_sources/data_juicer.utils.rst.txt" rel="nofollow"> View page source</a>
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <section id="data-juicer-utils-package">
-<h1>data_juicer.utils package<a class="headerlink" href="#data-juicer-utils-package" title="Permalink to this heading">¶</a></h1>
-<section id="submodules">
-<h2>Submodules<a class="headerlink" href="#submodules" title="Permalink to this heading">¶</a></h2>
-</section>
-<section id="module-data_juicer.utils.asset_utils">
-<span id="data-juicer-utils-asset-utils-module"></span><h2>data_juicer.utils.asset_utils module<a class="headerlink" href="#module-data_juicer.utils.asset_utils" title="Permalink to this heading">¶</a></h2>
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.asset_utils.load_words_asset">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.asset_utils.</span></span><span class="sig-name descname"><span class="pre">load_words_asset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">words_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/asset_utils.html#load_words_asset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.asset_utils.load_words_asset" title="Permalink to this definition">¶</a></dt>
-<dd><p>Load words from a asset file named <cite>words_type</cite>, if not find a valid asset
-file, then download it from ASSET_LINKS cached by data_juicer team.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>words_dir</strong> – directory that stores asset file(s)</p></li>
-<li><p><strong>words_type</strong> – name of target words assets</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>a dict that stores words assets, whose keys are language
-names, and the values are lists of words</p>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.utils.cache_utils">
-<span id="data-juicer-utils-cache-utils-module"></span><h2>data_juicer.utils.cache_utils module<a class="headerlink" href="#module-data_juicer.utils.cache_utils" title="Permalink to this heading">¶</a></h2>
-</section>
-<section id="module-data_juicer.utils.ckpt_utils">
-<span id="data-juicer-utils-ckpt-utils-module"></span><h2>data_juicer.utils.ckpt_utils module<a class="headerlink" href="#module-data_juicer.utils.ckpt_utils" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.ckpt_utils.</span></span><span class="sig-name descname"><span class="pre">CheckpointManager</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ckpt_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">original_process_list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<p>This class is used to save the latest version of dataset to checkpoint
-directory or load it from checkpoint directory, a bit like cache management
-Rerun the same config will reload the checkpoint and skip ops before it.</p>
-<p>If any args of operator in process list is changed, all ops will be
-rerun from the beginning.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt">
-<span class="sig-name descname"><span class="pre">check_ckpt</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.check_ckpt"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt" title="Permalink to this definition">¶</a></dt>
-<dd><p>Check if checkpoint is available.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Returns<span class="colon">:</span></dt>
-<dd class="field-odd"><p>True when checkpoint is available, else False</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip">
-<span class="sig-name descname"><span class="pre">check_ops_to_skip</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.check_ops_to_skip"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip" title="Permalink to this definition">¶</a></dt>
-<dd><p>Check which ops need to be skipped in the process list.</p>
-<p>If op record list from checkpoint are the same as the prefix
-part of process list, then skip these ops and start processing
-from the checkpoint. Otherwise, process the original dataset
-from scratch.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Returns<span class="colon">:</span></dt>
-<dd class="field-odd"><p>whether to skip somme ops or not</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list">
-<span class="sig-name descname"><span class="pre">get_left_process_list</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.get_left_process_list"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list" title="Permalink to this definition">¶</a></dt>
-<dd><p>Get left process list of ops for processing dataset, when checkpoint is
-available, remove some ops from process list, otherwise keep it
-unchanged.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Returns<span class="colon">:</span></dt>
-<dd class="field-odd"><p>process list of left ops</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt">
-<span class="sig-name descname"><span class="pre">load_ckpt</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.load_ckpt"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt" title="Permalink to this definition">¶</a></dt>
-<dd><p>Load dataset from a checkpoint file.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Returns<span class="colon">:</span></dt>
-<dd class="field-odd"><p>a dataset stored in checkpoint file.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.record">
-<span class="sig-name descname"><span class="pre">record</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">op_args</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.record"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.record" title="Permalink to this definition">¶</a></dt>
-<dd><p>Save op name and args to op record, which is used to compare with
-the process list from config to decide if a checkpoint is available.</p>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt">
-<span class="sig-name descname"><span class="pre">save_ckpt</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ds</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.save_ckpt"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt" title="Permalink to this definition">¶</a></dt>
-<dd><p>Save dataset to checkpoint directory and dump processed ops list.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>ds</strong> – input dataset to save</p>
-</dd>
-</dl>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.utils.file_utils">
-<span id="data-juicer-utils-file-utils-module"></span><h2>data_juicer.utils.file_utils module<a class="headerlink" href="#module-data_juicer.utils.file_utils" title="Permalink to this heading">¶</a></h2>
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.file_utils.find_files_with_suffix">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">find_files_with_suffix</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span></span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#find_files_with_suffix"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.find_files_with_suffix" title="Permalink to this definition">¶</a></dt>
-<dd><p>Traverse a path to find all files with the specified suffixes.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>path</strong> – path (str/Path): source path</p></li>
-<li><p><strong>suffixes</strong> – specified file suffixes, ‘.txt’ or [‘.txt’, ‘.md’]
-etc</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>list of all files with the specified suffixes</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.file_utils.is_absolute_path">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">is_absolute_path</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Path</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">bool</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#is_absolute_path"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.is_absolute_path" title="Permalink to this definition">¶</a></dt>
-<dd><p>Check whether input path is a absolute path.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>path</strong> – input path</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>True means input path is absolute path, False means input
-path is a relative path.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.utils.logger_utils">
-<span id="data-juicer-utils-logger-utils-module"></span><h2>data_juicer.utils.logger_utils module<a class="headerlink" href="#module-data_juicer.utils.logger_utils" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.HiddenPrints">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">HiddenPrints</span></span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#HiddenPrints"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.HiddenPrints" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<p>Define a range that hide the outputs within this range.</p>
-</dd></dl>
-
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">StreamToLoguru</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">level</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'INFO'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caller_names</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">('datasets',</span> <span class="pre">'logging')</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<p>Stream object that redirects writes to a logger instance.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru.flush">
-<span class="sig-name descname"><span class="pre">flush</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru.flush"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru.flush" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru.write">
-<span class="sig-name descname"><span class="pre">write</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">buf</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru.write"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru.write" title="Permalink to this definition">¶</a></dt>
-<dd></dd></dl>
-
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.get_caller_name">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">get_caller_name</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">depth</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#get_caller_name"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.get_caller_name" title="Permalink to this definition">¶</a></dt>
-<dd><p>Get caller name by depth.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>depth</strong> – depth of caller context, use 0 for caller depth.</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>module name of the caller</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.get_log_file_path">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">get_log_file_path</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#get_log_file_path"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.get_log_file_path" title="Permalink to this definition">¶</a></dt>
-<dd><p>Get the path to the location of the log file.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Returns<span class="colon">:</span></dt>
-<dd class="field-odd"><p>a location of log file.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.redirect_sys_output">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">redirect_sys_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">log_level</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'INFO'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#redirect_sys_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.redirect_sys_output" title="Permalink to this definition">¶</a></dt>
-<dd><p>Redirect stdout/stderr to loguru with log level.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>log_level</strong> – log level string of loguru. Default value: “INFO”.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.setup_logger">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">setup_logger</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">save_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">distributed_rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filename</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'log.txt'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redirect</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#setup_logger"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.setup_logger" title="Permalink to this definition">¶</a></dt>
-<dd><p>Setup logger for training and testing.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>save_dir</strong> – location to save log file</p></li>
-<li><p><strong>distributed_rank</strong> – device rank when multi-gpu environment</p></li>
-<li><p><strong>filename</strong> – log file name to save</p></li>
-<li><p><strong>mode</strong> – log file write mode, <cite>append</cite> or <cite>override</cite>. default is <cite>o</cite>.</p></li>
-<li><p><strong>redirect</strong> – whether to redirect system output</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>logger instance.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.utils.model_utils">
-<span id="data-juicer-utils-model-utils-module"></span><h2>data_juicer.utils.model_utils module<a class="headerlink" href="#module-data_juicer.utils.model_utils" title="Permalink to this heading">¶</a></h2>
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.model_utils.check_model">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">check_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">args</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">()</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#check_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.check_model" title="Permalink to this definition">¶</a></dt>
-<dd><p>Check whether a model exists in MODEL_PATH. If exists, return its full path
-Else, download it from cached models links.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>model_name</strong> – a specified model name</p></li>
-<li><p><strong>args</strong> – optional extra args of model.</p></li>
-<li><p><strong>force</strong> – Whether to download model forcefully or not, Sometimes
-the model file maybe incomplete for some reason, so need to
-download again forcefully.</p></li>
-</ul>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.model_utils.get_model">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">get_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_key</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_type</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'sentencepiece'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#get_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.get_model" title="Permalink to this definition">¶</a></dt>
-<dd><p>Get a model or a tokenizer from MODEL_ZOO.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>model_key</strong> – name of the model or tokenzier</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_diversity_model">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_diversity_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lang</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_diversity_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_diversity_model" title="Permalink to this definition">¶</a></dt>
-<dd><p>Prepare diversity model for specific language.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>model_name</strong> – the model name to be loaded.</p></li>
-<li><p><strong>lang</strong> – language of diversity model. Should be one of [“zh”,
-“en”]</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>corresponding diversity model</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_fasttext_model">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_fasttext_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_name</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_fasttext_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_fasttext_model" title="Permalink to this definition">¶</a></dt>
-<dd><p>Prepare and load a fasttext model.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>model_name</strong> – input model name</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>model instance.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_huggingface_tokenizer">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_huggingface_tokenizer</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenizer_name</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_huggingface_tokenizer"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_huggingface_tokenizer" title="Permalink to this definition">¶</a></dt>
-<dd><p>Prepare and load a tokenizer from HuggingFace.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>tokenizer_name</strong> – input tokenizer name</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>a tokenizer instance.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_kenlm_model">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_kenlm_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lang</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_kenlm_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_kenlm_model" title="Permalink to this definition">¶</a></dt>
-<dd><p>Prepare and load a kenlm model.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>model_name</strong> – input model name in formatting syntax.</p></li>
-<li><p><strong>lang</strong> – language to render model name</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>model instance.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_model">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_type</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'sentencepiece'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_key</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_model" title="Permalink to this definition">¶</a></dt>
-<dd><p>Prepare and load a model or a tokenizer from MODEL_ZOO.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>lang</strong> – which lang model to load</p></li>
-<li><p><strong>model_type</strong> – model or tokenizer type</p></li>
-<li><p><strong>model_key</strong> – tokenizer name, only used when prepare HuggingFace
-tokenizer</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>a model or tokenizer instance</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_nltk_model">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_nltk_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lang</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_nltk_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_nltk_model" title="Permalink to this definition">¶</a></dt>
-<dd><p>Prepare and load a nltk punkt model.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>model_name</strong> – input model name in formatting syntax</p></li>
-<li><p><strong>lang</strong> – language to render model name</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>model instance.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py function">
-<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_sentencepiece_model">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_sentencepiece_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lang</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_sentencepiece_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_sentencepiece_model" title="Permalink to this definition">¶</a></dt>
-<dd><p>Prepare and load a sentencepiece model.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>model_name</strong> – input model name in formatting syntax</p></li>
-<li><p><strong>lang</strong> – language to render model name</p></li>
-</ul>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>model instance.</p>
-</dd>
-</dl>
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.utils.registry">
-<span id="data-juicer-utils-registry-module"></span><h2>data_juicer.utils.registry module<a class="headerlink" href="#module-data_juicer.utils.registry" title="Permalink to this heading">¶</a></h2>
-<dl class="py class">
-<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry">
-<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.registry.</span></span><span class="sig-name descname"><span class="pre">Registry</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry" title="Permalink to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
-<p>This class is used to register some modules to registry by a repo
-name.</p>
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.get">
-<span class="sig-name descname"><span class="pre">get</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">module_key</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry.get"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry.get" title="Permalink to this definition">¶</a></dt>
-<dd><p>Get module named module_key from in current registry. If not found,
-return None.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><p><strong>module_key</strong> – specified module name</p>
-</dd>
-<dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>module named module_key</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.list">
-<span class="sig-name descname"><span class="pre">list</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry.list"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry.list" title="Permalink to this definition">¶</a></dt>
-<dd><p>Logging the list of module in current registry.</p>
-</dd></dl>
-
-<dl class="py property">
-<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.modules">
-<em class="property"><span class="pre">property</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">modules</span></span><a class="headerlink" href="#data_juicer.utils.registry.Registry.modules" title="Permalink to this definition">¶</a></dt>
-<dd><p>Get all modules in current registry.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Returns<span class="colon">:</span></dt>
-<dd class="field-odd"><p>a dict storing modules in current registry.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py property">
-<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.name">
-<em class="property"><span class="pre">property</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">name</span></span><a class="headerlink" href="#data_juicer.utils.registry.Registry.name" title="Permalink to this definition">¶</a></dt>
-<dd><p>Get name of current registry.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Returns<span class="colon">:</span></dt>
-<dd class="field-odd"><p>name of current registry.</p>
-</dd>
-</dl>
-</dd></dl>
-
-<dl class="py method">
-<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.register_module">
-<span class="sig-name descname"><span class="pre">register_module</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">module_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">module_cls</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">type</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry.register_module"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry.register_module" title="Permalink to this definition">¶</a></dt>
-<dd><p>Register module class object to registry with the specified modulename.</p>
-<dl class="field-list simple">
-<dt class="field-odd">Parameters<span class="colon">:</span></dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>module_name</strong> – module name</p></li>
-<li><p><strong>module_cls</strong> – module class object</p></li>
-<li><p><strong>force</strong> – Whether to override an existing class with
-the same name. Default: False.</p></li>
-</ul>
-</dd>
-</dl>
-<p class="rubric">Example</p>
-<div class="doctest highlight-default notranslate"><div class="highlight"><pre><span></span><span class="gp">&gt;&gt;&gt; </span><span class="n">registry</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">()</span>
-<span class="gp">&gt;&gt;&gt; </span><span class="nd">@registry</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
-<span class="gp">&gt;&gt;&gt; </span><span class="k">class</span> <span class="nc">TextFormatter</span><span class="p">:</span>
-<span class="gp">&gt;&gt;&gt; </span>    <span class="k">pass</span>
-</pre></div>
-</div>
-<div class="doctest highlight-default notranslate"><div class="highlight"><pre><span></span><span class="gp">&gt;&gt;&gt; </span><span class="k">class</span> <span class="nc">TextFormatter2</span><span class="p">:</span>
-<span class="gp">&gt;&gt;&gt; </span>    <span class="k">pass</span>
-<span class="gp">&gt;&gt;&gt; </span><span class="n">registry</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span> <span class="n">module_name</span><span class="o">=</span><span class="s1">&#39;text_formatter2&#39;</span><span class="p">,</span>
-<span class="go">                            module_cls=TextFormatter2)</span>
-</pre></div>
-</div>
-</dd></dl>
-
-</dd></dl>
-
-</section>
-<section id="module-data_juicer.utils">
-<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.utils" title="Permalink to this heading">¶</a></h2>
-</section>
-</section>
-
-
-           </div>
-          </div>
-          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.selector.html" class="btn btn-neutral float-left" title="data_juicer.ops.selector package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-    </div>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/genindex.html b/genindex.html
index 28c4aa24b..97df4d40b 100644
--- a/genindex.html
+++ b/genindex.html
@@ -40,10 +40,8 @@
   </form>
 </div>
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.html">data_juicer package</a></li>
-</ul>
-
+              <!-- Local TOC -->
+              <div class="local-toc"></div>
         </div>
       </div>
     </nav>
@@ -71,1367 +69,8 @@
 <h1 id="index">Index</h1>
 
 <div class="genindex-jumpbox">
- <a href="#A"><strong>A</strong></a>
- | <a href="#B"><strong>B</strong></a>
- | <a href="#C"><strong>C</strong></a>
- | <a href="#D"><strong>D</strong></a>
- | <a href="#E"><strong>E</strong></a>
- | <a href="#F"><strong>F</strong></a>
- | <a href="#G"><strong>G</strong></a>
- | <a href="#H"><strong>H</strong></a>
- | <a href="#I"><strong>I</strong></a>
- | <a href="#J"><strong>J</strong></a>
- | <a href="#K"><strong>K</strong></a>
- | <a href="#L"><strong>L</strong></a>
- | <a href="#M"><strong>M</strong></a>
- | <a href="#N"><strong>N</strong></a>
- | <a href="#O"><strong>O</strong></a>
- | <a href="#P"><strong>P</strong></a>
- | <a href="#R"><strong>R</strong></a>
- | <a href="#S"><strong>S</strong></a>
- | <a href="#T"><strong>T</strong></a>
- | <a href="#U"><strong>U</strong></a>
- | <a href="#W"><strong>W</strong></a>
  
 </div>
-<h2 id="A">A</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.add_column">add_column() (data_juicer.core.data.NestedDataset method)</a>
-</li>
-      <li><a href="data_juicer.format.html#data_juicer.format.formatter.add_suffixes">add_suffixes() (in module data_juicer.format.formatter)</a>
-</li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter">AlphanumericFilter (class in data_juicer.ops.filter.alphanumeric_filter)</a>
-</li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyse">analyse() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis method)</a>
-
-      <ul>
-        <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyse">(data_juicer.analysis.diversity_analysis.DiversityAnalysis method)</a>
-</li>
-        <li><a href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.analyse">(data_juicer.analysis.overall_analysis.OverallAnalysis method)</a>
-</li>
-      </ul></li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.core.html#data_juicer.core.analyser.Analyser">Analyser (class in data_juicer.core.analyser)</a>
-</li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter">AverageLineLengthFilter (class in data_juicer.ops.filter.average_line_length_filter)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="B">B</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.formatter.BaseFormatter">BaseFormatter (class in data_juicer.format.formatter)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="C">C</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter">CharacterRepetitionFilter (class in data_juicer.ops.filter.character_repetition_filter)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt">check_ckpt() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.check_model">check_model() (in module data_juicer.utils.model_utils)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip">check_ops_to_skip() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager">CheckpointManager (class in data_juicer.utils.ckpt_utils)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper">CleanCopyrightMapper (class in data_juicer.ops.mapper.clean_copyright_mapper)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper">CleanEmailMapper (class in data_juicer.ops.mapper.clean_email_mapper)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper">CleanHtmlMapper (class in data_juicer.ops.mapper.clean_html_mapper)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper">CleanIpMapper (class in data_juicer.ops.mapper.clean_ip_mapper)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper">CleanLinksMapper (class in data_juicer.ops.mapper.clean_links_mapper)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.cleanup_cache_files">cleanup_cache_files() (data_juicer.core.data.NestedDataset method)</a>
-</li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis">ColumnWiseAnalysis (class in data_juicer.analysis.column_wise_analysis)</a>
-</li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute">compute() (data_juicer.analysis.diversity_analysis.DiversityAnalysis method)</a>
-</li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.compute_hash">compute_hash() (data_juicer.ops.base_op.Deduplicator method)</a>
-
-      <ul>
-        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash">(data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator method)</a>
-</li>
-        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash">(data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator method)</a>
-</li>
-        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash">(data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator method)</a>
-</li>
-      </ul></li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats">compute_stats() (data_juicer.ops.base_op.Filter method)</a>
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats">(data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats">(data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats">(data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats">(data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats">(data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats">(data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats">(data_juicer.ops.filter.perplexity_filter.PerplexityFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats">(data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats">(data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats">(data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats">(data_juicer.ops.filter.stopwords_filter.StopWordsFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats">(data_juicer.ops.filter.suffix_filter.SuffixFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats">(data_juicer.ops.filter.text_length_filter.TextLengthFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter.compute_stats">(data_juicer.ops.filter.word_num_filter.WordNumFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats">(data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter method)</a>
-</li>
-      </ul></li>
-      <li><a href="data_juicer.config.html#data_juicer.config.config.config_backup">config_backup() (in module data_juicer.config.config)</a>
-</li>
-      <li><a href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter">CsvFormatter (class in data_juicer.format.csv_formatter)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="D">D</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li>
-    data_juicer
-
-      <ul>
-        <li><a href="data_juicer.html#module-data_juicer">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.analysis
-
-      <ul>
-        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.analysis.column_wise_analysis
-
-      <ul>
-        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.analysis.diversity_analysis
-
-      <ul>
-        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.analysis.overall_analysis
-
-      <ul>
-        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.config
-
-      <ul>
-        <li><a href="data_juicer.config.html#module-data_juicer.config">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.config.config
-
-      <ul>
-        <li><a href="data_juicer.config.html#module-data_juicer.config.config">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.core
-
-      <ul>
-        <li><a href="data_juicer.core.html#module-data_juicer.core">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.core.analyser
-
-      <ul>
-        <li><a href="data_juicer.core.html#module-data_juicer.core.analyser">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.core.data
-
-      <ul>
-        <li><a href="data_juicer.core.html#module-data_juicer.core.data">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.core.executor
-
-      <ul>
-        <li><a href="data_juicer.core.html#module-data_juicer.core.executor">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.core.exporter
-
-      <ul>
-        <li><a href="data_juicer.core.html#module-data_juicer.core.exporter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.core.tracer
-
-      <ul>
-        <li><a href="data_juicer.core.html#module-data_juicer.core.tracer">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.format
-
-      <ul>
-        <li><a href="data_juicer.format.html#module-data_juicer.format">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.format.csv_formatter
-
-      <ul>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.csv_formatter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.format.formatter
-
-      <ul>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.formatter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.format.json_formatter
-
-      <ul>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.json_formatter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.format.load
-
-      <ul>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.load">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.format.mixture_formatter
-
-      <ul>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.format.parquet_formatter
-
-      <ul>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.format.text_formatter
-
-      <ul>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.text_formatter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.format.tsv_formatter
-
-      <ul>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops
-
-      <ul>
-        <li><a href="data_juicer.ops.html#module-data_juicer.ops">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.base_op
-
-      <ul>
-        <li><a href="data_juicer.ops.html#module-data_juicer.ops.base_op">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.common
-
-      <ul>
-        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.common.helper_func
-
-      <ul>
-        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.common.special_characters
-
-      <ul>
-        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.deduplicator
-
-      <ul>
-        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.deduplicator.document_deduplicator
-
-      <ul>
-        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.deduplicator.document_minhash_deduplicator
-
-      <ul>
-        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.deduplicator.document_simhash_deduplicator
-
-      <ul>
-        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter.alphanumeric_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter.average_line_length_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter.character_repetition_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter.flagged_words_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter.language_id_score_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter.maximum_line_length_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter.perplexity_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter.special_characters_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter.specified_field_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">module</a>
-</li>
-      </ul></li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li>
-    data_juicer.ops.filter.specified_numeric_field_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter.stopwords_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter.suffix_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter.text_length_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter.word_num_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_num_filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.filter.word_repetition_filter
-
-      <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.load
-
-      <ul>
-        <li><a href="data_juicer.ops.html#module-data_juicer.ops.load">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.clean_copyright_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.clean_email_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.clean_html_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.clean_ip_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.clean_links_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.expand_macro_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.fix_unicode_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.punctuation_normalization_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.remove_bibliography_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.remove_comments_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.remove_header_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.remove_long_words_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.remove_specific_chars_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.remove_table_text_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.sentence_split_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.mapper.whitespace_normalization_mapper
-
-      <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.selector
-
-      <ul>
-        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.selector.frequency_specified_field_selector
-
-      <ul>
-        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.ops.selector.topk_specified_field_selector
-
-      <ul>
-        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.utils
-
-      <ul>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.utils.asset_utils
-
-      <ul>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils.asset_utils">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.utils.cache_utils
-
-      <ul>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils.cache_utils">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.utils.ckpt_utils
-
-      <ul>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.utils.file_utils
-
-      <ul>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils.file_utils">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.utils.logger_utils
-
-      <ul>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils.logger_utils">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.utils.model_utils
-
-      <ul>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils.model_utils">module</a>
-</li>
-      </ul></li>
-      <li>
-    data_juicer.utils.registry
-
-      <ul>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils.registry">module</a>
-</li>
-      </ul></li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator">Deduplicator (class in data_juicer.ops.base_op)</a>
-</li>
-      <li><a href="data_juicer.config.html#data_juicer.config.config.display_config">display_config() (in module data_juicer.config.config)</a>
-</li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis">DiversityAnalysis (class in data_juicer.analysis.diversity_analysis)</a>
-</li>
-      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator">DocumentDeduplicator (class in data_juicer.ops.deduplicator.document_deduplicator)</a>
-</li>
-      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator">DocumentMinhashDeduplicator (class in data_juicer.ops.deduplicator.document_minhash_deduplicator)</a>
-</li>
-      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator">DocumentSimhashDeduplicator (class in data_juicer.ops.deduplicator.document_simhash_deduplicator)</a>
-</li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box">draw_box() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis method)</a>
-</li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist">draw_hist() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis method)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="E">E</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.core.html#data_juicer.core.executor.Executor">Executor (class in data_juicer.core.executor)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper">ExpandMacroMapper (class in data_juicer.ops.mapper.expand_macro_mapper)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.export">export() (data_juicer.core.exporter.Exporter method)</a>
-</li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter">Exporter (class in data_juicer.core.exporter)</a>
-</li>
-      <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_docx">extract_txt_from_docx() (in module data_juicer.format.text_formatter)</a>
-</li>
-      <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_pdf">extract_txt_from_pdf() (in module data_juicer.format.text_formatter)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="F">F</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter">Filter (class in data_juicer.ops.base_op)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.filter">filter() (data_juicer.core.data.NestedDataset method)</a>
-</li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.find">find() (data_juicer.ops.common.helper_func.UnionFind method)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.find_files_with_suffix">find_files_with_suffix() (in module data_juicer.utils.file_utils)</a>
-</li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj">find_root_verb_and_its_dobj() (in module data_juicer.analysis.diversity_analysis)</a>
-</li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string">find_root_verb_and_its_dobj_in_string() (in module data_juicer.analysis.diversity_analysis)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper">FixUnicodeMapper (class in data_juicer.ops.mapper.fix_unicode_mapper)</a>
-</li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter">FlaggedWordFilter (class in data_juicer.ops.filter.flagged_words_filter)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.flush">flush() (data_juicer.utils.logger_utils.StreamToLoguru method)</a>
-</li>
-      <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector">FrequencySpecifiedFieldSelector (class in data_juicer.ops.selector.frequency_specified_field_selector)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.from_dict">from_dict() (data_juicer.core.data.NestedDataset class method)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="G">G</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.get">get() (data_juicer.utils.registry.Registry method)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.get_caller_name">get_caller_name() (in module data_juicer.utils.logger_utils)</a>
-</li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.get_diversity">get_diversity() (in module data_juicer.analysis.diversity_analysis)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list">get_left_process_list() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.get_log_file_path">get_log_file_path() (in module data_juicer.utils.logger_utils)</a>
-</li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.get_model">get_model() (in module data_juicer.utils.model_utils)</a>
-</li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.get_row_col">get_row_col() (in module data_juicer.analysis.column_wise_analysis)</a>
-</li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_sentences_from_document">get_sentences_from_document() (in module data_juicer.ops.common.helper_func)</a>
-</li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_words_from_document">get_words_from_document() (in module data_juicer.ops.common.helper_func)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.GiB">GiB (data_juicer.core.exporter.Exporter attribute)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="H">H</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.HiddenPrints">HiddenPrints (class in data_juicer.utils.logger_utils)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="I">I</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.config.html#data_juicer.config.config.init_configs">init_configs() (in module data_juicer.config.config)</a>
-</li>
-      <li><a href="data_juicer.config.html#data_juicer.config.config.init_setup_from_cfg">init_setup_from_cfg() (in module data_juicer.config.config)</a>
-</li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.is_absolute_path">is_absolute_path() (in module data_juicer.utils.file_utils)</a>
-</li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.is_batched_op">is_batched_op() (data_juicer.ops.base_op.Mapper method)</a>
-</li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.is_number">is_number() (in module data_juicer.ops.filter.specified_numeric_field_filter)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="J">J</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter">JsonFormatter (class in data_juicer.format.json_formatter)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="K">K</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.KiB">KiB (data_juicer.core.exporter.Exporter attribute)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="L">L</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter">LanguageIDScoreFilter (class in data_juicer.ops.filter.language_id_score_filter)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.list">list() (data_juicer.utils.registry.Registry method)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt">load_ckpt() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
-</li>
-      <li><a href="data_juicer.format.html#data_juicer.format.formatter.BaseFormatter.load_dataset">load_dataset() (data_juicer.format.formatter.BaseFormatter method)</a>
-
-      <ul>
-        <li><a href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.load_dataset">(data_juicer.format.formatter.LocalFormatter method)</a>
-</li>
-        <li><a href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.load_dataset">(data_juicer.format.formatter.RemoteFormatter method)</a>
-</li>
-        <li><a href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset">(data_juicer.format.mixture_formatter.MixtureFormatter method)</a>
-</li>
-        <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.load_dataset">(data_juicer.format.text_formatter.TextFormatter method)</a>
-</li>
-      </ul></li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.formatter.load_formatter">load_formatter() (in module data_juicer.format.formatter)</a>
-
-      <ul>
-        <li><a href="data_juicer.format.html#data_juicer.format.load.load_formatter">(in module data_juicer.format.load)</a>
-</li>
-      </ul></li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.load.load_ops">load_ops() (in module data_juicer.ops.load)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.asset_utils.load_words_asset">load_words_asset() (in module data_juicer.utils.asset_utils)</a>
-</li>
-      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.local_num_differing_bits">local_num_differing_bits() (in module data_juicer.ops.deduplicator.document_simhash_deduplicator)</a>
-</li>
-      <li><a href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter">LocalFormatter (class in data_juicer.format.formatter)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="M">M</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.map">map() (data_juicer.core.data.NestedDataset method)</a>
-
-      <ul>
-        <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDatasetDict.map">(data_juicer.core.data.NestedDatasetDict method)</a>
-</li>
-      </ul></li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper">Mapper (class in data_juicer.ops.base_op)</a>
-</li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter">MaximumLineLengthFilter (class in data_juicer.ops.filter.maximum_line_length_filter)</a>
-</li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline">merge_on_whitespace_tab_newline() (in module data_juicer.ops.common.helper_func)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.MiB">MiB (data_juicer.core.exporter.Exporter attribute)</a>
-</li>
-      <li><a href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter">MixtureFormatter (class in data_juicer.format.mixture_formatter)</a>
-</li>
-      <li>
-    module
-
-      <ul>
-        <li><a href="data_juicer.html#module-data_juicer">data_juicer</a>
-</li>
-        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis">data_juicer.analysis</a>
-</li>
-        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis</a>
-</li>
-        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis</a>
-</li>
-        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis</a>
-</li>
-        <li><a href="data_juicer.config.html#module-data_juicer.config">data_juicer.config</a>
-</li>
-        <li><a href="data_juicer.config.html#module-data_juicer.config.config">data_juicer.config.config</a>
-</li>
-        <li><a href="data_juicer.core.html#module-data_juicer.core">data_juicer.core</a>
-</li>
-        <li><a href="data_juicer.core.html#module-data_juicer.core.analyser">data_juicer.core.analyser</a>
-</li>
-        <li><a href="data_juicer.core.html#module-data_juicer.core.data">data_juicer.core.data</a>
-</li>
-        <li><a href="data_juicer.core.html#module-data_juicer.core.executor">data_juicer.core.executor</a>
-</li>
-        <li><a href="data_juicer.core.html#module-data_juicer.core.exporter">data_juicer.core.exporter</a>
-</li>
-        <li><a href="data_juicer.core.html#module-data_juicer.core.tracer">data_juicer.core.tracer</a>
-</li>
-        <li><a href="data_juicer.format.html#module-data_juicer.format">data_juicer.format</a>
-</li>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter</a>
-</li>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.formatter">data_juicer.format.formatter</a>
-</li>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter</a>
-</li>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.load">data_juicer.format.load</a>
-</li>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter</a>
-</li>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter</a>
-</li>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter</a>
-</li>
-        <li><a href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter</a>
-</li>
-        <li><a href="data_juicer.ops.html#module-data_juicer.ops">data_juicer.ops</a>
-</li>
-        <li><a href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op</a>
-</li>
-        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common">data_juicer.ops.common</a>
-</li>
-        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">data_juicer.ops.common.helper_func</a>
-</li>
-        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters">data_juicer.ops.common.special_characters</a>
-</li>
-        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">data_juicer.ops.deduplicator</a>
-</li>
-        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">data_juicer.ops.deduplicator.document_deduplicator</a>
-</li>
-        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">data_juicer.ops.deduplicator.document_minhash_deduplicator</a>
-</li>
-        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">data_juicer.ops.deduplicator.document_simhash_deduplicator</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">data_juicer.ops.filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">data_juicer.ops.filter.alphanumeric_filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">data_juicer.ops.filter.average_line_length_filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">data_juicer.ops.filter.character_repetition_filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">data_juicer.ops.filter.flagged_words_filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">data_juicer.ops.filter.language_id_score_filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">data_juicer.ops.filter.maximum_line_length_filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">data_juicer.ops.filter.perplexity_filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">data_juicer.ops.filter.special_characters_filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">data_juicer.ops.filter.specified_field_filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">data_juicer.ops.filter.specified_numeric_field_filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">data_juicer.ops.filter.stopwords_filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">data_juicer.ops.filter.suffix_filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">data_juicer.ops.filter.text_length_filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_num_filter">data_juicer.ops.filter.word_num_filter</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">data_juicer.ops.filter.word_repetition_filter</a>
-</li>
-        <li><a href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">data_juicer.ops.mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">data_juicer.ops.mapper.clean_copyright_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">data_juicer.ops.mapper.clean_email_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">data_juicer.ops.mapper.clean_html_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">data_juicer.ops.mapper.clean_ip_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">data_juicer.ops.mapper.clean_links_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">data_juicer.ops.mapper.expand_macro_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">data_juicer.ops.mapper.fix_unicode_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">data_juicer.ops.mapper.punctuation_normalization_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">data_juicer.ops.mapper.remove_bibliography_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">data_juicer.ops.mapper.remove_comments_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">data_juicer.ops.mapper.remove_header_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">data_juicer.ops.mapper.remove_long_words_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">data_juicer.ops.mapper.remove_specific_chars_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">data_juicer.ops.mapper.remove_table_text_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">data_juicer.ops.mapper.sentence_split_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">data_juicer.ops.mapper.whitespace_normalization_mapper</a>
-</li>
-        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">data_juicer.ops.selector</a>
-</li>
-        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">data_juicer.ops.selector.frequency_specified_field_selector</a>
-</li>
-        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">data_juicer.ops.selector.topk_specified_field_selector</a>
-</li>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils">data_juicer.utils</a>
-</li>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils.asset_utils">data_juicer.utils.asset_utils</a>
-</li>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils.cache_utils">data_juicer.utils.cache_utils</a>
-</li>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils">data_juicer.utils.ckpt_utils</a>
-</li>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils.file_utils">data_juicer.utils.file_utils</a>
-</li>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils.logger_utils">data_juicer.utils.logger_utils</a>
-</li>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils.model_utils">data_juicer.utils.model_utils</a>
-</li>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils.registry">data_juicer.utils.registry</a>
-</li>
-      </ul></li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.modules">modules (data_juicer.utils.registry.Registry property)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="N">N</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.name">name (data_juicer.utils.registry.Registry property)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.data.nested_obj_factory">nested_obj_factory() (in module data_juicer.core.data)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.data.nested_query">nested_query() (in module data_juicer.core.data)</a>
-</li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset">NestedDataset (class in data_juicer.core.data)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDatasetDict">NestedDatasetDict (class in data_juicer.core.data)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedQueryDict">NestedQueryDict (class in data_juicer.core.data)</a>
-</li>
-      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.num_differing_bits_selector">num_differing_bits_selector() (in module data_juicer.ops.deduplicator.document_simhash_deduplicator)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="O">O</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param">optimal_param() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)</a>
-</li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis">OverallAnalysis (class in data_juicer.analysis.overall_analysis)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="P">P</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter">ParquetFormatter (class in data_juicer.format.parquet_formatter)</a>
-</li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter">PerplexityFilter (class in data_juicer.ops.filter.perplexity_filter)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_diversity_model">prepare_diversity_model() (in module data_juicer.utils.model_utils)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_fasttext_model">prepare_fasttext_model() (in module data_juicer.utils.model_utils)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_huggingface_tokenizer">prepare_huggingface_tokenizer() (in module data_juicer.utils.model_utils)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_kenlm_model">prepare_kenlm_model() (in module data_juicer.utils.model_utils)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_model">prepare_model() (in module data_juicer.utils.model_utils)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_nltk_model">prepare_nltk_model() (in module data_juicer.utils.model_utils)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_model">prepare_sentencepiece_model() (in module data_juicer.utils.model_utils)</a>
-</li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.process">process() (data_juicer.ops.base_op.Deduplicator method)</a>
-
-      <ul>
-        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.process">(data_juicer.ops.base_op.Filter method)</a>
-</li>
-        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process">(data_juicer.ops.base_op.Mapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.process">(data_juicer.ops.base_op.Selector method)</a>
-</li>
-        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process">(data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator method)</a>
-</li>
-        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process">(data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator method)</a>
-</li>
-        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process">(data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process">(data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process">(data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process">(data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process">(data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process">(data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process">(data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process">(data_juicer.ops.filter.perplexity_filter.PerplexityFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process">(data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process">(data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process">(data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process">(data_juicer.ops.filter.stopwords_filter.StopWordsFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.process">(data_juicer.ops.filter.suffix_filter.SuffixFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.process">(data_juicer.ops.filter.text_length_filter.TextLengthFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter.process">(data_juicer.ops.filter.word_num_filter.WordNumFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process">(data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process">(data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process">(data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process">(data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process">(data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process">(data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process">(data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process">(data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process">(data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process">(data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process">(data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process">(data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process">(data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process">(data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process">(data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process">(data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process">(data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process">(data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper method)</a>
-</li>
-        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process">(data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector method)</a>
-</li>
-        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process">(data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector method)</a>
-</li>
-      </ul></li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper">PunctuationNormalizationMapper (class in data_juicer.ops.mapper.punctuation_normalization_mapper)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="R">R</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.record">record() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.redirect_sys_output">redirect_sys_output() (in module data_juicer.utils.logger_utils)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.register_module">register_module() (data_juicer.utils.registry.Registry method)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry">Registry (class in data_juicer.utils.registry)</a>
-</li>
-      <li><a href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter">RemoteFormatter (class in data_juicer.format.formatter)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.remove_columns">remove_columns() (data_juicer.core.data.NestedDataset method)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper">RemoveBibliographyMapper (class in data_juicer.ops.mapper.remove_bibliography_mapper)</a>
-</li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper">RemoveCommentsMapper (class in data_juicer.ops.mapper.remove_comments_mapper)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper">RemoveHeaderMapper (class in data_juicer.ops.mapper.remove_header_mapper)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper">RemoveLongWordsMapper (class in data_juicer.ops.mapper.remove_long_words_mapper)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper">RemoveSpecificCharsMapper (class in data_juicer.ops.mapper.remove_specific_chars_mapper)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper">RemoveTableTextMapper (class in data_juicer.ops.mapper.remove_table_text_mapper)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper">RemoveWordsWithIncorrectSubstringsMapper (class in data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.analyser.Analyser.run">run() (data_juicer.core.analyser.Analyser method)</a>
-
-      <ul>
-        <li><a href="data_juicer.core.html#data_juicer.core.executor.Executor.run">(data_juicer.core.executor.Executor method)</a>
-</li>
-      </ul></li>
-  </ul></td>
-</tr></table>
-
-<h2 id="S">S</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt">save_ckpt() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.select">select() (data_juicer.core.data.NestedDataset method)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.select_columns">select_columns() (data_juicer.core.data.NestedDataset method)</a>
-</li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Selector">Selector (class in data_juicer.ops.base_op)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper">SentenceSplitMapper (class in data_juicer.ops.mapper.sentence_split_mapper)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.setup_logger">setup_logger() (in module data_juicer.utils.logger_utils)</a>
-</li>
-      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32">sha1_hash32() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word">should_keep_long_word() (data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper method)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">should_keep_word_with_incorrect_substrings() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
-</li>
-      <li><a href="data_juicer.config.html#data_juicer.config.config.sort_op_by_types_and_names">sort_op_by_types_and_names() (in module data_juicer.config.config)</a>
-</li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter">SpecialCharactersFilter (class in data_juicer.ops.filter.special_characters_filter)</a>
-</li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter">SpecifiedFieldFilter (class in data_juicer.ops.filter.specified_field_filter)</a>
-</li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter">SpecifiedNumericFieldFilter (class in data_juicer.ops.filter.specified_numeric_field_filter)</a>
-</li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace">split_on_newline_tab_whitespace() (in module data_juicer.ops.common.helper_func)</a>
-</li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_whitespace">split_on_whitespace() (in module data_juicer.ops.common.helper_func)</a>
-</li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter">StopWordsFilter (class in data_juicer.ops.filter.stopwords_filter)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru">StreamToLoguru (class in data_juicer.utils.logger_utils)</a>
-</li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.strip">strip() (in module data_juicer.ops.common.helper_func)</a>
-</li>
-      <li><a href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES">SUFFIXES (data_juicer.format.csv_formatter.CsvFormatter attribute)</a>
-
-      <ul>
-        <li><a href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.SUFFIXES">(data_juicer.format.json_formatter.JsonFormatter attribute)</a>
-</li>
-        <li><a href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES">(data_juicer.format.parquet_formatter.ParquetFormatter attribute)</a>
-</li>
-        <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.SUFFIXES">(data_juicer.format.text_formatter.TextFormatter attribute)</a>
-</li>
-        <li><a href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES">(data_juicer.format.tsv_formatter.TsvFormatter attribute)</a>
-</li>
-      </ul></li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter">SuffixFilter (class in data_juicer.ops.filter.suffix_filter)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="T">T</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter">TextFormatter (class in data_juicer.format.text_formatter)</a>
-</li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter">TextLengthFilter (class in data_juicer.ops.filter.text_length_filter)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.TiB">TiB (data_juicer.core.exporter.Exporter attribute)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.to_jsonl">to_jsonl() (data_juicer.core.exporter.Exporter static method)</a>
-</li>
-      <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.to_number">to_number() (in module data_juicer.ops.selector.topk_specified_field_selector)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.to_parquet">to_parquet() (data_juicer.core.exporter.Exporter static method)</a>
-</li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector">TopkSpecifiedFieldSelector (class in data_juicer.ops.selector.topk_specified_field_selector)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_batch_mapper">trace_batch_mapper() (data_juicer.core.tracer.Tracer method)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_deduplicator">trace_deduplicator() (data_juicer.core.tracer.Tracer method)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_filter">trace_filter() (data_juicer.core.tracer.Tracer method)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_mapper">trace_mapper() (data_juicer.core.tracer.Tracer method)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.tracer.Tracer">Tracer (class in data_juicer.core.tracer)</a>
-</li>
-      <li><a href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter">TsvFormatter (class in data_juicer.format.tsv_formatter)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="U">U</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.formatter.unify_format">unify_format() (in module data_juicer.format.formatter)</a>
-</li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.union">union() (data_juicer.ops.common.helper_func.UnionFind method)</a>
-</li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind">UnionFind (class in data_juicer.ops.common.helper_func)</a>
-</li>
-  </ul></td>
-</tr></table>
-
-<h2 id="W">W</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper">WhitespaceNormalizationMapper (class in data_juicer.ops.mapper.whitespace_normalization_mapper)</a>
-</li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter">WordNumFilter (class in data_juicer.ops.filter.word_num_filter)</a>
-</li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter">WordRepetitionFilter (class in data_juicer.ops.filter.word_repetition_filter)</a>
-</li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_augmentation">words_augmentation() (in module data_juicer.ops.common.helper_func)</a>
-</li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_refinement">words_refinement() (in module data_juicer.ops.common.helper_func)</a>
-</li>
-      <li><a href="data_juicer.core.html#data_juicer.core.data.wrap_func_with_nested_access">wrap_func_with_nested_access() (in module data_juicer.core.data)</a>
-</li>
-      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.write">write() (data_juicer.utils.logger_utils.StreamToLoguru method)</a>
-</li>
-  </ul></td>
-</tr></table>
-
 
 
            </div>
diff --git a/index.html b/index.html
index a0d58ed81..7ea444540 100644
--- a/index.html
+++ b/index.html
@@ -16,8 +16,7 @@
         <script src="_static/sphinx_highlight.js?v=4825356b"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer package" href="data_juicer.html" /> 
+    <link rel="search" title="Search" href="search.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,10 +41,13 @@
   </form>
 </div>
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.html">data_juicer package</a></li>
+              <!-- Local TOC -->
+              <div class="local-toc"><ul>
+<li><a class="reference internal" href="#">Welcome to data-juicer’s documentation!</a></li>
+<li><a class="reference internal" href="#data-juicer">data_juicer</a></li>
+<li><a class="reference internal" href="#indices-and-tables">Indices and tables</a></li>
 </ul>
-
+</div>
         </div>
       </div>
     </nav>
@@ -78,72 +80,6 @@ <h1>Welcome to data-juicer’s documentation!<a class="headerlink" href="#welcom
 <section id="data-juicer">
 <h1>data_juicer<a class="headerlink" href="#data-juicer" title="Permalink to this heading">¶</a></h1>
 <div class="toctree-wrapper compound">
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.config.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config.config">data_juicer.config.config module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.analyser">data_juicer.core.analyser module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.data">data_juicer.core.data module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.executor">data_juicer.core.executor module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.exporter">data_juicer.core.exporter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.tracer">data_juicer.core.tracer module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.formatter">data_juicer.format.formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.load">data_juicer.format.load module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.asset_utils">data_juicer.utils.asset_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.cache_utils">data_juicer.utils.cache_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils">data_juicer.utils.ckpt_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.file_utils">data_juicer.utils.file_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.logger_utils">data_juicer.utils.logger_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.model_utils">data_juicer.utils.model_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.registry">data_juicer.utils.registry module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils">Module contents</a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a></li>
-</ul>
-</li>
-</ul>
 </div>
 </section>
 <section id="indices-and-tables">
@@ -158,9 +94,7 @@ <h1>Indices and tables<a class="headerlink" href="#indices-and-tables" title="Pe
 
            </div>
           </div>
-          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.html" class="btn btn-neutral float-right" title="data_juicer package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
-    </div>
+          <footer>
 
   <hr/>
 
diff --git a/modules.html b/modules.html
index 0715fc584..2b99c6777 100644
--- a/modules.html
+++ b/modules.html
@@ -41,10 +41,11 @@
   </form>
 </div>
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.html">data_juicer package</a></li>
+              <!-- Local TOC -->
+              <div class="local-toc"><ul>
+<li><a class="reference internal" href="#">data_juicer</a></li>
 </ul>
-
+</div>
         </div>
       </div>
     </nav>
@@ -72,72 +73,6 @@
   <section id="data-juicer">
 <h1>data_juicer<a class="headerlink" href="#data-juicer" title="Permalink to this heading">¶</a></h1>
 <div class="toctree-wrapper compound">
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.config.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config.config">data_juicer.config.config module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.analyser">data_juicer.core.analyser module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.data">data_juicer.core.data module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.executor">data_juicer.core.executor module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.exporter">data_juicer.core.exporter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.tracer">data_juicer.core.tracer module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.formatter">data_juicer.format.formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.load">data_juicer.format.load module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
-</ul>
-</li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a><ul>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#submodules">Submodules</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.asset_utils">data_juicer.utils.asset_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.cache_utils">data_juicer.utils.cache_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils">data_juicer.utils.ckpt_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.file_utils">data_juicer.utils.file_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.logger_utils">data_juicer.utils.logger_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.model_utils">data_juicer.utils.model_utils module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.registry">data_juicer.utils.registry module</a></li>
-<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils">Module contents</a></li>
-</ul>
-</li>
-</ul>
-</li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a></li>
-</ul>
-</li>
-</ul>
 </div>
 </section>
 
diff --git a/objects.inv b/objects.inv
index b5522127d..1095f471c 100644
Binary files a/objects.inv and b/objects.inv differ
diff --git a/py-modindex.html b/py-modindex.html
deleted file mode 100644
index d62b97f93..000000000
--- a/py-modindex.html
+++ /dev/null
@@ -1,500 +0,0 @@
-<!DOCTYPE html>
-<html class="writer-html5" lang="en" >
-<head>
-  <meta charset="utf-8" />
-  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>Python Module Index &mdash; data_juicer 0.1.2 documentation</title>
-      <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
-      <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
-  <!--[if lt IE 9]>
-    <script src="_static/js/html5shiv.min.js"></script>
-  <![endif]-->
-  
-        <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js?v=b0099a1c"></script>
-        <script src="_static/doctools.js?v=888ff710"></script>
-        <script src="_static/sphinx_highlight.js?v=4825356b"></script>
-    <script src="_static/js/theme.js"></script>
-    <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" />
- 
-
-
-</head>
-
-<body class="wy-body-for-nav"> 
-  <div class="wy-grid-for-nav">
-    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
-      <div class="wy-side-scroll">
-        <div class="wy-side-nav-search" >
-
-          
-          
-          <a href="index.html" class="icon icon-home">
-            data_juicer
-          </a>
-              <div class="version">
-                0.1.2
-              </div>
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="search.html" method="get">
-    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.html">data_juicer package</a></li>
-</ul>
-
-        </div>
-      </div>
-    </nav>
-
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="index.html">data_juicer</a>
-      </nav>
-
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">Python Module Index</li>
-      <li class="wy-breadcrumbs-aside">
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-
-   <h1>Python Module Index</h1>
-
-   <div class="modindex-jumpbox">
-   <a href="#cap-d"><strong>d</strong></a>
-   </div>
-
-   <table class="indextable modindextable">
-     <tr class="pcap"><td></td><td>&#160;</td><td></td></tr>
-     <tr class="cap" id="cap-d"><td></td><td>
-       <strong>d</strong></td><td></td></tr>
-     <tr>
-       <td><img src="_static/minus.png" class="toggler"
-              id="toggle-1" style="display: none" alt="-" /></td>
-       <td>
-       <a href="data_juicer.html#module-data_juicer"><code class="xref">data_juicer</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.analysis.html#module-data_juicer.analysis"><code class="xref">data_juicer.analysis</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis"><code class="xref">data_juicer.analysis.column_wise_analysis</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis"><code class="xref">data_juicer.analysis.diversity_analysis</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis"><code class="xref">data_juicer.analysis.overall_analysis</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.config.html#module-data_juicer.config"><code class="xref">data_juicer.config</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.config.html#module-data_juicer.config.config"><code class="xref">data_juicer.config.config</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.core.html#module-data_juicer.core"><code class="xref">data_juicer.core</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.core.html#module-data_juicer.core.analyser"><code class="xref">data_juicer.core.analyser</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.core.html#module-data_juicer.core.data"><code class="xref">data_juicer.core.data</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.core.html#module-data_juicer.core.executor"><code class="xref">data_juicer.core.executor</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.core.html#module-data_juicer.core.exporter"><code class="xref">data_juicer.core.exporter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.core.html#module-data_juicer.core.tracer"><code class="xref">data_juicer.core.tracer</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.format.html#module-data_juicer.format"><code class="xref">data_juicer.format</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.format.html#module-data_juicer.format.csv_formatter"><code class="xref">data_juicer.format.csv_formatter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.format.html#module-data_juicer.format.formatter"><code class="xref">data_juicer.format.formatter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.format.html#module-data_juicer.format.json_formatter"><code class="xref">data_juicer.format.json_formatter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.format.html#module-data_juicer.format.load"><code class="xref">data_juicer.format.load</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.format.html#module-data_juicer.format.mixture_formatter"><code class="xref">data_juicer.format.mixture_formatter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.format.html#module-data_juicer.format.parquet_formatter"><code class="xref">data_juicer.format.parquet_formatter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.format.html#module-data_juicer.format.text_formatter"><code class="xref">data_juicer.format.text_formatter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.format.html#module-data_juicer.format.tsv_formatter"><code class="xref">data_juicer.format.tsv_formatter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.html#module-data_juicer.ops"><code class="xref">data_juicer.ops</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.html#module-data_juicer.ops.base_op"><code class="xref">data_juicer.ops.base_op</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.common.html#module-data_juicer.ops.common"><code class="xref">data_juicer.ops.common</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func"><code class="xref">data_juicer.ops.common.helper_func</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters"><code class="xref">data_juicer.ops.common.special_characters</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator"><code class="xref">data_juicer.ops.deduplicator</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator"><code class="xref">data_juicer.ops.deduplicator.document_deduplicator</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator"><code class="xref">data_juicer.ops.deduplicator.document_minhash_deduplicator</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator"><code class="xref">data_juicer.ops.deduplicator.document_simhash_deduplicator</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter"><code class="xref">data_juicer.ops.filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter"><code class="xref">data_juicer.ops.filter.alphanumeric_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter"><code class="xref">data_juicer.ops.filter.average_line_length_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter"><code class="xref">data_juicer.ops.filter.character_repetition_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter"><code class="xref">data_juicer.ops.filter.flagged_words_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter"><code class="xref">data_juicer.ops.filter.language_id_score_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter"><code class="xref">data_juicer.ops.filter.maximum_line_length_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter"><code class="xref">data_juicer.ops.filter.perplexity_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter"><code class="xref">data_juicer.ops.filter.special_characters_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter"><code class="xref">data_juicer.ops.filter.specified_field_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter"><code class="xref">data_juicer.ops.filter.specified_numeric_field_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter"><code class="xref">data_juicer.ops.filter.stopwords_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter"><code class="xref">data_juicer.ops.filter.suffix_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter"><code class="xref">data_juicer.ops.filter.text_length_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_num_filter"><code class="xref">data_juicer.ops.filter.word_num_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter"><code class="xref">data_juicer.ops.filter.word_repetition_filter</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.html#module-data_juicer.ops.load"><code class="xref">data_juicer.ops.load</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper"><code class="xref">data_juicer.ops.mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper"><code class="xref">data_juicer.ops.mapper.clean_copyright_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper"><code class="xref">data_juicer.ops.mapper.clean_email_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper"><code class="xref">data_juicer.ops.mapper.clean_html_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper"><code class="xref">data_juicer.ops.mapper.clean_ip_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper"><code class="xref">data_juicer.ops.mapper.clean_links_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper"><code class="xref">data_juicer.ops.mapper.expand_macro_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper"><code class="xref">data_juicer.ops.mapper.fix_unicode_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper"><code class="xref">data_juicer.ops.mapper.punctuation_normalization_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper"><code class="xref">data_juicer.ops.mapper.remove_bibliography_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper"><code class="xref">data_juicer.ops.mapper.remove_comments_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper"><code class="xref">data_juicer.ops.mapper.remove_header_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper"><code class="xref">data_juicer.ops.mapper.remove_long_words_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper"><code class="xref">data_juicer.ops.mapper.remove_specific_chars_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper"><code class="xref">data_juicer.ops.mapper.remove_table_text_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper"><code class="xref">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper"><code class="xref">data_juicer.ops.mapper.sentence_split_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper"><code class="xref">data_juicer.ops.mapper.whitespace_normalization_mapper</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector"><code class="xref">data_juicer.ops.selector</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector"><code class="xref">data_juicer.ops.selector.frequency_specified_field_selector</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector"><code class="xref">data_juicer.ops.selector.topk_specified_field_selector</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.utils.html#module-data_juicer.utils"><code class="xref">data_juicer.utils</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.utils.html#module-data_juicer.utils.asset_utils"><code class="xref">data_juicer.utils.asset_utils</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.utils.html#module-data_juicer.utils.cache_utils"><code class="xref">data_juicer.utils.cache_utils</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils"><code class="xref">data_juicer.utils.ckpt_utils</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.utils.html#module-data_juicer.utils.file_utils"><code class="xref">data_juicer.utils.file_utils</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.utils.html#module-data_juicer.utils.logger_utils"><code class="xref">data_juicer.utils.logger_utils</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.utils.html#module-data_juicer.utils.model_utils"><code class="xref">data_juicer.utils.model_utils</code></a></td><td>
-       <em></em></td></tr>
-     <tr class="cg-1">
-       <td></td>
-       <td>&#160;&#160;&#160;
-       <a href="data_juicer.utils.html#module-data_juicer.utils.registry"><code class="xref">data_juicer.utils.registry</code></a></td><td>
-       <em></em></td></tr>
-   </table>
-
-
-           </div>
-          </div>
-          <footer>
-
-  <hr/>
-
-  <div role="contentinfo">
-    <p>&#169; Copyright 2023, Data-Juicer Team.</p>
-  </div>
-
-  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
-    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
-    provided by <a href="https://readthedocs.org">Read the Docs</a>.
-   
-
-</footer>
-        </div>
-      </div>
-    </section>
-  </div>
-  <script>
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-</body>
-</html>
\ No newline at end of file
diff --git a/search.html b/search.html
index 316a49a21..627a89840 100644
--- a/search.html
+++ b/search.html
@@ -43,10 +43,8 @@
   </form>
 </div>
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
-              <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.html">data_juicer package</a></li>
-</ul>
-
+              <!-- Local TOC -->
+              <div class="local-toc"></div>
         </div>
       </div>
     </nav>
diff --git a/searchindex.js b/searchindex.js
index 52abe48a0..0e3ba22a6 100644
--- a/searchindex.js
+++ b/searchindex.js
@@ -1 +1 @@
-Search.setIndex({"docnames": ["data_juicer", "data_juicer.analysis", "data_juicer.config", "data_juicer.core", "data_juicer.format", "data_juicer.ops", "data_juicer.ops.common", "data_juicer.ops.deduplicator", "data_juicer.ops.filter", "data_juicer.ops.mapper", "data_juicer.ops.selector", "data_juicer.utils", "index", "modules"], "filenames": ["data_juicer.rst", "data_juicer.analysis.rst", "data_juicer.config.rst", "data_juicer.core.rst", "data_juicer.format.rst", "data_juicer.ops.rst", "data_juicer.ops.common.rst", "data_juicer.ops.deduplicator.rst", "data_juicer.ops.filter.rst", "data_juicer.ops.mapper.rst", "data_juicer.ops.selector.rst", "data_juicer.utils.rst", "index.rst", "modules.rst"], "titles": ["data_juicer package", "data_juicer.analysis package", "data_juicer.config package", "data_juicer.core package", "data_juicer.format package", "data_juicer.ops package", "data_juicer.ops.common package", "data_juicer.ops.deduplicator package", "data_juicer.ops.filter package", "data_juicer.ops.mapper package", "data_juicer.ops.selector package", "data_juicer.utils package", "Welcome to data-juicer\u2019s documentation!", "data_juicer"], "terms": {"analysi": [0, 3, 12, 13], "submodul": [0, 12, 13], "column_wise_analysi": [0, 12, 13], "columnwiseanalysi": [0, 1, 3], "analys": [0, 1, 2, 12, 13], "draw_box": [0, 1], "draw_hist": [0, 1], "get_row_col": [0, 1], "diversity_analysi": [0, 12, 13], "diversityanalysi": [0, 1], "comput": [0, 1, 3, 5, 6, 7, 8], "find_root_verb_and_its_dobj": [0, 1], "find_root_verb_and_its_dobj_in_str": [0, 1], "get_divers": [0, 1], "overall_analysi": [0, 12, 13], "overallanalysi": [0, 1, 3], "config": [0, 3, 5, 11, 12, 13], "config_backup": [0, 2], "display_config": [0, 2], "init_config": [0, 2], "init_setup_from_cfg": [0, 2], "sort_op_by_types_and_nam": [0, 2], "core": [0, 12, 13], "run": [0, 3], "data": [0, 1, 4, 7, 13], "nesteddataset": [0, 3], "add_column": [0, 3], "cleanup_cache_fil": [0, 3], "filter": [0, 3, 4, 5], "from_dict": [0, 3], "map": [0, 3, 4], "remove_column": [0, 3], "select": [0, 3, 4, 5, 7, 10], "select_column": [0, 3], "nesteddatasetdict": [0, 3], "nestedquerydict": [0, 3], "nested_obj_factori": [0, 3], "nested_queri": [0, 3], "wrap_func_with_nested_access": [0, 3], "executor": [0, 2, 12, 13], "export": [0, 4, 12, 13], "gib": [0, 3], "kib": [0, 3], "mib": [0, 3], "tib": [0, 3], "to_jsonl": [0, 3], "to_parquet": [0, 3], "tracer": [0, 5, 7, 12, 13], "trace_batch_mapp": [0, 3], "trace_dedupl": [0, 3], "trace_filt": [0, 3], "trace_mapp": [0, 3], "format": [0, 3, 11, 12, 13], "csv_formatt": [0, 12, 13], "csvformatt": [0, 4], "suffix": [0, 4, 8, 11], "formatt": [0, 12, 13], "baseformatt": [0, 4], "load_dataset": [0, 4], "localformatt": [0, 4], "remoteformatt": [0, 4], "add_suffix": [0, 4], "load_formatt": [0, 4], "unify_format": [0, 4], "json_formatt": [0, 12, 13], "jsonformatt": [0, 4], "load": [0, 1, 3, 11, 12, 13], "mixture_formatt": [0, 12, 13], "mixtureformatt": [0, 4], "parquet_formatt": [0, 12, 13], "parquetformatt": [0, 4], "text_formatt": [0, 12, 13], "textformatt": [0, 4, 11], "extract_txt_from_docx": [0, 4], "extract_txt_from_pdf": [0, 4], "tsv_formatt": [0, 12, 13], "tsvformatt": [0, 4], "op": [0, 2, 3, 11, 12, 13], "common": [0, 3, 5], "helper_func": [0, 5], "special_charact": [0, 5], "dedupl": [0, 3, 5], "document_dedupl": [0, 5], "document_minhash_dedupl": [0, 5], "document_simhash_dedupl": [0, 5], "alphanumeric_filt": [0, 5], "average_line_length_filt": [0, 5], "character_repetition_filt": [0, 5], "flagged_words_filt": [0, 5], "language_id_score_filt": [0, 5], "maximum_line_length_filt": [0, 5], "perplexity_filt": [0, 5], "special_characters_filt": [0, 5], "specified_field_filt": [0, 5], "specified_numeric_field_filt": [0, 5], "stopwords_filt": [0, 5], "suffix_filt": [0, 5], "text_length_filt": [0, 5], "word_num_filt": [0, 5], "word_repetition_filt": [0, 5], "mapper": [0, 3, 5], "clean_copyright_mapp": [0, 5], "clean_email_mapp": [0, 5], "clean_html_mapp": [0, 5], "clean_ip_mapp": [0, 5], "clean_links_mapp": [0, 5], "expand_macro_mapp": [0, 5], "fix_unicode_mapp": [0, 5], "punctuation_normalization_mapp": [0, 5], "remove_bibliography_mapp": [0, 5], "remove_comments_mapp": [0, 5], "remove_header_mapp": [0, 5], "remove_long_words_mapp": [0, 5], "remove_specific_chars_mapp": [0, 5], "remove_table_text_mapp": [0, 5], "remove_words_with_incorrect_substrings_mapp": [0, 5], "sentence_split_mapp": [0, 5], "whitespace_normalization_mapp": [0, 5], "selector": [0, 5], "frequency_specified_field_selector": [0, 5], "topk_specified_field_selector": [0, 5], "base_op": [0, 12, 13], "compute_hash": [0, 5, 7], "process": [0, 3, 4, 5, 6, 7, 8, 9, 10, 11], "compute_stat": [0, 5, 8], "is_batched_op": [0, 5], "load_op": [0, 5], "util": [0, 12, 13], "asset_util": [0, 12, 13], "load_words_asset": [0, 11], "cache_util": [0, 12, 13], "ckpt_util": [0, 12, 13], "checkpointmanag": [0, 11], "check_ckpt": [0, 11], "check_ops_to_skip": [0, 11], "get_left_process_list": [0, 11], "load_ckpt": [0, 11], "record": [0, 11], "save_ckpt": [0, 11], "file_util": [0, 12, 13], "find_files_with_suffix": [0, 11], "is_absolute_path": [0, 11], "logger_util": [0, 12, 13], "hiddenprint": [0, 11], "streamtologuru": [0, 11], "flush": [0, 11], "write": [0, 11], "get_caller_nam": [0, 11], "get_log_file_path": [0, 11], "redirect_sys_output": [0, 11], "setup_logg": [0, 11], "model_util": [0, 12, 13], "check_model": [0, 11], "get_model": [0, 11], "prepare_diversity_model": [0, 11], "prepare_fasttext_model": [0, 11], "prepare_huggingface_token": [0, 11], "prepare_kenlm_model": [0, 11], "prepare_model": [0, 11], "prepare_nltk_model": [0, 11], "prepare_sentencepiece_model": [0, 11], "registri": [0, 12, 13], "get": [0, 1, 4, 6, 11], "list": [0, 1, 2, 3, 4, 5, 6, 8, 9, 11], "name": [0, 1, 2, 3, 4, 5, 11], "register_modul": [0, 11], "class": [1, 3, 4, 5, 6, 7, 8, 9, 10, 11], "dataset": [1, 3, 4, 5, 7, 10, 11], "output_path": 1, "overall_result": 1, "none": [1, 2, 3, 4, 5, 6, 7, 9, 10, 11], "save_stats_in_one_fil": 1, "true": [1, 3, 5, 6, 7, 8, 9, 10, 11], "sourc": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], "base": [1, 3, 4, 5, 6, 7, 8, 9, 10, 11], "object": [1, 2, 3, 4, 5, 6, 11], "appli": [1, 3], "each": [1, 2, 5], "column": [1, 3, 9], "stat": [1, 3, 5, 8], "respect": [1, 7], "show_percentil": 1, "fals": [1, 4, 5, 6, 7, 8, 9, 11], "show": [1, 3], "draw": 1, "figur": [1, 3], "paramet": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], "whether": [1, 4, 5, 6, 8, 11], "percentil": 1, "line": [1, 2, 8], "sub": [1, 2, 6], "If": [1, 8, 11], "": [1, 4, 8, 10, 11], "sever": 1, "red": 1, "indic": 1, "quantil": 1, "distribut": [1, 3], "singl": 1, "window": 1, "after": [1, 2, 3, 4, 6, 7], "return": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], "ax": 1, "save_path": 1, "box": 1, "plot": 1, "path": [1, 3, 4, 11], "save": [1, 4, 11], "overal": 1, "result": [1, 3], "includ": 1, "inform": [1, 5, 8], "histogram": 1, "total_num": 1, "factor": 1, "2": [1, 6, 8, 9], "given": [1, 3], "total": [1, 8], "number": [1, 3, 4, 5, 7, 8, 9], "best": 1, "row": [1, 7], "thi": [1, 3, 5, 6, 7, 8, 11], "function": [1, 3, 6, 7], "i": [1, 2, 3, 4, 5, 6, 7, 8, 9, 11], "need": [1, 6, 11], "when": [1, 3, 4, 5, 7, 11], "we": [1, 7], "store": [1, 3, 4, 5, 7, 8, 11], "all": [1, 3, 6, 11], "one": [1, 2, 6, 11], "imag": 1, "type": [1, 2, 4, 7, 11], "In": 1, "default": [1, 2, 4, 11], "which": [1, 3, 5, 8, 11], "mean": [1, 11], "ar": [1, 3, 6, 11], "grid": 1, "lang_or_model": 1, "en": [1, 8, 9, 11], "divers": [1, 11], "sampl": [1, 3, 4, 5, 7, 8, 9, 10], "an": [1, 3, 4, 5, 7, 11], "column_nam": 1, "text": [1, 4, 8, 9], "postproc_func": 1, "postproc_kwarg": 1, "whole": 1, "model": [1, 6, 11], "specif": [1, 3, 8, 9, 11], "languag": [1, 8, 11], "us": [1, 2, 3, 4, 5, 6, 7, 8, 9, 11], "argument": [1, 3, 5], "lexic": 1, "tree": 1, "tree_root": 1, "find": [1, 3, 5, 6, 11], "verb": 1, "its": [1, 3, 4, 5, 11], "closest": 1, "root": 1, "valid": [1, 11], "nlp": 1, "first_sent": 1, "input": [1, 3, 4, 5, 7, 8, 10, 11], "string": [1, 11], "first": [1, 3, 6], "sentenc": [1, 6, 9], "onli": [1, 9, 11], "matter": 1, "over": 1, "top_k_verb": 1, "20": [1, 9], "top_k_noun": 1, "4": [1, 7], "kwarg": [1, 3, 4, 7, 8, 9, 10], "keep": [1, 5, 8, 11], "largest": 1, "group": [1, 6], "noun": 1, "extra": [1, 2, 3, 11], "arg": [1, 2, 3, 4, 7, 8, 9, 10, 11], "std": 1, "etc": [1, 3, 11], "describ": 1, "method": [1, 3, 6, 7], "panda": 1, "cfg": [2, 3, 4], "initi": 2, "jsonargpars": 2, "parser": 2, "pars": 2, "from": [2, 3, 4, 5, 6, 7, 9, 11], "posix": 2, "style": 2, "command": [2, 4], "file": [2, 3, 4, 5, 11], "yaml": 2, "json": [2, 3, 4], "jsonnet": 2, "superset": 2, "environ": [2, 11], "variabl": [2, 5], "hard": 2, "code": [2, 9], "param": [2, 6], "e": [2, 3, 4], "g": [2, 3, 4], "conifg": 2, "defaut": 2, "global": [2, 4], "do": 2, "some": [2, 7, 11], "setup": [2, 11], "task": 2, "creat": 2, "work": [2, 3], "directori": [2, 3, 4, 11], "log": [2, 11], "updat": 2, "cach": [2, 3, 8, 11], "checkpoint": [2, 11], "temp_dir": 2, "tempfil": 2, "origin": [2, 4, 7, 11], "op_name_class": 2, "split": [2, 6, 9], "item": [2, 3, 5], "sort": [2, 10], "them": [2, 4], "concat": 2, "togeth": 2, "pair": [2, 3, 5, 7], "op_nam": [2, 3, 11], "op_class": 2, "It": 3, "multipl": [3, 4, 6], "gener": 3, "tabl": [3, 9], "help": 3, "user": 3, "understand": 3, "better": 3, "load_data_np": 3, "pipelin": 3, "worker": 3, "karg": 3, "enhanc": 3, "huggingfac": [3, 4, 11], "usabl": 3, "effici": 3, "overrid": [3, 11], "add": [3, 4], "func": 3, "can": [3, 9], "access": 3, "nest": 3, "manner": 3, "clear": 3, "raw": 3, "compress": 3, "call": [3, 7], "most": 3, "oper": [3, 11], "classmethod": 3, "from_xx": 3, "constructor": 3, "construct": 3, "remov": [3, 6, 9, 11], "datasetdict": [3, 4], "dict": [3, 11], "obj": 3, "wrap": 3, "root_obj": 3, "kei": [3, 4, 11], "check": [3, 4, 11], "flatten": 3, "layer": 3, "queri": 3, "meta": [3, 4], "date": 3, "f": [3, 4], "befor": [3, 11], "conduct": [3, 4], "actual": 3, "ones": 3, "unifi": [3, 4], "order": 3, "export_path": 3, "export_shard_s": 3, "0": [3, 4, 5, 7, 8, 11], "export_in_parallel": 3, "num_proc": [3, 4, 11], "1": [3, 4, 9, 11], "export_d": 3, "export_stat": 3, "The": [3, 4, 5, 7], "1073741824": 3, "1024": 3, "1048576": 3, "1099511627776": 3, "static": 3, "jsonl": [3, 4], "target": [3, 4, 8, 11], "parquet": [3, 4], "work_dir": 3, "show_num": [3, 5, 7], "10": [3, 8], "trace": [3, 5, 7], "chang": [3, 7, 11], "comparison": 3, "str": [3, 4, 5, 6, 7, 8, 9, 10, 11], "previous_d": 3, "processed_d": 3, "text_kei": [3, 4, 5], "compar": [3, 11], "batchmapp": 3, "mainli": 3, "new": [3, 4], "augment": [3, 6], "dup_pair": 3, "duplic": [3, 5, 7], "extract": [3, 4], "differ": [3, 4, 6, 7, 9], "other": 3, "two": [3, 7], "embed": 3, "independ": 3, "obtain": [3, 6], "due": [3, 7], "modif": [3, 4], "dataset_path": 4, "csv": 4, "tupl": [4, 7, 8, 11], "local": [4, 7], "int": [4, 7], "global_cfg": 4, "consequ": 4, "repositori": 4, "hub": 4, "featur": 4, "appropri": 4, "field": [4, 8, 10], "read": 4, "intern": 4, "follow": 4, "out": 4, "those": 4, "empti": 4, "sinc": [4, 6], "mai": 4, "modifi": 4, "unified_format_dataset": 4, "zst": 4, "mixtur": 4, "option": [4, 11], "weight": [4, 7], "accord": [4, 5, 7], "specifi": [4, 6, 8, 10, 11], "info": [4, 11], "mix": 4, "randomli": 4, "everi": 4, "merg": [4, 6], "datasset": 4, "txt": [4, 11], "pdf": 4, "cpp": 4, "docx": 4, "md": [4, 11], "tex": [4, 9], "asm": 4, "bat": 4, "cmd": 4, "c": 4, "h": 4, "hpp": 4, "cc": 4, "hh": 4, "cmake": 4, "css": 4, "dockerfil": 4, "f90": 4, "f03": 4, "f08": 4, "f77": 4, "f95": 4, "fpp": 4, "go": 4, "html": [4, 9], "java": 4, "j": 4, "jl": 4, "lua": 4, "markdown": 4, "php": 4, "php3": 4, "php4": 4, "php5": 4, "phpt": 4, "pl": 4, "pm": 4, "pod": 4, "perl": 4, "ps1": 4, "psd1": 4, "psm1": 4, "py": 4, "rb": 4, "r": [4, 7], "sql": 4, "scala": 4, "sh": 4, "bash": 4, "zsh": 4, "t": [4, 6, 7], "tsx": 4, "vb": 4, "makefil": 4, "xml": 4, "rst": 4, "m": 4, "smali": 4, "fn": 4, "tgt_path": 4, "tsv": 4, "unionfind": [5, 6], "union": [5, 6], "get_sentences_from_docu": [5, 6], "get_words_from_docu": [5, 6], "merge_on_whitespace_tab_newlin": [5, 6], "split_on_newline_tab_whitespac": [5, 6], "split_on_whitespac": [5, 6], "strip": [5, 6], "words_augment": [5, 6], "words_refin": [5, 6], "documentdedupl": [5, 7], "documentminhashdedupl": [5, 7], "optimal_param": [5, 7], "sha1_hash32": [5, 7], "documentsimhashdedupl": [5, 7], "local_num_differing_bit": [5, 7], "num_differing_bits_selector": [5, 7], "alphanumericfilt": [5, 8], "averagelinelengthfilt": [5, 8], "characterrepetitionfilt": [5, 8], "flaggedwordfilt": [5, 8], "languageidscorefilt": [5, 8], "maximumlinelengthfilt": [5, 8], "perplexityfilt": [5, 8], "specialcharactersfilt": [5, 8], "specifiedfieldfilt": [5, 8], "specifiednumericfieldfilt": [5, 8], "is_numb": [5, 8], "stopwordsfilt": [5, 8], "suffixfilt": [5, 8], "textlengthfilt": [5, 8], "wordnumfilt": [5, 8], "wordrepetitionfilt": [5, 8], "cleancopyrightmapp": [5, 9], "cleanemailmapp": [5, 9], "cleanhtmlmapp": [5, 9], "cleanipmapp": [5, 9], "cleanlinksmapp": [5, 9], "expandmacromapp": [5, 9], "fixunicodemapp": [5, 9], "punctuationnormalizationmapp": [5, 9], "removebibliographymapp": [5, 9], "removecommentsmapp": [5, 9], "removeheadermapp": [5, 9], "removelongwordsmapp": [5, 9], "should_keep_long_word": [5, 9], "removespecificcharsmapp": [5, 9], "removetabletextmapp": [5, 9], "removewordswithincorrectsubstringsmapp": [5, 9], "should_keep_word_with_incorrect_substr": [5, 9], "sentencesplitmapp": [5, 9], "whitespacenormalizationmapp": [5, 9], "frequencyspecifiedfieldselector": [5, 10], "topkspecifiedfieldselector": [5, 10], "to_numb": [5, 10], "hash": [5, 7], "valu": [5, 7, 8, 10, 11], "For": [5, 7, 8, 9], "doc": [5, 7], "level": [5, 6, 7, 8, 9, 11], "open": [5, 7], "context": [5, 8, 11], "metric": [5, 8], "decid": [5, 8, 11], "intermedi": [5, 8], "var": [5, 8], "temporarili": [5, 8], "boolean": [5, 8], "process_list": 5, "op_fus": 5, "A": 5, "fuse": 5, "share": 5, "same": [5, 11], "instanc": [5, 11], "x": 6, "y": 6, "document": [6, 7, 9], "model_func": 6, "splite": 6, "separ": 6, "n": [6, 8], "token_func": 6, "new_lin": 6, "tab": 6, "word": [6, 8, 9, 11], "ratio": [6, 8], "like": [6, 9, 11], "stopword": [6, 8], "token": [6, 7, 8, 9, 11], "invert": 6, "concaten": 6, "setenc": 6, "also": 6, "space": [6, 7], "tag": 6, "strip_charact": 6, "wai": 6, "faster": 6, "than": [6, 8], "now": [6, 9], "set": 6, "instead": 6, "contain": 6, "lot": 6, "element": 6, "emoji": 6, "charact": 6, "uesd": 6, "group_siz": 6, "join_char": 6, "especi": 6, "chines": 6, "without": 6, "between": [6, 7], "vietnames": 6, "syllabl": 6, "size": 6, "ad": 6, "lower_cas": 6, "strip_char": 6, "use_words_aug": [6, 8], "words_aug_group_s": [6, 8], "words_aug_join_char": [6, 8], "refin": 6, "non": 6, "revers": [6, 10], "special": [6, 8], "convert": 6, "lower": 6, "case": 6, "lowercas": [6, 7], "char": [6, 8, 9], "bool": [7, 8, 9, 10, 11], "ignore_non_charact": 7, "exact": 7, "match": 7, "md5": 7, "window_s": 7, "positiveint": [7, 8, 9, 10], "5": [7, 8], "ignore_pattern": 7, "num_permut": 7, "256": 7, "jaccard_threshold": 7, "closedunitinterv": [7, 8, 10], "7": 7, "num_band": 7, "num_rows_per_band": 7, "minhashlsh": 7, "simhash": 7, "minhash": 7, "byte": 7, "so": [7, 11], "thei": 7, "won": 7, "kept": 7, "final": 7, "threshold": 7, "float": [7, 8], "num_perm": 7, "false_positive_weight": 7, "false_negative_weight": 7, "optim": 7, "minim": 7, "sum": 7, "probabl": 7, "posit": 7, "neg": 7, "taken": 7, "datasketch": 7, "similar": 7, "permut": 7, "b": 7, "band": 7, "per": 7, "directli": 7, "avoid": 7, "depend": 7, "6": 7, "num_block": 7, "hamming_dist": 7, "hash_a": 7, "hash_b": 7, "implement": 7, "calcul": 7, "bit": [7, 11], "integ": 7, "num_differing_bit": 7, "python": 7, "version": [7, 11], "instal": 7, "3": [7, 8], "9": 7, "librari": 7, "cannot": 7, "compil": 7, "correctli": 7, "cython": 7, "fix": [7, 9], "incompat": 7, "recursionerror": 7, "occur": 7, "sometim": [7, 11], "our": 7, "otherwis": [7, 11], "avail": [7, 11], "min_ratio": 8, "25": 8, "max_ratio": 8, "positivefloat": 8, "9223372036854775807": [8, 9], "alphabet": 8, "numer": 8, "within": [8, 9, 11], "rang": [8, 9, 11], "min_len": [8, 9], "max_len": [8, 9], "averag": 8, "length": 8, "rep_len": 8, "gram": 8, "repetit": 8, "lang": [8, 9, 11], "045": 8, "flagged_words_dir": 8, "home": 8, "runner": 8, "asset": [8, 11], "flag": 8, "less": 8, "max": 8, "min_scor": 8, "8": 8, "confid": 8, "score": 8, "larger": 8, "min": 8, "maximum": 8, "max_ppl": 8, "1500": 8, "perplex": 8, "field_kei": [8, 10], "target_valu": 8, "min_valu": 8, "max_valu": 8, "stopwords_dir": 8, "min_num": 8, "max_num": 8, "clean": 9, "copyright": 9, "comment": 9, "begin": [9, 11], "email": 9, "ipv4": 9, "ipv6": 9, "address": 9, "link": [9, 11], "http": 9, "ftp": 9, "expand": 9, "macro": 9, "definit": 9, "bodi": 9, "latex": 9, "unicod": 9, "error": 9, "normal": 9, "punctuat": 9, "english": 9, "bibliographi": 9, "end": 9, "doc_typ": 9, "inlin": 9, "multilin": 9, "kind": 9, "support": 9, "drop_no_head": 9, "header": 9, "long": 9, "chars_to_remov": 9, "min_col": 9, "from_2_to_20": 9, "max_col": 9, "regular": 9, "express": 9, "substr": 9, "incorrect": 9, "whitespac": 9, "0x20": 9, "found": [9, 11], "here": 9, "wikipedia": 9, "org": 9, "wiki": 9, "whitespace_charact": 9, "top_ratio": 10, "topk": 10, "frequenc": 10, "top": 10, "words_dir": 11, "words_typ": 11, "download": 11, "asset_link": 11, "team": 11, "whose": 11, "ckpt_dir": 11, "original_process_list": 11, "latest": 11, "manag": 11, "rerun": 11, "reload": 11, "skip": 11, "ani": 11, "els": 11, "prefix": 11, "part": 11, "start": 11, "scratch": 11, "somm": 11, "left": 11, "unchang": 11, "op_arg": 11, "d": 11, "dump": 11, "travers": 11, "absolut": 11, "rel": 11, "defin": 11, "hide": 11, "output": 11, "caller_nam": 11, "stream": 11, "redirect": 11, "logger": 11, "buf": 11, "depth": 11, "caller": 11, "locat": 11, "log_level": 11, "stdout": 11, "stderr": 11, "loguru": 11, "save_dir": 11, "distributed_rank": 11, "filenam": 11, "mode": 11, "o": 11, "train": 11, "test": 11, "devic": 11, "rank": 11, "multi": 11, "gpu": 11, "append": 11, "system": 11, "model_nam": 11, "forc": 11, "exist": 11, "model_path": 11, "full": 11, "forcefulli": 11, "mayb": 11, "incomplet": 11, "reason": 11, "again": 11, "model_kei": 11, "model_typ": 11, "sentencepiec": 11, "model_zoo": 11, "tokenzi": 11, "prepar": 11, "should": 11, "zh": 11, "correspond": 11, "fasttext": 11, "tokenizer_nam": 11, "kenlm": 11, "syntax": 11, "render": 11, "nltk": 11, "punkt": 11, "regist": 11, "repo": 11, "module_kei": 11, "current": 11, "properti": 11, "module_nam": 11, "module_cl": 11, "modulenam": 11, "exampl": 11, "pass": 11, "textformatter2": 11, "text_formatter2": 11, "packag": [12, 13], "subpackag": [12, 13], "modul": [12, 13], "content": [12, 13], "index": 12, "search": 12, "page": 12}, "objects": {"": [[0, 0, 0, "-", "data_juicer"]], "data_juicer": [[1, 0, 0, "-", "analysis"], [2, 0, 0, "-", "config"], [3, 0, 0, "-", "core"], [4, 0, 0, "-", "format"], [5, 0, 0, "-", "ops"], [11, 0, 0, "-", "utils"]], "data_juicer.analysis": [[1, 0, 0, "-", "column_wise_analysis"], [1, 0, 0, "-", "diversity_analysis"], [1, 0, 0, "-", "overall_analysis"]], "data_juicer.analysis.column_wise_analysis": [[1, 1, 1, "", "ColumnWiseAnalysis"], [1, 3, 1, "", "get_row_col"]], "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis": [[1, 2, 1, "", "analyse"], [1, 2, 1, "", "draw_box"], [1, 2, 1, "", "draw_hist"]], "data_juicer.analysis.diversity_analysis": [[1, 1, 1, "", "DiversityAnalysis"], [1, 3, 1, "", "find_root_verb_and_its_dobj"], [1, 3, 1, "", "find_root_verb_and_its_dobj_in_string"], [1, 3, 1, "", "get_diversity"]], "data_juicer.analysis.diversity_analysis.DiversityAnalysis": [[1, 2, 1, "", "analyse"], [1, 2, 1, "", "compute"]], "data_juicer.analysis.overall_analysis": [[1, 1, 1, "", "OverallAnalysis"]], "data_juicer.analysis.overall_analysis.OverallAnalysis": [[1, 2, 1, "", "analyse"]], "data_juicer.config": [[2, 0, 0, "-", "config"]], "data_juicer.config.config": [[2, 3, 1, "", "config_backup"], [2, 3, 1, "", "display_config"], [2, 3, 1, "", "init_configs"], [2, 3, 1, "", "init_setup_from_cfg"], [2, 3, 1, "", "sort_op_by_types_and_names"]], "data_juicer.core": [[3, 0, 0, "-", "analyser"], [3, 0, 0, "-", "data"], [3, 0, 0, "-", "executor"], [3, 0, 0, "-", "exporter"], [3, 0, 0, "-", "tracer"]], "data_juicer.core.analyser": [[3, 1, 1, "", "Analyser"]], "data_juicer.core.analyser.Analyser": [[3, 2, 1, "", "run"]], "data_juicer.core.data": [[3, 1, 1, "", "NestedDataset"], [3, 1, 1, "", "NestedDatasetDict"], [3, 1, 1, "", "NestedQueryDict"], [3, 3, 1, "", "nested_obj_factory"], [3, 3, 1, "", "nested_query"], [3, 3, 1, "", "wrap_func_with_nested_access"]], "data_juicer.core.data.NestedDataset": [[3, 2, 1, "", "add_column"], [3, 2, 1, "", "cleanup_cache_files"], [3, 2, 1, "", "filter"], [3, 2, 1, "", "from_dict"], [3, 2, 1, "", "map"], [3, 2, 1, "", "remove_columns"], [3, 2, 1, "", "select"], [3, 2, 1, "", "select_columns"]], "data_juicer.core.data.NestedDatasetDict": [[3, 2, 1, "", "map"]], "data_juicer.core.executor": [[3, 1, 1, "", "Executor"]], "data_juicer.core.executor.Executor": [[3, 2, 1, "", "run"]], "data_juicer.core.exporter": [[3, 1, 1, "", "Exporter"]], "data_juicer.core.exporter.Exporter": [[3, 4, 1, "", "GiB"], [3, 4, 1, "", "KiB"], [3, 4, 1, "", "MiB"], [3, 4, 1, "", "TiB"], [3, 2, 1, "", "export"], [3, 2, 1, "", "to_jsonl"], [3, 2, 1, "", "to_parquet"]], "data_juicer.core.tracer": [[3, 1, 1, "", "Tracer"]], "data_juicer.core.tracer.Tracer": [[3, 2, 1, "", "trace_batch_mapper"], [3, 2, 1, "", "trace_deduplicator"], [3, 2, 1, "", "trace_filter"], [3, 2, 1, "", "trace_mapper"]], "data_juicer.format": [[4, 0, 0, "-", "csv_formatter"], [4, 0, 0, "-", "formatter"], [4, 0, 0, "-", "json_formatter"], [4, 0, 0, "-", "load"], [4, 0, 0, "-", "mixture_formatter"], [4, 0, 0, "-", "parquet_formatter"], [4, 0, 0, "-", "text_formatter"], [4, 0, 0, "-", "tsv_formatter"]], "data_juicer.format.csv_formatter": [[4, 1, 1, "", "CsvFormatter"]], "data_juicer.format.csv_formatter.CsvFormatter": [[4, 4, 1, "", "SUFFIXES"]], "data_juicer.format.formatter": [[4, 1, 1, "", "BaseFormatter"], [4, 1, 1, "", "LocalFormatter"], [4, 1, 1, "", "RemoteFormatter"], [4, 3, 1, "", "add_suffixes"], [4, 3, 1, "", "load_formatter"], [4, 3, 1, "", "unify_format"]], "data_juicer.format.formatter.BaseFormatter": [[4, 2, 1, "", "load_dataset"]], "data_juicer.format.formatter.LocalFormatter": [[4, 2, 1, "", "load_dataset"]], "data_juicer.format.formatter.RemoteFormatter": [[4, 2, 1, "", "load_dataset"]], "data_juicer.format.json_formatter": [[4, 1, 1, "", "JsonFormatter"]], "data_juicer.format.json_formatter.JsonFormatter": [[4, 4, 1, "", "SUFFIXES"]], "data_juicer.format.load": [[4, 3, 1, "", "load_formatter"]], "data_juicer.format.mixture_formatter": [[4, 1, 1, "", "MixtureFormatter"]], "data_juicer.format.mixture_formatter.MixtureFormatter": [[4, 2, 1, "", "load_dataset"]], "data_juicer.format.parquet_formatter": [[4, 1, 1, "", "ParquetFormatter"]], "data_juicer.format.parquet_formatter.ParquetFormatter": [[4, 4, 1, "", "SUFFIXES"]], "data_juicer.format.text_formatter": [[4, 1, 1, "", "TextFormatter"], [4, 3, 1, "", "extract_txt_from_docx"], [4, 3, 1, "", "extract_txt_from_pdf"]], "data_juicer.format.text_formatter.TextFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.tsv_formatter": [[4, 1, 1, "", "TsvFormatter"]], "data_juicer.format.tsv_formatter.TsvFormatter": [[4, 4, 1, "", "SUFFIXES"]], "data_juicer.ops": [[5, 0, 0, "-", "base_op"], [6, 0, 0, "-", "common"], [7, 0, 0, "-", "deduplicator"], [8, 0, 0, "-", "filter"], [5, 0, 0, "-", "load"], [9, 0, 0, "-", "mapper"], [10, 0, 0, "-", "selector"]], "data_juicer.ops.base_op": [[5, 1, 1, "", "Deduplicator"], [5, 1, 1, "", "Filter"], [5, 1, 1, "", "Mapper"], [5, 1, 1, "", "Selector"]], "data_juicer.ops.base_op.Deduplicator": [[5, 2, 1, "", "compute_hash"], [5, 2, 1, "", "process"]], "data_juicer.ops.base_op.Filter": [[5, 2, 1, "", "compute_stats"], [5, 2, 1, "", "process"]], "data_juicer.ops.base_op.Mapper": [[5, 2, 1, "", "is_batched_op"], [5, 2, 1, "", "process"]], "data_juicer.ops.base_op.Selector": [[5, 2, 1, "", "process"]], "data_juicer.ops.common": [[6, 0, 0, "-", "helper_func"], [6, 0, 0, "-", "special_characters"]], "data_juicer.ops.common.helper_func": [[6, 1, 1, "", "UnionFind"], [6, 3, 1, "", "get_sentences_from_document"], [6, 3, 1, "", "get_words_from_document"], [6, 3, 1, "", "merge_on_whitespace_tab_newline"], [6, 3, 1, "", "split_on_newline_tab_whitespace"], [6, 3, 1, "", "split_on_whitespace"], [6, 3, 1, "", "strip"], [6, 3, 1, "", "words_augmentation"], [6, 3, 1, "", "words_refinement"]], "data_juicer.ops.common.helper_func.UnionFind": [[6, 2, 1, "", "find"], [6, 2, 1, "", "union"]], "data_juicer.ops.deduplicator": [[7, 0, 0, "-", "document_deduplicator"], [7, 0, 0, "-", "document_minhash_deduplicator"], [7, 0, 0, "-", "document_simhash_deduplicator"]], "data_juicer.ops.deduplicator.document_deduplicator": [[7, 1, 1, "", "DocumentDeduplicator"]], "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator": [[7, 2, 1, "", "compute_hash"], [7, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator": [[7, 1, 1, "", "DocumentMinhashDeduplicator"], [7, 3, 1, "", "optimal_param"], [7, 3, 1, "", "sha1_hash32"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator": [[7, 2, 1, "", "compute_hash"], [7, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator": [[7, 1, 1, "", "DocumentSimhashDeduplicator"], [7, 3, 1, "", "local_num_differing_bits"], [7, 3, 1, "", "num_differing_bits_selector"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator": [[7, 2, 1, "", "compute_hash"], [7, 2, 1, "", "process"]], "data_juicer.ops.filter": [[8, 0, 0, "-", "alphanumeric_filter"], [8, 0, 0, "-", "average_line_length_filter"], [8, 0, 0, "-", "character_repetition_filter"], [8, 0, 0, "-", "flagged_words_filter"], [8, 0, 0, "-", "language_id_score_filter"], [8, 0, 0, "-", "maximum_line_length_filter"], [8, 0, 0, "-", "perplexity_filter"], [8, 0, 0, "-", "special_characters_filter"], [8, 0, 0, "-", "specified_field_filter"], [8, 0, 0, "-", "specified_numeric_field_filter"], [8, 0, 0, "-", "stopwords_filter"], [8, 0, 0, "-", "suffix_filter"], [8, 0, 0, "-", "text_length_filter"], [8, 0, 0, "-", "word_num_filter"], [8, 0, 0, "-", "word_repetition_filter"]], "data_juicer.ops.filter.alphanumeric_filter": [[8, 1, 1, "", "AlphanumericFilter"]], "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.average_line_length_filter": [[8, 1, 1, "", "AverageLineLengthFilter"]], "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.character_repetition_filter": [[8, 1, 1, "", "CharacterRepetitionFilter"]], "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.flagged_words_filter": [[8, 1, 1, "", "FlaggedWordFilter"]], "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.language_id_score_filter": [[8, 1, 1, "", "LanguageIDScoreFilter"]], "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.maximum_line_length_filter": [[8, 1, 1, "", "MaximumLineLengthFilter"]], "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.perplexity_filter": [[8, 1, 1, "", "PerplexityFilter"]], "data_juicer.ops.filter.perplexity_filter.PerplexityFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.special_characters_filter": [[8, 1, 1, "", "SpecialCharactersFilter"]], "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.specified_field_filter": [[8, 1, 1, "", "SpecifiedFieldFilter"]], "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.specified_numeric_field_filter": [[8, 1, 1, "", "SpecifiedNumericFieldFilter"], [8, 3, 1, "", "is_number"]], "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.stopwords_filter": [[8, 1, 1, "", "StopWordsFilter"]], "data_juicer.ops.filter.stopwords_filter.StopWordsFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.suffix_filter": [[8, 1, 1, "", "SuffixFilter"]], "data_juicer.ops.filter.suffix_filter.SuffixFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.text_length_filter": [[8, 1, 1, "", "TextLengthFilter"]], "data_juicer.ops.filter.text_length_filter.TextLengthFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.word_num_filter": [[8, 1, 1, "", "WordNumFilter"]], "data_juicer.ops.filter.word_num_filter.WordNumFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.word_repetition_filter": [[8, 1, 1, "", "WordRepetitionFilter"]], "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.load": [[5, 3, 1, "", "load_ops"]], "data_juicer.ops.mapper": [[9, 0, 0, "-", "clean_copyright_mapper"], [9, 0, 0, "-", "clean_email_mapper"], [9, 0, 0, "-", "clean_html_mapper"], [9, 0, 0, "-", "clean_ip_mapper"], [9, 0, 0, "-", "clean_links_mapper"], [9, 0, 0, "-", "expand_macro_mapper"], [9, 0, 0, "-", "fix_unicode_mapper"], [9, 0, 0, "-", "punctuation_normalization_mapper"], [9, 0, 0, "-", "remove_bibliography_mapper"], [9, 0, 0, "-", "remove_comments_mapper"], [9, 0, 0, "-", "remove_header_mapper"], [9, 0, 0, "-", "remove_long_words_mapper"], [9, 0, 0, "-", "remove_specific_chars_mapper"], [9, 0, 0, "-", "remove_table_text_mapper"], [9, 0, 0, "-", "remove_words_with_incorrect_substrings_mapper"], [9, 0, 0, "-", "sentence_split_mapper"], [9, 0, 0, "-", "whitespace_normalization_mapper"]], "data_juicer.ops.mapper.clean_copyright_mapper": [[9, 1, 1, "", "CleanCopyrightMapper"]], "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.clean_email_mapper": [[9, 1, 1, "", "CleanEmailMapper"]], "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.clean_html_mapper": [[9, 1, 1, "", "CleanHtmlMapper"]], "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.clean_ip_mapper": [[9, 1, 1, "", "CleanIpMapper"]], "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.clean_links_mapper": [[9, 1, 1, "", "CleanLinksMapper"]], "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.expand_macro_mapper": [[9, 1, 1, "", "ExpandMacroMapper"]], "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.fix_unicode_mapper": [[9, 1, 1, "", "FixUnicodeMapper"]], "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.punctuation_normalization_mapper": [[9, 1, 1, "", "PunctuationNormalizationMapper"]], "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_bibliography_mapper": [[9, 1, 1, "", "RemoveBibliographyMapper"]], "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_comments_mapper": [[9, 1, 1, "", "RemoveCommentsMapper"]], "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_header_mapper": [[9, 1, 1, "", "RemoveHeaderMapper"]], "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_long_words_mapper": [[9, 1, 1, "", "RemoveLongWordsMapper"]], "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper": [[9, 2, 1, "", "process"], [9, 2, 1, "", "should_keep_long_word"]], "data_juicer.ops.mapper.remove_specific_chars_mapper": [[9, 1, 1, "", "RemoveSpecificCharsMapper"]], "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_table_text_mapper": [[9, 1, 1, "", "RemoveTableTextMapper"]], "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper": [[9, 1, 1, "", "RemoveWordsWithIncorrectSubstringsMapper"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper": [[9, 2, 1, "", "process"], [9, 2, 1, "", "should_keep_word_with_incorrect_substrings"]], "data_juicer.ops.mapper.sentence_split_mapper": [[9, 1, 1, "", "SentenceSplitMapper"]], "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.whitespace_normalization_mapper": [[9, 1, 1, "", "WhitespaceNormalizationMapper"]], "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.selector": [[10, 0, 0, "-", "frequency_specified_field_selector"], [10, 0, 0, "-", "topk_specified_field_selector"]], "data_juicer.ops.selector.frequency_specified_field_selector": [[10, 1, 1, "", "FrequencySpecifiedFieldSelector"]], "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector": [[10, 2, 1, "", "process"]], "data_juicer.ops.selector.topk_specified_field_selector": [[10, 1, 1, "", "TopkSpecifiedFieldSelector"], [10, 3, 1, "", "to_number"]], "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector": [[10, 2, 1, "", "process"]], "data_juicer.utils": [[11, 0, 0, "-", "asset_utils"], [11, 0, 0, "-", "cache_utils"], [11, 0, 0, "-", "ckpt_utils"], [11, 0, 0, "-", "file_utils"], [11, 0, 0, "-", "logger_utils"], [11, 0, 0, "-", "model_utils"], [11, 0, 0, "-", "registry"]], "data_juicer.utils.asset_utils": [[11, 3, 1, "", "load_words_asset"]], "data_juicer.utils.ckpt_utils": [[11, 1, 1, "", "CheckpointManager"]], "data_juicer.utils.ckpt_utils.CheckpointManager": [[11, 2, 1, "", "check_ckpt"], [11, 2, 1, "", "check_ops_to_skip"], [11, 2, 1, "", "get_left_process_list"], [11, 2, 1, "", "load_ckpt"], [11, 2, 1, "", "record"], [11, 2, 1, "", "save_ckpt"]], "data_juicer.utils.file_utils": [[11, 3, 1, "", "find_files_with_suffix"], [11, 3, 1, "", "is_absolute_path"]], "data_juicer.utils.logger_utils": [[11, 1, 1, "", "HiddenPrints"], [11, 1, 1, "", "StreamToLoguru"], [11, 3, 1, "", "get_caller_name"], [11, 3, 1, "", "get_log_file_path"], [11, 3, 1, "", "redirect_sys_output"], [11, 3, 1, "", "setup_logger"]], "data_juicer.utils.logger_utils.StreamToLoguru": [[11, 2, 1, "", "flush"], [11, 2, 1, "", "write"]], "data_juicer.utils.model_utils": [[11, 3, 1, "", "check_model"], [11, 3, 1, "", "get_model"], [11, 3, 1, "", "prepare_diversity_model"], [11, 3, 1, "", "prepare_fasttext_model"], [11, 3, 1, "", "prepare_huggingface_tokenizer"], [11, 3, 1, "", "prepare_kenlm_model"], [11, 3, 1, "", "prepare_model"], [11, 3, 1, "", "prepare_nltk_model"], [11, 3, 1, "", "prepare_sentencepiece_model"]], "data_juicer.utils.registry": [[11, 1, 1, "", "Registry"]], "data_juicer.utils.registry.Registry": [[11, 2, 1, "", "get"], [11, 2, 1, "", "list"], [11, 5, 1, "", "modules"], [11, 5, 1, "", "name"], [11, 2, 1, "", "register_module"]]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:method", "3": "py:function", "4": "py:attribute", "5": "py:property"}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "method", "Python method"], "3": ["py", "function", "Python function"], "4": ["py", "attribute", "Python attribute"], "5": ["py", "property", "Python property"]}, "titleterms": {"data_juic": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13], "packag": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], "subpackag": [0, 5], "modul": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], "content": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], "analysi": 1, "submodul": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], "column_wise_analysi": 1, "diversity_analysi": 1, "overall_analysi": 1, "config": 2, "core": 3, "analys": 3, "data": [3, 12], "executor": 3, "export": 3, "tracer": 3, "format": 4, "csv_formatt": 4, "formatt": 4, "json_formatt": 4, "load": [4, 5], "mixture_formatt": 4, "parquet_formatt": 4, "text_formatt": 4, "tsv_formatt": 4, "op": [5, 6, 7, 8, 9, 10], "base_op": 5, "common": 6, "helper_func": 6, "special_charact": 6, "dedupl": 7, "document_dedupl": 7, "document_minhash_dedupl": 7, "document_simhash_dedupl": 7, "filter": 8, "alphanumeric_filt": 8, "average_line_length_filt": 8, "character_repetition_filt": 8, "flagged_words_filt": 8, "language_id_score_filt": 8, "maximum_line_length_filt": 8, "perplexity_filt": 8, "special_characters_filt": 8, "specified_field_filt": 8, "specified_numeric_field_filt": 8, "stopwords_filt": 8, "suffix_filt": 8, "text_length_filt": 8, "word_num_filt": 8, "word_repetition_filt": 8, "mapper": 9, "clean_copyright_mapp": 9, "clean_email_mapp": 9, "clean_html_mapp": 9, "clean_ip_mapp": 9, "clean_links_mapp": 9, "expand_macro_mapp": 9, "fix_unicode_mapp": 9, "punctuation_normalization_mapp": 9, "remove_bibliography_mapp": 9, "remove_comments_mapp": 9, "remove_header_mapp": 9, "remove_long_words_mapp": 9, "remove_specific_chars_mapp": 9, "remove_table_text_mapp": 9, "remove_words_with_incorrect_substrings_mapp": 9, "sentence_split_mapp": 9, "whitespace_normalization_mapp": 9, "selector": 10, "frequency_specified_field_selector": 10, "topk_specified_field_selector": 10, "util": 11, "asset_util": 11, "cache_util": 11, "ckpt_util": 11, "file_util": 11, "logger_util": 11, "model_util": 11, "registri": 11, "welcom": 12, "juicer": 12, "": 12, "document": 12, "indic": 12, "tabl": 12}, "envversion": {"sphinx.domains.c": 3, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 9, "sphinx.domains.index": 1, "sphinx.domains.javascript": 3, "sphinx.domains.math": 2, "sphinx.domains.python": 4, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.viewcode": 1, "sphinx": 58}, "alltitles": {"data_juicer package": [[0, "data-juicer-package"]], "Subpackages": [[0, "subpackages"], [5, "subpackages"]], "Module contents": [[0, "module-data_juicer"], [1, "module-data_juicer.analysis"], [2, "module-data_juicer.config"], [3, "module-data_juicer.core"], [4, "module-data_juicer.format"], [5, "module-data_juicer.ops"], [6, "module-data_juicer.ops.common"], [7, "module-data_juicer.ops.deduplicator"], [8, "module-data_juicer.ops.filter"], [9, "module-data_juicer.ops.mapper"], [10, "module-data_juicer.ops.selector"], [11, "module-data_juicer.utils"]], "data_juicer.analysis package": [[1, "data-juicer-analysis-package"]], "Submodules": [[1, "submodules"], [2, "submodules"], [3, "submodules"], [4, "submodules"], [5, "submodules"], [6, "submodules"], [7, "submodules"], [8, "submodules"], [9, "submodules"], [10, "submodules"], [11, "submodules"]], "data_juicer.analysis.column_wise_analysis module": [[1, "module-data_juicer.analysis.column_wise_analysis"]], "data_juicer.analysis.diversity_analysis module": [[1, "module-data_juicer.analysis.diversity_analysis"]], "data_juicer.analysis.overall_analysis module": [[1, "module-data_juicer.analysis.overall_analysis"]], "data_juicer.config package": [[2, "data-juicer-config-package"]], "data_juicer.config.config module": [[2, "module-data_juicer.config.config"]], "data_juicer.core package": [[3, "data-juicer-core-package"]], "data_juicer.core.analyser module": [[3, "module-data_juicer.core.analyser"]], "data_juicer.core.data module": [[3, "module-data_juicer.core.data"]], "data_juicer.core.executor module": [[3, "module-data_juicer.core.executor"]], "data_juicer.core.exporter module": [[3, "module-data_juicer.core.exporter"]], "data_juicer.core.tracer module": [[3, "module-data_juicer.core.tracer"]], "data_juicer.format package": [[4, "data-juicer-format-package"]], "data_juicer.format.csv_formatter module": [[4, "module-data_juicer.format.csv_formatter"]], "data_juicer.format.formatter module": [[4, "module-data_juicer.format.formatter"]], "data_juicer.format.json_formatter module": [[4, "module-data_juicer.format.json_formatter"]], "data_juicer.format.load module": [[4, "module-data_juicer.format.load"]], "data_juicer.format.mixture_formatter module": [[4, "module-data_juicer.format.mixture_formatter"]], "data_juicer.format.parquet_formatter module": [[4, "module-data_juicer.format.parquet_formatter"]], "data_juicer.format.text_formatter module": [[4, "module-data_juicer.format.text_formatter"]], "data_juicer.format.tsv_formatter module": [[4, "module-data_juicer.format.tsv_formatter"]], "data_juicer.ops package": [[5, "data-juicer-ops-package"]], "data_juicer.ops.base_op module": [[5, "module-data_juicer.ops.base_op"]], "data_juicer.ops.load module": [[5, "module-data_juicer.ops.load"]], "data_juicer.ops.common package": [[6, "data-juicer-ops-common-package"]], "data_juicer.ops.common.helper_func module": [[6, "module-data_juicer.ops.common.helper_func"]], "data_juicer.ops.common.special_characters module": [[6, "module-data_juicer.ops.common.special_characters"]], "data_juicer.ops.deduplicator package": [[7, "data-juicer-ops-deduplicator-package"]], "data_juicer.ops.deduplicator.document_deduplicator module": [[7, "module-data_juicer.ops.deduplicator.document_deduplicator"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator module": [[7, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator module": [[7, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator"]], "data_juicer.ops.filter package": [[8, "data-juicer-ops-filter-package"]], "data_juicer.ops.filter.alphanumeric_filter module": [[8, "module-data_juicer.ops.filter.alphanumeric_filter"]], "data_juicer.ops.filter.average_line_length_filter module": [[8, "module-data_juicer.ops.filter.average_line_length_filter"]], "data_juicer.ops.filter.character_repetition_filter module": [[8, "module-data_juicer.ops.filter.character_repetition_filter"]], "data_juicer.ops.filter.flagged_words_filter module": [[8, "module-data_juicer.ops.filter.flagged_words_filter"]], "data_juicer.ops.filter.language_id_score_filter module": [[8, "module-data_juicer.ops.filter.language_id_score_filter"]], "data_juicer.ops.filter.maximum_line_length_filter module": [[8, "module-data_juicer.ops.filter.maximum_line_length_filter"]], "data_juicer.ops.filter.perplexity_filter module": [[8, "module-data_juicer.ops.filter.perplexity_filter"]], "data_juicer.ops.filter.special_characters_filter module": [[8, "module-data_juicer.ops.filter.special_characters_filter"]], "data_juicer.ops.filter.specified_field_filter module": [[8, "module-data_juicer.ops.filter.specified_field_filter"]], "data_juicer.ops.filter.specified_numeric_field_filter module": [[8, "module-data_juicer.ops.filter.specified_numeric_field_filter"]], "data_juicer.ops.filter.stopwords_filter module": [[8, "module-data_juicer.ops.filter.stopwords_filter"]], "data_juicer.ops.filter.suffix_filter module": [[8, "module-data_juicer.ops.filter.suffix_filter"]], "data_juicer.ops.filter.text_length_filter module": [[8, "module-data_juicer.ops.filter.text_length_filter"]], "data_juicer.ops.filter.word_num_filter module": [[8, "module-data_juicer.ops.filter.word_num_filter"]], "data_juicer.ops.filter.word_repetition_filter module": [[8, "module-data_juicer.ops.filter.word_repetition_filter"]], "data_juicer.ops.mapper package": [[9, "data-juicer-ops-mapper-package"]], "data_juicer.ops.mapper.clean_copyright_mapper module": [[9, "module-data_juicer.ops.mapper.clean_copyright_mapper"]], "data_juicer.ops.mapper.clean_email_mapper module": [[9, "module-data_juicer.ops.mapper.clean_email_mapper"]], "data_juicer.ops.mapper.clean_html_mapper module": [[9, "module-data_juicer.ops.mapper.clean_html_mapper"]], "data_juicer.ops.mapper.clean_ip_mapper module": [[9, "module-data_juicer.ops.mapper.clean_ip_mapper"]], "data_juicer.ops.mapper.clean_links_mapper module": [[9, "module-data_juicer.ops.mapper.clean_links_mapper"]], "data_juicer.ops.mapper.expand_macro_mapper module": [[9, "module-data_juicer.ops.mapper.expand_macro_mapper"]], "data_juicer.ops.mapper.fix_unicode_mapper module": [[9, "module-data_juicer.ops.mapper.fix_unicode_mapper"]], "data_juicer.ops.mapper.punctuation_normalization_mapper module": [[9, "module-data_juicer.ops.mapper.punctuation_normalization_mapper"]], "data_juicer.ops.mapper.remove_bibliography_mapper module": [[9, "module-data_juicer.ops.mapper.remove_bibliography_mapper"]], "data_juicer.ops.mapper.remove_comments_mapper module": [[9, "module-data_juicer.ops.mapper.remove_comments_mapper"]], "data_juicer.ops.mapper.remove_header_mapper module": [[9, "module-data_juicer.ops.mapper.remove_header_mapper"]], "data_juicer.ops.mapper.remove_long_words_mapper module": [[9, "module-data_juicer.ops.mapper.remove_long_words_mapper"]], "data_juicer.ops.mapper.remove_specific_chars_mapper module": [[9, "module-data_juicer.ops.mapper.remove_specific_chars_mapper"]], "data_juicer.ops.mapper.remove_table_text_mapper module": [[9, "module-data_juicer.ops.mapper.remove_table_text_mapper"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module": [[9, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper"]], "data_juicer.ops.mapper.sentence_split_mapper module": [[9, "module-data_juicer.ops.mapper.sentence_split_mapper"]], "data_juicer.ops.mapper.whitespace_normalization_mapper module": [[9, "module-data_juicer.ops.mapper.whitespace_normalization_mapper"]], "data_juicer.ops.selector package": [[10, "data-juicer-ops-selector-package"]], "data_juicer.ops.selector.frequency_specified_field_selector module": [[10, "module-data_juicer.ops.selector.frequency_specified_field_selector"]], "data_juicer.ops.selector.topk_specified_field_selector module": [[10, "module-data_juicer.ops.selector.topk_specified_field_selector"]], "data_juicer.utils package": [[11, "data-juicer-utils-package"]], "data_juicer.utils.asset_utils module": [[11, "module-data_juicer.utils.asset_utils"]], "data_juicer.utils.cache_utils module": [[11, "module-data_juicer.utils.cache_utils"]], "data_juicer.utils.ckpt_utils module": [[11, "module-data_juicer.utils.ckpt_utils"]], "data_juicer.utils.file_utils module": [[11, "module-data_juicer.utils.file_utils"]], "data_juicer.utils.logger_utils module": [[11, "module-data_juicer.utils.logger_utils"]], "data_juicer.utils.model_utils module": [[11, "module-data_juicer.utils.model_utils"]], "data_juicer.utils.registry module": [[11, "module-data_juicer.utils.registry"]], "Welcome to data-juicer\u2019s documentation!": [[12, "welcome-to-data-juicer-s-documentation"]], "data_juicer": [[12, "data-juicer"], [13, "data-juicer"]], "Indices and tables": [[12, "indices-and-tables"]]}, "indexentries": {"data_juicer": [[0, "module-data_juicer"]], "module": [[0, "module-data_juicer"], [1, "module-data_juicer.analysis"], [1, "module-data_juicer.analysis.column_wise_analysis"], [1, "module-data_juicer.analysis.diversity_analysis"], [1, "module-data_juicer.analysis.overall_analysis"], [2, "module-data_juicer.config"], [2, "module-data_juicer.config.config"], [3, "module-data_juicer.core"], [3, "module-data_juicer.core.analyser"], [3, "module-data_juicer.core.data"], [3, "module-data_juicer.core.executor"], [3, "module-data_juicer.core.exporter"], [3, "module-data_juicer.core.tracer"], [4, "module-data_juicer.format"], [4, "module-data_juicer.format.csv_formatter"], [4, "module-data_juicer.format.formatter"], [4, "module-data_juicer.format.json_formatter"], [4, "module-data_juicer.format.load"], [4, "module-data_juicer.format.mixture_formatter"], [4, "module-data_juicer.format.parquet_formatter"], [4, "module-data_juicer.format.text_formatter"], [4, "module-data_juicer.format.tsv_formatter"], [5, "module-data_juicer.ops"], [5, "module-data_juicer.ops.base_op"], [5, "module-data_juicer.ops.load"], [6, "module-data_juicer.ops.common"], [6, "module-data_juicer.ops.common.helper_func"], [6, "module-data_juicer.ops.common.special_characters"], [7, "module-data_juicer.ops.deduplicator"], [7, "module-data_juicer.ops.deduplicator.document_deduplicator"], [7, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator"], [7, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator"], [8, "module-data_juicer.ops.filter"], [8, "module-data_juicer.ops.filter.alphanumeric_filter"], [8, "module-data_juicer.ops.filter.average_line_length_filter"], [8, "module-data_juicer.ops.filter.character_repetition_filter"], [8, "module-data_juicer.ops.filter.flagged_words_filter"], [8, "module-data_juicer.ops.filter.language_id_score_filter"], [8, "module-data_juicer.ops.filter.maximum_line_length_filter"], [8, "module-data_juicer.ops.filter.perplexity_filter"], [8, "module-data_juicer.ops.filter.special_characters_filter"], [8, "module-data_juicer.ops.filter.specified_field_filter"], [8, "module-data_juicer.ops.filter.specified_numeric_field_filter"], [8, "module-data_juicer.ops.filter.stopwords_filter"], [8, "module-data_juicer.ops.filter.suffix_filter"], [8, "module-data_juicer.ops.filter.text_length_filter"], [8, "module-data_juicer.ops.filter.word_num_filter"], [8, "module-data_juicer.ops.filter.word_repetition_filter"], [9, "module-data_juicer.ops.mapper"], [9, "module-data_juicer.ops.mapper.clean_copyright_mapper"], [9, "module-data_juicer.ops.mapper.clean_email_mapper"], [9, "module-data_juicer.ops.mapper.clean_html_mapper"], [9, "module-data_juicer.ops.mapper.clean_ip_mapper"], [9, "module-data_juicer.ops.mapper.clean_links_mapper"], [9, "module-data_juicer.ops.mapper.expand_macro_mapper"], [9, "module-data_juicer.ops.mapper.fix_unicode_mapper"], [9, "module-data_juicer.ops.mapper.punctuation_normalization_mapper"], [9, "module-data_juicer.ops.mapper.remove_bibliography_mapper"], [9, "module-data_juicer.ops.mapper.remove_comments_mapper"], [9, "module-data_juicer.ops.mapper.remove_header_mapper"], [9, "module-data_juicer.ops.mapper.remove_long_words_mapper"], [9, "module-data_juicer.ops.mapper.remove_specific_chars_mapper"], [9, "module-data_juicer.ops.mapper.remove_table_text_mapper"], [9, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper"], [9, "module-data_juicer.ops.mapper.sentence_split_mapper"], [9, "module-data_juicer.ops.mapper.whitespace_normalization_mapper"], [10, "module-data_juicer.ops.selector"], [10, "module-data_juicer.ops.selector.frequency_specified_field_selector"], [10, "module-data_juicer.ops.selector.topk_specified_field_selector"], [11, "module-data_juicer.utils"], [11, "module-data_juicer.utils.asset_utils"], [11, "module-data_juicer.utils.cache_utils"], [11, "module-data_juicer.utils.ckpt_utils"], [11, "module-data_juicer.utils.file_utils"], [11, "module-data_juicer.utils.logger_utils"], [11, "module-data_juicer.utils.model_utils"], [11, "module-data_juicer.utils.registry"]], "columnwiseanalysis (class in data_juicer.analysis.column_wise_analysis)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis"]], "diversityanalysis (class in data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis"]], "overallanalysis (class in data_juicer.analysis.overall_analysis)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis"]], "analyse() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyse"]], "analyse() (data_juicer.analysis.diversity_analysis.diversityanalysis method)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyse"]], "analyse() (data_juicer.analysis.overall_analysis.overallanalysis method)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis.analyse"]], "compute() (data_juicer.analysis.diversity_analysis.diversityanalysis method)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute"]], "data_juicer.analysis": [[1, "module-data_juicer.analysis"]], "data_juicer.analysis.column_wise_analysis": [[1, "module-data_juicer.analysis.column_wise_analysis"]], "data_juicer.analysis.diversity_analysis": [[1, "module-data_juicer.analysis.diversity_analysis"]], "data_juicer.analysis.overall_analysis": [[1, "module-data_juicer.analysis.overall_analysis"]], "draw_box() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box"]], "draw_hist() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist"]], "find_root_verb_and_its_dobj() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj"]], "find_root_verb_and_its_dobj_in_string() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string"]], "get_diversity() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.get_diversity"]], "get_row_col() (in module data_juicer.analysis.column_wise_analysis)": [[1, "data_juicer.analysis.column_wise_analysis.get_row_col"]], "config_backup() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.config_backup"]], "data_juicer.config": [[2, "module-data_juicer.config"]], "data_juicer.config.config": [[2, "module-data_juicer.config.config"]], "display_config() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.display_config"]], "init_configs() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.init_configs"]], "init_setup_from_cfg() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.init_setup_from_cfg"]], "sort_op_by_types_and_names() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.sort_op_by_types_and_names"]], "analyser (class in data_juicer.core.analyser)": [[3, "data_juicer.core.analyser.Analyser"]], "executor (class in data_juicer.core.executor)": [[3, "data_juicer.core.executor.Executor"]], "exporter (class in data_juicer.core.exporter)": [[3, "data_juicer.core.exporter.Exporter"]], "gib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.GiB"]], "kib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.KiB"]], "mib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.MiB"]], "nesteddataset (class in data_juicer.core.data)": [[3, "data_juicer.core.data.NestedDataset"]], "nesteddatasetdict (class in data_juicer.core.data)": [[3, "data_juicer.core.data.NestedDatasetDict"]], "nestedquerydict (class in data_juicer.core.data)": [[3, "data_juicer.core.data.NestedQueryDict"]], "tib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.TiB"]], "tracer (class in data_juicer.core.tracer)": [[3, "data_juicer.core.tracer.Tracer"]], "add_column() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.add_column"]], "cleanup_cache_files() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.cleanup_cache_files"]], "data_juicer.core": [[3, "module-data_juicer.core"]], "data_juicer.core.analyser": [[3, "module-data_juicer.core.analyser"]], "data_juicer.core.data": [[3, "module-data_juicer.core.data"]], "data_juicer.core.executor": [[3, "module-data_juicer.core.executor"]], "data_juicer.core.exporter": [[3, "module-data_juicer.core.exporter"]], "data_juicer.core.tracer": [[3, "module-data_juicer.core.tracer"]], "export() (data_juicer.core.exporter.exporter method)": [[3, "data_juicer.core.exporter.Exporter.export"]], "filter() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.filter"]], "from_dict() (data_juicer.core.data.nesteddataset class method)": [[3, "data_juicer.core.data.NestedDataset.from_dict"]], "map() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.map"]], "map() (data_juicer.core.data.nesteddatasetdict method)": [[3, "data_juicer.core.data.NestedDatasetDict.map"]], "nested_obj_factory() (in module data_juicer.core.data)": [[3, "data_juicer.core.data.nested_obj_factory"]], "nested_query() (in module data_juicer.core.data)": [[3, "data_juicer.core.data.nested_query"]], "remove_columns() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.remove_columns"]], "run() (data_juicer.core.analyser.analyser method)": [[3, "data_juicer.core.analyser.Analyser.run"]], "run() (data_juicer.core.executor.executor method)": [[3, "data_juicer.core.executor.Executor.run"]], "select() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.select"]], "select_columns() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.select_columns"]], "to_jsonl() (data_juicer.core.exporter.exporter static method)": [[3, "data_juicer.core.exporter.Exporter.to_jsonl"]], "to_parquet() (data_juicer.core.exporter.exporter static method)": [[3, "data_juicer.core.exporter.Exporter.to_parquet"]], "trace_batch_mapper() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_batch_mapper"]], "trace_deduplicator() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_deduplicator"]], "trace_filter() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_filter"]], "trace_mapper() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_mapper"]], "wrap_func_with_nested_access() (in module data_juicer.core.data)": [[3, "data_juicer.core.data.wrap_func_with_nested_access"]], "baseformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.BaseFormatter"]], "csvformatter (class in data_juicer.format.csv_formatter)": [[4, "data_juicer.format.csv_formatter.CsvFormatter"]], "jsonformatter (class in data_juicer.format.json_formatter)": [[4, "data_juicer.format.json_formatter.JsonFormatter"]], "localformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.LocalFormatter"]], "mixtureformatter (class in data_juicer.format.mixture_formatter)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter"]], "parquetformatter (class in data_juicer.format.parquet_formatter)": [[4, "data_juicer.format.parquet_formatter.ParquetFormatter"]], "remoteformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.RemoteFormatter"]], "suffixes (data_juicer.format.csv_formatter.csvformatter attribute)": [[4, "data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES"]], "suffixes (data_juicer.format.json_formatter.jsonformatter attribute)": [[4, "data_juicer.format.json_formatter.JsonFormatter.SUFFIXES"]], "suffixes (data_juicer.format.parquet_formatter.parquetformatter attribute)": [[4, "data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES"]], "suffixes (data_juicer.format.text_formatter.textformatter attribute)": [[4, "data_juicer.format.text_formatter.TextFormatter.SUFFIXES"]], "suffixes (data_juicer.format.tsv_formatter.tsvformatter attribute)": [[4, "data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES"]], "textformatter (class in data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.TextFormatter"]], "tsvformatter (class in data_juicer.format.tsv_formatter)": [[4, "data_juicer.format.tsv_formatter.TsvFormatter"]], "add_suffixes() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.add_suffixes"]], "data_juicer.format": [[4, "module-data_juicer.format"]], "data_juicer.format.csv_formatter": [[4, "module-data_juicer.format.csv_formatter"]], "data_juicer.format.formatter": [[4, "module-data_juicer.format.formatter"]], "data_juicer.format.json_formatter": [[4, "module-data_juicer.format.json_formatter"]], "data_juicer.format.load": [[4, "module-data_juicer.format.load"]], "data_juicer.format.mixture_formatter": [[4, "module-data_juicer.format.mixture_formatter"]], "data_juicer.format.parquet_formatter": [[4, "module-data_juicer.format.parquet_formatter"]], "data_juicer.format.text_formatter": [[4, "module-data_juicer.format.text_formatter"]], "data_juicer.format.tsv_formatter": [[4, "module-data_juicer.format.tsv_formatter"]], "extract_txt_from_docx() (in module data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.extract_txt_from_docx"]], "extract_txt_from_pdf() (in module data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.extract_txt_from_pdf"]], "load_dataset() (data_juicer.format.formatter.baseformatter method)": [[4, "data_juicer.format.formatter.BaseFormatter.load_dataset"]], "load_dataset() (data_juicer.format.formatter.localformatter method)": [[4, "data_juicer.format.formatter.LocalFormatter.load_dataset"]], "load_dataset() (data_juicer.format.formatter.remoteformatter method)": [[4, "data_juicer.format.formatter.RemoteFormatter.load_dataset"]], "load_dataset() (data_juicer.format.mixture_formatter.mixtureformatter method)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset"]], "load_dataset() (data_juicer.format.text_formatter.textformatter method)": [[4, "data_juicer.format.text_formatter.TextFormatter.load_dataset"]], "load_formatter() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.load_formatter"]], "load_formatter() (in module data_juicer.format.load)": [[4, "data_juicer.format.load.load_formatter"]], "unify_format() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.unify_format"]], "deduplicator (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Deduplicator"]], "filter (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Filter"]], "mapper (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Mapper"]], "selector (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Selector"]], "compute_hash() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.compute_hash"]], "compute_stats() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.compute_stats"]], "data_juicer.ops": [[5, "module-data_juicer.ops"]], "data_juicer.ops.base_op": [[5, "module-data_juicer.ops.base_op"]], "data_juicer.ops.load": [[5, "module-data_juicer.ops.load"]], "is_batched_op() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.is_batched_op"]], "load_ops() (in module data_juicer.ops.load)": [[5, "data_juicer.ops.load.load_ops"]], "process() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.process"]], "process() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.process"]], "process() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.process"]], "process() (data_juicer.ops.base_op.selector method)": [[5, "data_juicer.ops.base_op.Selector.process"]], "unionfind (class in data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.UnionFind"]], "data_juicer.ops.common": [[6, "module-data_juicer.ops.common"]], "data_juicer.ops.common.helper_func": [[6, "module-data_juicer.ops.common.helper_func"]], "data_juicer.ops.common.special_characters": [[6, "module-data_juicer.ops.common.special_characters"]], "find() (data_juicer.ops.common.helper_func.unionfind method)": [[6, "data_juicer.ops.common.helper_func.UnionFind.find"]], "get_sentences_from_document() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.get_sentences_from_document"]], "get_words_from_document() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.get_words_from_document"]], "merge_on_whitespace_tab_newline() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline"]], "split_on_newline_tab_whitespace() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace"]], "split_on_whitespace() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.split_on_whitespace"]], "strip() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.strip"]], "union() (data_juicer.ops.common.helper_func.unionfind method)": [[6, "data_juicer.ops.common.helper_func.UnionFind.union"]], "words_augmentation() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.words_augmentation"]], "words_refinement() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.words_refinement"]], "documentdeduplicator (class in data_juicer.ops.deduplicator.document_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator"]], "documentminhashdeduplicator (class in data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator"]], "documentsimhashdeduplicator (class in data_juicer.ops.deduplicator.document_simhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator"]], "compute_hash() (data_juicer.ops.deduplicator.document_deduplicator.documentdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash"]], "compute_hash() (data_juicer.ops.deduplicator.document_minhash_deduplicator.documentminhashdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash"]], "compute_hash() (data_juicer.ops.deduplicator.document_simhash_deduplicator.documentsimhashdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash"]], "data_juicer.ops.deduplicator": [[7, "module-data_juicer.ops.deduplicator"]], "data_juicer.ops.deduplicator.document_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_deduplicator"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator"]], "local_num_differing_bits() (in module data_juicer.ops.deduplicator.document_simhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.local_num_differing_bits"]], "num_differing_bits_selector() (in module data_juicer.ops.deduplicator.document_simhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.num_differing_bits_selector"]], "optimal_param() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param"]], "process() (data_juicer.ops.deduplicator.document_deduplicator.documentdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process"]], "process() (data_juicer.ops.deduplicator.document_minhash_deduplicator.documentminhashdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process"]], "process() (data_juicer.ops.deduplicator.document_simhash_deduplicator.documentsimhashdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process"]], "sha1_hash32() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32"]], "alphanumericfilter (class in data_juicer.ops.filter.alphanumeric_filter)": [[8, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter"]], "averagelinelengthfilter (class in data_juicer.ops.filter.average_line_length_filter)": [[8, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter"]], "characterrepetitionfilter (class in data_juicer.ops.filter.character_repetition_filter)": [[8, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter"]], "flaggedwordfilter (class in data_juicer.ops.filter.flagged_words_filter)": [[8, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter"]], "languageidscorefilter (class in data_juicer.ops.filter.language_id_score_filter)": [[8, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter"]], "maximumlinelengthfilter (class in data_juicer.ops.filter.maximum_line_length_filter)": [[8, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter"]], "perplexityfilter (class in data_juicer.ops.filter.perplexity_filter)": [[8, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter"]], "specialcharactersfilter (class in data_juicer.ops.filter.special_characters_filter)": [[8, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter"]], "specifiedfieldfilter (class in data_juicer.ops.filter.specified_field_filter)": [[8, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter"]], "specifiednumericfieldfilter (class in data_juicer.ops.filter.specified_numeric_field_filter)": [[8, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter"]], "stopwordsfilter (class in data_juicer.ops.filter.stopwords_filter)": [[8, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter"]], "suffixfilter (class in data_juicer.ops.filter.suffix_filter)": [[8, "data_juicer.ops.filter.suffix_filter.SuffixFilter"]], "textlengthfilter (class in data_juicer.ops.filter.text_length_filter)": [[8, "data_juicer.ops.filter.text_length_filter.TextLengthFilter"]], "wordnumfilter (class in data_juicer.ops.filter.word_num_filter)": [[8, "data_juicer.ops.filter.word_num_filter.WordNumFilter"]], "wordrepetitionfilter (class in data_juicer.ops.filter.word_repetition_filter)": [[8, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter"]], "compute_stats() (data_juicer.ops.filter.alphanumeric_filter.alphanumericfilter method)": [[8, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.average_line_length_filter.averagelinelengthfilter method)": [[8, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.character_repetition_filter.characterrepetitionfilter method)": [[8, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.flagged_words_filter.flaggedwordfilter method)": [[8, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.language_id_score_filter.languageidscorefilter method)": [[8, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.maximum_line_length_filter.maximumlinelengthfilter method)": [[8, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.perplexity_filter.perplexityfilter method)": [[8, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.special_characters_filter.specialcharactersfilter method)": [[8, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.specified_field_filter.specifiedfieldfilter method)": [[8, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.specified_numeric_field_filter.specifiednumericfieldfilter method)": [[8, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.stopwords_filter.stopwordsfilter method)": [[8, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.suffix_filter.suffixfilter method)": [[8, "data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.text_length_filter.textlengthfilter method)": [[8, "data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.word_num_filter.wordnumfilter method)": [[8, "data_juicer.ops.filter.word_num_filter.WordNumFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.word_repetition_filter.wordrepetitionfilter method)": [[8, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats"]], "data_juicer.ops.filter": [[8, "module-data_juicer.ops.filter"]], "data_juicer.ops.filter.alphanumeric_filter": [[8, "module-data_juicer.ops.filter.alphanumeric_filter"]], "data_juicer.ops.filter.average_line_length_filter": [[8, "module-data_juicer.ops.filter.average_line_length_filter"]], "data_juicer.ops.filter.character_repetition_filter": [[8, "module-data_juicer.ops.filter.character_repetition_filter"]], "data_juicer.ops.filter.flagged_words_filter": [[8, "module-data_juicer.ops.filter.flagged_words_filter"]], "data_juicer.ops.filter.language_id_score_filter": [[8, "module-data_juicer.ops.filter.language_id_score_filter"]], "data_juicer.ops.filter.maximum_line_length_filter": [[8, "module-data_juicer.ops.filter.maximum_line_length_filter"]], "data_juicer.ops.filter.perplexity_filter": [[8, "module-data_juicer.ops.filter.perplexity_filter"]], "data_juicer.ops.filter.special_characters_filter": [[8, "module-data_juicer.ops.filter.special_characters_filter"]], "data_juicer.ops.filter.specified_field_filter": [[8, "module-data_juicer.ops.filter.specified_field_filter"]], "data_juicer.ops.filter.specified_numeric_field_filter": [[8, "module-data_juicer.ops.filter.specified_numeric_field_filter"]], "data_juicer.ops.filter.stopwords_filter": [[8, "module-data_juicer.ops.filter.stopwords_filter"]], "data_juicer.ops.filter.suffix_filter": [[8, "module-data_juicer.ops.filter.suffix_filter"]], "data_juicer.ops.filter.text_length_filter": [[8, "module-data_juicer.ops.filter.text_length_filter"]], "data_juicer.ops.filter.word_num_filter": [[8, "module-data_juicer.ops.filter.word_num_filter"]], "data_juicer.ops.filter.word_repetition_filter": [[8, "module-data_juicer.ops.filter.word_repetition_filter"]], "is_number() (in module data_juicer.ops.filter.specified_numeric_field_filter)": [[8, "data_juicer.ops.filter.specified_numeric_field_filter.is_number"]], "process() (data_juicer.ops.filter.alphanumeric_filter.alphanumericfilter method)": [[8, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process"]], "process() (data_juicer.ops.filter.average_line_length_filter.averagelinelengthfilter method)": [[8, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process"]], "process() (data_juicer.ops.filter.character_repetition_filter.characterrepetitionfilter method)": [[8, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process"]], "process() (data_juicer.ops.filter.flagged_words_filter.flaggedwordfilter method)": [[8, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process"]], "process() (data_juicer.ops.filter.language_id_score_filter.languageidscorefilter method)": [[8, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process"]], "process() (data_juicer.ops.filter.maximum_line_length_filter.maximumlinelengthfilter method)": [[8, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process"]], "process() (data_juicer.ops.filter.perplexity_filter.perplexityfilter method)": [[8, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process"]], "process() (data_juicer.ops.filter.special_characters_filter.specialcharactersfilter method)": [[8, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process"]], "process() (data_juicer.ops.filter.specified_field_filter.specifiedfieldfilter method)": [[8, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process"]], "process() (data_juicer.ops.filter.specified_numeric_field_filter.specifiednumericfieldfilter method)": [[8, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process"]], "process() (data_juicer.ops.filter.stopwords_filter.stopwordsfilter method)": [[8, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process"]], "process() (data_juicer.ops.filter.suffix_filter.suffixfilter method)": [[8, "data_juicer.ops.filter.suffix_filter.SuffixFilter.process"]], "process() (data_juicer.ops.filter.text_length_filter.textlengthfilter method)": [[8, "data_juicer.ops.filter.text_length_filter.TextLengthFilter.process"]], "process() (data_juicer.ops.filter.word_num_filter.wordnumfilter method)": [[8, "data_juicer.ops.filter.word_num_filter.WordNumFilter.process"]], "process() (data_juicer.ops.filter.word_repetition_filter.wordrepetitionfilter method)": [[8, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process"]], "cleancopyrightmapper (class in data_juicer.ops.mapper.clean_copyright_mapper)": [[9, "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper"]], "cleanemailmapper (class in data_juicer.ops.mapper.clean_email_mapper)": [[9, "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper"]], "cleanhtmlmapper (class in data_juicer.ops.mapper.clean_html_mapper)": [[9, "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper"]], "cleanipmapper (class in data_juicer.ops.mapper.clean_ip_mapper)": [[9, "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper"]], "cleanlinksmapper (class in data_juicer.ops.mapper.clean_links_mapper)": [[9, "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper"]], "expandmacromapper (class in data_juicer.ops.mapper.expand_macro_mapper)": [[9, "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper"]], "fixunicodemapper (class in data_juicer.ops.mapper.fix_unicode_mapper)": [[9, "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper"]], "punctuationnormalizationmapper (class in data_juicer.ops.mapper.punctuation_normalization_mapper)": [[9, "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper"]], "removebibliographymapper (class in data_juicer.ops.mapper.remove_bibliography_mapper)": [[9, "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper"]], "removecommentsmapper (class in data_juicer.ops.mapper.remove_comments_mapper)": [[9, "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper"]], "removeheadermapper (class in data_juicer.ops.mapper.remove_header_mapper)": [[9, "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper"]], "removelongwordsmapper (class in data_juicer.ops.mapper.remove_long_words_mapper)": [[9, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper"]], "removespecificcharsmapper (class in data_juicer.ops.mapper.remove_specific_chars_mapper)": [[9, "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper"]], "removetabletextmapper (class in data_juicer.ops.mapper.remove_table_text_mapper)": [[9, "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper"]], "removewordswithincorrectsubstringsmapper (class in data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper)": [[9, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper"]], "sentencesplitmapper (class in data_juicer.ops.mapper.sentence_split_mapper)": [[9, "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper"]], "whitespacenormalizationmapper (class in data_juicer.ops.mapper.whitespace_normalization_mapper)": [[9, "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper"]], "data_juicer.ops.mapper": [[9, "module-data_juicer.ops.mapper"]], "data_juicer.ops.mapper.clean_copyright_mapper": [[9, "module-data_juicer.ops.mapper.clean_copyright_mapper"]], "data_juicer.ops.mapper.clean_email_mapper": [[9, "module-data_juicer.ops.mapper.clean_email_mapper"]], "data_juicer.ops.mapper.clean_html_mapper": [[9, "module-data_juicer.ops.mapper.clean_html_mapper"]], "data_juicer.ops.mapper.clean_ip_mapper": [[9, "module-data_juicer.ops.mapper.clean_ip_mapper"]], "data_juicer.ops.mapper.clean_links_mapper": [[9, "module-data_juicer.ops.mapper.clean_links_mapper"]], "data_juicer.ops.mapper.expand_macro_mapper": [[9, "module-data_juicer.ops.mapper.expand_macro_mapper"]], "data_juicer.ops.mapper.fix_unicode_mapper": [[9, "module-data_juicer.ops.mapper.fix_unicode_mapper"]], "data_juicer.ops.mapper.punctuation_normalization_mapper": [[9, "module-data_juicer.ops.mapper.punctuation_normalization_mapper"]], "data_juicer.ops.mapper.remove_bibliography_mapper": [[9, "module-data_juicer.ops.mapper.remove_bibliography_mapper"]], "data_juicer.ops.mapper.remove_comments_mapper": [[9, "module-data_juicer.ops.mapper.remove_comments_mapper"]], "data_juicer.ops.mapper.remove_header_mapper": [[9, "module-data_juicer.ops.mapper.remove_header_mapper"]], "data_juicer.ops.mapper.remove_long_words_mapper": [[9, "module-data_juicer.ops.mapper.remove_long_words_mapper"]], "data_juicer.ops.mapper.remove_specific_chars_mapper": [[9, "module-data_juicer.ops.mapper.remove_specific_chars_mapper"]], "data_juicer.ops.mapper.remove_table_text_mapper": [[9, "module-data_juicer.ops.mapper.remove_table_text_mapper"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper": [[9, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper"]], "data_juicer.ops.mapper.sentence_split_mapper": [[9, "module-data_juicer.ops.mapper.sentence_split_mapper"]], "data_juicer.ops.mapper.whitespace_normalization_mapper": [[9, "module-data_juicer.ops.mapper.whitespace_normalization_mapper"]], "process() (data_juicer.ops.mapper.clean_copyright_mapper.cleancopyrightmapper method)": [[9, "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process"]], "process() (data_juicer.ops.mapper.clean_email_mapper.cleanemailmapper method)": [[9, "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process"]], "process() (data_juicer.ops.mapper.clean_html_mapper.cleanhtmlmapper method)": [[9, "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process"]], "process() (data_juicer.ops.mapper.clean_ip_mapper.cleanipmapper method)": [[9, "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process"]], "process() (data_juicer.ops.mapper.clean_links_mapper.cleanlinksmapper method)": [[9, "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process"]], "process() (data_juicer.ops.mapper.expand_macro_mapper.expandmacromapper method)": [[9, "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process"]], "process() (data_juicer.ops.mapper.fix_unicode_mapper.fixunicodemapper method)": [[9, "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process"]], "process() (data_juicer.ops.mapper.punctuation_normalization_mapper.punctuationnormalizationmapper method)": [[9, "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process"]], "process() (data_juicer.ops.mapper.remove_bibliography_mapper.removebibliographymapper method)": [[9, "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process"]], "process() (data_juicer.ops.mapper.remove_comments_mapper.removecommentsmapper method)": [[9, "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process"]], "process() (data_juicer.ops.mapper.remove_header_mapper.removeheadermapper method)": [[9, "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process"]], "process() (data_juicer.ops.mapper.remove_long_words_mapper.removelongwordsmapper method)": [[9, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process"]], "process() (data_juicer.ops.mapper.remove_specific_chars_mapper.removespecificcharsmapper method)": [[9, "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process"]], "process() (data_juicer.ops.mapper.remove_table_text_mapper.removetabletextmapper method)": [[9, "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process"]], "process() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.removewordswithincorrectsubstringsmapper method)": [[9, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process"]], "process() (data_juicer.ops.mapper.sentence_split_mapper.sentencesplitmapper method)": [[9, "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process"]], "process() (data_juicer.ops.mapper.whitespace_normalization_mapper.whitespacenormalizationmapper method)": [[9, "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process"]], "should_keep_long_word() (data_juicer.ops.mapper.remove_long_words_mapper.removelongwordsmapper method)": [[9, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word"]], "should_keep_word_with_incorrect_substrings() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.removewordswithincorrectsubstringsmapper method)": [[9, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"]], "frequencyspecifiedfieldselector (class in data_juicer.ops.selector.frequency_specified_field_selector)": [[10, "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector"]], "topkspecifiedfieldselector (class in data_juicer.ops.selector.topk_specified_field_selector)": [[10, "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector"]], "data_juicer.ops.selector": [[10, "module-data_juicer.ops.selector"]], "data_juicer.ops.selector.frequency_specified_field_selector": [[10, "module-data_juicer.ops.selector.frequency_specified_field_selector"]], "data_juicer.ops.selector.topk_specified_field_selector": [[10, "module-data_juicer.ops.selector.topk_specified_field_selector"]], "process() (data_juicer.ops.selector.frequency_specified_field_selector.frequencyspecifiedfieldselector method)": [[10, "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process"]], "process() (data_juicer.ops.selector.topk_specified_field_selector.topkspecifiedfieldselector method)": [[10, "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process"]], "to_number() (in module data_juicer.ops.selector.topk_specified_field_selector)": [[10, "data_juicer.ops.selector.topk_specified_field_selector.to_number"]], "checkpointmanager (class in data_juicer.utils.ckpt_utils)": [[11, "data_juicer.utils.ckpt_utils.CheckpointManager"]], "hiddenprints (class in data_juicer.utils.logger_utils)": [[11, "data_juicer.utils.logger_utils.HiddenPrints"]], "registry (class in data_juicer.utils.registry)": [[11, "data_juicer.utils.registry.Registry"]], "streamtologuru (class in data_juicer.utils.logger_utils)": [[11, "data_juicer.utils.logger_utils.StreamToLoguru"]], "check_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[11, "data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt"]], "check_model() (in module data_juicer.utils.model_utils)": [[11, "data_juicer.utils.model_utils.check_model"]], "check_ops_to_skip() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[11, "data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip"]], "data_juicer.utils": [[11, "module-data_juicer.utils"]], "data_juicer.utils.asset_utils": [[11, "module-data_juicer.utils.asset_utils"]], "data_juicer.utils.cache_utils": [[11, "module-data_juicer.utils.cache_utils"]], "data_juicer.utils.ckpt_utils": [[11, "module-data_juicer.utils.ckpt_utils"]], "data_juicer.utils.file_utils": [[11, "module-data_juicer.utils.file_utils"]], "data_juicer.utils.logger_utils": [[11, "module-data_juicer.utils.logger_utils"]], "data_juicer.utils.model_utils": [[11, "module-data_juicer.utils.model_utils"]], "data_juicer.utils.registry": [[11, "module-data_juicer.utils.registry"]], "find_files_with_suffix() (in module data_juicer.utils.file_utils)": [[11, "data_juicer.utils.file_utils.find_files_with_suffix"]], "flush() (data_juicer.utils.logger_utils.streamtologuru method)": [[11, "data_juicer.utils.logger_utils.StreamToLoguru.flush"]], "get() (data_juicer.utils.registry.registry method)": [[11, "data_juicer.utils.registry.Registry.get"]], "get_caller_name() (in module data_juicer.utils.logger_utils)": [[11, "data_juicer.utils.logger_utils.get_caller_name"]], "get_left_process_list() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[11, "data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list"]], "get_log_file_path() (in module data_juicer.utils.logger_utils)": [[11, "data_juicer.utils.logger_utils.get_log_file_path"]], "get_model() (in module data_juicer.utils.model_utils)": [[11, "data_juicer.utils.model_utils.get_model"]], "is_absolute_path() (in module data_juicer.utils.file_utils)": [[11, "data_juicer.utils.file_utils.is_absolute_path"]], "list() (data_juicer.utils.registry.registry method)": [[11, "data_juicer.utils.registry.Registry.list"]], "load_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[11, "data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt"]], "load_words_asset() (in module data_juicer.utils.asset_utils)": [[11, "data_juicer.utils.asset_utils.load_words_asset"]], "modules (data_juicer.utils.registry.registry property)": [[11, "data_juicer.utils.registry.Registry.modules"]], "name (data_juicer.utils.registry.registry property)": [[11, "data_juicer.utils.registry.Registry.name"]], "prepare_diversity_model() (in module data_juicer.utils.model_utils)": [[11, "data_juicer.utils.model_utils.prepare_diversity_model"]], "prepare_fasttext_model() (in module data_juicer.utils.model_utils)": [[11, "data_juicer.utils.model_utils.prepare_fasttext_model"]], "prepare_huggingface_tokenizer() (in module data_juicer.utils.model_utils)": [[11, "data_juicer.utils.model_utils.prepare_huggingface_tokenizer"]], "prepare_kenlm_model() (in module data_juicer.utils.model_utils)": [[11, "data_juicer.utils.model_utils.prepare_kenlm_model"]], "prepare_model() (in module data_juicer.utils.model_utils)": [[11, "data_juicer.utils.model_utils.prepare_model"]], "prepare_nltk_model() (in module data_juicer.utils.model_utils)": [[11, "data_juicer.utils.model_utils.prepare_nltk_model"]], "prepare_sentencepiece_model() (in module data_juicer.utils.model_utils)": [[11, "data_juicer.utils.model_utils.prepare_sentencepiece_model"]], "record() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[11, "data_juicer.utils.ckpt_utils.CheckpointManager.record"]], "redirect_sys_output() (in module data_juicer.utils.logger_utils)": [[11, "data_juicer.utils.logger_utils.redirect_sys_output"]], "register_module() (data_juicer.utils.registry.registry method)": [[11, "data_juicer.utils.registry.Registry.register_module"]], "save_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[11, "data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt"]], "setup_logger() (in module data_juicer.utils.logger_utils)": [[11, "data_juicer.utils.logger_utils.setup_logger"]], "write() (data_juicer.utils.logger_utils.streamtologuru method)": [[11, "data_juicer.utils.logger_utils.StreamToLoguru.write"]]}})
\ No newline at end of file
+Search.setIndex({"docnames": ["index", "modules"], "filenames": ["index.rst", "modules.rst"], "titles": ["Welcome to data-juicer\u2019s documentation!", "data_juicer"], "terms": {"index": 0, "modul": 0, "search": 0, "page": 0}, "objects": {}, "objtypes": {}, "objnames": {}, "titleterms": {"welcom": 0, "data": 0, "juicer": 0, "": 0, "document": 0, "data_juic": [0, 1], "indic": 0, "tabl": 0}, "envversion": {"sphinx.domains.c": 3, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 9, "sphinx.domains.index": 1, "sphinx.domains.javascript": 3, "sphinx.domains.math": 2, "sphinx.domains.python": 4, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.viewcode": 1, "sphinx": 58}, "alltitles": {"Welcome to data-juicer\u2019s documentation!": [[0, "welcome-to-data-juicer-s-documentation"]], "data_juicer": [[0, "data-juicer"], [1, "data-juicer"]], "Indices and tables": [[0, "indices-and-tables"]]}, "indexentries": {}})
\ No newline at end of file