diff --git a/.doctrees/data_juicer.analysis.doctree b/.doctrees/data_juicer.analysis.doctree
index d0e773001..177be1c3d 100644
Binary files a/.doctrees/data_juicer.analysis.doctree and b/.doctrees/data_juicer.analysis.doctree differ
diff --git a/.doctrees/data_juicer.core.doctree b/.doctrees/data_juicer.core.doctree
index 3dd2879d4..30eb6af9a 100644
Binary files a/.doctrees/data_juicer.core.doctree and b/.doctrees/data_juicer.core.doctree differ
diff --git a/.doctrees/data_juicer.format.doctree b/.doctrees/data_juicer.format.doctree
index 0d369e7af..a0e703738 100644
Binary files a/.doctrees/data_juicer.format.doctree and b/.doctrees/data_juicer.format.doctree differ
diff --git a/.doctrees/data_juicer.ops.common.doctree b/.doctrees/data_juicer.ops.common.doctree
index 3b3c006f6..bc2074b92 100644
Binary files a/.doctrees/data_juicer.ops.common.doctree and b/.doctrees/data_juicer.ops.common.doctree differ
diff --git a/.doctrees/data_juicer.ops.deduplicator.doctree b/.doctrees/data_juicer.ops.deduplicator.doctree
index e189764b6..304898271 100644
Binary files a/.doctrees/data_juicer.ops.deduplicator.doctree and b/.doctrees/data_juicer.ops.deduplicator.doctree differ
diff --git a/.doctrees/data_juicer.ops.doctree b/.doctrees/data_juicer.ops.doctree
index d0f37495a..3ace95e38 100644
Binary files a/.doctrees/data_juicer.ops.doctree and b/.doctrees/data_juicer.ops.doctree differ
diff --git a/.doctrees/data_juicer.ops.filter.doctree b/.doctrees/data_juicer.ops.filter.doctree
index bb67dc4fa..193ef3ce9 100644
Binary files a/.doctrees/data_juicer.ops.filter.doctree and b/.doctrees/data_juicer.ops.filter.doctree differ
diff --git a/.doctrees/data_juicer.ops.mapper.doctree b/.doctrees/data_juicer.ops.mapper.doctree
index 7f796dd8b..35a03ff5b 100644
Binary files a/.doctrees/data_juicer.ops.mapper.doctree and b/.doctrees/data_juicer.ops.mapper.doctree differ
diff --git a/.doctrees/data_juicer.ops.selector.doctree b/.doctrees/data_juicer.ops.selector.doctree
index cce2ba322..a6c36d698 100644
Binary files a/.doctrees/data_juicer.ops.selector.doctree and b/.doctrees/data_juicer.ops.selector.doctree differ
diff --git a/.doctrees/data_juicer.utils.doctree b/.doctrees/data_juicer.utils.doctree
index fb149ce2e..8b363f6fb 100644
Binary files a/.doctrees/data_juicer.utils.doctree and b/.doctrees/data_juicer.utils.doctree differ
diff --git a/.doctrees/environment.pickle b/.doctrees/environment.pickle
index 77795d23e..5288b3f45 100644
Binary files a/.doctrees/environment.pickle and b/.doctrees/environment.pickle differ
diff --git a/_modules/data_juicer/analysis/column_wise_analysis.html b/_modules/data_juicer/analysis/column_wise_analysis.html
index 9f228513d..f06990850 100644
--- a/_modules/data_juicer/analysis/column_wise_analysis.html
+++ b/_modules/data_juicer/analysis/column_wise_analysis.html
@@ -124,7 +124,7 @@ <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="hi
 <div class="viewcode-block" id="ColumnWiseAnalysis"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis">[docs]</a><span class="k">class</span> <span class="nc">ColumnWiseAnalysis</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Apply analysis on each column of stats respectively.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="ColumnWiseAnalysis.__init__"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">dataset</span><span class="p">,</span>
                  <span class="n">output_path</span><span class="p">,</span>
                  <span class="n">overall_result</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
@@ -148,7 +148,7 @@ <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="hi
             <span class="n">overall_result</span> <span class="o">=</span> <span class="n">oa</span><span class="o">.</span><span class="n">analyse</span><span class="p">()</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">overall_result</span> <span class="o">=</span> <span class="n">overall_result</span>
 
-        <span class="bp">self</span><span class="o">.</span><span class="n">save_stats_in_one_file</span> <span class="o">=</span> <span class="n">save_stats_in_one_file</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">save_stats_in_one_file</span> <span class="o">=</span> <span class="n">save_stats_in_one_file</span></div>
 
 <div class="viewcode-block" id="ColumnWiseAnalysis.analyse"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyse">[docs]</a>    <span class="k">def</span> <span class="nf">analyse</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">show_percentiles</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">show</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/analysis/diversity_analysis.html b/_modules/data_juicer/analysis/diversity_analysis.html
index d6fcd3f5a..c09eae1a7 100644
--- a/_modules/data_juicer/analysis/diversity_analysis.html
+++ b/_modules/data_juicer/analysis/diversity_analysis.html
@@ -157,7 +157,7 @@ <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="high
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Apply diversity analysis for each sample and get an overall analysis</span>
 <span class="sd">    result.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">output_path</span><span class="p">,</span> <span class="n">lang_or_model</span><span class="o">=</span><span class="s1">&#39;en&#39;</span><span class="p">):</span>
+<div class="viewcode-block" id="DiversityAnalysis.__init__"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">output_path</span><span class="p">,</span> <span class="n">lang_or_model</span><span class="o">=</span><span class="s1">&#39;en&#39;</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Initialization method :param dataset: the dataset to be analysed</span>
 <span class="sd">        :param output_path: path to store the analysis results :param</span>
 <span class="sd">        lang_or_model: the diversity model or a specific language used to load</span>
@@ -167,7 +167,7 @@ <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="high
         <span class="bp">self</span><span class="o">.</span><span class="n">output_path</span> <span class="o">=</span> <span class="n">output_path</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">):</span>
             <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">lang_or_model</span> <span class="o">=</span> <span class="n">lang_or_model</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lang_or_model</span> <span class="o">=</span> <span class="n">lang_or_model</span></div>
 
 <div class="viewcode-block" id="DiversityAnalysis.compute"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute">[docs]</a>    <span class="k">def</span> <span class="nf">compute</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">lang_or_model</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">column_name</span><span class="o">=</span><span class="s1">&#39;text&#39;</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/analysis/overall_analysis.html b/_modules/data_juicer/analysis/overall_analysis.html
index 72b9739d1..a0c380a29 100644
--- a/_modules/data_juicer/analysis/overall_analysis.html
+++ b/_modules/data_juicer/analysis/overall_analysis.html
@@ -78,7 +78,7 @@ <h1>Source code for data_juicer.analysis.overall_analysis</h1><div class="highli
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Apply analysis on the overall stats, including mean, std, quantiles,</span>
 <span class="sd">    etc.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">output_path</span><span class="p">):</span>
+<div class="viewcode-block" id="OverallAnalysis.__init__"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">output_path</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -91,7 +91,7 @@ <h1>Source code for data_juicer.analysis.overall_analysis</h1><div class="highli
             <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_path</span><span class="p">)</span>
 
         <span class="c1"># default percentiles to analyse</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">default_percentiles</span> <span class="o">=</span> <span class="p">[</span><span class="mf">0.25</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">,</span> <span class="mf">0.75</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">default_percentiles</span> <span class="o">=</span> <span class="p">[</span><span class="mf">0.25</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">,</span> <span class="mf">0.75</span><span class="p">]</span></div>
 
 <div class="viewcode-block" id="OverallAnalysis.analyse"><a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.analyse">[docs]</a>    <span class="k">def</span> <span class="nf">analyse</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">percentiles</span><span class="o">=</span><span class="p">[]):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/core/analyser.html b/_modules/data_juicer/core/analyser.html
index 127207bd9..6c7bd3ecb 100644
--- a/_modules/data_juicer/core/analyser.html
+++ b/_modules/data_juicer/core/analyser.html
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.core.analyser</h1><div class="highlight"><pre>
 <span class="sd">    dataset better.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<div class="viewcode-block" id="Analyser.__init__"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.analyser.Analyser.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -131,7 +131,7 @@ <h1>Source code for data_juicer.core.analyser</h1><div class="highlight"><pre>
         <span class="c1"># parsed_res</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">overall_result</span> <span class="o">=</span> <span class="kc">None</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">overall_single_plot_path</span> <span class="o">=</span> <span class="kc">None</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">work_dir</span><span class="p">,</span> <span class="s1">&#39;analysis&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">analysis_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">work_dir</span><span class="p">,</span> <span class="s1">&#39;analysis&#39;</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="Analyser.run"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.analyser.Analyser.run">[docs]</a>    <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">load_data_np</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/core/data.html b/_modules/data_juicer/core/data.html
index 045c9b4f6..5a9fa91e6 100644
--- a/_modules/data_juicer/core/data.html
+++ b/_modules/data_juicer/core/data.html
@@ -144,7 +144,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 <div class="viewcode-block" id="NestedQueryDict"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedQueryDict">[docs]</a><span class="k">class</span> <span class="nc">NestedQueryDict</span><span class="p">(</span><span class="nb">dict</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Enhanced dict for better usability.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
+<div class="viewcode-block" id="NestedQueryDict.__init__"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedQueryDict.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">args</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">Dataset</span><span class="p">):</span>
             <span class="c1"># init from another DatasetDict instance</span>
             <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">copy</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">)</span>
@@ -155,7 +155,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
         <span class="c1"># batched sample, (k &amp; v) are organized by list manner</span>
         <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
             <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="nb">list</span><span class="p">)</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">v</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">v</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="nb">dict</span><span class="p">):</span>
-                <span class="bp">self</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">NestedQueryDict</span><span class="p">(</span><span class="n">item</span><span class="p">)</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">v</span><span class="p">]</span>
+                <span class="bp">self</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">NestedQueryDict</span><span class="p">(</span><span class="n">item</span><span class="p">)</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">v</span><span class="p">]</span></div>
 
     <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">nested_query</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">)</span></div>
@@ -164,13 +164,13 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 <div class="viewcode-block" id="NestedDatasetDict"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDatasetDict">[docs]</a><span class="k">class</span> <span class="nc">NestedDatasetDict</span><span class="p">(</span><span class="n">DatasetDict</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Enhanced HuggingFace-DatasetDict for better usability and efficiency.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
+<div class="viewcode-block" id="NestedDatasetDict.__init__"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDatasetDict.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">args</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">Dataset</span><span class="p">):</span>
             <span class="c1"># init from another DatasetDict instance</span>
             <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">copy</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">)</span>
         <span class="k">else</span><span class="p">:</span>
             <span class="c1"># init from scratch</span>
-            <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">)</span>
+            <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">)</span></div>
 
     <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">nested_query</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">)</span>
@@ -189,7 +189,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 <div class="viewcode-block" id="NestedDataset"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset">[docs]</a><span class="k">class</span> <span class="nc">NestedDataset</span><span class="p">(</span><span class="n">Dataset</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Enhanced HuggingFace-Dataset for better usability and efficiency.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
+<div class="viewcode-block" id="NestedDataset.__init__"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">args</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">Dataset</span><span class="p">):</span>
             <span class="c1"># init from another Dataset instance</span>
             <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">copy</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">)</span>
@@ -197,7 +197,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
             <span class="c1"># init from scratch</span>
             <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">)</span>
 
-        <span class="bp">self</span><span class="o">.</span><span class="n">need_to_cleanup_caches</span> <span class="o">=</span> <span class="ow">not</span> <span class="n">is_caching_enabled</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">need_to_cleanup_caches</span> <span class="o">=</span> <span class="ow">not</span> <span class="n">is_caching_enabled</span><span class="p">()</span></div>
 
     <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
diff --git a/_modules/data_juicer/core/executor.html b/_modules/data_juicer/core/executor.html
index 14d3ed34e..de867852d 100644
--- a/_modules/data_juicer/core/executor.html
+++ b/_modules/data_juicer/core/executor.html
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.core.executor</h1><div class="highlight"><pre>
 <span class="sd">    ops in the config file in order and generate a processed dataset.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<div class="viewcode-block" id="Executor.__init__"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.executor.Executor.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -149,7 +149,7 @@ <h1>Source code for data_juicer.core.executor</h1><div class="highlight"><pre>
             <span class="bp">self</span><span class="o">.</span><span class="n">op_list_to_trace</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">op_list_to_trace</span>
             <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">op_list_to_trace</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
                 <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Trace for all ops.&#39;</span><span class="p">)</span>
-                <span class="bp">self</span><span class="o">.</span><span class="n">op_list_to_trace</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">OPERATORS</span><span class="o">.</span><span class="n">modules</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">op_list_to_trace</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">OPERATORS</span><span class="o">.</span><span class="n">modules</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span></div>
 
 <div class="viewcode-block" id="Executor.run"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.executor.Executor.run">[docs]</a>    <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">load_data_np</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/core/exporter.html b/_modules/data_juicer/core/exporter.html
index db8947990..84cbf9dc8 100644
--- a/_modules/data_juicer/core/exporter.html
+++ b/_modules/data_juicer/core/exporter.html
@@ -86,7 +86,7 @@ <h1>Source code for data_juicer.core.exporter</h1><div class="highlight"><pre>
     <span class="n">GiB</span> <span class="o">=</span> <span class="mi">2</span><span class="o">**</span><span class="mi">30</span>  <span class="c1"># 1024*1024*1024</span>
     <span class="n">TiB</span> <span class="o">=</span> <span class="mi">2</span><span class="o">**</span><span class="mi">40</span>  <span class="c1"># 1024*1024*1024*1024</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="Exporter.__init__"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.exporter.Exporter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">export_path</span><span class="p">,</span>
                  <span class="n">export_shard_size</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
                  <span class="n">export_in_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
@@ -139,7 +139,7 @@ <h1>Source code for data_juicer.core.exporter</h1><div class="highlight"><pre>
             <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;The export_shard_size [</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_shard_size_str</span><span class="si">}</span><span class="s1">]&#39;</span>
                            <span class="sa">f</span><span class="s1">&#39; is larger than 1TiB. It might generate large &#39;</span>
                            <span class="sa">f</span><span class="s1">&#39;single shard file and make loading and exporting &#39;</span>
-                           <span class="sa">f</span><span class="s1">&#39;slower.&#39;</span><span class="p">)</span>
+                           <span class="sa">f</span><span class="s1">&#39;slower.&#39;</span><span class="p">)</span></div>
 
     <span class="k">def</span> <span class="nf">_get_suffix</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">export_path</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/core/ray_executor.html b/_modules/data_juicer/core/ray_executor.html
index 8abcea806..805dba302 100644
--- a/_modules/data_juicer/core/ray_executor.html
+++ b/_modules/data_juicer/core/ray_executor.html
@@ -90,7 +90,7 @@ <h1>Source code for data_juicer.core.ray_executor</h1><div class="highlight"><pr
 <span class="sd">        2. Advanced functions such as checkpoint, tracer are not supported.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<div class="viewcode-block" id="RayExecutor.__init__"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -104,7 +104,7 @@ <h1>Source code for data_juicer.core.ray_executor</h1><div class="highlight"><pr
         <span class="c1"># init ray</span>
         <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Initing Ray ...&#39;</span><span class="p">)</span>
         <span class="n">ray</span><span class="o">.</span><span class="n">init</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">ray_address</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">process</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">process</span></div>
 
 
 <div class="viewcode-block" id="RayExecutor.run"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor.run">[docs]</a>    <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">load_data_np</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
diff --git a/_modules/data_juicer/core/tracer.html b/_modules/data_juicer/core/tracer.html
index 555d13cfa..6c11165d0 100644
--- a/_modules/data_juicer/core/tracer.html
+++ b/_modules/data_juicer/core/tracer.html
@@ -84,7 +84,7 @@ <h1>Source code for data_juicer.core.tracer</h1><div class="highlight"><pre>
 <span class="sd">    The comparison results will be stored in the work directory.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">work_dir</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">10</span><span class="p">):</span>
+<div class="viewcode-block" id="Tracer.__init__"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.tracer.Tracer.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">work_dir</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">10</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.core.tracer</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">work_dir</span><span class="p">,</span> <span class="s1">&#39;trace&#39;</span><span class="p">)</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span><span class="p">):</span>
             <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">show_num</span> <span class="o">=</span> <span class="n">show_num</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">show_num</span> <span class="o">=</span> <span class="n">show_num</span></div>
 
 <div class="viewcode-block" id="Tracer.trace_mapper"><a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_mapper">[docs]</a>    <span class="k">def</span> <span class="nf">trace_mapper</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">op_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">previous_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
                      <span class="n">processed_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
diff --git a/_modules/data_juicer/format/csv_formatter.html b/_modules/data_juicer/format/csv_formatter.html
index 338d1d688..c913fd93b 100644
--- a/_modules/data_juicer/format/csv_formatter.html
+++ b/_modules/data_juicer/format/csv_formatter.html
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.format.csv_formatter</h1><div class="highlight">
 <span class="sd">    &quot;&quot;&quot;</span>
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.csv&#39;</span><span class="p">]</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="CsvFormatter.__init__"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.format.csv_formatter</h1><div class="highlight">
             <span class="n">suffixes</span><span class="o">=</span><span class="n">suffixes</span> <span class="k">if</span> <span class="n">suffixes</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">SUFFIXES</span><span class="p">,</span>
             <span class="nb">type</span><span class="o">=</span><span class="s1">&#39;csv&#39;</span><span class="p">,</span>
             <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-        <span class="p">)</span></div>
+        <span class="p">)</span></div></div>
 </pre></div>
 
            </div>
diff --git a/_modules/data_juicer/format/formatter.html b/_modules/data_juicer/format/formatter.html
index 85379962d..d5f72b398 100644
--- a/_modules/data_juicer/format/formatter.html
+++ b/_modules/data_juicer/format/formatter.html
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;The class is used to load a dataset from local files or local</span>
 <span class="sd">    directory.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+<div class="viewcode-block" id="LocalFormatter.__init__"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">dataset_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
         <span class="nb">type</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
@@ -120,7 +120,7 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
         <span class="bp">self</span><span class="o">.</span><span class="n">kwargs</span> <span class="o">=</span> <span class="n">kwargs</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">text_keys</span> <span class="o">=</span> <span class="n">text_keys</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">data_files</span> <span class="o">=</span> <span class="n">find_files_with_suffix</span><span class="p">(</span><span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">add_suffix</span> <span class="o">=</span> <span class="n">add_suffix</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">add_suffix</span> <span class="o">=</span> <span class="n">add_suffix</span></div>
 
 <div class="viewcode-block" id="LocalFormatter.load_dataset"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.load_dataset">[docs]</a>    <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -155,7 +155,7 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;The class is used to load a dataset from repository of huggingface</span>
 <span class="sd">    hub.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="RemoteFormatter.__init__"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">dataset_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
                  <span class="n">text_keys</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
                  <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
@@ -169,7 +169,7 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">path</span> <span class="o">=</span> <span class="n">dataset_path</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">text_keys</span> <span class="o">=</span> <span class="n">text_keys</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">kwargs</span> <span class="o">=</span> <span class="n">kwargs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">kwargs</span> <span class="o">=</span> <span class="n">kwargs</span></div>
 
 <div class="viewcode-block" id="RemoteFormatter.load_dataset"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.load_dataset">[docs]</a>    <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/format/json_formatter.html b/_modules/data_juicer/format/json_formatter.html
index adae4804b..5e2817e66 100644
--- a/_modules/data_juicer/format/json_formatter.html
+++ b/_modules/data_juicer/format/json_formatter.html
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.format.json_formatter</h1><div class="highlight"
 <span class="sd">    &quot;&quot;&quot;</span>
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.json&#39;</span><span class="p">,</span> <span class="s1">&#39;.jsonl&#39;</span><span class="p">,</span> <span class="s1">&#39;.jsonl.zst&#39;</span><span class="p">]</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="JsonFormatter.__init__"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.format.json_formatter</h1><div class="highlight"
             <span class="n">suffixes</span><span class="o">=</span><span class="n">suffixes</span> <span class="k">if</span> <span class="n">suffixes</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">SUFFIXES</span><span class="p">,</span>
             <span class="nb">type</span><span class="o">=</span><span class="s1">&#39;json&#39;</span><span class="p">,</span>
             <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-        <span class="p">)</span></div>
+        <span class="p">)</span></div></div>
 </pre></div>
 
            </div>
diff --git a/_modules/data_juicer/format/mixture_formatter.html b/_modules/data_juicer/format/mixture_formatter.html
index f38cbbd1a..003f8e53a 100644
--- a/_modules/data_juicer/format/mixture_formatter.html
+++ b/_modules/data_juicer/format/mixture_formatter.html
@@ -83,7 +83,7 @@ <h1>Source code for data_juicer.format.mixture_formatter</h1><div class="highlig
 <span class="sd">    every dataset and merging them, and then exports the merged datasset as a</span>
 <span class="sd">    new mixed dataset.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="MixtureFormatter.__init__"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">dataset_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
                  <span class="n">suffixes</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
                  <span class="n">text_keys</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
@@ -109,7 +109,7 @@ <h1>Source code for data_juicer.format.mixture_formatter</h1><div class="highlig
                            <span class="n">text_keys</span><span class="o">=</span><span class="n">text_keys</span><span class="p">,</span>
                            <span class="n">add_suffix</span><span class="o">=</span><span class="n">add_suffix</span><span class="p">,</span>
                            <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span> <span class="k">for</span> <span class="n">data_prefix</span> <span class="ow">in</span> <span class="n">data_prefixes</span>
-        <span class="p">]</span>
+        <span class="p">]</span></div>
 
     <span class="k">def</span> <span class="nf">_get_weight</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data_prefix</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/format/parquet_formatter.html b/_modules/data_juicer/format/parquet_formatter.html
index c7608e2da..8af8186f7 100644
--- a/_modules/data_juicer/format/parquet_formatter.html
+++ b/_modules/data_juicer/format/parquet_formatter.html
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.format.parquet_formatter</h1><div class="highlig
 <span class="sd">    &quot;&quot;&quot;</span>
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.parquet&#39;</span><span class="p">]</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="ParquetFormatter.__init__"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.format.parquet_formatter</h1><div class="highlig
             <span class="n">suffixes</span><span class="o">=</span><span class="n">suffixes</span> <span class="k">if</span> <span class="n">suffixes</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">SUFFIXES</span><span class="p">,</span>
             <span class="nb">type</span><span class="o">=</span><span class="s1">&#39;parquet&#39;</span><span class="p">,</span>
             <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-        <span class="p">)</span></div>
+        <span class="p">)</span></div></div>
 </pre></div>
 
            </div>
diff --git a/_modules/data_juicer/format/text_formatter.html b/_modules/data_juicer/format/text_formatter.html
index 4140a5925..28fffda7f 100644
--- a/_modules/data_juicer/format/text_formatter.html
+++ b/_modules/data_juicer/format/text_formatter.html
@@ -143,7 +143,7 @@ <h1>Source code for data_juicer.format.text_formatter</h1><div class="highlight"
         <span class="s1">&#39;.m&#39;</span><span class="p">,</span> <span class="s1">&#39;.smali&#39;</span>
     <span class="p">]</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="TextFormatter.__init__"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">dataset_path</span><span class="p">,</span>
                  <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
                  <span class="n">add_suffix</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
@@ -165,7 +165,7 @@ <h1>Source code for data_juicer.format.text_formatter</h1><div class="highlight"
             <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
         <span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">dataset_path</span> <span class="o">=</span> <span class="n">dataset_path</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">add_suffix</span> <span class="o">=</span> <span class="n">add_suffix</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">add_suffix</span> <span class="o">=</span> <span class="n">add_suffix</span></div>
 
 <div class="viewcode-block" id="TextFormatter.load_dataset"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.load_dataset">[docs]</a>    <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/format/tsv_formatter.html b/_modules/data_juicer/format/tsv_formatter.html
index 7e52a8fa5..c37226a65 100644
--- a/_modules/data_juicer/format/tsv_formatter.html
+++ b/_modules/data_juicer/format/tsv_formatter.html
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.format.tsv_formatter</h1><div class="highlight">
 <span class="sd">    &quot;&quot;&quot;</span>
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.tsv&#39;</span><span class="p">]</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="TsvFormatter.__init__"><a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -95,7 +95,7 @@ <h1>Source code for data_juicer.format.tsv_formatter</h1><div class="highlight">
             <span class="nb">type</span><span class="o">=</span><span class="s1">&#39;csv&#39;</span><span class="p">,</span>
             <span class="n">delimiter</span><span class="o">=</span><span class="s1">&#39;</span><span class="se">\t</span><span class="s1">&#39;</span><span class="p">,</span>
             <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
-        <span class="p">)</span></div>
+        <span class="p">)</span></div></div>
 </pre></div>
 
            </div>
diff --git a/_modules/data_juicer/ops/base_op.html b/_modules/data_juicer/ops/base_op.html
index c42d12535..ec4494caa 100644
--- a/_modules/data_juicer/ops/base_op.html
+++ b/_modules/data_juicer/ops/base_op.html
@@ -76,7 +76,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="Mapper"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper">[docs]</a><span class="k">class</span> <span class="nc">Mapper</span><span class="p">:</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<div class="viewcode-block" id="Mapper.__init__"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Base class that conducts text editing.</span>
 
@@ -90,7 +90,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">)</span>
 
         <span class="c1"># In default, it&#39;s a normal OP instead of batched OP</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">False</span></div>
 
 <div class="viewcode-block" id="Mapper.process"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -107,7 +107,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="Filter"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter">[docs]</a><span class="k">class</span> <span class="nc">Filter</span><span class="p">:</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<div class="viewcode-block" id="Filter.__init__"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Base class that removes specific info.</span>
 
@@ -119,7 +119,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span> <span class="o">=</span> <span class="n">text_key</span>
         <span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">wrap_func_with_nested_access</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">compute_stats</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compute_stats</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compute_stats</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compute_stats</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="Filter.compute_stats"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -145,7 +145,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="Deduplicator"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator">[docs]</a><span class="k">class</span> <span class="nc">Deduplicator</span><span class="p">:</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<div class="viewcode-block" id="Deduplicator.__init__"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Base class that conducts deduplication.</span>
 
@@ -157,7 +157,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span> <span class="o">=</span> <span class="n">text_key</span>
         <span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">wrap_func_with_nested_access</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">compute_hash</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compute_hash</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="Deduplicator.compute_hash"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.compute_hash">[docs]</a>    <span class="k">def</span> <span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -182,7 +182,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="Selector"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Selector">[docs]</a><span class="k">class</span> <span class="nc">Selector</span><span class="p">:</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<div class="viewcode-block" id="Selector.__init__"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Selector.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Base class that conducts selection in dataset-level.</span>
 
@@ -193,7 +193,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
             <span class="n">text_key</span> <span class="o">=</span> <span class="s1">&#39;text&#39;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span> <span class="o">=</span> <span class="n">text_key</span>
         <span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">wrap_func_with_nested_access</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="Selector.process"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Selector.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/ops/common/helper_func.html b/_modules/data_juicer/ops/common/helper_func.html
index f1b319fbe..865499308 100644
--- a/_modules/data_juicer/ops/common/helper_func.html
+++ b/_modules/data_juicer/ops/common/helper_func.html
@@ -79,9 +79,9 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 <div class="viewcode-block" id="UnionFind"><a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind">[docs]</a><span class="k">class</span> <span class="nc">UnionFind</span><span class="p">:</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<div class="viewcode-block" id="UnionFind.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Initialization method.&quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span></div>
 
 <div class="viewcode-block" id="UnionFind.find"><a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.find">[docs]</a>    <span class="k">def</span> <span class="nf">find</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">):</span>
         <span class="k">if</span> <span class="n">x</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/deduplicator/document_deduplicator.html b/_modules/data_juicer/ops/deduplicator/document_deduplicator.html
index 8596040c7..6a619f12f 100644
--- a/_modules/data_juicer/ops/deduplicator/document_deduplicator.html
+++ b/_modules/data_juicer/ops/deduplicator/document_deduplicator.html
@@ -93,7 +93,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_deduplicator</h1><div
 <span class="sd">    Using md5 hash to deduplicate samples.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="DocumentDeduplicator.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lowercase</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="n">ignore_non_character</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
@@ -111,7 +111,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_deduplicator</h1><div
         <span class="bp">self</span><span class="o">.</span><span class="n">lowercase</span> <span class="o">=</span> <span class="n">lowercase</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">remove_non_character_regex</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
             <span class="sa">f</span><span class="s1">&#39;\s+|\d+|[</span><span class="si">{</span><span class="n">re</span><span class="o">.</span><span class="n">escape</span><span class="p">(</span><span class="n">string</span><span class="o">.</span><span class="n">punctuation</span><span class="p">)</span><span class="si">}</span><span class="s1">]&#39;</span>  <span class="c1"># noqa: W605</span>
-        <span class="p">)</span> <span class="k">if</span> <span class="n">ignore_non_character</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="n">ignore_non_character</span> <span class="k">else</span> <span class="kc">None</span></div>
 
 <div class="viewcode-block" id="DocumentDeduplicator.compute_hash"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash">[docs]</a>    <span class="k">def</span> <span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html b/_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html
index 01ea211d4..72dfde50c 100644
--- a/_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html
+++ b/_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html
@@ -169,7 +169,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_minhash_deduplicator</
 <span class="sd">    kept in the final dataset.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+<div class="viewcode-block" id="DocumentMinhashDeduplicator.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">tokenization</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;space&#39;</span><span class="p">,</span>
         <span class="n">window_size</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">5</span><span class="p">,</span>
@@ -251,7 +251,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_minhash_deduplicator</
                 <span class="n">gen</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">MERSENNE_PRIME</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">),</span>
             <span class="p">)</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_permutation</span><span class="p">)],</span>
             <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">,</span>
-        <span class="p">)</span><span class="o">.</span><span class="n">T</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">T</span></div>
 
 <div class="viewcode-block" id="DocumentMinhashDeduplicator.compute_hash"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash">[docs]</a>    <span class="k">def</span> <span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html b/_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html
index 85206bbe8..d393a4ba7 100644
--- a/_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html
+++ b/_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html
@@ -135,7 +135,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_simhash_deduplicator</
 <span class="k">class</span> <span class="nc">DocumentSimhashDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Deduplicator to deduplicate samples at document-level using SimHash.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="DocumentSimhashDeduplicator.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">tokenization</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;space&#39;</span><span class="p">,</span>
                  <span class="n">window_size</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">6</span><span class="p">,</span>
                  <span class="n">lowercase</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
@@ -181,7 +181,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_simhash_deduplicator</
 
         <span class="c1"># about deduplication</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">num_blocks</span> <span class="o">=</span> <span class="n">num_blocks</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">hamming_distance</span> <span class="o">=</span> <span class="n">hamming_distance</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hamming_distance</span> <span class="o">=</span> <span class="n">hamming_distance</span></div>
 
 <div class="viewcode-block" id="DocumentSimhashDeduplicator.compute_hash"><a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash">[docs]</a>    <span class="k">def</span> <span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/ops/filter/alphanumeric_filter.html b/_modules/data_juicer/ops/filter/alphanumeric_filter.html
index 550b89c6f..42150f84c 100644
--- a/_modules/data_juicer/ops/filter/alphanumeric_filter.html
+++ b/_modules/data_juicer/ops/filter/alphanumeric_filter.html
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.filter.alphanumeric_filter</h1><div class="h
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with alphabet/numeric ratio within a specific</span>
 <span class="sd">    range.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="AlphanumericFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.25</span><span class="p">,</span>
                  <span class="n">max_ratio</span><span class="p">:</span> <span class="n">PositiveFloat</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
@@ -116,7 +116,7 @@ <h1>Source code for data_juicer.ops.filter.alphanumeric_filter</h1><div class="h
         <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span>
                 <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
-                <span class="n">model_key</span><span class="o">=</span><span class="s1">&#39;EleutherAI/pythia-6.9b-deduped&#39;</span><span class="p">)</span>
+                <span class="n">model_key</span><span class="o">=</span><span class="s1">&#39;EleutherAI/pythia-6.9b-deduped&#39;</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="AlphanumericFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/average_line_length_filter.html b/_modules/data_juicer/ops/filter/average_line_length_filter.html
index a224804e8..4d58914b2 100644
--- a/_modules/data_juicer/ops/filter/average_line_length_filter.html
+++ b/_modules/data_juicer/ops/filter/average_line_length_filter.html
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.filter.average_line_length_filter</h1><div c
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with average line length within a specific</span>
 <span class="sd">    range.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="AverageLineLengthFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
                  <span class="n">max_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
@@ -104,7 +104,7 @@ <h1>Source code for data_juicer.ops.filter.average_line_length_filter</h1><div c
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">=</span> <span class="n">min_len</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span></div>
 
 <div class="viewcode-block" id="AverageLineLengthFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
diff --git a/_modules/data_juicer/ops/filter/character_repetition_filter.html b/_modules/data_juicer/ops/filter/character_repetition_filter.html
index db03058bc..40e1b1c3f 100644
--- a/_modules/data_juicer/ops/filter/character_repetition_filter.html
+++ b/_modules/data_juicer/ops/filter/character_repetition_filter.html
@@ -86,7 +86,7 @@ <h1>Source code for data_juicer.ops.filter.character_repetition_filter</h1><div
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with char-level n-gram repetition ratio within a</span>
 <span class="sd">    \ specific range.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="CharacterRepetitionFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">rep_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
                  <span class="n">min_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
                  <span class="n">max_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
@@ -108,7 +108,7 @@ <h1>Source code for data_juicer.ops.filter.character_repetition_filter</h1><div
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">n</span> <span class="o">=</span> <span class="n">rep_len</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">min_ratio</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span></div>
 
 <div class="viewcode-block" id="CharacterRepetitionFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
diff --git a/_modules/data_juicer/ops/filter/flagged_words_filter.html b/_modules/data_juicer/ops/filter/flagged_words_filter.html
index 39bce2dc8..8be147f2a 100644
--- a/_modules/data_juicer/ops/filter/flagged_words_filter.html
+++ b/_modules/data_juicer/ops/filter/flagged_words_filter.html
@@ -91,7 +91,7 @@ <h1>Source code for data_juicer.ops.filter.flagged_words_filter</h1><div class="
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with flagged-word ratio less than a specific max</span>
 <span class="sd">    value.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="FlaggedWordFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
                  <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="n">max_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.045</span><span class="p">,</span>
@@ -138,7 +138,7 @@ <h1>Source code for data_juicer.ops.filter.flagged_words_filter</h1><div class="
             <span class="p">]</span>
         <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span>
-                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
+                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="FlaggedWordFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
diff --git a/_modules/data_juicer/ops/filter/language_id_score_filter.html b/_modules/data_juicer/ops/filter/language_id_score_filter.html
index ba90853b8..0cbcc1d89 100644
--- a/_modules/data_juicer/ops/filter/language_id_score_filter.html
+++ b/_modules/data_juicer/ops/filter/language_id_score_filter.html
@@ -83,7 +83,7 @@ <h1>Source code for data_juicer.ops.filter.language_id_score_filter</h1><div cla
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples in a specific language with confidence score</span>
 <span class="sd">    larger than a specific min value.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="LanguageIDScoreFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">min_score</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.8</span><span class="p">,</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
@@ -100,7 +100,7 @@ <h1>Source code for data_juicer.ops.filter.language_id_score_filter</h1><div cla
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">min_score</span> <span class="o">=</span> <span class="n">min_score</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;fasttext&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;fasttext&#39;</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="LanguageIDScoreFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
diff --git a/_modules/data_juicer/ops/filter/maximum_line_length_filter.html b/_modules/data_juicer/ops/filter/maximum_line_length_filter.html
index ba53aea86..f8977679c 100644
--- a/_modules/data_juicer/ops/filter/maximum_line_length_filter.html
+++ b/_modules/data_juicer/ops/filter/maximum_line_length_filter.html
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.filter.maximum_line_length_filter</h1><div c
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with maximum line length within a specific</span>
 <span class="sd">    range.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="MaximumLineLengthFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
                  <span class="n">max_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
@@ -104,7 +104,7 @@ <h1>Source code for data_juicer.ops.filter.maximum_line_length_filter</h1><div c
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">=</span> <span class="n">min_len</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span></div>
 
 <div class="viewcode-block" id="MaximumLineLengthFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
diff --git a/_modules/data_juicer/ops/filter/perplexity_filter.html b/_modules/data_juicer/ops/filter/perplexity_filter.html
index ebaa84b09..e91dfdeab 100644
--- a/_modules/data_juicer/ops/filter/perplexity_filter.html
+++ b/_modules/data_juicer/ops/filter/perplexity_filter.html
@@ -89,7 +89,7 @@ <h1>Source code for data_juicer.ops.filter.perplexity_filter</h1><div class="hig
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with perplexity score less than a specific max</span>
 <span class="sd">    value.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="PerplexityFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
                  <span class="n">max_ppl</span><span class="p">:</span> <span class="n">PositiveFloat</span> <span class="o">=</span> <span class="mi">1500</span><span class="p">,</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
@@ -108,7 +108,7 @@ <h1>Source code for data_juicer.ops.filter.perplexity_filter</h1><div class="hig
         <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">sp_model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span>
                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">kl_model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;kenlm&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">kl_model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;kenlm&#39;</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="PerplexityFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
diff --git a/_modules/data_juicer/ops/filter/special_characters_filter.html b/_modules/data_juicer/ops/filter/special_characters_filter.html
index 002b6d2c7..b88e299f8 100644
--- a/_modules/data_juicer/ops/filter/special_characters_filter.html
+++ b/_modules/data_juicer/ops/filter/special_characters_filter.html
@@ -86,7 +86,7 @@ <h1>Source code for data_juicer.ops.filter.special_characters_filter</h1><div cl
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with special-char ratio within a specific</span>
 <span class="sd">    range.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="SpecialCharactersFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
                  <span class="n">max_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.25</span><span class="p">,</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
@@ -105,7 +105,7 @@ <h1>Source code for data_juicer.ops.filter.special_characters_filter</h1><div cl
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span> <span class="o">=</span> <span class="n">min_ratio</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_ratio</span> <span class="o">=</span> <span class="n">max_ratio</span></div>
 
 <div class="viewcode-block" id="SpecialCharactersFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
diff --git a/_modules/data_juicer/ops/filter/specified_field_filter.html b/_modules/data_juicer/ops/filter/specified_field_filter.html
index b8099599c..cfa325292 100644
--- a/_modules/data_juicer/ops/filter/specified_field_filter.html
+++ b/_modules/data_juicer/ops/filter/specified_field_filter.html
@@ -83,7 +83,7 @@ <h1>Source code for data_juicer.ops.filter.specified_field_filter</h1><div class
 <span class="sd">    specified target value, the sample will be filtered.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="SpecifiedFieldFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">target_value</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">List</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">]</span> <span class="o">=</span> <span class="p">[],</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
@@ -102,7 +102,7 @@ <h1>Source code for data_juicer.ops.filter.specified_field_filter</h1><div class
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="o">=</span> <span class="n">field_key</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">target_value</span> <span class="o">=</span> <span class="n">target_value</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">target_value</span> <span class="o">=</span> <span class="n">target_value</span></div>
 
 <div class="viewcode-block" id="SpecifiedFieldFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">sample</span></div>
diff --git a/_modules/data_juicer/ops/filter/specified_numeric_field_filter.html b/_modules/data_juicer/ops/filter/specified_numeric_field_filter.html
index 20723d1d8..d7969cb19 100644
--- a/_modules/data_juicer/ops/filter/specified_numeric_field_filter.html
+++ b/_modules/data_juicer/ops/filter/specified_numeric_field_filter.html
@@ -93,7 +93,7 @@ <h1>Source code for data_juicer.ops.filter.specified_numeric_field_filter</h1><d
 <span class="sd">    specified range, the sample will be filtered.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="SpecifiedNumericFieldFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">min_value</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="o">-</span><span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
                  <span class="n">max_value</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
@@ -118,7 +118,7 @@ <h1>Source code for data_juicer.ops.filter.specified_numeric_field_filter</h1><d
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="o">=</span> <span class="n">field_key</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">min_value</span> <span class="o">=</span> <span class="n">min_value</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_value</span> <span class="o">=</span> <span class="n">max_value</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_value</span> <span class="o">=</span> <span class="n">max_value</span></div>
 
 <div class="viewcode-block" id="SpecifiedNumericFieldFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">sample</span></div>
diff --git a/_modules/data_juicer/ops/filter/stopwords_filter.html b/_modules/data_juicer/ops/filter/stopwords_filter.html
index 405113a62..30773510a 100644
--- a/_modules/data_juicer/ops/filter/stopwords_filter.html
+++ b/_modules/data_juicer/ops/filter/stopwords_filter.html
@@ -91,7 +91,7 @@ <h1>Source code for data_juicer.ops.filter.stopwords_filter</h1><div class="high
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with stopword ratio larger than a specific min</span>
 <span class="sd">    value.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="StopWordsFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
                  <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="n">min_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="mf">0.3</span><span class="p">,</span>
@@ -136,7 +136,7 @@ <h1>Source code for data_juicer.ops.filter.stopwords_filter</h1><div class="high
             <span class="p">]</span>
         <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span>
-                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
+                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="StopWordsFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
diff --git a/_modules/data_juicer/ops/filter/suffix_filter.html b/_modules/data_juicer/ops/filter/suffix_filter.html
index 0925d4988..43f502e27 100644
--- a/_modules/data_juicer/ops/filter/suffix_filter.html
+++ b/_modules/data_juicer/ops/filter/suffix_filter.html
@@ -80,7 +80,7 @@ <h1>Source code for data_juicer.ops.filter.suffix_filter</h1><div class="highlig
 <span class="k">class</span> <span class="nc">SuffixFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with specified suffix.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="SuffixFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">suffixes</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">[],</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
                  <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
@@ -98,7 +98,7 @@ <h1>Source code for data_juicer.ops.filter.suffix_filter</h1><div class="highlig
         <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">suffixes</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span> <span class="o">=</span> <span class="p">[</span><span class="n">suffixes</span><span class="p">]</span>
         <span class="k">else</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span> <span class="o">=</span> <span class="n">suffixes</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span> <span class="o">=</span> <span class="n">suffixes</span></div>
 
 <div class="viewcode-block" id="SuffixFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">sample</span></div>
diff --git a/_modules/data_juicer/ops/filter/text_length_filter.html b/_modules/data_juicer/ops/filter/text_length_filter.html
index 936f4ccf5..7ed079cd8 100644
--- a/_modules/data_juicer/ops/filter/text_length_filter.html
+++ b/_modules/data_juicer/ops/filter/text_length_filter.html
@@ -83,7 +83,7 @@ <h1>Source code for data_juicer.ops.filter.text_length_filter</h1><div class="hi
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with total text length within a specific</span>
 <span class="sd">    range.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="TextLengthFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
                  <span class="n">max_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
@@ -102,7 +102,7 @@ <h1>Source code for data_juicer.ops.filter.text_length_filter</h1><div class="hi
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">=</span> <span class="n">min_len</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span></div>
 
 <div class="viewcode-block" id="TextLengthFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
diff --git a/_modules/data_juicer/ops/filter/token_num_filter.html b/_modules/data_juicer/ops/filter/token_num_filter.html
index 5cba586b1..49a7af726 100644
--- a/_modules/data_juicer/ops/filter/token_num_filter.html
+++ b/_modules/data_juicer/ops/filter/token_num_filter.html
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.filter.token_num_filter</h1><div class="high
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with total token number within a specific</span>
 <span class="sd">    range.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="TokenNumFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_tokenizer</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;EleutherAI/pythia-6.9b-deduped&#39;</span><span class="p">,</span>
                  <span class="n">min_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
                  <span class="n">max_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
@@ -109,7 +109,7 @@ <h1>Source code for data_juicer.ops.filter.token_num_filter</h1><div class="high
         <span class="bp">self</span><span class="o">.</span><span class="n">max_num</span> <span class="o">=</span> <span class="n">max_num</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">hf_tokenizer</span> <span class="o">=</span> <span class="n">hf_tokenizer</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;huggingface&#39;</span><span class="p">,</span>
-                                       <span class="n">model_key</span><span class="o">=</span><span class="n">hf_tokenizer</span><span class="p">)</span>
+                                       <span class="n">model_key</span><span class="o">=</span><span class="n">hf_tokenizer</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="TokenNumFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
diff --git a/_modules/data_juicer/ops/filter/word_num_filter.html b/_modules/data_juicer/ops/filter/word_num_filter.html
index b47df1c8a..04e5f048d 100644
--- a/_modules/data_juicer/ops/filter/word_num_filter.html
+++ b/_modules/data_juicer/ops/filter/word_num_filter.html
@@ -88,7 +88,7 @@ <h1>Source code for data_juicer.ops.filter.word_num_filter</h1><div class="highl
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with total words number within a specific</span>
 <span class="sd">    range.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="WordNumFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
                  <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="n">min_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
@@ -117,7 +117,7 @@ <h1>Source code for data_juicer.ops.filter.word_num_filter</h1><div class="highl
 
         <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span>
-                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
+                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="WordNumFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
diff --git a/_modules/data_juicer/ops/filter/word_repetition_filter.html b/_modules/data_juicer/ops/filter/word_repetition_filter.html
index 0b789d646..5ecdcedab 100644
--- a/_modules/data_juicer/ops/filter/word_repetition_filter.html
+++ b/_modules/data_juicer/ops/filter/word_repetition_filter.html
@@ -90,7 +90,7 @@ <h1>Source code for data_juicer.ops.filter.word_repetition_filter</h1><div class
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with word-level n-gram repetition ratio within a</span>
 <span class="sd">    \ specific range.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="WordRepetitionFilter.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
                  <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="n">rep_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
@@ -122,7 +122,7 @@ <h1>Source code for data_juicer.ops.filter.word_repetition_filter</h1><div class
 
         <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span>
-                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
+                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="WordRepetitionFilter.compute_stats"><a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
diff --git a/_modules/data_juicer/ops/mapper/clean_copyright_mapper.html b/_modules/data_juicer/ops/mapper/clean_copyright_mapper.html
index 5b2467929..30e3a5c79 100644
--- a/_modules/data_juicer/ops/mapper/clean_copyright_mapper.html
+++ b/_modules/data_juicer/ops/mapper/clean_copyright_mapper.html
@@ -83,7 +83,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_copyright_mapper</h1><div class
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean copyright comments at the beginning of the text</span>
 <span class="sd">    samples.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="CleanCopyrightMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_copyright_mapper</h1><div class
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">pat</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="s1">&#39;/</span><span class="se">\\</span><span class="s1">*[^*]*</span><span class="se">\\</span><span class="s1">*+(?:[^/*][^*]*</span><span class="se">\\</span><span class="s1">*+)*/&#39;</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">cpat</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="s1">&#39;copyright&#39;</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">IGNORECASE</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">cpat</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="s1">&#39;copyright&#39;</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">IGNORECASE</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="CleanCopyrightMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 
diff --git a/_modules/data_juicer/ops/mapper/clean_email_mapper.html b/_modules/data_juicer/ops/mapper/clean_email_mapper.html
index 518d07904..1c8ef5726 100644
--- a/_modules/data_juicer/ops/mapper/clean_email_mapper.html
+++ b/_modules/data_juicer/ops/mapper/clean_email_mapper.html
@@ -78,7 +78,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_email_mapper</h1><div class="hi
 <span class="k">class</span> <span class="nc">CleanEmailMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean email in text samples.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="CleanEmailMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -86,7 +86,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_email_mapper</h1><div class="hi
 <span class="sd">        :param kwargs: extra args</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;[A-Za-z0-9.\-+_]+@[a-z0-9.\-+_]+\.[a-z]+&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;[A-Za-z0-9.\-+_]+@[a-z0-9.\-+_]+\.[a-z]+&#39;</span></div>
 
 <div class="viewcode-block" id="CleanEmailMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 
diff --git a/_modules/data_juicer/ops/mapper/clean_html_mapper.html b/_modules/data_juicer/ops/mapper/clean_html_mapper.html
index 6805312be..1de758f20 100644
--- a/_modules/data_juicer/ops/mapper/clean_html_mapper.html
+++ b/_modules/data_juicer/ops/mapper/clean_html_mapper.html
@@ -82,14 +82,14 @@ <h1>Source code for data_juicer.ops.mapper.clean_html_mapper</h1><div class="hig
 <span class="k">class</span> <span class="nc">CleanHtmlMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean html code in text samples.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="CleanHtmlMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
 <span class="sd">        :param args: extra args</span>
 <span class="sd">        :param kwargs: extra args</span>
 <span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="CleanHtmlMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 
diff --git a/_modules/data_juicer/ops/mapper/clean_ip_mapper.html b/_modules/data_juicer/ops/mapper/clean_ip_mapper.html
index a78962f15..5c1afded5 100644
--- a/_modules/data_juicer/ops/mapper/clean_ip_mapper.html
+++ b/_modules/data_juicer/ops/mapper/clean_ip_mapper.html
@@ -78,7 +78,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_ip_mapper</h1><div class="highl
 <span class="k">class</span> <span class="nc">CleanIpMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean ipv4 and ipv6 address in text samples.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="CleanIpMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -91,7 +91,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_ip_mapper</h1><div class="highl
         <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;(?:25[0-5]\.)|(?:[1-9][0-9]\.)|(?:[0-9]\.))&#39;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="si">{3}</span><span class="s1">(?:(?:1[0-9][0-9])|(?:2[0-4][0-9])|&#39;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;(?:25[0-5])|(?:[1-9][0-9])|(?:[0-9]))|&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;([\da-fA-F]{1,4}:)</span><span class="si">{7}</span><span class="s1">[\da-fA-F]{1,4}&#39;</span>  <span class="c1"># ipv6</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;([\da-fA-F]{1,4}:)</span><span class="si">{7}</span><span class="s1">[\da-fA-F]{1,4}&#39;</span>  <span class="c1"># ipv6</span></div>
 
 <div class="viewcode-block" id="CleanIpMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 
diff --git a/_modules/data_juicer/ops/mapper/clean_links_mapper.html b/_modules/data_juicer/ops/mapper/clean_links_mapper.html
index 48476125d..a7cd5811b 100644
--- a/_modules/data_juicer/ops/mapper/clean_links_mapper.html
+++ b/_modules/data_juicer/ops/mapper/clean_links_mapper.html
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_links_mapper</h1><div class="hi
 <span class="k">class</span> <span class="nc">CleanLinksMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean links like http/https/ftp in text samples.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="CleanLinksMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_links_mapper</h1><div class="hi
         <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;(?:[^\s()&lt;&gt;]+|\(([^\s()&lt;&gt;]+|(\([^\s()&lt;&gt;]+\)))*\))&#39;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;+(?:\(([^\s()&lt;&gt;]+|(\([^\s()&lt;&gt;]+\)))*\)|&#39;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;[^\s`!()\[\]</span><span class="si">{}</span><span class="s1">;:</span><span class="se">\&#39;</span><span class="s1">\&quot;.,&lt;&gt;?«»“”‘’])&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;)&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;)&#39;</span></div>
 
 <div class="viewcode-block" id="CleanLinksMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 
diff --git a/_modules/data_juicer/ops/mapper/expand_macro_mapper.html b/_modules/data_juicer/ops/mapper/expand_macro_mapper.html
index 91b5dc91e..2d11c165b 100644
--- a/_modules/data_juicer/ops/mapper/expand_macro_mapper.html
+++ b/_modules/data_juicer/ops/mapper/expand_macro_mapper.html
@@ -83,14 +83,14 @@ <h1>Source code for data_juicer.ops.mapper.expand_macro_mapper</h1><div class="h
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to expand macro definitions in the document body of Latex</span>
 <span class="sd">    samples.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="ExpandMacroMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
 <span class="sd">        :param args: extra args</span>
 <span class="sd">        :param kwargs: extra args</span>
 <span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></div>
 
     <span class="k">def</span> <span class="nf">_build_non_arg_macros_dict</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">file_content</span><span class="p">):</span>
         <span class="c1"># regex for extracting \newcommand macros without arguments</span>
diff --git a/_modules/data_juicer/ops/mapper/fix_unicode_mapper.html b/_modules/data_juicer/ops/mapper/fix_unicode_mapper.html
index def7fdfb0..55b4c8923 100644
--- a/_modules/data_juicer/ops/mapper/fix_unicode_mapper.html
+++ b/_modules/data_juicer/ops/mapper/fix_unicode_mapper.html
@@ -78,14 +78,14 @@ <h1>Source code for data_juicer.ops.mapper.fix_unicode_mapper</h1><div class="hi
 <span class="k">class</span> <span class="nc">FixUnicodeMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to fix unicode errors in text samples.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="FixUnicodeMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
 <span class="sd">        :param args: extra args</span>
 <span class="sd">        :param kwargs: extra args</span>
 <span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="FixUnicodeMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">ftfy</span><span class="o">.</span><span class="n">fix_text</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
diff --git a/_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html b/_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html
index d1dad3ad2..66ef88958 100644
--- a/_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html
+++ b/_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.mapper.nlpaug_en_mapper</h1><div class="high
 <span class="k">class</span> <span class="nc">NlpaugEnMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to simply augment samples in English based on nlpaug library.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="NlpaugEnMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">sequential</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="n">aug_num</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
                  <span class="n">delete_random_word</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -180,7 +180,7 @@ <h1>Source code for data_juicer.ops.mapper.nlpaug_en_mapper</h1><div class="high
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">sequential</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">aug</span> <span class="o">=</span> <span class="n">naf</span><span class="o">.</span><span class="n">Sequential</span><span class="p">(</span><span class="n">aug_pipeline</span><span class="p">)</span>
         <span class="k">else</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">aug</span> <span class="o">=</span> <span class="n">aug_pipeline</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">aug</span> <span class="o">=</span> <span class="n">aug_pipeline</span></div>
 
 <div class="viewcode-block" id="NlpaugEnMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="c1"># no augmentation methods are opened</span>
diff --git a/_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html b/_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html
index 8501832d4..cce5ec9c6 100644
--- a/_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html
+++ b/_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.ops.mapper.nlpcda_zh_mapper</h1><div class="high
 <span class="k">class</span> <span class="nc">NlpcdaZhMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to simply augment samples in Chinese based on nlpcda library.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="NlpcdaZhMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">sequential</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="n">aug_num</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
                  <span class="n">replace_similar_word</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -185,7 +185,7 @@ <h1>Source code for data_juicer.ops.mapper.nlpcda_zh_mapper</h1><div class="high
                     <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">sequential</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span> \
                     <span class="k">else</span> <span class="mi">2</span>
                 <span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
-                    <span class="n">nlpcda</span><span class="o">.</span><span class="n">EquivalentChar</span><span class="p">(</span><span class="n">create_num</span><span class="o">=</span><span class="n">create_num</span><span class="p">))</span>
+                    <span class="n">nlpcda</span><span class="o">.</span><span class="n">EquivalentChar</span><span class="p">(</span><span class="n">create_num</span><span class="o">=</span><span class="n">create_num</span><span class="p">))</span></div>
 
 <div class="viewcode-block" id="NlpcdaZhMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="c1"># no augmentation methods are opened</span>
diff --git a/_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html b/_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html
index 5cb8e8d7d..05b5c7104 100644
--- a/_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html
+++ b/_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.ops.mapper.punctuation_normalization_mapper</h1>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to normalize unicode punctuations to English punctuations in text</span>
 <span class="sd">    \ samples.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="PunctuationNormalizationMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -124,7 +124,7 @@ <h1>Source code for data_juicer.ops.mapper.punctuation_normalization_mapper</h1>
             <span class="s1">&#39;】&#39;</span><span class="p">:</span> <span class="s1">&#39;]&#39;</span><span class="p">,</span>
             <span class="s1">&#39;％&#39;</span><span class="p">:</span> <span class="s1">&#39;%&#39;</span><span class="p">,</span>
             <span class="s1">&#39;►&#39;</span><span class="p">:</span> <span class="s1">&#39;-&#39;</span><span class="p">,</span>
-        <span class="p">}</span>
+        <span class="p">}</span></div>
 
 <div class="viewcode-block" id="PunctuationNormalizationMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">([</span>
diff --git a/_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html b/_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html
index 6b077694e..03f642ec3 100644
--- a/_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html
@@ -83,7 +83,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_bibliography_mapper</h1><div c
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove bibliography at the end of documents in Latex</span>
 <span class="sd">    samples.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="RemoveBibliographyMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_bibliography_mapper</h1><div c
         <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">begin\{REFERENCES\}|&#39;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">begin\{thebibliography\}|&#39;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">bibliography\{.*\}&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;).*$&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;).*$&#39;</span></div>
 
 <div class="viewcode-block" id="RemoveBibliographyMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
diff --git a/_modules/data_juicer/ops/mapper/remove_comments_mapper.html b/_modules/data_juicer/ops/mapper/remove_comments_mapper.html
index 5eedf088c..33c667184 100644
--- a/_modules/data_juicer/ops/mapper/remove_comments_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_comments_mapper.html
@@ -88,7 +88,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_comments_mapper</h1><div class
 <span class="sd">    Only support &#39;tex&#39; \ for now.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="RemoveCommentsMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">doc_type</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="s1">&#39;tex&#39;</span><span class="p">,</span>
                  <span class="n">inline</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
                  <span class="n">multiline</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
@@ -106,7 +106,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_comments_mapper</h1><div class
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">doc_type</span> <span class="o">=</span> <span class="n">doc_type</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">inline</span> <span class="o">=</span> <span class="n">inline</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">multiline</span> <span class="o">=</span> <span class="n">multiline</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">multiline</span> <span class="o">=</span> <span class="n">multiline</span></div>
 
 <div class="viewcode-block" id="RemoveCommentsMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="c1"># TODO: remove different comments by sample type</span>
diff --git a/_modules/data_juicer/ops/mapper/remove_header_mapper.html b/_modules/data_juicer/ops/mapper/remove_header_mapper.html
index 0c9da4f6e..b21c95e44 100644
--- a/_modules/data_juicer/ops/mapper/remove_header_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_header_mapper.html
@@ -84,7 +84,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_header_mapper</h1><div class="
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove headers at the beginning of documents in Latex</span>
 <span class="sd">    samples.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">drop_no_head</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="RemoveHeaderMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">drop_no_head</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -104,7 +104,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_header_mapper</h1><div class="
         <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;</span><span class="se">\\</span><span class="s1">\bsubparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\}&#39;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">+=</span> <span class="sa">r</span><span class="s1">&#39;)&#39;</span>
 
-        <span class="bp">self</span><span class="o">.</span><span class="n">drop_no_head</span> <span class="o">=</span> <span class="n">drop_no_head</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">drop_no_head</span> <span class="o">=</span> <span class="n">drop_no_head</span></div>
 
 <div class="viewcode-block" id="RemoveHeaderMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 
diff --git a/_modules/data_juicer/ops/mapper/remove_long_words_mapper.html b/_modules/data_juicer/ops/mapper/remove_long_words_mapper.html
index ff9eb9952..d6b0357ae 100644
--- a/_modules/data_juicer/ops/mapper/remove_long_words_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_long_words_mapper.html
@@ -86,7 +86,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_long_words_mapper</h1><div cla
 <span class="k">class</span> <span class="nc">RemoveLongWordsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove long words within a specific range.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="RemoveLongWordsMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
                  <span class="n">max_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
@@ -103,7 +103,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_long_words_mapper</h1><div cla
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">=</span> <span class="n">min_len</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="o">=</span> <span class="n">max_len</span></div>
 
 <div class="viewcode-block" id="RemoveLongWordsMapper.should_keep_long_word"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word">[docs]</a>    <span class="k">def</span> <span class="nf">should_keep_long_word</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">word</span><span class="p">):</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="nb">len</span><span class="p">(</span><span class="n">word</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html b/_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html
index 8253ed2a8..7e82c551f 100644
--- a/_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html
@@ -80,7 +80,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_specific_chars_mapper</h1><div
 <span class="k">class</span> <span class="nc">RemoveSpecificCharsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean specific chars in text samples.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="RemoveSpecificCharsMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">chars_to_remove</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="s1">&#39;◆●■►▼▲▴∆▻▷❖♡□&#39;</span><span class="p">,</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
                  <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
@@ -97,7 +97,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_specific_chars_mapper</h1><div
         <span class="k">if</span> <span class="n">chars_to_remove</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="s1">&#39;[&#39;</span> <span class="o">+</span> <span class="s1">&#39;|&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">chars_to_remove</span><span class="p">)</span> <span class="o">+</span> <span class="s1">&#39;]&#39;</span>
         <span class="k">else</span><span class="p">:</span>
-            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="kc">None</span></div>
 
 <div class="viewcode-block" id="RemoveSpecificCharsMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 
diff --git a/_modules/data_juicer/ops/mapper/remove_table_text_mapper.html b/_modules/data_juicer/ops/mapper/remove_table_text_mapper.html
index 660a0ed3f..a018dc7f6 100644
--- a/_modules/data_juicer/ops/mapper/remove_table_text_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_table_text_mapper.html
@@ -87,7 +87,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_table_text_mapper</h1><div cla
 <span class="sd">    number of tables.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="RemoveTableTextMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_col</span><span class="p">:</span> <span class="n">from_2_to_20</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
                  <span class="n">max_col</span><span class="p">:</span> <span class="n">from_2_to_20</span> <span class="o">=</span> <span class="mi">20</span><span class="p">,</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
@@ -103,7 +103,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_table_text_mapper</h1><div cla
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">min_col</span> <span class="o">=</span> <span class="n">min_col</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">max_col</span> <span class="o">=</span> <span class="n">max_col</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;(?&lt;=\n)((\S+?)([ |\t](\S+?)){</span><span class="si">%d</span><span class="s1">}\n+){2,}&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;(?&lt;=\n)((\S+?)([ |\t](\S+?)){</span><span class="si">%d</span><span class="s1">}\n+){2,}&#39;</span></div>
 
 <div class="viewcode-block" id="RemoveTableTextMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 
diff --git a/_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html b/_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html
index 9f7557eee..42076b59a 100644
--- a/_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html
@@ -83,7 +83,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_words_with_incorrect_substring
 <span class="k">class</span> <span class="nc">RemoveWordsWithIncorrectSubstringsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove words with incorrect substrings.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="RemoveWordsWithIncorrectSubstringsMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
                  <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="n">substrings</span><span class="p">:</span> <span class="n">List</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -106,7 +106,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_words_with_incorrect_substring
         <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
         <span class="k">if</span> <span class="n">tokenization</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span>
-                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
+                                           <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">[docs]</a>    <span class="k">def</span> <span class="nf">should_keep_word_with_incorrect_substrings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">word</span><span class="p">,</span> <span class="n">substrings</span><span class="p">):</span>
         <span class="n">word</span> <span class="o">=</span> <span class="n">strip</span><span class="p">(</span><span class="n">word</span><span class="p">,</span> <span class="n">SPECIAL_CHARACTERS</span><span class="p">)</span>
diff --git a/_modules/data_juicer/ops/mapper/sentence_split_mapper.html b/_modules/data_juicer/ops/mapper/sentence_split_mapper.html
index ed1552d42..07d6522b6 100644
--- a/_modules/data_juicer/ops/mapper/sentence_split_mapper.html
+++ b/_modules/data_juicer/ops/mapper/sentence_split_mapper.html
@@ -79,7 +79,7 @@ <h1>Source code for data_juicer.ops.mapper.sentence_split_mapper</h1><div class=
 <span class="k">class</span> <span class="nc">SentenceSplitMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to split text samples to sentences.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="SentenceSplitMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -89,7 +89,7 @@ <h1>Source code for data_juicer.ops.mapper.sentence_split_mapper</h1><div class=
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> <span class="o">=</span> <span class="n">lang</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;nltk&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_key</span> <span class="o">=</span> <span class="n">prepare_model</span><span class="p">(</span><span class="n">lang</span><span class="o">=</span><span class="n">lang</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="s1">&#39;nltk&#39;</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="SentenceSplitMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 
diff --git a/_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html b/_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html
index ff6535bd1..0ecd132bf 100644
--- a/_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html
+++ b/_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html
@@ -86,14 +86,14 @@ <h1>Source code for data_juicer.ops.mapper.whitespace_normalization_mapper</h1><
 <span class="sd">    https://en.wikipedia.org/wiki/Whitespace_character</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<div class="viewcode-block" id="WhitespaceNormalizationMapper.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
 <span class="sd">        :param args: extra args</span>
 <span class="sd">        :param kwargs: extra args</span>
 <span class="sd">        &quot;&quot;&quot;</span>
-        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></div>
 
 <div class="viewcode-block" id="WhitespaceNormalizationMapper.process"><a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="c1"># remove whitespaces before and after the main content</span>
diff --git a/_modules/data_juicer/ops/op_fusion.html b/_modules/data_juicer/ops/op_fusion.html
index 25922ad8d..78475498d 100644
--- a/_modules/data_juicer/ops/op_fusion.html
+++ b/_modules/data_juicer/ops/op_fusion.html
@@ -177,14 +177,14 @@ <h1>Source code for data_juicer.ops.op_fusion</h1><div class="highlight"><pre>
 
 <div class="viewcode-block" id="FusedFilter"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter">[docs]</a><span class="k">class</span> <span class="nc">FusedFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;A fused operator for filters.&quot;&quot;&quot;</span>
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fused_filters</span><span class="p">:</span> <span class="n">List</span><span class="p">):</span>
+<div class="viewcode-block" id="FusedFilter.__init__"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fused_filters</span><span class="p">:</span> <span class="n">List</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
 <span class="sd">        :param fused_filers: a list of filters to be fused.</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">fused_filters</span> <span class="o">=</span> <span class="n">fused_filters</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fused_filters</span> <span class="o">=</span> <span class="n">fused_filters</span></div>
 
 <div class="viewcode-block" id="FusedFilter.compute_stats"><a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.compute_stats">[docs]</a>    <span class="k">def</span> <span class="nf">compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="c1"># context for the intermediate vars</span>
diff --git a/_modules/data_juicer/ops/selector/frequency_specified_field_selector.html b/_modules/data_juicer/ops/selector/frequency_specified_field_selector.html
index dec801b69..c68e22df8 100644
--- a/_modules/data_juicer/ops/selector/frequency_specified_field_selector.html
+++ b/_modules/data_juicer/ops/selector/frequency_specified_field_selector.html
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.ops.selector.frequency_specified_field_selector<
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Selector to select samples based on the sorted frequency of specified</span>
 <span class="sd">    field.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="FrequencySpecifiedFieldSelector.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">top_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
                  <span class="n">topk</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -114,7 +114,7 @@ <h1>Source code for data_juicer.ops.selector.frequency_specified_field_selector<
         <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="o">=</span> <span class="n">field_key</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">top_ratio</span> <span class="o">=</span> <span class="n">top_ratio</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">topk</span> <span class="o">=</span> <span class="n">topk</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">reverse</span> <span class="o">=</span> <span class="n">reverse</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reverse</span> <span class="o">=</span> <span class="n">reverse</span></div>
 
 <div class="viewcode-block" id="FrequencySpecifiedFieldSelector.process"><a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span> <span class="ow">or</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/selector/topk_specified_field_selector.html b/_modules/data_juicer/ops/selector/topk_specified_field_selector.html
index 6ebf81c65..f5302e79a 100644
--- a/_modules/data_juicer/ops/selector/topk_specified_field_selector.html
+++ b/_modules/data_juicer/ops/selector/topk_specified_field_selector.html
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.selector.topk_specified_field_selector</h1><
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Selector to select top samples based on the sorted specified field</span>
 <span class="sd">    value.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+<div class="viewcode-block" id="TopkSpecifiedFieldSelector.__init__"><a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">top_ratio</span><span class="p">:</span> <span class="n">ClosedUnitInterval</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
                  <span class="n">topk</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -125,7 +125,7 @@ <h1>Source code for data_juicer.ops.selector.topk_specified_field_selector</h1><
         <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="o">=</span> <span class="n">field_key</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">top_ratio</span> <span class="o">=</span> <span class="n">top_ratio</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">topk</span> <span class="o">=</span> <span class="n">topk</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">reverse</span> <span class="o">=</span> <span class="n">reverse</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reverse</span> <span class="o">=</span> <span class="n">reverse</span></div>
 
 <div class="viewcode-block" id="TopkSpecifiedFieldSelector.process"><a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process">[docs]</a>    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span> <span class="ow">or</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="p">:</span>
diff --git a/_modules/data_juicer/utils/ckpt_utils.html b/_modules/data_juicer/utils/ckpt_utils.html
index 857d86de7..f8062a475 100644
--- a/_modules/data_juicer/utils/ckpt_utils.html
+++ b/_modules/data_juicer/utils/ckpt_utils.html
@@ -86,7 +86,7 @@ <h1>Source code for data_juicer.utils.ckpt_utils</h1><div class="highlight"><pre
 <span class="sd">    rerun from the beginning.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ckpt_dir</span><span class="p">,</span> <span class="n">original_process_list</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">):</span>
+<div class="viewcode-block" id="CheckpointManager.__init__"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ckpt_dir</span><span class="p">,</span> <span class="n">original_process_list</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -101,7 +101,7 @@ <h1>Source code for data_juicer.utils.ckpt_utils</h1><div class="highlight"><pre
         <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="o">=</span> <span class="n">num_proc</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span> <span class="o">=</span> <span class="p">[]</span>
 
-        <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_available</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">check_ckpt</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_available</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">check_ckpt</span><span class="p">()</span></div>
 
 <div class="viewcode-block" id="CheckpointManager.get_left_process_list"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list">[docs]</a>    <span class="k">def</span> <span class="nf">get_left_process_list</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/utils/compress.html b/_modules/data_juicer/utils/compress.html
index fe83f1afa..70bfaf5d7 100644
--- a/_modules/data_juicer/utils/compress.html
+++ b/_modules/data_juicer/utils/compress.html
@@ -250,7 +250,7 @@ <h1>Source code for data_juicer.utils.compress</h1><div class="highlight"><pre>
 <span class="sd">    using compression format algorithms.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">compressor_format</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;zstd&#39;</span><span class="p">):</span>
+<div class="viewcode-block" id="CompressManager.__init__"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CompressManager.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">compressor_format</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;zstd&#39;</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -261,7 +261,7 @@ <h1>Source code for data_juicer.utils.compress</h1><div class="highlight"><pre>
         <span class="k">assert</span> <span class="n">compressor_format</span> <span class="ow">in</span> <span class="n">Compressor</span><span class="o">.</span><span class="n">compressors</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">compressor_format</span> <span class="o">=</span> <span class="n">compressor_format</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">compressor</span> <span class="o">=</span> <span class="n">Compressor</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">extractor</span> <span class="o">=</span> <span class="n">Extractor</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extractor</span> <span class="o">=</span> <span class="n">Extractor</span></div>
 
 <div class="viewcode-block" id="CompressManager.compress"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CompressManager.compress">[docs]</a>    <span class="k">def</span> <span class="nf">compress</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
@@ -295,7 +295,7 @@ <h1>Source code for data_juicer.utils.compress</h1><div class="highlight"><pre>
 <span class="sd">    using compression format algorithms.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">compressor_format</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;zstd&#39;</span><span class="p">):</span>
+<div class="viewcode-block" id="CacheCompressManager.__init__"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">compressor_format</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;zstd&#39;</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -306,7 +306,7 @@ <h1>Source code for data_juicer.utils.compress</h1><div class="highlight"><pre>
         <span class="bp">self</span><span class="o">.</span><span class="n">compressor_extension</span> <span class="o">=</span> <span class="s1">&#39;.&#39;</span> <span class="o">+</span> <span class="n">compressor_format</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">compress_manager</span> <span class="o">=</span> <span class="n">CompressManager</span><span class="p">(</span>
             <span class="n">compressor_format</span><span class="o">=</span><span class="n">compressor_format</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="s1">&#39;_\d</span><span class="si">{5}</span><span class="s1">_of_&#39;</span><span class="p">)</span>  <span class="c1"># noqa W605</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="s1">&#39;_\d</span><span class="si">{5}</span><span class="s1">_of_&#39;</span><span class="p">)</span>  <span class="c1"># noqa W605</span></div>
 
     <span class="k">def</span> <span class="nf">_get_raw_filename</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">filename</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">]):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/utils/fingerprint_utils.html b/_modules/data_juicer/utils/fingerprint_utils.html
index 590626228..19b99ed8f 100644
--- a/_modules/data_juicer/utils/fingerprint_utils.html
+++ b/_modules/data_juicer/utils/fingerprint_utils.html
@@ -86,8 +86,8 @@ <h1>Source code for data_juicer.utils.fingerprint_utils</h1><div class="highligh
 
     <span class="n">dispatch</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{}</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">m</span> <span class="o">=</span> <span class="n">xxhash</span><span class="o">.</span><span class="n">xxh64</span><span class="p">()</span>
+<div class="viewcode-block" id="Hasher.__init__"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">m</span> <span class="o">=</span> <span class="n">xxhash</span><span class="o">.</span><span class="n">xxh64</span><span class="p">()</span></div>
 
 <div class="viewcode-block" id="Hasher.hash_bytes"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash_bytes">[docs]</a>    <span class="nd">@classmethod</span>
     <span class="k">def</span> <span class="nf">hash_bytes</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">value</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">bytes</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">bytes</span><span class="p">]])</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
diff --git a/_modules/data_juicer/utils/logger_utils.html b/_modules/data_juicer/utils/logger_utils.html
index c034586b7..cf2e76dfe 100644
--- a/_modules/data_juicer/utils/logger_utils.html
+++ b/_modules/data_juicer/utils/logger_utils.html
@@ -114,7 +114,7 @@ <h1>Source code for data_juicer.utils.logger_utils</h1><div class="highlight"><p
 <div class="viewcode-block" id="StreamToLoguru"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru">[docs]</a><span class="k">class</span> <span class="nc">StreamToLoguru</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Stream object that redirects writes to a logger instance.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">level</span><span class="o">=</span><span class="s1">&#39;INFO&#39;</span><span class="p">,</span> <span class="n">caller_names</span><span class="o">=</span><span class="p">(</span><span class="s1">&#39;datasets&#39;</span><span class="p">,</span> <span class="s1">&#39;logging&#39;</span><span class="p">)):</span>
+<div class="viewcode-block" id="StreamToLoguru.__init__"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">level</span><span class="o">=</span><span class="s1">&#39;INFO&#39;</span><span class="p">,</span> <span class="n">caller_names</span><span class="o">=</span><span class="p">(</span><span class="s1">&#39;datasets&#39;</span><span class="p">,</span> <span class="s1">&#39;logging&#39;</span><span class="p">)):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
@@ -124,7 +124,7 @@ <h1>Source code for data_juicer.utils.logger_utils</h1><div class="highlight"><p
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">level</span> <span class="o">=</span> <span class="n">level</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">linebuf</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">caller_names</span> <span class="o">=</span> <span class="n">caller_names</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">caller_names</span> <span class="o">=</span> <span class="n">caller_names</span></div>
 
 <div class="viewcode-block" id="StreamToLoguru.write"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.write">[docs]</a>    <span class="k">def</span> <span class="nf">write</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">buf</span><span class="p">):</span>
         <span class="n">full_name</span> <span class="o">=</span> <span class="n">get_caller_name</span><span class="p">(</span><span class="n">depth</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
diff --git a/_modules/data_juicer/utils/registry.html b/_modules/data_juicer/utils/registry.html
index 134abaa41..d07b77ab0 100644
--- a/_modules/data_juicer/utils/registry.html
+++ b/_modules/data_juicer/utils/registry.html
@@ -95,14 +95,14 @@ <h1>Source code for data_juicer.utils.registry</h1><div class="highlight"><pre>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;This class is used to register some modules to registry by a repo</span>
 <span class="sd">    name.&quot;&quot;&quot;</span>
 
-    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+<div class="viewcode-block" id="Registry.__init__"><a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
 
 <span class="sd">        :param name: a registry repo name</span>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">_name</span> <span class="o">=</span> <span class="n">name</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span> <span class="o">=</span> <span class="p">{}</span></div>
 
     <span class="nd">@property</span>
     <span class="k">def</span> <span class="nf">name</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
diff --git a/data_juicer.analysis.html b/data_juicer.analysis.html
index 6c08d1363..672474713 100644
--- a/data_juicer.analysis.html
+++ b/data_juicer.analysis.html
@@ -108,6 +108,19 @@ <h1>d a t a _ j u i c e r . a n a l y s i s<a class="headerlink" href="#d-a-t-a-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.column_wise_analysis.</span></span><span class="sig-name descname"><span class="pre">ColumnWiseAnalysis</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overall_result</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_stats_in_one_file</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
 <p>Apply analysis on each column of stats respectively.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overall_result</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_stats_in_one_file</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method
+:param dataset: the dataset to be analysed
+:param output_path: path to store the analysis results
+:param overall_result: optional precomputed overall stats result
+:param save_stats_in_one_file: whether save all analysis figures of all</p>
+<blockquote>
+<div><p>stats into one image file</p>
+</div></blockquote>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyse">
 <span class="sig-name descname"><span class="pre">analyse</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">show_percentiles</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.analyse"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyse" title="Permalink to this definition">¶</a></dt>
@@ -201,6 +214,15 @@ <h1>d a t a _ j u i c e r . a n a l y s i s<a class="headerlink" href="#d-a-t-a-
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
 <p>Apply diversity analysis for each sample and get an overall analysis
 result.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lang_or_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'en'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#DiversityAnalysis.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method :param dataset: the dataset to be analysed
+:param output_path: path to store the analysis results :param
+lang_or_model: the diversity model or a specific language used to load
+the diversity model.</p>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyse">
 <span class="sig-name descname"><span class="pre">analyse</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang_or_model=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">column_name='text'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">postproc_func=&lt;function</span> <span class="pre">get_diversity&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">**postproc_kwarg</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#DiversityAnalysis.analyse"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyse" title="Permalink to this definition">¶</a></dt>
@@ -307,6 +329,20 @@ <h1>d a t a _ j u i c e r . a n a l y s i s<a class="headerlink" href="#d-a-t-a-
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
 <p>Apply analysis on the overall stats, including mean, std, quantiles,
 etc.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.overall_analysis.OverallAnalysis.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/overall_analysis.html#OverallAnalysis.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.overall_analysis.OverallAnalysis.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – the dataset to be analysed</p></li>
+<li><p><strong>output_path</strong> – path to store the analysis results.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.analysis.overall_analysis.OverallAnalysis.analyse">
 <span class="sig-name descname"><span class="pre">analyse</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">percentiles</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/overall_analysis.html#OverallAnalysis.analyse"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.overall_analysis.OverallAnalysis.analyse" title="Permalink to this definition">¶</a></dt>
diff --git a/data_juicer.core.html b/data_juicer.core.html
index 0b560b21e..3f3c1c769 100644
--- a/data_juicer.core.html
+++ b/data_juicer.core.html
@@ -126,6 +126,17 @@ <h1>d a t a _ j u i c e r . c o r e<a class="headerlink" href="#d-a-t-a-j-u-i-c-
 on these stats, and generate the analysis results (stats tables,
 distribution figures, etc.) to help users understand the input
 dataset better.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.analyser.Analyser.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/analyser.html#Analyser.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.analyser.Analyser.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>cfg</strong> – optional config dict.</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.core.analyser.Analyser.run">
 <span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">load_data_np</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/analyser.html#Analyser.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.analyser.Analyser.run" title="Permalink to this definition">¶</a></dt>
@@ -150,6 +161,11 @@ <h1>d a t a _ j u i c e r . c o r e<a class="headerlink" href="#d-a-t-a-j-u-i-c-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">NestedDataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">Dataset</span></code></p>
 <p>Enhanced HuggingFace-Dataset for better usability and efficiency.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.__init__" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.add_column">
 <span class="sig-name descname"><span class="pre">add_column</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.add_column"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.add_column" title="Permalink to this definition">¶</a></dt>
@@ -214,6 +230,11 @@ <h1>d a t a _ j u i c e r . c o r e<a class="headerlink" href="#d-a-t-a-j-u-i-c-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">NestedDatasetDict</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDatasetDict"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDatasetDict" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">DatasetDict</span></code></p>
 <p>Enhanced HuggingFace-DatasetDict for better usability and efficiency.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDatasetDict.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDatasetDict.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDatasetDict.__init__" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.core.data.NestedDatasetDict.map">
 <span class="sig-name descname"><span class="pre">map</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">args</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDatasetDict.map"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDatasetDict.map" title="Permalink to this definition">¶</a></dt>
@@ -228,6 +249,11 @@ <h1>d a t a _ j u i c e r . c o r e<a class="headerlink" href="#d-a-t-a-j-u-i-c-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">NestedQueryDict</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedQueryDict"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedQueryDict" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">dict</span></code></p>
 <p>Enhanced dict for better usability.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedQueryDict.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedQueryDict.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedQueryDict.__init__" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 </dd></dl>
 
 <dl class="py function">
@@ -288,6 +314,17 @@ <h1>d a t a _ j u i c e r . c o r e<a class="headerlink" href="#d-a-t-a-j-u-i-c-
 <p>This Executor class is used to process a specific dataset.</p>
 <p>It will load the dataset and unify the format, then apply all the
 ops in the config file in order and generate a processed dataset.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.executor.Executor.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/executor.html#Executor.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.executor.Executor.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>cfg</strong> – optional config dict.</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.core.executor.Executor.run">
 <span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">load_data_np</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/executor.html#Executor.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.executor.Executor.run" title="Permalink to this definition">¶</a></dt>
@@ -333,6 +370,25 @@ <h1>d a t a _ j u i c e r . c o r e<a class="headerlink" href="#d-a-t-a-j-u-i-c-
 <span class="sig-name descname"><span class="pre">TiB</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">1099511627776</span></em><a class="headerlink" href="#data_juicer.core.exporter.Exporter.TiB" title="Permalink to this definition">¶</a></dt>
 <dd></dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">export_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_shard_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_in_parallel</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_ds</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_stats</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/exporter.html#Exporter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.exporter.Exporter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>export_path</strong> – the path to export datasets.</p></li>
+<li><p><strong>export_shard_size</strong> – the size of each shard of exported
+dataset. In default, it’s 0, which means export the dataset
+to a single file.</p></li>
+<li><p><strong>num_proc</strong> – number of process to export the dataset.</p></li>
+<li><p><strong>export_ds</strong> – whether to export the dataset contents.</p></li>
+<li><p><strong>export_stats</strong> – whether to export the stats of dataset.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.export">
 <span class="sig-name descname"><span class="pre">export</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/exporter.html#Exporter.export"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.exporter.Exporter.export" title="Permalink to this definition">¶</a></dt>
@@ -402,6 +458,17 @@ <h1>d a t a _ j u i c e r . c o r e<a class="headerlink" href="#d-a-t-a-j-u-i-c-
 2. Advanced functions such as checkpoint, tracer are not supported.</p>
 </dd>
 </dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.ray_executor.RayExecutor.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/ray_executor.html#RayExecutor.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_executor.RayExecutor.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>cfg</strong> – optional config dict.</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.core.ray_executor.RayExecutor.run">
 <span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">load_data_np</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/ray_executor.html#RayExecutor.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_executor.RayExecutor.run" title="Permalink to this definition">¶</a></dt>
@@ -428,6 +495,22 @@ <h1>d a t a _ j u i c e r . c o r e<a class="headerlink" href="#d-a-t-a-j-u-i-c-
 <p>The tracer to trace the sample changes before and after an operator
 process.</p>
 <p>The comparison results will be stored in the work directory.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.tracer.Tracer.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">work_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">10</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/tracer.html#Tracer.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.tracer.Tracer.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>work_dir</strong> – the work directory to store the comparison
+results</p></li>
+<li><p><strong>show_num</strong> – the maximum number of samples to show in the
+comparison result files.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.core.tracer.Tracer.trace_batch_mapper">
 <span class="sig-name descname"><span class="pre">trace_batch_mapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">previous_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">processed_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/tracer.html#Tracer.trace_batch_mapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.tracer.Tracer.trace_batch_mapper" title="Permalink to this definition">¶</a></dt>
diff --git a/data_juicer.format.html b/data_juicer.format.html
index 37f558120..32d3cbffb 100644
--- a/data_juicer.format.html
+++ b/data_juicer.format.html
@@ -137,6 +137,21 @@ <h1>d a t a _ j u i c e r . f o r m a t<a class="headerlink" href="#d-a-t-a-j-u-
 <span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.csv']</span></em><a class="headerlink" href="#data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES" title="Permalink to this definition">¶</a></dt>
 <dd></dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.csv_formatter.CsvFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/csv_formatter.html#CsvFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.csv_formatter.CsvFormatter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 </dd></dl>
 
 </section>
@@ -160,6 +175,27 @@ <h1>d a t a _ j u i c e r . f o r m a t<a class="headerlink" href="#d-a-t-a-j-u-
 <dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
 <p>The class is used to load a dataset from local files or local
 directory.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.LocalFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#LocalFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.LocalFormatter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – path to a dataset file or a dataset
+directory</p></li>
+<li><p><strong>type</strong> – a packaged dataset module type (json, csv, etc.)</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>text_keys</strong> – key names of field that stores sample
+text.</p></li>
+<li><p><strong>add_suffix</strong> – whether to add the file suffix to dataset
+meta info</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.format.formatter.LocalFormatter.load_dataset">
 <span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#LocalFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.LocalFormatter.load_dataset" title="Permalink to this definition">¶</a></dt>
@@ -186,6 +222,22 @@ <h1>d a t a _ j u i c e r . f o r m a t<a class="headerlink" href="#d-a-t-a-j-u-
 <dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
 <p>The class is used to load a dataset from repository of huggingface
 hub.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.RemoteFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#RemoteFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.RemoteFormatter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>text_keys</strong> – key names of field that stores sample
+text.</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.format.formatter.RemoteFormatter.load_dataset">
 <span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#RemoteFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.RemoteFormatter.load_dataset" title="Permalink to this definition">¶</a></dt>
@@ -277,6 +329,21 @@ <h1>d a t a _ j u i c e r . f o r m a t<a class="headerlink" href="#d-a-t-a-j-u-
 <span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.json',</span> <span class="pre">'.jsonl',</span> <span class="pre">'.jsonl.zst']</span></em><a class="headerlink" href="#data_juicer.format.json_formatter.JsonFormatter.SUFFIXES" title="Permalink to this definition">¶</a></dt>
 <dd></dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.json_formatter.JsonFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/json_formatter.html#JsonFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.json_formatter.JsonFormatter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 </dd></dl>
 
 </section>
@@ -314,6 +381,26 @@ <h1>d a t a _ j u i c e r . f o r m a t<a class="headerlink" href="#d-a-t-a-j-u-
 <p>The class mixes multiple datasets by randomly selecting samples from
 every dataset and merging them, and then exports the merged datasset as a
 new mixed dataset.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.mixture_formatter.MixtureFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/mixture_formatter.html#MixtureFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.mixture_formatter.MixtureFormatter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset dir or a list
+of them, optional weights, default 1.0 e.g. <cite>&lt;w1&gt; ds.jsonl
+&lt;w2&gt; ds_dir &lt;w3&gt; ds_file.json</cite></p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>text_keys</strong> – key names of field that stores sample text.</p></li>
+<li><p><strong>add_suffix</strong> – whether to add the file suffix to dataset
+meta info</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset">
 <span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/mixture_formatter.html#MixtureFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset" title="Permalink to this definition">¶</a></dt>
@@ -344,6 +431,21 @@ <h1>d a t a _ j u i c e r . f o r m a t<a class="headerlink" href="#d-a-t-a-j-u-
 <span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.parquet']</span></em><a class="headerlink" href="#data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES" title="Permalink to this definition">¶</a></dt>
 <dd></dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.parquet_formatter.ParquetFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/parquet_formatter.html#ParquetFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.parquet_formatter.ParquetFormatter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 </dd></dl>
 
 </section>
@@ -360,6 +462,23 @@ <h1>d a t a _ j u i c e r . f o r m a t<a class="headerlink" href="#d-a-t-a-j-u-
 <span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.docx',</span> <span class="pre">'.pdf',</span> <span class="pre">'.txt',</span> <span class="pre">'.md',</span> <span class="pre">'.tex',</span> <span class="pre">'.asm',</span> <span class="pre">'.bat',</span> <span class="pre">'.cmd',</span> <span class="pre">'.c',</span> <span class="pre">'.h',</span> <span class="pre">'.cs',</span> <span class="pre">'.cpp',</span> <span class="pre">'.hpp',</span> <span class="pre">'.c++',</span> <span class="pre">'.h++',</span> <span class="pre">'.cc',</span> <span class="pre">'.hh',</span> <span class="pre">'.C',</span> <span class="pre">'.H',</span> <span class="pre">'.cmake',</span> <span class="pre">'.css',</span> <span class="pre">'.dockerfile',</span> <span class="pre">'.f90',</span> <span class="pre">'.f',</span> <span class="pre">'.f03',</span> <span class="pre">'.f08',</span> <span class="pre">'.f77',</span> <span class="pre">'.f95',</span> <span class="pre">'.for',</span> <span class="pre">'.fpp',</span> <span class="pre">'.go',</span> <span class="pre">'.hs',</span> <span class="pre">'.html',</span> <span class="pre">'.java',</span> <span class="pre">'.js',</span> <span class="pre">'.jl',</span> <span class="pre">'.lua',</span> <span class="pre">'.markdown',</span> <span class="pre">'.php',</span> <span class="pre">'.php3',</span> <span class="pre">'.php4',</span> <span class="pre">'.php5',</span> <span class="pre">'.phps',</span> <span class="pre">'.phpt',</span> <span class="pre">'.pl',</span> <span class="pre">'.pm',</span> <span class="pre">'.pod',</span> <span class="pre">'.perl',</span> <span class="pre">'.ps1',</span> <span class="pre">'.psd1',</span> <span class="pre">'.psm1',</span> <span class="pre">'.py',</span> <span class="pre">'.rb',</span> <span class="pre">'.rs',</span> <span class="pre">'.sql',</span> <span class="pre">'.scala',</span> <span class="pre">'.sh',</span> <span class="pre">'.bash',</span> <span class="pre">'.command',</span> <span class="pre">'.zsh',</span> <span class="pre">'.ts',</span> <span class="pre">'.tsx',</span> <span class="pre">'.vb',</span> <span class="pre">'Dockerfile',</span> <span class="pre">'Makefile',</span> <span class="pre">'.xml',</span> <span class="pre">'.rst',</span> <span class="pre">'.m',</span> <span class="pre">'.smali']</span></em><a class="headerlink" href="#data_juicer.format.text_formatter.TextFormatter.SUFFIXES" title="Permalink to this definition">¶</a></dt>
 <dd></dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.text_formatter.TextFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#TextFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.TextFormatter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>add_suffix</strong> – Whether to add file suffix to datase meta
+info</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.format.text_formatter.TextFormatter.load_dataset">
 <span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#TextFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.TextFormatter.load_dataset" title="Permalink to this definition">¶</a></dt>
@@ -418,6 +537,21 @@ <h1>d a t a _ j u i c e r . f o r m a t<a class="headerlink" href="#d-a-t-a-j-u-
 <span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.tsv']</span></em><a class="headerlink" href="#data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES" title="Permalink to this definition">¶</a></dt>
 <dd></dd></dl>
 
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.tsv_formatter.TsvFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/tsv_formatter.html#TsvFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.tsv_formatter.TsvFormatter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>kwargs</strong> – extra args, e.g. <cite>delimiter = ‘,’</cite></p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 </dd></dl>
 
 </section>
diff --git a/data_juicer.html b/data_juicer.html
index 43f8860d6..9ba6948e0 100644
--- a/data_juicer.html
+++ b/data_juicer.html
@@ -87,6 +87,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 <li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">d a t a _ j u i c e r . a n a l y s i s</a><ul>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyse"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.analyse()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_box()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_hist()</span></code></a></li>
@@ -97,6 +98,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyse"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.analyse()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.compute()</span></code></a></li>
 </ul>
@@ -108,6 +110,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.analyse"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.analyse()</span></code></a></li>
 </ul>
 </li>
@@ -129,6 +132,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 <li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">d a t a _ j u i c e r . c o r e</a><ul>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.analyser">data_juicer.core.analyser</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.analyser.Analyser"><code class="docutils literal notranslate"><span class="pre">Analyser</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.analyser.Analyser.__init__"><code class="docutils literal notranslate"><span class="pre">Analyser.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.analyser.Analyser.run"><code class="docutils literal notranslate"><span class="pre">Analyser.run()</span></code></a></li>
 </ul>
 </li>
@@ -136,6 +140,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.data">data_juicer.core.data</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset"><code class="docutils literal notranslate"><span class="pre">NestedDataset</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.__init__"><code class="docutils literal notranslate"><span class="pre">NestedDataset.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.add_column"><code class="docutils literal notranslate"><span class="pre">NestedDataset.add_column()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.cleanup_cache_files"><code class="docutils literal notranslate"><span class="pre">NestedDataset.cleanup_cache_files()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.filter"><code class="docutils literal notranslate"><span class="pre">NestedDataset.filter()</span></code></a></li>
@@ -147,10 +152,14 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </ul>
 </li>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDatasetDict"><code class="docutils literal notranslate"><span class="pre">NestedDatasetDict</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDatasetDict.__init__"><code class="docutils literal notranslate"><span class="pre">NestedDatasetDict.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDatasetDict.map"><code class="docutils literal notranslate"><span class="pre">NestedDatasetDict.map()</span></code></a></li>
 </ul>
 </li>
-<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedQueryDict"><code class="docutils literal notranslate"><span class="pre">NestedQueryDict</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedQueryDict"><code class="docutils literal notranslate"><span class="pre">NestedQueryDict</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedQueryDict.__init__"><code class="docutils literal notranslate"><span class="pre">NestedQueryDict.__init__()</span></code></a></li>
+</ul>
+</li>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.nested_obj_factory"><code class="docutils literal notranslate"><span class="pre">nested_obj_factory()</span></code></a></li>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.nested_query"><code class="docutils literal notranslate"><span class="pre">nested_query()</span></code></a></li>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.wrap_func_with_nested_access"><code class="docutils literal notranslate"><span class="pre">wrap_func_with_nested_access()</span></code></a></li>
@@ -158,6 +167,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.executor">data_juicer.core.executor</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.executor.Executor"><code class="docutils literal notranslate"><span class="pre">Executor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.executor.Executor.__init__"><code class="docutils literal notranslate"><span class="pre">Executor.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.executor.Executor.run"><code class="docutils literal notranslate"><span class="pre">Executor.run()</span></code></a></li>
 </ul>
 </li>
@@ -169,6 +179,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.KiB"><code class="docutils literal notranslate"><span class="pre">Exporter.KiB</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.MiB"><code class="docutils literal notranslate"><span class="pre">Exporter.MiB</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.TiB"><code class="docutils literal notranslate"><span class="pre">Exporter.TiB</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.__init__"><code class="docutils literal notranslate"><span class="pre">Exporter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.export"><code class="docutils literal notranslate"><span class="pre">Exporter.export()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.to_jsonl"><code class="docutils literal notranslate"><span class="pre">Exporter.to_jsonl()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.to_parquet"><code class="docutils literal notranslate"><span class="pre">Exporter.to_parquet()</span></code></a></li>
@@ -178,6 +189,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.ray_executor">data_juicer.core.ray_executor</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor"><code class="docutils literal notranslate"><span class="pre">RayExecutor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor.__init__"><code class="docutils literal notranslate"><span class="pre">RayExecutor.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor.run"><code class="docutils literal notranslate"><span class="pre">RayExecutor.run()</span></code></a></li>
 </ul>
 </li>
@@ -185,6 +197,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.tracer">data_juicer.core.tracer</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer"><code class="docutils literal notranslate"><span class="pre">Tracer</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer.__init__"><code class="docutils literal notranslate"><span class="pre">Tracer.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_batch_mapper"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_batch_mapper()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_deduplicator"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_deduplicator()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_filter"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_filter()</span></code></a></li>
@@ -199,6 +212,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter"><code class="docutils literal notranslate"><span class="pre">CsvFormatter</span></code></a><ul>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">CsvFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">CsvFormatter.__init__()</span></code></a></li>
 </ul>
 </li>
 </ul>
@@ -209,10 +223,12 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </ul>
 </li>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter"><code class="docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">LocalFormatter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">LocalFormatter.load_dataset()</span></code></a></li>
 </ul>
 </li>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter.load_dataset()</span></code></a></li>
 </ul>
 </li>
@@ -224,6 +240,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter"><code class="docutils literal notranslate"><span class="pre">JsonFormatter</span></code></a><ul>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">JsonFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">JsonFormatter.__init__()</span></code></a></li>
 </ul>
 </li>
 </ul>
@@ -234,6 +251,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.load_dataset()</span></code></a></li>
 </ul>
 </li>
@@ -242,6 +260,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter</span></code></a><ul>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter.__init__()</span></code></a></li>
 </ul>
 </li>
 </ul>
@@ -249,6 +268,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter"><code class="docutils literal notranslate"><span class="pre">TextFormatter</span></code></a><ul>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">TextFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">TextFormatter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">TextFormatter.load_dataset()</span></code></a></li>
 </ul>
 </li>
@@ -259,6 +279,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter"><code class="docutils literal notranslate"><span class="pre">TsvFormatter</span></code></a><ul>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">TsvFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">TsvFormatter.__init__()</span></code></a></li>
 </ul>
 </li>
 </ul>
@@ -462,21 +483,25 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator"><code class="docutils literal notranslate"><span class="pre">Deduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">Deduplicator.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">Deduplicator.compute_hash()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.process"><code class="docutils literal notranslate"><span class="pre">Deduplicator.process()</span></code></a></li>
 </ul>
 </li>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter"><code class="docutils literal notranslate"><span class="pre">Filter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.__init__"><code class="docutils literal notranslate"><span class="pre">Filter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats"><code class="docutils literal notranslate"><span class="pre">Filter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.process"><code class="docutils literal notranslate"><span class="pre">Filter.process()</span></code></a></li>
 </ul>
 </li>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper"><code class="docutils literal notranslate"><span class="pre">Mapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.__init__"><code class="docutils literal notranslate"><span class="pre">Mapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.is_batched_op"><code class="docutils literal notranslate"><span class="pre">Mapper.is_batched_op()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process"><code class="docutils literal notranslate"><span class="pre">Mapper.process()</span></code></a></li>
 </ul>
 </li>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector"><code class="docutils literal notranslate"><span class="pre">Selector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.__init__"><code class="docutils literal notranslate"><span class="pre">Selector.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.process"><code class="docutils literal notranslate"><span class="pre">Selector.process()</span></code></a></li>
 </ul>
 </li>
@@ -488,6 +513,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter"><code class="docutils literal notranslate"><span class="pre">FusedFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.__init__"><code class="docutils literal notranslate"><span class="pre">FusedFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">FusedFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.process"><code class="docutils literal notranslate"><span class="pre">FusedFilter.process()</span></code></a></li>
 </ul>
@@ -507,6 +533,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.cache_utils">data_juicer.utils.cache_utils</a></li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils">data_juicer.utils.ckpt_utils</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager"><code class="docutils literal notranslate"><span class="pre">CheckpointManager</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.__init__"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.check_ckpt()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.check_ops_to_skip()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.get_left_process_list()</span></code></a></li>
@@ -523,6 +550,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </ul>
 </li>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.__init__"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager.cleanup_cache_files()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.compress"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager.compress()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.decompress"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager.decompress()</span></code></a></li>
@@ -530,6 +558,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </ul>
 </li>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager"><code class="docutils literal notranslate"><span class="pre">CompressManager</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.__init__"><code class="docutils literal notranslate"><span class="pre">CompressManager.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.compress"><code class="docutils literal notranslate"><span class="pre">CompressManager.compress()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.decompress"><code class="docutils literal notranslate"><span class="pre">CompressManager.decompress()</span></code></a></li>
 </ul>
@@ -609,6 +638,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.fingerprint_utils">data_juicer.utils.fingerprint_utils</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher"><code class="docutils literal notranslate"><span class="pre">Hasher</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.__init__"><code class="docutils literal notranslate"><span class="pre">Hasher.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.dispatch"><code class="docutils literal notranslate"><span class="pre">Hasher.dispatch</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash"><code class="docutils literal notranslate"><span class="pre">Hasher.hash()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash_bytes"><code class="docutils literal notranslate"><span class="pre">Hasher.hash_bytes()</span></code></a></li>
@@ -624,6 +654,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.logger_utils">data_juicer.utils.logger_utils</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.HiddenPrints"><code class="docutils literal notranslate"><span class="pre">HiddenPrints</span></code></a></li>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.__init__"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.flush"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru.flush()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.write"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru.write()</span></code></a></li>
 </ul>
@@ -648,6 +679,7 @@ <h1>d a t a _ j u i c e r<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-r" title
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.registry">data_juicer.utils.registry</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry"><code class="docutils literal notranslate"><span class="pre">Registry</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.__init__"><code class="docutils literal notranslate"><span class="pre">Registry.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.get"><code class="docutils literal notranslate"><span class="pre">Registry.get()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.list"><code class="docutils literal notranslate"><span class="pre">Registry.list()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.modules"><code class="docutils literal notranslate"><span class="pre">Registry.modules</span></code></a></li>
diff --git a/data_juicer.ops.common.html b/data_juicer.ops.common.html
index 0827112a3..7dbfcbb90 100644
--- a/data_juicer.ops.common.html
+++ b/data_juicer.ops.common.html
@@ -104,6 +104,12 @@ <h1>d a t a _ j u i c e r . o p s . c o m m o n<a class="headerlink" href="#d-a-
 <dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.UnionFind">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">UnionFind</span></span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#UnionFind"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.UnionFind" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.UnionFind.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#UnionFind.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.UnionFind.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.UnionFind.find">
 <span class="sig-name descname"><span class="pre">find</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#UnionFind.find"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.UnionFind.find" title="Permalink to this definition">¶</a></dt>
diff --git a/data_juicer.ops.deduplicator.html b/data_juicer.ops.deduplicator.html
index 0d2ddda8d..4fe8d8b74 100644
--- a/data_juicer.ops.deduplicator.html
+++ b/data_juicer.ops.deduplicator.html
@@ -107,6 +107,23 @@ <h1>d a t a _ j u i c e r . o p s . d e d u p l i c a t o r<a class="headerlink"
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
 <p>Deduplicator to deduplicate samples at document-level using exact matching.</p>
 <p>Using md5 hash to deduplicate samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lowercase</strong> – Whether to convert sample text to lower case</p></li>
+<li><p><strong>ignore_non_character</strong> – Whether to ignore non-alphabet
+characters, including whitespaces, digits, and punctuations</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash">
 <span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash" title="Permalink to this definition">¶</a></dt>
@@ -151,6 +168,40 @@ <h1>d a t a _ j u i c e r . o p s . d e d u p l i c a t o r<a class="headerlink"
 <p>Deduplicator to deduplicate samples at document-level using MinHashLSH.</p>
 <p>Different from simhash, minhash is stored as bytes, so they won’t be
 kept in the final dataset.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_permutations</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">jaccard_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_bands</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_rows_per_band</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>tokenization</strong> – tokenization method for sample texts. It
+should be one of [space, punctuation, character]. For
+English-like languages, we recommend to use ‘space’. And for
+Chinese-like languages, we recommend to use ‘character’</p></li>
+<li><p><strong>window_size</strong> – window size of shingling</p></li>
+<li><p><strong>lowercase</strong> – whether to convert text to lower case first</p></li>
+<li><p><strong>ignore_pattern</strong> – whether to ignore sub-strings with
+specific pattern when computing minhash</p></li>
+<li><p><strong>num_permutations</strong> – number of permutations in minhash
+computing</p></li>
+<li><p><strong>jaccard_threshold</strong> – the min jaccard similarity threshold
+in near-duplicate detection. When the jaccard similarity of
+two sample texts is &gt;= this threshold, they are regarded as
+similar samples and this op will only keep one of them after
+deduplication</p></li>
+<li><p><strong>num_bands</strong> – number of bands in LSH. Default it’s None, and
+it will be determined by an optimal params computation
+algorithm by minimize the weighted sum of probs of False
+Positives and False Negatives</p></li>
+<li><p><strong>num_rows_per_band</strong> – number of rows in each band in LSH.
+Default it’s None, and it will be determined by an optimal
+params computation algorithm</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash">
 <span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash" title="Permalink to this definition">¶</a></dt>
@@ -229,6 +280,33 @@ <h1>d a t a _ j u i c e r . o p s . d e d u p l i c a t o r<a class="headerlink"
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_simhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentSimhashDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hamming_distance</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">4</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
 <p>Deduplicator to deduplicate samples at document-level using SimHash.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hamming_distance</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">4</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method :param tokenization: tokenization method for
+sample texts.</p>
+<p>It should be one of [space, punctuation, character]. For
+English-like languages, we recommend to use ‘space’. And for
+Chinese-like languages, we recommend to use ‘character’</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>window_size</strong> – window size of shingling</p></li>
+<li><p><strong>lowercase</strong> – whether to convert text to lower case first</p></li>
+<li><p><strong>ignore_pattern</strong> – whether to ignore sub-strings with
+specific pattern when computing simhash</p></li>
+<li><p><strong>num_blocks</strong> – number of blocks in simhash computing</p></li>
+<li><p><strong>hamming_distance</strong> – the max hamming distance threshold in
+near-duplicate detection. When the hamming distance of two
+sample texts is &lt;= this threshold, they are regarded as
+similar samples and this op will only keep one of them after
+deduplication. This threshold should be always less than
+num_blocks</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash">
 <span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash" title="Permalink to this definition">¶</a></dt>
diff --git a/data_juicer.ops.filter.html b/data_juicer.ops.filter.html
index 38e4082c5..dec516ab6 100644
--- a/data_juicer.ops.filter.html
+++ b/data_juicer.ops.filter.html
@@ -120,6 +120,30 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with alphabet/numeric ratio within a specific
 range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveFloat</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>tokenization</strong> – Whether to count the ratio of alphanumeric
+to the total number of tokens. if tokenization=False, it
+will count the ratio of alphanumeric to the total number of
+characters.</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in alphanumeric op,
+samples will be filtered if their alphabet/numeric ratio is
+below this parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in alphanumeric op,
+samples will be filtered if their alphabet/numeric ratio
+exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -164,6 +188,26 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with average line length within a specific
 range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min filter length in this op, samples will
+be filtered if their average line length is below this
+parameter.</p></li>
+<li><p><strong>max_len</strong> – The max filter length in this op, samples will
+be filtered if their average line length exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -208,6 +252,27 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with char-level n-gram repetition ratio within a
 specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>rep_len</strong> – Repetition length for char-level n-gram.</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op, samples will
+be filtered if their char-level n-gram repetition ratio is
+below this parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op, samples will
+be filtered if their char-level n-gram repetition ratio
+exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -252,6 +317,33 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with flagged-word ratio less than a specific max
 value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.045</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">flagged_words_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Consider flagged words in what language. If lang ==
+“all”, we will adopt the one merged from all the available
+languages</p></li>
+<li><p><strong>tokenization</strong> – Whether to use model to tokenize documents</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op.</p></li>
+<li><p><strong>flagged_words_dir</strong> – The directory storing the
+flagged_words file(s) whose name includes “flagged_words”
+and in json format</p></li>
+<li><p><strong>use_words_aug</strong> – Whether to augment words, especially for
+Chinese and Vietnamese</p></li>
+<li><p><strong>words_aug_group_sizes</strong> – The group size of words to augment</p></li>
+<li><p><strong>words_aug_join_char</strong> – The join char between words to
+augment</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -296,6 +388,23 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples in a specific language with confidence score
 larger than a specific min value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Samples in which language to keep.</p></li>
+<li><p><strong>min_score</strong> – The min language identification confidence
+scores of samples to keep.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -340,6 +449,26 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with maximum line length within a specific
 range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min filter length in this op, samples will
+be filtered if their maximum line length is below this
+parameter.</p></li>
+<li><p><strong>max_len</strong> – The max filter length in this op, samples will
+be filtered if their maximum line length exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -384,6 +513,23 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with perplexity score less than a specific max
 value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ppl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveFloat</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1500</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Compute perplexity for samples in which language.</p></li>
+<li><p><strong>max_ppl</strong> – The max filter perplexity in this op, samples
+will be filtered if their perplexity exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -428,6 +574,26 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with special-char ratio within a specific
 range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op, samples will
+be filtered if their special-char ratio is below this
+parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op, samples will
+be filtered if their special-char ratio exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -473,6 +639,26 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <p>Filter based on specified field information.</p>
 <p>If the specified field information in the sample is not within the
 specified target value, the sample will be filtered.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Filter based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>target_value</strong> – The range of specified field information
+corresponding to the samples that need to be retained.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -518,6 +704,30 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <p>Filter based on specified numeric field information.</p>
 <p>If the specified numeric information in the sample is not within the
 specified range, the sample will be filtered.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">-9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Filter based on the specified numeric value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>min_value</strong> – The min filter value in SpecifiedNumericField
+op, samples will be filtered if their specified numeric
+field value is below this parameter.</p></li>
+<li><p><strong>max_value</strong> – The max filter value in SpecifiedNumericField
+op, samples will be filtered if their specified numeric
+field value exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -567,6 +777,32 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with stopword ratio larger than a specific min
 value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stopwords_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Consider stopwords in what language. If lang ==
+“all”, we will adopt the one merged from all the available
+languages</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op.</p></li>
+<li><p><strong>stopwords_dir</strong> – The directory storing the stopwords
+file(s) whose name includes “stopwords” and in json format</p></li>
+<li><p><strong>use_words_aug</strong> – Whether to augment words, especially for
+Chinese and Vietnamese</p></li>
+<li><p><strong>words_aug_group_sizes</strong> – The group size of words to augment</p></li>
+<li><p><strong>words_aug_join_char</strong> – The join char between words to
+augment</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -610,6 +846,22 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.suffix_filter.</span></span><span class="sig-name descname"><span class="pre">SuffixFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.suffix_filter.SuffixFilter" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with specified suffix.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>suffixes</strong> – the suffix of text that will be keep.
+For example: ‘.txt’, ‘txt’ or [‘txt’, ‘.pdf’, ‘docx’]</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -654,6 +906,26 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with total text length within a specific
 range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min text length in the filtering. samples
+will be filtered if their text length is below this
+parameter.</p></li>
+<li><p><strong>max_len</strong> – The max text length in the filtering. samples
+will be filtered if their text length exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -698,6 +970,27 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with total token number within a specific
 range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'EleutherAI/pythia-6.9b-deduped'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_tokenizer</strong> – the tokenizer name of Hugging Face tokenizers.</p></li>
+<li><p><strong>min_num</strong> – The min filter token number in this op, samples
+will be filtered if their token number is below this
+parameter.</p></li>
+<li><p><strong>max_num</strong> – The max filter token number in this op, samples
+will be filtered if their token number exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -742,6 +1035,28 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with total words number within a specific
 range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.word_num_filter.WordNumFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_num_filter.html#WordNumFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_num_filter.WordNumFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – sample in which language.</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>min_num</strong> – The min filter word number in this op, samples
+will be filtered if their word number is below this
+parameter.</p></li>
+<li><p><strong>max_num</strong> – The max filter word number in this op, samples
+will be filtered if their word number exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.word_num_filter.WordNumFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_num_filter.html#WordNumFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_num_filter.WordNumFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -786,6 +1101,29 @@ <h1>d a t a _ j u i c e r . o p s . f i l t e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with word-level n-gram repetition ratio within a
 specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – sample in which language.</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>rep_len</strong> – Repetition length for word-level n-gram.</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op, samples will
+be filtered if their word-level n-gram repetition ratio is
+below this parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op, samples will
+be filtered if their word-level n-gram repetition ratio
+exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
diff --git a/data_juicer.ops.html b/data_juicer.ops.html
index 2a294f536..1d769fe98 100644
--- a/data_juicer.ops.html
+++ b/data_juicer.ops.html
@@ -112,6 +112,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 <li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">d a t a _ j u i c e r . o p s . c o m m o n</a><ul>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">data_juicer.ops.common.helper_func</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind"><code class="docutils literal notranslate"><span class="pre">UnionFind</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.__init__"><code class="docutils literal notranslate"><span class="pre">UnionFind.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.find"><code class="docutils literal notranslate"><span class="pre">UnionFind.find()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.union"><code class="docutils literal notranslate"><span class="pre">UnionFind.union()</span></code></a></li>
 </ul>
@@ -132,6 +133,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 <li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">d a t a _ j u i c e r . o p s . d e d u p l i c a t o r</a><ul>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">data_juicer.ops.deduplicator.document_deduplicator</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.compute_hash()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.process()</span></code></a></li>
 </ul>
@@ -140,6 +142,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">data_juicer.ops.deduplicator.document_minhash_deduplicator</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.compute_hash()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.process()</span></code></a></li>
 </ul>
@@ -150,6 +153,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">data_juicer.ops.deduplicator.document_simhash_deduplicator</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.compute_hash()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.process()</span></code></a></li>
 </ul>
@@ -163,6 +167,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 <li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">d a t a _ j u i c e r . o p s . f i l t e r</a><ul>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">data_juicer.ops.filter.alphanumeric_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.process()</span></code></a></li>
 </ul>
@@ -171,6 +176,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">data_juicer.ops.filter.average_line_length_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.process()</span></code></a></li>
 </ul>
@@ -179,6 +185,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">data_juicer.ops.filter.character_repetition_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.process()</span></code></a></li>
 </ul>
@@ -187,6 +194,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">data_juicer.ops.filter.flagged_words_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.process()</span></code></a></li>
 </ul>
@@ -195,6 +203,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">data_juicer.ops.filter.language_id_score_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.process()</span></code></a></li>
 </ul>
@@ -203,6 +212,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">data_juicer.ops.filter.maximum_line_length_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.process()</span></code></a></li>
 </ul>
@@ -211,6 +221,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">data_juicer.ops.filter.perplexity_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.process()</span></code></a></li>
 </ul>
@@ -219,6 +230,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">data_juicer.ops.filter.special_characters_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.process()</span></code></a></li>
 </ul>
@@ -227,6 +239,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">data_juicer.ops.filter.specified_field_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.process()</span></code></a></li>
 </ul>
@@ -235,6 +248,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">data_juicer.ops.filter.specified_numeric_field_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.process()</span></code></a></li>
 </ul>
@@ -244,6 +258,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">data_juicer.ops.filter.stopwords_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.process()</span></code></a></li>
 </ul>
@@ -252,6 +267,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">data_juicer.ops.filter.suffix_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter"><code class="docutils literal notranslate"><span class="pre">SuffixFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.process"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.process()</span></code></a></li>
 </ul>
@@ -260,6 +276,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">data_juicer.ops.filter.text_length_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.process"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.process()</span></code></a></li>
 </ul>
@@ -268,6 +285,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.token_num_filter">data_juicer.ops.filter.token_num_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.process"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.process()</span></code></a></li>
 </ul>
@@ -276,6 +294,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_num_filter">data_juicer.ops.filter.word_num_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter"><code class="docutils literal notranslate"><span class="pre">WordNumFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter.__init__"><code class="docutils literal notranslate"><span class="pre">WordNumFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">WordNumFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter.process"><code class="docutils literal notranslate"><span class="pre">WordNumFilter.process()</span></code></a></li>
 </ul>
@@ -284,6 +303,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">data_juicer.ops.filter.word_repetition_filter</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.compute_stats()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.process()</span></code></a></li>
 </ul>
@@ -295,6 +315,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 <li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">d a t a _ j u i c e r . o p s . m a p p e r</a><ul>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">data_juicer.ops.mapper.clean_copyright_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -302,6 +323,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">data_juicer.ops.mapper.clean_email_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -309,6 +331,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">data_juicer.ops.mapper.clean_html_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -316,6 +339,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">data_juicer.ops.mapper.clean_ip_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -323,6 +347,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">data_juicer.ops.mapper.clean_links_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -330,6 +355,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">data_juicer.ops.mapper.expand_macro_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -337,6 +363,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">data_juicer.ops.mapper.fix_unicode_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -344,6 +371,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpaug_en_mapper">data_juicer.ops.mapper.nlpaug_en_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -351,6 +379,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpcda_zh_mapper">data_juicer.ops.mapper.nlpcda_zh_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -358,6 +387,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">data_juicer.ops.mapper.punctuation_normalization_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -365,6 +395,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">data_juicer.ops.mapper.remove_bibliography_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -372,6 +403,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">data_juicer.ops.mapper.remove_comments_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -379,6 +411,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">data_juicer.ops.mapper.remove_header_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -386,6 +419,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">data_juicer.ops.mapper.remove_long_words_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.process()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.should_keep_long_word()</span></code></a></li>
 </ul>
@@ -394,6 +428,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">data_juicer.ops.mapper.remove_specific_chars_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -401,6 +436,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">data_juicer.ops.mapper.remove_table_text_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -408,6 +444,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.process()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings()</span></code></a></li>
 </ul>
@@ -416,6 +453,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">data_juicer.ops.mapper.sentence_split_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -423,6 +461,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">data_juicer.ops.mapper.whitespace_normalization_mapper</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper.process()</span></code></a></li>
 </ul>
 </li>
@@ -433,6 +472,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 <li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">d a t a _ j u i c e r . o p s . s e l e c t o r</a><ul>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">data_juicer.ops.selector.frequency_specified_field_selector</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector.process()</span></code></a></li>
 </ul>
 </li>
@@ -440,6 +480,7 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 </li>
 <li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">data_juicer.ops.selector.topk_specified_field_selector</a><ul>
 <li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector.__init__()</span></code></a></li>
 <li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector.process()</span></code></a></li>
 </ul>
 </li>
@@ -456,6 +497,18 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 <dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Deduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Base class that conducts deduplication.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator.compute_hash">
 <span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator.compute_hash" title="Permalink to this definition">¶</a></dt>
@@ -494,6 +547,18 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 <dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Filter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Base class that removes specific info.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.compute_stats" title="Permalink to this definition">¶</a></dt>
@@ -533,6 +598,18 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 <dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Mapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Base class that conducts text editing.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed.</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper.is_batched_op">
 <span class="sig-name descname"><span class="pre">is_batched_op</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.is_batched_op"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper.is_batched_op" title="Permalink to this definition">¶</a></dt>
@@ -558,6 +635,18 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 <dt class="sig sig-object py" id="data_juicer.ops.base_op.Selector">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Selector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Selector" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Selector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Selector.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Base class that conducts selection in dataset-level.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.base_op.Selector.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Selector.process" title="Permalink to this definition">¶</a></dt>
@@ -604,6 +693,17 @@ <h1>d a t a _ j u i c e r . o p s<a class="headerlink" href="#d-a-t-a-j-u-i-c-e-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.op_fusion.</span></span><span class="sig-name descname"><span class="pre">FusedFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">fused_filters</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#FusedFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.FusedFilter" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>A fused operator for filters.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.op_fusion.FusedFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">fused_filters</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#FusedFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.FusedFilter.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>fused_filers</strong> – a list of filters to be fused.</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.op_fusion.FusedFilter.compute_stats">
 <span class="sig-name descname"><span class="pre">compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#FusedFilter.compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.FusedFilter.compute_stats" title="Permalink to this definition">¶</a></dt>
diff --git a/data_juicer.ops.mapper.html b/data_juicer.ops.mapper.html
index 99ad1cddf..9d036bc7b 100644
--- a/data_juicer.ops.mapper.html
+++ b/data_juicer.ops.mapper.html
@@ -123,6 +123,20 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to clean copyright comments at the beginning of the text
 samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_copyright_mapper.html#CleanCopyrightMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_copyright_mapper.html#CleanCopyrightMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -147,6 +161,20 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_email_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanEmailMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to clean email in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -171,6 +199,20 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_html_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanHtmlMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to clean html code in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -195,6 +237,20 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_ip_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanIpMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to clean ipv4 and ipv6 address in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -219,6 +275,20 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_links_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanLinksMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to clean links like http/https/ftp in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -244,6 +314,20 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to expand macro definitions in the document body of Latex
 samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/expand_macro_mapper.html#ExpandMacroMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/expand_macro_mapper.html#ExpandMacroMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -268,6 +352,20 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.fix_unicode_mapper.</span></span><span class="sig-name descname"><span class="pre">FixUnicodeMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to fix unicode errors in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -292,6 +390,59 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.nlpaug_en_mapper.</span></span><span class="sig-name descname"><span class="pre">NlpaugEnMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">spelling_error_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyboard_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ocr_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">insert_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html#NlpaugEnMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to simply augment samples in English based on nlpaug library.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">spelling_error_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyboard_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ocr_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">insert_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html#NlpaugEnMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method. All augmentation methods use default parameters
+in default. We recommend you to only use 1-3 augmentation methods at a
+time. Otherwise, the semantics of samples might be changed
+significantly.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sequential</strong> – whether combine all augmentation methods to a
+sequence. If it’s True, a sample will be augmented by all opened
+augmentation methods sequentially. If it’s False, each opened
+augmentation method would generate its augmented samples
+independently.</p></li>
+<li><p><strong>aug_num</strong> – number of augmented samples to be generated. If
+<cite>sequential</cite> is True, there will be total aug_num augmented samples
+generated. If it’s False, there will be (aug_num *
+#opened_aug_method) augmented samples generated.</p></li>
+<li><p><strong>delete_random_word</strong> – whether to open the augmentation method of
+deleting random words from the original texts. e.g. “I love LLM”
+–&gt; “I LLM”</p></li>
+<li><p><strong>swap_random_word</strong> – whether to open the augmentation method of
+swapping random contiguous words in the original texts. e.g. “I
+love LLM” –&gt; “Love I LLM”</p></li>
+<li><p><strong>spelling_error_word</strong> – whether to open the augmentation method of
+simulating the spelling error for words in the original texts. e.g.
+“I love LLM” –&gt; “Ai love LLM”</p></li>
+<li><p><strong>split_random_word</strong> – whether to open the augmentation method of
+splitting words randomly with whitespaces in the original texts.
+e.g. “I love LLM” –&gt; “I love LL M”</p></li>
+<li><p><strong>keyboard_error_char</strong> – whether to open the augmentation method of
+simulating the keyboard error for characters in the original texts.
+e.g. “I love LLM” –&gt; “I ;ov4 LLM”</p></li>
+<li><p><strong>ocr_error_char</strong> – whether to open the augmentation method of
+simulating the OCR error for characters in the original texts.
+e.g. “I love LLM” –&gt; “I 10ve LLM”</p></li>
+<li><p><strong>delete_random_char</strong> – whether to open the augmentation method of
+deleting random characters from the original texts. e.g. “I love
+LLM” –&gt; “I oe LLM”</p></li>
+<li><p><strong>swap_random_char</strong> – whether to open the augmentation method of
+swapping random contiguous characters in the original texts.
+e.g. “I love LLM” –&gt; “I ovle LLM”</p></li>
+<li><p><strong>insert_random_char</strong> – whether to open the augmentation method of
+inserting random characters into the original texts. e.g. “I love
+LLM” –&gt; “I ^lKove LLM”</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html#NlpaugEnMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -316,6 +467,49 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.nlpcda_zh_mapper.</span></span><span class="sig-name descname"><span class="pre">NlpcdaZhMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_similar_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_homophone_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_equivalent_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html#NlpcdaZhMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to simply augment samples in Chinese based on nlpcda library.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_similar_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_homophone_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_equivalent_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html#NlpcdaZhMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method. All augmentation methods use default parameters
+in default. We recommend you to only use 1-3 augmentation methods at a
+time. Otherwise, the semantics of samples might be changed
+significantly. <strong>Notice</strong>: some augmentation method might not work for
+some special texts, so there might be no augmented texts generated.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sequential</strong> – whether combine all augmentation methods to a
+sequence. If it’s True, a sample will be augmented by all opened
+augmentation methods sequentially. If it’s False, each opened
+augmentation method would generate its augmented samples
+independently.</p></li>
+<li><p><strong>aug_num</strong> – number of augmented samples to be generated. If
+<cite>sequential</cite> is True, there will be total aug_num augmented samples
+generated. If it’s False, there will be (aug_num *
+#opened_aug_method) augmented samples generated.</p></li>
+<li><p><strong>replace_similar_word</strong> – whether to open the augmentation method of
+replacing random words with their similar words in the original
+texts. e.g. “这里一共有5种不同的数据增强方法” –&gt; “这边一共有5种不同的数据增强方法”</p></li>
+<li><p><strong>replace_homophone_char</strong> – whether to open the augmentation method
+of replacing random characters with their homophones in the
+original texts. e.g. “这里一共有5种不同的数据增强方法” –&gt; “这里一共有5种不同的濖据增强方法”</p></li>
+<li><p><strong>delete_random_char</strong> – whether to open the augmentation method of
+deleting random characters from the original texts. e.g.
+“这里一共有5种不同的数据增强方法” –&gt; “这里一共有5种不同的数据增强”</p></li>
+<li><p><strong>swap_random_char</strong> – whether to open the augmentation method of
+swapping random contiguous characters in the original texts. e.g.
+“这里一共有5种不同的数据增强方法” –&gt; “这里一共有5种不同的数据强增方法”</p></li>
+<li><p><strong>replace_equivalent_num</strong> – whether to open the augmentation method
+of replacing random numbers with their equivalent representations
+in the original texts. <strong>Notice</strong>: Only for numbers for now. e.g.
+“这里一共有5种不同的数据增强方法” –&gt; “这里一共有伍种不同的数据增强方法”</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html#NlpcdaZhMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -341,6 +535,20 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to normalize unicode punctuations to English punctuations in text
 samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html#PunctuationNormalizationMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html#PunctuationNormalizationMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -366,6 +574,20 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to remove bibliography at the end of documents in Latex
 samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html#RemoveBibliographyMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html#RemoveBibliographyMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -391,6 +613,23 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to remove comments in different kinds of documents.</p>
 <p>Only support ‘tex’ for now.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">doc_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'tex'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">inline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">multiline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_comments_mapper.html#RemoveCommentsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>doc_type</strong> – Type of document to remove comments.</p></li>
+<li><p><strong>inline</strong> – Whether to remove inline comments.</p></li>
+<li><p><strong>multiline</strong> – Whether to remove multiline comments.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_comments_mapper.html#RemoveCommentsMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -416,6 +655,22 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to remove headers at the beginning of documents in Latex
 samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">drop_no_head</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_header_mapper.html#RemoveHeaderMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>drop_no_head</strong> – whether to drop sample texts without
+headers.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_header_mapper.html#RemoveHeaderMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -440,6 +695,24 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_long_words_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveLongWordsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to remove long words within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min mapper word length in this op, words
+will be filtered if their length is below this parameter.</p></li>
+<li><p><strong>max_len</strong> – The max mapper word length in this op, words
+will be filtered if their length exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -469,6 +742,22 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_specific_chars_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveSpecificCharsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">chars_to_remove</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'◆●■►▼▲▴∆▻▷❖♡□'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to clean specific chars in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">chars_to_remove</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'◆●■►▼▲▴∆▻▷❖♡□'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>chars_to_remove</strong> – a list or a string including all
+characters that need to be removed from text.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -495,6 +784,22 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <p>Mapper to remove table texts from text samples.</p>
 <p>Regular expression is used to remove tables in the range of column
 number of tables.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">from_2_to_20</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">from_2_to_20</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_table_text_mapper.html#RemoveTableTextMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_col</strong> – The min number of columns of table to remove.</p></li>
+<li><p><strong>max_col</strong> – The max number of columns of table to remove.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_table_text_mapper.html#RemoveTableTextMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -519,6 +824,23 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">substrings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to remove words with incorrect substrings.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">substrings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – sample in which language</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>substrings</strong> – The incorrect substrings in words.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -548,6 +870,21 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.sentence_split_mapper.</span></span><span class="sig-name descname"><span class="pre">SentenceSplitMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to split text samples to sentences.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – split sentence of text in which language.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process" title="Permalink to this definition">¶</a></dt>
@@ -575,6 +912,20 @@ <h1>d a t a _ j u i c e r . o p s . m a p p e r<a class="headerlink" href="#d-a-
 in text samples.</p>
 <p>Different kinds of whitespaces can be found here:
 <a class="reference external" href="https://en.wikipedia.org/wiki/Whitespace_character">https://en.wikipedia.org/wiki/Whitespace_character</a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html#WhitespaceNormalizationMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html#WhitespaceNormalizationMapper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process" title="Permalink to this definition">¶</a></dt>
diff --git a/data_juicer.ops.selector.html b/data_juicer.ops.selector.html
index 83ceeface..5b36f1683 100644
--- a/data_juicer.ops.selector.html
+++ b/data_juicer.ops.selector.html
@@ -106,6 +106,36 @@ <h1>d a t a _ j u i c e r . o p s . s e l e c t o r<a class="headerlink" href="#
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
 <p>Selector to select samples based on the sorted frequency of specified
 field.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/frequency_specified_field_selector.html#FrequencySpecifiedFieldSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Selector based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>top_ratio</strong> – Ratio of selected top specified field value,
+samples will be selected if their specified field values are
+within this parameter. When both topk and top_ratio are set,
+the value corresponding to the smaller number of samples
+will be applied.</p></li>
+<li><p><strong>topk</strong> – Number of selected top specified field value,
+samples will be selected if their specified field values are
+within this parameter. When both topk and top_ratio are set,
+the value corresponding to the smaller number of samples
+will be applied.</p></li>
+<li><p><strong>reverse</strong> – Determine the sorting rule, if reverse=True,
+then sort in descending order.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/frequency_specified_field_selector.html#FrequencySpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process" title="Permalink to this definition">¶</a></dt>
@@ -131,6 +161,36 @@ <h1>d a t a _ j u i c e r . o p s . s e l e c t o r<a class="headerlink" href="#
 <dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
 <p>Selector to select top samples based on the sorted specified field
 value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">PositiveInt</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#TopkSpecifiedFieldSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Selector based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>top_ratio</strong> – Ratio of selected top samples, samples will be
+selected if their specified field values are within this
+parameter. When both topk and top_ratio are set, the value
+corresponding to the smaller number of samples will be
+applied.</p></li>
+<li><p><strong>topk</strong> – Number of selected top sample, samples will be
+selected if their specified field values are within this
+parameter. When both topk and top_ratio are set, the value
+corresponding to the smaller number of samples will be
+applied.</p></li>
+<li><p><strong>reverse</strong> – Determine the sorting rule, if reverse=True,
+then sort in descending order.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process">
 <span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#TopkSpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process" title="Permalink to this definition">¶</a></dt>
diff --git a/data_juicer.utils.html b/data_juicer.utils.html
index e565cb315..312e588d7 100644
--- a/data_juicer.utils.html
+++ b/data_juicer.utils.html
@@ -188,6 +188,21 @@ <h1>d a t a _ j u i c e r . u t i l s<a class="headerlink" href="#d-a-t-a-j-u-i-
 Rerun the same config will reload the checkpoint and skip ops before it.</p>
 <p>If any args of operator in process list is changed, all ops will be
 rerun from the beginning.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ckpt_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">original_process_list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>ckpt_dir</strong> – path to save and load checkpoint</p></li>
+<li><p><strong>original_process_list</strong> – process list in config</p></li>
+<li><p><strong>num_proc</strong> – number of process workers when saving dataset</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt">
 <span class="sig-name descname"><span class="pre">check_ckpt</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.check_ckpt"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt" title="Permalink to this definition">¶</a></dt>
@@ -282,6 +297,18 @@ <h1>d a t a _ j u i c e r . u t i l s<a class="headerlink" href="#d-a-t-a-j-u-i-
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
 <p>This class is used to compress or decompress huggingface cache files
 using compression format algorithms.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CacheCompressManager.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">compressor_format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'zstd'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CacheCompressManager.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CacheCompressManager.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>compressor_format</strong> – compression format algorithms,
+default <cite>zstd</cite>.</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files">
 <span class="sig-name descname"><span class="pre">cleanup_cache_files</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ds</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CacheCompressManager.cleanup_cache_files"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files" title="Permalink to this definition">¶</a></dt>
@@ -345,6 +372,18 @@ <h1>d a t a _ j u i c e r . u t i l s<a class="headerlink" href="#d-a-t-a-j-u-i-
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
 <p>This class is used to compress or decompress a input file
 using compression format algorithms.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CompressManager.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">compressor_format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'zstd'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CompressManager.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CompressManager.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>compressor_format</strong> – compression format algorithms,
+default <cite>zstd</cite>.</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.utils.compress.CompressManager.compress">
 <span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CompressManager.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CompressManager.compress" title="Permalink to this definition">¶</a></dt>
@@ -677,6 +716,11 @@ <h1>d a t a _ j u i c e r . u t i l s<a class="headerlink" href="#d-a-t-a-j-u-i-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.fingerprint_utils.</span></span><span class="sig-name descname"><span class="pre">Hasher</span></span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
 <p>Hasher that accepts python objets as inputs.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.__init__" title="Permalink to this definition">¶</a></dt>
+<dd></dd></dl>
+
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.dispatch">
 <span class="sig-name descname"><span class="pre">dispatch</span></span><em class="property"><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="pre">Dict</span></em><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">{}</span></em><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.dispatch" title="Permalink to this definition">¶</a></dt>
@@ -737,6 +781,21 @@ <h1>d a t a _ j u i c e r . u t i l s<a class="headerlink" href="#d-a-t-a-j-u-i-
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">StreamToLoguru</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">level</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'INFO'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caller_names</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">('datasets',</span> <span class="pre">'logging')</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru" title="Permalink to this definition">¶</a></dt>
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
 <p>Stream object that redirects writes to a logger instance.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">level</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'INFO'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caller_names</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">('datasets',</span> <span class="pre">'logging')</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>level</strong> – log level string of loguru. Default value: “INFO”.</p></li>
+<li><p><strong>caller_names</strong> – caller names of redirected module.
+Default value: (apex, pycocotools).</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru.flush">
 <span class="sig-name descname"><span class="pre">flush</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru.flush"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru.flush" title="Permalink to this definition">¶</a></dt>
@@ -962,6 +1021,17 @@ <h1>d a t a _ j u i c e r . u t i l s<a class="headerlink" href="#d-a-t-a-j-u-i-
 <dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
 <p>This class is used to register some modules to registry by a repo
 name.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>name</strong> – a registry repo name</p>
+</dd>
+</dl>
+</dd></dl>
+
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.get">
 <span class="sig-name descname"><span class="pre">get</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">module_key</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry.get"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry.get" title="Permalink to this definition">¶</a></dt>
diff --git a/genindex.html b/genindex.html
index 9046c3037..03db3bd90 100644
--- a/genindex.html
+++ b/genindex.html
@@ -71,7 +71,8 @@
 <h1 id="index">Index</h1>
 
 <div class="genindex-jumpbox">
- <a href="#A"><strong>A</strong></a>
+ <a href="#_"><strong>_</strong></a>
+ | <a href="#A"><strong>A</strong></a>
  | <a href="#B"><strong>B</strong></a>
  | <a href="#C"><strong>C</strong></a>
  | <a href="#D"><strong>D</strong></a>
@@ -95,6 +96,156 @@ <h1 id="index">Index</h1>
  | <a href="#Z"><strong>Z</strong></a>
  
 </div>
+<h2 id="_">_</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__">__init__() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis method)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__">(data_juicer.analysis.diversity_analysis.DiversityAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.__init__">(data_juicer.analysis.overall_analysis.OverallAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.analyser.Analyser.__init__">(data_juicer.core.analyser.Analyser method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.__init__">(data_juicer.core.data.NestedDataset method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDatasetDict.__init__">(data_juicer.core.data.NestedDatasetDict method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.data.NestedQueryDict.__init__">(data_juicer.core.data.NestedQueryDict method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.executor.Executor.__init__">(data_juicer.core.executor.Executor method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.__init__">(data_juicer.core.exporter.Exporter method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor.__init__">(data_juicer.core.ray_executor.RayExecutor method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.tracer.Tracer.__init__">(data_juicer.core.tracer.Tracer method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.__init__">(data_juicer.format.csv_formatter.CsvFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.__init__">(data_juicer.format.formatter.LocalFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.__init__">(data_juicer.format.formatter.RemoteFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.__init__">(data_juicer.format.json_formatter.JsonFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.__init__">(data_juicer.format.mixture_formatter.MixtureFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.__init__">(data_juicer.format.parquet_formatter.ParquetFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.__init__">(data_juicer.format.text_formatter.TextFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.__init__">(data_juicer.format.tsv_formatter.TsvFormatter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.__init__">(data_juicer.ops.base_op.Deduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.__init__">(data_juicer.ops.base_op.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.__init__">(data_juicer.ops.base_op.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.__init__">(data_juicer.ops.base_op.Selector method)</a>
+</li>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.__init__">(data_juicer.ops.common.helper_func.UnionFind method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__">(data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__">(data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__">(data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__">(data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__">(data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__">(data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__">(data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__">(data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__">(data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__">(data_juicer.ops.filter.perplexity_filter.PerplexityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__">(data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__">(data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__">(data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__">(data_juicer.ops.filter.stopwords_filter.StopWordsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__">(data_juicer.ops.filter.suffix_filter.SuffixFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__">(data_juicer.ops.filter.text_length_filter.TextLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__">(data_juicer.ops.filter.token_num_filter.TokenNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_num_filter.WordNumFilter.__init__">(data_juicer.ops.filter.word_num_filter.WordNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__">(data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__">(data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__">(data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__">(data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__">(data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__">(data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__">(data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__">(data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__">(data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__">(data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__">(data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__">(data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__">(data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__">(data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__">(data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__">(data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__">(data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__">(data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__">(data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__">(data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.__init__">(data_juicer.ops.op_fusion.FusedFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__">(data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__">(data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.__init__">(data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.__init__">(data_juicer.utils.compress.CacheCompressManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.__init__">(data_juicer.utils.compress.CompressManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.__init__">(data_juicer.utils.fingerprint_utils.Hasher method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.__init__">(data_juicer.utils.logger_utils.StreamToLoguru method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.__init__">(data_juicer.utils.registry.Registry method)</a>
+</li>
+      </ul></li>
+  </ul></td>
+</tr></table>
+
 <h2 id="A">A</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
diff --git a/objects.inv b/objects.inv
index a77bf52fb..f9adf6cef 100644
Binary files a/objects.inv and b/objects.inv differ
diff --git a/searchindex.js b/searchindex.js
index 912e30c48..f1a093fad 100644
--- a/searchindex.js
+++ b/searchindex.js
@@ -1 +1 @@
-Search.setIndex({"docnames": ["data_juicer", "data_juicer.analysis", "data_juicer.config", "data_juicer.core", "data_juicer.format", "data_juicer.ops", "data_juicer.ops.common", "data_juicer.ops.deduplicator", "data_juicer.ops.filter", "data_juicer.ops.mapper", "data_juicer.ops.selector", "data_juicer.tools", "data_juicer.utils", "index", "modules"], "filenames": ["data_juicer.rst", "data_juicer.analysis.rst", "data_juicer.config.rst", "data_juicer.core.rst", "data_juicer.format.rst", "data_juicer.ops.rst", "data_juicer.ops.common.rst", "data_juicer.ops.deduplicator.rst", "data_juicer.ops.filter.rst", "data_juicer.ops.mapper.rst", "data_juicer.ops.selector.rst", "data_juicer.tools.rst", "data_juicer.utils.rst", "index.rst", "modules.rst"], "titles": ["d a t a _ j u i c e r", "d a t a _ j u i c e r . a n a l y s i s", "d a t a _ j u i c e r . c o n f i g", "d a t a _ j u i c e r . c o r e", "d a t a _ j u i c e r . f o r m a t", "d a t a _ j u i c e r . o p s", "d a t a _ j u i c e r . o p s . c o m m o n", "d a t a _ j u i c e r . o p s . d e d u p l i c a t o r", "d a t a _ j u i c e r . o p s . f i l t e r", "d a t a _ j u i c e r . o p s . m a p p e r", "d a t a _ j u i c e r . o p s . s e l e c t o r", "d a t a _ j u i c e r . t o o l s", "d a t a _ j u i c e r . u t i l s", "Welcome to data-juicer\u2019s documentation!", "data_juicer"], "terms": {"n": [0, 5, 8, 13, 14], "l": [0, 5, 13, 14], "y": [0, 6, 13, 14], "": [0, 4, 14], "data_juic": 0, "analysi": [0, 3, 13, 14], "column_wise_analysi": [0, 13, 14], "columnwiseanalysi": [0, 1, 3, 13, 14], "analys": [0, 1, 2, 13, 14], "draw_box": [0, 1], "draw_hist": [0, 1], "get_row_col": [0, 1, 13, 14], "diversity_analysi": [0, 13, 14], "diversityanalysi": [0, 1, 13, 14], "comput": [0, 1, 3, 5, 6, 7, 8, 12], "find_root_verb_and_its_dobj": [0, 1, 13, 14], "find_root_verb_and_its_dobj_in_str": [0, 1, 13, 14], "get_divers": [0, 1, 13, 14], "overall_analysi": [0, 13, 14], "overallanalysi": [0, 1, 3, 13, 14], "o": [0, 12, 13, 14], "f": [0, 3, 5, 13, 14], "g": [0, 3, 4, 13, 14], "config": [0, 3, 5, 12, 13, 14], "config_backup": [0, 2, 13, 14], "display_config": [0, 2, 13, 14], "init_config": [0, 2, 13, 14], "init_setup_from_cfg": [0, 2, 13, 14], "sort_op_by_types_and_nam": [0, 2, 13, 14], "core": [0, 13, 14], "run": [0, 3], "data": [0, 1, 4, 7, 14], "nesteddataset": [0, 3, 13, 14], "add_column": [0, 3], "cleanup_cache_fil": [0, 3, 12], "filter": [0, 3, 4, 5, 13, 14], "from_dict": [0, 3], "map": [0, 3, 4], "remove_column": [0, 3], "select": [0, 3, 4, 5, 7, 10], "select_column": [0, 3], "nesteddatasetdict": [0, 3, 13, 14], "nestedquerydict": [0, 3, 13, 14], "nested_obj_factori": [0, 3, 13, 14], "nested_queri": [0, 3, 13, 14], "wrap_func_with_nested_access": [0, 3, 13, 14], "executor": [0, 2, 13, 14], "export": [0, 4, 13, 14], "gib": [0, 3], "kib": [0, 3], "mib": [0, 3], "tib": [0, 3], "to_jsonl": [0, 3], "to_parquet": [0, 3], "ray_executor": [0, 13, 14], "rayexecutor": [0, 3, 13, 14], "tracer": [0, 5, 7, 13, 14], "trace_batch_mapp": [0, 3], "trace_dedupl": [0, 3], "trace_filt": [0, 3], "trace_mapp": [0, 3], "m": [0, 5, 13, 14], "format": [0, 3, 12, 13, 14], "csv_formatt": [0, 13, 14], "csvformatt": [0, 4, 13, 14], "suffix": [0, 4, 8, 12], "formatt": [0, 13, 14], "baseformatt": [0, 4, 13, 14], "load_dataset": [0, 4], "localformatt": [0, 4, 13, 14], "remoteformatt": [0, 4, 13, 14], "add_suffix": [0, 4, 13, 14], "load_formatt": [0, 4, 13, 14], "unify_format": [0, 4, 13, 14], "json_formatt": [0, 13, 14], "jsonformatt": [0, 4, 13, 14], "load": [0, 1, 3, 12, 13, 14], "mixture_formatt": [0, 13, 14], "mixtureformatt": [0, 4, 13, 14], "parquet_formatt": [0, 13, 14], "parquetformatt": [0, 4, 13, 14], "text_formatt": [0, 13, 14], "textformatt": [0, 4, 12, 13, 14], "extract_txt_from_docx": [0, 4, 13, 14], "extract_txt_from_pdf": [0, 4, 13, 14], "tsv_formatt": [0, 13, 14], "tsvformatt": [0, 4, 13, 14], "p": [0, 13, 14], "op": [0, 2, 3, 12, 13, 14], "common": [0, 3, 5, 13, 14], "helper_func": [0, 5, 13, 14], "unionfind": [0, 5, 6], "get_sentences_from_docu": [0, 5, 6], "get_words_from_docu": [0, 5, 6], "merge_on_whitespace_tab_newlin": [0, 5, 6], "split_on_newline_tab_whitespac": [0, 5, 6], "split_on_whitespac": [0, 5, 6], "strip": [0, 5, 6], "words_augment": [0, 5, 6], "words_refin": [0, 5, 6], "special_charact": [0, 5, 13, 14], "dedupl": [0, 3, 5, 13, 14], "document_dedupl": [0, 5, 13, 14], "documentdedupl": [0, 5, 7], "document_minhash_dedupl": [0, 5, 13, 14], "documentminhashdedupl": [0, 5, 7], "optimal_param": [0, 5, 7], "sha1_hash32": [0, 5, 7], "document_simhash_dedupl": [0, 5, 13, 14], "documentsimhashdedupl": [0, 5, 7], "local_num_differing_bit": [0, 5, 7], "num_differing_bits_selector": [0, 5, 7], "alphanumeric_filt": [0, 5, 13, 14], "alphanumericfilt": [0, 5, 8], "average_line_length_filt": [0, 5, 13, 14], "averagelinelengthfilt": [0, 5, 8], "character_repetition_filt": [0, 5, 13, 14], "characterrepetitionfilt": [0, 5, 8], "flagged_words_filt": [0, 5, 13, 14], "flaggedwordfilt": [0, 5, 8], "language_id_score_filt": [0, 5, 13, 14], "languageidscorefilt": [0, 5, 8], "maximum_line_length_filt": [0, 5, 13, 14], "maximumlinelengthfilt": [0, 5, 8], "perplexity_filt": [0, 5, 13, 14], "perplexityfilt": [0, 5, 8], "special_characters_filt": [0, 5, 13, 14], "specialcharactersfilt": [0, 5, 8], "specified_field_filt": [0, 5, 13, 14], "specifiedfieldfilt": [0, 5, 8], "specified_numeric_field_filt": [0, 5, 13, 14], "specifiednumericfieldfilt": [0, 5, 8], "is_numb": [0, 5, 8], "stopwords_filt": [0, 5, 13, 14], "stopwordsfilt": [0, 5, 8], "suffix_filt": [0, 5, 13, 14], "suffixfilt": [0, 5, 8], "text_length_filt": [0, 5, 13, 14], "textlengthfilt": [0, 5, 8], "token_num_filt": [0, 5, 13, 14], "tokennumfilt": [0, 5, 8], "word_num_filt": [0, 5, 13, 14], "wordnumfilt": [0, 5, 8], "word_repetition_filt": [0, 5, 13, 14], "wordrepetitionfilt": [0, 5, 8], "mapper": [0, 3, 5, 13, 14], "clean_copyright_mapp": [0, 5, 13, 14], "cleancopyrightmapp": [0, 5, 9], "clean_email_mapp": [0, 5, 13, 14], "cleanemailmapp": [0, 5, 9], "clean_html_mapp": [0, 5, 13, 14], "cleanhtmlmapp": [0, 5, 9], "clean_ip_mapp": [0, 5, 13, 14], "cleanipmapp": [0, 5, 9], "clean_links_mapp": [0, 5, 13, 14], "cleanlinksmapp": [0, 5, 9], "expand_macro_mapp": [0, 5, 13, 14], "expandmacromapp": [0, 5, 9], "fix_unicode_mapp": [0, 5, 13, 14], "fixunicodemapp": [0, 5, 9], "nlpaug_en_mapp": [0, 5, 13, 14], "nlpaugenmapp": [0, 5, 9], "nlpcda_zh_mapp": [0, 5, 13, 14], "nlpcdazhmapp": [0, 5, 9], "punctuation_normalization_mapp": [0, 5, 13, 14], "punctuationnormalizationmapp": [0, 5, 9], "remove_bibliography_mapp": [0, 5, 13, 14], "removebibliographymapp": [0, 5, 9], "remove_comments_mapp": [0, 5, 13, 14], "removecommentsmapp": [0, 5, 9], "remove_header_mapp": [0, 5, 13, 14], "removeheadermapp": [0, 5, 9], "remove_long_words_mapp": [0, 5, 13, 14], "removelongwordsmapp": [0, 5, 9], "remove_specific_chars_mapp": [0, 5, 13, 14], "removespecificcharsmapp": [0, 5, 9], "remove_table_text_mapp": [0, 5, 13, 14], "removetabletextmapp": [0, 5, 9], "remove_words_with_incorrect_substrings_mapp": [0, 5, 13, 14], "removewordswithincorrectsubstringsmapp": [0, 5, 9], "sentence_split_mapp": [0, 5, 13, 14], "sentencesplitmapp": [0, 5, 9], "whitespace_normalization_mapp": [0, 5, 13, 14], "whitespacenormalizationmapp": [0, 5, 9], "selector": [0, 5, 13, 14], "frequency_specified_field_selector": [0, 5, 13, 14], "frequencyspecifiedfieldselector": [0, 5, 10], "topk_specified_field_selector": [0, 5, 13, 14], "topkspecifiedfieldselector": [0, 5, 10], "to_numb": [0, 5, 10], "base_op": [0, 13, 14], "compute_hash": [0, 5, 7], "process": [0, 3, 4, 5, 6, 7, 8, 9, 10, 12], "compute_stat": [0, 5, 8], "is_batched_op": [0, 5], "load_op": [0, 5, 13, 14], "op_fus": [0, 13, 14], "fusedfilt": [0, 5, 13, 14], "fuse_filter_group": [0, 5, 13, 14], "fuse_oper": [0, 5, 13, 14], "util": [0, 13, 14], "asset_util": [0, 13, 14], "load_words_asset": [0, 12, 13, 14], "cache_util": [0, 13, 14], "ckpt_util": [0, 13, 14], "checkpointmanag": [0, 12, 13, 14], "check_ckpt": [0, 12], "check_ops_to_skip": [0, 12], "get_left_process_list": [0, 12], "load_ckpt": [0, 12], "record": [0, 12], "save_ckpt": [0, 12], "compress": [0, 3, 13, 14], "basecompressor": [0, 12, 13, 14], "cachecompressmanag": [0, 12, 13, 14], "decompress": [0, 12, 13, 14], "format_cache_file_nam": [0, 12], "compressmanag": [0, 12, 13, 14], "compressionoff": [0, 12, 13, 14], "compressor": [0, 12, 13, 14], "extractor": [0, 12, 13, 14], "extract": [0, 3, 4, 12], "filelock": [0, 12, 13, 14], "gzipcompressor": [0, 12, 13, 14], "lz4compressor": [0, 12, 13, 14], "zstdcompressor": [0, 12, 13, 14], "cleanup_compressed_cache_fil": [0, 12, 13, 14], "constant": [0, 13, 14], "field": [0, 4, 8, 10, 12, 13, 14], "context": [0, 5, 8, 12], "meta": [0, 3, 4, 12], "stat": [0, 1, 3, 5, 8, 12], "hashkei": [0, 12, 13, 14], "hash": [0, 5, 7, 12], "minhash": [0, 7, 12], "simhash": [0, 7, 12], "intervar": [0, 12, 13, 14], "line": [0, 1, 2, 8, 12], "refined_word": [0, 12], "word": [0, 6, 8, 9, 12], "statskei": [0, 12, 13, 14], "alnum_ratio": [0, 12], "alpha_token_ratio": [0, 12], "avg_line_length": [0, 12], "char_rep_ratio": [0, 12], "flagged_words_ratio": [0, 12], "lang": [0, 8, 9, 12], "lang_scor": [0, 12], "max_line_length": [0, 12], "num_token": [0, 12], "num_word": [0, 12], "perplex": [0, 8, 12], "special_char_ratio": [0, 12], "stopwords_ratio": [0, 12], "text_len": [0, 12], "word_rep_ratio": [0, 12], "file_util": [0, 13, 14], "find_files_with_suffix": [0, 12, 13, 14], "is_absolute_path": [0, 12, 13, 14], "fingerprint_util": [0, 13, 14], "hasher": [0, 12, 13, 14], "dispatch": [0, 12], "hash_byt": [0, 12], "hash_default": [0, 12], "hexdigest": [0, 12], "updat": [0, 2, 12], "generate_fingerprint": [0, 12, 13, 14], "update_fingerprint": [0, 12, 13, 14], "logger_util": [0, 13, 14], "hiddenprint": [0, 12, 13, 14], "streamtologuru": [0, 12, 13, 14], "flush": [0, 12], "write": [0, 12], "get_caller_nam": [0, 12, 13, 14], "get_log_file_path": [0, 12, 13, 14], "redirect_sys_output": [0, 12, 13, 14], "setup_logg": [0, 12, 13, 14], "model_util": [0, 13, 14], "check_model": [0, 12, 13, 14], "get_model": [0, 12, 13, 14], "prepare_diversity_model": [0, 12, 13, 14], "prepare_fasttext_model": [0, 12, 13, 14], "prepare_huggingface_token": [0, 12, 13, 14], "prepare_kenlm_model": [0, 12, 13, 14], "prepare_model": [0, 12, 13, 14], "prepare_nltk_model": [0, 12, 13, 14], "prepare_sentencepiece_model": [0, 12, 13, 14], "registri": [0, 13, 14], "get": [0, 1, 4, 6, 12], "list": [0, 1, 2, 3, 4, 5, 6, 8, 9, 12], "modul": [0, 2, 12, 13], "name": [0, 1, 2, 3, 4, 5, 12], "register_modul": [0, 12], "class": [1, 3, 4, 5, 6, 7, 8, 9, 10, 12], "dataset": [1, 3, 4, 5, 7, 10, 12], "output_path": [1, 12], "overall_result": 1, "none": [1, 2, 3, 4, 5, 6, 7, 9, 10, 12], "save_stats_in_one_fil": 1, "true": [1, 3, 5, 6, 7, 8, 9, 10, 12], "sourc": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12], "base": [1, 3, 4, 5, 6, 7, 8, 9, 10, 12], "object": [1, 2, 3, 4, 5, 6, 12], "appli": [1, 3], "each": [1, 2, 5], "column": [1, 3, 9], "respect": [1, 7], "show_percentil": 1, "fals": [1, 4, 5, 6, 7, 8, 9, 12], "show": [1, 3], "draw": 1, "figur": [1, 3], "paramet": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12], "whether": [1, 4, 5, 6, 8, 12], "percentil": 1, "sub": [1, 2, 6, 12], "If": [1, 8, 12], "sever": 1, "red": 1, "indic": 1, "quantil": 1, "distribut": [1, 3], "singl": [1, 5], "window": 1, "after": [1, 2, 3, 4, 6, 7], "return": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12], "ax": 1, "save_path": 1, "box": 1, "plot": 1, "path": [1, 3, 4, 12], "save": [1, 4, 12], "overal": 1, "result": [1, 3], "includ": [1, 5], "inform": [1, 5, 8], "histogram": 1, "total_num": 1, "factor": 1, "2": [1, 3, 6, 8, 9], "given": [1, 3], "total": [1, 8], "number": [1, 3, 4, 5, 7, 8, 9, 12], "best": 1, "row": [1, 7], "thi": [1, 3, 5, 6, 7, 8, 12], "function": [1, 3, 6, 7], "need": [1, 6, 12], "when": [1, 3, 4, 5, 7, 12], "we": [1, 7, 12], "store": [1, 3, 4, 5, 7, 8, 12], "all": [1, 3, 6, 12], "one": [1, 2, 6, 12], "imag": 1, "type": [1, 2, 4, 7, 12], "In": 1, "default": [1, 2, 4, 12], "which": [1, 3, 5, 8, 12], "mean": [1, 12], "ar": [1, 3, 6, 12], "grid": 1, "lang_or_model": 1, "en": [1, 8, 9, 12], "divers": [1, 12], "sampl": [1, 3, 4, 5, 7, 8, 9, 10], "an": [1, 3, 4, 5, 7, 12], "column_nam": 1, "text": [1, 4, 8, 9], "postproc_func": 1, "postproc_kwarg": 1, "whole": 1, "model": [1, 6, 12], "specif": [1, 3, 8, 9, 12], "languag": [1, 8, 12], "us": [1, 2, 3, 4, 5, 6, 7, 8, 9, 12], "argument": [1, 3, 5], "lexic": 1, "tree": 1, "tree_root": 1, "find": [1, 3, 5, 6, 12], "verb": 1, "its": [1, 3, 4, 5, 12], "closest": 1, "root": 1, "valid": [1, 12], "nlp": 1, "first_sent": 1, "input": [1, 3, 4, 5, 7, 8, 10, 12], "string": [1, 12], "first": [1, 3, 6], "sentenc": [1, 6, 9], "onli": [1, 3, 9, 12], "matter": 1, "over": 1, "top_k_verb": 1, "20": [1, 9], "top_k_noun": 1, "4": [1, 7], "kwarg": [1, 3, 4, 7, 8, 9, 10, 12], "keep": [1, 5, 8, 12], "largest": 1, "group": [1, 5, 6], "noun": 1, "extra": [1, 2, 3, 12], "arg": [1, 2, 3, 4, 5, 7, 8, 9, 10, 12], "std": 1, "etc": [1, 3, 12], "describ": 1, "method": [1, 3, 6, 7], "panda": 1, "cfg": [2, 3, 4], "initi": 2, "jsonargpars": 2, "parser": 2, "pars": 2, "from": [2, 3, 4, 5, 6, 7, 9, 12], "posix": 2, "style": 2, "command": [2, 4], "file": [2, 3, 4, 5, 12], "yaml": 2, "json": [2, 3, 4], "jsonnet": 2, "superset": 2, "environ": [2, 12], "variabl": [2, 5], "hard": 2, "code": [2, 9], "param": [2, 6, 12], "conifg": 2, "defaut": 2, "global": [2, 4], "do": 2, "some": [2, 7, 12], "setup": [2, 12], "task": 2, "creat": 2, "work": [2, 3], "directori": [2, 3, 4, 12], "log": [2, 12], "cach": [2, 3, 8, 12], "checkpoint": [2, 3, 12], "temp_dir": 2, "tempfil": 2, "origin": [2, 4, 5, 7, 12], "op_name_class": 2, "split": [2, 6, 9], "item": [2, 3, 5], "sort": [2, 10], "them": [2, 4, 12], "concat": 2, "togeth": 2, "pair": [2, 3, 5, 7], "op_nam": [2, 3, 12], "op_class": 2, "It": 3, "multipl": [3, 4, 6, 12], "gener": [3, 12], "tabl": [3, 9], "help": 3, "user": 3, "understand": 3, "better": 3, "load_data_np": 3, "pipelin": 3, "worker": 3, "karg": 3, "enhanc": 3, "huggingfac": [3, 4, 12], "usabl": 3, "effici": 3, "overrid": [3, 12], "add": [3, 4], "func": 3, "can": [3, 9], "access": 3, "nest": 3, "manner": 3, "clear": 3, "raw": 3, "call": [3, 7], "most": 3, "oper": [3, 5, 12], "classmethod": [3, 12], "from_xx": 3, "constructor": 3, "construct": 3, "remov": [3, 6, 9, 12], "datasetdict": [3, 4], "dict": [3, 12], "obj": 3, "wrap": 3, "root_obj": 3, "kei": [3, 4, 12], "check": [3, 4, 12], "flatten": 3, "layer": 3, "queri": 3, "date": 3, "befor": [3, 12], "conduct": [3, 4], "actual": 3, "ones": 3, "unifi": [3, 4], "order": 3, "export_path": 3, "export_shard_s": 3, "0": [3, 4, 5, 7, 8, 12], "export_in_parallel": 3, "num_proc": [3, 4, 12], "1": [3, 4, 9, 12], "export_d": 3, "export_stat": 3, "The": [3, 4, 5, 7], "1073741824": 3, "1024": 3, "1048576": 3, "1099511627776": 3, "static": [3, 12], "jsonl": [3, 4], "target": [3, 4, 8, 12], "parquet": [3, 4], "rai": 3, "experiment": 3, "juicer": 3, "cluster": 3, "support": [3, 9, 12], "now": [3, 6, 9], "advanc": 3, "work_dir": 3, "show_num": [3, 5, 7], "10": [3, 8], "trace": [3, 5, 7], "chang": [3, 7, 12], "comparison": 3, "str": [3, 4, 5, 6, 7, 8, 9, 10, 12], "previous_d": 3, "processed_d": 3, "text_kei": [3, 4, 5], "compar": [3, 12], "batchmapp": 3, "mainli": 3, "new": [3, 4, 12], "augment": [3, 6, 9], "dup_pair": 3, "duplic": [3, 5, 7], "differ": [3, 4, 6, 7, 9], "other": 3, "two": [3, 7], "embed": 3, "independ": 3, "obtain": [3, 6], "due": [3, 7], "modif": [3, 4], "dataset_path": 4, "csv": 4, "tupl": [4, 7, 8, 12], "local": [4, 7], "int": [4, 7, 9, 12], "global_cfg": 4, "consequ": 4, "repositori": 4, "hub": 4, "featur": 4, "appropri": 4, "read": 4, "intern": 4, "follow": 4, "out": 4, "those": 4, "empti": 4, "sinc": [4, 6], "mai": 4, "modifi": 4, "unified_format_dataset": 4, "zst": 4, "mixtur": 4, "option": [4, 12], "weight": [4, 7], "accord": [4, 5, 7], "specifi": [4, 6, 8, 10, 12], "info": [4, 12], "mix": 4, "randomli": 4, "everi": 4, "merg": [4, 6], "datasset": 4, "txt": [4, 12], "pdf": 4, "cpp": 4, "docx": 4, "md": [4, 12], "tex": [4, 9], "asm": 4, "bat": 4, "cmd": 4, "h": 4, "hpp": 4, "cc": 4, "hh": 4, "cmake": 4, "css": 4, "dockerfil": 4, "f90": 4, "f03": 4, "f08": 4, "f77": 4, "f95": 4, "fpp": 4, "go": 4, "html": [4, 9], "java": 4, "jl": 4, "lua": 4, "markdown": 4, "php": 4, "php3": 4, "php4": 4, "php5": 4, "phpt": 4, "pl": 4, "pm": 4, "pod": 4, "perl": 4, "ps1": 4, "psd1": 4, "psm1": 4, "py": 4, "rb": 4, "sql": 4, "scala": 4, "sh": 4, "bash": 4, "zsh": 4, "tsx": 4, "vb": 4, "makefil": 4, "xml": 4, "rst": 4, "smali": 4, "fn": 4, "tgt_path": 4, "tsv": 4, "union": [5, 6], "should_keep_long_word": [5, 9], "should_keep_word_with_incorrect_substr": [5, 9], "valu": [5, 7, 8, 10, 12], "For": [5, 7, 8, 9], "doc": [5, 7], "level": [5, 6, 7, 8, 9, 12], "open": [5, 7], "metric": [5, 8], "decid": [5, 8, 12], "intermedi": [5, 8], "var": [5, 8], "temporarili": [5, 8, 12], "boolean": [5, 8], "process_list": 5, "A": 5, "fuse": 5, "share": 5, "same": [5, 12], "instanc": [5, 12], "fused_filt": 5, "original_filter_group": 5, "definit": [5, 9], "correspond": [5, 12], "x": 6, "document": [6, 7, 9], "model_func": 6, "splite": 6, "separ": 6, "token_func": 6, "new_lin": 6, "tab": 6, "ratio": [6, 8], "like": [6, 9, 12], "stopword": [6, 8], "token": [6, 7, 8, 9, 12], "invert": 6, "concaten": 6, "setenc": 6, "also": 6, "space": [6, 7], "tag": 6, "strip_charact": 6, "wai": 6, "faster": 6, "than": [6, 8], "set": 6, "instead": 6, "contain": [6, 12], "lot": 6, "element": 6, "emoji": 6, "charact": 6, "uesd": 6, "group_siz": 6, "join_char": 6, "especi": 6, "chines": [6, 9], "without": 6, "between": [6, 7, 12], "vietnames": 6, "syllabl": 6, "size": 6, "ad": 6, "lower_cas": 6, "strip_char": 6, "use_words_aug": [6, 8], "words_aug_group_s": [6, 8], "words_aug_join_char": [6, 8], "refin": 6, "non": 6, "revers": [6, 10], "special": [6, 8], "convert": 6, "lower": 6, "case": 6, "lowercas": [6, 7], "char": [6, 8, 9], "bool": [7, 8, 9, 10, 12], "ignore_non_charact": 7, "exact": 7, "match": 7, "md5": 7, "window_s": 7, "positiveint": [7, 8, 9, 10], "5": [7, 8], "ignore_pattern": 7, "num_permut": 7, "256": 7, "jaccard_threshold": 7, "closedunitinterv": [7, 8, 10], "7": 7, "num_band": 7, "num_rows_per_band": 7, "minhashlsh": 7, "byte": [7, 12], "so": [7, 12], "thei": 7, "won": 7, "kept": 7, "final": 7, "threshold": 7, "float": [7, 8], "num_perm": 7, "false_positive_weight": 7, "false_negative_weight": 7, "optim": 7, "minim": 7, "sum": 7, "probabl": 7, "posit": 7, "neg": 7, "taken": 7, "datasketch": 7, "similar": 7, "permut": 7, "b": 7, "band": 7, "per": 7, "directli": 7, "packag": 7, "avoid": [7, 12], "depend": 7, "6": [7, 8], "num_block": 7, "hamming_dist": 7, "hash_a": 7, "hash_b": 7, "implement": 7, "calcul": 7, "bit": [7, 12], "integ": 7, "num_differing_bit": 7, "python": [7, 12], "version": [7, 12], "instal": 7, "3": [7, 8], "9": 7, "librari": [7, 9], "cannot": 7, "compil": 7, "correctli": 7, "cython": 7, "fix": [7, 9], "incompat": 7, "recursionerror": 7, "occur": 7, "sometim": [7, 12], "our": 7, "otherwis": [7, 12], "avail": [7, 12], "min_ratio": 8, "25": 8, "max_ratio": 8, "positivefloat": 8, "9223372036854775807": [8, 9], "alphabet": 8, "numer": 8, "within": [8, 9, 12], "rang": [8, 9, 12], "min_len": [8, 9], "max_len": [8, 9], "averag": 8, "length": 8, "rep_len": 8, "gram": 8, "repetit": 8, "045": 8, "flagged_words_dir": 8, "home": 8, "runner": 8, "asset": [8, 12], "flag": 8, "less": 8, "max": 8, "min_scor": 8, "8": 8, "confid": 8, "score": 8, "larger": 8, "min": 8, "maximum": 8, "max_ppl": 8, "1500": 8, "field_kei": [8, 10], "target_valu": 8, "min_valu": 8, "max_valu": 8, "stopwords_dir": 8, "hf_token": 8, "eleutherai": 8, "pythia": 8, "9b": 8, "dedup": 8, "min_num": 8, "max_num": 8, "clean": [9, 12], "copyright": 9, "comment": 9, "begin": [9, 12], "email": 9, "ipv4": 9, "ipv6": 9, "address": 9, "link": [9, 12], "http": 9, "ftp": 9, "expand": 9, "macro": 9, "bodi": 9, "latex": 9, "unicod": 9, "error": 9, "sequenti": 9, "aug_num": 9, "delete_random_word": 9, "swap_random_word": 9, "spelling_error_word": 9, "split_random_word": 9, "keyboard_error_char": 9, "ocr_error_char": 9, "delete_random_char": 9, "swap_random_char": 9, "insert_random_char": 9, "simpli": 9, "english": 9, "nlpaug": 9, "replace_similar_word": 9, "replace_homophone_char": 9, "replace_equivalent_num": 9, "nlpcda": 9, "normal": 9, "punctuat": 9, "bibliographi": 9, "end": [9, 12], "doc_typ": 9, "inlin": 9, "multilin": 9, "kind": 9, "drop_no_head": 9, "header": 9, "long": 9, "chars_to_remov": 9, "min_col": 9, "from_2_to_20": 9, "max_col": 9, "regular": 9, "express": 9, "substr": 9, "incorrect": 9, "whitespac": 9, "0x20": 9, "found": [9, 12], "here": [9, 12], "wikipedia": 9, "org": 9, "wiki": 9, "whitespace_charact": 9, "top_ratio": 10, "topk": 10, "frequenc": 10, "top": 10, "words_dir": 12, "words_typ": 12, "download": 12, "asset_link": 12, "team": 12, "whose": 12, "ckpt_dir": 12, "original_process_list": 12, "latest": 12, "manag": 12, "rerun": 12, "reload": 12, "skip": 12, "ani": 12, "els": 12, "prefix": 12, "part": 12, "start": 12, "scratch": 12, "somm": 12, "left": 12, "unchang": 12, "op_arg": 12, "dump": 12, "abc": 12, "abstract": 12, "input_path": 12, "output": 12, "uncompress": 12, "compressor_format": 12, "zstd": 12, "algorithm": 12, "up": 12, "prev_d": 12, "this_d": 12, "fingerprint": 12, "previou": 12, "current": 12, "There": 12, "might": 12, "overlap": 12, "must": 12, "again": 12, "should": 12, "fingerprintd": 12, "accept": 12, "cache_file_nam": 12, "replac": 12, "rank": 12, "defin": 12, "turn": 12, "off": 12, "see": 12, "gzip": 12, "lz4": 12, "content": 12, "extractor_format": 12, "lock_fil": 12, "timeout": 12, "max_filename_length": 12, "unixfilelock": 12, "lock": 12, "compresss": 12, "automat": 12, "__dj__context__": 12, "__dj__meta__": 12, "__dj__stats__": 12, "__dj__suffix__": 12, "__dj__hash": 12, "__dj__minhash": 12, "__dj__simhash": 12, "__dj__line": 12, "__dj__refined_word": 12, "__dj__word": 12, "travers": 12, "absolut": 12, "rel": 12, "objet": 12, "dill": 12, "serial": 12, "failur": 12, "variou": 12, "transform": 12, "transform_arg": 12, "combin": 12, "hide": 12, "caller_nam": 12, "stream": 12, "redirect": 12, "logger": 12, "buf": 12, "depth": 12, "caller": 12, "locat": 12, "log_level": 12, "stdout": 12, "stderr": 12, "loguru": 12, "save_dir": 12, "distributed_rank": 12, "filenam": 12, "mode": 12, "train": 12, "test": 12, "devic": 12, "multi": 12, "gpu": 12, "append": 12, "system": 12, "model_nam": 12, "forc": 12, "exist": 12, "model_path": 12, "full": 12, "forcefulli": 12, "mayb": 12, "incomplet": 12, "reason": 12, "model_kei": 12, "model_typ": 12, "sentencepiec": 12, "model_zoo": 12, "tokenzi": 12, "prepar": 12, "zh": 12, "fasttext": 12, "tokenizer_nam": 12, "kenlm": 12, "syntax": 12, "render": 12, "nltk": 12, "punkt": 12, "regist": 12, "repo": 12, "module_kei": 12, "properti": 12, "module_nam": 12, "module_cl": 12, "modulenam": 12, "exampl": 12, "pass": 12, "textformatter2": 12, "text_formatter2": 12, "d": [13, 14], "t": [13, 14], "_": [13, 14], "j": [13, 14], "u": [13, 14], "i": [13, 14], "c": [13, 14], "e": [13, 14], "r": [13, 14], "index": 13, "search": 13, "page": 13}, "objects": {"data_juicer.analysis": [[1, 0, 0, "-", "column_wise_analysis"], [1, 0, 0, "-", "diversity_analysis"], [1, 0, 0, "-", "overall_analysis"]], "data_juicer.analysis.column_wise_analysis": [[1, 1, 1, "", "ColumnWiseAnalysis"], [1, 3, 1, "", "get_row_col"]], "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis": [[1, 2, 1, "", "analyse"], [1, 2, 1, "", "draw_box"], [1, 2, 1, "", "draw_hist"]], "data_juicer.analysis.diversity_analysis": [[1, 1, 1, "", "DiversityAnalysis"], [1, 3, 1, "", "find_root_verb_and_its_dobj"], [1, 3, 1, "", "find_root_verb_and_its_dobj_in_string"], [1, 3, 1, "", "get_diversity"]], "data_juicer.analysis.diversity_analysis.DiversityAnalysis": [[1, 2, 1, "", "analyse"], [1, 2, 1, "", "compute"]], "data_juicer.analysis.overall_analysis": [[1, 1, 1, "", "OverallAnalysis"]], "data_juicer.analysis.overall_analysis.OverallAnalysis": [[1, 2, 1, "", "analyse"]], "data_juicer.config": [[2, 0, 0, "-", "config"]], "data_juicer.config.config": [[2, 3, 1, "", "config_backup"], [2, 3, 1, "", "display_config"], [2, 3, 1, "", "init_configs"], [2, 3, 1, "", "init_setup_from_cfg"], [2, 3, 1, "", "sort_op_by_types_and_names"]], "data_juicer.core": [[3, 0, 0, "-", "analyser"], [3, 0, 0, "-", "data"], [3, 0, 0, "-", "executor"], [3, 0, 0, "-", "exporter"], [3, 0, 0, "-", "ray_executor"], [3, 0, 0, "-", "tracer"]], "data_juicer.core.analyser": [[3, 1, 1, "", "Analyser"]], "data_juicer.core.analyser.Analyser": [[3, 2, 1, "", "run"]], "data_juicer.core.data": [[3, 1, 1, "", "NestedDataset"], [3, 1, 1, "", "NestedDatasetDict"], [3, 1, 1, "", "NestedQueryDict"], [3, 3, 1, "", "nested_obj_factory"], [3, 3, 1, "", "nested_query"], [3, 3, 1, "", "wrap_func_with_nested_access"]], "data_juicer.core.data.NestedDataset": [[3, 2, 1, "", "add_column"], [3, 2, 1, "", "cleanup_cache_files"], [3, 2, 1, "", "filter"], [3, 2, 1, "", "from_dict"], [3, 2, 1, "", "map"], [3, 2, 1, "", "remove_columns"], [3, 2, 1, "", "select"], [3, 2, 1, "", "select_columns"]], "data_juicer.core.data.NestedDatasetDict": [[3, 2, 1, "", "map"]], "data_juicer.core.executor": [[3, 1, 1, "", "Executor"]], "data_juicer.core.executor.Executor": [[3, 2, 1, "", "run"]], "data_juicer.core.exporter": [[3, 1, 1, "", "Exporter"]], "data_juicer.core.exporter.Exporter": [[3, 4, 1, "", "GiB"], [3, 4, 1, "", "KiB"], [3, 4, 1, "", "MiB"], [3, 4, 1, "", "TiB"], [3, 2, 1, "", "export"], [3, 2, 1, "", "to_jsonl"], [3, 2, 1, "", "to_parquet"]], "data_juicer.core.ray_executor": [[3, 1, 1, "", "RayExecutor"]], "data_juicer.core.ray_executor.RayExecutor": [[3, 2, 1, "", "run"]], "data_juicer.core.tracer": [[3, 1, 1, "", "Tracer"]], "data_juicer.core.tracer.Tracer": [[3, 2, 1, "", "trace_batch_mapper"], [3, 2, 1, "", "trace_deduplicator"], [3, 2, 1, "", "trace_filter"], [3, 2, 1, "", "trace_mapper"]], "data_juicer.format": [[4, 0, 0, "-", "csv_formatter"], [4, 0, 0, "-", "formatter"], [4, 0, 0, "-", "json_formatter"], [4, 0, 0, "-", "load"], [4, 0, 0, "-", "mixture_formatter"], [4, 0, 0, "-", "parquet_formatter"], [4, 0, 0, "-", "text_formatter"], [4, 0, 0, "-", "tsv_formatter"]], "data_juicer.format.csv_formatter": [[4, 1, 1, "", "CsvFormatter"]], "data_juicer.format.csv_formatter.CsvFormatter": [[4, 4, 1, "", "SUFFIXES"]], "data_juicer.format.formatter": [[4, 1, 1, "", "BaseFormatter"], [4, 1, 1, "", "LocalFormatter"], [4, 1, 1, "", "RemoteFormatter"], [4, 3, 1, "", "add_suffixes"], [4, 3, 1, "", "load_formatter"], [4, 3, 1, "", "unify_format"]], "data_juicer.format.formatter.BaseFormatter": [[4, 2, 1, "", "load_dataset"]], "data_juicer.format.formatter.LocalFormatter": [[4, 2, 1, "", "load_dataset"]], "data_juicer.format.formatter.RemoteFormatter": [[4, 2, 1, "", "load_dataset"]], "data_juicer.format.json_formatter": [[4, 1, 1, "", "JsonFormatter"]], "data_juicer.format.json_formatter.JsonFormatter": [[4, 4, 1, "", "SUFFIXES"]], "data_juicer.format.load": [[4, 3, 1, "", "load_formatter"]], "data_juicer.format.mixture_formatter": [[4, 1, 1, "", "MixtureFormatter"]], "data_juicer.format.mixture_formatter.MixtureFormatter": [[4, 2, 1, "", "load_dataset"]], "data_juicer.format.parquet_formatter": [[4, 1, 1, "", "ParquetFormatter"]], "data_juicer.format.parquet_formatter.ParquetFormatter": [[4, 4, 1, "", "SUFFIXES"]], "data_juicer.format.text_formatter": [[4, 1, 1, "", "TextFormatter"], [4, 3, 1, "", "extract_txt_from_docx"], [4, 3, 1, "", "extract_txt_from_pdf"]], "data_juicer.format.text_formatter.TextFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.tsv_formatter": [[4, 1, 1, "", "TsvFormatter"]], "data_juicer.format.tsv_formatter.TsvFormatter": [[4, 4, 1, "", "SUFFIXES"]], "data_juicer.ops": [[5, 0, 0, "-", "base_op"], [5, 0, 0, "-", "load"], [5, 0, 0, "-", "op_fusion"]], "data_juicer.ops.base_op": [[5, 1, 1, "", "Deduplicator"], [5, 1, 1, "", "Filter"], [5, 1, 1, "", "Mapper"], [5, 1, 1, "", "Selector"]], "data_juicer.ops.base_op.Deduplicator": [[5, 2, 1, "", "compute_hash"], [5, 2, 1, "", "process"]], "data_juicer.ops.base_op.Filter": [[5, 2, 1, "", "compute_stats"], [5, 2, 1, "", "process"]], "data_juicer.ops.base_op.Mapper": [[5, 2, 1, "", "is_batched_op"], [5, 2, 1, "", "process"]], "data_juicer.ops.base_op.Selector": [[5, 2, 1, "", "process"]], "data_juicer.ops.common": [[6, 0, 0, "-", "helper_func"], [6, 0, 0, "-", "special_characters"]], "data_juicer.ops.common.helper_func": [[6, 1, 1, "", "UnionFind"], [6, 3, 1, "", "get_sentences_from_document"], [6, 3, 1, "", "get_words_from_document"], [6, 3, 1, "", "merge_on_whitespace_tab_newline"], [6, 3, 1, "", "split_on_newline_tab_whitespace"], [6, 3, 1, "", "split_on_whitespace"], [6, 3, 1, "", "strip"], [6, 3, 1, "", "words_augmentation"], [6, 3, 1, "", "words_refinement"]], "data_juicer.ops.common.helper_func.UnionFind": [[6, 2, 1, "", "find"], [6, 2, 1, "", "union"]], "data_juicer.ops.deduplicator": [[7, 0, 0, "-", "document_deduplicator"], [7, 0, 0, "-", "document_minhash_deduplicator"], [7, 0, 0, "-", "document_simhash_deduplicator"]], "data_juicer.ops.deduplicator.document_deduplicator": [[7, 1, 1, "", "DocumentDeduplicator"]], "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator": [[7, 2, 1, "", "compute_hash"], [7, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator": [[7, 1, 1, "", "DocumentMinhashDeduplicator"], [7, 3, 1, "", "optimal_param"], [7, 3, 1, "", "sha1_hash32"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator": [[7, 2, 1, "", "compute_hash"], [7, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator": [[7, 1, 1, "", "DocumentSimhashDeduplicator"], [7, 3, 1, "", "local_num_differing_bits"], [7, 3, 1, "", "num_differing_bits_selector"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator": [[7, 2, 1, "", "compute_hash"], [7, 2, 1, "", "process"]], "data_juicer.ops.filter": [[8, 0, 0, "-", "alphanumeric_filter"], [8, 0, 0, "-", "average_line_length_filter"], [8, 0, 0, "-", "character_repetition_filter"], [8, 0, 0, "-", "flagged_words_filter"], [8, 0, 0, "-", "language_id_score_filter"], [8, 0, 0, "-", "maximum_line_length_filter"], [8, 0, 0, "-", "perplexity_filter"], [8, 0, 0, "-", "special_characters_filter"], [8, 0, 0, "-", "specified_field_filter"], [8, 0, 0, "-", "specified_numeric_field_filter"], [8, 0, 0, "-", "stopwords_filter"], [8, 0, 0, "-", "suffix_filter"], [8, 0, 0, "-", "text_length_filter"], [8, 0, 0, "-", "token_num_filter"], [8, 0, 0, "-", "word_num_filter"], [8, 0, 0, "-", "word_repetition_filter"]], "data_juicer.ops.filter.alphanumeric_filter": [[8, 1, 1, "", "AlphanumericFilter"]], "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.average_line_length_filter": [[8, 1, 1, "", "AverageLineLengthFilter"]], "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.character_repetition_filter": [[8, 1, 1, "", "CharacterRepetitionFilter"]], "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.flagged_words_filter": [[8, 1, 1, "", "FlaggedWordFilter"]], "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.language_id_score_filter": [[8, 1, 1, "", "LanguageIDScoreFilter"]], "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.maximum_line_length_filter": [[8, 1, 1, "", "MaximumLineLengthFilter"]], "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.perplexity_filter": [[8, 1, 1, "", "PerplexityFilter"]], "data_juicer.ops.filter.perplexity_filter.PerplexityFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.special_characters_filter": [[8, 1, 1, "", "SpecialCharactersFilter"]], "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.specified_field_filter": [[8, 1, 1, "", "SpecifiedFieldFilter"]], "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.specified_numeric_field_filter": [[8, 1, 1, "", "SpecifiedNumericFieldFilter"], [8, 3, 1, "", "is_number"]], "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.stopwords_filter": [[8, 1, 1, "", "StopWordsFilter"]], "data_juicer.ops.filter.stopwords_filter.StopWordsFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.suffix_filter": [[8, 1, 1, "", "SuffixFilter"]], "data_juicer.ops.filter.suffix_filter.SuffixFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.text_length_filter": [[8, 1, 1, "", "TextLengthFilter"]], "data_juicer.ops.filter.text_length_filter.TextLengthFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.token_num_filter": [[8, 1, 1, "", "TokenNumFilter"]], "data_juicer.ops.filter.token_num_filter.TokenNumFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.word_num_filter": [[8, 1, 1, "", "WordNumFilter"]], "data_juicer.ops.filter.word_num_filter.WordNumFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.word_repetition_filter": [[8, 1, 1, "", "WordRepetitionFilter"]], "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter": [[8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.load": [[5, 3, 1, "", "load_ops"]], "data_juicer.ops.mapper": [[9, 0, 0, "-", "clean_copyright_mapper"], [9, 0, 0, "-", "clean_email_mapper"], [9, 0, 0, "-", "clean_html_mapper"], [9, 0, 0, "-", "clean_ip_mapper"], [9, 0, 0, "-", "clean_links_mapper"], [9, 0, 0, "-", "expand_macro_mapper"], [9, 0, 0, "-", "fix_unicode_mapper"], [9, 0, 0, "-", "nlpaug_en_mapper"], [9, 0, 0, "-", "nlpcda_zh_mapper"], [9, 0, 0, "-", "punctuation_normalization_mapper"], [9, 0, 0, "-", "remove_bibliography_mapper"], [9, 0, 0, "-", "remove_comments_mapper"], [9, 0, 0, "-", "remove_header_mapper"], [9, 0, 0, "-", "remove_long_words_mapper"], [9, 0, 0, "-", "remove_specific_chars_mapper"], [9, 0, 0, "-", "remove_table_text_mapper"], [9, 0, 0, "-", "remove_words_with_incorrect_substrings_mapper"], [9, 0, 0, "-", "sentence_split_mapper"], [9, 0, 0, "-", "whitespace_normalization_mapper"]], "data_juicer.ops.mapper.clean_copyright_mapper": [[9, 1, 1, "", "CleanCopyrightMapper"]], "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.clean_email_mapper": [[9, 1, 1, "", "CleanEmailMapper"]], "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.clean_html_mapper": [[9, 1, 1, "", "CleanHtmlMapper"]], "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.clean_ip_mapper": [[9, 1, 1, "", "CleanIpMapper"]], "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.clean_links_mapper": [[9, 1, 1, "", "CleanLinksMapper"]], "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.expand_macro_mapper": [[9, 1, 1, "", "ExpandMacroMapper"]], "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.fix_unicode_mapper": [[9, 1, 1, "", "FixUnicodeMapper"]], "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.nlpaug_en_mapper": [[9, 1, 1, "", "NlpaugEnMapper"]], "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.nlpcda_zh_mapper": [[9, 1, 1, "", "NlpcdaZhMapper"]], "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.punctuation_normalization_mapper": [[9, 1, 1, "", "PunctuationNormalizationMapper"]], "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_bibliography_mapper": [[9, 1, 1, "", "RemoveBibliographyMapper"]], "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_comments_mapper": [[9, 1, 1, "", "RemoveCommentsMapper"]], "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_header_mapper": [[9, 1, 1, "", "RemoveHeaderMapper"]], "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_long_words_mapper": [[9, 1, 1, "", "RemoveLongWordsMapper"]], "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper": [[9, 2, 1, "", "process"], [9, 2, 1, "", "should_keep_long_word"]], "data_juicer.ops.mapper.remove_specific_chars_mapper": [[9, 1, 1, "", "RemoveSpecificCharsMapper"]], "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_table_text_mapper": [[9, 1, 1, "", "RemoveTableTextMapper"]], "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper": [[9, 1, 1, "", "RemoveWordsWithIncorrectSubstringsMapper"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper": [[9, 2, 1, "", "process"], [9, 2, 1, "", "should_keep_word_with_incorrect_substrings"]], "data_juicer.ops.mapper.sentence_split_mapper": [[9, 1, 1, "", "SentenceSplitMapper"]], "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.mapper.whitespace_normalization_mapper": [[9, 1, 1, "", "WhitespaceNormalizationMapper"]], "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper": [[9, 2, 1, "", "process"]], "data_juicer.ops.op_fusion": [[5, 1, 1, "", "FusedFilter"], [5, 3, 1, "", "fuse_filter_group"], [5, 3, 1, "", "fuse_operators"]], "data_juicer.ops.op_fusion.FusedFilter": [[5, 2, 1, "", "compute_stats"], [5, 2, 1, "", "process"]], "data_juicer.ops.selector": [[10, 0, 0, "-", "frequency_specified_field_selector"], [10, 0, 0, "-", "topk_specified_field_selector"]], "data_juicer.ops.selector.frequency_specified_field_selector": [[10, 1, 1, "", "FrequencySpecifiedFieldSelector"]], "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector": [[10, 2, 1, "", "process"]], "data_juicer.ops.selector.topk_specified_field_selector": [[10, 1, 1, "", "TopkSpecifiedFieldSelector"], [10, 3, 1, "", "to_number"]], "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector": [[10, 2, 1, "", "process"]], "data_juicer.utils": [[12, 0, 0, "-", "asset_utils"], [12, 0, 0, "-", "cache_utils"], [12, 0, 0, "-", "ckpt_utils"], [12, 0, 0, "-", "compress"], [12, 0, 0, "-", "constant"], [12, 0, 0, "-", "file_utils"], [12, 0, 0, "-", "fingerprint_utils"], [12, 0, 0, "-", "logger_utils"], [12, 0, 0, "-", "model_utils"], [12, 0, 0, "-", "registry"]], "data_juicer.utils.asset_utils": [[12, 3, 1, "", "load_words_asset"]], "data_juicer.utils.ckpt_utils": [[12, 1, 1, "", "CheckpointManager"]], "data_juicer.utils.ckpt_utils.CheckpointManager": [[12, 2, 1, "", "check_ckpt"], [12, 2, 1, "", "check_ops_to_skip"], [12, 2, 1, "", "get_left_process_list"], [12, 2, 1, "", "load_ckpt"], [12, 2, 1, "", "record"], [12, 2, 1, "", "save_ckpt"]], "data_juicer.utils.compress": [[12, 1, 1, "", "BaseCompressor"], [12, 1, 1, "", "CacheCompressManager"], [12, 1, 1, "", "CompressManager"], [12, 1, 1, "", "CompressionOff"], [12, 1, 1, "", "Compressor"], [12, 1, 1, "", "Extractor"], [12, 1, 1, "", "FileLock"], [12, 1, 1, "", "GzipCompressor"], [12, 1, 1, "", "Lz4Compressor"], [12, 1, 1, "", "ZstdCompressor"], [12, 3, 1, "", "cleanup_compressed_cache_files"], [12, 3, 1, "", "compress"], [12, 3, 1, "", "decompress"]], "data_juicer.utils.compress.BaseCompressor": [[12, 2, 1, "", "compress"]], "data_juicer.utils.compress.CacheCompressManager": [[12, 2, 1, "", "cleanup_cache_files"], [12, 2, 1, "", "compress"], [12, 2, 1, "", "decompress"], [12, 2, 1, "", "format_cache_file_name"]], "data_juicer.utils.compress.CompressManager": [[12, 2, 1, "", "compress"], [12, 2, 1, "", "decompress"]], "data_juicer.utils.compress.Compressor": [[12, 2, 1, "", "compress"], [12, 4, 1, "", "compressors"]], "data_juicer.utils.compress.Extractor": [[12, 2, 1, "", "extract"]], "data_juicer.utils.compress.GzipCompressor": [[12, 2, 1, "", "compress"]], "data_juicer.utils.compress.Lz4Compressor": [[12, 2, 1, "", "compress"]], "data_juicer.utils.compress.ZstdCompressor": [[12, 2, 1, "", "compress"]], "data_juicer.utils.constant": [[12, 1, 1, "", "Fields"], [12, 1, 1, "", "HashKeys"], [12, 1, 1, "", "InterVars"], [12, 1, 1, "", "StatsKeys"]], "data_juicer.utils.constant.Fields": [[12, 4, 1, "", "context"], [12, 4, 1, "", "meta"], [12, 4, 1, "", "stats"], [12, 4, 1, "", "suffix"]], "data_juicer.utils.constant.HashKeys": [[12, 4, 1, "", "hash"], [12, 4, 1, "", "minhash"], [12, 4, 1, "", "simhash"]], "data_juicer.utils.constant.InterVars": [[12, 4, 1, "", "lines"], [12, 4, 1, "", "refined_words"], [12, 4, 1, "", "words"]], "data_juicer.utils.constant.StatsKeys": [[12, 4, 1, "", "alnum_ratio"], [12, 4, 1, "", "alpha_token_ratio"], [12, 4, 1, "", "avg_line_length"], [12, 4, 1, "", "char_rep_ratio"], [12, 4, 1, "", "flagged_words_ratio"], [12, 4, 1, "", "lang"], [12, 4, 1, "", "lang_score"], [12, 4, 1, "", "max_line_length"], [12, 4, 1, "", "num_token"], [12, 4, 1, "", "num_words"], [12, 4, 1, "", "perplexity"], [12, 4, 1, "", "special_char_ratio"], [12, 4, 1, "", "stopwords_ratio"], [12, 4, 1, "", "text_len"], [12, 4, 1, "", "word_rep_ratio"]], "data_juicer.utils.file_utils": [[12, 3, 1, "", "find_files_with_suffix"], [12, 3, 1, "", "is_absolute_path"]], "data_juicer.utils.fingerprint_utils": [[12, 1, 1, "", "Hasher"], [12, 3, 1, "", "generate_fingerprint"], [12, 3, 1, "", "update_fingerprint"]], "data_juicer.utils.fingerprint_utils.Hasher": [[12, 4, 1, "", "dispatch"], [12, 2, 1, "", "hash"], [12, 2, 1, "", "hash_bytes"], [12, 2, 1, "", "hash_default"], [12, 2, 1, "", "hexdigest"], [12, 2, 1, "", "update"]], "data_juicer.utils.logger_utils": [[12, 1, 1, "", "HiddenPrints"], [12, 1, 1, "", "StreamToLoguru"], [12, 3, 1, "", "get_caller_name"], [12, 3, 1, "", "get_log_file_path"], [12, 3, 1, "", "redirect_sys_output"], [12, 3, 1, "", "setup_logger"]], "data_juicer.utils.logger_utils.StreamToLoguru": [[12, 2, 1, "", "flush"], [12, 2, 1, "", "write"]], "data_juicer.utils.model_utils": [[12, 3, 1, "", "check_model"], [12, 3, 1, "", "get_model"], [12, 3, 1, "", "prepare_diversity_model"], [12, 3, 1, "", "prepare_fasttext_model"], [12, 3, 1, "", "prepare_huggingface_tokenizer"], [12, 3, 1, "", "prepare_kenlm_model"], [12, 3, 1, "", "prepare_model"], [12, 3, 1, "", "prepare_nltk_model"], [12, 3, 1, "", "prepare_sentencepiece_model"]], "data_juicer.utils.registry": [[12, 1, 1, "", "Registry"]], "data_juicer.utils.registry.Registry": [[12, 2, 1, "", "get"], [12, 2, 1, "", "list"], [12, 5, 1, "", "modules"], [12, 5, 1, "", "name"], [12, 2, 1, "", "register_module"]]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:method", "3": "py:function", "4": "py:attribute", "5": "py:property"}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "method", "Python method"], "3": ["py", "function", "Python function"], "4": ["py", "attribute", "Python attribute"], "5": ["py", "property", "Python property"]}, "titleterms": {"d": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "t": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "_": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "j": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "u": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "i": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "c": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "e": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "r": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "n": [1, 2, 6], "l": [1, 7, 8, 10, 11, 12], "y": 1, "": [1, 5, 6, 7, 8, 9, 10, 11, 12, 13], "data_juic": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 13, 14], "analysi": 1, "column_wise_analysi": 1, "diversity_analysi": 1, "overall_analysi": 1, "o": [2, 3, 4, 5, 6, 7, 8, 9, 10, 11], "f": [2, 4, 8], "g": 2, "config": 2, "core": 3, "analys": 3, "data": [3, 13], "executor": 3, "export": 3, "ray_executor": 3, "tracer": 3, "m": [4, 6, 9], "format": 4, "csv_formatt": 4, "formatt": 4, "json_formatt": 4, "load": [4, 5], "mixture_formatt": 4, "parquet_formatt": 4, "text_formatt": 4, "tsv_formatt": 4, "p": [5, 6, 7, 8, 9, 10], "op": [5, 6, 7, 8, 9, 10], "base_op": 5, "op_fus": 5, "common": 6, "helper_func": 6, "special_charact": 6, "dedupl": 7, "document_dedupl": 7, "document_minhash_dedupl": 7, "document_simhash_dedupl": 7, "filter": 8, "alphanumeric_filt": 8, "average_line_length_filt": 8, "character_repetition_filt": 8, "flagged_words_filt": 8, "language_id_score_filt": 8, "maximum_line_length_filt": 8, "perplexity_filt": 8, "special_characters_filt": 8, "specified_field_filt": 8, "specified_numeric_field_filt": 8, "stopwords_filt": 8, "suffix_filt": 8, "text_length_filt": 8, "token_num_filt": 8, "word_num_filt": 8, "word_repetition_filt": 8, "mapper": 9, "clean_copyright_mapp": 9, "clean_email_mapp": 9, "clean_html_mapp": 9, "clean_ip_mapp": 9, "clean_links_mapp": 9, "expand_macro_mapp": 9, "fix_unicode_mapp": 9, "nlpaug_en_mapp": 9, "nlpcda_zh_mapp": 9, "punctuation_normalization_mapp": 9, "remove_bibliography_mapp": 9, "remove_comments_mapp": 9, "remove_header_mapp": 9, "remove_long_words_mapp": 9, "remove_specific_chars_mapp": 9, "remove_table_text_mapp": 9, "remove_words_with_incorrect_substrings_mapp": 9, "sentence_split_mapp": 9, "whitespace_normalization_mapp": 9, "selector": 10, "frequency_specified_field_selector": 10, "topk_specified_field_selector": 10, "util": 12, "asset_util": 12, "cache_util": 12, "ckpt_util": 12, "compress": 12, "constant": 12, "file_util": 12, "fingerprint_util": 12, "logger_util": 12, "model_util": 12, "registri": 12, "welcom": 13, "juicer": 13, "document": 13, "indic": 13, "tabl": 13}, "envversion": {"sphinx.domains.c": 3, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 9, "sphinx.domains.index": 1, "sphinx.domains.javascript": 3, "sphinx.domains.math": 2, "sphinx.domains.python": 4, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.viewcode": 1, "sphinx": 58}, "alltitles": {"d a t a _ j u i c e r": [[0, "d-a-t-a-j-u-i-c-e-r"]], "d a t a _ j u i c e r . a n a l y s i s": [[1, "d-a-t-a-j-u-i-c-e-r-a-n-a-l-y-s-i-s"]], "data_juicer.analysis.column_wise_analysis": [[1, "module-data_juicer.analysis.column_wise_analysis"]], "data_juicer.analysis.diversity_analysis": [[1, "module-data_juicer.analysis.diversity_analysis"]], "data_juicer.analysis.overall_analysis": [[1, "module-data_juicer.analysis.overall_analysis"]], "d a t a _ j u i c e r . c o n f i g": [[2, "d-a-t-a-j-u-i-c-e-r-c-o-n-f-i-g"]], "data_juicer.config.config": [[2, "module-data_juicer.config.config"]], "d a t a _ j u i c e r . c o r e": [[3, "d-a-t-a-j-u-i-c-e-r-c-o-r-e"]], "data_juicer.core.analyser": [[3, "module-data_juicer.core.analyser"]], "data_juicer.core.data": [[3, "module-data_juicer.core.data"]], "data_juicer.core.executor": [[3, "module-data_juicer.core.executor"]], "data_juicer.core.exporter": [[3, "module-data_juicer.core.exporter"]], "data_juicer.core.ray_executor": [[3, "module-data_juicer.core.ray_executor"]], "data_juicer.core.tracer": [[3, "module-data_juicer.core.tracer"]], "d a t a _ j u i c e r . f o r m a t": [[4, "d-a-t-a-j-u-i-c-e-r-f-o-r-m-a-t"]], "data_juicer.format.csv_formatter": [[4, "module-data_juicer.format.csv_formatter"]], "data_juicer.format.formatter": [[4, "module-data_juicer.format.formatter"]], "data_juicer.format.json_formatter": [[4, "module-data_juicer.format.json_formatter"]], "data_juicer.format.load": [[4, "module-data_juicer.format.load"]], "data_juicer.format.mixture_formatter": [[4, "module-data_juicer.format.mixture_formatter"]], "data_juicer.format.parquet_formatter": [[4, "module-data_juicer.format.parquet_formatter"]], "data_juicer.format.text_formatter": [[4, "module-data_juicer.format.text_formatter"]], "data_juicer.format.tsv_formatter": [[4, "module-data_juicer.format.tsv_formatter"]], "d a t a _ j u i c e r . o p s": [[5, "d-a-t-a-j-u-i-c-e-r-o-p-s"]], "data_juicer.ops.base_op": [[5, "module-data_juicer.ops.base_op"]], "data_juicer.ops.load": [[5, "module-data_juicer.ops.load"]], "data_juicer.ops.op_fusion": [[5, "module-data_juicer.ops.op_fusion"]], "d a t a _ j u i c e r . o p s . c o m m o n": [[6, "d-a-t-a-j-u-i-c-e-r-o-p-s-c-o-m-m-o-n"]], "data_juicer.ops.common.helper_func": [[6, "module-data_juicer.ops.common.helper_func"]], "data_juicer.ops.common.special_characters": [[6, "module-data_juicer.ops.common.special_characters"]], "d a t a _ j u i c e r . o p s . d e d u p l i c a t o r": [[7, "d-a-t-a-j-u-i-c-e-r-o-p-s-d-e-d-u-p-l-i-c-a-t-o-r"]], "data_juicer.ops.deduplicator.document_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_deduplicator"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator"]], "d a t a _ j u i c e r . o p s . f i l t e r": [[8, "d-a-t-a-j-u-i-c-e-r-o-p-s-f-i-l-t-e-r"]], "data_juicer.ops.filter.alphanumeric_filter": [[8, "module-data_juicer.ops.filter.alphanumeric_filter"]], "data_juicer.ops.filter.average_line_length_filter": [[8, "module-data_juicer.ops.filter.average_line_length_filter"]], "data_juicer.ops.filter.character_repetition_filter": [[8, "module-data_juicer.ops.filter.character_repetition_filter"]], "data_juicer.ops.filter.flagged_words_filter": [[8, "module-data_juicer.ops.filter.flagged_words_filter"]], "data_juicer.ops.filter.language_id_score_filter": [[8, "module-data_juicer.ops.filter.language_id_score_filter"]], "data_juicer.ops.filter.maximum_line_length_filter": [[8, "module-data_juicer.ops.filter.maximum_line_length_filter"]], "data_juicer.ops.filter.perplexity_filter": [[8, "module-data_juicer.ops.filter.perplexity_filter"]], "data_juicer.ops.filter.special_characters_filter": [[8, "module-data_juicer.ops.filter.special_characters_filter"]], "data_juicer.ops.filter.specified_field_filter": [[8, "module-data_juicer.ops.filter.specified_field_filter"]], "data_juicer.ops.filter.specified_numeric_field_filter": [[8, "module-data_juicer.ops.filter.specified_numeric_field_filter"]], "data_juicer.ops.filter.stopwords_filter": [[8, "module-data_juicer.ops.filter.stopwords_filter"]], "data_juicer.ops.filter.suffix_filter": [[8, "module-data_juicer.ops.filter.suffix_filter"]], "data_juicer.ops.filter.text_length_filter": [[8, "module-data_juicer.ops.filter.text_length_filter"]], "data_juicer.ops.filter.token_num_filter": [[8, "module-data_juicer.ops.filter.token_num_filter"]], "data_juicer.ops.filter.word_num_filter": [[8, "module-data_juicer.ops.filter.word_num_filter"]], "data_juicer.ops.filter.word_repetition_filter": [[8, "module-data_juicer.ops.filter.word_repetition_filter"]], "d a t a _ j u i c e r . o p s . m a p p e r": [[9, "d-a-t-a-j-u-i-c-e-r-o-p-s-m-a-p-p-e-r"]], "data_juicer.ops.mapper.clean_copyright_mapper": [[9, "module-data_juicer.ops.mapper.clean_copyright_mapper"]], "data_juicer.ops.mapper.clean_email_mapper": [[9, "module-data_juicer.ops.mapper.clean_email_mapper"]], "data_juicer.ops.mapper.clean_html_mapper": [[9, "module-data_juicer.ops.mapper.clean_html_mapper"]], "data_juicer.ops.mapper.clean_ip_mapper": [[9, "module-data_juicer.ops.mapper.clean_ip_mapper"]], "data_juicer.ops.mapper.clean_links_mapper": [[9, "module-data_juicer.ops.mapper.clean_links_mapper"]], "data_juicer.ops.mapper.expand_macro_mapper": [[9, "module-data_juicer.ops.mapper.expand_macro_mapper"]], "data_juicer.ops.mapper.fix_unicode_mapper": [[9, "module-data_juicer.ops.mapper.fix_unicode_mapper"]], "data_juicer.ops.mapper.nlpaug_en_mapper": [[9, "module-data_juicer.ops.mapper.nlpaug_en_mapper"]], "data_juicer.ops.mapper.nlpcda_zh_mapper": [[9, "module-data_juicer.ops.mapper.nlpcda_zh_mapper"]], "data_juicer.ops.mapper.punctuation_normalization_mapper": [[9, "module-data_juicer.ops.mapper.punctuation_normalization_mapper"]], "data_juicer.ops.mapper.remove_bibliography_mapper": [[9, "module-data_juicer.ops.mapper.remove_bibliography_mapper"]], "data_juicer.ops.mapper.remove_comments_mapper": [[9, "module-data_juicer.ops.mapper.remove_comments_mapper"]], "data_juicer.ops.mapper.remove_header_mapper": [[9, "module-data_juicer.ops.mapper.remove_header_mapper"]], "data_juicer.ops.mapper.remove_long_words_mapper": [[9, "module-data_juicer.ops.mapper.remove_long_words_mapper"]], "data_juicer.ops.mapper.remove_specific_chars_mapper": [[9, "module-data_juicer.ops.mapper.remove_specific_chars_mapper"]], "data_juicer.ops.mapper.remove_table_text_mapper": [[9, "module-data_juicer.ops.mapper.remove_table_text_mapper"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper": [[9, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper"]], "data_juicer.ops.mapper.sentence_split_mapper": [[9, "module-data_juicer.ops.mapper.sentence_split_mapper"]], "data_juicer.ops.mapper.whitespace_normalization_mapper": [[9, "module-data_juicer.ops.mapper.whitespace_normalization_mapper"]], "d a t a _ j u i c e r . o p s . s e l e c t o r": [[10, "d-a-t-a-j-u-i-c-e-r-o-p-s-s-e-l-e-c-t-o-r"]], "data_juicer.ops.selector.frequency_specified_field_selector": [[10, "module-data_juicer.ops.selector.frequency_specified_field_selector"]], "data_juicer.ops.selector.topk_specified_field_selector": [[10, "module-data_juicer.ops.selector.topk_specified_field_selector"]], "d a t a _ j u i c e r . t o o l s": [[11, "d-a-t-a-j-u-i-c-e-r-t-o-o-l-s"]], "d a t a _ j u i c e r . u t i l s": [[12, "d-a-t-a-j-u-i-c-e-r-u-t-i-l-s"]], "data_juicer.utils.asset_utils": [[12, "module-data_juicer.utils.asset_utils"]], "data_juicer.utils.cache_utils": [[12, "module-data_juicer.utils.cache_utils"]], "data_juicer.utils.ckpt_utils": [[12, "module-data_juicer.utils.ckpt_utils"]], "data_juicer.utils.compress": [[12, "module-data_juicer.utils.compress"]], "data_juicer.utils.constant": [[12, "module-data_juicer.utils.constant"]], "data_juicer.utils.file_utils": [[12, "module-data_juicer.utils.file_utils"]], "data_juicer.utils.fingerprint_utils": [[12, "module-data_juicer.utils.fingerprint_utils"]], "data_juicer.utils.logger_utils": [[12, "module-data_juicer.utils.logger_utils"]], "data_juicer.utils.model_utils": [[12, "module-data_juicer.utils.model_utils"]], "data_juicer.utils.registry": [[12, "module-data_juicer.utils.registry"]], "Welcome to data-juicer\u2019s documentation!": [[13, "welcome-to-data-juicer-s-documentation"]], "data_juicer": [[13, "data-juicer"], [14, "data-juicer"]], "Indices and tables": [[13, "indices-and-tables"]]}, "indexentries": {"columnwiseanalysis (class in data_juicer.analysis.column_wise_analysis)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis"]], "diversityanalysis (class in data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis"]], "overallanalysis (class in data_juicer.analysis.overall_analysis)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis"]], "analyse() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyse"]], "analyse() (data_juicer.analysis.diversity_analysis.diversityanalysis method)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyse"]], "analyse() (data_juicer.analysis.overall_analysis.overallanalysis method)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis.analyse"]], "compute() (data_juicer.analysis.diversity_analysis.diversityanalysis method)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute"]], "data_juicer.analysis.column_wise_analysis": [[1, "module-data_juicer.analysis.column_wise_analysis"]], "data_juicer.analysis.diversity_analysis": [[1, "module-data_juicer.analysis.diversity_analysis"]], "data_juicer.analysis.overall_analysis": [[1, "module-data_juicer.analysis.overall_analysis"]], "draw_box() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box"]], "draw_hist() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist"]], "find_root_verb_and_its_dobj() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj"]], "find_root_verb_and_its_dobj_in_string() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string"]], "get_diversity() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.get_diversity"]], "get_row_col() (in module data_juicer.analysis.column_wise_analysis)": [[1, "data_juicer.analysis.column_wise_analysis.get_row_col"]], "module": [[1, "module-data_juicer.analysis.column_wise_analysis"], [1, "module-data_juicer.analysis.diversity_analysis"], [1, "module-data_juicer.analysis.overall_analysis"], [2, "module-data_juicer.config.config"], [3, "module-data_juicer.core.analyser"], [3, "module-data_juicer.core.data"], [3, "module-data_juicer.core.executor"], [3, "module-data_juicer.core.exporter"], [3, "module-data_juicer.core.ray_executor"], [3, "module-data_juicer.core.tracer"], [4, "module-data_juicer.format.csv_formatter"], [4, "module-data_juicer.format.formatter"], [4, "module-data_juicer.format.json_formatter"], [4, "module-data_juicer.format.load"], [4, "module-data_juicer.format.mixture_formatter"], [4, "module-data_juicer.format.parquet_formatter"], [4, "module-data_juicer.format.text_formatter"], [4, "module-data_juicer.format.tsv_formatter"], [5, "module-data_juicer.ops.base_op"], [5, "module-data_juicer.ops.load"], [5, "module-data_juicer.ops.op_fusion"], [6, "module-data_juicer.ops.common.helper_func"], [6, "module-data_juicer.ops.common.special_characters"], [7, "module-data_juicer.ops.deduplicator.document_deduplicator"], [7, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator"], [7, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator"], [8, "module-data_juicer.ops.filter.alphanumeric_filter"], [8, "module-data_juicer.ops.filter.average_line_length_filter"], [8, "module-data_juicer.ops.filter.character_repetition_filter"], [8, "module-data_juicer.ops.filter.flagged_words_filter"], [8, "module-data_juicer.ops.filter.language_id_score_filter"], [8, "module-data_juicer.ops.filter.maximum_line_length_filter"], [8, "module-data_juicer.ops.filter.perplexity_filter"], [8, "module-data_juicer.ops.filter.special_characters_filter"], [8, "module-data_juicer.ops.filter.specified_field_filter"], [8, "module-data_juicer.ops.filter.specified_numeric_field_filter"], [8, "module-data_juicer.ops.filter.stopwords_filter"], [8, "module-data_juicer.ops.filter.suffix_filter"], [8, "module-data_juicer.ops.filter.text_length_filter"], [8, "module-data_juicer.ops.filter.token_num_filter"], [8, "module-data_juicer.ops.filter.word_num_filter"], [8, "module-data_juicer.ops.filter.word_repetition_filter"], [9, "module-data_juicer.ops.mapper.clean_copyright_mapper"], [9, "module-data_juicer.ops.mapper.clean_email_mapper"], [9, "module-data_juicer.ops.mapper.clean_html_mapper"], [9, "module-data_juicer.ops.mapper.clean_ip_mapper"], [9, "module-data_juicer.ops.mapper.clean_links_mapper"], [9, "module-data_juicer.ops.mapper.expand_macro_mapper"], [9, "module-data_juicer.ops.mapper.fix_unicode_mapper"], [9, "module-data_juicer.ops.mapper.nlpaug_en_mapper"], [9, "module-data_juicer.ops.mapper.nlpcda_zh_mapper"], [9, "module-data_juicer.ops.mapper.punctuation_normalization_mapper"], [9, "module-data_juicer.ops.mapper.remove_bibliography_mapper"], [9, "module-data_juicer.ops.mapper.remove_comments_mapper"], [9, "module-data_juicer.ops.mapper.remove_header_mapper"], [9, "module-data_juicer.ops.mapper.remove_long_words_mapper"], [9, "module-data_juicer.ops.mapper.remove_specific_chars_mapper"], [9, "module-data_juicer.ops.mapper.remove_table_text_mapper"], [9, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper"], [9, "module-data_juicer.ops.mapper.sentence_split_mapper"], [9, "module-data_juicer.ops.mapper.whitespace_normalization_mapper"], [10, "module-data_juicer.ops.selector.frequency_specified_field_selector"], [10, "module-data_juicer.ops.selector.topk_specified_field_selector"], [12, "module-data_juicer.utils.asset_utils"], [12, "module-data_juicer.utils.cache_utils"], [12, "module-data_juicer.utils.ckpt_utils"], [12, "module-data_juicer.utils.compress"], [12, "module-data_juicer.utils.constant"], [12, "module-data_juicer.utils.file_utils"], [12, "module-data_juicer.utils.fingerprint_utils"], [12, "module-data_juicer.utils.logger_utils"], [12, "module-data_juicer.utils.model_utils"], [12, "module-data_juicer.utils.registry"]], "config_backup() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.config_backup"]], "data_juicer.config.config": [[2, "module-data_juicer.config.config"]], "display_config() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.display_config"]], "init_configs() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.init_configs"]], "init_setup_from_cfg() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.init_setup_from_cfg"]], "sort_op_by_types_and_names() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.sort_op_by_types_and_names"]], "analyser (class in data_juicer.core.analyser)": [[3, "data_juicer.core.analyser.Analyser"]], "executor (class in data_juicer.core.executor)": [[3, "data_juicer.core.executor.Executor"]], "exporter (class in data_juicer.core.exporter)": [[3, "data_juicer.core.exporter.Exporter"]], "gib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.GiB"]], "kib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.KiB"]], "mib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.MiB"]], "nesteddataset (class in data_juicer.core.data)": [[3, "data_juicer.core.data.NestedDataset"]], "nesteddatasetdict (class in data_juicer.core.data)": [[3, "data_juicer.core.data.NestedDatasetDict"]], "nestedquerydict (class in data_juicer.core.data)": [[3, "data_juicer.core.data.NestedQueryDict"]], "rayexecutor (class in data_juicer.core.ray_executor)": [[3, "data_juicer.core.ray_executor.RayExecutor"]], "tib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.TiB"]], "tracer (class in data_juicer.core.tracer)": [[3, "data_juicer.core.tracer.Tracer"]], "add_column() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.add_column"]], "cleanup_cache_files() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.cleanup_cache_files"]], "data_juicer.core.analyser": [[3, "module-data_juicer.core.analyser"]], "data_juicer.core.data": [[3, "module-data_juicer.core.data"]], "data_juicer.core.executor": [[3, "module-data_juicer.core.executor"]], "data_juicer.core.exporter": [[3, "module-data_juicer.core.exporter"]], "data_juicer.core.ray_executor": [[3, "module-data_juicer.core.ray_executor"]], "data_juicer.core.tracer": [[3, "module-data_juicer.core.tracer"]], "export() (data_juicer.core.exporter.exporter method)": [[3, "data_juicer.core.exporter.Exporter.export"]], "filter() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.filter"]], "from_dict() (data_juicer.core.data.nesteddataset class method)": [[3, "data_juicer.core.data.NestedDataset.from_dict"]], "map() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.map"]], "map() (data_juicer.core.data.nesteddatasetdict method)": [[3, "data_juicer.core.data.NestedDatasetDict.map"]], "nested_obj_factory() (in module data_juicer.core.data)": [[3, "data_juicer.core.data.nested_obj_factory"]], "nested_query() (in module data_juicer.core.data)": [[3, "data_juicer.core.data.nested_query"]], "remove_columns() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.remove_columns"]], "run() (data_juicer.core.analyser.analyser method)": [[3, "data_juicer.core.analyser.Analyser.run"]], "run() (data_juicer.core.executor.executor method)": [[3, "data_juicer.core.executor.Executor.run"]], "run() (data_juicer.core.ray_executor.rayexecutor method)": [[3, "data_juicer.core.ray_executor.RayExecutor.run"]], "select() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.select"]], "select_columns() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.select_columns"]], "to_jsonl() (data_juicer.core.exporter.exporter static method)": [[3, "data_juicer.core.exporter.Exporter.to_jsonl"]], "to_parquet() (data_juicer.core.exporter.exporter static method)": [[3, "data_juicer.core.exporter.Exporter.to_parquet"]], "trace_batch_mapper() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_batch_mapper"]], "trace_deduplicator() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_deduplicator"]], "trace_filter() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_filter"]], "trace_mapper() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_mapper"]], "wrap_func_with_nested_access() (in module data_juicer.core.data)": [[3, "data_juicer.core.data.wrap_func_with_nested_access"]], "baseformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.BaseFormatter"]], "csvformatter (class in data_juicer.format.csv_formatter)": [[4, "data_juicer.format.csv_formatter.CsvFormatter"]], "jsonformatter (class in data_juicer.format.json_formatter)": [[4, "data_juicer.format.json_formatter.JsonFormatter"]], "localformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.LocalFormatter"]], "mixtureformatter (class in data_juicer.format.mixture_formatter)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter"]], "parquetformatter (class in data_juicer.format.parquet_formatter)": [[4, "data_juicer.format.parquet_formatter.ParquetFormatter"]], "remoteformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.RemoteFormatter"]], "suffixes (data_juicer.format.csv_formatter.csvformatter attribute)": [[4, "data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES"]], "suffixes (data_juicer.format.json_formatter.jsonformatter attribute)": [[4, "data_juicer.format.json_formatter.JsonFormatter.SUFFIXES"]], "suffixes (data_juicer.format.parquet_formatter.parquetformatter attribute)": [[4, "data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES"]], "suffixes (data_juicer.format.text_formatter.textformatter attribute)": [[4, "data_juicer.format.text_formatter.TextFormatter.SUFFIXES"]], "suffixes (data_juicer.format.tsv_formatter.tsvformatter attribute)": [[4, "data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES"]], "textformatter (class in data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.TextFormatter"]], "tsvformatter (class in data_juicer.format.tsv_formatter)": [[4, "data_juicer.format.tsv_formatter.TsvFormatter"]], "add_suffixes() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.add_suffixes"]], "data_juicer.format.csv_formatter": [[4, "module-data_juicer.format.csv_formatter"]], "data_juicer.format.formatter": [[4, "module-data_juicer.format.formatter"]], "data_juicer.format.json_formatter": [[4, "module-data_juicer.format.json_formatter"]], "data_juicer.format.load": [[4, "module-data_juicer.format.load"]], "data_juicer.format.mixture_formatter": [[4, "module-data_juicer.format.mixture_formatter"]], "data_juicer.format.parquet_formatter": [[4, "module-data_juicer.format.parquet_formatter"]], "data_juicer.format.text_formatter": [[4, "module-data_juicer.format.text_formatter"]], "data_juicer.format.tsv_formatter": [[4, "module-data_juicer.format.tsv_formatter"]], "extract_txt_from_docx() (in module data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.extract_txt_from_docx"]], "extract_txt_from_pdf() (in module data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.extract_txt_from_pdf"]], "load_dataset() (data_juicer.format.formatter.baseformatter method)": [[4, "data_juicer.format.formatter.BaseFormatter.load_dataset"]], "load_dataset() (data_juicer.format.formatter.localformatter method)": [[4, "data_juicer.format.formatter.LocalFormatter.load_dataset"]], "load_dataset() (data_juicer.format.formatter.remoteformatter method)": [[4, "data_juicer.format.formatter.RemoteFormatter.load_dataset"]], "load_dataset() (data_juicer.format.mixture_formatter.mixtureformatter method)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset"]], "load_dataset() (data_juicer.format.text_formatter.textformatter method)": [[4, "data_juicer.format.text_formatter.TextFormatter.load_dataset"]], "load_formatter() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.load_formatter"]], "load_formatter() (in module data_juicer.format.load)": [[4, "data_juicer.format.load.load_formatter"]], "unify_format() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.unify_format"]], "deduplicator (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Deduplicator"]], "filter (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Filter"]], "fusedfilter (class in data_juicer.ops.op_fusion)": [[5, "data_juicer.ops.op_fusion.FusedFilter"]], "mapper (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Mapper"]], "selector (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Selector"]], "compute_hash() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.compute_hash"]], "compute_stats() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.compute_stats"]], "compute_stats() (data_juicer.ops.op_fusion.fusedfilter method)": [[5, "data_juicer.ops.op_fusion.FusedFilter.compute_stats"]], "data_juicer.ops.base_op": [[5, "module-data_juicer.ops.base_op"]], "data_juicer.ops.load": [[5, "module-data_juicer.ops.load"]], "data_juicer.ops.op_fusion": [[5, "module-data_juicer.ops.op_fusion"]], "fuse_filter_group() (in module data_juicer.ops.op_fusion)": [[5, "data_juicer.ops.op_fusion.fuse_filter_group"]], "fuse_operators() (in module data_juicer.ops.op_fusion)": [[5, "data_juicer.ops.op_fusion.fuse_operators"]], "is_batched_op() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.is_batched_op"]], "load_ops() (in module data_juicer.ops.load)": [[5, "data_juicer.ops.load.load_ops"]], "process() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.process"]], "process() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.process"]], "process() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.process"]], "process() (data_juicer.ops.base_op.selector method)": [[5, "data_juicer.ops.base_op.Selector.process"]], "process() (data_juicer.ops.op_fusion.fusedfilter method)": [[5, "data_juicer.ops.op_fusion.FusedFilter.process"]], "unionfind (class in data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.UnionFind"]], "data_juicer.ops.common.helper_func": [[6, "module-data_juicer.ops.common.helper_func"]], "data_juicer.ops.common.special_characters": [[6, "module-data_juicer.ops.common.special_characters"]], "find() (data_juicer.ops.common.helper_func.unionfind method)": [[6, "data_juicer.ops.common.helper_func.UnionFind.find"]], "get_sentences_from_document() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.get_sentences_from_document"]], "get_words_from_document() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.get_words_from_document"]], "merge_on_whitespace_tab_newline() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline"]], "split_on_newline_tab_whitespace() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace"]], "split_on_whitespace() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.split_on_whitespace"]], "strip() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.strip"]], "union() (data_juicer.ops.common.helper_func.unionfind method)": [[6, "data_juicer.ops.common.helper_func.UnionFind.union"]], "words_augmentation() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.words_augmentation"]], "words_refinement() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.words_refinement"]], "documentdeduplicator (class in data_juicer.ops.deduplicator.document_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator"]], "documentminhashdeduplicator (class in data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator"]], "documentsimhashdeduplicator (class in data_juicer.ops.deduplicator.document_simhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator"]], "compute_hash() (data_juicer.ops.deduplicator.document_deduplicator.documentdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash"]], "compute_hash() (data_juicer.ops.deduplicator.document_minhash_deduplicator.documentminhashdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash"]], "compute_hash() (data_juicer.ops.deduplicator.document_simhash_deduplicator.documentsimhashdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash"]], "data_juicer.ops.deduplicator.document_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_deduplicator"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator"]], "local_num_differing_bits() (in module data_juicer.ops.deduplicator.document_simhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.local_num_differing_bits"]], "num_differing_bits_selector() (in module data_juicer.ops.deduplicator.document_simhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.num_differing_bits_selector"]], "optimal_param() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param"]], "process() (data_juicer.ops.deduplicator.document_deduplicator.documentdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process"]], "process() (data_juicer.ops.deduplicator.document_minhash_deduplicator.documentminhashdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process"]], "process() (data_juicer.ops.deduplicator.document_simhash_deduplicator.documentsimhashdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process"]], "sha1_hash32() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32"]], "alphanumericfilter (class in data_juicer.ops.filter.alphanumeric_filter)": [[8, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter"]], "averagelinelengthfilter (class in data_juicer.ops.filter.average_line_length_filter)": [[8, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter"]], "characterrepetitionfilter (class in data_juicer.ops.filter.character_repetition_filter)": [[8, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter"]], "flaggedwordfilter (class in data_juicer.ops.filter.flagged_words_filter)": [[8, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter"]], "languageidscorefilter (class in data_juicer.ops.filter.language_id_score_filter)": [[8, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter"]], "maximumlinelengthfilter (class in data_juicer.ops.filter.maximum_line_length_filter)": [[8, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter"]], "perplexityfilter (class in data_juicer.ops.filter.perplexity_filter)": [[8, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter"]], "specialcharactersfilter (class in data_juicer.ops.filter.special_characters_filter)": [[8, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter"]], "specifiedfieldfilter (class in data_juicer.ops.filter.specified_field_filter)": [[8, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter"]], "specifiednumericfieldfilter (class in data_juicer.ops.filter.specified_numeric_field_filter)": [[8, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter"]], "stopwordsfilter (class in data_juicer.ops.filter.stopwords_filter)": [[8, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter"]], "suffixfilter (class in data_juicer.ops.filter.suffix_filter)": [[8, "data_juicer.ops.filter.suffix_filter.SuffixFilter"]], "textlengthfilter (class in data_juicer.ops.filter.text_length_filter)": [[8, "data_juicer.ops.filter.text_length_filter.TextLengthFilter"]], "tokennumfilter (class in data_juicer.ops.filter.token_num_filter)": [[8, "data_juicer.ops.filter.token_num_filter.TokenNumFilter"]], "wordnumfilter (class in data_juicer.ops.filter.word_num_filter)": [[8, "data_juicer.ops.filter.word_num_filter.WordNumFilter"]], "wordrepetitionfilter (class in data_juicer.ops.filter.word_repetition_filter)": [[8, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter"]], "compute_stats() (data_juicer.ops.filter.alphanumeric_filter.alphanumericfilter method)": [[8, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.average_line_length_filter.averagelinelengthfilter method)": [[8, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.character_repetition_filter.characterrepetitionfilter method)": [[8, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.flagged_words_filter.flaggedwordfilter method)": [[8, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.language_id_score_filter.languageidscorefilter method)": [[8, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.maximum_line_length_filter.maximumlinelengthfilter method)": [[8, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.perplexity_filter.perplexityfilter method)": [[8, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.special_characters_filter.specialcharactersfilter method)": [[8, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.specified_field_filter.specifiedfieldfilter method)": [[8, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.specified_numeric_field_filter.specifiednumericfieldfilter method)": [[8, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.stopwords_filter.stopwordsfilter method)": [[8, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.suffix_filter.suffixfilter method)": [[8, "data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.text_length_filter.textlengthfilter method)": [[8, "data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.token_num_filter.tokennumfilter method)": [[8, "data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.word_num_filter.wordnumfilter method)": [[8, "data_juicer.ops.filter.word_num_filter.WordNumFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.word_repetition_filter.wordrepetitionfilter method)": [[8, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats"]], "data_juicer.ops.filter.alphanumeric_filter": [[8, "module-data_juicer.ops.filter.alphanumeric_filter"]], "data_juicer.ops.filter.average_line_length_filter": [[8, "module-data_juicer.ops.filter.average_line_length_filter"]], "data_juicer.ops.filter.character_repetition_filter": [[8, "module-data_juicer.ops.filter.character_repetition_filter"]], "data_juicer.ops.filter.flagged_words_filter": [[8, "module-data_juicer.ops.filter.flagged_words_filter"]], "data_juicer.ops.filter.language_id_score_filter": [[8, "module-data_juicer.ops.filter.language_id_score_filter"]], "data_juicer.ops.filter.maximum_line_length_filter": [[8, "module-data_juicer.ops.filter.maximum_line_length_filter"]], "data_juicer.ops.filter.perplexity_filter": [[8, "module-data_juicer.ops.filter.perplexity_filter"]], "data_juicer.ops.filter.special_characters_filter": [[8, "module-data_juicer.ops.filter.special_characters_filter"]], "data_juicer.ops.filter.specified_field_filter": [[8, "module-data_juicer.ops.filter.specified_field_filter"]], "data_juicer.ops.filter.specified_numeric_field_filter": [[8, "module-data_juicer.ops.filter.specified_numeric_field_filter"]], "data_juicer.ops.filter.stopwords_filter": [[8, "module-data_juicer.ops.filter.stopwords_filter"]], "data_juicer.ops.filter.suffix_filter": [[8, "module-data_juicer.ops.filter.suffix_filter"]], "data_juicer.ops.filter.text_length_filter": [[8, "module-data_juicer.ops.filter.text_length_filter"]], "data_juicer.ops.filter.token_num_filter": [[8, "module-data_juicer.ops.filter.token_num_filter"]], "data_juicer.ops.filter.word_num_filter": [[8, "module-data_juicer.ops.filter.word_num_filter"]], "data_juicer.ops.filter.word_repetition_filter": [[8, "module-data_juicer.ops.filter.word_repetition_filter"]], "is_number() (in module data_juicer.ops.filter.specified_numeric_field_filter)": [[8, "data_juicer.ops.filter.specified_numeric_field_filter.is_number"]], "process() (data_juicer.ops.filter.alphanumeric_filter.alphanumericfilter method)": [[8, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process"]], "process() (data_juicer.ops.filter.average_line_length_filter.averagelinelengthfilter method)": [[8, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process"]], "process() (data_juicer.ops.filter.character_repetition_filter.characterrepetitionfilter method)": [[8, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process"]], "process() (data_juicer.ops.filter.flagged_words_filter.flaggedwordfilter method)": [[8, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process"]], "process() (data_juicer.ops.filter.language_id_score_filter.languageidscorefilter method)": [[8, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process"]], "process() (data_juicer.ops.filter.maximum_line_length_filter.maximumlinelengthfilter method)": [[8, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process"]], "process() (data_juicer.ops.filter.perplexity_filter.perplexityfilter method)": [[8, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process"]], "process() (data_juicer.ops.filter.special_characters_filter.specialcharactersfilter method)": [[8, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process"]], "process() (data_juicer.ops.filter.specified_field_filter.specifiedfieldfilter method)": [[8, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process"]], "process() (data_juicer.ops.filter.specified_numeric_field_filter.specifiednumericfieldfilter method)": [[8, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process"]], "process() (data_juicer.ops.filter.stopwords_filter.stopwordsfilter method)": [[8, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process"]], "process() (data_juicer.ops.filter.suffix_filter.suffixfilter method)": [[8, "data_juicer.ops.filter.suffix_filter.SuffixFilter.process"]], "process() (data_juicer.ops.filter.text_length_filter.textlengthfilter method)": [[8, "data_juicer.ops.filter.text_length_filter.TextLengthFilter.process"]], "process() (data_juicer.ops.filter.token_num_filter.tokennumfilter method)": [[8, "data_juicer.ops.filter.token_num_filter.TokenNumFilter.process"]], "process() (data_juicer.ops.filter.word_num_filter.wordnumfilter method)": [[8, "data_juicer.ops.filter.word_num_filter.WordNumFilter.process"]], "process() (data_juicer.ops.filter.word_repetition_filter.wordrepetitionfilter method)": [[8, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process"]], "cleancopyrightmapper (class in data_juicer.ops.mapper.clean_copyright_mapper)": [[9, "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper"]], "cleanemailmapper (class in data_juicer.ops.mapper.clean_email_mapper)": [[9, "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper"]], "cleanhtmlmapper (class in data_juicer.ops.mapper.clean_html_mapper)": [[9, "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper"]], "cleanipmapper (class in data_juicer.ops.mapper.clean_ip_mapper)": [[9, "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper"]], "cleanlinksmapper (class in data_juicer.ops.mapper.clean_links_mapper)": [[9, "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper"]], "expandmacromapper (class in data_juicer.ops.mapper.expand_macro_mapper)": [[9, "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper"]], "fixunicodemapper (class in data_juicer.ops.mapper.fix_unicode_mapper)": [[9, "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper"]], "nlpaugenmapper (class in data_juicer.ops.mapper.nlpaug_en_mapper)": [[9, "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper"]], "nlpcdazhmapper (class in data_juicer.ops.mapper.nlpcda_zh_mapper)": [[9, "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper"]], "punctuationnormalizationmapper (class in data_juicer.ops.mapper.punctuation_normalization_mapper)": [[9, "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper"]], "removebibliographymapper (class in data_juicer.ops.mapper.remove_bibliography_mapper)": [[9, "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper"]], "removecommentsmapper (class in data_juicer.ops.mapper.remove_comments_mapper)": [[9, "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper"]], "removeheadermapper (class in data_juicer.ops.mapper.remove_header_mapper)": [[9, "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper"]], "removelongwordsmapper (class in data_juicer.ops.mapper.remove_long_words_mapper)": [[9, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper"]], "removespecificcharsmapper (class in data_juicer.ops.mapper.remove_specific_chars_mapper)": [[9, "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper"]], "removetabletextmapper (class in data_juicer.ops.mapper.remove_table_text_mapper)": [[9, "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper"]], "removewordswithincorrectsubstringsmapper (class in data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper)": [[9, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper"]], "sentencesplitmapper (class in data_juicer.ops.mapper.sentence_split_mapper)": [[9, "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper"]], "whitespacenormalizationmapper (class in data_juicer.ops.mapper.whitespace_normalization_mapper)": [[9, "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper"]], "data_juicer.ops.mapper.clean_copyright_mapper": [[9, "module-data_juicer.ops.mapper.clean_copyright_mapper"]], "data_juicer.ops.mapper.clean_email_mapper": [[9, "module-data_juicer.ops.mapper.clean_email_mapper"]], "data_juicer.ops.mapper.clean_html_mapper": [[9, "module-data_juicer.ops.mapper.clean_html_mapper"]], "data_juicer.ops.mapper.clean_ip_mapper": [[9, "module-data_juicer.ops.mapper.clean_ip_mapper"]], "data_juicer.ops.mapper.clean_links_mapper": [[9, "module-data_juicer.ops.mapper.clean_links_mapper"]], "data_juicer.ops.mapper.expand_macro_mapper": [[9, "module-data_juicer.ops.mapper.expand_macro_mapper"]], "data_juicer.ops.mapper.fix_unicode_mapper": [[9, "module-data_juicer.ops.mapper.fix_unicode_mapper"]], "data_juicer.ops.mapper.nlpaug_en_mapper": [[9, "module-data_juicer.ops.mapper.nlpaug_en_mapper"]], "data_juicer.ops.mapper.nlpcda_zh_mapper": [[9, "module-data_juicer.ops.mapper.nlpcda_zh_mapper"]], "data_juicer.ops.mapper.punctuation_normalization_mapper": [[9, "module-data_juicer.ops.mapper.punctuation_normalization_mapper"]], "data_juicer.ops.mapper.remove_bibliography_mapper": [[9, "module-data_juicer.ops.mapper.remove_bibliography_mapper"]], "data_juicer.ops.mapper.remove_comments_mapper": [[9, "module-data_juicer.ops.mapper.remove_comments_mapper"]], "data_juicer.ops.mapper.remove_header_mapper": [[9, "module-data_juicer.ops.mapper.remove_header_mapper"]], "data_juicer.ops.mapper.remove_long_words_mapper": [[9, "module-data_juicer.ops.mapper.remove_long_words_mapper"]], "data_juicer.ops.mapper.remove_specific_chars_mapper": [[9, "module-data_juicer.ops.mapper.remove_specific_chars_mapper"]], "data_juicer.ops.mapper.remove_table_text_mapper": [[9, "module-data_juicer.ops.mapper.remove_table_text_mapper"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper": [[9, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper"]], "data_juicer.ops.mapper.sentence_split_mapper": [[9, "module-data_juicer.ops.mapper.sentence_split_mapper"]], "data_juicer.ops.mapper.whitespace_normalization_mapper": [[9, "module-data_juicer.ops.mapper.whitespace_normalization_mapper"]], "process() (data_juicer.ops.mapper.clean_copyright_mapper.cleancopyrightmapper method)": [[9, "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process"]], "process() (data_juicer.ops.mapper.clean_email_mapper.cleanemailmapper method)": [[9, "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process"]], "process() (data_juicer.ops.mapper.clean_html_mapper.cleanhtmlmapper method)": [[9, "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process"]], "process() (data_juicer.ops.mapper.clean_ip_mapper.cleanipmapper method)": [[9, "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process"]], "process() (data_juicer.ops.mapper.clean_links_mapper.cleanlinksmapper method)": [[9, "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process"]], "process() (data_juicer.ops.mapper.expand_macro_mapper.expandmacromapper method)": [[9, "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process"]], "process() (data_juicer.ops.mapper.fix_unicode_mapper.fixunicodemapper method)": [[9, "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process"]], "process() (data_juicer.ops.mapper.nlpaug_en_mapper.nlpaugenmapper method)": [[9, "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process"]], "process() (data_juicer.ops.mapper.nlpcda_zh_mapper.nlpcdazhmapper method)": [[9, "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process"]], "process() (data_juicer.ops.mapper.punctuation_normalization_mapper.punctuationnormalizationmapper method)": [[9, "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process"]], "process() (data_juicer.ops.mapper.remove_bibliography_mapper.removebibliographymapper method)": [[9, "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process"]], "process() (data_juicer.ops.mapper.remove_comments_mapper.removecommentsmapper method)": [[9, "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process"]], "process() (data_juicer.ops.mapper.remove_header_mapper.removeheadermapper method)": [[9, "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process"]], "process() (data_juicer.ops.mapper.remove_long_words_mapper.removelongwordsmapper method)": [[9, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process"]], "process() (data_juicer.ops.mapper.remove_specific_chars_mapper.removespecificcharsmapper method)": [[9, "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process"]], "process() (data_juicer.ops.mapper.remove_table_text_mapper.removetabletextmapper method)": [[9, "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process"]], "process() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.removewordswithincorrectsubstringsmapper method)": [[9, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process"]], "process() (data_juicer.ops.mapper.sentence_split_mapper.sentencesplitmapper method)": [[9, "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process"]], "process() (data_juicer.ops.mapper.whitespace_normalization_mapper.whitespacenormalizationmapper method)": [[9, "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process"]], "should_keep_long_word() (data_juicer.ops.mapper.remove_long_words_mapper.removelongwordsmapper method)": [[9, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word"]], "should_keep_word_with_incorrect_substrings() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.removewordswithincorrectsubstringsmapper method)": [[9, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"]], "frequencyspecifiedfieldselector (class in data_juicer.ops.selector.frequency_specified_field_selector)": [[10, "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector"]], "topkspecifiedfieldselector (class in data_juicer.ops.selector.topk_specified_field_selector)": [[10, "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector"]], "data_juicer.ops.selector.frequency_specified_field_selector": [[10, "module-data_juicer.ops.selector.frequency_specified_field_selector"]], "data_juicer.ops.selector.topk_specified_field_selector": [[10, "module-data_juicer.ops.selector.topk_specified_field_selector"]], "process() (data_juicer.ops.selector.frequency_specified_field_selector.frequencyspecifiedfieldselector method)": [[10, "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process"]], "process() (data_juicer.ops.selector.topk_specified_field_selector.topkspecifiedfieldselector method)": [[10, "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process"]], "to_number() (in module data_juicer.ops.selector.topk_specified_field_selector)": [[10, "data_juicer.ops.selector.topk_specified_field_selector.to_number"]], "basecompressor (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.BaseCompressor"]], "cachecompressmanager (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.CacheCompressManager"]], "checkpointmanager (class in data_juicer.utils.ckpt_utils)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager"]], "compressmanager (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.CompressManager"]], "compressionoff (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.CompressionOff"]], "compressor (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.Compressor"]], "extractor (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.Extractor"]], "fields (class in data_juicer.utils.constant)": [[12, "data_juicer.utils.constant.Fields"]], "filelock (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.FileLock"]], "gzipcompressor (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.GzipCompressor"]], "hashkeys (class in data_juicer.utils.constant)": [[12, "data_juicer.utils.constant.HashKeys"]], "hasher (class in data_juicer.utils.fingerprint_utils)": [[12, "data_juicer.utils.fingerprint_utils.Hasher"]], "hiddenprints (class in data_juicer.utils.logger_utils)": [[12, "data_juicer.utils.logger_utils.HiddenPrints"]], "intervars (class in data_juicer.utils.constant)": [[12, "data_juicer.utils.constant.InterVars"]], "lz4compressor (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.Lz4Compressor"]], "registry (class in data_juicer.utils.registry)": [[12, "data_juicer.utils.registry.Registry"]], "statskeys (class in data_juicer.utils.constant)": [[12, "data_juicer.utils.constant.StatsKeys"]], "streamtologuru (class in data_juicer.utils.logger_utils)": [[12, "data_juicer.utils.logger_utils.StreamToLoguru"]], "zstdcompressor (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.ZstdCompressor"]], "alnum_ratio (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.alnum_ratio"]], "alpha_token_ratio (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.alpha_token_ratio"]], "avg_line_length (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.avg_line_length"]], "char_rep_ratio (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.char_rep_ratio"]], "check_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt"]], "check_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.check_model"]], "check_ops_to_skip() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip"]], "cleanup_cache_files() (data_juicer.utils.compress.cachecompressmanager method)": [[12, "data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files"]], "cleanup_compressed_cache_files() (in module data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.cleanup_compressed_cache_files"]], "compress() (data_juicer.utils.compress.basecompressor static method)": [[12, "data_juicer.utils.compress.BaseCompressor.compress"]], "compress() (data_juicer.utils.compress.cachecompressmanager method)": [[12, "data_juicer.utils.compress.CacheCompressManager.compress"]], "compress() (data_juicer.utils.compress.compressmanager method)": [[12, "data_juicer.utils.compress.CompressManager.compress"]], "compress() (data_juicer.utils.compress.compressor class method)": [[12, "data_juicer.utils.compress.Compressor.compress"]], "compress() (data_juicer.utils.compress.gzipcompressor static method)": [[12, "data_juicer.utils.compress.GzipCompressor.compress"]], "compress() (data_juicer.utils.compress.lz4compressor static method)": [[12, "data_juicer.utils.compress.Lz4Compressor.compress"]], "compress() (data_juicer.utils.compress.zstdcompressor static method)": [[12, "data_juicer.utils.compress.ZstdCompressor.compress"]], "compress() (in module data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.compress"]], "compressors (data_juicer.utils.compress.compressor attribute)": [[12, "data_juicer.utils.compress.Compressor.compressors"]], "context (data_juicer.utils.constant.fields attribute)": [[12, "data_juicer.utils.constant.Fields.context"]], "data_juicer.utils.asset_utils": [[12, "module-data_juicer.utils.asset_utils"]], "data_juicer.utils.cache_utils": [[12, "module-data_juicer.utils.cache_utils"]], "data_juicer.utils.ckpt_utils": [[12, "module-data_juicer.utils.ckpt_utils"]], "data_juicer.utils.compress": [[12, "module-data_juicer.utils.compress"]], "data_juicer.utils.constant": [[12, "module-data_juicer.utils.constant"]], "data_juicer.utils.file_utils": [[12, "module-data_juicer.utils.file_utils"]], "data_juicer.utils.fingerprint_utils": [[12, "module-data_juicer.utils.fingerprint_utils"]], "data_juicer.utils.logger_utils": [[12, "module-data_juicer.utils.logger_utils"]], "data_juicer.utils.model_utils": [[12, "module-data_juicer.utils.model_utils"]], "data_juicer.utils.registry": [[12, "module-data_juicer.utils.registry"]], "decompress() (data_juicer.utils.compress.cachecompressmanager method)": [[12, "data_juicer.utils.compress.CacheCompressManager.decompress"]], "decompress() (data_juicer.utils.compress.compressmanager method)": [[12, "data_juicer.utils.compress.CompressManager.decompress"]], "decompress() (in module data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.decompress"]], "dispatch (data_juicer.utils.fingerprint_utils.hasher attribute)": [[12, "data_juicer.utils.fingerprint_utils.Hasher.dispatch"]], "extract() (data_juicer.utils.compress.extractor class method)": [[12, "data_juicer.utils.compress.Extractor.extract"]], "find_files_with_suffix() (in module data_juicer.utils.file_utils)": [[12, "data_juicer.utils.file_utils.find_files_with_suffix"]], "flagged_words_ratio (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.flagged_words_ratio"]], "flush() (data_juicer.utils.logger_utils.streamtologuru method)": [[12, "data_juicer.utils.logger_utils.StreamToLoguru.flush"]], "format_cache_file_name() (data_juicer.utils.compress.cachecompressmanager method)": [[12, "data_juicer.utils.compress.CacheCompressManager.format_cache_file_name"]], "generate_fingerprint() (in module data_juicer.utils.fingerprint_utils)": [[12, "data_juicer.utils.fingerprint_utils.generate_fingerprint"]], "get() (data_juicer.utils.registry.registry method)": [[12, "data_juicer.utils.registry.Registry.get"]], "get_caller_name() (in module data_juicer.utils.logger_utils)": [[12, "data_juicer.utils.logger_utils.get_caller_name"]], "get_left_process_list() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list"]], "get_log_file_path() (in module data_juicer.utils.logger_utils)": [[12, "data_juicer.utils.logger_utils.get_log_file_path"]], "get_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.get_model"]], "hash (data_juicer.utils.constant.hashkeys attribute)": [[12, "data_juicer.utils.constant.HashKeys.hash"]], "hash() (data_juicer.utils.fingerprint_utils.hasher class method)": [[12, "data_juicer.utils.fingerprint_utils.Hasher.hash"]], "hash_bytes() (data_juicer.utils.fingerprint_utils.hasher class method)": [[12, "data_juicer.utils.fingerprint_utils.Hasher.hash_bytes"]], "hash_default() (data_juicer.utils.fingerprint_utils.hasher class method)": [[12, "data_juicer.utils.fingerprint_utils.Hasher.hash_default"]], "hexdigest() (data_juicer.utils.fingerprint_utils.hasher method)": [[12, "data_juicer.utils.fingerprint_utils.Hasher.hexdigest"]], "is_absolute_path() (in module data_juicer.utils.file_utils)": [[12, "data_juicer.utils.file_utils.is_absolute_path"]], "lang (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.lang"]], "lang_score (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.lang_score"]], "lines (data_juicer.utils.constant.intervars attribute)": [[12, "data_juicer.utils.constant.InterVars.lines"]], "list() (data_juicer.utils.registry.registry method)": [[12, "data_juicer.utils.registry.Registry.list"]], "load_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt"]], "load_words_asset() (in module data_juicer.utils.asset_utils)": [[12, "data_juicer.utils.asset_utils.load_words_asset"]], "max_line_length (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.max_line_length"]], "meta (data_juicer.utils.constant.fields attribute)": [[12, "data_juicer.utils.constant.Fields.meta"]], "minhash (data_juicer.utils.constant.hashkeys attribute)": [[12, "data_juicer.utils.constant.HashKeys.minhash"]], "modules (data_juicer.utils.registry.registry property)": [[12, "data_juicer.utils.registry.Registry.modules"]], "name (data_juicer.utils.registry.registry property)": [[12, "data_juicer.utils.registry.Registry.name"]], "num_token (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.num_token"]], "num_words (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.num_words"]], "perplexity (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.perplexity"]], "prepare_diversity_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.prepare_diversity_model"]], "prepare_fasttext_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.prepare_fasttext_model"]], "prepare_huggingface_tokenizer() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.prepare_huggingface_tokenizer"]], "prepare_kenlm_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.prepare_kenlm_model"]], "prepare_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.prepare_model"]], "prepare_nltk_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.prepare_nltk_model"]], "prepare_sentencepiece_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.prepare_sentencepiece_model"]], "record() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager.record"]], "redirect_sys_output() (in module data_juicer.utils.logger_utils)": [[12, "data_juicer.utils.logger_utils.redirect_sys_output"]], "refined_words (data_juicer.utils.constant.intervars attribute)": [[12, "data_juicer.utils.constant.InterVars.refined_words"]], "register_module() (data_juicer.utils.registry.registry method)": [[12, "data_juicer.utils.registry.Registry.register_module"]], "save_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt"]], "setup_logger() (in module data_juicer.utils.logger_utils)": [[12, "data_juicer.utils.logger_utils.setup_logger"]], "simhash (data_juicer.utils.constant.hashkeys attribute)": [[12, "data_juicer.utils.constant.HashKeys.simhash"]], "special_char_ratio (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.special_char_ratio"]], "stats (data_juicer.utils.constant.fields attribute)": [[12, "data_juicer.utils.constant.Fields.stats"]], "stopwords_ratio (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.stopwords_ratio"]], "suffix (data_juicer.utils.constant.fields attribute)": [[12, "data_juicer.utils.constant.Fields.suffix"]], "text_len (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.text_len"]], "update() (data_juicer.utils.fingerprint_utils.hasher method)": [[12, "data_juicer.utils.fingerprint_utils.Hasher.update"]], "update_fingerprint() (in module data_juicer.utils.fingerprint_utils)": [[12, "data_juicer.utils.fingerprint_utils.update_fingerprint"]], "word_rep_ratio (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.word_rep_ratio"]], "words (data_juicer.utils.constant.intervars attribute)": [[12, "data_juicer.utils.constant.InterVars.words"]], "write() (data_juicer.utils.logger_utils.streamtologuru method)": [[12, "data_juicer.utils.logger_utils.StreamToLoguru.write"]]}})
\ No newline at end of file
+Search.setIndex({"docnames": ["data_juicer", "data_juicer.analysis", "data_juicer.config", "data_juicer.core", "data_juicer.format", "data_juicer.ops", "data_juicer.ops.common", "data_juicer.ops.deduplicator", "data_juicer.ops.filter", "data_juicer.ops.mapper", "data_juicer.ops.selector", "data_juicer.tools", "data_juicer.utils", "index", "modules"], "filenames": ["data_juicer.rst", "data_juicer.analysis.rst", "data_juicer.config.rst", "data_juicer.core.rst", "data_juicer.format.rst", "data_juicer.ops.rst", "data_juicer.ops.common.rst", "data_juicer.ops.deduplicator.rst", "data_juicer.ops.filter.rst", "data_juicer.ops.mapper.rst", "data_juicer.ops.selector.rst", "data_juicer.tools.rst", "data_juicer.utils.rst", "index.rst", "modules.rst"], "titles": ["d a t a _ j u i c e r", "d a t a _ j u i c e r . a n a l y s i s", "d a t a _ j u i c e r . c o n f i g", "d a t a _ j u i c e r . c o r e", "d a t a _ j u i c e r . f o r m a t", "d a t a _ j u i c e r . o p s", "d a t a _ j u i c e r . o p s . c o m m o n", "d a t a _ j u i c e r . o p s . d e d u p l i c a t o r", "d a t a _ j u i c e r . o p s . f i l t e r", "d a t a _ j u i c e r . o p s . m a p p e r", "d a t a _ j u i c e r . o p s . s e l e c t o r", "d a t a _ j u i c e r . t o o l s", "d a t a _ j u i c e r . u t i l s", "Welcome to data-juicer\u2019s documentation!", "data_juicer"], "terms": {"n": [0, 5, 8, 13, 14], "l": [0, 5, 13, 14], "y": [0, 6, 13, 14], "": [0, 3, 4, 14], "data_juic": 0, "analysi": [0, 3, 13, 14], "column_wise_analysi": [0, 13, 14], "columnwiseanalysi": [0, 1, 3, 13, 14], "__init__": [0, 1, 3, 4, 5, 6, 7, 8, 9, 10, 12], "analys": [0, 1, 2, 13, 14], "draw_box": [0, 1], "draw_hist": [0, 1], "get_row_col": [0, 1, 13, 14], "diversity_analysi": [0, 13, 14], "diversityanalysi": [0, 1, 13, 14], "comput": [0, 1, 3, 5, 6, 7, 8, 12], "find_root_verb_and_its_dobj": [0, 1, 13, 14], "find_root_verb_and_its_dobj_in_str": [0, 1, 13, 14], "get_divers": [0, 1, 13, 14], "overall_analysi": [0, 13, 14], "overallanalysi": [0, 1, 3, 13, 14], "o": [0, 12, 13, 14], "f": [0, 3, 5, 13, 14], "g": [0, 3, 4, 9, 13, 14], "config": [0, 3, 5, 12, 13, 14], "config_backup": [0, 2, 13, 14], "display_config": [0, 2, 13, 14], "init_config": [0, 2, 13, 14], "init_setup_from_cfg": [0, 2, 13, 14], "sort_op_by_types_and_nam": [0, 2, 13, 14], "core": [0, 13, 14], "run": [0, 3], "data": [0, 1, 4, 7, 14], "nesteddataset": [0, 3, 13, 14], "add_column": [0, 3], "cleanup_cache_fil": [0, 3, 12], "filter": [0, 3, 4, 5, 9, 13, 14], "from_dict": [0, 3], "map": [0, 3, 4], "remove_column": [0, 3], "select": [0, 3, 4, 5, 7, 10], "select_column": [0, 3], "nesteddatasetdict": [0, 3, 13, 14], "nestedquerydict": [0, 3, 13, 14], "nested_obj_factori": [0, 3, 13, 14], "nested_queri": [0, 3, 13, 14], "wrap_func_with_nested_access": [0, 3, 13, 14], "executor": [0, 2, 13, 14], "export": [0, 4, 13, 14], "gib": [0, 3], "kib": [0, 3], "mib": [0, 3], "tib": [0, 3], "to_jsonl": [0, 3], "to_parquet": [0, 3], "ray_executor": [0, 13, 14], "rayexecutor": [0, 3, 13, 14], "tracer": [0, 5, 7, 13, 14], "trace_batch_mapp": [0, 3], "trace_dedupl": [0, 3], "trace_filt": [0, 3], "trace_mapp": [0, 3], "m": [0, 5, 13, 14], "format": [0, 3, 8, 12, 13, 14], "csv_formatt": [0, 13, 14], "csvformatt": [0, 4, 13, 14], "suffix": [0, 4, 8, 12], "formatt": [0, 13, 14], "baseformatt": [0, 4, 13, 14], "load_dataset": [0, 4], "localformatt": [0, 4, 13, 14], "remoteformatt": [0, 4, 13, 14], "add_suffix": [0, 4, 13, 14], "load_formatt": [0, 4, 13, 14], "unify_format": [0, 4, 13, 14], "json_formatt": [0, 13, 14], "jsonformatt": [0, 4, 13, 14], "load": [0, 1, 3, 12, 13, 14], "mixture_formatt": [0, 13, 14], "mixtureformatt": [0, 4, 13, 14], "parquet_formatt": [0, 13, 14], "parquetformatt": [0, 4, 13, 14], "text_formatt": [0, 13, 14], "textformatt": [0, 4, 12, 13, 14], "extract_txt_from_docx": [0, 4, 13, 14], "extract_txt_from_pdf": [0, 4, 13, 14], "tsv_formatt": [0, 13, 14], "tsvformatt": [0, 4, 13, 14], "p": [0, 13, 14], "op": [0, 2, 3, 12, 13, 14], "common": [0, 3, 5, 13, 14], "helper_func": [0, 5, 13, 14], "unionfind": [0, 5, 6], "get_sentences_from_docu": [0, 5, 6], "get_words_from_docu": [0, 5, 6], "merge_on_whitespace_tab_newlin": [0, 5, 6], "split_on_newline_tab_whitespac": [0, 5, 6], "split_on_whitespac": [0, 5, 6], "strip": [0, 5, 6], "words_augment": [0, 5, 6], "words_refin": [0, 5, 6], "special_charact": [0, 5, 13, 14], "dedupl": [0, 3, 5, 13, 14], "document_dedupl": [0, 5, 13, 14], "documentdedupl": [0, 5, 7], "document_minhash_dedupl": [0, 5, 13, 14], "documentminhashdedupl": [0, 5, 7], "optimal_param": [0, 5, 7], "sha1_hash32": [0, 5, 7], "document_simhash_dedupl": [0, 5, 13, 14], "documentsimhashdedupl": [0, 5, 7], "local_num_differing_bit": [0, 5, 7], "num_differing_bits_selector": [0, 5, 7], "alphanumeric_filt": [0, 5, 13, 14], "alphanumericfilt": [0, 5, 8], "average_line_length_filt": [0, 5, 13, 14], "averagelinelengthfilt": [0, 5, 8], "character_repetition_filt": [0, 5, 13, 14], "characterrepetitionfilt": [0, 5, 8], "flagged_words_filt": [0, 5, 13, 14], "flaggedwordfilt": [0, 5, 8], "language_id_score_filt": [0, 5, 13, 14], "languageidscorefilt": [0, 5, 8], "maximum_line_length_filt": [0, 5, 13, 14], "maximumlinelengthfilt": [0, 5, 8], "perplexity_filt": [0, 5, 13, 14], "perplexityfilt": [0, 5, 8], "special_characters_filt": [0, 5, 13, 14], "specialcharactersfilt": [0, 5, 8], "specified_field_filt": [0, 5, 13, 14], "specifiedfieldfilt": [0, 5, 8], "specified_numeric_field_filt": [0, 5, 13, 14], "specifiednumericfieldfilt": [0, 5, 8], "is_numb": [0, 5, 8], "stopwords_filt": [0, 5, 13, 14], "stopwordsfilt": [0, 5, 8], "suffix_filt": [0, 5, 13, 14], "suffixfilt": [0, 5, 8], "text_length_filt": [0, 5, 13, 14], "textlengthfilt": [0, 5, 8], "token_num_filt": [0, 5, 13, 14], "tokennumfilt": [0, 5, 8], "word_num_filt": [0, 5, 13, 14], "wordnumfilt": [0, 5, 8], "word_repetition_filt": [0, 5, 13, 14], "wordrepetitionfilt": [0, 5, 8], "mapper": [0, 3, 5, 13, 14], "clean_copyright_mapp": [0, 5, 13, 14], "cleancopyrightmapp": [0, 5, 9], "clean_email_mapp": [0, 5, 13, 14], "cleanemailmapp": [0, 5, 9], "clean_html_mapp": [0, 5, 13, 14], "cleanhtmlmapp": [0, 5, 9], "clean_ip_mapp": [0, 5, 13, 14], "cleanipmapp": [0, 5, 9], "clean_links_mapp": [0, 5, 13, 14], "cleanlinksmapp": [0, 5, 9], "expand_macro_mapp": [0, 5, 13, 14], "expandmacromapp": [0, 5, 9], "fix_unicode_mapp": [0, 5, 13, 14], "fixunicodemapp": [0, 5, 9], "nlpaug_en_mapp": [0, 5, 13, 14], "nlpaugenmapp": [0, 5, 9], "nlpcda_zh_mapp": [0, 5, 13, 14], "nlpcdazhmapp": [0, 5, 9], "punctuation_normalization_mapp": [0, 5, 13, 14], "punctuationnormalizationmapp": [0, 5, 9], "remove_bibliography_mapp": [0, 5, 13, 14], "removebibliographymapp": [0, 5, 9], "remove_comments_mapp": [0, 5, 13, 14], "removecommentsmapp": [0, 5, 9], "remove_header_mapp": [0, 5, 13, 14], "removeheadermapp": [0, 5, 9], "remove_long_words_mapp": [0, 5, 13, 14], "removelongwordsmapp": [0, 5, 9], "remove_specific_chars_mapp": [0, 5, 13, 14], "removespecificcharsmapp": [0, 5, 9], "remove_table_text_mapp": [0, 5, 13, 14], "removetabletextmapp": [0, 5, 9], "remove_words_with_incorrect_substrings_mapp": [0, 5, 13, 14], "removewordswithincorrectsubstringsmapp": [0, 5, 9], "sentence_split_mapp": [0, 5, 13, 14], "sentencesplitmapp": [0, 5, 9], "whitespace_normalization_mapp": [0, 5, 13, 14], "whitespacenormalizationmapp": [0, 5, 9], "selector": [0, 5, 13, 14], "frequency_specified_field_selector": [0, 5, 13, 14], "frequencyspecifiedfieldselector": [0, 5, 10], "topk_specified_field_selector": [0, 5, 13, 14], "topkspecifiedfieldselector": [0, 5, 10], "to_numb": [0, 5, 10], "base_op": [0, 13, 14], "compute_hash": [0, 5, 7], "process": [0, 3, 4, 5, 6, 7, 8, 9, 10, 12], "compute_stat": [0, 5, 8], "is_batched_op": [0, 5], "load_op": [0, 5, 13, 14], "op_fus": [0, 13, 14], "fusedfilt": [0, 5, 13, 14], "fuse_filter_group": [0, 5, 13, 14], "fuse_oper": [0, 5, 13, 14], "util": [0, 13, 14], "asset_util": [0, 13, 14], "load_words_asset": [0, 12, 13, 14], "cache_util": [0, 13, 14], "ckpt_util": [0, 13, 14], "checkpointmanag": [0, 12, 13, 14], "check_ckpt": [0, 12], "check_ops_to_skip": [0, 12], "get_left_process_list": [0, 12], "load_ckpt": [0, 12], "record": [0, 12], "save_ckpt": [0, 12], "compress": [0, 3, 13, 14], "basecompressor": [0, 12, 13, 14], "cachecompressmanag": [0, 12, 13, 14], "decompress": [0, 12, 13, 14], "format_cache_file_nam": [0, 12], "compressmanag": [0, 12, 13, 14], "compressionoff": [0, 12, 13, 14], "compressor": [0, 12, 13, 14], "extractor": [0, 12, 13, 14], "extract": [0, 3, 4, 12], "filelock": [0, 12, 13, 14], "gzipcompressor": [0, 12, 13, 14], "lz4compressor": [0, 12, 13, 14], "zstdcompressor": [0, 12, 13, 14], "cleanup_compressed_cache_fil": [0, 12, 13, 14], "constant": [0, 13, 14], "field": [0, 4, 5, 8, 10, 12, 13, 14], "context": [0, 5, 8, 12], "meta": [0, 3, 4, 12], "stat": [0, 1, 3, 5, 8, 12], "hashkei": [0, 12, 13, 14], "hash": [0, 5, 7, 12], "minhash": [0, 7, 12], "simhash": [0, 7, 12], "intervar": [0, 12, 13, 14], "line": [0, 1, 2, 8, 12], "refined_word": [0, 12], "word": [0, 6, 8, 9, 12], "statskei": [0, 12, 13, 14], "alnum_ratio": [0, 12], "alpha_token_ratio": [0, 12], "avg_line_length": [0, 12], "char_rep_ratio": [0, 12], "flagged_words_ratio": [0, 12], "lang": [0, 8, 9, 12], "lang_scor": [0, 12], "max_line_length": [0, 12], "num_token": [0, 12], "num_word": [0, 12], "perplex": [0, 8, 12], "special_char_ratio": [0, 12], "stopwords_ratio": [0, 12], "text_len": [0, 12], "word_rep_ratio": [0, 12], "file_util": [0, 13, 14], "find_files_with_suffix": [0, 12, 13, 14], "is_absolute_path": [0, 12, 13, 14], "fingerprint_util": [0, 13, 14], "hasher": [0, 12, 13, 14], "dispatch": [0, 12], "hash_byt": [0, 12], "hash_default": [0, 12], "hexdigest": [0, 12], "updat": [0, 2, 12], "generate_fingerprint": [0, 12, 13, 14], "update_fingerprint": [0, 12, 13, 14], "logger_util": [0, 13, 14], "hiddenprint": [0, 12, 13, 14], "streamtologuru": [0, 12, 13, 14], "flush": [0, 12], "write": [0, 12], "get_caller_nam": [0, 12, 13, 14], "get_log_file_path": [0, 12, 13, 14], "redirect_sys_output": [0, 12, 13, 14], "setup_logg": [0, 12, 13, 14], "model_util": [0, 13, 14], "check_model": [0, 12, 13, 14], "get_model": [0, 12, 13, 14], "prepare_diversity_model": [0, 12, 13, 14], "prepare_fasttext_model": [0, 12, 13, 14], "prepare_huggingface_token": [0, 12, 13, 14], "prepare_kenlm_model": [0, 12, 13, 14], "prepare_model": [0, 12, 13, 14], "prepare_nltk_model": [0, 12, 13, 14], "prepare_sentencepiece_model": [0, 12, 13, 14], "registri": [0, 13, 14], "get": [0, 1, 4, 6, 12], "list": [0, 1, 2, 3, 4, 5, 6, 8, 9, 12], "modul": [0, 2, 4, 12, 13], "name": [0, 1, 2, 3, 4, 5, 8, 12], "register_modul": [0, 12], "class": [1, 3, 4, 5, 6, 7, 8, 9, 10, 12], "dataset": [1, 3, 4, 5, 7, 10, 12], "output_path": [1, 12], "overall_result": 1, "none": [1, 2, 3, 4, 5, 6, 7, 9, 10, 12], "save_stats_in_one_fil": 1, "true": [1, 3, 5, 6, 7, 8, 9, 10, 12], "sourc": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12], "base": [1, 3, 4, 5, 6, 7, 8, 9, 10, 12], "object": [1, 2, 3, 4, 5, 6, 12], "appli": [1, 3, 10], "each": [1, 2, 3, 5, 7, 9], "column": [1, 3, 9], "respect": [1, 7], "initi": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12], "method": [1, 3, 4, 5, 6, 7, 8, 9, 10, 12], "param": [1, 2, 6, 7, 12], "path": [1, 3, 4, 12], "store": [1, 3, 4, 5, 7, 8, 12], "result": [1, 3], "option": [1, 3, 4, 12], "precomput": 1, "overal": 1, "whether": [1, 3, 4, 5, 6, 7, 8, 9, 12], "save": [1, 4, 12], "all": [1, 3, 6, 8, 9, 12], "figur": [1, 3], "one": [1, 2, 6, 7, 8, 12], "imag": 1, "file": [1, 2, 3, 4, 5, 8, 12], "show_percentil": 1, "fals": [1, 4, 5, 6, 7, 8, 9, 12], "show": [1, 3], "draw": 1, "paramet": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12], "percentil": 1, "sub": [1, 2, 6, 7, 12], "If": [1, 8, 9, 12], "sever": 1, "red": 1, "indic": 1, "quantil": 1, "distribut": [1, 3], "singl": [1, 3, 5], "window": [1, 7], "after": [1, 2, 3, 4, 6, 7], "return": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12], "ax": 1, "save_path": 1, "box": 1, "plot": 1, "includ": [1, 5, 7, 8, 9], "inform": [1, 5, 8, 10], "histogram": 1, "total_num": 1, "factor": 1, "2": [1, 3, 6, 8, 9], "given": [1, 3], "total": [1, 8, 9], "number": [1, 3, 4, 5, 7, 8, 9, 10, 12], "best": 1, "row": [1, 7], "thi": [1, 3, 5, 6, 7, 8, 9, 10, 12], "function": [1, 3, 6, 7], "need": [1, 6, 8, 9, 10, 12], "when": [1, 3, 4, 5, 7, 10, 12], "we": [1, 7, 8, 9, 12], "type": [1, 2, 4, 7, 9, 12], "In": [1, 3], "default": [1, 2, 3, 4, 7, 9, 12], "which": [1, 3, 5, 8, 9, 12], "mean": [1, 3, 12], "ar": [1, 3, 6, 7, 10, 12], "grid": 1, "lang_or_model": 1, "en": [1, 8, 9, 12], "divers": [1, 12], "sampl": [1, 3, 4, 5, 7, 8, 9, 10], "an": [1, 3, 4, 5, 7, 12], "model": [1, 6, 8, 9, 12], "specif": [1, 3, 5, 7, 8, 9, 12], "languag": [1, 7, 8, 9, 12], "us": [1, 2, 3, 4, 5, 6, 7, 8, 9, 12], "column_nam": 1, "text": [1, 4, 5, 7, 8, 9], "postproc_func": 1, "postproc_kwarg": 1, "whole": 1, "argument": [1, 3, 5], "lexic": 1, "tree": 1, "tree_root": 1, "find": [1, 3, 5, 6, 12], "verb": 1, "its": [1, 3, 4, 5, 9, 12], "closest": 1, "root": 1, "valid": [1, 12], "nlp": 1, "first_sent": 1, "input": [1, 3, 4, 5, 7, 8, 10, 12], "string": [1, 7, 9, 12], "first": [1, 3, 6, 7], "sentenc": [1, 6, 9], "onli": [1, 3, 7, 9, 12], "matter": 1, "over": 1, "top_k_verb": 1, "20": [1, 9], "top_k_noun": 1, "4": [1, 7], "kwarg": [1, 3, 4, 7, 8, 9, 10, 12], "keep": [1, 5, 7, 8, 12], "largest": 1, "group": [1, 5, 6, 8], "noun": 1, "extra": [1, 2, 3, 4, 7, 8, 9, 10, 12], "arg": [1, 2, 3, 4, 5, 7, 8, 9, 10, 12], "std": 1, "etc": [1, 3, 4, 12], "describ": 1, "panda": 1, "cfg": [2, 3, 4], "jsonargpars": 2, "parser": 2, "pars": 2, "from": [2, 3, 4, 5, 6, 7, 8, 9, 12], "posix": 2, "style": 2, "command": [2, 4], "yaml": 2, "json": [2, 3, 4, 8], "jsonnet": 2, "superset": 2, "environ": [2, 12], "variabl": [2, 5], "hard": 2, "code": [2, 9], "conifg": 2, "defaut": 2, "global": [2, 4], "do": 2, "some": [2, 7, 9, 12], "setup": [2, 12], "task": 2, "creat": 2, "work": [2, 3, 9], "directori": [2, 3, 4, 8, 12], "log": [2, 12], "cach": [2, 3, 8, 12], "checkpoint": [2, 3, 12], "temp_dir": 2, "tempfil": 2, "origin": [2, 4, 5, 7, 9, 12], "op_name_class": 2, "split": [2, 6, 9], "item": [2, 3, 5], "sort": [2, 10], "them": [2, 4, 7, 12], "concat": 2, "togeth": 2, "pair": [2, 3, 5, 7], "op_nam": [2, 3, 12], "op_class": 2, "It": [3, 7], "multipl": [3, 4, 6, 12], "gener": [3, 9, 12], "tabl": [3, 9], "help": 3, "user": 3, "understand": 3, "better": 3, "dict": [3, 12], "load_data_np": 3, "pipelin": 3, "worker": [3, 12], "karg": 3, "enhanc": 3, "huggingfac": [3, 4, 12], "usabl": 3, "effici": 3, "overrid": [3, 12], "add": [3, 4], "func": 3, "can": [3, 9], "access": 3, "nest": 3, "manner": 3, "clear": 3, "raw": 3, "call": [3, 7], "most": 3, "oper": [3, 5, 12], "classmethod": [3, 12], "from_xx": 3, "constructor": 3, "construct": 3, "remov": [3, 5, 6, 9, 12], "datasetdict": [3, 4], "obj": 3, "wrap": 3, "root_obj": 3, "kei": [3, 4, 5, 8, 10, 12], "check": [3, 4, 12], "flatten": 3, "layer": 3, "queri": 3, "date": 3, "befor": [3, 12], "conduct": [3, 4, 5], "actual": 3, "ones": 3, "unifi": [3, 4], "order": [3, 10], "export_path": 3, "export_shard_s": 3, "0": [3, 4, 5, 7, 8, 12], "export_in_parallel": 3, "num_proc": [3, 4, 12], "1": [3, 4, 9, 12], "export_d": 3, "export_stat": 3, "The": [3, 4, 5, 7, 8, 9, 10], "1073741824": 3, "1024": 3, "1048576": 3, "1099511627776": 3, "size": [3, 6, 7, 8], "shard": 3, "content": [3, 12], "static": [3, 12], "jsonl": [3, 4], "target": [3, 4, 8, 10, 12], "parquet": [3, 4], "rai": 3, "experiment": 3, "juicer": 3, "cluster": 3, "support": [3, 9, 12], "now": [3, 6, 9], "advanc": 3, "work_dir": 3, "show_num": [3, 5, 7], "10": [3, 8], "trace": [3, 5, 7], "chang": [3, 7, 9, 12], "comparison": 3, "maximum": [3, 8], "str": [3, 4, 5, 6, 7, 8, 9, 10, 12], "previous_d": 3, "processed_d": 3, "text_kei": [3, 4, 5], "compar": [3, 12], "batchmapp": 3, "mainli": 3, "new": [3, 4, 12], "augment": [3, 6, 8, 9], "dup_pair": 3, "duplic": [3, 5, 7], "differ": [3, 4, 6, 7, 9], "other": 3, "two": [3, 7], "embed": 3, "independ": [3, 9], "obtain": [3, 6], "due": [3, 7], "modif": [3, 4], "dataset_path": 4, "csv": 4, "specifi": [4, 6, 8, 10, 12], "tupl": [4, 7, 8, 12], "local": [4, 7], "packag": [4, 7], "info": [4, 5, 12], "int": [4, 7, 9, 12], "global_cfg": 4, "consequ": 4, "repositori": 4, "hub": 4, "featur": 4, "appropri": 4, "read": 4, "intern": 4, "follow": 4, "out": 4, "those": 4, "empti": 4, "sinc": [4, 6], "mai": 4, "modifi": 4, "unified_format_dataset": 4, "zst": 4, "mixtur": 4, "weight": [4, 7], "accord": [4, 5, 7], "mix": 4, "randomli": [4, 9], "everi": 4, "merg": [4, 6, 8], "datasset": 4, "dir": 4, "w1": 4, "w2": 4, "ds_dir": 4, "w3": 4, "ds_file": 4, "txt": [4, 8, 12], "pdf": [4, 8], "cpp": 4, "docx": [4, 8], "md": [4, 12], "tex": [4, 9], "asm": 4, "bat": 4, "cmd": 4, "h": 4, "hpp": 4, "cc": 4, "hh": 4, "cmake": 4, "css": 4, "dockerfil": 4, "f90": 4, "f03": 4, "f08": 4, "f77": 4, "f95": 4, "fpp": 4, "go": 4, "html": [4, 9], "java": 4, "jl": 4, "lua": 4, "markdown": 4, "php": 4, "php3": 4, "php4": 4, "php5": 4, "phpt": 4, "pl": 4, "pm": 4, "pod": 4, "perl": 4, "ps1": 4, "psd1": 4, "psm1": 4, "py": 4, "rb": 4, "sql": 4, "scala": 4, "sh": 4, "bash": 4, "zsh": 4, "tsx": 4, "vb": 4, "makefil": 4, "xml": 4, "rst": 4, "smali": 4, "datas": 4, "fn": 4, "tgt_path": 4, "tsv": 4, "delimit": 4, "union": [5, 6], "should_keep_long_word": [5, 9], "should_keep_word_with_incorrect_substr": [5, 9], "valu": [5, 7, 8, 10, 12], "For": [5, 7, 8, 9], "doc": [5, 7], "level": [5, 6, 7, 8, 9, 10, 12], "open": [5, 7, 9], "metric": [5, 8], "decid": [5, 8, 12], "intermedi": [5, 8], "var": [5, 8], "temporarili": [5, 8, 12], "boolean": [5, 8], "edit": 5, "process_list": 5, "A": 5, "fuse": 5, "share": 5, "same": [5, 12], "instanc": [5, 12], "fused_filt": 5, "fused_fil": 5, "original_filter_group": 5, "definit": [5, 9], "correspond": [5, 8, 10, 12], "x": 6, "document": [6, 7, 8, 9], "model_func": 6, "splite": 6, "separ": [6, 8, 10], "token_func": 6, "new_lin": 6, "tab": 6, "ratio": [6, 8, 10], "like": [6, 7, 9, 12], "stopword": [6, 8], "token": [6, 7, 8, 9, 12], "invert": 6, "concaten": 6, "setenc": 6, "also": 6, "space": [6, 7], "tag": 6, "strip_charact": 6, "wai": 6, "faster": 6, "than": [6, 7, 8], "set": [6, 10], "instead": 6, "contain": [6, 12], "lot": 6, "element": 6, "emoji": 6, "charact": [6, 7, 8, 9], "uesd": 6, "group_siz": 6, "join_char": 6, "especi": [6, 8], "chines": [6, 7, 8, 9], "without": [6, 9], "between": [6, 7, 8, 12], "vietnames": [6, 8], "syllabl": 6, "ad": 6, "lower_cas": 6, "strip_char": 6, "use_words_aug": [6, 8], "words_aug_group_s": [6, 8], "words_aug_join_char": [6, 8], "refin": 6, "non": [6, 7], "revers": [6, 10], "special": [6, 8, 9], "convert": [6, 7], "lower": [6, 7], "case": [6, 7], "lowercas": [6, 7], "char": [6, 8, 9], "bool": [7, 8, 9, 10, 12], "ignore_non_charact": 7, "exact": 7, "match": 7, "md5": 7, "ignor": 7, "alphabet": [7, 8], "whitespac": [7, 9], "digit": 7, "punctuat": [7, 9], "window_s": 7, "positiveint": [7, 8, 9, 10], "5": [7, 8], "ignore_pattern": 7, "num_permut": 7, "256": 7, "jaccard_threshold": 7, "closedunitinterv": [7, 8, 10], "7": 7, "num_band": 7, "num_rows_per_band": 7, "minhashlsh": 7, "byte": [7, 12], "so": [7, 9, 12], "thei": 7, "won": 7, "kept": 7, "final": 7, "should": [7, 12], "english": [7, 9], "recommend": [7, 9], "And": 7, "shingl": 7, "pattern": 7, "permut": 7, "min": [7, 8, 9], "jaccard": 7, "similar": [7, 9], "threshold": 7, "detect": 7, "regard": 7, "band": 7, "lsh": 7, "determin": [7, 10], "optim": 7, "algorithm": [7, 12], "minim": 7, "sum": 7, "prob": 7, "posit": 7, "neg": 7, "float": [7, 8], "num_perm": 7, "false_positive_weight": 7, "false_negative_weight": 7, "probabl": 7, "taken": 7, "datasketch": 7, "b": 7, "per": 7, "directli": 7, "avoid": [7, 12], "depend": 7, "6": [7, 8], "num_block": 7, "hamming_dist": 7, "block": 7, "max": [7, 8, 9], "ham": 7, "distanc": 7, "alwai": 7, "less": [7, 8], "hash_a": 7, "hash_b": 7, "implement": 7, "calcul": 7, "bit": [7, 12], "integ": 7, "num_differing_bit": 7, "python": [7, 12], "version": [7, 12], "instal": 7, "3": [7, 8, 9], "9": 7, "librari": [7, 9], "cannot": 7, "compil": 7, "correctli": 7, "cython": 7, "fix": [7, 9], "incompat": 7, "recursionerror": 7, "occur": 7, "sometim": [7, 12], "our": 7, "otherwis": [7, 9, 12], "avail": [7, 8, 12], "min_ratio": 8, "25": 8, "max_ratio": 8, "positivefloat": 8, "9223372036854775807": [8, 9], "numer": 8, "within": [8, 9, 10, 12], "rang": [8, 9, 12], "count": 8, "alphanumer": 8, "below": [8, 9], "exce": [8, 9], "min_len": [8, 9], "max_len": [8, 9], "averag": 8, "length": [8, 9], "rep_len": 8, "gram": 8, "repetit": 8, "045": 8, "flagged_words_dir": 8, "home": 8, "runner": 8, "asset": [8, 12], "flag": 8, "consid": 8, "what": 8, "adopt": 8, "flagged_word": 8, "whose": [8, 12], "join": 8, "min_scor": 8, "8": 8, "confid": 8, "score": 8, "larger": 8, "identif": 8, "max_ppl": 8, "1500": 8, "field_kei": [8, 10], "target_valu": 8, "multi": [8, 10, 12], "retain": 8, "min_valu": 8, "max_valu": 8, "specifiednumericfield": 8, "stopwords_dir": 8, "exampl": [8, 12], "hf_token": 8, "eleutherai": 8, "pythia": 8, "9b": 8, "dedup": 8, "min_num": 8, "max_num": 8, "hug": 8, "face": 8, "clean": [9, 12], "copyright": 9, "comment": 9, "begin": [9, 12], "email": 9, "ipv4": 9, "ipv6": 9, "address": 9, "link": [9, 12], "http": 9, "ftp": 9, "expand": 9, "macro": 9, "bodi": 9, "latex": 9, "unicod": 9, "error": 9, "sequenti": 9, "aug_num": 9, "delete_random_word": 9, "swap_random_word": 9, "spelling_error_word": 9, "split_random_word": 9, "keyboard_error_char": 9, "ocr_error_char": 9, "delete_random_char": 9, "swap_random_char": 9, "insert_random_char": 9, "simpli": 9, "nlpaug": 9, "you": 9, "time": 9, "semant": 9, "might": [9, 12], "significantli": 9, "combin": [9, 12], "sequenc": 9, "would": 9, "opened_aug_method": 9, "delet": 9, "random": 9, "love": 9, "llm": 9, "swap": 9, "contigu": 9, "simul": 9, "spell": 9, "ai": 9, "ll": 9, "keyboard": 9, "ov4": 9, "ocr": 9, "10ve": 9, "oe": 9, "ovl": 9, "insert": 9, "lkove": 9, "replace_similar_word": 9, "replace_homophone_char": 9, "replace_equivalent_num": 9, "nlpcda": 9, "notic": 9, "replac": [9, 12], "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a\u65b9\u6cd5": 9, "\u8fd9\u8fb9\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a\u65b9\u6cd5": 9, "homophon": 9, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6fd6\u636e\u589e\u5f3a\u65b9\u6cd5": 9, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a": 9, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u5f3a\u589e\u65b9\u6cd5": 9, "equival": 9, "represent": 9, "\u8fd9\u91cc\u4e00\u5171\u6709\u4f0d\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a\u65b9\u6cd5": 9, "normal": 9, "bibliographi": 9, "end": [9, 12], "doc_typ": 9, "inlin": 9, "multilin": 9, "kind": 9, "drop_no_head": 9, "header": 9, "drop": 9, "long": 9, "chars_to_remov": 9, "min_col": 9, "from_2_to_20": 9, "max_col": 9, "regular": 9, "express": 9, "substr": 9, "incorrect": 9, "0x20": 9, "found": [9, 12], "here": [9, 12], "wikipedia": 9, "org": 9, "wiki": 9, "whitespace_charact": 9, "top_ratio": 10, "topk": 10, "frequenc": 10, "top": 10, "both": 10, "smaller": 10, "rule": 10, "descend": 10, "words_dir": 12, "words_typ": 12, "download": 12, "asset_link": 12, "team": 12, "ckpt_dir": 12, "original_process_list": 12, "latest": 12, "manag": 12, "rerun": 12, "reload": 12, "skip": 12, "ani": 12, "els": 12, "prefix": 12, "part": 12, "start": 12, "scratch": 12, "somm": 12, "left": 12, "unchang": 12, "op_arg": 12, "dump": 12, "abc": 12, "abstract": 12, "input_path": 12, "output": 12, "uncompress": 12, "compressor_format": 12, "zstd": 12, "up": 12, "prev_d": 12, "this_d": 12, "fingerprint": 12, "previou": 12, "current": 12, "There": 12, "overlap": 12, "must": 12, "again": 12, "fingerprintd": 12, "accept": 12, "cache_file_nam": 12, "rank": 12, "defin": 12, "turn": 12, "off": 12, "see": 12, "gzip": 12, "lz4": 12, "extractor_format": 12, "lock_fil": 12, "timeout": 12, "max_filename_length": 12, "unixfilelock": 12, "lock": 12, "compresss": 12, "automat": 12, "__dj__context__": 12, "__dj__meta__": 12, "__dj__stats__": 12, "__dj__suffix__": 12, "__dj__hash": 12, "__dj__minhash": 12, "__dj__simhash": 12, "__dj__line": 12, "__dj__refined_word": 12, "__dj__word": 12, "travers": 12, "absolut": 12, "rel": 12, "objet": 12, "dill": 12, "serial": 12, "failur": 12, "variou": 12, "transform": 12, "transform_arg": 12, "hide": 12, "caller_nam": 12, "stream": 12, "redirect": 12, "logger": 12, "loguru": 12, "caller": 12, "apex": 12, "pycocotool": 12, "buf": 12, "depth": 12, "locat": 12, "log_level": 12, "stdout": 12, "stderr": 12, "save_dir": 12, "distributed_rank": 12, "filenam": 12, "mode": 12, "train": 12, "test": 12, "devic": 12, "gpu": 12, "append": 12, "system": 12, "model_nam": 12, "forc": 12, "exist": 12, "model_path": 12, "full": 12, "forcefulli": 12, "mayb": 12, "incomplet": 12, "reason": 12, "model_kei": 12, "model_typ": 12, "sentencepiec": 12, "model_zoo": 12, "tokenzi": 12, "prepar": 12, "zh": 12, "fasttext": 12, "tokenizer_nam": 12, "kenlm": 12, "syntax": 12, "render": 12, "nltk": 12, "punkt": 12, "regist": 12, "repo": 12, "module_kei": 12, "properti": 12, "module_nam": 12, "module_cl": 12, "modulenam": 12, "pass": 12, "textformatter2": 12, "text_formatter2": 12, "d": [13, 14], "t": [13, 14], "_": [13, 14], "j": [13, 14], "u": [13, 14], "i": [13, 14], "c": [13, 14], "e": [13, 14], "r": [13, 14], "index": 13, "search": 13, "page": 13}, "objects": {"data_juicer.analysis": [[1, 0, 0, "-", "column_wise_analysis"], [1, 0, 0, "-", "diversity_analysis"], [1, 0, 0, "-", "overall_analysis"]], "data_juicer.analysis.column_wise_analysis": [[1, 1, 1, "", "ColumnWiseAnalysis"], [1, 3, 1, "", "get_row_col"]], "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyse"], [1, 2, 1, "", "draw_box"], [1, 2, 1, "", "draw_hist"]], "data_juicer.analysis.diversity_analysis": [[1, 1, 1, "", "DiversityAnalysis"], [1, 3, 1, "", "find_root_verb_and_its_dobj"], [1, 3, 1, "", "find_root_verb_and_its_dobj_in_string"], [1, 3, 1, "", "get_diversity"]], "data_juicer.analysis.diversity_analysis.DiversityAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyse"], [1, 2, 1, "", "compute"]], "data_juicer.analysis.overall_analysis": [[1, 1, 1, "", "OverallAnalysis"]], "data_juicer.analysis.overall_analysis.OverallAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyse"]], "data_juicer.config": [[2, 0, 0, "-", "config"]], "data_juicer.config.config": [[2, 3, 1, "", "config_backup"], [2, 3, 1, "", "display_config"], [2, 3, 1, "", "init_configs"], [2, 3, 1, "", "init_setup_from_cfg"], [2, 3, 1, "", "sort_op_by_types_and_names"]], "data_juicer.core": [[3, 0, 0, "-", "analyser"], [3, 0, 0, "-", "data"], [3, 0, 0, "-", "executor"], [3, 0, 0, "-", "exporter"], [3, 0, 0, "-", "ray_executor"], [3, 0, 0, "-", "tracer"]], "data_juicer.core.analyser": [[3, 1, 1, "", "Analyser"]], "data_juicer.core.analyser.Analyser": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "run"]], "data_juicer.core.data": [[3, 1, 1, "", "NestedDataset"], [3, 1, 1, "", "NestedDatasetDict"], [3, 1, 1, "", "NestedQueryDict"], [3, 3, 1, "", "nested_obj_factory"], [3, 3, 1, "", "nested_query"], [3, 3, 1, "", "wrap_func_with_nested_access"]], "data_juicer.core.data.NestedDataset": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "add_column"], [3, 2, 1, "", "cleanup_cache_files"], [3, 2, 1, "", "filter"], [3, 2, 1, "", "from_dict"], [3, 2, 1, "", "map"], [3, 2, 1, "", "remove_columns"], [3, 2, 1, "", "select"], [3, 2, 1, "", "select_columns"]], "data_juicer.core.data.NestedDatasetDict": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "map"]], "data_juicer.core.data.NestedQueryDict": [[3, 2, 1, "", "__init__"]], "data_juicer.core.executor": [[3, 1, 1, "", "Executor"]], "data_juicer.core.executor.Executor": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "run"]], "data_juicer.core.exporter": [[3, 1, 1, "", "Exporter"]], "data_juicer.core.exporter.Exporter": [[3, 4, 1, "", "GiB"], [3, 4, 1, "", "KiB"], [3, 4, 1, "", "MiB"], [3, 4, 1, "", "TiB"], [3, 2, 1, "", "__init__"], [3, 2, 1, "", "export"], [3, 2, 1, "", "to_jsonl"], [3, 2, 1, "", "to_parquet"]], "data_juicer.core.ray_executor": [[3, 1, 1, "", "RayExecutor"]], "data_juicer.core.ray_executor.RayExecutor": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "run"]], "data_juicer.core.tracer": [[3, 1, 1, "", "Tracer"]], "data_juicer.core.tracer.Tracer": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "trace_batch_mapper"], [3, 2, 1, "", "trace_deduplicator"], [3, 2, 1, "", "trace_filter"], [3, 2, 1, "", "trace_mapper"]], "data_juicer.format": [[4, 0, 0, "-", "csv_formatter"], [4, 0, 0, "-", "formatter"], [4, 0, 0, "-", "json_formatter"], [4, 0, 0, "-", "load"], [4, 0, 0, "-", "mixture_formatter"], [4, 0, 0, "-", "parquet_formatter"], [4, 0, 0, "-", "text_formatter"], [4, 0, 0, "-", "tsv_formatter"]], "data_juicer.format.csv_formatter": [[4, 1, 1, "", "CsvFormatter"]], "data_juicer.format.csv_formatter.CsvFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.formatter": [[4, 1, 1, "", "BaseFormatter"], [4, 1, 1, "", "LocalFormatter"], [4, 1, 1, "", "RemoteFormatter"], [4, 3, 1, "", "add_suffixes"], [4, 3, 1, "", "load_formatter"], [4, 3, 1, "", "unify_format"]], "data_juicer.format.formatter.BaseFormatter": [[4, 2, 1, "", "load_dataset"]], "data_juicer.format.formatter.LocalFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.formatter.RemoteFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.json_formatter": [[4, 1, 1, "", "JsonFormatter"]], "data_juicer.format.json_formatter.JsonFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.load": [[4, 3, 1, "", "load_formatter"]], "data_juicer.format.mixture_formatter": [[4, 1, 1, "", "MixtureFormatter"]], "data_juicer.format.mixture_formatter.MixtureFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.parquet_formatter": [[4, 1, 1, "", "ParquetFormatter"]], "data_juicer.format.parquet_formatter.ParquetFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.text_formatter": [[4, 1, 1, "", "TextFormatter"], [4, 3, 1, "", "extract_txt_from_docx"], [4, 3, 1, "", "extract_txt_from_pdf"]], "data_juicer.format.text_formatter.TextFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.tsv_formatter": [[4, 1, 1, "", "TsvFormatter"]], "data_juicer.format.tsv_formatter.TsvFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.ops": [[5, 0, 0, "-", "base_op"], [5, 0, 0, "-", "load"], [5, 0, 0, "-", "op_fusion"]], "data_juicer.ops.base_op": [[5, 1, 1, "", "Deduplicator"], [5, 1, 1, "", "Filter"], [5, 1, 1, "", "Mapper"], [5, 1, 1, "", "Selector"]], "data_juicer.ops.base_op.Deduplicator": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_hash"], [5, 2, 1, "", "process"]], "data_juicer.ops.base_op.Filter": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_stats"], [5, 2, 1, "", "process"]], "data_juicer.ops.base_op.Mapper": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "is_batched_op"], [5, 2, 1, "", "process"]], "data_juicer.ops.base_op.Selector": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process"]], "data_juicer.ops.common": [[6, 0, 0, "-", "helper_func"], [6, 0, 0, "-", "special_characters"]], "data_juicer.ops.common.helper_func": [[6, 1, 1, "", "UnionFind"], [6, 3, 1, "", "get_sentences_from_document"], [6, 3, 1, "", "get_words_from_document"], [6, 3, 1, "", "merge_on_whitespace_tab_newline"], [6, 3, 1, "", "split_on_newline_tab_whitespace"], [6, 3, 1, "", "split_on_whitespace"], [6, 3, 1, "", "strip"], [6, 3, 1, "", "words_augmentation"], [6, 3, 1, "", "words_refinement"]], "data_juicer.ops.common.helper_func.UnionFind": [[6, 2, 1, "", "__init__"], [6, 2, 1, "", "find"], [6, 2, 1, "", "union"]], "data_juicer.ops.deduplicator": [[7, 0, 0, "-", "document_deduplicator"], [7, 0, 0, "-", "document_minhash_deduplicator"], [7, 0, 0, "-", "document_simhash_deduplicator"]], "data_juicer.ops.deduplicator.document_deduplicator": [[7, 1, 1, "", "DocumentDeduplicator"]], "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator": [[7, 2, 1, "", "__init__"], [7, 2, 1, "", "compute_hash"], [7, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator": [[7, 1, 1, "", "DocumentMinhashDeduplicator"], [7, 3, 1, "", "optimal_param"], [7, 3, 1, "", "sha1_hash32"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator": [[7, 2, 1, "", "__init__"], [7, 2, 1, "", "compute_hash"], [7, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator": [[7, 1, 1, "", "DocumentSimhashDeduplicator"], [7, 3, 1, "", "local_num_differing_bits"], [7, 3, 1, "", "num_differing_bits_selector"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator": [[7, 2, 1, "", "__init__"], [7, 2, 1, "", "compute_hash"], [7, 2, 1, "", "process"]], "data_juicer.ops.filter": [[8, 0, 0, "-", "alphanumeric_filter"], [8, 0, 0, "-", "average_line_length_filter"], [8, 0, 0, "-", "character_repetition_filter"], [8, 0, 0, "-", "flagged_words_filter"], [8, 0, 0, "-", "language_id_score_filter"], [8, 0, 0, "-", "maximum_line_length_filter"], [8, 0, 0, "-", "perplexity_filter"], [8, 0, 0, "-", "special_characters_filter"], [8, 0, 0, "-", "specified_field_filter"], [8, 0, 0, "-", "specified_numeric_field_filter"], [8, 0, 0, "-", "stopwords_filter"], [8, 0, 0, "-", "suffix_filter"], [8, 0, 0, "-", "text_length_filter"], [8, 0, 0, "-", "token_num_filter"], [8, 0, 0, "-", "word_num_filter"], [8, 0, 0, "-", "word_repetition_filter"]], "data_juicer.ops.filter.alphanumeric_filter": [[8, 1, 1, "", "AlphanumericFilter"]], "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.average_line_length_filter": [[8, 1, 1, "", "AverageLineLengthFilter"]], "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.character_repetition_filter": [[8, 1, 1, "", "CharacterRepetitionFilter"]], "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.flagged_words_filter": [[8, 1, 1, "", "FlaggedWordFilter"]], "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.language_id_score_filter": [[8, 1, 1, "", "LanguageIDScoreFilter"]], "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.maximum_line_length_filter": [[8, 1, 1, "", "MaximumLineLengthFilter"]], "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.perplexity_filter": [[8, 1, 1, "", "PerplexityFilter"]], "data_juicer.ops.filter.perplexity_filter.PerplexityFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.special_characters_filter": [[8, 1, 1, "", "SpecialCharactersFilter"]], "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.specified_field_filter": [[8, 1, 1, "", "SpecifiedFieldFilter"]], "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.specified_numeric_field_filter": [[8, 1, 1, "", "SpecifiedNumericFieldFilter"], [8, 3, 1, "", "is_number"]], "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.stopwords_filter": [[8, 1, 1, "", "StopWordsFilter"]], "data_juicer.ops.filter.stopwords_filter.StopWordsFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.suffix_filter": [[8, 1, 1, "", "SuffixFilter"]], "data_juicer.ops.filter.suffix_filter.SuffixFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.text_length_filter": [[8, 1, 1, "", "TextLengthFilter"]], "data_juicer.ops.filter.text_length_filter.TextLengthFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.token_num_filter": [[8, 1, 1, "", "TokenNumFilter"]], "data_juicer.ops.filter.token_num_filter.TokenNumFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.word_num_filter": [[8, 1, 1, "", "WordNumFilter"]], "data_juicer.ops.filter.word_num_filter.WordNumFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter.word_repetition_filter": [[8, 1, 1, "", "WordRepetitionFilter"]], "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_stats"], [8, 2, 1, "", "process"]], "data_juicer.ops.load": [[5, 3, 1, "", "load_ops"]], "data_juicer.ops.mapper": [[9, 0, 0, "-", "clean_copyright_mapper"], [9, 0, 0, "-", "clean_email_mapper"], [9, 0, 0, "-", "clean_html_mapper"], [9, 0, 0, "-", "clean_ip_mapper"], [9, 0, 0, "-", "clean_links_mapper"], [9, 0, 0, "-", "expand_macro_mapper"], [9, 0, 0, "-", "fix_unicode_mapper"], [9, 0, 0, "-", "nlpaug_en_mapper"], [9, 0, 0, "-", "nlpcda_zh_mapper"], [9, 0, 0, "-", "punctuation_normalization_mapper"], [9, 0, 0, "-", "remove_bibliography_mapper"], [9, 0, 0, "-", "remove_comments_mapper"], [9, 0, 0, "-", "remove_header_mapper"], [9, 0, 0, "-", "remove_long_words_mapper"], [9, 0, 0, "-", "remove_specific_chars_mapper"], [9, 0, 0, "-", "remove_table_text_mapper"], [9, 0, 0, "-", "remove_words_with_incorrect_substrings_mapper"], [9, 0, 0, "-", "sentence_split_mapper"], [9, 0, 0, "-", "whitespace_normalization_mapper"]], "data_juicer.ops.mapper.clean_copyright_mapper": [[9, 1, 1, "", "CleanCopyrightMapper"]], "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.clean_email_mapper": [[9, 1, 1, "", "CleanEmailMapper"]], "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.clean_html_mapper": [[9, 1, 1, "", "CleanHtmlMapper"]], "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.clean_ip_mapper": [[9, 1, 1, "", "CleanIpMapper"]], "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.clean_links_mapper": [[9, 1, 1, "", "CleanLinksMapper"]], "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.expand_macro_mapper": [[9, 1, 1, "", "ExpandMacroMapper"]], "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.fix_unicode_mapper": [[9, 1, 1, "", "FixUnicodeMapper"]], "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.nlpaug_en_mapper": [[9, 1, 1, "", "NlpaugEnMapper"]], "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.nlpcda_zh_mapper": [[9, 1, 1, "", "NlpcdaZhMapper"]], "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.punctuation_normalization_mapper": [[9, 1, 1, "", "PunctuationNormalizationMapper"]], "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_bibliography_mapper": [[9, 1, 1, "", "RemoveBibliographyMapper"]], "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_comments_mapper": [[9, 1, 1, "", "RemoveCommentsMapper"]], "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_header_mapper": [[9, 1, 1, "", "RemoveHeaderMapper"]], "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_long_words_mapper": [[9, 1, 1, "", "RemoveLongWordsMapper"]], "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"], [9, 2, 1, "", "should_keep_long_word"]], "data_juicer.ops.mapper.remove_specific_chars_mapper": [[9, 1, 1, "", "RemoveSpecificCharsMapper"]], "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_table_text_mapper": [[9, 1, 1, "", "RemoveTableTextMapper"]], "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper": [[9, 1, 1, "", "RemoveWordsWithIncorrectSubstringsMapper"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"], [9, 2, 1, "", "should_keep_word_with_incorrect_substrings"]], "data_juicer.ops.mapper.sentence_split_mapper": [[9, 1, 1, "", "SentenceSplitMapper"]], "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.mapper.whitespace_normalization_mapper": [[9, 1, 1, "", "WhitespaceNormalizationMapper"]], "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "process"]], "data_juicer.ops.op_fusion": [[5, 1, 1, "", "FusedFilter"], [5, 3, 1, "", "fuse_filter_group"], [5, 3, 1, "", "fuse_operators"]], "data_juicer.ops.op_fusion.FusedFilter": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_stats"], [5, 2, 1, "", "process"]], "data_juicer.ops.selector": [[10, 0, 0, "-", "frequency_specified_field_selector"], [10, 0, 0, "-", "topk_specified_field_selector"]], "data_juicer.ops.selector.frequency_specified_field_selector": [[10, 1, 1, "", "FrequencySpecifiedFieldSelector"]], "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector": [[10, 2, 1, "", "__init__"], [10, 2, 1, "", "process"]], "data_juicer.ops.selector.topk_specified_field_selector": [[10, 1, 1, "", "TopkSpecifiedFieldSelector"], [10, 3, 1, "", "to_number"]], "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector": [[10, 2, 1, "", "__init__"], [10, 2, 1, "", "process"]], "data_juicer.utils": [[12, 0, 0, "-", "asset_utils"], [12, 0, 0, "-", "cache_utils"], [12, 0, 0, "-", "ckpt_utils"], [12, 0, 0, "-", "compress"], [12, 0, 0, "-", "constant"], [12, 0, 0, "-", "file_utils"], [12, 0, 0, "-", "fingerprint_utils"], [12, 0, 0, "-", "logger_utils"], [12, 0, 0, "-", "model_utils"], [12, 0, 0, "-", "registry"]], "data_juicer.utils.asset_utils": [[12, 3, 1, "", "load_words_asset"]], "data_juicer.utils.ckpt_utils": [[12, 1, 1, "", "CheckpointManager"]], "data_juicer.utils.ckpt_utils.CheckpointManager": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "check_ckpt"], [12, 2, 1, "", "check_ops_to_skip"], [12, 2, 1, "", "get_left_process_list"], [12, 2, 1, "", "load_ckpt"], [12, 2, 1, "", "record"], [12, 2, 1, "", "save_ckpt"]], "data_juicer.utils.compress": [[12, 1, 1, "", "BaseCompressor"], [12, 1, 1, "", "CacheCompressManager"], [12, 1, 1, "", "CompressManager"], [12, 1, 1, "", "CompressionOff"], [12, 1, 1, "", "Compressor"], [12, 1, 1, "", "Extractor"], [12, 1, 1, "", "FileLock"], [12, 1, 1, "", "GzipCompressor"], [12, 1, 1, "", "Lz4Compressor"], [12, 1, 1, "", "ZstdCompressor"], [12, 3, 1, "", "cleanup_compressed_cache_files"], [12, 3, 1, "", "compress"], [12, 3, 1, "", "decompress"]], "data_juicer.utils.compress.BaseCompressor": [[12, 2, 1, "", "compress"]], "data_juicer.utils.compress.CacheCompressManager": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "cleanup_cache_files"], [12, 2, 1, "", "compress"], [12, 2, 1, "", "decompress"], [12, 2, 1, "", "format_cache_file_name"]], "data_juicer.utils.compress.CompressManager": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "compress"], [12, 2, 1, "", "decompress"]], "data_juicer.utils.compress.Compressor": [[12, 2, 1, "", "compress"], [12, 4, 1, "", "compressors"]], "data_juicer.utils.compress.Extractor": [[12, 2, 1, "", "extract"]], "data_juicer.utils.compress.GzipCompressor": [[12, 2, 1, "", "compress"]], "data_juicer.utils.compress.Lz4Compressor": [[12, 2, 1, "", "compress"]], "data_juicer.utils.compress.ZstdCompressor": [[12, 2, 1, "", "compress"]], "data_juicer.utils.constant": [[12, 1, 1, "", "Fields"], [12, 1, 1, "", "HashKeys"], [12, 1, 1, "", "InterVars"], [12, 1, 1, "", "StatsKeys"]], "data_juicer.utils.constant.Fields": [[12, 4, 1, "", "context"], [12, 4, 1, "", "meta"], [12, 4, 1, "", "stats"], [12, 4, 1, "", "suffix"]], "data_juicer.utils.constant.HashKeys": [[12, 4, 1, "", "hash"], [12, 4, 1, "", "minhash"], [12, 4, 1, "", "simhash"]], "data_juicer.utils.constant.InterVars": [[12, 4, 1, "", "lines"], [12, 4, 1, "", "refined_words"], [12, 4, 1, "", "words"]], "data_juicer.utils.constant.StatsKeys": [[12, 4, 1, "", "alnum_ratio"], [12, 4, 1, "", "alpha_token_ratio"], [12, 4, 1, "", "avg_line_length"], [12, 4, 1, "", "char_rep_ratio"], [12, 4, 1, "", "flagged_words_ratio"], [12, 4, 1, "", "lang"], [12, 4, 1, "", "lang_score"], [12, 4, 1, "", "max_line_length"], [12, 4, 1, "", "num_token"], [12, 4, 1, "", "num_words"], [12, 4, 1, "", "perplexity"], [12, 4, 1, "", "special_char_ratio"], [12, 4, 1, "", "stopwords_ratio"], [12, 4, 1, "", "text_len"], [12, 4, 1, "", "word_rep_ratio"]], "data_juicer.utils.file_utils": [[12, 3, 1, "", "find_files_with_suffix"], [12, 3, 1, "", "is_absolute_path"]], "data_juicer.utils.fingerprint_utils": [[12, 1, 1, "", "Hasher"], [12, 3, 1, "", "generate_fingerprint"], [12, 3, 1, "", "update_fingerprint"]], "data_juicer.utils.fingerprint_utils.Hasher": [[12, 2, 1, "", "__init__"], [12, 4, 1, "", "dispatch"], [12, 2, 1, "", "hash"], [12, 2, 1, "", "hash_bytes"], [12, 2, 1, "", "hash_default"], [12, 2, 1, "", "hexdigest"], [12, 2, 1, "", "update"]], "data_juicer.utils.logger_utils": [[12, 1, 1, "", "HiddenPrints"], [12, 1, 1, "", "StreamToLoguru"], [12, 3, 1, "", "get_caller_name"], [12, 3, 1, "", "get_log_file_path"], [12, 3, 1, "", "redirect_sys_output"], [12, 3, 1, "", "setup_logger"]], "data_juicer.utils.logger_utils.StreamToLoguru": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "flush"], [12, 2, 1, "", "write"]], "data_juicer.utils.model_utils": [[12, 3, 1, "", "check_model"], [12, 3, 1, "", "get_model"], [12, 3, 1, "", "prepare_diversity_model"], [12, 3, 1, "", "prepare_fasttext_model"], [12, 3, 1, "", "prepare_huggingface_tokenizer"], [12, 3, 1, "", "prepare_kenlm_model"], [12, 3, 1, "", "prepare_model"], [12, 3, 1, "", "prepare_nltk_model"], [12, 3, 1, "", "prepare_sentencepiece_model"]], "data_juicer.utils.registry": [[12, 1, 1, "", "Registry"]], "data_juicer.utils.registry.Registry": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "get"], [12, 2, 1, "", "list"], [12, 5, 1, "", "modules"], [12, 5, 1, "", "name"], [12, 2, 1, "", "register_module"]]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:method", "3": "py:function", "4": "py:attribute", "5": "py:property"}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "method", "Python method"], "3": ["py", "function", "Python function"], "4": ["py", "attribute", "Python attribute"], "5": ["py", "property", "Python property"]}, "titleterms": {"d": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "t": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "_": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "j": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "u": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "i": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "c": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "e": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "r": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "n": [1, 2, 6], "l": [1, 7, 8, 10, 11, 12], "y": 1, "": [1, 5, 6, 7, 8, 9, 10, 11, 12, 13], "data_juic": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 13, 14], "analysi": 1, "column_wise_analysi": 1, "diversity_analysi": 1, "overall_analysi": 1, "o": [2, 3, 4, 5, 6, 7, 8, 9, 10, 11], "f": [2, 4, 8], "g": 2, "config": 2, "core": 3, "analys": 3, "data": [3, 13], "executor": 3, "export": 3, "ray_executor": 3, "tracer": 3, "m": [4, 6, 9], "format": 4, "csv_formatt": 4, "formatt": 4, "json_formatt": 4, "load": [4, 5], "mixture_formatt": 4, "parquet_formatt": 4, "text_formatt": 4, "tsv_formatt": 4, "p": [5, 6, 7, 8, 9, 10], "op": [5, 6, 7, 8, 9, 10], "base_op": 5, "op_fus": 5, "common": 6, "helper_func": 6, "special_charact": 6, "dedupl": 7, "document_dedupl": 7, "document_minhash_dedupl": 7, "document_simhash_dedupl": 7, "filter": 8, "alphanumeric_filt": 8, "average_line_length_filt": 8, "character_repetition_filt": 8, "flagged_words_filt": 8, "language_id_score_filt": 8, "maximum_line_length_filt": 8, "perplexity_filt": 8, "special_characters_filt": 8, "specified_field_filt": 8, "specified_numeric_field_filt": 8, "stopwords_filt": 8, "suffix_filt": 8, "text_length_filt": 8, "token_num_filt": 8, "word_num_filt": 8, "word_repetition_filt": 8, "mapper": 9, "clean_copyright_mapp": 9, "clean_email_mapp": 9, "clean_html_mapp": 9, "clean_ip_mapp": 9, "clean_links_mapp": 9, "expand_macro_mapp": 9, "fix_unicode_mapp": 9, "nlpaug_en_mapp": 9, "nlpcda_zh_mapp": 9, "punctuation_normalization_mapp": 9, "remove_bibliography_mapp": 9, "remove_comments_mapp": 9, "remove_header_mapp": 9, "remove_long_words_mapp": 9, "remove_specific_chars_mapp": 9, "remove_table_text_mapp": 9, "remove_words_with_incorrect_substrings_mapp": 9, "sentence_split_mapp": 9, "whitespace_normalization_mapp": 9, "selector": 10, "frequency_specified_field_selector": 10, "topk_specified_field_selector": 10, "util": 12, "asset_util": 12, "cache_util": 12, "ckpt_util": 12, "compress": 12, "constant": 12, "file_util": 12, "fingerprint_util": 12, "logger_util": 12, "model_util": 12, "registri": 12, "welcom": 13, "juicer": 13, "document": 13, "indic": 13, "tabl": 13}, "envversion": {"sphinx.domains.c": 3, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 9, "sphinx.domains.index": 1, "sphinx.domains.javascript": 3, "sphinx.domains.math": 2, "sphinx.domains.python": 4, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.viewcode": 1, "sphinx": 58}, "alltitles": {"d a t a _ j u i c e r": [[0, "d-a-t-a-j-u-i-c-e-r"]], "d a t a _ j u i c e r . a n a l y s i s": [[1, "d-a-t-a-j-u-i-c-e-r-a-n-a-l-y-s-i-s"]], "data_juicer.analysis.column_wise_analysis": [[1, "module-data_juicer.analysis.column_wise_analysis"]], "data_juicer.analysis.diversity_analysis": [[1, "module-data_juicer.analysis.diversity_analysis"]], "data_juicer.analysis.overall_analysis": [[1, "module-data_juicer.analysis.overall_analysis"]], "d a t a _ j u i c e r . c o n f i g": [[2, "d-a-t-a-j-u-i-c-e-r-c-o-n-f-i-g"]], "data_juicer.config.config": [[2, "module-data_juicer.config.config"]], "d a t a _ j u i c e r . c o r e": [[3, "d-a-t-a-j-u-i-c-e-r-c-o-r-e"]], "data_juicer.core.analyser": [[3, "module-data_juicer.core.analyser"]], "data_juicer.core.data": [[3, "module-data_juicer.core.data"]], "data_juicer.core.executor": [[3, "module-data_juicer.core.executor"]], "data_juicer.core.exporter": [[3, "module-data_juicer.core.exporter"]], "data_juicer.core.ray_executor": [[3, "module-data_juicer.core.ray_executor"]], "data_juicer.core.tracer": [[3, "module-data_juicer.core.tracer"]], "d a t a _ j u i c e r . f o r m a t": [[4, "d-a-t-a-j-u-i-c-e-r-f-o-r-m-a-t"]], "data_juicer.format.csv_formatter": [[4, "module-data_juicer.format.csv_formatter"]], "data_juicer.format.formatter": [[4, "module-data_juicer.format.formatter"]], "data_juicer.format.json_formatter": [[4, "module-data_juicer.format.json_formatter"]], "data_juicer.format.load": [[4, "module-data_juicer.format.load"]], "data_juicer.format.mixture_formatter": [[4, "module-data_juicer.format.mixture_formatter"]], "data_juicer.format.parquet_formatter": [[4, "module-data_juicer.format.parquet_formatter"]], "data_juicer.format.text_formatter": [[4, "module-data_juicer.format.text_formatter"]], "data_juicer.format.tsv_formatter": [[4, "module-data_juicer.format.tsv_formatter"]], "d a t a _ j u i c e r . o p s": [[5, "d-a-t-a-j-u-i-c-e-r-o-p-s"]], "data_juicer.ops.base_op": [[5, "module-data_juicer.ops.base_op"]], "data_juicer.ops.load": [[5, "module-data_juicer.ops.load"]], "data_juicer.ops.op_fusion": [[5, "module-data_juicer.ops.op_fusion"]], "d a t a _ j u i c e r . o p s . c o m m o n": [[6, "d-a-t-a-j-u-i-c-e-r-o-p-s-c-o-m-m-o-n"]], "data_juicer.ops.common.helper_func": [[6, "module-data_juicer.ops.common.helper_func"]], "data_juicer.ops.common.special_characters": [[6, "module-data_juicer.ops.common.special_characters"]], "d a t a _ j u i c e r . o p s . d e d u p l i c a t o r": [[7, "d-a-t-a-j-u-i-c-e-r-o-p-s-d-e-d-u-p-l-i-c-a-t-o-r"]], "data_juicer.ops.deduplicator.document_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_deduplicator"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator"]], "d a t a _ j u i c e r . o p s . f i l t e r": [[8, "d-a-t-a-j-u-i-c-e-r-o-p-s-f-i-l-t-e-r"]], "data_juicer.ops.filter.alphanumeric_filter": [[8, "module-data_juicer.ops.filter.alphanumeric_filter"]], "data_juicer.ops.filter.average_line_length_filter": [[8, "module-data_juicer.ops.filter.average_line_length_filter"]], "data_juicer.ops.filter.character_repetition_filter": [[8, "module-data_juicer.ops.filter.character_repetition_filter"]], "data_juicer.ops.filter.flagged_words_filter": [[8, "module-data_juicer.ops.filter.flagged_words_filter"]], "data_juicer.ops.filter.language_id_score_filter": [[8, "module-data_juicer.ops.filter.language_id_score_filter"]], "data_juicer.ops.filter.maximum_line_length_filter": [[8, "module-data_juicer.ops.filter.maximum_line_length_filter"]], "data_juicer.ops.filter.perplexity_filter": [[8, "module-data_juicer.ops.filter.perplexity_filter"]], "data_juicer.ops.filter.special_characters_filter": [[8, "module-data_juicer.ops.filter.special_characters_filter"]], "data_juicer.ops.filter.specified_field_filter": [[8, "module-data_juicer.ops.filter.specified_field_filter"]], "data_juicer.ops.filter.specified_numeric_field_filter": [[8, "module-data_juicer.ops.filter.specified_numeric_field_filter"]], "data_juicer.ops.filter.stopwords_filter": [[8, "module-data_juicer.ops.filter.stopwords_filter"]], "data_juicer.ops.filter.suffix_filter": [[8, "module-data_juicer.ops.filter.suffix_filter"]], "data_juicer.ops.filter.text_length_filter": [[8, "module-data_juicer.ops.filter.text_length_filter"]], "data_juicer.ops.filter.token_num_filter": [[8, "module-data_juicer.ops.filter.token_num_filter"]], "data_juicer.ops.filter.word_num_filter": [[8, "module-data_juicer.ops.filter.word_num_filter"]], "data_juicer.ops.filter.word_repetition_filter": [[8, "module-data_juicer.ops.filter.word_repetition_filter"]], "d a t a _ j u i c e r . o p s . m a p p e r": [[9, "d-a-t-a-j-u-i-c-e-r-o-p-s-m-a-p-p-e-r"]], "data_juicer.ops.mapper.clean_copyright_mapper": [[9, "module-data_juicer.ops.mapper.clean_copyright_mapper"]], "data_juicer.ops.mapper.clean_email_mapper": [[9, "module-data_juicer.ops.mapper.clean_email_mapper"]], "data_juicer.ops.mapper.clean_html_mapper": [[9, "module-data_juicer.ops.mapper.clean_html_mapper"]], "data_juicer.ops.mapper.clean_ip_mapper": [[9, "module-data_juicer.ops.mapper.clean_ip_mapper"]], "data_juicer.ops.mapper.clean_links_mapper": [[9, "module-data_juicer.ops.mapper.clean_links_mapper"]], "data_juicer.ops.mapper.expand_macro_mapper": [[9, "module-data_juicer.ops.mapper.expand_macro_mapper"]], "data_juicer.ops.mapper.fix_unicode_mapper": [[9, "module-data_juicer.ops.mapper.fix_unicode_mapper"]], "data_juicer.ops.mapper.nlpaug_en_mapper": [[9, "module-data_juicer.ops.mapper.nlpaug_en_mapper"]], "data_juicer.ops.mapper.nlpcda_zh_mapper": [[9, "module-data_juicer.ops.mapper.nlpcda_zh_mapper"]], "data_juicer.ops.mapper.punctuation_normalization_mapper": [[9, "module-data_juicer.ops.mapper.punctuation_normalization_mapper"]], "data_juicer.ops.mapper.remove_bibliography_mapper": [[9, "module-data_juicer.ops.mapper.remove_bibliography_mapper"]], "data_juicer.ops.mapper.remove_comments_mapper": [[9, "module-data_juicer.ops.mapper.remove_comments_mapper"]], "data_juicer.ops.mapper.remove_header_mapper": [[9, "module-data_juicer.ops.mapper.remove_header_mapper"]], "data_juicer.ops.mapper.remove_long_words_mapper": [[9, "module-data_juicer.ops.mapper.remove_long_words_mapper"]], "data_juicer.ops.mapper.remove_specific_chars_mapper": [[9, "module-data_juicer.ops.mapper.remove_specific_chars_mapper"]], "data_juicer.ops.mapper.remove_table_text_mapper": [[9, "module-data_juicer.ops.mapper.remove_table_text_mapper"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper": [[9, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper"]], "data_juicer.ops.mapper.sentence_split_mapper": [[9, "module-data_juicer.ops.mapper.sentence_split_mapper"]], "data_juicer.ops.mapper.whitespace_normalization_mapper": [[9, "module-data_juicer.ops.mapper.whitespace_normalization_mapper"]], "d a t a _ j u i c e r . o p s . s e l e c t o r": [[10, "d-a-t-a-j-u-i-c-e-r-o-p-s-s-e-l-e-c-t-o-r"]], "data_juicer.ops.selector.frequency_specified_field_selector": [[10, "module-data_juicer.ops.selector.frequency_specified_field_selector"]], "data_juicer.ops.selector.topk_specified_field_selector": [[10, "module-data_juicer.ops.selector.topk_specified_field_selector"]], "d a t a _ j u i c e r . t o o l s": [[11, "d-a-t-a-j-u-i-c-e-r-t-o-o-l-s"]], "d a t a _ j u i c e r . u t i l s": [[12, "d-a-t-a-j-u-i-c-e-r-u-t-i-l-s"]], "data_juicer.utils.asset_utils": [[12, "module-data_juicer.utils.asset_utils"]], "data_juicer.utils.cache_utils": [[12, "module-data_juicer.utils.cache_utils"]], "data_juicer.utils.ckpt_utils": [[12, "module-data_juicer.utils.ckpt_utils"]], "data_juicer.utils.compress": [[12, "module-data_juicer.utils.compress"]], "data_juicer.utils.constant": [[12, "module-data_juicer.utils.constant"]], "data_juicer.utils.file_utils": [[12, "module-data_juicer.utils.file_utils"]], "data_juicer.utils.fingerprint_utils": [[12, "module-data_juicer.utils.fingerprint_utils"]], "data_juicer.utils.logger_utils": [[12, "module-data_juicer.utils.logger_utils"]], "data_juicer.utils.model_utils": [[12, "module-data_juicer.utils.model_utils"]], "data_juicer.utils.registry": [[12, "module-data_juicer.utils.registry"]], "Welcome to data-juicer\u2019s documentation!": [[13, "welcome-to-data-juicer-s-documentation"]], "data_juicer": [[13, "data-juicer"], [14, "data-juicer"]], "Indices and tables": [[13, "indices-and-tables"]]}, "indexentries": {"columnwiseanalysis (class in data_juicer.analysis.column_wise_analysis)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis"]], "diversityanalysis (class in data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis"]], "overallanalysis (class in data_juicer.analysis.overall_analysis)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis"]], "__init__() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__"]], "__init__() (data_juicer.analysis.diversity_analysis.diversityanalysis method)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__"]], "__init__() (data_juicer.analysis.overall_analysis.overallanalysis method)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis.__init__"]], "analyse() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyse"]], "analyse() (data_juicer.analysis.diversity_analysis.diversityanalysis method)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyse"]], "analyse() (data_juicer.analysis.overall_analysis.overallanalysis method)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis.analyse"]], "compute() (data_juicer.analysis.diversity_analysis.diversityanalysis method)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute"]], "data_juicer.analysis.column_wise_analysis": [[1, "module-data_juicer.analysis.column_wise_analysis"]], "data_juicer.analysis.diversity_analysis": [[1, "module-data_juicer.analysis.diversity_analysis"]], "data_juicer.analysis.overall_analysis": [[1, "module-data_juicer.analysis.overall_analysis"]], "draw_box() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box"]], "draw_hist() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist"]], "find_root_verb_and_its_dobj() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj"]], "find_root_verb_and_its_dobj_in_string() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string"]], "get_diversity() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.get_diversity"]], "get_row_col() (in module data_juicer.analysis.column_wise_analysis)": [[1, "data_juicer.analysis.column_wise_analysis.get_row_col"]], "module": [[1, "module-data_juicer.analysis.column_wise_analysis"], [1, "module-data_juicer.analysis.diversity_analysis"], [1, "module-data_juicer.analysis.overall_analysis"], [2, "module-data_juicer.config.config"], [3, "module-data_juicer.core.analyser"], [3, "module-data_juicer.core.data"], [3, "module-data_juicer.core.executor"], [3, "module-data_juicer.core.exporter"], [3, "module-data_juicer.core.ray_executor"], [3, "module-data_juicer.core.tracer"], [4, "module-data_juicer.format.csv_formatter"], [4, "module-data_juicer.format.formatter"], [4, "module-data_juicer.format.json_formatter"], [4, "module-data_juicer.format.load"], [4, "module-data_juicer.format.mixture_formatter"], [4, "module-data_juicer.format.parquet_formatter"], [4, "module-data_juicer.format.text_formatter"], [4, "module-data_juicer.format.tsv_formatter"], [5, "module-data_juicer.ops.base_op"], [5, "module-data_juicer.ops.load"], [5, "module-data_juicer.ops.op_fusion"], [6, "module-data_juicer.ops.common.helper_func"], [6, "module-data_juicer.ops.common.special_characters"], [7, "module-data_juicer.ops.deduplicator.document_deduplicator"], [7, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator"], [7, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator"], [8, "module-data_juicer.ops.filter.alphanumeric_filter"], [8, "module-data_juicer.ops.filter.average_line_length_filter"], [8, "module-data_juicer.ops.filter.character_repetition_filter"], [8, "module-data_juicer.ops.filter.flagged_words_filter"], [8, "module-data_juicer.ops.filter.language_id_score_filter"], [8, "module-data_juicer.ops.filter.maximum_line_length_filter"], [8, "module-data_juicer.ops.filter.perplexity_filter"], [8, "module-data_juicer.ops.filter.special_characters_filter"], [8, "module-data_juicer.ops.filter.specified_field_filter"], [8, "module-data_juicer.ops.filter.specified_numeric_field_filter"], [8, "module-data_juicer.ops.filter.stopwords_filter"], [8, "module-data_juicer.ops.filter.suffix_filter"], [8, "module-data_juicer.ops.filter.text_length_filter"], [8, "module-data_juicer.ops.filter.token_num_filter"], [8, "module-data_juicer.ops.filter.word_num_filter"], [8, "module-data_juicer.ops.filter.word_repetition_filter"], [9, "module-data_juicer.ops.mapper.clean_copyright_mapper"], [9, "module-data_juicer.ops.mapper.clean_email_mapper"], [9, "module-data_juicer.ops.mapper.clean_html_mapper"], [9, "module-data_juicer.ops.mapper.clean_ip_mapper"], [9, "module-data_juicer.ops.mapper.clean_links_mapper"], [9, "module-data_juicer.ops.mapper.expand_macro_mapper"], [9, "module-data_juicer.ops.mapper.fix_unicode_mapper"], [9, "module-data_juicer.ops.mapper.nlpaug_en_mapper"], [9, "module-data_juicer.ops.mapper.nlpcda_zh_mapper"], [9, "module-data_juicer.ops.mapper.punctuation_normalization_mapper"], [9, "module-data_juicer.ops.mapper.remove_bibliography_mapper"], [9, "module-data_juicer.ops.mapper.remove_comments_mapper"], [9, "module-data_juicer.ops.mapper.remove_header_mapper"], [9, "module-data_juicer.ops.mapper.remove_long_words_mapper"], [9, "module-data_juicer.ops.mapper.remove_specific_chars_mapper"], [9, "module-data_juicer.ops.mapper.remove_table_text_mapper"], [9, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper"], [9, "module-data_juicer.ops.mapper.sentence_split_mapper"], [9, "module-data_juicer.ops.mapper.whitespace_normalization_mapper"], [10, "module-data_juicer.ops.selector.frequency_specified_field_selector"], [10, "module-data_juicer.ops.selector.topk_specified_field_selector"], [12, "module-data_juicer.utils.asset_utils"], [12, "module-data_juicer.utils.cache_utils"], [12, "module-data_juicer.utils.ckpt_utils"], [12, "module-data_juicer.utils.compress"], [12, "module-data_juicer.utils.constant"], [12, "module-data_juicer.utils.file_utils"], [12, "module-data_juicer.utils.fingerprint_utils"], [12, "module-data_juicer.utils.logger_utils"], [12, "module-data_juicer.utils.model_utils"], [12, "module-data_juicer.utils.registry"]], "config_backup() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.config_backup"]], "data_juicer.config.config": [[2, "module-data_juicer.config.config"]], "display_config() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.display_config"]], "init_configs() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.init_configs"]], "init_setup_from_cfg() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.init_setup_from_cfg"]], "sort_op_by_types_and_names() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.sort_op_by_types_and_names"]], "analyser (class in data_juicer.core.analyser)": [[3, "data_juicer.core.analyser.Analyser"]], "executor (class in data_juicer.core.executor)": [[3, "data_juicer.core.executor.Executor"]], "exporter (class in data_juicer.core.exporter)": [[3, "data_juicer.core.exporter.Exporter"]], "gib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.GiB"]], "kib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.KiB"]], "mib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.MiB"]], "nesteddataset (class in data_juicer.core.data)": [[3, "data_juicer.core.data.NestedDataset"]], "nesteddatasetdict (class in data_juicer.core.data)": [[3, "data_juicer.core.data.NestedDatasetDict"]], "nestedquerydict (class in data_juicer.core.data)": [[3, "data_juicer.core.data.NestedQueryDict"]], "rayexecutor (class in data_juicer.core.ray_executor)": [[3, "data_juicer.core.ray_executor.RayExecutor"]], "tib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.TiB"]], "tracer (class in data_juicer.core.tracer)": [[3, "data_juicer.core.tracer.Tracer"]], "__init__() (data_juicer.core.analyser.analyser method)": [[3, "data_juicer.core.analyser.Analyser.__init__"]], "__init__() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.__init__"]], "__init__() (data_juicer.core.data.nesteddatasetdict method)": [[3, "data_juicer.core.data.NestedDatasetDict.__init__"]], "__init__() (data_juicer.core.data.nestedquerydict method)": [[3, "data_juicer.core.data.NestedQueryDict.__init__"]], "__init__() (data_juicer.core.executor.executor method)": [[3, "data_juicer.core.executor.Executor.__init__"]], "__init__() (data_juicer.core.exporter.exporter method)": [[3, "data_juicer.core.exporter.Exporter.__init__"]], "__init__() (data_juicer.core.ray_executor.rayexecutor method)": [[3, "data_juicer.core.ray_executor.RayExecutor.__init__"]], "__init__() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.__init__"]], "add_column() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.add_column"]], "cleanup_cache_files() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.cleanup_cache_files"]], "data_juicer.core.analyser": [[3, "module-data_juicer.core.analyser"]], "data_juicer.core.data": [[3, "module-data_juicer.core.data"]], "data_juicer.core.executor": [[3, "module-data_juicer.core.executor"]], "data_juicer.core.exporter": [[3, "module-data_juicer.core.exporter"]], "data_juicer.core.ray_executor": [[3, "module-data_juicer.core.ray_executor"]], "data_juicer.core.tracer": [[3, "module-data_juicer.core.tracer"]], "export() (data_juicer.core.exporter.exporter method)": [[3, "data_juicer.core.exporter.Exporter.export"]], "filter() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.filter"]], "from_dict() (data_juicer.core.data.nesteddataset class method)": [[3, "data_juicer.core.data.NestedDataset.from_dict"]], "map() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.map"]], "map() (data_juicer.core.data.nesteddatasetdict method)": [[3, "data_juicer.core.data.NestedDatasetDict.map"]], "nested_obj_factory() (in module data_juicer.core.data)": [[3, "data_juicer.core.data.nested_obj_factory"]], "nested_query() (in module data_juicer.core.data)": [[3, "data_juicer.core.data.nested_query"]], "remove_columns() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.remove_columns"]], "run() (data_juicer.core.analyser.analyser method)": [[3, "data_juicer.core.analyser.Analyser.run"]], "run() (data_juicer.core.executor.executor method)": [[3, "data_juicer.core.executor.Executor.run"]], "run() (data_juicer.core.ray_executor.rayexecutor method)": [[3, "data_juicer.core.ray_executor.RayExecutor.run"]], "select() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.select"]], "select_columns() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.select_columns"]], "to_jsonl() (data_juicer.core.exporter.exporter static method)": [[3, "data_juicer.core.exporter.Exporter.to_jsonl"]], "to_parquet() (data_juicer.core.exporter.exporter static method)": [[3, "data_juicer.core.exporter.Exporter.to_parquet"]], "trace_batch_mapper() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_batch_mapper"]], "trace_deduplicator() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_deduplicator"]], "trace_filter() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_filter"]], "trace_mapper() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_mapper"]], "wrap_func_with_nested_access() (in module data_juicer.core.data)": [[3, "data_juicer.core.data.wrap_func_with_nested_access"]], "baseformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.BaseFormatter"]], "csvformatter (class in data_juicer.format.csv_formatter)": [[4, "data_juicer.format.csv_formatter.CsvFormatter"]], "jsonformatter (class in data_juicer.format.json_formatter)": [[4, "data_juicer.format.json_formatter.JsonFormatter"]], "localformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.LocalFormatter"]], "mixtureformatter (class in data_juicer.format.mixture_formatter)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter"]], "parquetformatter (class in data_juicer.format.parquet_formatter)": [[4, "data_juicer.format.parquet_formatter.ParquetFormatter"]], "remoteformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.RemoteFormatter"]], "suffixes (data_juicer.format.csv_formatter.csvformatter attribute)": [[4, "data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES"]], "suffixes (data_juicer.format.json_formatter.jsonformatter attribute)": [[4, "data_juicer.format.json_formatter.JsonFormatter.SUFFIXES"]], "suffixes (data_juicer.format.parquet_formatter.parquetformatter attribute)": [[4, "data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES"]], "suffixes (data_juicer.format.text_formatter.textformatter attribute)": [[4, "data_juicer.format.text_formatter.TextFormatter.SUFFIXES"]], "suffixes (data_juicer.format.tsv_formatter.tsvformatter attribute)": [[4, "data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES"]], "textformatter (class in data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.TextFormatter"]], "tsvformatter (class in data_juicer.format.tsv_formatter)": [[4, "data_juicer.format.tsv_formatter.TsvFormatter"]], "__init__() (data_juicer.format.csv_formatter.csvformatter method)": [[4, "data_juicer.format.csv_formatter.CsvFormatter.__init__"]], "__init__() (data_juicer.format.formatter.localformatter method)": [[4, "data_juicer.format.formatter.LocalFormatter.__init__"]], "__init__() (data_juicer.format.formatter.remoteformatter method)": [[4, "data_juicer.format.formatter.RemoteFormatter.__init__"]], "__init__() (data_juicer.format.json_formatter.jsonformatter method)": [[4, "data_juicer.format.json_formatter.JsonFormatter.__init__"]], "__init__() (data_juicer.format.mixture_formatter.mixtureformatter method)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter.__init__"]], "__init__() (data_juicer.format.parquet_formatter.parquetformatter method)": [[4, "data_juicer.format.parquet_formatter.ParquetFormatter.__init__"]], "__init__() (data_juicer.format.text_formatter.textformatter method)": [[4, "data_juicer.format.text_formatter.TextFormatter.__init__"]], "__init__() (data_juicer.format.tsv_formatter.tsvformatter method)": [[4, "data_juicer.format.tsv_formatter.TsvFormatter.__init__"]], "add_suffixes() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.add_suffixes"]], "data_juicer.format.csv_formatter": [[4, "module-data_juicer.format.csv_formatter"]], "data_juicer.format.formatter": [[4, "module-data_juicer.format.formatter"]], "data_juicer.format.json_formatter": [[4, "module-data_juicer.format.json_formatter"]], "data_juicer.format.load": [[4, "module-data_juicer.format.load"]], "data_juicer.format.mixture_formatter": [[4, "module-data_juicer.format.mixture_formatter"]], "data_juicer.format.parquet_formatter": [[4, "module-data_juicer.format.parquet_formatter"]], "data_juicer.format.text_formatter": [[4, "module-data_juicer.format.text_formatter"]], "data_juicer.format.tsv_formatter": [[4, "module-data_juicer.format.tsv_formatter"]], "extract_txt_from_docx() (in module data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.extract_txt_from_docx"]], "extract_txt_from_pdf() (in module data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.extract_txt_from_pdf"]], "load_dataset() (data_juicer.format.formatter.baseformatter method)": [[4, "data_juicer.format.formatter.BaseFormatter.load_dataset"]], "load_dataset() (data_juicer.format.formatter.localformatter method)": [[4, "data_juicer.format.formatter.LocalFormatter.load_dataset"]], "load_dataset() (data_juicer.format.formatter.remoteformatter method)": [[4, "data_juicer.format.formatter.RemoteFormatter.load_dataset"]], "load_dataset() (data_juicer.format.mixture_formatter.mixtureformatter method)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset"]], "load_dataset() (data_juicer.format.text_formatter.textformatter method)": [[4, "data_juicer.format.text_formatter.TextFormatter.load_dataset"]], "load_formatter() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.load_formatter"]], "load_formatter() (in module data_juicer.format.load)": [[4, "data_juicer.format.load.load_formatter"]], "unify_format() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.unify_format"]], "deduplicator (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Deduplicator"]], "filter (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Filter"]], "fusedfilter (class in data_juicer.ops.op_fusion)": [[5, "data_juicer.ops.op_fusion.FusedFilter"]], "mapper (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Mapper"]], "selector (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Selector"]], "__init__() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.__init__"]], "__init__() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.__init__"]], "__init__() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.__init__"]], "__init__() (data_juicer.ops.base_op.selector method)": [[5, "data_juicer.ops.base_op.Selector.__init__"]], "__init__() (data_juicer.ops.op_fusion.fusedfilter method)": [[5, "data_juicer.ops.op_fusion.FusedFilter.__init__"]], "compute_hash() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.compute_hash"]], "compute_stats() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.compute_stats"]], "compute_stats() (data_juicer.ops.op_fusion.fusedfilter method)": [[5, "data_juicer.ops.op_fusion.FusedFilter.compute_stats"]], "data_juicer.ops.base_op": [[5, "module-data_juicer.ops.base_op"]], "data_juicer.ops.load": [[5, "module-data_juicer.ops.load"]], "data_juicer.ops.op_fusion": [[5, "module-data_juicer.ops.op_fusion"]], "fuse_filter_group() (in module data_juicer.ops.op_fusion)": [[5, "data_juicer.ops.op_fusion.fuse_filter_group"]], "fuse_operators() (in module data_juicer.ops.op_fusion)": [[5, "data_juicer.ops.op_fusion.fuse_operators"]], "is_batched_op() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.is_batched_op"]], "load_ops() (in module data_juicer.ops.load)": [[5, "data_juicer.ops.load.load_ops"]], "process() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.process"]], "process() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.process"]], "process() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.process"]], "process() (data_juicer.ops.base_op.selector method)": [[5, "data_juicer.ops.base_op.Selector.process"]], "process() (data_juicer.ops.op_fusion.fusedfilter method)": [[5, "data_juicer.ops.op_fusion.FusedFilter.process"]], "unionfind (class in data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.UnionFind"]], "__init__() (data_juicer.ops.common.helper_func.unionfind method)": [[6, "data_juicer.ops.common.helper_func.UnionFind.__init__"]], "data_juicer.ops.common.helper_func": [[6, "module-data_juicer.ops.common.helper_func"]], "data_juicer.ops.common.special_characters": [[6, "module-data_juicer.ops.common.special_characters"]], "find() (data_juicer.ops.common.helper_func.unionfind method)": [[6, "data_juicer.ops.common.helper_func.UnionFind.find"]], "get_sentences_from_document() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.get_sentences_from_document"]], "get_words_from_document() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.get_words_from_document"]], "merge_on_whitespace_tab_newline() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline"]], "split_on_newline_tab_whitespace() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace"]], "split_on_whitespace() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.split_on_whitespace"]], "strip() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.strip"]], "union() (data_juicer.ops.common.helper_func.unionfind method)": [[6, "data_juicer.ops.common.helper_func.UnionFind.union"]], "words_augmentation() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.words_augmentation"]], "words_refinement() (in module data_juicer.ops.common.helper_func)": [[6, "data_juicer.ops.common.helper_func.words_refinement"]], "documentdeduplicator (class in data_juicer.ops.deduplicator.document_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator"]], "documentminhashdeduplicator (class in data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator"]], "documentsimhashdeduplicator (class in data_juicer.ops.deduplicator.document_simhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator"]], "__init__() (data_juicer.ops.deduplicator.document_deduplicator.documentdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__"]], "__init__() (data_juicer.ops.deduplicator.document_minhash_deduplicator.documentminhashdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__"]], "__init__() (data_juicer.ops.deduplicator.document_simhash_deduplicator.documentsimhashdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__"]], "compute_hash() (data_juicer.ops.deduplicator.document_deduplicator.documentdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash"]], "compute_hash() (data_juicer.ops.deduplicator.document_minhash_deduplicator.documentminhashdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash"]], "compute_hash() (data_juicer.ops.deduplicator.document_simhash_deduplicator.documentsimhashdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash"]], "data_juicer.ops.deduplicator.document_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_deduplicator"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator": [[7, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator"]], "local_num_differing_bits() (in module data_juicer.ops.deduplicator.document_simhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.local_num_differing_bits"]], "num_differing_bits_selector() (in module data_juicer.ops.deduplicator.document_simhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.num_differing_bits_selector"]], "optimal_param() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param"]], "process() (data_juicer.ops.deduplicator.document_deduplicator.documentdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process"]], "process() (data_juicer.ops.deduplicator.document_minhash_deduplicator.documentminhashdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process"]], "process() (data_juicer.ops.deduplicator.document_simhash_deduplicator.documentsimhashdeduplicator method)": [[7, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process"]], "sha1_hash32() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[7, "data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32"]], "alphanumericfilter (class in data_juicer.ops.filter.alphanumeric_filter)": [[8, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter"]], "averagelinelengthfilter (class in data_juicer.ops.filter.average_line_length_filter)": [[8, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter"]], "characterrepetitionfilter (class in data_juicer.ops.filter.character_repetition_filter)": [[8, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter"]], "flaggedwordfilter (class in data_juicer.ops.filter.flagged_words_filter)": [[8, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter"]], "languageidscorefilter (class in data_juicer.ops.filter.language_id_score_filter)": [[8, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter"]], "maximumlinelengthfilter (class in data_juicer.ops.filter.maximum_line_length_filter)": [[8, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter"]], "perplexityfilter (class in data_juicer.ops.filter.perplexity_filter)": [[8, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter"]], "specialcharactersfilter (class in data_juicer.ops.filter.special_characters_filter)": [[8, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter"]], "specifiedfieldfilter (class in data_juicer.ops.filter.specified_field_filter)": [[8, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter"]], "specifiednumericfieldfilter (class in data_juicer.ops.filter.specified_numeric_field_filter)": [[8, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter"]], "stopwordsfilter (class in data_juicer.ops.filter.stopwords_filter)": [[8, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter"]], "suffixfilter (class in data_juicer.ops.filter.suffix_filter)": [[8, "data_juicer.ops.filter.suffix_filter.SuffixFilter"]], "textlengthfilter (class in data_juicer.ops.filter.text_length_filter)": [[8, "data_juicer.ops.filter.text_length_filter.TextLengthFilter"]], "tokennumfilter (class in data_juicer.ops.filter.token_num_filter)": [[8, "data_juicer.ops.filter.token_num_filter.TokenNumFilter"]], "wordnumfilter (class in data_juicer.ops.filter.word_num_filter)": [[8, "data_juicer.ops.filter.word_num_filter.WordNumFilter"]], "wordrepetitionfilter (class in data_juicer.ops.filter.word_repetition_filter)": [[8, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter"]], "__init__() (data_juicer.ops.filter.alphanumeric_filter.alphanumericfilter method)": [[8, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__"]], "__init__() (data_juicer.ops.filter.average_line_length_filter.averagelinelengthfilter method)": [[8, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__"]], "__init__() (data_juicer.ops.filter.character_repetition_filter.characterrepetitionfilter method)": [[8, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__"]], "__init__() (data_juicer.ops.filter.flagged_words_filter.flaggedwordfilter method)": [[8, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__"]], "__init__() (data_juicer.ops.filter.language_id_score_filter.languageidscorefilter method)": [[8, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__"]], "__init__() (data_juicer.ops.filter.maximum_line_length_filter.maximumlinelengthfilter method)": [[8, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__"]], "__init__() (data_juicer.ops.filter.perplexity_filter.perplexityfilter method)": [[8, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__"]], "__init__() (data_juicer.ops.filter.special_characters_filter.specialcharactersfilter method)": [[8, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__"]], "__init__() (data_juicer.ops.filter.specified_field_filter.specifiedfieldfilter method)": [[8, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__"]], "__init__() (data_juicer.ops.filter.specified_numeric_field_filter.specifiednumericfieldfilter method)": [[8, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__"]], "__init__() (data_juicer.ops.filter.stopwords_filter.stopwordsfilter method)": [[8, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__"]], "__init__() (data_juicer.ops.filter.suffix_filter.suffixfilter method)": [[8, "data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__"]], "__init__() (data_juicer.ops.filter.text_length_filter.textlengthfilter method)": [[8, "data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__"]], "__init__() (data_juicer.ops.filter.token_num_filter.tokennumfilter method)": [[8, "data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__"]], "__init__() (data_juicer.ops.filter.word_num_filter.wordnumfilter method)": [[8, "data_juicer.ops.filter.word_num_filter.WordNumFilter.__init__"]], "__init__() (data_juicer.ops.filter.word_repetition_filter.wordrepetitionfilter method)": [[8, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__"]], "compute_stats() (data_juicer.ops.filter.alphanumeric_filter.alphanumericfilter method)": [[8, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.average_line_length_filter.averagelinelengthfilter method)": [[8, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.character_repetition_filter.characterrepetitionfilter method)": [[8, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.flagged_words_filter.flaggedwordfilter method)": [[8, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.language_id_score_filter.languageidscorefilter method)": [[8, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.maximum_line_length_filter.maximumlinelengthfilter method)": [[8, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.perplexity_filter.perplexityfilter method)": [[8, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.special_characters_filter.specialcharactersfilter method)": [[8, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.specified_field_filter.specifiedfieldfilter method)": [[8, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.specified_numeric_field_filter.specifiednumericfieldfilter method)": [[8, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.stopwords_filter.stopwordsfilter method)": [[8, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.suffix_filter.suffixfilter method)": [[8, "data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.text_length_filter.textlengthfilter method)": [[8, "data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.token_num_filter.tokennumfilter method)": [[8, "data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.word_num_filter.wordnumfilter method)": [[8, "data_juicer.ops.filter.word_num_filter.WordNumFilter.compute_stats"]], "compute_stats() (data_juicer.ops.filter.word_repetition_filter.wordrepetitionfilter method)": [[8, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats"]], "data_juicer.ops.filter.alphanumeric_filter": [[8, "module-data_juicer.ops.filter.alphanumeric_filter"]], "data_juicer.ops.filter.average_line_length_filter": [[8, "module-data_juicer.ops.filter.average_line_length_filter"]], "data_juicer.ops.filter.character_repetition_filter": [[8, "module-data_juicer.ops.filter.character_repetition_filter"]], "data_juicer.ops.filter.flagged_words_filter": [[8, "module-data_juicer.ops.filter.flagged_words_filter"]], "data_juicer.ops.filter.language_id_score_filter": [[8, "module-data_juicer.ops.filter.language_id_score_filter"]], "data_juicer.ops.filter.maximum_line_length_filter": [[8, "module-data_juicer.ops.filter.maximum_line_length_filter"]], "data_juicer.ops.filter.perplexity_filter": [[8, "module-data_juicer.ops.filter.perplexity_filter"]], "data_juicer.ops.filter.special_characters_filter": [[8, "module-data_juicer.ops.filter.special_characters_filter"]], "data_juicer.ops.filter.specified_field_filter": [[8, "module-data_juicer.ops.filter.specified_field_filter"]], "data_juicer.ops.filter.specified_numeric_field_filter": [[8, "module-data_juicer.ops.filter.specified_numeric_field_filter"]], "data_juicer.ops.filter.stopwords_filter": [[8, "module-data_juicer.ops.filter.stopwords_filter"]], "data_juicer.ops.filter.suffix_filter": [[8, "module-data_juicer.ops.filter.suffix_filter"]], "data_juicer.ops.filter.text_length_filter": [[8, "module-data_juicer.ops.filter.text_length_filter"]], "data_juicer.ops.filter.token_num_filter": [[8, "module-data_juicer.ops.filter.token_num_filter"]], "data_juicer.ops.filter.word_num_filter": [[8, "module-data_juicer.ops.filter.word_num_filter"]], "data_juicer.ops.filter.word_repetition_filter": [[8, "module-data_juicer.ops.filter.word_repetition_filter"]], "is_number() (in module data_juicer.ops.filter.specified_numeric_field_filter)": [[8, "data_juicer.ops.filter.specified_numeric_field_filter.is_number"]], "process() (data_juicer.ops.filter.alphanumeric_filter.alphanumericfilter method)": [[8, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process"]], "process() (data_juicer.ops.filter.average_line_length_filter.averagelinelengthfilter method)": [[8, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process"]], "process() (data_juicer.ops.filter.character_repetition_filter.characterrepetitionfilter method)": [[8, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process"]], "process() (data_juicer.ops.filter.flagged_words_filter.flaggedwordfilter method)": [[8, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process"]], "process() (data_juicer.ops.filter.language_id_score_filter.languageidscorefilter method)": [[8, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process"]], "process() (data_juicer.ops.filter.maximum_line_length_filter.maximumlinelengthfilter method)": [[8, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process"]], "process() (data_juicer.ops.filter.perplexity_filter.perplexityfilter method)": [[8, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process"]], "process() (data_juicer.ops.filter.special_characters_filter.specialcharactersfilter method)": [[8, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process"]], "process() (data_juicer.ops.filter.specified_field_filter.specifiedfieldfilter method)": [[8, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process"]], "process() (data_juicer.ops.filter.specified_numeric_field_filter.specifiednumericfieldfilter method)": [[8, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process"]], "process() (data_juicer.ops.filter.stopwords_filter.stopwordsfilter method)": [[8, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process"]], "process() (data_juicer.ops.filter.suffix_filter.suffixfilter method)": [[8, "data_juicer.ops.filter.suffix_filter.SuffixFilter.process"]], "process() (data_juicer.ops.filter.text_length_filter.textlengthfilter method)": [[8, "data_juicer.ops.filter.text_length_filter.TextLengthFilter.process"]], "process() (data_juicer.ops.filter.token_num_filter.tokennumfilter method)": [[8, "data_juicer.ops.filter.token_num_filter.TokenNumFilter.process"]], "process() (data_juicer.ops.filter.word_num_filter.wordnumfilter method)": [[8, "data_juicer.ops.filter.word_num_filter.WordNumFilter.process"]], "process() (data_juicer.ops.filter.word_repetition_filter.wordrepetitionfilter method)": [[8, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process"]], "cleancopyrightmapper (class in data_juicer.ops.mapper.clean_copyright_mapper)": [[9, "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper"]], "cleanemailmapper (class in data_juicer.ops.mapper.clean_email_mapper)": [[9, "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper"]], "cleanhtmlmapper (class in data_juicer.ops.mapper.clean_html_mapper)": [[9, "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper"]], "cleanipmapper (class in data_juicer.ops.mapper.clean_ip_mapper)": [[9, "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper"]], "cleanlinksmapper (class in data_juicer.ops.mapper.clean_links_mapper)": [[9, "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper"]], "expandmacromapper (class in data_juicer.ops.mapper.expand_macro_mapper)": [[9, "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper"]], "fixunicodemapper (class in data_juicer.ops.mapper.fix_unicode_mapper)": [[9, "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper"]], "nlpaugenmapper (class in data_juicer.ops.mapper.nlpaug_en_mapper)": [[9, "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper"]], "nlpcdazhmapper (class in data_juicer.ops.mapper.nlpcda_zh_mapper)": [[9, "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper"]], "punctuationnormalizationmapper (class in data_juicer.ops.mapper.punctuation_normalization_mapper)": [[9, "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper"]], "removebibliographymapper (class in data_juicer.ops.mapper.remove_bibliography_mapper)": [[9, "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper"]], "removecommentsmapper (class in data_juicer.ops.mapper.remove_comments_mapper)": [[9, "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper"]], "removeheadermapper (class in data_juicer.ops.mapper.remove_header_mapper)": [[9, "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper"]], "removelongwordsmapper (class in data_juicer.ops.mapper.remove_long_words_mapper)": [[9, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper"]], "removespecificcharsmapper (class in data_juicer.ops.mapper.remove_specific_chars_mapper)": [[9, "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper"]], "removetabletextmapper (class in data_juicer.ops.mapper.remove_table_text_mapper)": [[9, "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper"]], "removewordswithincorrectsubstringsmapper (class in data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper)": [[9, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper"]], "sentencesplitmapper (class in data_juicer.ops.mapper.sentence_split_mapper)": [[9, "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper"]], "whitespacenormalizationmapper (class in data_juicer.ops.mapper.whitespace_normalization_mapper)": [[9, "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper"]], "__init__() (data_juicer.ops.mapper.clean_copyright_mapper.cleancopyrightmapper method)": [[9, "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__"]], "__init__() (data_juicer.ops.mapper.clean_email_mapper.cleanemailmapper method)": [[9, "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__"]], "__init__() (data_juicer.ops.mapper.clean_html_mapper.cleanhtmlmapper method)": [[9, "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__"]], "__init__() (data_juicer.ops.mapper.clean_ip_mapper.cleanipmapper method)": [[9, "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__"]], "__init__() (data_juicer.ops.mapper.clean_links_mapper.cleanlinksmapper method)": [[9, "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__"]], "__init__() (data_juicer.ops.mapper.expand_macro_mapper.expandmacromapper method)": [[9, "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__"]], "__init__() (data_juicer.ops.mapper.fix_unicode_mapper.fixunicodemapper method)": [[9, "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__"]], "__init__() (data_juicer.ops.mapper.nlpaug_en_mapper.nlpaugenmapper method)": [[9, "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__"]], "__init__() (data_juicer.ops.mapper.nlpcda_zh_mapper.nlpcdazhmapper method)": [[9, "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__"]], "__init__() (data_juicer.ops.mapper.punctuation_normalization_mapper.punctuationnormalizationmapper method)": [[9, "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__"]], "__init__() (data_juicer.ops.mapper.remove_bibliography_mapper.removebibliographymapper method)": [[9, "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__"]], "__init__() (data_juicer.ops.mapper.remove_comments_mapper.removecommentsmapper method)": [[9, "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__"]], "__init__() (data_juicer.ops.mapper.remove_header_mapper.removeheadermapper method)": [[9, "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__"]], "__init__() (data_juicer.ops.mapper.remove_long_words_mapper.removelongwordsmapper method)": [[9, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__"]], "__init__() (data_juicer.ops.mapper.remove_specific_chars_mapper.removespecificcharsmapper method)": [[9, "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__"]], "__init__() (data_juicer.ops.mapper.remove_table_text_mapper.removetabletextmapper method)": [[9, "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__"]], "__init__() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.removewordswithincorrectsubstringsmapper method)": [[9, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__"]], "__init__() (data_juicer.ops.mapper.sentence_split_mapper.sentencesplitmapper method)": [[9, "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__"]], "__init__() (data_juicer.ops.mapper.whitespace_normalization_mapper.whitespacenormalizationmapper method)": [[9, "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__"]], "data_juicer.ops.mapper.clean_copyright_mapper": [[9, "module-data_juicer.ops.mapper.clean_copyright_mapper"]], "data_juicer.ops.mapper.clean_email_mapper": [[9, "module-data_juicer.ops.mapper.clean_email_mapper"]], "data_juicer.ops.mapper.clean_html_mapper": [[9, "module-data_juicer.ops.mapper.clean_html_mapper"]], "data_juicer.ops.mapper.clean_ip_mapper": [[9, "module-data_juicer.ops.mapper.clean_ip_mapper"]], "data_juicer.ops.mapper.clean_links_mapper": [[9, "module-data_juicer.ops.mapper.clean_links_mapper"]], "data_juicer.ops.mapper.expand_macro_mapper": [[9, "module-data_juicer.ops.mapper.expand_macro_mapper"]], "data_juicer.ops.mapper.fix_unicode_mapper": [[9, "module-data_juicer.ops.mapper.fix_unicode_mapper"]], "data_juicer.ops.mapper.nlpaug_en_mapper": [[9, "module-data_juicer.ops.mapper.nlpaug_en_mapper"]], "data_juicer.ops.mapper.nlpcda_zh_mapper": [[9, "module-data_juicer.ops.mapper.nlpcda_zh_mapper"]], "data_juicer.ops.mapper.punctuation_normalization_mapper": [[9, "module-data_juicer.ops.mapper.punctuation_normalization_mapper"]], "data_juicer.ops.mapper.remove_bibliography_mapper": [[9, "module-data_juicer.ops.mapper.remove_bibliography_mapper"]], "data_juicer.ops.mapper.remove_comments_mapper": [[9, "module-data_juicer.ops.mapper.remove_comments_mapper"]], "data_juicer.ops.mapper.remove_header_mapper": [[9, "module-data_juicer.ops.mapper.remove_header_mapper"]], "data_juicer.ops.mapper.remove_long_words_mapper": [[9, "module-data_juicer.ops.mapper.remove_long_words_mapper"]], "data_juicer.ops.mapper.remove_specific_chars_mapper": [[9, "module-data_juicer.ops.mapper.remove_specific_chars_mapper"]], "data_juicer.ops.mapper.remove_table_text_mapper": [[9, "module-data_juicer.ops.mapper.remove_table_text_mapper"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper": [[9, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper"]], "data_juicer.ops.mapper.sentence_split_mapper": [[9, "module-data_juicer.ops.mapper.sentence_split_mapper"]], "data_juicer.ops.mapper.whitespace_normalization_mapper": [[9, "module-data_juicer.ops.mapper.whitespace_normalization_mapper"]], "process() (data_juicer.ops.mapper.clean_copyright_mapper.cleancopyrightmapper method)": [[9, "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process"]], "process() (data_juicer.ops.mapper.clean_email_mapper.cleanemailmapper method)": [[9, "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process"]], "process() (data_juicer.ops.mapper.clean_html_mapper.cleanhtmlmapper method)": [[9, "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process"]], "process() (data_juicer.ops.mapper.clean_ip_mapper.cleanipmapper method)": [[9, "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process"]], "process() (data_juicer.ops.mapper.clean_links_mapper.cleanlinksmapper method)": [[9, "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process"]], "process() (data_juicer.ops.mapper.expand_macro_mapper.expandmacromapper method)": [[9, "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process"]], "process() (data_juicer.ops.mapper.fix_unicode_mapper.fixunicodemapper method)": [[9, "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process"]], "process() (data_juicer.ops.mapper.nlpaug_en_mapper.nlpaugenmapper method)": [[9, "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process"]], "process() (data_juicer.ops.mapper.nlpcda_zh_mapper.nlpcdazhmapper method)": [[9, "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process"]], "process() (data_juicer.ops.mapper.punctuation_normalization_mapper.punctuationnormalizationmapper method)": [[9, "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process"]], "process() (data_juicer.ops.mapper.remove_bibliography_mapper.removebibliographymapper method)": [[9, "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process"]], "process() (data_juicer.ops.mapper.remove_comments_mapper.removecommentsmapper method)": [[9, "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process"]], "process() (data_juicer.ops.mapper.remove_header_mapper.removeheadermapper method)": [[9, "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process"]], "process() (data_juicer.ops.mapper.remove_long_words_mapper.removelongwordsmapper method)": [[9, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process"]], "process() (data_juicer.ops.mapper.remove_specific_chars_mapper.removespecificcharsmapper method)": [[9, "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process"]], "process() (data_juicer.ops.mapper.remove_table_text_mapper.removetabletextmapper method)": [[9, "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process"]], "process() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.removewordswithincorrectsubstringsmapper method)": [[9, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process"]], "process() (data_juicer.ops.mapper.sentence_split_mapper.sentencesplitmapper method)": [[9, "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process"]], "process() (data_juicer.ops.mapper.whitespace_normalization_mapper.whitespacenormalizationmapper method)": [[9, "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process"]], "should_keep_long_word() (data_juicer.ops.mapper.remove_long_words_mapper.removelongwordsmapper method)": [[9, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word"]], "should_keep_word_with_incorrect_substrings() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.removewordswithincorrectsubstringsmapper method)": [[9, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"]], "frequencyspecifiedfieldselector (class in data_juicer.ops.selector.frequency_specified_field_selector)": [[10, "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector"]], "topkspecifiedfieldselector (class in data_juicer.ops.selector.topk_specified_field_selector)": [[10, "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector"]], "__init__() (data_juicer.ops.selector.frequency_specified_field_selector.frequencyspecifiedfieldselector method)": [[10, "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__"]], "__init__() (data_juicer.ops.selector.topk_specified_field_selector.topkspecifiedfieldselector method)": [[10, "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__"]], "data_juicer.ops.selector.frequency_specified_field_selector": [[10, "module-data_juicer.ops.selector.frequency_specified_field_selector"]], "data_juicer.ops.selector.topk_specified_field_selector": [[10, "module-data_juicer.ops.selector.topk_specified_field_selector"]], "process() (data_juicer.ops.selector.frequency_specified_field_selector.frequencyspecifiedfieldselector method)": [[10, "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process"]], "process() (data_juicer.ops.selector.topk_specified_field_selector.topkspecifiedfieldselector method)": [[10, "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process"]], "to_number() (in module data_juicer.ops.selector.topk_specified_field_selector)": [[10, "data_juicer.ops.selector.topk_specified_field_selector.to_number"]], "basecompressor (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.BaseCompressor"]], "cachecompressmanager (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.CacheCompressManager"]], "checkpointmanager (class in data_juicer.utils.ckpt_utils)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager"]], "compressmanager (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.CompressManager"]], "compressionoff (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.CompressionOff"]], "compressor (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.Compressor"]], "extractor (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.Extractor"]], "fields (class in data_juicer.utils.constant)": [[12, "data_juicer.utils.constant.Fields"]], "filelock (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.FileLock"]], "gzipcompressor (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.GzipCompressor"]], "hashkeys (class in data_juicer.utils.constant)": [[12, "data_juicer.utils.constant.HashKeys"]], "hasher (class in data_juicer.utils.fingerprint_utils)": [[12, "data_juicer.utils.fingerprint_utils.Hasher"]], "hiddenprints (class in data_juicer.utils.logger_utils)": [[12, "data_juicer.utils.logger_utils.HiddenPrints"]], "intervars (class in data_juicer.utils.constant)": [[12, "data_juicer.utils.constant.InterVars"]], "lz4compressor (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.Lz4Compressor"]], "registry (class in data_juicer.utils.registry)": [[12, "data_juicer.utils.registry.Registry"]], "statskeys (class in data_juicer.utils.constant)": [[12, "data_juicer.utils.constant.StatsKeys"]], "streamtologuru (class in data_juicer.utils.logger_utils)": [[12, "data_juicer.utils.logger_utils.StreamToLoguru"]], "zstdcompressor (class in data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.ZstdCompressor"]], "__init__() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager.__init__"]], "__init__() (data_juicer.utils.compress.cachecompressmanager method)": [[12, "data_juicer.utils.compress.CacheCompressManager.__init__"]], "__init__() (data_juicer.utils.compress.compressmanager method)": [[12, "data_juicer.utils.compress.CompressManager.__init__"]], "__init__() (data_juicer.utils.fingerprint_utils.hasher method)": [[12, "data_juicer.utils.fingerprint_utils.Hasher.__init__"]], "__init__() (data_juicer.utils.logger_utils.streamtologuru method)": [[12, "data_juicer.utils.logger_utils.StreamToLoguru.__init__"]], "__init__() (data_juicer.utils.registry.registry method)": [[12, "data_juicer.utils.registry.Registry.__init__"]], "alnum_ratio (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.alnum_ratio"]], "alpha_token_ratio (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.alpha_token_ratio"]], "avg_line_length (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.avg_line_length"]], "char_rep_ratio (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.char_rep_ratio"]], "check_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt"]], "check_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.check_model"]], "check_ops_to_skip() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip"]], "cleanup_cache_files() (data_juicer.utils.compress.cachecompressmanager method)": [[12, "data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files"]], "cleanup_compressed_cache_files() (in module data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.cleanup_compressed_cache_files"]], "compress() (data_juicer.utils.compress.basecompressor static method)": [[12, "data_juicer.utils.compress.BaseCompressor.compress"]], "compress() (data_juicer.utils.compress.cachecompressmanager method)": [[12, "data_juicer.utils.compress.CacheCompressManager.compress"]], "compress() (data_juicer.utils.compress.compressmanager method)": [[12, "data_juicer.utils.compress.CompressManager.compress"]], "compress() (data_juicer.utils.compress.compressor class method)": [[12, "data_juicer.utils.compress.Compressor.compress"]], "compress() (data_juicer.utils.compress.gzipcompressor static method)": [[12, "data_juicer.utils.compress.GzipCompressor.compress"]], "compress() (data_juicer.utils.compress.lz4compressor static method)": [[12, "data_juicer.utils.compress.Lz4Compressor.compress"]], "compress() (data_juicer.utils.compress.zstdcompressor static method)": [[12, "data_juicer.utils.compress.ZstdCompressor.compress"]], "compress() (in module data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.compress"]], "compressors (data_juicer.utils.compress.compressor attribute)": [[12, "data_juicer.utils.compress.Compressor.compressors"]], "context (data_juicer.utils.constant.fields attribute)": [[12, "data_juicer.utils.constant.Fields.context"]], "data_juicer.utils.asset_utils": [[12, "module-data_juicer.utils.asset_utils"]], "data_juicer.utils.cache_utils": [[12, "module-data_juicer.utils.cache_utils"]], "data_juicer.utils.ckpt_utils": [[12, "module-data_juicer.utils.ckpt_utils"]], "data_juicer.utils.compress": [[12, "module-data_juicer.utils.compress"]], "data_juicer.utils.constant": [[12, "module-data_juicer.utils.constant"]], "data_juicer.utils.file_utils": [[12, "module-data_juicer.utils.file_utils"]], "data_juicer.utils.fingerprint_utils": [[12, "module-data_juicer.utils.fingerprint_utils"]], "data_juicer.utils.logger_utils": [[12, "module-data_juicer.utils.logger_utils"]], "data_juicer.utils.model_utils": [[12, "module-data_juicer.utils.model_utils"]], "data_juicer.utils.registry": [[12, "module-data_juicer.utils.registry"]], "decompress() (data_juicer.utils.compress.cachecompressmanager method)": [[12, "data_juicer.utils.compress.CacheCompressManager.decompress"]], "decompress() (data_juicer.utils.compress.compressmanager method)": [[12, "data_juicer.utils.compress.CompressManager.decompress"]], "decompress() (in module data_juicer.utils.compress)": [[12, "data_juicer.utils.compress.decompress"]], "dispatch (data_juicer.utils.fingerprint_utils.hasher attribute)": [[12, "data_juicer.utils.fingerprint_utils.Hasher.dispatch"]], "extract() (data_juicer.utils.compress.extractor class method)": [[12, "data_juicer.utils.compress.Extractor.extract"]], "find_files_with_suffix() (in module data_juicer.utils.file_utils)": [[12, "data_juicer.utils.file_utils.find_files_with_suffix"]], "flagged_words_ratio (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.flagged_words_ratio"]], "flush() (data_juicer.utils.logger_utils.streamtologuru method)": [[12, "data_juicer.utils.logger_utils.StreamToLoguru.flush"]], "format_cache_file_name() (data_juicer.utils.compress.cachecompressmanager method)": [[12, "data_juicer.utils.compress.CacheCompressManager.format_cache_file_name"]], "generate_fingerprint() (in module data_juicer.utils.fingerprint_utils)": [[12, "data_juicer.utils.fingerprint_utils.generate_fingerprint"]], "get() (data_juicer.utils.registry.registry method)": [[12, "data_juicer.utils.registry.Registry.get"]], "get_caller_name() (in module data_juicer.utils.logger_utils)": [[12, "data_juicer.utils.logger_utils.get_caller_name"]], "get_left_process_list() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list"]], "get_log_file_path() (in module data_juicer.utils.logger_utils)": [[12, "data_juicer.utils.logger_utils.get_log_file_path"]], "get_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.get_model"]], "hash (data_juicer.utils.constant.hashkeys attribute)": [[12, "data_juicer.utils.constant.HashKeys.hash"]], "hash() (data_juicer.utils.fingerprint_utils.hasher class method)": [[12, "data_juicer.utils.fingerprint_utils.Hasher.hash"]], "hash_bytes() (data_juicer.utils.fingerprint_utils.hasher class method)": [[12, "data_juicer.utils.fingerprint_utils.Hasher.hash_bytes"]], "hash_default() (data_juicer.utils.fingerprint_utils.hasher class method)": [[12, "data_juicer.utils.fingerprint_utils.Hasher.hash_default"]], "hexdigest() (data_juicer.utils.fingerprint_utils.hasher method)": [[12, "data_juicer.utils.fingerprint_utils.Hasher.hexdigest"]], "is_absolute_path() (in module data_juicer.utils.file_utils)": [[12, "data_juicer.utils.file_utils.is_absolute_path"]], "lang (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.lang"]], "lang_score (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.lang_score"]], "lines (data_juicer.utils.constant.intervars attribute)": [[12, "data_juicer.utils.constant.InterVars.lines"]], "list() (data_juicer.utils.registry.registry method)": [[12, "data_juicer.utils.registry.Registry.list"]], "load_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt"]], "load_words_asset() (in module data_juicer.utils.asset_utils)": [[12, "data_juicer.utils.asset_utils.load_words_asset"]], "max_line_length (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.max_line_length"]], "meta (data_juicer.utils.constant.fields attribute)": [[12, "data_juicer.utils.constant.Fields.meta"]], "minhash (data_juicer.utils.constant.hashkeys attribute)": [[12, "data_juicer.utils.constant.HashKeys.minhash"]], "modules (data_juicer.utils.registry.registry property)": [[12, "data_juicer.utils.registry.Registry.modules"]], "name (data_juicer.utils.registry.registry property)": [[12, "data_juicer.utils.registry.Registry.name"]], "num_token (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.num_token"]], "num_words (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.num_words"]], "perplexity (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.perplexity"]], "prepare_diversity_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.prepare_diversity_model"]], "prepare_fasttext_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.prepare_fasttext_model"]], "prepare_huggingface_tokenizer() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.prepare_huggingface_tokenizer"]], "prepare_kenlm_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.prepare_kenlm_model"]], "prepare_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.prepare_model"]], "prepare_nltk_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.prepare_nltk_model"]], "prepare_sentencepiece_model() (in module data_juicer.utils.model_utils)": [[12, "data_juicer.utils.model_utils.prepare_sentencepiece_model"]], "record() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager.record"]], "redirect_sys_output() (in module data_juicer.utils.logger_utils)": [[12, "data_juicer.utils.logger_utils.redirect_sys_output"]], "refined_words (data_juicer.utils.constant.intervars attribute)": [[12, "data_juicer.utils.constant.InterVars.refined_words"]], "register_module() (data_juicer.utils.registry.registry method)": [[12, "data_juicer.utils.registry.Registry.register_module"]], "save_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[12, "data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt"]], "setup_logger() (in module data_juicer.utils.logger_utils)": [[12, "data_juicer.utils.logger_utils.setup_logger"]], "simhash (data_juicer.utils.constant.hashkeys attribute)": [[12, "data_juicer.utils.constant.HashKeys.simhash"]], "special_char_ratio (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.special_char_ratio"]], "stats (data_juicer.utils.constant.fields attribute)": [[12, "data_juicer.utils.constant.Fields.stats"]], "stopwords_ratio (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.stopwords_ratio"]], "suffix (data_juicer.utils.constant.fields attribute)": [[12, "data_juicer.utils.constant.Fields.suffix"]], "text_len (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.text_len"]], "update() (data_juicer.utils.fingerprint_utils.hasher method)": [[12, "data_juicer.utils.fingerprint_utils.Hasher.update"]], "update_fingerprint() (in module data_juicer.utils.fingerprint_utils)": [[12, "data_juicer.utils.fingerprint_utils.update_fingerprint"]], "word_rep_ratio (data_juicer.utils.constant.statskeys attribute)": [[12, "data_juicer.utils.constant.StatsKeys.word_rep_ratio"]], "words (data_juicer.utils.constant.intervars attribute)": [[12, "data_juicer.utils.constant.InterVars.words"]], "write() (data_juicer.utils.logger_utils.streamtologuru method)": [[12, "data_juicer.utils.logger_utils.StreamToLoguru.write"]]}})
\ No newline at end of file