Skip to content

Commit

Permalink
fix comments
Browse files Browse the repository at this point in the history
  • Loading branch information
mh-northlander committed Oct 15, 2024
1 parent b0262a8 commit a816fff
Show file tree
Hide file tree
Showing 2 changed files with 9 additions and 3 deletions.
11 changes: 8 additions & 3 deletions benchmark/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -27,7 +27,8 @@ command: `benchmark_run.sh corpus_file`

### benchmark_multithread.sh

指定のテキストファイルを解析するスレッドを複数同時に実行する。
指定のテキストファイルを解析するスレッドを指定数同時に実行する。
各スレッドは一つの辞書インスタンスから生成した個別のトークナイザーインスタンスを持たせる。
解析結果は `/dev/null` に出力、対象ファイルや開始/終了時刻情報を `data/benchmark.log` に追記する。

command: `benchmark_multithread.sh corpus_file [num_thread [dict_type]]`
Expand All @@ -36,19 +37,22 @@ command: `benchmark_multithread.sh corpus_file [num_thread [dict_type]]`
- `num_thread`: 作成するスレッド数 (default 3)
- `dict_type`: 使用する辞書タイプ (default "small")

## Scripts
## Corpus scripts

### kyoto-leads-corpus.sh

[Kyoto University Web Document Leads Corpus](https://github.com/ku-nlp/KWDLC) を取得し、setup および run を実行する。

command: `kyoto-leads-corpus.sh`

- 引数なし

### jawikipedia.sh

[Wikipedia 日本語版ダンプデータ](https://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89)を取得し、setup および run を実行する。
サイズが非常に大きいため、先頭から指定サイズのみを対象とする。

- 事前に [wikiextracutor](https://github.com/attardi/wikiextractor) のインストールが必要
- `data/jawiki_[DUMP_DATE]/` 以下にデータを格納する。

command: `jawikipedia.sh [dump_date [size]]`
Expand All @@ -63,11 +67,12 @@ command: `jawikipedia.sh [dump_date [size]]`

非日本語のサンプルとして利用するため、言語判別は行わず、また HTML を抽出して使用する。

- 事前に python および [warcio](https://pypi.org/project/warcio/) のインストールが必要
- `data/cc[CRAWL_DATE]/` 以下にデータを格納する。

command: `commoncrawl.sh [crawl_date [file_index [num_records]]]`

- `crawl_date`: クロールデータの生成日時 (CC-MAIN-\*, default "2024-33")
- `file_index`: 使用する WARC ファイルの warc.paths ファイル中の行数 (default 1)
- `num_records`: 使用するレコード数(対象 WARC の先頭から取得) (default 1000)
- 2024-33 では 1000 レコードでおよそ 50M
- 目安として、2024-33 では 1000 レコードでおよそ 50M
1 change: 1 addition & 0 deletions benchmark/benchmark_run.sh
Original file line number Diff line number Diff line change
@@ -1,5 +1,6 @@
#!/bin/bash
# Tokenize given file, with each of small/core/full dict and A/B/C mode.
# assume `benchmark_setup.sh` is called beforehand.

set -eux
DIR=$(dirname "$(readlink -f "$0")")
Expand Down

0 comments on commit a816fff

Please sign in to comment.